基于新一代测序技术的全基因组表达谱分析方法,可以对任何物种在全基因组范围内进行精确的数字化基因表达定量分析;加上前期好的实验设计,可以通过样本间基因表达差异比较,准确鉴定与特殊性状相关的候选基因; 进一步通过生物信息学方法和后续实验对候选基因进行功能分析和验证,将有助于在疾病、功能基因组、转录组、育种等研究领域取得重要的科学发现,发高质量的文章。 (“表达谱方法详细介绍”详情见下)
为了让更多研究者体验基于新一代测序技术的全基因组表达谱分析方法在生物、医学、育种研究中的巨大优势,华大基因推出了“测一赠一”表达谱新体验活动。活动细节如下:
- 1、凡是在2008年11月18日~2008年12月28日期间签订合同并付款的表达谱项目,都可以享受“测一赠一”的优惠,赠送的部分包括样品制备费用(5000元)和上机测序费用(28000元)。
- 2、由于准备样品需要时间,可以在活动结束后再寄送样品。
- 3、联系方式:
服务邮箱:tech@genomics.org.cn
客服电话:0755-25273045
华大基因科技服务网址:http://sequencing.genomics.com.cn
注:本活动的最终解释权归华大基因所有。
基于新一代测序技术的全基因组表达谱分析方法介绍
一、技术路线
该方法首先从每个mRNA的3’端酶切得到一段21bp的TAG片段(特异性标记该基因);然后通过高通量测序,得到大量的TAG序列,不同的TAG序列的数量就代表了相应基因的表达量; 通过生物信息学分析得到TAG代表的基因、基因表达水平、以及样品间基因表达差异等信息。技术路线如下:
1、 样品准备:
a) 提供浓度≥300ng/ul、总量≥6ug、OD260/280为1.8~2.2的总RNA样品;
2、 样品制备(见图1-1):
a) 类似SAGE技术,通过特异性酶切的方法从每个mRNA的3’末端得到一段21bp的特异性片段,用来标记该基因,称为TAG;
b) 在TAG片段两端连接上用于测序的接头引物;
3、 上机测序:
a) 通过高通量测序每个样品可以得到至少250万条TAG序列;
4、 基本信息分析:
a) 对原始数据进行基本处理,得到高质量的TAG序列;
b) 通过统计每个TAG序列的数量,得到该TAG标记的基因的表达量;
c) 对TAG进行注释,建立TAG和基因的对应关系;
d) 基因在正义链和反义链上表达量间的关系
e) 其它统计分析;
5、 高级信息分析:
a) 基因在样品间差异表达分析;
b) 库容量饱和度分析;
c) 其它分析;

图1-1 样品制备技术路线
二、测序优势
利用高通量测序进行表达谱研究的优势很明显,具体如下:
- 1.数字化信号:直接测定每个基因的特异性表达标签序列,通过计数表达标签序列的数目来确定该基因的表达量,大大提高了定量分析的准确度。 整体表达差异分布符合正态分布,不会因为不同批次实验引起不必要的误差。
- 2.可重复性高:不同批次的表达谱度量准确,能够更准确的进行表达差异分析。
- 3.高灵敏度:对于表达差异不大的基因能够灵敏的检测其表达差异;能够检测出低丰度的表达基因。
- 4.全基因组分析,高性价比:由于该技术不用事先设计探针,而是直接测序的方式,因此无需了解物种基因信息,可以直接对任何物种进行包括未知基因在内的全基因组表达谱分析,因此性价比很高。
- 5.高通量测序:已有数据表明,当测序通量达到200万个表达标签时,即可得到样本中接近全部表达基因的表达量数据,而目前每个样本分析可以得到300万~600万个表达标签。
- 6.无需重复实验。
- 7.可同时发现新的转录本、基因组表达调控区域等。
- 8.完整深入的生物信息学分析支持,更有助于进行重要的科学发现,发高质量的文章。
这些优势在下面两部分内容(测序与芯片比较分析、表达谱案例分析)中都有体现,总结如下:
| 优势 | 在比较分析和案例分析的体现 |
|---|---|
| 数字化信号 | 案例分析内容1、图3-1 |
| 可重复性好 | 图3-1、图3-2 |
| 高灵敏度 | 图4-3、图3-2、图3-4 |
| 全基因组分析,高性价比 | 案例分析内容5 |
| 高通量测序 | 案例分析内容1 |
| 无需重复试验 | 案例分析内容2、3 |
| 可检测新转录本、基因调控 | 案例分析内容5、比较分析内容6 |
| 生物信息学分析支持 | 比较分析内容7 |
三、测序与芯片比较分析
1、 Ratio的分布

图3-1 新测序技术(Solexa)和Array的Ratio分布图图3-1中,“Uniq In Array”表示Array独有的数据,“Uniq In Solexa”表示Solexa独有的数据,“Common-”表示两种样本(10T和5T)共有的数据。可以看出,Array的Ratio数据出现“异常”分布,出现“小鼓包”。
2、 两个样品之间的“信号”强度的关联性

图3-2 两个样品之间的“信号”强度关联性从上图可以看到,Array方法由于噪音干扰,cutoff的选取较不稳定。图3-1中的小鼓包在图3-2左图的圈中,说明“小鼓包”处很有可能出现错误。
图3-2中,我们看到“Uniq In Solexa”的表达基因数据大部分集中在(0, 0)—(1.5, 1.5)之间,表明使用新一代测序技术研究表达谱具有高敏感的特性,可以捕捉到很多低表达的基因。
3、 新一代测序技术的测序深度与Array信号强度的比较

图3-3 新一代测序技术的测序深度与Array信号强度的比较从图3-3上看到芯片数据在信号强度的cutoff上差异较大,体现了芯片信号强度(噪音强度)的不稳定性。另外,两种技术得到的数据有一定的相关性。在“核心区”,有80%的数据一致性较好。 有一部分表达的基因在新一代测序技术中的Tag数较少,但是芯片有很高的强度。这部分恰好很多是处于Ratio分布的“小鼓包”处,不符合正态分布,错误的可能性极大。
4、 分段ratio内的表达量分布分析

图3-4 分段Ratio内的表达量分布分析根据分段Ratio表达量分布,我们可以看出用新一代测序技术得到的表达谱结果的Ratio值更加灵敏。这是因为这种深度测序的方法得到的是数字表达谱,而芯片技术是杂交信号。
5、 两种技术数据的置信度分析
本例中,芯片数据同深度测序数据捕捉到的基因个数相似。由于这里深度测序用的Tag全部都是Unique的。即我们定位得到都是可信度很高的表达量数据。 芯片由于杂交信号可能因为探针序列的相似性而互相影响。因此数据可能会有一些误差。
关于探针序列相似性的影响:我们目前正在进行更深入地分析,以便估算芯片数据问题的大小。
6、 新测序技术产出数据的其他应用
由于我们尚有50%的Tag数据没有应用。这些数据中,60%可以用于基因的分析,另有40% 定位在基因组未注释的区域。通过使用新一代测序技术进行深度测序得到的数据,为进一步研究新的转录本、基因组表达调控区域等,提供了强大的数据支持。 这部分工作尤其可以针对那些Ratio差异较大的区域进行更详细的生物信息学分析。另外,利用这些数据还可以进行一些结构突变的分析。
7、 生物信息学分析
表达谱项目而言,前期的实验设计和后期的生物信息学分析对于取得重要科学发现,发高质量文章是至关重要的。
目前许多芯片厂家需收费进行基本分析。如一些芯片分析软件一年使用权达到1万美金,且仅仅只是得到基因的表达量而已。
我们可以辅助进行实验设计,针对要解决的科研学问题提供最佳的方案。基本生物信息学分析可以满足表达谱项目的大部分需要。高级生物信息学分析可以提供更多、更深入的后续分析, 包括差异表达基因的鉴定,Pathway, GO, Cluster等基因功能分析。个别案例,还可以根据客户需求开发新的分析流程。
四、表达谱案例分析
肺癌组织的表达谱分析:选取2个肺癌病人(5T和10T)的组织提取总RNA,进行分析。
实验目的:为了检测两个病人中表达差异较大的基因,以便找出两个病人症状差异的原因,并进行下一步相关的研究。
通过新一代测序技术进行全基因组表达谱分析研究,内容如下:
1、 数据质量的概述
通过严格的质量标准筛选后,通过率达到80%,最终得到500万左右的Tag标签。
2、 标签的初步分析统计
两个样品中有95%的Tag重复频度超过1,73%以上的Tag重复频度超过50。
3、 表达谱测序饱和度分析
通过对表达谱测序饱和度的分析,通常在表达谱Tag数目达到200万时,测序Tag接近饱和。因此,通过Solexa测序,仅需要1次试验,就可以得到足够后续进行表达分析的数据。
4、 样品重复性。
图4-1显示了新一代测序技术得到的表达谱测序数据的稳定性。

图4-1 表达谱测序数据可重复性分析5、 Tag标签的注释(含cDNA,预测基因,EST,线粒体基因组,基因组等)
本案例中,人的2万7千个基因中有50~60%都被Tag所覆盖。即一般的基因的表达量差异被检测出来。为了提高Tag同基因关联的可信度,我们仅仅选取了在基因序列中唯一定位的Tag。这部分唯一定位的Tag占全部Tag数目的50%左右。
另外,除去上述用于基因表达量统计的唯一定位Tag,有大约20%的Tag被定位到了基因组的未注释区域,其中大约有10万个Tag在基因组上的位置是唯一的。 利用这些数据我们找到了许多新的转录本和调控区域。同时发现了若干潜在的两个样品间显著差异的区域。为后续的实验提供了可靠的研究目标。
6、 参考Tag标签的统计分析
下表显示的人的参考Tag的统计信息,我们可以看到96.53%的基因都拥有Tag。说明Tag-based 新一代测序技术的方法进行表达谱分析的可行性。
表4-1 人的参考Tag的统计信息 1 Reference Tag Databases - - cDNA 27,239 - genes have CATG site 26,295 96.53% No. of total reference tags 450,387 - No. of unambiguous tags 191,705 42.56% No. of ambiguous tags 258,682 - 7、 基因表达量的分布统计
样品间的基因表达量的分布(图4-2)
a)
b)

图3-2 a)为10T 的基因表达量分布;b)为5T 的基因表达量分布8、 样本间表达差异基因的相关分析
通过对表达差异基因的统计和分析,我们可以选取样品间表达存在差异的基因,反馈给用户; 此外一些已经报道可能相关的基因,是这一部分研究的重点,通过表达差异,我们可以推测出相关基因可能发生的变化。 针对此例,图4-3中2个基因是已经报道的在10T样品中高表达的基因。

图4-3 5T和10T的基因差异表达分析9、 样本间表达差异的信号通路的相关分析
对9种的基因进行基因功能的分析,进行涉及信号通路的研究,提供可能被激发的信号通路列表,以便进行后续进一步分析。
10、 根据Tag距离3’端的位置对tag和基因数目进行的统计分析

图4-4 Tag和基因数目的统计分析11、 Tag标签表达同其反义Tag标签的表达关系
通过对反义Tag的研究,可以探索是否存在反义表达的现象。