1.文章简介
文章题目 | Detecting circular RNAs: bioinformatic and experimental challenges |
中文题目 | 环状RNA的检测:生物信息和实验面临的挑战 |
期刊名 | nature reviews genetics IF:40.282 |
作者 | |
发表时间 | 2016.11 |
实验材料 | NA |
测序平台 | NA |
相关产品 | CircRNA-seq |
2.研究背景
1. circular RNA的表达普遍存在
2. 目前有一些针对circular RNA数据的一些算法,但是各算法间的overlap不高,并且没有一个较好的标准评估这些算法
3. 不同的RNA实验方法,也会对circular RNA的检出造成不同的影响。
3.研究方法
从生物信息分析和实验角度对circular RNA检出进行综述。
研究思路
1.讨论目前在实验和生物信息分析上可能导致的circular RNA错误检出
2.比较目前circular RNA检出软件的特点和不足
3.提出测试circular RNA检测是否准确的方法
文章亮点
1.阐述了检测circular RNA时实验可能造成的误差
2.阐述了生物信息分析方法对circular RNA检测的影响,并且从多个角度比较了部分目前检测circular RNA的软件。
3.提出测试circular RNA检测是否准确的方法。
4.研究结果
4.1 circular RNA的形成机制
circular RNA可以从编码或非编码的基因区域产生,线性RNA通过pre-mRNA的上游3’剪接位点和下游5’剪接位点之间的共价连接形成,而circular RNA则是下游3’剪接位点和上游的5’剪接位点连接通过backsplicing形成的共价连接。 circular RNA缺少poly(A)尾巴,可以包含一个外显子或多个外显子以及内含子(Fig. 1)。
Figure1:环状RNA
4.2 检测circular RNA实验面临的挑战
在实验上,有一些策略和操作会影响circular RNA的检出,作者首先从RNA提取纯化(Fig. 2Aa),RNA长度选择(Fig. 2Ab),引物等角度讲述了实验部分对circular RNA检出的影响。使用rRNA消解和RNase R 进行提取纯化RNA,会更富集circular RNA;长度选择时可能会漏掉一些较小的circular RNA;如果使用Oligo(dT)这样的引物,也会影响circular RNA的富集,因为circular RNA没有polyA尾(Fig. 2Ac)。
其次作者从加接头,连接酶等角度阐述了实验中可能引入人工产物,导致检出假阳性的circular RNA(Fig. 2Ba-Bb);如果circular RNA较小 ,在进行RT时,会出现一个circular RNA中有一个外显子的多拷贝,这也会影响circular RNA的检出(Fig. 2Bc)。
Figure2:实验对circular RNA检出的影响
4.3 检测circular RNA生物信息分析面临的挑战
由于一些circular RNA的表达量较低,这会影响其检出。对于单端测序的reads,只有覆盖到backsplicing junction的reads才有效。一些测序错误或者外显子边界有同源的motif,将会影响circular RNA的检出(Fig.3)。各个软件在处理一些常见的假阳性时,都采取了一定的策略,这样使得程序有一定的偏好性,从而带来程序的一些盲点,比如,程序使用已知注释信息就会使得一些在未被注释的外显子边界发生backsplicing的情况漏检,使用经典的GT-AG外显子边界(U2),就会漏掉在其他类型的外显子边界(U12)发生backsplicing的情况(Fig.4)。有的研究通过提高软件阈值或使用联合打分来降低假阳性,或者考虑和宿主基因的表达相关联进行分析。
Figure3:RNA-seq中检测环状RNA的挑战
Figure4:单基因座形成多种circRNA
4.4 目前circular RNA检测软件的比较
作者比较了目前circular RNA检测软件的优势与盲点,剪接位点的考虑,所用比对软件等。使用双端reads更有利于backsplicing检出。多数软件考虑了在backsplicing junction的reads数来过滤假阳性,但有研究表明这种过滤可能不可靠。不同的软件算法不同,甚至可能会导致结论大相径庭,如Circular RNAseq检出circular RNA的单外显子均长690nt,CircExplorer 则是353nt,而KNIFE 是260nt。一些软件不依赖于已知的注释信息,但是要求reads是uniq 比对的,并且也考虑了同源序列的影响。一般来讲,reads数越多,程序检测circular RNA的敏感性和特异性就越好。在全基因组范围内,各软件对circular RNA的检出呈现出一定的一致性:circular RNA 表达的普遍性;与宿主基因的表达水平没有相关性;较长的内含子侧翼序列富集;circular RNA中没有miRNA结合位点的富集。
4.5 测试circular RNA检测是否准确的方法
基于目前的circular RNA检测所面临的挑战,作者提出了测试circular RNA检测的是否准确的方法,并对这些方法的优势和局限等进行了讨论(Tab. 1)
方法 | circular RNA 特异 | 优势 | 实验局限 | 生信分析局限 |
RNase R消解 | 是 | 通过降解线性RNA来富集circular RNA,从而更容易检测低表达的circular RNA | 需要对照; 一些circular RNA对RNase R敏感;重复性较差 |
使用reads数的变化倍数来下结论而不考虑置信区间;需要合适的标准化方法 |
Poly(A)库消解 | 是 | 使用预期的消解情况评估结果 | 需要poly(A)+和poly(A)-对照;表达量低的circular RNA检测变化较大 | 使用reads数的变化倍数来下结论而不考虑置信区间;需要合适的标准化方法 |
诱饵reads | 否 | 排除实验和比对的人工产物;可以用来鉴定没有诱饵reads的人工产物 | 实验和比对的人工产物可产生和circular RNA一致的reads,所以假阳性率可能被低估 | 诱饵reads可能与另外一个未被评估的模型一致; 仅适用于PE数据; |
特异RT | 否 | 排除由模板转换导致的假阳性 | 不同组别差异较大;假阴性较高 | 不能排除测序和比对的错误 |
模拟数据 | 否 | 根据已知的误差评估敏感性和特异性 | – | 真实的数据有未知的基因模型和错误,模拟数据不清楚如何转换 |
5.参考文献
Szabo, L, Salzman J, 2016. Detecting circular RNAs: bioinformatic and experimental challenges. Nat Rev Genet, 17(11), 679-692.