您好,欢迎来到保捱科技网。
搜索
您的当前位置:首页基于高通量测序技术的基因组结构变异检测算法

基于高通量测序技术的基因组结构变异检测算法

来源:保捱科技网
第l2卷第1期 生物信息学 Vo1.12 No.1 2 0 1 4年3月 Chinese Journal of Bioinformatics Mar.,2014 doi:10.3969/j.issn.1672—5565.2014.01.02 基于高通量测序技术的基因组结构变异检测算法 高敬阳,齐飞,管瑞 (北京化工大学信息科学与技术学院,北京100029) 摘要:基因组结构变异的检测是生物信息学的重要方向之一。本文分别对基于高通量测序技术的双末端映射方法、映射分 布方法、片段方法和序列拼接方法等检测技术的四种算法进行详细的解读和说明,阐述了以上四种方法两两结合的检测 算法,并分析了各种检测方法的性能和适用的条件,说明混合结合的方法将会成为未来发展的方向。 关键词:生物信息学;高通量测序技术;结构变异(SV) 中图分类号:R318.04 文献标志码:A 文章编号:1672-5565(2014)一01-005-05 High—throughput based algorithm of detecting genome structural variation GAO Jingyang,QI Fei,GUAN Rui (School ofInformation Science&Technology,Belitng University ofChemical Technology,Beijing 100029,China) Abstract:Structural variation detection is one of the most important directions of bioirformatics research.In this paper,we firstly illustrated four sequencing-based approaches in detail,read—pair,read—depth,split—read and assembly.Then we introduced algorithms based on pair wise combination of those four approaches,and analyzed their performance and conditions.Finally,we argued that the combined approaches will be the direction of the future. Keywords:Bioinformatics;High-throughput sequencing(HTS);Structural variation(SV) DNA测序技术即基因测序技术是研究基因组 一个月即可完成 ,但高通量测序产生的测序片 结构变异的重要方法。基因组结构变异是指一定长 段并没有sanger测序结果准确,所以使得基于高通 度范围的DNA序列上的差异,包括缺失、插入、重 量测序的四种算法在未来的研究中有很大的改进和 复、倒置等…。 提升空间 。 如何利用测序技术检测基因组结构变异中的插 入、缺失、重复、倒置等情形是问题的关键。目前基 1结构变异检测方法 于测序技术的算法主要有四种,分别是双末端映射、 映射分布、片段和序列拼接技术。前三种技术 1.1双末端映射方法 均通过将短序列片段(Reads)映射到参考基因组 双末端映射方法(Paird-end mapping)也称为 上,通过对比个体基因组和参考基因组之间的差异 片段对方法(Read—pair),其首先通过高通量测序 信息来确定基因组结构变异,而序列拼接方法是通 技术获得大量个体基因片段对,得到这些片段对 过拼接算法将短序列片段组装还原个体的整个基 中的如碱基的组成、片段的长度以及片段对之间 因,然后将这个拼接好的基因同参考基因组做对比 的距离等信息,然后利用基于比对算法BWT、 来检测结构变异。 BWA、MAQ等的映射工具,将这些片段对映射到 相比之前的sanger测序技术 而言,高通量 参考基因组上,获得如片段对在参考基因组的映 测序技术有着测序速度快、耗费低等优点¨.4 J,人类 射距离以及映射方向,最后将这些映射的信息与 全基因组测序使用高通量测序仪只需数千美元不到 个体基因片段对信息进行对比,从而检测出基因 收稿日期:2013—10—25;修回日期:2013一l1—27. 基金项目:国家自然基金资助项目(51275030)。 作者简介:高敬阳,女,副教授,博士。研究方向:人工智能,生物信息学;E—mail:gaojy@mail.buct.edu.en 6 生 物 信 息 学 第12卷 组的结构变异。 通过高通量测序可以从个体上得到大量的 reads,这些reads的长度,碱基组成是已知的。正常情 况下,这些reads映射到参考基因组中各个区域的数 双末端映射方法就是聚类至少两种不一致的片 段对,包括片段对之间的距离和映射的方向。正常 情况下,映射到参考基因上片段对之间的距离和映 射的方向都是固定的,但是当存在结构变异时,例如 片段中的缺失(见图1),就会使得映射到参考基因 上片段对之间的距离和库中的距离不一致,这时片 段对之间的距离等于库中的距离加上缺失片段的长 度。同理,如果存在片段插入(见图2),映射到参考 基因上的片段对之间的距离等于库中的距离减去插 量应该是相等的,但是当个体基因存在结构变异时, 某个区域映射的reads会比其他区域映射的数量或者 多或者少,这就说明在该区域存在着片段重复或者缺 失(见图4、图5)的情况。EWT(The event—wise. testing)¨ 和CNVnator算法¨ 驯都是基于此方法 入片段的长度。当变异为片段倒置的时候(见图 3),片段对中的一个片段映射到该区域的方向和库 中的一致,而另一个片段的映射方向相反,则说明在 dt・letion 该区域内存在着基因片段的倒置。原则上,双末端 映射方法可以检测到大多数的基因组结构变异。 图4映射分布方法检测到的缺失 Fig.4 Deletion detected by read-depth 双末端映射方法是当前最广泛应用的方法,许 多算法都是基于此方法,例如PEMer。。 , Varisti(mHunter MOGUL , BreakDance ,, MoDILI‘3。, ,HYDRA ” Corona 16]等算法。 一, , —— , duplic・ation I{‘、ad—pail’ 图5 映射分布方法检测到的重复 Fig.5 Duplication detected by read—depth 图1双末端映射方法检测到的缺失 Fig.1 Deletion detected by read-pair 1-3片段方法 片段方法(Split—read)最初是为sangel’测 序开发的 ,片段的长度越长,检测基【大1结构变异 的效果越好。 Read——I)air 顾名思义,片段方法就是将reads成两 部分分别映射的方法,一个完整的reads通过与参考 图2 双末端映射方法检测到的插入 Fig.2 Insertion detected by read-pair 基因组的映射,可能出现映射不成功的情况。该方法 将一个没有映射的片段从不同的碱基位置依次 成两段,再将这两个小的片段分别映射到参考基 组 j 茭 lc!!!!,l___已!!!!!15 c!!!!!l——ll!!!! 中,如果这两个片段在某个区域能够分别映射,说明 在该区域基因存在着片段缺失(见图6),并且缺失长 度为两个片段映射之后在参考基因中的距离 同理, 图3双末端映射方法检测到的倒置 Fig.3 Inversion detected by read-pair 当基因中存在片段插入时(见图7),片段的两部 分只能映射上一个,而在另一种情况下也只能映 射一个,而这两次映射恰好在参考基因组中相邻。当 片段的两部分均能够映射到参考基冈组上,但映 1.2映射分布方法 映射分布方法(Read—depth)也称为映射深度分 析法,它是通过分析映射深度来判断该区域是否存 在结构变异。所谓的映射深度是衡量该reads在参 考基因组中的映射程度。 射方向不同,这说明存在基因结构倒置(见图8) 、 Kai Ye等人提出的Pindel 算法、Alexej Abyzov等人 提出的AGEl1 算法和Zhang Jing等人提f“的 SVseq}24 J算法就是基于该方法的典型算法。 第1期 高敬阳,等:基于高通量测序技术的基因组结构变异检测算法 7 最原始的片段组装算法有效,那么所有的结构变异 —_.、、 、 J广]J  , 是可以被检测到的。但在实际中,序列组装还仅仅 是在研究的初期,目前还只能应用原始和局部的结 合算法恢复原始基因组。理想的情况下,高质量的 原始片段组装法可以找到上千个结构变异。 基于高通量测序技术的原始组装算法主要有 EULER.USR 西,、 \ 、 、 , 、 , 、, ■—— .一——— , , , ABYSS ,SOPdenovo 和ALLPATI-LS. 图6片段方法检测到的缺失 Fig.6 Deletion detected by split-read LG【嚣 等 refeFence ^I,、/ 、、 、 、 I ;: 0 , 、 ~~~~~一 Fefel-t ̄n(,e / 、 l .........一 I 图l0序列拼接方法检测到的插入 Fig.10 Insertion detected by assembly 图7片段方法检测到的插入 Fig.7 Insertion detected by split-read \ \ / / \ / V /\ / \ / \ 图l1序列拼接方法检测到的倒置 Fig.1 1 Inversion detected by assembly 2检测方法的性能 图8片段方法检测到的倒置 Fig.8 Inversion detected by split-read 根据基因变异类型的不同,以上四种方法有着 各自的优缺点和应用范围。当前,90%以上的高通 1.4序列拼接方法 量测序片段长度小于1 kb,而且大部分结构变异都 为缺失而非插入 。双末端映射方法虽然很具 序列拼接方法(Assembly)是通过将测序得到的 诸多基 片段重新组装,并与参考基因组进行对比, 通过比较与参考基因组之间的差异,找到基因的结 构变异,如图9、10、1 1 优势,能够检测到几乎所有的结构变异,但是在检测 结构重复时并不是很准确,而且如果需要检测真正 的断点就必须建立紧密的片段分布,这会使得库的 建立非常的困难和消耗巨大 。映射分布方法町 以真正的找到重复的区域,但是却很难确定断点的 准确位置,所以该算法主要被用来检测重复的数量。 片段方法不仅可以像双末端映射方法一样检测 到缺失、插入和倒置,而且还可以确定移动元素插入 的位置,但检测移动元素插入时,片段的长度必须大 C.ntig/s ̄・afro 于这个移动元素的长度。虽然片段方法可以找 到许多基因结构变异的断点,但由于高通量测序产 生的片段都相对较短,所以,制约着片段方法的 效果。序列拼接方法是最通用的算法,但是当该区 域发生片段重复时,就可能使得该方法在该区域产 生崩溃性的错误 如 。上述提到的方法只能找到相 图9序列拼接方法检测到的缺失 Fig.9 Deletion detected by assembly 理沦上,如果测序得到的片段足够准确以使得 8 。生 物 信 息 学 第l2卷 对较小的基因组结构变异而且尚存在较多不足之处。 高通量测序技术特点之一是产生的片段长度较 之前的sanger测序的长度短。由于人类基因组非常 的复杂,所以需要通过片段的模糊映射来提高映射的 专一性和敏感性。一项评估表明:即使长度超过1 kb 的片段也会有超过1.5%的人类基因组很难被唯一的 映射 。测序的覆盖度也是影响结构变异检测敏感 性和精确性的一个重要因素。正因为如此,促使一些 新的算法的涌现来提高检测的敏感性和精确性。 3混合检测方法 以上四种检测方法每一种在应用方面虽然 有许多优点,但是缺陷和也非常明显。因此,有 研究者在实际应用中尝试将其中两种算法相结合来 检测基因组结构变异。算法的结合主要是为了克服 使用一种算法时的,从而得到更好的检测效果。 3.1双末端映射方法和映射分布方法结合 CNVer_3到是将双末端映射方法和映射分布方 法相结合的算法,其主要被应用在检测基因组结构 的重复,也称为拷贝数的检测,该算法克服了应 用一种方法时的不足,例如利用双末端映射方法检 测的插入片段时,该长度必须小于片段对中间的距 离,否则无法检测出该插入片段,但是高通量测序技 术产生的片段对之间的距离往往小于1 kb,所以很 可能漏掉此片段。并且两种方法结合还可以提高检 测的鲁棒性。 3.2双末端映射方法和片段方法结合 Pindel方法是双末端映射和片段方法结合 的算法,它是第一个能够检测到缺失的长度达到 l0 kb而片段对的长度只为36 bp的算法。而且该 算法也提出了一个新的检测断点的方法:增长模式 法。该方法可以相对快速的检测结构变异中的断 点。该算法的出现利用双末端映射方法来减小潜在 的结构变异的搜索空间,因此,减少了短片段映射到 参考基因组时局部间隙的计算量,提高了检测效率。 Svseq算法的出现使得准确率进一步提升,该方 法相对于Pindel方法不同,分为两步,一是利用加 强的片段映射来找到多个候选的缺失,第二步 利用已经映射的片段对过滤掉候选中的假缺失,保 留下真缺失。 3.3片段方法和机器学习方法结合 众所周知,如何利用高通量测序技术精确地检 测基因组结构的变异是一项重大的挑战。而现存的 方法通常通过检测某个区域映射的信息,例如映射 的片段的数量,然后人为的设定一个映射片段 数量的阈值,大于这个阈值的被检测到的变异为真 正的基因结构变异。但这个阈值往往很难确定。 Dominik Grimm等人提出了一种关于机器学习 的基因组结构变异检测方法 3引,该方法主要是将支 持向量机和片段方法相结合,所谓的支持向量机 就是一个分类模型,它通过一个超平面将样本分为不 同的两类。该检测方法根据参考基因映射的特征来 训练一个支持向量机的模型,这个训练的数据是通过 sanger测序得到的。首先利用片段方法来检测 基因中的插入和缺失,将这部分检测到的插入和缺失 作为候选,然后再利用训练好的支持向量机从候选的 插入和缺失中筛选出正确的基因结构变异。 利用机器学习最大的优势是可以和任何一种检 测方法相结合,该检测过程可以从机器学习过程中自 动的获得权值参数,而不需要人为的设定,所以避免 了人为的错误,提高了检测的精度。 4结论 本文介绍了双末端映射、映射分布、片段和 序列拼接四种基因组结构变异检测方法,详细阐述 了各种检测方法以及其优势与适用的条件,并总结 和归纳了几种检测方法相结合的混合检测算法。混 合检测的目的是为了克服各种检测方法在检测 基因组结构变异时的缺点和不足,其中介绍了一种 机器学习与片段检测方法相结合的算法,该算 法的出现大大提高了检测速度和检测精度,并且实 现了检测的半自动化。 总之,利用现存的四种检测方法中的两种或者 与类似于机器学习方法相结合来检测基因组结构变 异有种种的优势,它不仅不用人为的设定阈值,而且 还可以集两种方法的优点于一身提高检测精度,因 此,机器学习方法,例如贝叶斯分类器、决策树、神经 网络等算法在基因组结构变异检测中有很广阔的应 用前景。 参考文献(References) [1] SCHUSTER S C.Next—generation sequencing transforms today’S biology[J].Nature Methods,2008,5(1):16—18. [2]SANGER F,NICKLEN S,COULSON A R.DNA sequencing with chain—terminating inhibitors[C].Proc. Nat1.Acad.Sci.USA,1977,74(12):5463—5467. [3] BENTLEY D R.Whole—genome re—sequencing[J]. Current Opinion Genetics&Deve10pment,2006,16(6): 545-552. [4] SHENDURE J,HANLEE J I.Next—generation DNA sequencing[J].Nature Bioteehnology,2008,26(10): 第1期 l135一l145. 高敬阳,等:基于高通量测序技术的基因组结构变异检测算法 Nature,2010,467(7319):1061—1073. 9 [5] WHEELER D A,SRINIVASAN M,EGHOLM M,et a1.The [19]MILLS R E,wALTER K,sTEwART C.et a1.Mapping complete genome of an individual by massively parallel DNA sequencing[J].Nature,2008,452(7189):872-876. [6]DRMANAC R,SPARKS A B,CALLOW M J,et a1. Human genome sequencing using unchained Based reads ou self-assembling DNA nanoarrays[J].Science,2010, 327(5961):78-81. [7] 林勇.面向下一代测序技术的de novo序列拼接工具综 述[J]-/j、型微型计算机系统,2013,34(3):627—631. LIN Yong.Survey of de novo Assembly Tools for Next— generation Sequencing Technology[J].Journal of Chinese computer systems,2013,34(3):627—631. [8]KORBEL J O,ABYZOV A,MU X J,et a1.PEMer:a computational framework with simulation—based error models for inferring genomic structural variants from massive paired—end sequencing data[J].Genome Bioloyg,2009,10(2):R23. [9]HORMOZDIARI F,ALKAN C,EICHLER E E,et a1.Com- binatorila algorithms for structural variation detection in high—throughput sequenced genomes[J].Genome Res,2OO9, 19:1270-1278. [10]HORMOZDIARI F,HAJIRAs0uLIHA I,DAO P,et a1. Next—generation VariationHunter:combinatorial algorithms ofr transposon insertion discovery[J].Bioinformatics, 2010,26:i350一i357. [1 1]HORMOZDIARI F,HAJIRAS0uLIHA I。McPherson A, et a1.Simultaneous structural variation discovery in multiple paired—end sequenced genomes[J].Genome Research,2011,21:2203—2212. [12]CHEN R,WALLIS J W,MCLELLAN M D,et 1a.Break— Dancer:all algorithm for high--resolution mapping of ge-- nomic structural variation『J].Nature Methods,2009,6: 677—681. [13]LEE S,HORMOZDIARI F,ALKAN C,et a1.MoDIL:detec— ting small indels from clone—end sequencing with mixtures of distirbutions[J].Nature Methods,2OO9,6:473-474. [14]LEE S,XING E,BRUDNO M.MOGUL:detecting common insertions and deletions in a population[M]. Research in Computational Molecular Biology,2010, 6044:357-368. [15]QUINLAN A R,CLARK R A,SOKOLOVA S,et a1. Genome—wide mapping and assembly of sturctural variant breakpoints in the mouse genome[J].Genome Research, 2010,20:623-635. 1 16]STUART J R,MALEK J A,MANNING J M,et a1. Blanchard A P.Sequence and structural variation in a human genome uncovered by short—read massively parlalel ligation sequencing using two—base encoding[J]. Genome Research,2009.19:1527—1541. [17]YOON S,XUAN Z Y,MAKAROV V,et a1.Sensitive and accurate detection of copy number variants using read depth of coverage[J].Genome Research,2O09,19:1586-1592. [18]The 1000 Genomes Project Consortium.A map of human genome variation from population—scale sequencing[J]. copy nmnber variation at fine scale by population scale genome sequencing l J].Nature,2011,470:59-65. [2O J ABYZOV A,URBAN A E,SNYDER M.et al_ CNVnator:an approach to discover,genotype and characterize typical and atypical CNVs from family and population genome sequencing[J].Genome Research. 201 1,21:974—984. [21]MILLS R E,LUTIING C T,L R Ns c E、et 1a.An initM map of insertion and deletion(INDEL)variation in the human genome[J].Genome Research,2006,16:1182一l190. [22]YE R,scHuI2 M H,LONG Q,et a1.Pindel:a pattern growth approach to detect break points of large deletions and medium sized insertions from paired—end short reads [J].Bioinformatics,2009。25:2865—2871. [23]ABYzOV A,GERSTEIN M.AGE:defining breakpoints of geuomic structural variants at single—nucleotide resolu— tion,through optimal alignments with gap excision[J]. Bioinformaties,201 l,27:595—603. 1 24]ZHANG J,WU Y F.SVseq:an approach ofr detecting exact breakpoints of deletions with low—coverage sequence data [J].Bioinformatics,20l1,27(23):3228—3234. [25]c}IAIss0N M J,BRINZA D,PEVZNER P A.De uovo rfag— ment assembly with short mate—paired reads:does the rear】 length matter2[J]..Genome Research,2O09,19:336-346. [26]SIMPSON J T,WONG K,JACKMAN S D.et a1. ABYSS:a parallel assembler for short read sequence data [J].Genome Research,2009,19:l1l7一l123. [273/3 R Q,zHU H M,RuAN J,et a1.De novo assembly of human genomes with massively parallel short read sequencing[J].Genome Research,2009,20:265—272. [28]GNERREA S,MACCALLUMA I,PRzYBYLsKI D,et a1. High—quality draft assemblies of mammalian genomes from massively parallel sequence data『J].Proc.Nat1.Acad.Sci. USA,2011,108(4):1513—15I8. [29]MEDVEDEV P,sTANcIu M,BRUDNO M.Compnta— tional methods for discovering structural variation with next—generation sequencing[J].Nature Methods,2009,6: S13-¥20. [3O]SHE x W,JIANG Z S,cIARK R A.et a1.Shotgun se— quence assembly and recent segmental duplications within the human genome[J].Nature,2004,431(21):927-930. [3 1]ALKAN C,SAJJADIAN S,EICHLER E E.Limitations of next—generation genome sequence assembly[J].Nature Methods 2011,8:61-65.  I32 l scHATz M C,DELCHER A L,sAL.ZBERG S L. Assembly of lrage genomes using second—generation sequencing[J].Genome Research,2010,20:l165-1173. [33]MEDVEDEV P,FIUME M,DZAMBA M.et a1. Detecting copy number variation with mated short reads [J].Genome Res,2010,20:1613—1622. [34]GRIMM D,HAGMANN J,KOENIG D,et a1.Accurate indel prediction using paired—end short reads[J].BMc Genomics,2013,14:132. 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- baoaiwan.cn 版权所有 赣ICP备2024042794号-3

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务