原標題:高通量測序中拼接問題的研究現狀
摘要:近年來,隨著第二代測序技術的普及和第三代測序技術的逐步發展,高通量測序技術在實際研究中的應用越來越廣泛。高速率、高性價比是其主要優點。相對于傳統的桑格(Sanger)法測序來言,高通量測序得到的片段長度較為短小,故如何拼接得到完整的序列一直是炙手可熱的研究方向。本文總結了現階段高通量測序中拼接問題的研究結果,針對現在流行的各種算法進行了簡單介紹。
關鍵詞:高通量測序;reads 拼接;contigs 組裝;OLC、De brujin 圖
一、測序技術的發展過程和現狀[1]
(一)桑格法
桑格法又叫做雙脫氧鏈終止法,由Sanger在1977年提出。通過加入帶有放射標記的dd NTP(雙脫氧核苷酸)使DNA合成終止。再通過電泳,并使用放射自顯影技術讀出堿基。此方法得到的片段較長,能達到1000bp左右。
(二)第二代測序技術
隨著科學技術的發展,傳統的桑格法已經不能滿足研究的需要??茖W家們需要更快的速度、更高的通量以及更低廉的價格,于是第二代測序技術應運而生。其核心思想是邊合成邊測序?,F在主要有454 GS FLX、SOLi D和Illumina/Solexa GenomeAnalyzer三個平臺。第二代測序是現階段測序技術的主流,也是高通量測序的開始。
(三)第三代測序技術
第三代測序技術是指單分子測序技術。不需要經過PCR的過程即可測序,速度可以達到每秒十個堿基。通量更大,讀長更短,是現階段測序技術的發展方向。
二、高通量測序中的拼接工作
(一)高通量測序所得片段的特點
高通量測序之后所得到的序列片段稱為reads(讀?。?,其主要特點兩點。一是長度短,一般在200bp以 下,最長的454平臺能達到的長度也不過1000bp,因此需要進行 大量的拼接才能得到整條DNA序列。二是有部分重疊,由于測序位置具有隨機性,故各reads總會有一定的重疊,這些重疊是拼接工作的關鍵。
(二)拼接過程
整個拼接過程分為兩步。第一步,考察reads的重復序列,并拼接成更長的片段,稱為contigs(重疊群),這一步稱為reads的拼接;第二步,確定contigs之間的順序關系,并按此排列,形成稱為scaffolds的序列,這一步叫做contigs的組裝。
三、Reads的拼接
(一)拼接過程的難點
reads拼接過程中要克服的難點主 要有兩點,一是高通量測序得到的reads長度較短,故內含信息較少,不易確認相對順序。二是遠程連接信息(Long-range linking information)的不可靠性。 2這兩點制約著reads拼接過程的準確率。
(二)方法[3]
reads拼接過程中算法的基本要求是de novo(從頭測序),即不需要任何序列信息即可對原料進行測序。由此衍生出兩種主流的算法:
1.OLC
OLC,即交疊-排列-共有序列算法(Overlap-layout-consensus),是一個比較傳統的算法,其基本思想為根據reads間的重復部分,確定可能性的reads連接順序。
其步驟為:構建交疊圖:對每兩個reads進行比對,計算它們的重疊度---排列reads:將reads進行排列,確定它們之間的相對位置,建立overlap圖---生成共有序列:通過多序列比對等方法,確立最后的contig.
OLC算法的計算量主要體現在交疊圖的構建,而高通量測序得到的海量短序列有大量的交疊,往往需要大量的運算時間。故OLC算法并不適合現在高通量測序的發展趨勢?,F在某些拼接軟件,如Shorty、CABOG等仍在使用基于此的算法。雖然這些軟件針對OLC算法有一定的改進和優化,但其拼接速度和準確性仍受到限制。
2.De brujin圖
基于De brujin圖(DBG)的算法是現在最流行的算法,許多常用的拼接軟件如Velvet、ABy SS等都在使用這種算法。其特點為把基因序列的拼接問題轉化為了數學上的圖論問題,大大提高了拼接效率。
(1)基本思想
reads中 連 續 的k個 堿 基 稱 為k -mer,作 為DBG的節點,兩個k-mer如 果在同一read中 相鄰,則形成一條邊。故每個read都會對一些邊加權,最后形成一個含有節點、有權值的邊的DBG,由此生成最佳的contig.