“微生物群落”是地球上生命基本元素(C、N和S等)進行生物地球化學循環的主要驅動力,與人類健康、環境保護以及工農業生產等密切相關。近十年來,隨著高通量測序的廣泛應用“,微生物組學”成為新興概念和熱點。微生物組與不同的生存環境結合,誕生人體微生物組,宿主相關微生物組,一般環境微生物組,建筑環境微生物組,地球微生物組,醫院環境微生物組等大量新興的研究方向。
長期以來,研究方法一直是微生物群落研究的瓶頸。如,群落結構的闡述,即準確描述一定空間范圍內的物種數量,并定量各物種的豐度,這是所有生態學研究的基本內容。然而,對微生物研究者而言,實現這一基本要求卻絕非易事。這種困難主要源于微生物群落的如下幾點特征。
(1)“微小”:宏觀生物可以肉眼或者鏡下觀察其形態學分類特征并計數;而微生物即便在顯微鏡下也難以區分,形態差異特征少,因而不能直接觀察種屬并計數。
(2)“復雜”:微生物很少以純種存在;但微生物群落含有極高的多樣性。1 g土壤中可能含有數千到數萬個不同種屬的微生物。
(3)“稠密”:1 g土壤,1滴流水,都可能含有數以十億計的微生物,并且它們常常來自成千上萬的種屬。
(4)“不均”:不同種屬微生物在群落中的豐度差異極大。這種不均勻的分布特征造成優勢種、非優勢種以及稀有種的計數難以同時進行。
面對如此龐大復雜的微生物生態系統,微生物組學要準確理解樣品中的微生物種類,多度及其功能,并將其與時間、空間、理化因素,宿主疾病狀態等進行關聯,從而探求微生物與微生物之間,微生物與宿主之間,以及微生物與環境之間的相互關系。因此,需要恰當的技術,在廣度和精度這兩個略顯矛盾的角度,同時獲得理想的數據。
自2006年,隨著新一代高通量測序技術的成熟,不僅在人類基因組學領域帶來了翻天覆地的變化,對微生物組學的研究產生了革命性的影響。當前,以16SrRNA高通量測序為基本手段,宏基因組鳥槍法測序、宏轉錄組、宏蛋白組、宏代謝組等組學領域產生了大量的新技術,共同促進了微生物組學的快速進步。
1 微生物組大數據分析的方法和流程
16S的測序是近年來微生物生態領域最核心、最重大的突破。通過454、Illumina等第2代測序儀高通量測定16S可變區序列,第1次讓人們在可行的成本下,獲得全面、系統、結構化的群落結構信息[1-2].美國WoodsHole 海洋研究實驗室的 Mitchell Sogin 課題組于 2006年首次報道了通過焦磷酸測序技術,測定海洋沉積物樣品的16S rRNA基因V6可變區,人類第1次在基本足夠的測序深度下,清晰地展示了環境樣品中微生物的組成,發現了高度的多樣性。
與所有傳統的微生物組學研究方法相比,該方法具有顯著的優越性。該方法通過測定16S短片段序列,經生物信息學分析可以獲得系統分類信息,從而可以明確定性其分類單元,不同實驗間數據完全是可比較、可積累的。該方法通量顯著提高,1次測定40~100萬條序列,通過條碼技術可以對每個樣品測定數千到數萬條短序列,從而可以獲得廣泛的、系統的結構信息。由于測序深度大,在多個數量級范圍內可以進行定量。該方法的誕生對微生物組學的研究產生了巨大的影響,尤其對人體共生微生物領域最為活躍。例如,肥胖與部分腸道菌群間的相關性研究[3];人體不同部位的菌群結構的首次闡明[4];抗生素對腸道微生物群落產生的顯著影響[5]等。在環境中,該技術首次在海洋沉積物中發現存在極其豐富、多樣化的微生物群落。該方法讓人們得以比較大空間尺度下土壤微生物群落結構的差異及其主要的影響因素(如pH)[6-8].
基 于 16S 的 分 析 可 稱 為 宏 分 類 組 技 術(metataxonome)。16S的數據分析,其一般流程包括:序列提取、質控、相似序列聚類成OTU,種屬分類,alpha以及beta多樣性分析,以及進一步的統計分析。其中每一步都有關鍵之處,并正處于方法學前沿領域。
OTU聚類是16S序列分析的關鍵問題之一。在經典的分層聚類算法中,其運算量和所需的內存容量,均隨著序列數量的增加呈幾合級數增加。因此,貪婪算法成為目前該領域的主流。同時,也有不少研究者開發不基于序列比對的聚類算法。但是,由于序列相似性算法的不同,聚類中距離的傳遞問題,以及參考序列數據庫的不足,該領域仍然存在運算效率和準確性問題。目前,與參比庫比對的 Open- reference 算法[9]以及UPARSE是運用較為廣泛的技術。
在完成聚類后,種屬的分類仍然存在許多問題。目前,該領域主要通過與16S數據庫比對,選取相似性高的參比序列的分類結果。但是,參比數據庫本身,目前存在不少問題,例如目前應用最為廣泛的Greengenes數據庫[10],其中不少序列存在重復或者錯誤的分類結果。
UniFrac距離的計算,是beta多樣性分析的關鍵工具。UniFrac距離是美國科羅達羅大學Rob Knight課題組創建的一種基于序列之間相似度,計算樣品之間總的菌群距離的算法,有加權和不加權兩種,在分析微生物群落相似性中均具有重要作用[11].基于UniFrac的工作基礎,Rob Knight課題組進一步開發了微生物群落以及微生物生態分析的主流工具體系 QuantitiativeInsight Into the Microbial Ecology(QIIME)。該平臺是一個流程的整合,已經在全球分析微生物組學科中廣泛應用[12].
與之對應,Patrick Schloss開發了Mothur[13],該平臺基于最初的序列聚類工具DOTUR而來。該平臺和QIIME競爭,在許多地方有相似之處。二者之間的區別是,QIIME更為開放,系統整合能力更強,尊重方法的原創者,應用者更多一些,而Mothur則全部經作者改寫,相對封閉。核糖體數據庫RDP database課題組,也同樣開發了針對二代測序數據的群落分析工具[14].除此之外,MG-RAST是一個綜合性的在線數據分析平臺[15].
使用者只需要將自己的測序數據投遞到該網站,即可點擊不同的宏基因組分析命令,完成數據分析。歐洲MetaHIT以及其它小組也開發了一些微生物群落的分析工具,但應用面不及上述幾個平臺。需要指出的是,除了16S外,人們還開發了一些針對特定功能基因的靶向測序技術,從而檢測其功能多樣性。其分析流程大體與16S相似,但需要特定的數據庫加以比對分析。
宏基因組技術(metagenome),又稱為元基因組技術,是在16S分析的基礎上,通過宏基因組的鳥槍法高通量測序,能夠同時獲得菌群的分類信息以及功能基因的數據。并且該技術未經PCR擴增,因此PCR導致的偏差較少(測序建庫時還會有部分PCR的影響)。因為微生物群落中不同微生物的多度差異極大,欲獲得足夠的定量信息,需要測試大量的數據。根據不同的需求,單個樣品宏基因組測序的數據量,在Giga以上1~2個數量級水平。如此巨大的數據量,無論是測試成本,還是分析所需要消耗的機時,都相當可觀。因此,人們通常在16S測試的基礎上,挑選少量目標樣品,測試其全基因組。當前,宏基因組數據的分析,通常包括如下步驟:
序列質控;將獲得的高質序列組裝(或者不經組裝,直接與參比數據庫比對);將組裝后的序列與現有的微生物基因數據比對,并將比對上的序列進行門、綱、目、科、屬、種的分類和豐度統計;進行樣品間物種多樣性的比較,如PCA分析、聚類分析、篩選與樣品分組顯著相關因子;進行基因組份分析,如前噬菌體預測、可轉坐原件、基因預測;通過與KEGG、CAZy、eggNOG數據庫比對進行功能注釋,分析其中的代謝通路,碳水化合物活性酶、同源性;抗生素耐藥組的比對分析等。在宏基因組分析中,針對病毒單獨純化的序列測序,可以獲得病毒組數據,對微生物生態的解析,提供了全新的視野。
宏基因組測序和16S測序盡管在菌群分布上基本是一致的[17],但分辨效率顯著不同。例如,在群落層面,二型糖尿病患者腸道菌群和對照人群并無顯著的不同,但是,在宏基因組揭示的功能基因上,兩組卻呈現顯著的差異[18-19].盡管宏基因組技術非常強大,該技術仍然存在諸多技術瓶頸。其一,大量序列目前尚無法找到匹配的數據庫序列,尤其是病毒,大約80%甚至更多的序列無法注釋;其二,僅僅通過序列相似度,對功能的注釋常常是不準確的,存在大量的誤注釋;最后,對于大量的微生物基因組,通過宏基因組難以將其進行組裝拼接,尤其是對低豐度的菌株。其中前兩點缺陷同樣適用于宏轉錄組學。
2 微生物組大數據分析的發展趨勢
2.1 數據通量的進一步提高,成本的進一步下降
隨著測序、質譜等技術的不斷進步,依賴于上述技術的微生物組分析技術將同樣不斷升級換代。伴隨著上述發展,解釋微生物組所需要的數據量將不再成為瓶頸。多組學聯合應用,將日益成為微生物組大數據分析的常用工具。
2.2 大數據分析成為領域的競爭焦點
當前,數據產生的效率,已經遠遠高于分析效率的提升。微生物組各類大數據的綜合分析,日益成為瓶頸。如何儲存,如何積累,如何提取關鍵信息,如何可視化展示,如何保證數據本身以及分析的可重現性,這一切都成為數據分析的挑戰。同時,基于宏基因組數據的網絡化分析和展示,是數據分析的新興方向。
2.3 如何促進數據的標準化和可積累性日益顯現
該問題初看不是科學問題,但卻是限制我國相關學科發展的重要之處。如此龐大的數據量,如同迷宮一般的分析流程,不斷升級的分析工具,許多原有的分析在不斷糾錯,這些數據的獲得都來之不易,如何標準化,如何讓后來者可以使用數據,這些對于微生物組學科學問題的解答至關重要。例如,我們發現,經典聚類算法直接導致了OTU的不穩定性,從而導致隨著測序深度的變化[1],OTU的組成成員不斷發生改變,進而影響到多樣性的評估和差異物種的尋找,而該錯誤在大量的經典文獻中都有所體現[20].有研究者正在探討,運用iPython notebook工具,將原始數據的分析流程加以保存,從而重現全部的分析過程。
2.4 模型和預測是未來發展的趨勢
隨著數據量的日益增加,建立微生物生態模型,并預測微生物群落的動態發展,預測相關的生物學效應,是微生物組學研究的重要方向和關鍵應用。
2.5 數據知識產權保護以及數據本身價值的開發與保護
伴隨著微生物組學大數據的不斷發展,一個現實的問題是,分析工具網站以及數據儲存網站,越來越傾向于要求使用者將原始數據以及研究相關的詳細meta-data上傳。這一方面使得數據的積累更加可靠。但同時,這種要求使得擁有數據庫、掌握數據分析方法的團隊,能夠比實驗者本身更早掌握研究的全面信息。這種大數據挖掘能力,令實驗團隊面臨一定的知識產權損失風險。
2.6 培養和基于培養的功能驗證將成為新的瓶頸需求
隨著非培養技術提供越來越多的數據,如何驗證基于大數據分析提出的假設,如何應用非培養提取出的重要菌株,這一切都需要獲得純培養菌株,在原位和實驗室條件下驗證其功能。
3 人體微生物組學發展趨勢
盡管微生物組學呈現爆炸式發展趨勢,該學科尚處在早期階段,存在巨大的發展空間。作為人體生物醫學研究的最后一塊處女地(我們不能排除未來在核酸研究等領域存在新發現的可能),整個領域正處于從現象描述,關聯分析,到機制研究,模型干預,最終到疾病診斷、預測和治療的井噴式發展中。
隨著數據的積累,人們將日益理解在復雜的人體微生物生態背后,哪些微生物是疾病或健康的驅動者,哪些是沉默者?;诖?,我們將能理解何為正常菌群,何為失調菌群。人體微生物組在后天是如何形成、發展、穩定,以及與人體相互作用。從生態學角度,人體微生物組在不同部位形成以及改變的驅動因子是什么?
在應用角度,目前有兩個重要的發展方向。其一,運用人體微生物組的組成或者功能基因,預測特定疾病的發生、發展以及結局。過去十多年,人們在運用人體基因組表達譜以及差異基因預測疾病和治療效果上取得了長足的進步;可以預期,在未來的十年內,人們可以在微生物組上做出相似的工作。例如,人們發現IBD患者與非患者之間的菌群存在顯著差異,可以將其作為非介入式疾病診斷的方法之一[21].通過對人體微生物組的干預和調整,治療和預防疾病[22-23].與人體本身的基因組不同,人體微生物組是可以改變的。人們可以通過窄普抗生素、益生元、藥物、飲食調整等策略,改善人體微生物生態。在此類研究中,宿主的選擇性、生命早期事件、地區差異,腸道病毒組、人體微生物組之間的傳遞,以及人體微生物資源開發利用等,都存在大量的微生物生態學問題有待研究。我國傳統醫學在人體微生物生態方向積累了大量的經驗,諸如祛濕、補脾健胃等都可能與人體菌群有關。如何通過現代人體微生物生態學手段,將傳統經驗進一步提取,澄清其背后的機制,開發藥品和保健食品,保護好傳統的知識產權,是我國相關科研人員的機遇與責任。
微生物組學研究,目的為回答誰、做什么,和怎么做三大基本問題。如果說過去方法學是核心瓶頸,如今條件則已基本具備?;卮鹫l,人們可以采用16S和宏基因組測序,高通量培養,基因芯片,熒光原位雜交等技術。
回答做什么,人們可以采用宏轉錄組,宏蛋白組,宏代謝組,基因芯片,同位素標記,單細胞測序等手段?;卮鹪趺醋?,則可以通過上述多組學與環境因子的關聯數據挖掘,通過移植實驗(例如無菌鼠驗證腸道菌群的功能)等手段來解決。隨著上述工具的建立,微生物組這一黑盒子正在打開。盡管高通量方法的成本依然偏高,但隨著新工具的不斷開發,微生物組分析的效率和準確性都將不斷提高。如何利用好這些工具,關注微生物生態問題,而不是局限于追求一個完美的技術,值得國內研究者的重視。
參考文獻:
[1]Sogin ML, Morrison HG, Huber JA, et al. Microbial diversity in thedeep sea and the underexplored “rare biosphere[''J]. Proc Natl AcadSci USA, 2006, 103(32): 12115-20.
[2]Huber JA, Mark Welch DB, Morrison HG, et al. Microbialpopulation structures in the deep Marine biosphere[J]. Science,2007, 318(5847): 97-100.
[3] Zhang H, Dibaise JK, Zuccolo A, et al. Human gut microbiota inobesity and after gastric bypass[J]. Proc Natl Acad Sci USA, 2009,106(7): 2365-70.
[4] Costello EK, Lauber CL, Hamady M, et al. Bacterial communityvariation in human body habitats across space and time[J]. Science,2009, 326(5960): 1694-7.
[5] Dethlefsen L, Huse S, Sogin ML, et al. The pervasive effects of anantibiotic on the human gut microbiota, as revealed by deep 16SrRNA sequencing[J]. PLoS Biol, 2008: e280.