藏刊網,職稱文章發表、期刊投稿權威機構

投稿咨詢

投稿在線咨詢

專著咨詢

合著&獨著&編委

編輯在線咨詢

專利咨詢

專利申請&轉讓

編輯在線咨詢

軟著版權

軟著版權

編輯在線咨詢

在線溝通

論文&專著&專利

編輯在線咨詢

微信聊

微信掃一掃

首頁 > 科學論文 > > 基于生物質譜數據鑒定單核苷酸變異的生物信息學方法
基于生物質譜數據鑒定單核苷酸變異的生物信息學方法
>2023-10-03 09:00:00



單核苷酸變異\\(single nucleotide variations, SNVs\\)是由 DNA 序列上單個堿基變異產生的, 包括堿基的缺失、插入、轉換及顛換等. SNVs 是基因組序列變異的主要形式[1], 同時也是生物體生理和病理變異的遺傳基礎[2]. 從遺傳學的角度看, SNVs 既可以存在于具有遺傳性的生殖細胞中, 也可以存在于不具有遺傳性的體細胞中. 其中, 只有位于基因編碼區的SNVs 能夠影響蛋白的編碼. 位于編碼區的 SNVs 可以分為 3 類: \\(ⅰ\\) 同義 SNVs, 不改變相應的氨基酸種類; \\(ⅱ\\) 無義 SNVs, 突變成為終止密碼子, 提早結束編碼; \\(ⅲ\\) 非同義 SNVs\\(nonsynonymous SNVs,nsSNVs\\), 改變氨基酸的種類. nsSNVs 能夠改變蛋白的結構、功能、表達以及亞細胞定位等[3], 進而對多種遺傳性的特征、疾病以及癌癥等產生影響[4~9], 如人類耳垢的類型[6]、腋窩的氣味[7]、癌癥與腫瘤的發生[8]、阿爾茨海默病[9]以及鐮刀形紅細胞貧血癥[10]等.

因此, 對 SNVs 展開研究可以揭示出基因與表型多樣性和基因與疾病間的關系, 并且有可能研發出治療疾病的新方法. 目前, 全基因組關聯研究\\(genome-wide association studies, GWAS\\)[11]雖然在基因變異與表型多樣性的研究中產出了許多能夠用來解釋特異性疾病分子途徑的結果, 但是仍然難以對絕大部分具有復雜特征的分子機制以及SNVs與復雜疾病表型間的關系進行解釋[12]. 在這種情況下, 對突變蛋白的研究提供了另一種了解基因型與表型間關聯的方法[13].

由 SNVs 引起的單個氨基酸的變異稱為單氨基酸變異\\(single amino acid variations, SAVs\\), 因此SAVs 是 SNVs 在蛋白水平上的表現. 對 SAVs 的研究, 有助于了解基因型與表型間的關系, 進而從本質上了解基因是怎樣在蛋白水平上影響生物體的生命過程的[14]. 目前, 基于串聯質譜的鳥槍法蛋白質組學\\(shotgun proteomics\\)技術由于其自動化、高通量、高靈敏度和高分辨率等特點, 已成為大規模蛋白質研究的主要方法. 序列數據庫搜索算法由于具有較高的可靠性以及靈敏度而成為當今鳥槍法蛋白質組學中蛋白鑒定的主要生物信息學方法. 然而, 通常蛋白質數據庫在構建時為了減小數據庫的冗余程度, 往往有意壓縮對 SAVs 信息的收錄\\(如 Swiss-Prot 數據庫[15,16], IPI 數據庫[17]等\\), 從而使得常用的數據庫搜索策略不能有效地鑒定出樣本中的氨基酸突變信息.

為此, 研究人員提出了一系列鑒定突變蛋白的方法,如構建包含有突變信息的蛋白質數據庫、構建相似性圖譜庫等.在基于串聯質譜進行 SAVs 鑒定時, 可以采用與蛋白質翻譯后修飾\\(post-translational modifications,PTMs\\)鑒定[18]相同的方法, 這是因為肽段的突變和修飾在質譜圖中的表現都是質量遷移, 如甲硫氨酸\\(Met\\)氧化與丙氨酸\\(Ala\\)突變為絲氨酸\\(Ser\\)在質量上都是增加 16 Da[19], 所以鑒定 PTMs 的算法和流程通常也能夠鑒定 SAVs\\(如 Bonanza 算法[20]\\). 雖然 PTMs和 SAVs 的質譜鑒定方法非常相似, 但由于其來源上的差別, 在實際的鑒定策略中有所不同. \\(ⅰ\\) PTMs的種類遠比 SAVs 要多, 鑒定 PTMs 所需的搜索空間一般會比鑒定 SAVs 所需的大, 在質量控制方面具有更大的挑戰; \\(ⅱ\\) 蛋白水平的 SAVs 大部分是從基因組或轉錄組延續過來的, 充分利用 SNVs 的數據能大大降低搜索空間, 從而得到更可靠的結果. 因此在計算方法與策略方面, SAVs 和 PTMs 的鑒定具有一定的相似性, 也有其獨有的特點.

本文從序列數據庫搜索算法、序列標簽搜索算法以及圖譜庫搜索算法 3 個大方面, 詳細地介紹了目前基于生物質譜數據鑒定SAVs的各種生物信息學方法,并分析了各種突變鑒定方法的不足之處, 最后介紹了基于生物質譜的 SAVs 鑒定研究現狀及其發展方向.

1 氨基酸突變鑒定的算法

當前基于生物質譜的 SAVs 鑒定算法都是由常規鑒定算法改進而來的, 因此根據常規串聯質譜鑒定算法中對數據庫的依賴程度以及使用的數據庫種類, 可以將基于生物質譜的 SAVs 鑒定算法分為 3 大類\\(表 1\\): \\(ⅰ\\) 完全依賴序列數據庫的搜索算法, 即基于序列數據庫搜索的氨基酸突變鑒定算法. 此算法利用前體離子質量從序列數據庫中篩選出候選肽段, 然后將候選肽段的理論圖譜與目標圖譜進行比對, 從而鑒定出樣品中的突變肽段; \\(ⅱ\\) 將從頭測序算法\\(de novo\\)與序列比對結合的算法, 即基于序列標簽的氨基酸突變鑒定算法. 此算法首先通過 de novo測序算法推導出目標圖譜中的肽序列標簽\\(peptidesequence tags, PSTs\\), 然后利用 PSTs 過濾數據庫篩選出候選肽段, 最后結合 PSTs 對理論譜圖與目標圖譜進行比較打分, 從而鑒定出樣品中的突變肽段; \\(ⅲ\\)依賴于圖譜庫的搜索算法, 即基于圖譜庫的氨基酸突變鑒定算法. 此算法將實驗圖譜與圖譜庫中的一致性圖譜進行比對, 從而鑒定出樣品中的突變肽段.這 3 類方法和策略在實施過程中各有其優劣\\(表 1\\),相互之間暫無法替代, 因此在不同的目的下各有其適用性.

1.1 基于序列數據庫搜索的氨基酸突變鑒定算法

基于序列數據庫搜索的氨基酸突變鑒定算法,根據不同的數據庫構建方法可以細分為 3 類: \\(ⅰ\\) 基于窮舉法的氨基酸突變鑒定算法, 即通過枚舉數據庫中氨基酸殘基的所有可能突變種類進行突變肽段的鑒定; \\(ⅱ\\) 結合已知氨基酸突變信息對突變肽段進行鑒定, 即結合當前變異數據庫\\(如 dbSNP 數據庫[21]、COSMIC 數據庫[22]等, 表 2 列舉了常用的氨基酸與基因突變數據庫\\)中的變異信息構建數據庫進行突變肽段的鑒定; \\(ⅲ\\) 基于樣本特異性的數據庫鑒定突變肽段, 即結合樣本數據中可能存在的突變肽段信息構建數據庫進行突變肽段的鑒定. 以下將對這 3 種方式進行逐一詳細地說明.

\\(1\\) 基于窮舉法的氨基酸突變鑒定算法. 在序列數據庫搜索中, 最早對突變肽段進行鑒定的自動化方法是窮舉法, 此方法不僅原理簡單而且理論上能夠鑒定出樣品中所有可能的突變肽段. 這類算法的大體步驟是: 通過窮舉法羅列出所有可能的突變肽段序列, 然后用常規鑒定方法進行比對打分篩選出最有可能的突變肽段序列. 此類算法的代表有SEQUEST-SNP 算法[27]和 Sipros v2.0 算法[18]等.Gatlin 等人[27]在2000年, 利用改進的 SEQUEST算法\\(SEQUEST-SNP\\)率先實現了利用自動化的數據庫搜索對突變肽段進行鑒定. 此方法特點在于動態生成所有可能的核苷酸突變序列, 將其翻譯成肽段并構建成一個數據庫用于對突變肽段的鑒定. 此后, 通過窮舉蛋白序列中所有可能的氨基酸突變進行肽段突變鑒定的方法在 Mascot[28]和 X!Tandem[29]相繼采用.2012 年, Hyatt 和 Pan[18]提出了不受數據庫約束的窮舉法突變肽段鑒定算法 Sipros v2.0, 此算法通過肽段產生模塊和肽段打分模塊實現對 CPU 和內存效率的優化以應對窮舉法產生的大數據庫. 理論上, 窮舉法能夠鑒定出樣品中所有的突變肽段, 但肽段中的每一個氨基酸殘基都有 18 種可能的突變, 因此利用此方法會大大增加搜索空間[18,24], 延長搜索時間, 并且會增加假陽性風險從而降低結果的靈敏度.

\\(2\\) 結合已知氨基酸突變信息對突變氨基酸進行鑒定. 為了避免窮舉法引起搜索空間過大的問題,一些團隊提出結合已知的編碼SNVs信息或是與疾病等有關的突變信息構建蛋白質數據庫, 以減小突變肽段的搜索范圍. 此類數據庫的代表有 MSIPI[17]和MS-CanProVar[24]等. 2007 年, Schandorff 等人[17]將一些來自 dbSNP 數據庫[21]的編碼 SNP\\(single nucleotidepolymorphism\\) 以 及 與 IPI\\(the international proteinindex\\)數據庫中數據有沖突的序列等整合到 IPI 數據庫[30]中構建了質譜友好型的變異數據庫 MSIPI. 其質譜友好型體現在, 在保留原始 IPI 條目完整性的基礎上, 將后加的肽段序列附加到原有序列中, 用不代表任何氨基酸的字母"J"將原始條目與附加肽段區分開來, 并且將在原始條目的表頭信息中加入附加肽段信息. 同年, Bunger等人[31]也利用dbSNP數據庫中人類基因變異信息構建變異蛋白質數據庫 K-SNPdb,并構建相應的常規數據庫. 然后對分開搜庫結果進行比對打分, 篩選出高可信的變異肽段. Li 等人[24]在2011 年基于人類癌癥蛋白質變異數據庫 CanProVar[32]構建了一個 MS-CanProVar 數據庫, 此數據庫中不僅包含了 dbSNP 數據庫中的編碼的 SNP 信息, 還包括了 COSMIC[22]和 OMIM[23]等數據庫中與癌癥相關的體細胞變異信息.

除了自定義構建突變數據庫以外, 氨基酸突變信息也被一些在線平臺收錄、整合, 如 Swiss-Var[33],SysPIMP[34]和 RAId_DbS[35]等. Swiss-Var 網站搜集的是 Swiss-Prot 數據庫[36]中突變肽段的信息, 主要為用戶提供Swiss-Prot數據庫中的突變肽段信息及其與疾病間的關系. SysPIMP 主要用于鑒定與人類疾病有關的突變肽段序列, 它的數據主要來源于 OMIM 數據庫中等位基因突變信息、蛋白質突變數據庫\\(proteinmutation database, PMD\\)[37]以及 Swiss-Prot 數據庫中與 人 類 疾 病 和 多 態 性 有 關 的 序 列 信 息 . 而 在RAId_DbS 數據庫中不僅整合了 SAVs 與疾病的信息,同時也收錄了 PTMs 與疾病有關的信息.

2012 年, Mathivanan 等人[25]提出的 iMASp 策略即是利用現有的突變信息對突變肽段進行鑒定. 這種策略利用了分步搜索的方法, 即是第一次通過常規搜索鑒定出樣本中的常規蛋白, 第二次利用突變數據庫對第一次沒有鑒定出的質譜圖進行搜索鑒定樣品中的突變肽段. 相比窮舉法, 結合已知氨基酸突變信息對突變氨基酸進行鑒定的方法雖然在一定程度上縮小了搜索空間, 但在數據庫中添加的上萬條突變肽段序列絕大部分不會在樣品數據集中出現.因此, 這種方法并沒有十分有效地規避假陽性升高以及鑒定結果靈敏性降低的缺點[14].

\\(3\\) 基于樣本特異性的數據庫鑒定突變肽段 .除了直接利用公共數據庫中的突變數據外, 利用DNA/RNA 等信息提供的樣本特異性突變構建的數據庫能更好地貼合實際樣本數據, 提高鑒定效率. 目前利用樣本特異性鑒定突變肽段的方法有2種: 兩次搜索數據庫的方法以及利用轉錄組數據構建數據庫的方法. 兩次搜索數據庫的方法與 iMASp 策略中所使用的分步搜索以及 Mascot 和 X!Tandem 中的容錯搜索相似, 不同的地方在于兩次搜索數據庫中所使用的突變數據庫依賴于樣本特異性的 DAN/RAN 信息, 而 iMASp 策略中的突變數據庫是整合所有已知的蛋白突變信息, 不具有樣本特異性; Mascot 和X!Tandem 則是對第一次搜索所得的蛋白序列進行窮舉從而鑒定出突變或修飾肽段. Chernobrovkin 等人[38]提出的二次迭代法以及 Su 等人[39]構建樣本特異性突變數據庫的策略都是樣本特異性的兩次搜索方法的代表.

另一種方法是利用轉錄組數據構建樣本特異性數據庫用于突變肽段的鑒定. 相對于利用公共的突變數據庫, 利用轉錄組數據構建蛋白質數據庫可以由樣品轉錄組數據直接推導樣本中可能存在的蛋白及其突變序列并由其構建數據庫[40]. 用此方法構建的數據庫所包含的蛋白質信息更加接近樣品中真實信息, 因此這種無偏性的數據庫能高效地鑒定出樣品中存在的突變序列[16,41]. 由于轉錄組數據十分龐大, 在現有的計算能力下要想利用轉錄組數據構建數據庫就必須要對轉錄組數據進行壓縮. 2007 年,Edwards[16]提出了一個壓縮表達序列標簽\\(expressedsequence tags, ESTs\\)數據的策略, 實現了利用 EST 數據庫進行常規化的肽段序列和變異位點的鑒定. 此壓縮策略的特點在于選用某種方法來表示肽段, 確保絕大多數的重復肽段序列被消除, 并且不影響肽段序列的鑒定. 隨著下一代測序\\(next generationsequencing, NGS\\) 技術的出現 , RNA 測序 \\(RNA-sequecing, RNA-Seq\\)的成本越來越低[14], 并且克服了 EST 測序存在的克隆偏性和高花費等缺點[42], 因此利用 RNA-Seq 數據構建樣本特異性數據庫逐漸受到人們的重視. Wang 等人[41]在 2012 年提出了一個利用 RNA-Seq 數據構建樣本特異性數據庫的策略, 此策略通過兩步來實現: \\(ⅰ\\) 利用一個經驗性的RPKM \\(reads per kilo bases per million reads\\)值排除不表達或低表達基因以減小數據庫中的條目; \\(ⅱ\\)將由 RNA-Seq 數據鑒定得來的高可靠性 SNVs 的相應肽段添加到數據庫中, 以尋找變異肽段. 此后,Wang 和 Zhang[43]為生成自定義RNA-Seq數據庫編寫了 R程序包 customProDB, 能夠生成含有突變、插入、缺失等變異肽段的 RNA-Seq 數據庫. 2013 年,Sheynkman 等人[14]實踐了 Wang 和 Zhang[43]的方法,利用 Jurkat 細胞系的 RNA-Seq 數據構建一個自定義的變異蛋白質數據庫, 并成功地應用在 Jurkat 細胞系的質譜數據突變鑒定中. 同年, Woo 等人[44]在盡量不影響鑒定結果靈敏性的基礎上, 將秀麗隱桿線蟲\\(Caenorhabditis elegans\\)的 RNA-Seq 數據壓縮了近1000 倍, 并利用此數據庫成功地鑒定到了新型蛋白.

由于并不是所有的樣本都同時擁有蛋白質數據和RNA-Seq 數據, 因此, Wang 和 Zhang[43]利用 64 個大腸癌的 RNA-Seq 數據構建了一致性蛋白質數據庫,并成功地將此數據庫應用在蛋白鑒定中. 樣本特異性的數據庫, 特別是利用 RNA-Seq 數據構建的樣本數據庫不僅能夠有效地縮減搜索空間, 而且能夠鑒定出樣品中所有已知類型的蛋白種類以及新型的變異肽段序列. 隨著計算方法的不斷改進, 通過RNA-Seq 數據對樣本進行突變肽段的鑒定方法有望成為常規的突變鑒定方法.

\\(4\\) 基于序列數據庫搜索的氨基酸突變鑒定算法的缺點. 在鑒定突變肽段的方法中, 雖然通過構建含有突變信息的序列數據庫鑒定突變肽段的方法是目前被最廣泛采用的方法, 但它的缺點也是不容忽視的. \\(ⅰ\\) 除了利用窮舉法構建的突變數據庫以外, 利用其他方法構建的突變數據庫對突變信息包含得都不夠全面, 如公共數據庫通常會有意忽略對變異數據的收錄, 而樣本特異性數據庫為了減小搜索空間通常也會去除低表達的蛋白質; \\(ⅱ\\) 序列數據搜索中, 當圖譜中的碎裂信息不夠完整、信噪比較低時, 搜索引擎就不能將候選肽段正確地區分開[45],因而會增加假陽性的概率. 為了避免序列數據庫的上述缺點, 提出了其他鑒定突變肽段的方法, 如序列標簽算法、圖譜庫搜索算法等.

1.2 基于序列標簽的氨基酸突變鑒定算法

相比序列數據庫搜索算法利用肽段母離子質量從數據庫中篩選候選肽段, 序列標簽算法利用 denovo 測序算法推導的 PSTs 能夠更有效地過濾數據庫,減少候選肽段的數目以縮小搜索空間, 使得更復雜和計算更密集的方法能夠應用到對候選肽段的突變打分算法中[45], 從而提高了突變鑒定結果的靈敏性并且減少了結果中的假陽性率. 下面從序列標簽搜索算法與 de novo 測序算法之間的關系以及當前結合PSTs 進行氨基酸突變鑒定的主流工具兩個方面對序列標簽算法鑒定突變氨基酸進行介紹.

\\(1\\) 序列標簽搜索算法與 de novo 測序算法. 相比序列數據庫搜索算法, de novo 算法在對質譜圖進行氨基酸序列推導時不依賴蛋白質數據庫, 因此它在鑒定氨基酸突變方面有獨特的優勢[45~47]. 當前使用 de novo 測序算法的代表性工具有 SHERENGA[48],PEAKS[49~51]以及 PepNovo[52]等. 這些工具所使用的算法都是通過生成前綴殘基質量圖譜\\(prefix residuemass spectra\\)重構整個圖譜進行肽段序列推導的, 因此這些算法對質譜圖的質量具有較高的要求[45]. 但通過誘導碰撞解離\\(collision-induced dissociation, CID\\)產生的串聯圖譜中不可避免地含有不完整的碎裂離子系列、噪音離子和精度較差的碎裂離子質量, 這使得 de novo 算法常常產生一些不確定的序列區域, 導致 de novo 算法通常只能準確地推導出肽段序列中的部分序列[46]. 因此, 結合 de novo 算法鑒定的部分肽段序列進行數據庫搜索的序列標簽算法應運而生,這種算法不僅可以利用 de novo 推導出的 PSTs 作為篩選候選肽段時的過濾指標, 有效地減少搜索空間,而且可以通過改變PSTs與候選肽段匹配的打分算法,提高對突變肽段的鑒定效率.

\\(2\\) 結合肽序列標簽的氨基酸突變鑒定算法 .最早結合 PSTs 進行數據庫搜索的方法是由 Mann 和Wilm[53]在 1994 年提出的, 此方法不僅能有效地對常規圖譜進行鑒定, 而且能夠鑒定出帶有突變或修飾圖譜的肽段序列. 當前結合肽序列標簽對氨基酸突變進行鑒定的算法或程序有 GutenTag 程序[54],Opensea 工具[55], SPIDER 程序[56,57], InsPecT 搜索引擎[45], DirecTag 算法[58]以及 MoDa 算法[59]等. 鑒定突變氨基酸常用的序列標簽軟件及其網址見表 3.

GutenTag 是由 Yates 實驗室開發出來的能夠自動推導+2電荷母離子串聯圖譜PSTs用于數據庫搜索的算法, 其特點是利用碎片離子峰強度經驗模型并結合相鄰氨基酸和碎片離子的相對質量對肽段碎裂的影響推導 PSTs, 之后用多個 PSTs 進行搜庫, 同時放寬對 PST 兩端質量匹配的限制, 從而能夠有效地進行突變肽段的鑒定. 但由于GutenTag算法沒有考慮同源突變或修飾, 所以此算法只能對數據庫中已存在的突變序列進行鑒定, 并且由于在打分方面存在漏洞[55],所以鑒定出來的結果中存在較高的假陽性.

在 GutenTag 算法發表后的第 2 年, Searle 等人[55]首次將序列標簽算法的思想應用于非限制翻譯后修飾, 并提出了基于質量的序列比對算法工具Opensea.Opensea 的特點是利用基于質量的寬度優先的算法\\("breadth-first search" algorithm\\)鑒定出突變位點或修飾位點. 但寬度優先的算法是一種貪婪的匹配算法,并且在 Opensea 中沒有考慮在一個位點上同時存在de novo 的測序錯誤和同源突變的情況, 所以它不能保證最終結果的可靠性. SPIDER 方法與 Opensea 工具有相似的序列標簽算法思想, 但與 Opensea 不同的是, 它能夠在一個位置上同時考慮 de novo 的測序錯誤和同源突變的情況, 并且利用動態規劃算法進行比對打分. SPIDER 算法已被整合進 PEAKS 軟件中,專門用來對突變肽段和跨物種的同源性肽段進行鑒定.

在 GutenTag 算法推出后, Pevzner 實驗室迅速推出了 InsPecT 序列標簽算法搜索引擎[45], 它是最早實現規?;b定翻譯后修飾肽段的搜索工具, 現在仍然被廣泛使用. InsPect 搜索引擎推導 PSTs 的算法的特點在于利用改進的 de novo 算法推導出 PSTs 作為過濾器縮小候選肽段的范圍, 并利用樹狀快速搜索方法\\(fast tree-based search\\)找出與 PSTs 匹配的候選肽段, 用基于動態規劃算法\\(dynamic programming\\)的圖譜比對方法鑒定修飾肽段, 并在打分算法中考慮肽段的碎裂模式. 在推導 PSTs 時, InsPecT 需要構建前綴殘基質量圖, 而 DirecTag 算法則是直接利用串聯圖譜的質核比值和峰強度信息對可能的標簽進行打分. 由于 DirecTag 只能用來推導 PSTs, 因此其團隊后續開發了 TagRecon 算法[47]并將 DirecTag,TagRecon 和 IDPicker 工具[60]整合成鑒定突變和修飾肽段的流程, 其大致過程為: \\(ⅰ\\) 利用 DirecTag 生成PSTs; \\(ⅱ\\) TagRecon 利用 PSTs 對常規數據庫進行候選肽段過濾, 并且定位數據集中的突變或修飾肽段;\\(ⅲ\\) 利用 IDPicker 工具對鑒定結果進行質量控制并且裝配成蛋白. 此流程算法在 2013 年由 Abraham 等人[19]在鑒定胡楊樹\\(Populus\\)單氨基酸多態性的實驗中被成功地使用.

目前序列標簽算法都依賴于 de novo 測序構建PSTs, 但是由 de novo 算法測出的肽片段往往存在部分構建錯誤的序列[56]. MoDa 算法[59]在搜索候選肽段時, 由于采用序列標簽鏈算法\\(tag chain algorithm\\)[61],能有效地避免由 de novo 測序引起的錯誤匹配. 在MoDa 算法中, 將序列標簽算法和動態規劃算法結合,同時利用多條序列標簽與候選肽段進行比對, 找出存在質量差的位點, 然后利用基于動態規劃算法的圖譜比對算法找出最佳的肽段序列. 此方法能夠大規模地鑒定出存在多個修飾位點或突變位點的肽段.

\\(3\\) 基于序列標簽的氨基酸突變鑒定算法面臨的問題. 基于肽段序列標簽的氨基酸突變序列鑒定算法雖然能夠有效地利用 PSTs 過濾數據庫, 彌補 denovo 測序算法的測序錯誤并且提高對突變或修飾肽段鑒定的效率和準確性, 但目前已有的 PSTs 算法仍然存在著許多不足, 如在 GutenTag 算法中沒有考慮同源突變或修飾, 所以不能鑒定出數據庫中不存在的突變序列, 而在 Opensea 軟件中沒有考慮到突變位點的出現可能是由 de novo 的測序錯誤引起的等. 但是圖譜質量是限制序列標簽算法的主要因素, 因為低能 CID 碎裂模式通常很難將質量相同或相近的碎裂離子區分開來, 如亮氨酸\\(Leu\\)和異亮氨酸\\(Ile\\)、賴氨酸\\(Lys\\)和谷氨酰胺\\(Gln\\)以及苯丙氨酸\\(Phe\\)和氧化的甲硫氨酸\\(Met\\)等[46]. 近年來, 隨著電子轉移解離\\(electron transfer dissociation, ETD\\)和高能碰撞解離\\(high-energy collision induced dissociation, HCD\\)的出現, 越來越多的比 CID 質譜圖質量高的、含有豐富的碎裂離子信息的高精度質譜圖被產出, 這些高精度的質譜圖能更好地適用于序列標簽算法, 提高其準確性.

1.3 基于圖譜庫搜索的氨基酸突變鑒定算法

在肽段鑒定領域, 圖譜庫搜索是一種有望取代序列數據庫搜索的鑒定策略[62]. 相比序列數據庫搜索策略, 圖譜庫搜索策略有以下優點: \\(ⅰ\\) 直接利用圖譜庫中每一張真實圖譜的各種不同的特征信息進行比對, 如碎片離子峰的峰強度信息、碎裂模式等,使圖譜比對算法具有更高的靈敏性; \\(ⅱ\\) 能夠在一個更小、更精確的搜索空間內進行搜索, 可以比序列搜索速度快好幾個數量級; \\(ⅲ\\) 能夠輕松地鑒定出圖譜庫中已存在的變異肽段[63]. 對于依賴于圖譜庫搜索的蛋白突變鑒定來講, 目前最大的限制來源于圖譜庫的覆蓋范圍, 尤其是對突變和修飾肽段圖譜的包含[63,64]. 由于在相似的條件下, 肽段的圖譜具有可再生性[65]并且相似序列的肽段通常能夠產生相似的質譜圖[20,66], 因此一批利用圖譜庫中已收錄的肽段圖譜來擴大圖譜庫對肽段的覆蓋范圍, 以實現對氨基酸突變進行鑒定的算法或工具應運而生. 目前常用的圖譜搜索軟件及其網址見表 4.

在蛋白質組學中, 圖譜庫搜索概念早在 1998 年就由 Yates 等人[70]率先提出, 但由于質譜儀通量不高、生物質譜數據缺乏以及質譜數據的自動化分析方法不完善等[71]原因使得圖譜庫搜索策略發展緩慢.直到最近 10 年, 隨著質譜和計算機技術的快速發展,鑒定出的肽段圖譜匹配對\\(peptide spectrum match,PSM\\)的數目與日俱增, 圖譜庫搜索策略才逐漸被應用到大規模數據集和數據庫中. 最近, 圖譜庫搜索策略更是被用于發掘樣品中的突變肽段. 要用圖譜搜索策略來鑒定樣品中的突變肽段, 就必須要擴大圖譜庫對突變肽段的覆蓋范圍. 目前用于擴大圖譜庫覆蓋范圍的算法有 pMatch[63]、半經驗算法[72,73]以及Ji 等人[66]提出的相似性算法等. pMatch 在構建圖譜時,利用肽段已知的實驗圖譜和理論圖譜混合構建圖譜,用來緩沖由修飾或突變氨基酸殘基引起的肽段碎裂模式的變化[64]. 由 Hu 等人[72]在 2011 年提出的半經驗方法通過利用圖譜庫中已收錄的PSMs構建突變肽段的質譜圖以擴大對突變肽段的覆蓋范圍. 這種算法把圖譜庫中圖譜對應的肽段序列替換為相應的突變肽段序列, 并將突變肽段的碎裂離子的質核比值替換到圖譜中. 2013 年, Ji 等人[66]提出的相似性算法通過利用相似序列肽段的圖譜來推斷目標肽段的圖譜, 以達到擴充圖譜庫的覆蓋范圍的目的. 這種算法的特點是, 通過加權 K 鄰近相似算法[66]\\(weightedK-nearest neighbor method\\) 和支持向量機 \\(supportvector machine, SVM\\)[74], 利用與目標肽段序列相似且長度相等的肽段的圖譜來精確地預測目標肽段序列的優勢碎裂離子\\(如 b, y 離子類型以及其中性丟失離子類型等\\)的峰強度, 并且利用 SpectraST[64,67]創建的模型構建誘餌數據庫進行數據過濾. 同時, Ji 等人[66]指出, 將此算法應用于擴建美國國家標準與技術研究院\\(National Institute of Standards and Tech-nology, NIST\\)圖譜數據庫, 能有效地將 NIST 圖譜庫的覆蓋率提高 20%~60%, 并且用此數據庫能夠鑒定到樣品中更多的突變肽段.

除了通過擴大圖譜庫覆蓋范圍以提高圖譜庫搜索對樣品突變肽段的鑒定率以外, 通過改善圖譜-圖譜匹配\\(spectrum-spectrum match, SSM\\)的打分算法也是一條有效提高突變肽段鑒定效率的途徑. 目前點積法是 SSMs 打分的主流算法, 如 SpectraST 和X!Hunter[68]等主流的圖譜搜索工具都是利用點積算法進行匹配打分的. 近年來, 一些基于點積法、用于搜索變異肽段的圖譜庫搜索工具或算法也逐漸被開發出來, 如 pMatch 工具[63], Bonanza 算法[20]等.

pMatch 工具的特點在于, 利用電荷依賴型的質量位移進行離子峰匹配, 并且將常規的點積法與基于概率的模型相結合對圖譜間的匹配進行打分. Bonanza算法特點在于, 在篩選候選圖譜時, 不限制母離子質量, 可以將不同母離子質量的圖譜聚在一起作為候選圖譜; 在對離子峰進行匹配時, 不僅將質量相近的子離子峰考慮進去, 還將母離子間的質量差考慮進去; 最后, 利用改進的點積法進行打分. 最近, 考慮到點積法不能提供一個清晰的統計學上的解釋并且在打分中忽略了碎裂離子質核比值的差異等缺點,Dasari 等人[62]構建了一個利用概率評分標準對 SSMs的質量進行評估的搜索引擎 Pepitome, 并且在錯誤發現率\\(false discovery rate, FDR\\)為 2%的情況下, 成功地鑒定到比SpectraST多10%~12%的肽段數目. 前面所提到的圖譜鑒定方法都需要依賴圖譜庫, Fu 等人[69]在 2011 年提出了一個不需要搜索圖譜庫就能直接對突變肽段進行鑒定的統計學算法 DeltAMT, 此算法通過二維高斯混合模型利用高精確度的母離子質量差和保留時間信息對變異肽段進行鑒定.

總體而言, 基于圖譜庫的蛋白質突變鑒定算法能夠有效地縮小搜索空間, 降低搜索時間, 提高搜索的靈敏度. 目前, 由于存在譜圖搜索軟件對質譜圖的整體解析度無法達到傳統數據庫搜索策略的程度以及譜庫的覆蓋范圍小等原因, 譜圖搜索更多的是作為傳統數據庫搜索策略的互補策略被使用. 但是隨著算法的改進以及 PeptideAtlas[75]計劃的進行[62], 相信在不久的將來, 利用圖譜庫對串聯質譜進行鑒定的方法會越來越廣泛地被使用.

2 氨基酸突變鑒定的應用

當調節細胞增殖、分化、死亡的蛋白序列突變累積到一定程度就會引起癌變[76]. DNA 測序顯示, 在復雜的癌癥基因組中通常包含 40~100 個可能的氨基酸突變位點[25], 然而這些突變中只有小部分會對癌癥與腫瘤的發生產生作用. 因此如果能夠鑒定出與癌癥或腫瘤發生有關的突變肽段, 進而對能夠真正引發癌癥的基因進行重注釋就有機會從更深的層次上了解癌癥或腫瘤病發的機理, 找尋到治療癌癥或腫瘤的新方法. 所以, 提高圖譜的解析率, 鑒定出更多的高質量的突變圖譜是找尋突變肽段的關鍵.

受限于質譜數據的質量、計算能力以及當前已知SAVs 的覆蓋范圍等因素, SAVs 鑒定首先應用在小規模的樣品數據集中. 2000 年, Gatlin 等人[27]通過動態構建人類血紅蛋白變異數據庫首次成功地對人類血紅蛋白樣品進行了突變鑒定. 隨后, 2003 年 Tabb 等人[54]利用序列標簽算法對 32950 張人類晶狀體蛋白質樣品\\(human lens sample\\)質譜數據中的突變肽段鑒定作出了嘗試, 成功地鑒定出 742 條肽段, 其中 134條與突變有關. 隨著科技的進步和算法的優化,SAVs 鑒定逐漸被應用到大規模數據集的鑒定中.

2007 年, Bunger 等人[31]通過搜索結合 dbSNP 數據庫的自建蛋白質數據庫從 DU4475 乳腺腫瘤細胞樣品質譜數據中鑒定出 629 個 nsSNVs. 同時他們指出,在大規模數據集中, 要想鑒定出高可信的 SAVs, 不僅要依賴鑒定算法還要對假陽性鑒定結果進行過濾,如通過誘餌數據庫去除假陽性鑒定等. Tanner 等人[77]利用 InsPecT 對 1850 萬張人類蛋白質樣品 HEK293質譜圖進行鑒定, 并結合 PTMfinder[78]算法對鑒定結果進行了假陽性過濾, 從中發現了與 308 個 nsSNVs有關的肽段. 之后, SAVs 的鑒定被廣泛地應用于組織、器官等復雜樣品數據集中. 2012 年, Hyatt 和 Pan[18]將 Sipros v2.0 算法應用于鑒定酸性礦坑水\\(acid minedrainage\\)環境中的微生物群落蛋白質的突變氨基酸,在含有 57001 個蛋白的數據庫中進行搜索, 鑒定出1683 張圖譜對應的 755 個突變肽段. 同時, Hyatt 和Pan[18]指出, 氨基酸突變中有些可能來自于氨基酸的修飾作用, 如在鑒定出的頻率最高的突變氨基酸中,谷氨酰胺\\(Gln\\)與谷氨酸\\(Glu\\)以及天冬酰胺\\(Asn\\)與天冬氨酸\\(Asp\\)之間都能經過脫氨基作用進行轉換. Su等人[39]利用自定義的人類血漿蛋白質突變數據庫,從 290 個亞洲人血漿樣品中鑒定出 2029 個 SAVs, 并挑選出 3 對與糖尿病和肥胖有關的 SAVs進行了絕對定量分析, 指出表型不僅和 SAVs 的濃度有關, 也和SAVs 變種的相對率有關系. Mathivanan 等人[25]通過構建人類蛋白質突變數據庫\\(HPMD\\), 從直腸癌細胞系中鑒定出 2728 個蛋白, 其中有 57 個突變蛋白是首次在直腸癌中被鑒定出來的. 這些新鑒定出來的突變蛋白在發展新的直腸癌生物標志物和研究治療直腸癌的靶蛋白方面將會發揮巨大的作用.

近年來, 利用 RNA-seq 數據對蛋白質組數據進行鑒定逐漸受到人們的青睞. 2012 年, Wang 等人[41]基于RNA-Seq 數據構建了蛋白質數據庫并對 2 個直腸癌細胞系 SW480 和 RKO 進行了鑒定, 分別鑒定出 18760和 22623 張質譜圖. 這些圖譜中共包含 23 條不存在于dbSNP54 中的變異肽段, 其中鑒定到的 TP53P309S突變能夠增加SW480細胞的增殖能力, 并且能夠增強對細胞抗癌藥物的耐受性; HSP90AA1D393N突變對致癌蛋白的構象和穩定性有著巨大的影響.

雖然利用質譜數據結合序列數據庫搜索是目前主流的蛋白鑒定的策略, 但在傳統的數據庫搜索中,即使利用最好的質譜平臺和最優的分析軟件, 也有相當一部分質譜圖不能被解析出來[79,80]. 隨著越來越多的 PSMs 被鑒定出來, 人們開始利用質譜圖數據庫來鑒定突變肽段, 并且成功地鑒定到了比序列數據庫搜索更多的 SAVs. 在 FDR=0.0001%的條件下,Hu 等人[72,73]利用 SpectraST 搜索半經驗圖譜庫并結合 PeptideProphet[81]對結果進行檢驗, 成功地從人類血漿樣品中鑒定出了與 SAVs 有關的 2045 條肽段,而相同條件下, X!Tandem 則只從序列數據庫中鑒定出來 623 條與 SAVs 有關的肽段.

3 結語

隨著 DNA 測序成本大幅降低, 越來越多個體的基因組序列被鑒定出來[82]. 但即便在知道人類全基因序列信息的情況下, 科學家們對基因型與分子表型間關系的了解也只是冰山一角[83]. 而對分子表型的了解有助于科學家們對人類疾病發生機理的理解,比如由 RNA、蛋白質以及翻譯后修飾數據能夠容易地推斷出信號通路是否被激活. 雖然目前出現了許多能夠預測基因突變對蛋白分子結構及功能影響的軟件和在線工具, 如 IntOGen[84], SIFT[85]和 Poly-Phen-2[86]等, 但這些預測工具只能輔助性地對突變氨基酸進行篩選和排序, 以便減少實驗驗證的候選者[87]. 而結合了變異蛋白信息的基因信息能夠有效地幫助科學家對特定生物學過程的分子途徑以及疾病發生的機制等進行理解, 進而增加預防、診斷、治療疾病的手段[88].

本文從數據庫搜索、數據庫搜索與 de novo 結合的序列標簽搜索以及新興的圖譜比對搜索方法 3 個方面對大規模鑒定突變蛋白的方法作出了比較全面的介紹. 目前, 無論哪一種搜索方法都受到離子碎裂模式理解程度的深入、計算能力高低以及數據庫覆蓋范圍大小等因素的限制, 而結合不同搜索方法能夠實現不同方法間的互補, 能有效地提高鑒定結果的靈敏度. Dasari 等人[62]發現, 將序列數據庫搜索和圖譜庫搜素結合起來對樣品進行搜索能有效地提高搜索結果的覆蓋范圍, 并且成功地將此方法應用在了對MMR細胞系的鑒定中. 相似地, 在PEAKS軟件中,將 de novo 測序、序列數據庫搜索以及同源性搜索等方法整合到一起形成一個工作流程, 結合多個搜索引擎產出高可信的結果, 并且使得鑒定結果對樣本數據庫的覆蓋范圍最大化[49~51]. 隨著質譜技術的不斷發展和新型計算方法的出現, 序列數據庫搜索算法和圖譜庫搜索算法以及 de novo 測序算法的不斷地改善、提高, 將來會有越多的突變蛋白被鑒定出來,這些鑒定結果在尋找生物標記物、個性化醫療以及生理病理機制研究等方面將發揮重要的作用.

參考文獻

1 Collins F S, Brooks L D, Chakravarti A. A DNA polymorphism discovery resource for research on human genetic variation. Genome Res,1998, 8: 1229–1231

2 Frazer K A, Ballinger D G, Cox D R, et al. A second generation human haplotype map of over 3.1 million SNPs. Nature, 2007, 449:851–861

3 Reva B, Antipin Y, Sander C. Predicting thefunctional impact of protein mutations: application to cancer genomics. Nucleic Acids Res,2011, 39: e118

4 Nakamura Y. DNA variations in human and medical genetics: 25 years of my experience. J Hum Genet,2009, 54: 1–8

5 Yin H, Liang Y, Yan Z, et al. Mutation spectrum in human colorectal cancers and potential functional relevance. BMC Med Genet, 2013,14: 32

6 Martin A, Saathoff M, Kuhn F, et al. A functional ABCC11 allele is essential in the biochemicalformation of human axillary odor. JInvest Dermatol, 2010, 130: 529–540

7 Yoshiura K, Kinoshita A, Ishida T, et al. A SNP in the ABCC11 gene is the determinant of human earwax type. Nat Genet, 2006, 38:324–330

8 Vogelstein B, Kinzler K W. Cancer genes and the pathways they control. Nat Med, 2004, 10: 789–799

9 Di Fede G, Catania M, Morbin M, et al. A recessive mutation in the APP gene with dominant-negative effect on amyloidogenesis. Science,2009, 323: 1473–1477

綜合排序
投稿量
錄用量
發行量
教育界

主管:廣西壯族自治區新聞出版局

主辦:廣西出版雜志社

國際:ISSN 1674-9510

國內:CN 45-1376/G4

級別:省級期刊

中國報業

主管:中國報業協會

主辦:中國報業協會

國際:ISSN 1671-0029

國內:CN 11-4629/G2

級別:國家級期刊

中國房地產業

主管:中華人民共和國住房部和...

主辦:中國房地產業協會

國際:ISSN 1002-8536

國內:CN 11-5936/F

級別:國家級期刊

建筑與裝飾

主管:天津出版傳媒集團有限公司

主辦:天津科學技術出版社有限...

國際:ISSN 1009-699X

國內:CN 12-1450/TS

級別:省級期刊

財經界

主管:國家發展和改革委員會

主辦:國家信息中心

國際:ISSN 1009-2781

國內:CN 11-4098/F

級別:國家級期刊

文化月刊

主管:中華人民共和國文化部

主辦:中國文化傳媒集團有限公司

國際:ISSN 1004-6631

國內:CN 11-3120/G2

級別:國家級期刊

期刊在線投稿系統
上傳文件
支持上傳.doc、.docx、.pdf文件
18年國內外學術服務,發表國際文獻請認準藏刊網官網

資深編輯團隊

專業設計投入方案

投稿成功率極高

企業信譽保障

對公交易更安全

人民群眾口碑好

高效投稿流程

審稿快!出刊快!檢索快!

正規刊物承諾

無假刊!無套刊!

投稿成功!

藏刊網提醒您

1.稿件將進入人工審稿階段,審稿后會有編輯聯系您,請保持手機暢通。

2.為避免一稿多投、重刊等現象影響您的發表,請勿再投他刊。

確定

投稿失??!

藏刊網提醒您

由于網絡問題,提交數據出現錯誤,請返回免費投稿頁面重新投稿,謝謝!

確定

藏刊網收錄400余種期刊,15年誠信發表服務。

發表職稱文章,覆蓋教育期刊、醫學期刊、經濟期刊、管理期刊、文學期刊等主流學術期刊。

  投稿郵箱:cangkan@163.com

本站少量資源屬于網絡共享如有侵權請您聯系我們,將在第一時間刪除。

版權 2009-2022 版權所有:河北藏刊文化發展有限公司 工信部備案:ICP備20016223號 冀公網安備13010502002858號

青青青爽不卡一区二区_操婷婷色六月中文字幕_国产精品yjizz视频网_中文无码一级大片_A级毛片100部免费观