引言
人類基因組計劃大規模測序工作的完成標志生命科學的研究將進入后基因組時代。由于蛋白質是生理功能的執行者以及生命現象的體現者,對蛋白質功能的研究將成為后基因時代研究的核心內容之一.
早期的蛋白質功能預測方法大多基于蛋白質序列間的同源性,認為序列上相似的蛋白質具有相似的功能。通過運用FASTA、BLAST等工具對數據庫中已知功能的蛋白質序列進行搜索,為待注釋功能的蛋白質尋找序列相似性最高的蛋白質來進行功能預測.隨著高通量實驗技術的應用,基于蛋白質交互網絡的蛋白質功能預測方法受到越來越多的關注。
Deng 假設蛋白質的功能獨立于與其直接相鄰的鄰居之外的所有蛋白質,提出了基于馬爾可夫隨機場模型來對蛋白質進行功能注釋,并且取得了不錯的預測效果。本文在Deng模型基礎之上將其推廣到二階馬爾可夫隨機場模型,并且利用偽似然估計方法來估計模型參數,在平均預測準確率的意義下,取得了比Deng模型更好的預測結果。
1.二階馬爾可夫隨機場模型
我們如下定義蛋白質的二階鄰居:對于一個蛋白質,它的所有直接交互伙伴以及它所有直接交互伙伴的直接交互伙伴都稱為該蛋白質的二階鄰居(不包括自身)。為了簡化計算,我們假設二階鄰居中的所有蛋白質對預測蛋白質功能的影響是相同的。
假 設 一 個 基 因 組 有 N 種 蛋 白 質 P1,?,PN以 及 M 類 功 能F1,?FM.對于每一個蛋白質 Pi,我們定義Nei(i)為它的鄰居組成的蛋白質集合。記πj表示所有的蛋白質有 Fj功能的比例。假設 S 是所有交互蛋白質對組成的集合。對于某個感興趣的功能,設(x1,?,xN)是 N個蛋白質的功能標記:如果第 i 個蛋白質有這個功能,則 xi=1;否則xi=0.根據Deng模型我們知道第 i 個蛋白質有此功能的先驗概率為:【1】
交互鄰居中無此功能和有此功能的個數,α=ln?è??π1-π, β-1和 γ-β為待定參數。我們利用計算機視覺中常用的偽似然估計方法來估計,具體操作如下:
首先考慮如下的條件似然函數:【2-3】
選取適當的初值和閾值后,便可以估計出參數 β-1和 γ-β,從而可以得到 S 中每個蛋白質含有任意一種功能的后驗概率。
2.實驗結果及分析
在本文中,我們用平均預測準確率來衡量模型的優劣。換言之,平均預測準確率越高,模型性能越好,反之則性能越差。這里的平均預測準確率是按如下定義的:
對每種功能來講,首先根據模型計算出 S 中每個蛋白質含有這種功能的概率,然后取閾值為0.5,如果某蛋白質含有此功能的后驗概率大于(或等于)0.5,我們便認為該蛋白質擁有這個功能。于是得到 S 中蛋白質的預測功能矩陣,將其與原始數據相比較,預測正確的個數比上S 中總的蛋白質個數便是此功能的預測準確率,所有功能的預測準確率的算術平均即為平均預測準確率。
本文中的實驗是在以下軟硬件平臺的PC機下完成:CPU:T6570,主頻率2.1G,2G內存,Windows7操作系統,編譯工具是Matlab.其中酵母菌蛋白質數據估計參數 β -1和 γ-β時初值分別選擇為-0.1和1,閾值選擇為 0.001.Deng 模型和本文模型的平均預測準確率分別為 96.18%、97.26%,從而在平均預測準確率的意義下,本文模型要優于 Deng 模型。
3.總結
針對蛋白質的功能預測問題,本文基于二階馬爾可夫隨機場模型對蛋白質進行了功能預測。結果表明,在平均預測準確率意義下,取得了較好的預測效果。值得提出的是,本文假設只有蛋白質的二階鄰居對其功能有影響且影響是相同的,而實際上不同的二階鄰居對其功能的影響是不盡相同的,并且蛋白質交互網絡中距離更遠的蛋白質也可能對其功能有影響,這些都是需要后續研究的問題。
參考文獻
[1]朱薿。蛋白質相互作用網絡在蛋白質功能預測中的應用[J].咸寧學院學報(醫學版),2008,22(4):364-366.
[2]Pearson W. R, Lipman D. J. Improved Tools for BiologicalSequence Comparison[J]. Proc Natl Acad Sci USA, 1988, 85(8) :2444-2448.
[3]Altschul S. F, Madden T. L, Schaffer A. A, et al. GappedBLAST and PSI- BLAST: a New Generation of Protein DatabaseSearch Programs[J]. Nucleic Acids Res, 1997, 25(17) : 3389-3402.
[4]Deng M, Zhang K, Mehta S, et al. Prediction of ProteinFunction Using Protein- protein Interaction Data[J]. J Comput Biol,2003, 10(6): 947-960.
[5]Li S. Z Markov Random Field Modeling in Computer Vi-sion[M]. Springer-Verlag: Tokyo. 1995.