藏刊網,職稱文章發表、期刊投稿權威機構

投稿咨詢

投稿在線咨詢

專著咨詢

合著&獨著&編委

編輯在線咨詢

專利咨詢

專利申請&轉讓

編輯在線咨詢

軟著版權

軟著版權

編輯在線咨詢

在線溝通

論文&專著&專利

編輯在線咨詢

微信聊

微信掃一掃

首頁 > 科學論文 > > 蛋白質功能預測新策略探究
蛋白質功能預測新策略探究
>2023-10-01 09:00:00


引言

人類基因組測序計劃的完成使全基因組序列測定成為可能,分子生物學各種高通量實驗技術迅猛發展,大量生物數據急劇增長,此時揭示眾多基因在生命過程中承擔的生理角色成為了全世界生命科學工作者的共同課題。生物信息學在基因組水平上的分析能力使其在海量數據處理上的優勢充分表現出來,得到了快速發展[1].隨后,系統生物學研究逐漸從基因組學擴展到了蛋白質組學。

蛋白質是生命的物質基礎,是生命活動的主要承擔者,深入研究一些基因的編碼蛋白,能幫助預測腫瘤的侵襲性,從而為人類戰勝癌癥提供契機[2].

蛋白質功能的預測已經成為生物信息學一個重要的研究課題。要確切知道一個蛋白質的功能,必須經過復雜的生物學實驗來驗證,需要投入大量的人力,耗費巨大成本。但生物信息學技術可對待研究的蛋白質提供預測分析,從而為生物實驗提供很好的指導作用,大大減少了實驗所需耗費的成本[3].

一般蛋白質功能的預測方法采用序列相似性比對,結構和保守區分析等。序列相似性比對是蛋白質功能預測的最重要方法,這是一類比較成熟的預測方法,是將蛋白質的氨基酸在序列中的排列位置表達成一條含氨基酸字母的序列,通過對比這條序列預測蛋白質功能,這類方法有 BLAST[4]、FASTA[5]以及 PSI-BLAST[6]等,然而這些方法僅簡單地從序列的相似對比出發,準確率較難提升,而且效率低下。

近年來,許多學者在傳統的蛋白質序列相似性比對的基礎上,提出了很多新的預測功能方法,如基于序列改進的預測方法 FANN[7]、DWKNN 方法[8]和 DSCP 方法[9]等,都是基于蛋白質序列的方法。對比以往傳統的簡單方法,這些新的方法在效率以及準確率上均有明顯的提升。但是,這些方法僅僅從序列的相似性比對進行研究,忽略蛋白質之間關系的全局結構。本文采用蛋白質序列排列循環匹配,比對并尋找相似的蛋白質,構建蛋白質的關聯網絡,并在關聯網絡的基礎上,采用數據挖掘技術的推薦算法,對蛋白質的功能進行預測。

1 相關知識

1.1 蛋白質的循環排列

蛋白質的循環排列也稱為蛋白質的全局循環排列,是指將蛋白質氨基酸序列首尾相連,從中分離出新的 N- 和 C- 端,這樣的排列可以與另一個蛋白質氨基酸序列進行近似匹配。從 1997 年起就陸續有很多蛋白質全局循環排列的例子,這些循環排列對蛋白質的功能、結構具有非常重要的作用[10-11].現有研究主要集中在循環模式和蛋白質功能上的關系,其中一些研究發現蛋白質全局循環模式能夠為蛋白質的功能提供重要幫助。如圖 1,從頭比對的兩條不相匹配的蛋白質序列,將其中一條序列旋轉就能夠匹配上另一條序列[11].本文采用筆者已有成果的循環匹配算法[12],將蛋白質的循環序列進行匹配,找出互相匹配的蛋白質,并將這種具有匹配關系的蛋白質構建相關聯蛋白質數據網絡。構建的蛋白質網絡圖,如圖2 所示。圖中 P1到 P10表示網絡圖中的蛋白質節點,連線表示蛋白質之間的匹配關系。

1.2 推薦算法

推薦算法是數據挖掘中常用的一種算法,就是利用用戶的一些行為,通過一些數學算法,推測出用戶感興趣的物品[13].推薦算法主要分為基于內容推薦、協同過濾推薦和基于規則推薦等多種類型。各種推薦算法都有各自的優缺點,如基于內容的推薦算法和協同過濾推薦算法推薦的結果直觀,容易解釋,但是無法解決新用戶的推薦問題,基于規則推薦算法能很好解決發現新用戶的興趣點,但是規則抽取難、耗時[14].隨著大數據時代的到來,推薦算法不斷被優化提升[15],如今廣泛應用于電子商務、電影網站以及社交網絡交友[16]等多個不同行業領域中。目前已有一些蛋白質功能預測的算法應用推薦算法的思想,如直接推薦注釋方法,這種方法類似于在社交網絡中好友興趣推薦算法,將與待預測蛋白質相關聯的已知蛋白質通過一些序列相似算法找出來,并將功能直接推薦給未知蛋白質,這種做法通常將傳統的推薦算法直接使用,并沒有在這種推薦算法上做進一步的深入研究優化,使之更適用于蛋白質功能預測。

本文針對蛋白質功能預測的目的,根據推薦算法思想,提出一種基于關聯規則與功能標簽的推薦算法,相對于直接推薦注釋方法的預測結果有一定的提高。

2 推薦算法預測蛋白質功能

筆者使用的基于關聯規則與功能標簽的推薦算法,對蛋白質功能進行預測的目標是未知功能的蛋白質 Pu.功能預測的步驟如下:

第一步:序列循環匹配數據集生成推薦規則集針對每個待預測的 Pu,使用 1.1 章節提到的蛋白質序列循環匹配算法,生成相關聯蛋白質數據集,將其作為關聯規則推薦的數據集,如表 1 所示,P1到 P5為與 Pu 構成匹配的已知功能的蛋白質,GO1到 GO6表示不同的功能標簽,同一行數據表示蛋白質 P1到 P5分別對應的功能。第二步:根據頻率最高的 Top-k 功能,搜索數據庫尋找具有相似的蛋白質根據表 1,計算出出現頻率最高的 Top-k 個功能取出賦給未知蛋白質,為了便于計算,取出現功能頻率最高的前兩個,即 Top-k=2.表 1 出現頻率最高的兩個功能為 GO2和 GO4.搜索蛋白質功能數據庫,查找同時具有 GO2和 GO4的蛋白質,查1功能個數作出預測執行第二步驟,尋找具有包含相同 Top-k 個功能的相似蛋白質,并統計這些相似蛋白質的功能出現頻率,由高到低排列選取前 N 個出現頻率最高的功能作為待預測的未知蛋白質的功能。使用式(1)進行選取前 N 個功能:【1】


式(1)中,X 為該功能出現頻度,σ 為統計功能出現頻度的方差,x為子群中功能出現頻度的平均值。

根據式(1),通過確定 z 值設定閥值,選取功能出現頻度大于閾值設定的功能作為預測結果。

3 實驗分析

使用這種推薦算法對蛋白質功能進行預測,推薦結果有效性判斷的常用方法是判斷的準確率(Precision)和召回率(Recall)。準確率是衡量預測結果與被測量真值之間一致的程度,準確率公式由式(2)給出。召回率即覆蓋率,用來衡量預測的結果包含了全部數據庫已有功能的正確結果的程度,公式由式(3)給出。準確率和召回率看似并沒有直接關系,但在實際的計算過程中往往存在一定的矛盾,準確率提高則其召回率降低,反之亦然。

因此,在實際計算中,經常選用一個綜合度量指標F1-Measure 作為兩者的調和平均數來衡量,將F1-Measure 作為最終的評判結果,公式由式(4)給出。式(2)至(4)中,參數 TP 為預測的功能和標準數據庫中蛋白質對應的功能匹配的個數,FP 為預測的功能與標準數據庫的功能不匹配的個數,TN 為標準庫中包含的但卻沒有被預測到的功能?!?】


本文采用的功能數據來源于 UniProtKB-GOA數據庫,從庫中獲取48 000 條蛋白質的序列及功能信息。

選取不同的 z 值作為閥值,通過控制 z 值的改變,選取預測結果功能出現頻度高的作為預測得到的功能。將 z 值選取在 0.1 到 1.0 區間內,此區間的覆蓋率和召回率變化對比明顯,波動范圍不會相差太大。改變 z 值從 0.1 到 1.0,實驗結果如圖 3 所示,隨著 z 值增大,準確率提高,召回率下降,F1-measure 的值穩定在 0.74 附近。

為了驗證方法的有效性,將蛋白質序列做相似匹配后,對直接將功能推薦給未知蛋白質的方法(傳統方法)與本文方法的結果進行比較,只取F1-measure 作為最終比較結果。結果對比如圖 4所示,可以看到,本文的方法最終的 F1-measure 結果整體上要優于傳統的直接推薦注釋方法。

4 總結

近幾年來,隨著生物信息學的發展,應用計算機對蛋白質功能進行預測技術的研究邁上了一個新臺階。本文采用的蛋白質功能預測策略是從蛋白質序列的角度出發,采用序列循環匹配算法,訓練得到相關聯的蛋白質數據集,提出一種適用于蛋白質功能預測的基于關聯規則與功能標簽的推薦算法,對蛋白質功能進行預測,并根據結果驗證所使用方法的有效性。這種預測方法的效果還有更大的提升空間,因為在根據功能標簽搜索數據庫獲取包含有提取的相同功能標簽的蛋白質時,還可以進一步討論進行選取的參數,采用更好的選取模型,相信在這方面繼續深入研究將會有更好的實驗結果。

參考文獻:

[1] 孫嘯,陸祖宏,謝建明。 生物信息學基礎[M]. 北京:清華大學出版社,2005:15-53.
[2] 王超,何利平。 抑癌基因 WWOX 在結直腸癌中的表達[J]. 莆田學院學報,2010,17(2):43-47.
[3] 劉言,沈素萍,方慧生,等。 蛋白質功能預測方法概述[J].生物信息學,2013,11(1):33-38.

綜合排序
投稿量
錄用量
發行量
教育界

主管:廣西壯族自治區新聞出版局

主辦:廣西出版雜志社

國際:ISSN 1674-9510

國內:CN 45-1376/G4

級別:省級期刊

中國報業

主管:中國報業協會

主辦:中國報業協會

國際:ISSN 1671-0029

國內:CN 11-4629/G2

級別:國家級期刊

中國房地產業

主管:中華人民共和國住房部和...

主辦:中國房地產業協會

國際:ISSN 1002-8536

國內:CN 11-5936/F

級別:國家級期刊

建筑與裝飾

主管:天津出版傳媒集團有限公司

主辦:天津科學技術出版社有限...

國際:ISSN 1009-699X

國內:CN 12-1450/TS

級別:省級期刊

財經界

主管:國家發展和改革委員會

主辦:國家信息中心

國際:ISSN 1009-2781

國內:CN 11-4098/F

級別:國家級期刊

文化月刊

主管:中華人民共和國文化部

主辦:中國文化傳媒集團有限公司

國際:ISSN 1004-6631

國內:CN 11-3120/G2

級別:國家級期刊

期刊在線投稿系統
上傳文件
支持上傳.doc、.docx、.pdf文件
18年國內外學術服務,發表國際文獻請認準藏刊網官網

資深編輯團隊

專業設計投入方案

投稿成功率極高

企業信譽保障

對公交易更安全

人民群眾口碑好

高效投稿流程

審稿快!出刊快!檢索快!

正規刊物承諾

無假刊!無套刊!

投稿成功!

藏刊網提醒您

1.稿件將進入人工審稿階段,審稿后會有編輯聯系您,請保持手機暢通。

2.為避免一稿多投、重刊等現象影響您的發表,請勿再投他刊。

確定

投稿失??!

藏刊網提醒您

由于網絡問題,提交數據出現錯誤,請返回免費投稿頁面重新投稿,謝謝!

確定

藏刊網收錄400余種期刊,15年誠信發表服務。

發表職稱文章,覆蓋教育期刊、醫學期刊、經濟期刊、管理期刊、文學期刊等主流學術期刊。

  投稿郵箱:cangkan@163.com

本站少量資源屬于網絡共享如有侵權請您聯系我們,將在第一時間刪除。

版權 2009-2022 版權所有:河北藏刊文化發展有限公司 工信部備案:ICP備20016223號 冀公網安備13010502002858號

青青青爽不卡一区二区_操婷婷色六月中文字幕_国产精品yjizz视频网_中文无码一级大片_A级毛片100部免费观