自 2003 年“中國人類蛋白質組組織”\\(Chinahuman proteome organization, CNHUPO\\)成立至今 ,中國的蛋白質組學研究經歷了十年多的發展, 呈現出百家爭鳴、百花齊放的局面. 繼中國科學家領銜“ 人類肝臟蛋白質組計劃 ”\\(human liver proteomeproject, HLPP\\)之后, 2014 年 6 月, “中國人類蛋白質組計劃”\\(china human proteome project, CNHPP\\)在京啟動, 標志著中國科學家開始向全面、精確地闡釋人體全器官蛋白質組這座高峰沖刺. 本文在已有綜述[1~4]的基礎上, 以人類肝臟蛋白質組計劃和2010~2013年中國蛋白質組學技術的發展為主題進行綜述.
1、 人類肝臟蛋白質組計劃的發展與成就
2003 年, 由賀福初及其科研團隊[5]提出的“人類肝臟蛋白質組國際計劃”開始實施, 這是中國科學家首次領銜國際重大科研合作項目. 近年來, 中國蛋白質組學研究團隊密切合作、聯合攻關, 在以下 3 個方面取得了階段性的新進展\\(圖 1\\): 系統性地注釋肝臟蛋白質表達譜和蛋白質修飾譜\\(兩譜\\); 最大緯度地繪制肝臟蛋白質的亞細胞定位與相互作用網絡圖\\(兩圖\\); 建設完成了大規模的肝臟蛋白質組學研究材料和數據庫\\(肝臟蛋白質組組織樣本庫、抗體庫和開源質譜數據庫, 三庫\\).
1.1 肝臟蛋白質組表達譜
人類個體間的遺傳背景、生存環境乃至心理和精神狀態等諸多方面存在顯著差異, 這決定了人類肝臟組織樣本具有一定的異質性. 為了繪制具有代表性的人類肝臟表達譜, 中國蛋白質組學團隊與國際同行合作, 系統評價了肝臟組織樣本個體差異對蛋白組學研究結果的影響, 建立了國際首份完整的人體組織器官蛋白質組學的樣品制備標準化工作流程\\(standard operating procedures, SOPs\\), 為人類肝臟蛋白質組國際計劃的實施奠定了基礎[6]. 在此基礎上,中國蛋白質組學研究團隊對各種生理和病理狀態下肝臟組織樣本進行了系統的蛋白質組學研究, 共鑒定到雙肽段以上高可信的肝臟蛋白質 6788 個. 其中3721 個蛋白質在肝臟組織中被首次鑒定. 這是迄今為止人類蛋白質組學研究計劃中最大的單一組織臟器的蛋白質組數據集, 引領并促進了國際蛋白質組合作計劃的深入開展.
中國蛋白質組學研究團隊進而對這些鑒定蛋白質的豐度信息進行了系統研究, 發現這些蛋白質橫跨6 個數量級的豐度范圍, 其中 78%的蛋白質\\(5294 個\\)位于中等或偏下信號強度區間, 而首次鑒定的3721個蛋白中的3069個蛋白均屬于低豐度蛋白. 如在肝臟中低豐度表達的細胞色素P450家族的4個分子和3個離子通道相關蛋白在肝臟組織中被有效鑒定[7,8].
1.2 肝臟蛋白質組修飾譜肝臟蛋白質的翻譯后修飾, 如磷酸化、乙?;妊芯恳脖粡V泛開展. 復旦大學管坤良和熊躍團隊[9]在肝臟蛋白質的乙?;揎椬V方向開展了卓有成效的研究, 拓展了人體生理和病理條件下代謝及其調控的研究領域. 利用實驗室自己研制的特異高效的乙?;亩胃患贵w, 實現了肝臟組織中大量乙?;揎楇亩蔚母患痛笠幠hb定. 對這些鑒定的乙?;亩芜M行系統的生物信息學研究, 發現幾乎所有參與中間代謝的酶蛋白, 如糖酵解、糖異生、三羧酸循環、尿素循環、脂肪酸和糖原合成等途徑的蛋白質被乙?;揎? 這些代謝酶蛋白質分子的乙?;揎棾潭扰c細胞內能量物質, 如葡萄糖、氨基酸和脂肪酸的濃度關系密切. 這些結果顯示, 各種酶蛋白的乙?;揎棇毎麅鹊哪芰看x起著重要的調節作用.
不僅如此, 趙國屏和管坤良、熊躍團隊[10]合作, 以沙門氏菌\\(Salmonella\\)為研究對象, 發現在不同碳源培養條件下, 核心代謝酶分子的乙?;揎椝桨l生劇烈的波動, 以適應細胞生長和能量代謝的需要. 部分限速酶的乙?;揎椷€參與調控糖酵解/糖異生、檸檬酸循環/乙醛酸循環的代謝轉化過程. 這些研究不僅證實了基礎和能量代謝酶類分子的乙?;揎椩谠撕驼婧松镏懈叨缺J? 同時也發現酶蛋白的乙?;揎梾⑴c了機體代謝過程的調控, 奠定了蛋白質乙?;鳛榇x調控者的基礎. 這些研究結果被分別發表在 Science 同一期上. 為表彰管坤良與熊躍在蛋白質翻譯后修飾蛋白質組學研究中的杰出貢獻, 中國蛋白質組組織\\(CNHUPO\\)在第八屆中國蛋白質組學大會\\(2013, 重慶\\)為其頒發了學術貢獻獎.
蛋白質磷酸化是重要的功能信號傳導分子, 參與并調控了眾多生命過程. 中國科學院大連化學物理研究所鄒漢法團隊和華中科技大學薛宇團隊[11]合作, 開展了大規模的基于固定化金屬親和層析法\\(immobilized metal affinity chromatography, IMAC\\)富集的肝臟蛋白質組磷酸化研究, 并發展了磷酸化的生物信息學技術, 鑒定了肝臟組織中 2998 蛋白質上的 9719 個磷酸化位點. 利用這個大規模的磷酸化蛋白質鑒定數據集, 發現人類肝臟可能包含 10000 多個節點的磷酸化激酶與特異性底物分子的磷酸化蛋白質分子網絡, 為磷酸化信號途徑及其網絡的分子機制研究奠定了基礎.
1.3 蛋白質相互作用和亞細胞定位網絡構建蛋白質相互作用\\(protein-protein interaction, PPI\\)信息的揭示不僅有助于了解蛋白質分子所處的細胞內的分子環境, 而且可進一步探索這些分子可能參與的代謝途徑或信號通路, 從而為這些蛋白質的功能及其分子機制研究創造條件. 因此 PPI 網絡的構建也是 HLPP 計劃的重要研究內容和主要目標之一. 通過大規模蛋白質組學研究至今已經形成多種模式生物 , 如多種病原細菌 、 酵母 \\(Saccharomycescerevisiae\\) 、 線蟲 \\(Caenorhabditis elegans\\) 和果蠅\\(Drosophila melanogaster\\)等的蛋白質相互作用網絡圖. 這些相互作用的發現為整合生物學、疾病分子機制研究與藥物篩選提供了有力的實驗和數據支撐.
但目前 PPI 的建立主要面臨的挑戰是由于污染蛋白的存在帶來的假陽性率偏高, 多數組學實驗研究結果僅僅有少部分可被實驗證實.
北京蛋白質組研究中心賀福初、楊曉明和王建團隊[12]選取了肝臟組織樣本中的 5026 個蛋白分子進行了系統深入的蛋白質-蛋白質相互作用關系研究. 利用成熟的酵母雙雜交技術平臺和嚴格的假陽性排除技術, 該團隊成功地鑒定了 2582 個蛋白質的 3484 種相互作用. 通過生物化學與分子生物學、細胞高內涵篩選系統驗證發現相互作用的陽性率高達 72%. 深入地分析這些相互作用數據, 該團隊還發現了系列決定肝臟特征表型以及疾病狀態的獨有的蛋白質相互作用. 這是人類肝臟蛋白質相互作用網絡\\(humanliver protein interaction network, HLPN\\)國際合作項目中率先完成的首個臟器、器官蛋白相互作用大型數據集. 這個網絡的系統構建對于理解人類肝臟蛋白質相互作用網絡功能具有重要的價值.
人類肝臟蛋白質組計劃\\(HLPP\\)的研究進展得益于蛋白質組學研究技術的進步和蛋白質組學的發展.HLPP 以構建“兩譜、兩圖、三庫”為總目標, 為蛋白質組學技術的研發提出了明確的科學問題和發展目標.
2、 蛋白質組學技術的發展
蛋白質組學更高層次的研究離不開技術的發展,而技術的發展又為蛋白質組學提供新的視角和思維方式. 在過去的 3 年中, 中國蛋白質組學研究團隊在蛋白質組學樣品制備、微量復雜樣品的高效色譜分離、翻譯后修飾蛋白質的富集、蛋白質組鑒定和定量分析以及生物信息學工具的發展等蛋白質組學研究的幾乎所有方面都取得了顯著發展.
2.1 蛋白質組樣品的制備
蛋白質組學樣品來源于細胞或者組織內部的全部蛋白質, 具有蛋白質種類復雜多樣、豐度范圍寬泛等特點, 這給蛋白質組的高覆蓋鑒定和高精度定量造成了巨大的困難. 國內一些實驗室對樣品的制備環節進行了大量的探索, 開發了多種化學或生物介質材料, 在一定程度上消除了高豐度蛋白對高覆蓋蛋白質組學鑒定的影響, 開拓了蛋白質組學研究的新領域.
\\(1\\) 低豐度蛋白質化學富集介質的開發. 以磁性微球為載體偶聯多種親和介質, 形成了多種高效的蛋白質分離和富集復合材料, 并已經成為化學介質方法中最有效的方法.
新型的磁性材料多以磁性無機粒子與有機高分子結合形成具有特殊結構的磁性微球, 在此過程中通過共聚及表面改性等方法賦予其表面不同的功能基團. 復旦大學楊芃原團隊和張祥民團隊[13]根據金屬離子親和色譜原理, 將 Cu2+離子固定在高比表面積的介孔二氧化硅微球載體上, 利用該微球的多孔1102道特性和高密度的 Cu2+與肽段的結合力, 可以較高效地從微量的混合樣品中富集肽段樣品[13]. 鄒漢法等人[14,15]合成了具有Yolk-Shell結構的磁性介孔碳微球顆粒. 利用該材料的中孔結構的強磁性響應, 可以從人血清中選擇性地提取低豐度的內源性肽段. 該團隊利用這種微球從20 ?L的人血清樣品中高效地提取出了 3402 種不同的內源性多肽. 這些內源性多肽通常豐度較低, 但生理活性顯著. 其高效鑒定為血清中的生物標志物的篩選創造了條件. 中國科學院大連化學物理研究所張玉奎和張麗華團隊與南開大學陳朗星團隊[16,17]合作, 通過點擊化學的方法將 Fe3O4納米顆粒與亞氨基二乙酸共價連接, 制備成了強磁性和超高吸附容量新型材料. 該材料可特異性吸附血紅蛋白等血漿中高豐度蛋白. 這些新技術的發展和新材料的開發有效地去除或者降低了血液樣品中高豐度蛋白的干擾, 大大提高了低豐度蛋白的鑒定能力和序列覆蓋度, 提高了從血液樣品中發現生物標志物的能力, 因此具有良好的理論和實用價值.
\\(2\\) 富集低豐度蛋白質的生物介質的研發. 針對特定的生物學問題, 設計開發具有針對性的生物介質元件, 可實現相關生物因子的高效特異的富集.
北京蛋白質組研究中心秦鈞團隊發明了一種轉錄因子 DNA 結合序列串聯陣列\\(catTFRE\\), 能夠從微量細胞樣品中高效率的富集轉錄因子. 利用該親和介質從單個細胞樣品中鑒定到了 400 多個轉錄因子, 而從 11 個不同類型的細胞中共鑒定到 878 個轉錄因子,涵蓋了細胞內近 1/2 的基因組編碼的轉錄因子產物,實現了轉錄因子的高覆蓋鑒定. 同時, 該課題組的劉瓊明等人[19]利用荷爾蒙反應元件\\(HREs\\)DNA 序列作為親和介質, 成功地從小鼠\\(Mus musculus\\)肝臟組織樣品中富集到了低豐度的內源性核受體因子. 生物介質方法的優勢在于可針對不同的生物學問題, 設計不同的反應原件, 針對性地高效富集和鑒定低豐度的蛋白質因子, 進而揭示基因調控的復雜分子機制. 有效鑒定目的蛋白是研究這些蛋白質功能的前提. 這些高效的化學介質和生物介質的開發, 可實現目的蛋白質亞組的富集, 有效地增加了蛋白質組學的測序深度, 增強了利用蛋白質組學技術解析生命奧秘的能力.
\\(3\\) 蛋白質樣品高效酶切處理技術的研究進展.目前, 蛋白質組學的鑒定和定量主要采用從肽段到蛋白, 即自下而上\\(bottom up\\)的策略, 因此蛋白質水解成為肽段的過程是高端蛋白質組學技術研究中的重要一環. 如何實現蛋白質組樣品酶消化的高效性與特異性是蛋白質組學樣品制備技術研究的熱點.
復旦大學劉寶紅等人[20]發明了一種微芯片反應器, 通過將蛋白酶固定在具有較大比表面積的納米粒子上, 最大程度地提高了蛋白酶和蛋白質樣品的接觸面積, 提高了底物蛋白質的水解效率. 利用該反應器, 胰蛋白酶水解蛋白質底物的速度可達到 400mmol L-1min-1g-1, 可實現蛋白質組樣品的快速水解. 此外, 該反應器還能夠與后續的液相色譜和質譜聯用蛋白質樣品檢測平臺具有很好的兼容性, 可實現蛋白質水解和肽段的在線檢測.
復旦大學張祥民團隊和楊芃原團隊[21,22]發現激光輔助水解可提高蛋白質水解的效率, 縮短水解反應的時間. 該方法不僅價廉, 還可在幾秒鐘內實現低至 2 L 樣品的快速、高效的酶解和快速檢測, 因此適于高通量蛋白質組學的研究[22]. 為了提高蛋白質組的覆蓋度, 鄒漢法等人[23]采用多種酶組合串聯水解的策略, 取得了良好的效果. 張玉奎和張麗華課題組[24]還合作開發出了在線的自動化蛋白質快速水解技術和裝置, 促進了高通量蛋白組學研究.
有趣的是, 鄒漢法等人[25]發現胰蛋白酶不僅具有水解酶的作用, 還有連接酶的活性. 這是世界上首次報告該蛋白酶具有連接酶的活性. 該團隊發現蛋白酶在水相條件下具有水解酶的活性, 但在含有較高有機相的環境中則起到連接酶的作用. 該酶促標記反應條件溫和, 標記區域的特異性高, 可有效減少常規化學標記方法中肽段降解和副反應的發生. 據此, 該團隊發展了特異的 N 端穩定同位素標記肽段的新方法, 并成功應用于定量蛋白質組學分析. N 端特異性標記的肽段可以形成豐富的 b 和 y 離子, 這為肽段從頭測序技術的開發奠定了良好的基礎.
2.2 蛋白質組鑒定技術的發展受益于色譜系統的高效分離技術的發展以及快速、高精度高分辨質譜儀器的開發, 基于色譜-質譜聯用技術平臺的蛋白質組學深度覆蓋成為現實. 多維液相色譜耦聯串聯質譜技術是大規模、高覆蓋蛋白質組學研究的重要手段. 北京蛋白質組研究中心丁琛等人[26]開發了一套快速、高效的鑒定和定量蛋白質組的研究策略, 使得鑒定以及定量的深度和效率得到了雙重提高. 利用這種方法, 在 12 h的質譜分析時間內達到 8000 個人類細胞基因產物的鑒定量. 這種“Fast-seq”策略省略了“脫鹽”這個步驟, 并且通用于常規的無標定量和基于標記技術的相對和絕對定量蛋白質組定量技術. 同樣利用傳統的 2D-MS 技術平臺, 對肝臟蛋白質組學研究取得了不錯的成績[27,28].
楊芃原團隊[27]結合密度梯度離心和 2D-MS 技術系統分析了 C57BL/6J 小鼠肝臟核蛋白質組, 有效鑒定了748 個低豐度蛋白, 為肝臟核蛋白質組研究提供了借鑒. 多維液相色譜分離技術也同樣適用于磷酸化蛋白質組學研究. 鄒漢法團隊[29]建立了一套新的反相-反相\\(reverse phase-reverse phase, RP-RP\\)二維色譜聯用技術, 其中第一維選擇離線高 pH 反相液相色譜分離, 第二維是在線的低 pH 反相液相色譜, 并直接串聯質譜儀. 這兩維分離技術交叉極大地降低了蛋白質樣品的復雜性, 成功地將磷酸化肽段和位點鑒定數量提升到 8000 多個. 除此之外, 蛋白質組學在生物標志物的鑒定與發現以及藥物療效評估等方面發揮著獨特的作用[30~32]. 血漿分泌蛋白質組學研究有力的支撐了生物標志物發現, 利用質譜技術鑒定比較了正常細胞與乙型肝炎病毒\\(hepatitis B virus, HBV\\)相關肝癌細胞分泌蛋白質組, 共鑒定了 1365 個蛋白,第一次報道了MMP1\\(Metalloproteinase 1\\)比現在常用的腫瘤標志物甲胎蛋白\\(a-fetoprotein, AFP\\)具有更好的靈敏度與特異性[30].
2.3 定量蛋白質組學及其應用
由定性到定量是蛋白質組學發展的必然趨勢.
對蛋白質組進行準確、高效的定量研究將極大地促進人類對以蛋白質為基礎的生理和病理分子機制的理解. 近年來, 多種新型定量標記技術被開發, 并在生命科學研究領域得到了廣泛的應用. 這些技術根據樣品制備時標記與否, 分為無標定量、化學標記定量和代謝標記定量等 3 種主要的技術策略. 三者各有優缺點, 但后兩者的定量精度較高, 在定量蛋白質組學研究中得到了有效的推廣.
\\(1\\) 化學標記法定量策略的發展. 化學標記法是在體外對制備的蛋白質或多肽樣品進行標簽標記,可對任何細胞、組織和器官等幾乎所有的蛋白質組樣品進行定量研究, 操作簡便, 應用范圍廣. 但傳統的技術存在一定的技術難題, 有待深入研究和改進. 針對同位素相對標記與絕對定量技術\\(isobaric tags forrelative and absolute quantitation, iTRAQ\\)在復雜生物樣本存在標記偏性, 中國科學院北京基因組研究所劉斯奇團隊[33]開發了新的同位素標記策略——氘同位素氨基反應標簽標記策略\\(deuterium isobaric aminereactive tag, DiART\\), 并對這兩種標記方法在碎裂機制、可定量蛋白數以及定量精度方面做了詳實的對比.
結果表明, DiART 比 iTRAQ 策略中的報告離子信號強度高, 定量精度更為準確, 并且顯現出較 iTRAQ更低的報告離子定量比例的壓制, 更有利于在肽段層面的精確定量研究.
翻譯后修飾定量蛋白質組學因兼具富集修飾和準確定量雙重挑戰, 難度更大. 鄒漢法團隊[34]發展了一種新的磷酸化蛋白質組學定量策略, 能夠顯著提高蛋白質定量精度和通量. 將對照組、實驗組和一個重復對照組分別用“輕”、“中”和“重”穩定性同位素標記的二甲基正常肝組織、肝癌細胞的磷酸化肽進行三重標記, 并利用反相色譜/強離子交換色譜/反相色譜的在線多維液相色譜對標記后混合的樣品進行深度分離簡化, 經過 42 h 的分離鑒定機時, 實現了 00個磷酸化肽段的近 2000 個磷酸化位點的鑒定和定量[35].
在定量標簽方面, 鄒漢法團隊[36]也取得了較好的成果. 該小組開發的新穎的肽段 N-端同位素標記策略, 該策略使用含有不同穩定同位素的甲醛作為標記試劑, 可以在肽段的 N-端發生二甲基化的修飾,從而進行標記定量. 該策略在復雜生物樣本中可以達到 98%的 N-端位點選擇特異性和 99%的標記效率.
\\(2\\) 代謝標記法定量策略的發展. 穩定同位素代謝標記技術\\(stable isotope labeling by amino acidsin cell culture, SILAC\\)是定量蛋白質組學中的金標準.
楊芃原等人[35]交替使用13C6-Arg 和13C6-Lys 對兩組樣品進行穩定性同位素代謝標記. 將樣品等比例混合后, 使用特異性的蛋白內切酶 Lys-N 和 Arg-C 進行消化, 產生以Lys為N-端和Arg為C-端的肽段. 對非起始或者結尾的樣品蛋白肽段產物, 兩組樣品在一級質譜中分子離子的 m/z 值一致, 這些母離子在碎裂后生成的二級質譜譜圖中將產生相同質量遷移單位的b和 y 系列離子對. 依據 b 和 y 系列離子對的信號強度比, 可實現更為精確的定量. 但對于 N端或 C端的肽段, 能可在一級質譜譜圖中形成一定質量單位遷移的離子對, 不僅有利于區分這些末端肽段, 而且可實現這些末端離子對的直接定量.
中國科學院上海生命科學研究院的曾嶸團隊[37]則將基于 SILAC 的定量蛋白質組學方法向轉化醫學應用推進了一步. 該課題組將SILAC小鼠應用到IgA腎病患者血清和尿液的蛋白質組學研究中, 發現了一系列可提供臨床診斷的候選關鍵蛋白分子, 如: 補體 C3, 白蛋白, VDBP, ApoA1, IGFBP7 等. 這是SILAC 標記小鼠在人類疾病小鼠模型的體液蛋白質組學的直接應用, 這為新的生物標志物篩選提供了新的系統鑒定方法.
除了定量蛋白質組樣品外, 中國科學院水生生物研究所葛峰團隊[38,39]將 SILAC 技術成功應用到microRNA\\(miR\\)生物功能的定量研究, 選擇 siRNA 方法敲低 U266 骨髓瘤細胞內源性 miR-21 的細胞系作為研究材料, 然后利用 SILAC 方法對 miR-21 潛在的靶標分子進行系統的定量研究, 最終使用 Westernblot 和報告基因策略證實了 STAT 3 蛋白抑制分子\\(protein inhibitor of activated STAT 3, PIAS3\\)能夠抑制信號轉導子和轉錄激活子 3 \\(signal transducer andactivator of transcription 3, STAT3\\)的激活的關鍵分子是 miR-21 的直接底物.
2.4 蛋白質組翻譯后修飾研究的技術發展蛋白質翻譯后修飾 \\(post translational modif-ication, PTM\\)在各種生物進程中都發揮著重要的作用.
比如目前研究比較深入的磷酸化、糖基化、泛素化等修飾, 在蛋白質功能和定位等方面都發揮著重要的作用. 種類繁多的蛋白質翻譯后修飾極大地增加了蛋白質組的復雜度和動態范圍. 同時由于高豐度蛋白的抑制效應, 使得對蛋白質翻譯后修飾的鑒定和定量成為挑戰. 因此, 發展有效的 PTM 富集策略對質譜的鑒定分析顯得尤為重要.
\\(1\\) 磷酸化蛋白質組學的技術發展. 蛋白質磷酸化修飾是目前研究最為成熟的翻譯后修飾類型.
中國蛋白質組學家在磷酸化肽段富集方法的開發、質譜分析、生物信息學支撐和功能研究等諸多方面均取得了突出的成績和進展.
新型富集材料的開發為高效特異的捕捉磷酸化肽段提供了保障. 蛋白質組學家從親和離子、載體材料、結構等諸多方面進行嘗試, 發展了多種新型材料[40~43], 很好地改善了磷酸化肽段的富集效率和特異性, 為后續大規模研究磷酸化蛋白質組提供了多種候選材料.
磷酸化蛋白的消化和洗脫條件與后續 MALDI-TOF 質譜分析不兼容, 進行分析之前需要進行調節pH 值、脫鹽等繁瑣的步驟. 鄒漢法等人[44]將強陰離子交換毛細管液相色譜與 MALDI-TOF 質譜聯用, 簡化了進行質譜分析前樣品處理步驟, 同時降低了樣品損失. 該方法適合于單一磷酸化蛋白的磷酸化位點的鑒定, 能夠檢測到低至 10~50 amol 的磷酸化肽段.
在磷酸化肽段富集過程中, 多磷酸化修飾的肽段的富集和鑒定是其難點. 為了理解富集過程中磷酸化肽段的競爭關系, 曾嶸等人[45]詳細評估了結合到 Ti 珠子的磷酸化肽段的比例, 提高了富集效率.
同時發現當 TiO2珠子量不足時, 更加傾向于富集多磷酸化肽段. 此外, 北京大學紀建國等人[46]發現檸檬酸的濃度對于單、多磷酸化肽段與 TiO2珠子的結合有密切關系, 該團隊發展了級聯富集的方法, 通過改變檸檬酸的濃度來區分多磷酸化和單磷酸化富集.
為了提高磷酸化蛋白質組的覆蓋度, 鄒漢法等人[23]通過利用組合不同酶對蛋白進行酶切來制備樣品. 組合 Glu-C 和 Trypsin 對蛋白質組樣品進行消化和磷酸化肽段富集, 該小組從 HeLa 細胞系中共鑒定了 8062 個特異磷酸化肽段的 8507 個磷酸化位點, 相比于單一 Trypsin 酶切, 鑒定量提高了近 1 倍.
復雜的蛋白質組樣品的分離簡化也有利于磷酸化肽段的富集和鑒定. 鄒漢法團隊[29]發展了利用二維液相色譜的策略進行磷酸化肽段的分離和質譜鑒定的高效技術體系. 在這個體系中, 首先利用離線的高 pH 反相色譜進行肽段分離, 然后利用低 pH 液相色譜在線分離并進行質譜分析, 由此可提高 30%的磷酸化肽段的鑒定量. 通過不同磷酸化肽段富集策略的組合同樣能夠提高富集效率, 且解決單一方法存在的富集偏性的問題. 曾嶸等人[47]發展了1套利用強陰離子交換結合 TiO2富集的策略, 第一步采用強陰離子交換柱富集磷酸化肽段, 流穿峰部分采用TiO2富集磷酸化肽段. 該組合策略實現了對樣品磷酸化蛋白質組的高效且無偏性的富集分析.
除了定性研究, 翻譯后修飾的定量研究對于揭示其生物學意義更加重要. 鄒漢法等人[48]利用Ti\\(4+\\)-EPO 納米顆粒為吸附劑, 富集同位素標記了的內源性磷酸化肽段. 還發展了 pseudo-triplex 穩定性同位素雙甲基化標記, 實現了高準確性、高通量的定量磷酸化蛋白質組分析. 這些方法的開發為疾病發生發展過程中磷酸化修飾相關生物標志物的發現和分子機制研究創造了條件[34].
\\(2\\) 糖蛋白質組學的技術發展. 蛋白質的糖基化修飾及失調在正常生理狀態和多種疾病發生發展過程中扮演著重要的角色. 天冬酰胺\\(N\\)-連接的糖蛋白質組研究已經形成了較為成熟的技術體系, 并得到了比較深入的研究. 為了富集 N 修飾的糖肽, 鄒漢法團隊和復旦大學陸豪杰團隊[49~52]開發了基于磁性納米填料的毛細管柱子, 實現了 N-修飾糖肽的高效富集. 為了更加高效地分析 N-糖苷修飾的蛋白質組,很多實驗室系統研究并發展了相應的蛋白質組學平臺, 實現了對血清以及組織樣品的糖蛋白質組的分析[53~55]. 核心巖藻糖化是蛋白質糖基化中的另一種重要的修飾形式, 但至今研究尚少. 北京蛋白質組研究中心的錢小紅團隊[56]在大規模鑒定核心巖藻糖化蛋白質的基礎上發展了基于多級反應監測的定量蛋白質組學技術方法, 實現了對核心巖藻糖化蛋白特異性位點的定向檢測和精確定量.
除了糖蛋白和其特異性修飾位點外, 來自糖蛋白底物上的多糖同樣可被詳細表征, 并可作為生物標志物. 錢小紅等人[57]發展了一套基于 PCGO\\(1-pyrenebutyryl chloride functionalized free grapheneoxide\\)實現快速、高效的多聚糖苷富集策略, 可比較簡便地分析這些多聚糖型. 鄒漢法團隊[58]同樣發展了基于 OMC的 N-糖苷的富集策略, 該方法可在有效去除蛋白質的同時又可特異性的富集糖鏈, 大大提高了糖鏈的信號強度. 楊芃原等人[59]發展了基于酶切過程中在N-糖末端引入標記糖苷的方法, 實現了對修飾糖鏈的定量比較. 這些研究極大地推動了糖蛋白質組學和生物標志物的研究.
\\(3\\) 泛素化蛋白質組學研究技術的發展. 泛素化修飾是常見的蛋白質翻譯后修飾之一. 泛素鏈修飾的特異性也是蛋白質底物發生特異性泛素化修飾的一種形式. 不同的泛素鏈修飾攜帶不同的化學結構信息,傳遞底物蛋白特異的生物學功能. 泛素化修飾的特異性主要由泛素連接酶\\(E3s\\)來決定. 然而, 絕大多數被泛素化修飾的底物蛋白的特異性泛素連接酶尚不為我們所知. 中國醫學科學院高友鶴等人[60]建立了一套基于 E3 與蛋白質結合結構域相互作用的蛋白質組學技術特異性鑒定 E3 的底物蛋白的策略, 并且通過體外反應實驗驗證了該技術策略的有效性.
這是一種高通量的特定 E3 酶特異性修飾底物的篩選方法. 通過基于 E3 與蛋白質結合結構域相互作用的蛋白質組篩選技術還可鑒定特定泛素鏈修飾的底物,發現并證實了泛素連接酶\\(E3 ubiquitin-protein ligase,LNX1\\) 介導的 PDZ 連接激酶 \\(PDZ-binding kinase,PBK\\)經泛素化降解途徑, 從而抑制細胞的增殖, 增加細胞對阿霉素的敏感性.
中國科學院上海生命科學研究院李林團隊[61]利用基于質譜的蛋白質翻譯后修飾鑒定策略, 闡明了Smurf1 能介導軸蛋白\\(axin\\)K29 位的多聚泛素化修飾.進一步研究發現這種 K29 的多聚泛素鏈并不介導軸蛋白經泛素-蛋白酶體系的降解, 而是引導被修飾的軸蛋白通過與 Wnt 共受體 LRP5/6 發生相互作用, 引發 LRP5/6 的磷酸化修飾, 進而抑制 Wnt/b-catenin 信號通路.
\\(4\\) 乙?;鞍踪|組學技術研究進展. 蛋白質乙?;揎検橇硪环N同樣具有重要生物功能的蛋白質翻譯后修飾形式. 乙?;揎椩谌旧w重塑、轉錄因子激活以及調節代謝過程中酶的活性等諸多方面具有重要作用. 研究蛋白質乙?;揎椇蟮墓δ芎蜋C制的前提是鑒定蛋白質乙?;揎椢稽c的. 然而,細胞內存在大量的高豐度的乙?;揎椀慕M蛋白,這些乙?;M蛋白的存在將極大的干擾動能多樣的乙?;墙M蛋白的富集和質譜鑒定. 因此, 對于乙?;揎椀难芯恐饕芟抻卺槍毎麅鹊拓S度的乙?;亩蔚挠H和純化技術的發展.
復旦大學趙世民團隊[62]設計了可以運用于細胞內低豐度乙?;亩胃患男路椒? 該團隊首先獲得了泛乙?;揎楇亩蔚奶禺愋钥贵w和針對精氨琥珀酸裂解酶第 288 位賴氨酸發生乙?;揎椀奶禺愋钥贵w; 然后通過亞細胞組分的分離, 降低乙?;M蛋白的高豐度; 最后, 利用針對乙?;揎椀目贵w進行親和富集, 結合LC-MS/MS技術, 鑒定乙?;揎椀碾亩魏臀稽c.
2.5 生物信息學發展
隨著高通量蛋白質組學測序技術的快速發展,海量質譜數據特別是高精度質譜數據的“爆炸式”涌現, 對數據的管理、共享和挖掘提出了挑戰. 為此,國內生物信息學家在數據質量控制、肽段和蛋白質的鑒定和定量、從頭測序、基因組重新注釋、翻譯后修飾蛋白質的鑒定和蛋白質交聯鑒定的算法和軟件工具發展等方面,都開展了系統深入的研究工作并取得了一系列進展. 質譜數據的深度挖掘使蛋白質組學成為新蛋白和新修飾發現的有力工具. 此外, 蛋白質相互作用預測、蛋白質 motif 數據庫和基于蛋白質的生物標志物數據庫等開發也取得了較好的研究進展.
\\(1\\) 蛋白質鑒定、定量相關的生物信息工具開發.
基于質譜數據的蛋白質鑒定流程包括實驗和計算兩部分. 計算部分一般包括圖譜預處理、數據庫搜索和質量控制 3 個部分.
在圖譜預處理部分, 精確的母離子質量挑選能夠降低鑒定的假陽性, 提高圖譜解析率和定量準確性. 中國科學院計算技術研究所賀思敏團隊[63]開發了 pParse, 利用同位素峰簇中第一同位素峰和最高峰的位置關系挑選候選峰簇, 并根據相似性和色譜峰強度確定單一同位素峰, 識別、區分共洗脫肽段, 有效地提高了圖譜解析率.
在數據的質量控制方面, 北京蛋白質組研究中心朱云平團隊[64]開發了肽段鑒定質量控制軟件PepDistiller, 用于 MASCOT 搜庫結果的數據質量控制. 相比于業內廣泛使用的質控軟件 MASCOTPercolator[65], 其對半酶切搜庫結果質控的靈敏度有顯著提升. PepDistiller 內置的多線程技術也能大大加快高通量質譜數據的處理速度. 曾嶸團隊[66]開發了質控工具 BuildSummary, 通過將圖譜鑒定結果按照特定屬性分類后單獨過濾, 并以蛋白質水平錯誤發現率\\(false discovery rate, FDR\\)為最終過濾條件, 實現了多搜索引擎鑒定結果的數據整合, 也適合來自不同樣品或儀器類型的不同數據集的整合.
搜索引擎是質譜數據解析的基本工具. 賀思敏團隊[67,68]經過多年努力, 研制了我國具有完全自主知識產權的搜索引擎 pFind, 并在業內得到了廣泛推廣. 中國科學院上海生命科學研究院李亦學團隊[69]也開發了基于支持向量機的多特征整合引擎, 用于一級圖譜鑒定, 其靈敏度和準確性都要優于已有搜索引擎的 MASCOT, ProFound 等.
從頭測序技術不依賴數據庫而直接利用圖譜信息解析肽段, 常被用于新蛋白和新修飾的鑒定. 但從頭測序算法的圖譜質量較高, 限制了該算法在低精度質譜數據的實際應用. 研究表明, 能被數據庫搜索鑒定的圖譜中只有不超過一半的圖譜可被從頭測序算法正確鑒定[70]. 高能碰撞誘導碎裂\\(higher-energycollisional dissociation, HCD\\) 和電子轉移碎裂\\(electron transfer dissociation, ETD\\)技術所生成的高精度二級質譜譜圖的二級碎裂分子離子的連續性好、離子類型多、質量精度高, 因此使用從頭測序算法對其進行解析, 可取得較好的效果. 而 HCD 和 ETD 圖譜的碎裂離子的類型還具有互補性, 可進一步提升高精度質譜譜圖的從頭測序的解析率. 中國科學院計算技術研究所賀思敏團隊和北京生命科學研究所董夢秋團隊[71]合作開發了從頭測序軟件 pNovo, 充分利用了 HCD 圖譜二級離子高精度以及具有豐富的internal 離子和 immonium 離子等特點, 使得 pNovo正確解析圖譜數覆蓋常規數據庫搜索鑒定數的 80%以上, 并能同時有效鑒定出脫酰氨基修飾和氨基酸突變. 在該軟件升級版 pNovo+中, 除 HCD 圖譜外,來自同一肽段的 ETD 圖譜的二級離子信息\\(包括 c, z離子及氫重排離子\\)被整合入譜圖節點構建和動態規劃算法中, 使得常規搜庫約 95%的鑒定結果可被pNovo+覆蓋[72]. pNovo 在新蛋白鑒定方面得到了很好的應用, 例如中國科學院生物物理研究所苗龍課題組[73]利用 pNovo 鑒定到了 1 種絲氨酸蛋白酶As_TRY-5 及其抑制因子 As_SRP-1. 這 2 種蛋白質是線蟲綱物種中調節精子活化或精子競爭優勢的關鍵蛋白.
此外, 賀思敏團隊和董夢秋團隊[74]合作開發了用于肽段交聯質譜鑒定的軟件 pLink, 實現了規?;幕瘜W交聯蛋白質的結構鑒定. pLink 通過圖譜預過濾、候選交聯肽段初篩及 KSDP 圖譜匹配打分的優化[75], 實現了交聯肽段的快速鑒定, 并設計了適用于交聯肽段鑒定的 target-decoy 策略, 有效地控制了交聯鑒定的 FDR 水平. pLink 的有效性進一步在純化的蛋白質樣品、蛋白質復合物、免疫共沉淀樣品、模式生物的全細胞裂解液上得到了驗證.
定量蛋白質組學根據是否需要穩定同位素標記可以分為無標定量和有標定量兩大類. 在蛋白質無標定量方面, 朱云平團隊組和國防科學技術大學謝紅衛團隊[76]合作開發了無標定量工具LFQuant, 實現了無標實驗策略下的蛋白質精確定量. LFQuant 采用了新的交叉搜索算法, 大大降低了計算復雜度, 提升了軟件的效率, 實現了對多種格式質譜數據的定量分析. 其核心算法在多組標準數據集上進行了測試和比較, 優于目前的定量軟件 MaxQuant[77]以及IDEAL-Q[78], 目前已經成功應用于中國人類染色體計劃等大規模數據的定量分析中[79]. 針對基于穩定同位素標記數據的定量分析, 朱云平、謝紅衛團隊[80]還合作開發了有標定量工具 SILVER. 和其他定量軟件相比, SILVER 中額外包含了新的定量可靠性評估指標和過濾打分, 在不降低定量靈敏性的前提下, 提高了定量準確性. 與目前常用的定量軟件 MaxQuant和 Proteome Discoverer 相比, SILVER 不僅能夠對SILAC、等標記方式進行精確定量, 還能夠額外支持15N 標記的定量數據分析, 擴大了質譜數據定量軟件的使用范圍. 此外, LFQuant 和 SILVER 都具有用戶友好的界面, 能夠進行定量結果的系統展示和統計學分析, 方便用戶使用. 賀思敏團隊和董夢秋團隊[81]也聯合推出了有標定量軟件 pQuant, 在肽段定量時額外考慮了不完全標記的情況, 同時在蛋白質定量值計算時采用了非參數模型進行評估, 有效提高其定量準確性.
\\(2\\) 蛋白質基因組學在基因組重注釋上的應用.
后基因組時代, 蛋白質組學不僅僅依靠基因組數據庫進行蛋白質組的鑒定和定量, 也可以反過來對已有的基因結構注釋進行驗證和修正. 原核生物基因組小, 基因結構簡單, 可直接通過六框搜索進行基因組重注釋和修正. 真核生物基因組龐大, 基因結構復雜, 因而對于注釋修正算法以及結果的假陽性控制均有更高的要求, 以保證結果的準確性和靈敏度.
目前, 國外在利用蛋白質組數據進行基因組注釋的修正方面已發展了一系列算法或工具, 并在小鼠或人類等高等生物樣品數據集上得到了較好的應用. 國內學者在這個方向也進行了一定的嘗試. 上海生物信息技術研究中心謝鷺和中國科學院上海生命科學研究院李亦學團隊[82,83]合作在使用外顯子組合數據庫對小鼠的高精度質譜數據進行了嘗試并開發了 iGepros, 成功應用到基因和蛋白質的整合注釋的研究中. 值得一提的是中國科學家積極參與和領導國際 HUPO 組織的國際染色體蛋白質組計劃\\(chromosome-centric human proteome project, C-HPP\\),旨在通過國際合作對各條染色體上基因編碼的蛋白質產物進行鑒定, 并進一步完善基因組的注釋. 在該計劃中, 中國團隊由中國人民解放軍軍事醫學科學院、北京蛋白質組研究中心、復旦大學、北京基因組研究所和暨南大學構成, 并由賀福初、楊芃原、劉斯奇、何慶瑜等人分別領銜、負責人類 1, 8 和 20 號染色體上編碼基因的蛋白質產物的鑒定工作, 經過兩年的努力, 取得了階段性進展, 已鑒定 62%左右的人類基因組編碼基因產物, 并有望發現系列新的漏注釋基因[79,84~86].
\\(3\\) 蛋白質翻譯后修飾的鑒定和質控.
蛋白質翻譯后修飾\\(PTM\\)的鑒定存在兩個難點: \\(ⅰ\\) 實驗檢測難. PTM 的檢測屬于亞化學計量水平, 且存在時間短, 一般是瞬時出現或動態變化, 必須依靠高靈敏度的分析化學檢測技術才可能捕獲; \\(ⅱ\\) 計算難. 蛋白質修飾類型豐富, 而每種蛋白質的多個氨基酸殘基都可能發生修飾, 使得PTM的鑒定碰到“組合爆炸”問題,難于處理. 常規的數據庫搜索策略需預先指定修飾類型, 單次搜索允許的單肽段修飾種類和修飾個數都受到限制, 只能鑒定數據集中的部分質譜數據.
然而即使采用雙高精的質譜儀\\(例如 HCD\\), 圖譜的解析率也只有 50%左右, 因此, 人們認為未解析的圖譜中仍蘊含著豐富的新蛋白、可變剪切、氨基酸突變和翻譯后修飾信息, 亟待挖掘. 目前人們普遍認為, 未修飾肽段和修飾肽段在樣品中是同時存在的,因此通過挖掘高頻出現的肽段母離子質量差和色譜保留時間差, 則有望快速發現潛在的修飾類型. 利用這一原理, 中國科學院計算技術研究所付巖[87]開發了修飾挖掘工具 DeltAMT. 該軟件采用二維高斯混合模型進行建模, 并設計了 D-score 進行修飾類型過濾, 可以有效地對單一修飾或混合修飾進行鑒定. 在實際運用中, DeltAMT 對高豐度修飾\\(例如一些體外修飾\\)有較好的鑒定效果, 但對低豐度修飾的挖掘仍存在一定困難.
在對富集的特定修飾類型的實驗數據進行處理時, 翻譯后修飾鑒定的數據質量控制對鑒定的準確性也尤為重要. 不同磷酸化肽段具有不同的碎裂行為. 鄒漢法團隊[88]利用這個特征, 在磷酸化三級質譜策略中運用了分類過濾策略, 即根據二級譜圖是否有中性丟失峰將磷酸化肽段進行分類, 每類單獨過濾, 提高了磷酸化肽段鑒定的分辨率和磷酸化蛋白質測序的覆蓋度, 提高了磷酸化鑒定的靈敏度, 實現了高效的鑒定. 該團隊還發展了人類血清已鑒定蛋白的正反數據庫, 并利用二次搜庫質控的策略提高了磷酸化肽段的鑒定靈敏度, 也降低了搜庫時間, 促進了血液磷酸化蛋白質組學的研究[89]. 利用磷酸化蛋白質組的大數據集, 李亦學等人[90]發現磷酸化位點在脊椎動物內特定功能分子的保守性高于其他基本分子和其側翼區域. 基此, 認為磷酸化位點在脊椎動物的進化過程中發揮著重要的作用. 姚雪彪和薛宇等人[91]分別用特異激酶的磷酸化位點信息預測工具\\(GPS2.0\\)分析了單核苷酸多態性\\(single nucleotidepolymorphisms, SNP\\)數據, 發現約 70%報道的 SNP位點是潛在的磷酸化 SNP. 大約有 74.6%的潛在的磷酸化 SNP 包含了激酶類型相關的磷酸化位點的改變,而不是直接產生或者去除磷酸化位點. 這些結果有助于深入理解人類疾病過程中的基因差異, 并更好地為個性化醫療服務.
\\(4\\) 蛋白質相互作用預測. 蛋白質自相互作用的研究有助于蛋白質相互作用網絡進化的探索, 揭示蛋白質的生物學功能. 但目前尚無蛋白質自相互作用預測工具研究的報道. 在開發蛋白質相互作用預測工具 PRINCESS 之后, 北京蛋白質組研究中心李棟團隊[92]又相繼開發了蛋白質自相互作用預測工具 SLIPPER. SLIPPER通過整合功能注釋和網絡拓撲結構特征, 采用特征篩選和 Logistic 回歸對自相互作用進行預測發現, 自相互作用蛋白質傾向于含有更多的結構域, 進化上也更保守, 生物學功能上更傾向于酶類、看家基因和藥物靶點等蛋白質. 由于這些蛋白質在相互作用網絡中多占據關鍵節點, 因此蛋白質自相互作用預測研究還為蛋白質相互作用網絡構建和驗證創造條件.
\\(5\\) 蛋白質組學研究相關數據庫構建的研究進展. 海量高通量質譜數據的處理催生了質譜數據分析軟件的蓬勃發展. 在基本解決了鑒定和定量問題后, 這些大數據蘊含的豐富生物功能信息的挖掘同樣需要生物信息學的支撐. 謝鷺團隊[93]通過收集覆蓋 20 種人類癌癥的 331 套實驗數據, 提供了人癌癥差異蛋白質組數據分析可供參考的數據庫. 高友鶴團隊[94]通過文獻挖掘和人工確認, 建立了人和動物的尿液蛋白質生物標志物數據庫 UPB, 并且發現不同方法鑒定的生物標志物的低重疊率可能與不同實驗室的實驗流程差異有關.
最近薛宇團隊[95]在蛋白質的泛素化和乙?;A測方面開發了一些列數據庫, 促進了翻譯后修飾的注釋研究. 例如, 通過文獻挖掘和人工確認, 收集了26 種 E1, 105 種 E2, 1003 種 E3 和 148 種去泛素化酶或去類泛素化酶的信息, 結合 E3 的分類研究, 最終構建了泛素結合和類泛素結合數據庫\\(ubiquitin andubiquitin-like conjugation database, UUCD\\). 該數據庫收錄了橫跨 70 個真核生物物種的約 6 萬種酶的信息.
與此類似, 還建立了CPLA等賴氨酸乙?;稽c數據庫[96,97], 以及收錄了包括人在內的 7 種模式生物的上千種在細胞分化和有絲分裂過程中與中間體、中心體和著絲粒相結合的蛋白質數據庫 MiCroKit, 為染色體相關的蛋白質組學的研究創造了條件.
3 、展望
在中國蛋白質組學家不懈努力和各種科學基金的鼎力支持下, 中國的蛋白質組學研究在過去的 3 年中繼續保持了欣欣向榮、蓬勃發展的態勢. 中國蛋白質組學研究團隊承擔的國際肝臟蛋白質組計劃取得了階段性成果, 引領了國際器官蛋白質組學的發展,并影響著后續的國際人類蛋白質組學研究. 在國際肝臟蛋白質組計劃實施過程中形成的思路、策略、技術體系和人才隊伍為剛剛啟動的中國人類蛋白質組計劃的開展奠定了堅實的基礎. 可以預見, 通過未來幾年的努力, 人類蛋白質組學的研究成果在闡釋生理與病理過程的分子機制的研究中將會發揮更加積極的作用, 并為人類的健康事業和生命科學的發展奠定基礎.
致謝
衷心感謝中央政府和地方各級科技部門, 特別是國家大科學設施計劃、國家自然科學基金以及北京市政府對蛋白質組學發展的支持和資助. 同時感謝 CNHUPO 組織以及中國蛋白質組學家的支持與幫助, 特別是引文中的作者在蛋白質組學發展中做出的努力與貢獻. 限于篇幅限制, 其他 CNHUPO 成員卓有成效的工作沒有被提及, 在此一并表示對他們的敬意與感謝.
參考文獻:
1 Gao X, Zhang X, Zheng J, et al. Proteomics in china: ready for prime time. Sci China Life Sci, 2010, 53: 22–33
2 He F. At a glance: proteomics in china. Sci China Life Sci, 2011, 54: 1–2
3 賀福初. 大發現時代的“生命組學”\\(代序\\). 中國科學: 生命科學, 2013, 43: 1–15