引言
基因是指攜帶有遺傳信息的DNA序列,基因通過指導蛋白質的合成來表達自己所攜帶的遺傳信息,從而控制生物個體的性狀表現.真核基因在基因表達調控的過程中起主要作用的元件包括順式作用元件和反式作用因子.反式作用因子是指一系列影響基因轉錄的調節蛋白;順式作用元件則指在基因的旁側存在的一類可以調控基因表達的核酸序列,這些調控元件包括啟動子、增強子、終止子、沉默子和隔離子等.啟動子可以和決定轉錄開始的轉錄因子產生相互作用,控制基因表達的起始時間和表達程度.增強子是DNA上一小段可與反式作用因子結合的區域,與蛋白質結合之后,基因的轉錄作用將會加強.增強子可能位于基因上游,也可能位于下游.且不一定接近所要作用的基因,甚至不一定與基因位于同一染色體.終止子位于基因編碼區下游,是能夠終止RNA轉錄的特殊DNA序列.沉默子是一種負性調控元件,位于結構基因附近,是能抑制該基因轉錄的DNA序列.真核生物的基因組較原核生物復雜,基因的表達調控十分精細.真核生物的染色體由一系列結構與功能獨立的單元組成,各個單元的基因表達情況各不相同,各單元間的結構稱為邊界元件,它使一側的基因免受另一側調控元件的影響,這就是限定染色質轉錄功能區的染色質隔離子.染色質隔離子不同于增強子和沉默子,本身對基因的表達強度沒有直接增強或者減弱的效應.它是染色體上相鄰轉錄功能區的邊界序列,使基因的表達免受鄰近區域的調控元件的作用.與增強子和沉默子相似的是,隔離子也通過與之相結合的蛋白質來發揮作用.在擬南芥、線蟲和果蠅等這些物種里,基因基本是均勻分布的.但是,在哺乳動物的基因組中,基因不是隨機分布的.管家基因和組織特異性基因共同聚集在一起.在染色體上有基因成簇存在的區域,也有大片的區域只有“無用DNA”存在.這些聚集在一起的基因共同參與相同的生化路徑,它們具有相近的表達水平或者表達模式.臨近的基因之所以有相近的表達水平,是因為他們共享了相同的基因表達調控單元.染色質隔離子作為邊界元件,能夠使得基因表達免受臨近區域調控元件的調節作用.那么,隔離子兩側的基因在表達過程中是否彼此完全互不影響?我們以人類基因組為研究對象,以隔離子兩側臨近基因的表達水平為切入點,分析了隔離子兩側臨近基因的共表達趨勢.
1材料和方法
1.1研究材料
1.1.1人類基因組數據
源自NCBI的人類基因組數據庫包含基因所在的染色體、基因起點、基因終點和所在正負鏈等信息.該數據庫包含了22條常染色體和兩條性染色體.我們只選?。玻矖l常染色體上的基因數據,去除原始數據庫中的假基因等不適宜本研究的數據后,最終篩選得到32609個基因數據信息.
1.1.2隔離子數據
選取了Ziebarth等2013年構建的人類隔離子數據庫CTCFBSDB2.0.數據文件中共包含34418個隔離子,經過初步篩選,數據庫中保留了34063個隔離子.數據文件中的每一個隔離子信息都顯示了與隔離子相鄰的基因.有些隔離子標注了5`和3`端的相鄰基因;有些只標注了5`端相鄰基因;有些只標注了3`端相鄰基因;有些隔離子兩側沒有相鄰基因標注.我們根據以上與隔離子相鄰基因的標注信息,將隔離子分為四組.每組隔離子的總量和位于常染色體隔離子的數量見表1.因為我們將分析隔離子兩側基因共表達關系,因此在隔離子兩側均有基因標注的第一組數據被保留.文中提到的隔離子兩側臨近基因指的是與隔離子相鄰的5`和3`端基因,這兩個基因作為基因對,進行共表達研究.
1.2研究方法
1.2.1基因表達水平
基因表達是從DNA到mRNA再到蛋白質的過程,基因表達水平可以通過該基因轉錄的mRNA含量來衡量.在轉錄過程中,參與轉錄的RNA聚合酶和一些輔助因子起主要作用.在真核生物的三種RNA聚合酶中,又以RNA聚合酶Ⅱ(PolII)的作用最大,編碼蛋白質基因的轉錄受到該RNA聚合酶的調控.因此我們將依據轉錄區域PolII的平均含量衡量基因的表達水平.下載PolII數據。在PolII數據庫的基礎上,通過以下三步實現對基因表達水平的計算.(1)整理原始數據庫中以核小體為單位的PolII在染色體上的位置信息,該數據庫共包含1988891個核小體PolII數據.(2)整合該數據庫和人基因組數據庫,明確某一基因轉錄區范圍內PolII數據信息,即篩選位于基因轉錄區域內的核小體PolII數據.(3)計算每一基因轉錄區域內的核小體PolII數據平均值,即該基因的表達水平.經過上述三個步驟,我們共計算了24935個基因的表達水平.
1.2.2相關分析
研究兩個變量的關系可以采用回歸和相關的分析統計方法.如果兩個變量間關系屬于因果關系,一般采用回歸來研究.如果兩個變量是平行關系,則采用相關方法來研究.在相關分析中,兩個變量沒有自變量和因變量的區別.相關分析只能研究兩個變量之間相關程度和性質.因為隔離子兩側臨近基因表達水平的關系是平行的,不存在一個隨另一個變化的情況.因此,應用Pearson相關分析來研究兩個基因表達水平之間的關系是適宜的.
2結果
2.1隔離子兩側臨近基因表達水平的相關性
在將人基因數據庫和隔離子數據庫整合之后,共篩選出兩側都有臨近基因而且基因名字沒有重復的隔離子3729個.然后,將基因表達數據信息以相同基因名稱為基準融合到該數據庫中.此時,該數據庫中每條記錄信息包括隔離子起始和終止點、隔離子兩側臨近基因的名稱、兩側基因所在鏈的信息(“+”鏈還是“-”鏈)、基因的表達水平以及基因的長度等.因為基因的轉錄方向都是5`→3`,所以位于正鏈的基因(數據庫中該基因的標注為“+”)的轉錄方向與位于負鏈基因(數據庫中該基因的標注為“-”)轉錄方向正好相反.為了研究隔離子兩側臨近基因表達水平的相關性,首先按照隔離子兩側臨近基因的轉錄方向(基因所在鏈是“+”或者“-”),將隔離子分為四種:“++”(1063個)、“+-”(667個)、“-+”(928個)和“--”(1071個).其中“++”和“--”隔離子兩側臨近基因轉錄方向相同;“+-”和“-+”隔離子兩側臨近基因轉錄方向相反.然后,針對每一種隔離子,根據隔離子5`端基因的表達水平,又將隔離子分成五類:類1(表達水平最高)、類2(表達水平較高)、類3(表達水平居中)、類4(表達水平較低)和類5(表達水平最低).對于每種隔離子,在依據5`端基因的表達水平分成五類的基礎上,計算每一類與同一隔離子臨近的3`端基因的表達水平.圖1至圖4中的每一圖顯示了依據5`端基因表達水平構建的五類隔離子臨近的3`端基因的表達水平.在柱狀圖中,深色圖柱表示5`端基因表達水平;淺色圖柱表示3`端基因表達水平.
圖1和圖4顯示,隨著隔離子5`端基因表達水平的降低,3`端基因的表達水平同樣減低.而圖2和圖3顯示,隨著隔離子5`端基因表達水平的降低,3`端基因的表達水平沒有顯示出相對明顯的變化趨勢.表2從相關系數的角度表明了隔離子兩側基因表達的相關關系.當隔離子兩側基因同時位于“+”鏈,皮爾遜相關系數(PearsonCorrelationCoefficient,PCC)為0.289;當隔離子兩側基因同時位于“-”鏈,皮爾遜相關系數為0.199;當隔離子兩側臨近基因位于不同鏈時,表達水平的相關性不顯著.可見,隔離子兩側臨近基因轉錄方向相同時,表達水平呈現顯著的正相關;轉錄方向相反時,表達水平沒有顯著的關聯性.同時,我們根據隔離子3`端基因的表達水平進行了類似的工作,得到的結論相同.
2.2隔離子每側臨近基因的長度與表達水平的關聯關系
Raghava等的研究顯示,酵母基因長度和表達水平是反關聯的.基因越短表達水平越高;基因越長表達水平越低.那么人類隔離子每一側臨近基因表達水平與該基因長度之間的關系是否也符合這一規律?
表3顯示,不論是與隔離子臨近的5`端基因還是3`端基因,表達水平和基因長度之間都是負相關的.即基因越長,表達水平越低;基因越短,表達水平越高.這一研究結果與文獻報道的關于基因表達水平與長度關系的結果吻合.按照轉錄方向分成的四類中,每一類的5`基因和3`基因的表達水平和基因長度都是負相關,這種基因長度與表達水平的負相關不會因為隔離子的存在和基因自身的轉錄方向而改變.
2.3隔離子兩側基因長度的關聯性
進一步分析了隔離子兩側臨近基因的基因長度之間的關聯,見表4.發現隔離子兩側的基因同時位于“+”鏈時,基因長度之間的皮爾遜相關系數為0.713;隔離子兩側的基因同時位于“-”鏈時,基因長度之間的皮爾遜相關系數為0.570;隔離子兩側的基因位于不同鏈時,基因長度之間的皮爾遜相關系數接近0.1.這說明基因轉錄方向相同時,隔離子兩側的基因長度關聯強,否則關聯性弱;兩側臨近基因同時位于“+”鏈時,它們之間的關聯性最強.
3討論
真核染色質由功能獨立的結構域組成,結構域中存在邊界復合物即隔離子,它可以阻斷增強子激活位于其鄰近結構域內的啟動子,從而抑制不正確的增強子和啟動子之間的相互作用.這就是說,隔離子在生物體內的實際功能是既可以作為染色質的結構組分,又可以起到轉錄調控作用.在基因轉錄的過程中,相鄰的基因可能被定位于染色質的同一區域,而有更多的機會分享一樣的啟動子或者調節元件而被共調節或者共表達.分析隔離子兩側臨近基因的共表達趨勢后發現,隔離子每一側的基因長度和表達水平之間是反關聯關系,這一關系不受臨近的隔離子的影響.并且,隔離子兩側臨近基因同時位于正鏈或者負鏈時,或者說基因的轉錄方向相同時,隔離子兩側基因表達水平的相關性較強.否則,表達水平關聯不顯著.這一研究結果并沒有顯示出隔離子對于與之相鄰的基因表達具有屏障作用.如果隔離子能夠發揮屏障作用,那么不論隔離子兩側的基因轉錄方向如何,它們的表達水平之間應該沒有顯著的相關性或相關性很弱.人類隔離子可能大多數發揮了增強子阻斷作用.West等的研究顯示,根據作用方式的不同,可將隔離子分為兩類,即起增強子阻斷作用的隔離子和起屏障作用的隔離子.目前發現的大多隔離子為起增強子阻斷作用的隔離子,可以作為染色質結構組分和轉錄調控因子.起屏障作用的隔離子主要在酵母中發現的.如果大多數隔離子發揮了增強子阻斷作用,那么轉錄方向相同的與隔離子臨近的兩個基因可能共享啟動子.在這樣一個啟動子存在的情況下,與該啟動子相互作用的增強子可能位于隔離子的同側,使得隔離子發揮不了增強子阻斷作用,所以隔離子兩側臨近基因表達水平相關.我們的研究結果已經顯示,轉錄方向相同的基因表達水平正關聯顯著.而轉錄方向相反的基因的轉錄受到隔離子兩側兩個位置不同的啟動子的調控,這兩個啟動子一個靠近隔離子,一個遠離隔離子.雖然增強子對于啟動子的作用不具有專一性,但是增強子的位置比較靈活,可以位于基因上游或者下游.因為上述原因,所以這類隔離子有更大的可能性位于啟動子和增強子之間,發揮自身對于隔離子兩側鄰近基因的表達調控作用.我們的研究結果顯示,隔離子兩側轉錄方向相反的基因,表達水平相關性不顯著.說明對于這兩個基因,隔離子可能發揮了它的增強子阻斷作用.
參考文獻:
[1]SpilianakisC,LaliotiM,TownT,etal.Interchromosomalassociationsbetweenalternativelyexpressedloci[J].Nature,2005,435(7042):637-645.
[2]朱玉賢.分子生物學[M].北京:高等教育出版社,2008:90-92.
[3]WestAG,GasznerM,FelsenfeldG.Insulators:manyfunctions,manymechanisms[J].GenesDev,2002,16:271-288.
[4]EmilyJK,PamelaKG.Genomicinsulators:connectingpropertiestomechanism[J].CurrOpinCellBiol,2003,15:259-265.
[5]BoZ,XinL.TheProgressintheStudyofChromatinInsulator[J].Hereditas,2004,26(4):551-555.
[6]HurstLD,PalC,LercherMJ.Theevolutionarydynamicsofeukaryoticgeneorder[J].NatRevGenet,2004,5(4):299-310.
[7]LeeJM,SonnhammerEL.GenomicGeneClusteringAnalysisofPathwaysinEukaryotes[J].GenomeRes,2003,13(5):875-882.
[8]KruglyakS,TangH.Regulationofadjacentyeastgenes[J].TrendsGenet,2000,16(3):109-111.
[9]ZiebarthJD,BhattacharyaA,CuiY.CTCFBSDB2.0:adatabaseforCTCF-bindingsitesandgenomeorganiza-tion[J].NucleicAcidsRes,2013,41(D1):88-94.
[10]BarskiA,CuddapahS,CuiK,etal.High-resolutionprofilingofhistonemethylationsinthehuman[J].Cell,2007,129:823-837.
[11]杜榮騫.生物統計學[M].北京:高等教育出版社,2009:223-226.
[12]RaghavaGP,HanJH.Correlationandpredictionofgeneexpressionlevelfromaminoacidanddipeptidecompo-sitionofitsprotein[J].BMCBioinformatics,2005,6:59.
[13]ButlerJE,KadonagaJT.Enhancer-promoterspecificitymediatedbyDPEorTATAcorepromotermotifs[J].GeneDev,2001,15:2515-2519.