文獻(xiàn)分享:NetAct利用轉(zhuǎn)錄因子活動(dòng)來建立調(diào)控網(wǎng)絡(luò)
基因調(diào)控網(wǎng)絡(luò),TGF???β induced EMT,巨噬細(xì)胞極化
文章導(dǎo)入
利用轉(zhuǎn)錄因子(TF)調(diào)控網(wǎng)絡(luò)模型來分析生物動(dòng)態(tài)過程,是系統(tǒng)生物學(xué)的一個(gè)經(jīng)常被人研究的交叉領(lǐng)域。2003年,羅喬杜里實(shí)驗(yàn)組在PNAS發(fā)表了用矩陣分解的方法來估計(jì)轉(zhuǎn)錄因子相互作用強(qiáng)度,并在酵母DNA微陣列找到了細(xì)胞周期的調(diào)控網(wǎng)絡(luò)。2016年,卡利法諾實(shí)驗(yàn)室在Nature Biotechnology發(fā)表了用基因表達(dá)推算出的調(diào)節(jié)子來計(jì)算蛋白活性,并利用mRNA轉(zhuǎn)錄組測序(RNA-seq)演算出人類 B 細(xì)胞轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)。由此可見,通過高通量測序數(shù)據(jù),構(gòu)建出調(diào)控網(wǎng)絡(luò)模型可以準(zhǔn)確的映射出某些動(dòng)態(tài)生物過程。

在該研究中,作者提出了NetAct統(tǒng)計(jì)模型:利用推算出來的基因活性來創(chuàng)建調(diào)控核心網(wǎng)絡(luò)模型。在高通量數(shù)據(jù)集上,作者展示了NetAct創(chuàng)建的核心網(wǎng)絡(luò)模型,成功分析了上皮細(xì)胞間質(zhì)化(EMT)和巨噬細(xì)胞極化等生物模型。
背景簡介
在系統(tǒng)生物學(xué)中,創(chuàng)建核心網(wǎng)絡(luò)調(diào)控來分析生物過程是一個(gè)很重要且流行的課題。大體上有兩種方式連構(gòu)建:一種是先創(chuàng)建小的網(wǎng)絡(luò)基于現(xiàn)有的知識(shí)和數(shù)據(jù)庫,在利用模擬器來完善網(wǎng)絡(luò),但是效率低沒有辦法用來構(gòu)建新的網(wǎng)絡(luò)模型。第二種是使用生物信息技術(shù),特別是運(yùn)用高通量測序(尤其是轉(zhuǎn)錄組測序因),來學(xué)習(xí)基因和基因的相關(guān)性,但是會(huì)忽略實(shí)際生物學(xué)意義上的調(diào)制關(guān)系。為了平衡這兩種方法利弊,作者創(chuàng)建了NetAct統(tǒng)計(jì)平臺(tái),包括了三個(gè)亮點(diǎn):通過過濾被調(diào)控的基因的組別,計(jì)算每個(gè)樣本轉(zhuǎn)錄因子的活動(dòng)(activity);利用計(jì)算出來的基因活動(dòng),來斷定調(diào)控因素(調(diào)控方向:激活/抑制);再根據(jù)得到的核心調(diào)控網(wǎng)絡(luò)通過模擬器實(shí)驗(yàn),來決定最終的調(diào)控網(wǎng)絡(luò)。
核心步驟解析
NetAct的流程圖如下,主要有三個(gè)步驟:1.從獨(dú)自建立的包含TF-目標(biāo)基因關(guān)系的綜合集數(shù)據(jù)庫找到有顯著作用(差異表達(dá))的TFs(圖1:a)。作者借鑒了GSEA算法,并且利用自助抽樣法(Bootstrapping)的精髓來找到關(guān)鍵的轉(zhuǎn)錄因子,這些轉(zhuǎn)錄因子是呈現(xiàn)差異表達(dá)的在對(duì)比實(shí)驗(yàn)的分組之中。2.第二個(gè)步驟是計(jì)算轉(zhuǎn)錄因子的活性(圖1:b)。對(duì)每一個(gè)找到的差異表達(dá)的轉(zhuǎn)錄因子,NetAct把其調(diào)控的靶向基因成員分成了兩組對(duì)應(yīng)激活/抑制兩個(gè)調(diào)控方向。分組是運(yùn)用了紐曼的社區(qū)發(fā)現(xiàn)算法(Newman’s community detection algorithm)來分組。進(jìn)而再在得到的每一個(gè)分組中把非信息性的基因成員過濾掉。最后,在利用剩下的基因成員的表達(dá)量和調(diào)控方向,來推算(希爾方程)出轉(zhuǎn)錄因子的活動(dòng)。這也是NetAct算法的核心。3.基于算出來的轉(zhuǎn)錄因子的活動(dòng),NetAct利用互信息演算出核心的調(diào)控網(wǎng)絡(luò)并且運(yùn)用模擬器來核實(shí)推斷出來的調(diào)控網(wǎng)絡(luò)的動(dòng)態(tài)性和準(zhǔn)確性(圖1:c)。

圖 1:NetAct流程圖。
主要成果
作者通過NetAct在一個(gè)時(shí)間序列的DNA微陣列(microarray)數(shù)據(jù)集上,成功的構(gòu)建了乙型轉(zhuǎn)化生長因子誘導(dǎo)的上皮細(xì)胞間質(zhì)化(TGF-β-induced EMT)。整體來說,NetAct高亮選擇的轉(zhuǎn)錄因子和利用RACIPE模擬器軟件精確的解釋了叢E態(tài)到M態(tài)的轉(zhuǎn)移(圖2:c)。在分析過程中的一個(gè)亮點(diǎn)是,計(jì)算出來的基因活性要比原來的基因表達(dá)量要更具有清晰的變化(圖2:a)。作者發(fā)現(xiàn)這些被選出來轉(zhuǎn)錄因子大都是被TGF- β誘導(dǎo)所引起的變化,但也有像STAT1/3這樣的鏈接其他細(xì)胞信號(hào)傳送通路的比如HGF, PDGF, IGF1, 和FGR(圖2:b)。另外,NetAct還找到了DNA損傷應(yīng)答通路和細(xì)胞循環(huán)通路。

圖 2: TGF-β 誘導(dǎo)的 EMT 的網(wǎng)絡(luò)建模:使用時(shí)間序列微陣列數(shù)據(jù)將 NetAct 應(yīng)用于人類細(xì)胞系的 EMT。
作者還利用NetAct在時(shí)間序列的RNA-seq上來分析骨髓源性巨噬細(xì)胞。這是一個(gè)較為復(fù)雜的體系,其中包括干擾素-γ(IFNγ)誘導(dǎo)成為的M1狀態(tài)和白細(xì)胞介素-4(IL4)誘導(dǎo)成為的M2狀態(tài),還有被這兩種細(xì)胞因子共同影響的M狀態(tài)。原來的基因表達(dá)量和計(jì)算出來的基因活性在低緯度上,都清晰展現(xiàn)了這三個(gè)狀態(tài)(圖:3b-c)作者利用了NetAct詳細(xì)闡發(fā)了這三個(gè)狀態(tài)的轉(zhuǎn)化。有意思的是,作者發(fā)現(xiàn)Myc雖然在IL4和IL4+ IFNγ誘導(dǎo)的狀態(tài)下呈現(xiàn)出高表達(dá)量,但是Myc的活動(dòng)(activity)只是在IL4狀態(tài)下比較高。再通過RACIPE來實(shí)驗(yàn)認(rèn)證,作者驚奇的發(fā)現(xiàn)M態(tài)是介于M1和M2之間的一個(gè)光譜混合的一個(gè)狀態(tài)(圖3:e)。

圖 3:巨噬細(xì)胞極化的網(wǎng)絡(luò)建模。 NetAct 在使用 RNA-seq 數(shù)據(jù)的小鼠中通過藥物治療誘導(dǎo)巨噬細(xì)胞極化的應(yīng)用
其他成果
除此之外,作者還花大精力,利用機(jī)器學(xué)習(xí)(machine learning)和數(shù)據(jù)融合(data fusion)的思想,構(gòu)建了兩個(gè)完善的轉(zhuǎn)錄因子和被調(diào)控基因的數(shù)據(jù)庫(對(duì)應(yīng)人類/老鼠不同物種),可供給其他做相關(guān)網(wǎng)絡(luò)調(diào)控學(xué)習(xí)的研究員。該數(shù)據(jù)庫結(jié)合了現(xiàn)有的文獻(xiàn)數(shù)據(jù)庫包括TRRUST, RegNetwork, TFactS, and TRED,基因調(diào)控網(wǎng)絡(luò)數(shù)據(jù)庫(FONTOM5),調(diào)控因子結(jié)合目標(biāo)數(shù)據(jù)庫(比如ChEA 和TRANSFAC),和基序富集分析數(shù)據(jù)庫(RcisTarget)。
參考文獻(xiàn):
Han, Heonjong, et al. "TRRUST: a reference database of human transcriptional regulatory interactions." Scientific reports 5.1 (2015): 1-11.
Subramanian, Aravind, et al. "Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles." Proceedings of the National Academy of Sciences 102.43 (2005): 15545-15550.