今天跟大家分享的是今年發表在Nucleic Acids Research(IF: 16.971)上的一篇文章,研究者對來自于60多種疾病,數百個轉錄組數據集的共表達網絡和人類蛋白質-蛋白質相互作用網絡進行系統分析,揭示出特定疾病或多種疾病中共享的蛋白質與通路信息等。此外,為更好地理解特定通路在疾病環境中發揮的作用,研究者還將疾病特異性共表達網絡與通路信息結合,識別出疾病特異性相關通路(圖1)。

圖1.工作流程
Towards a global investigation of transcriptomic signatures through co-expression networks and pathway knowledge for the identification of disease mechanisms
基于轉錄組特征的共表達網絡和通路分析識別疾病相關機制
1.數據收集與整理
研究者從ArrayExpress 中檢索屬于Affymetrix Human Genome U133 Plus 2.0 Array平臺檢測的數據集合,并基于是否有樣本信息,樣本數量,疾病信息,轉錄組數據等標準對數據進行篩選,最終得到由279套數據集合組成的人類疾病相關轉錄組學數據(圖2)。該數據包括63組疾病信息以及1組對照樣本的轉錄組數據。
研究者進一步對原始表達數據集進行預處理和合并。首先使用R中oligo包的RMA函數對每個單獨的數據集進行預處理,并進行標準化。在合并來自不同數據集的樣本時,通過ComBat對數據進行批量校正,以去除對應于單個數據集的影響。最后,將探針映射到基因上。

圖2.數據篩選流程
2.疾病特異性共表達網絡的構建
研究者基于WGCNA包對不同疾病數據集構建共表達網絡。為促進網絡的可比性,研究者將共表達網絡定義為每種疾病中前1%相似性最高的拓撲覆蓋矩陣(TOM),共表達網絡的1%約對應200萬條邊。不同類型疾病的特異性共表達網絡規模及其整合網絡如圖3所示。TXLNGY和NCR2是最常見的共表達基因,在60個疾病的共表達網絡中被識別到。其中,48個基因在超過57個疾病特異性共表達網絡中被識別到。

圖3.構建疾病特異性的共表達網絡
3. 構建人類蛋白質-蛋白質相互作用網絡
為系統地探究疾病特異性共表達網絡與通路間相關性,研究者進一步建立一個綜合網絡,其包含來自KEGG,Reactome,WikiPathways等6個數據庫的互作信息。此外,研究者基于MPath對多個數據庫和等效通路的基因集進行整合,從而確保網絡中的每個蛋白質最低限度地分配給一個單一通路。使用MPath將蛋白質注釋到通路上,既促進更大網絡的生成,又避免冗余通路的出現。
最終的人類蛋白質互作網絡由8601個節點和199535條邊組成。其中,絕大多數節點都是蛋白質編碼基因 (圖4A)。在該網絡中,關聯關系最為普遍(73%),其余的關系類型為因果關系,包括增加、減少、調節和組成關系(圖4B)。

圖4.人蛋白質-蛋白質相互作用網絡中節點和邊的類型統計
4.疾病特異性共表達網絡與蛋白質互作網絡的相似性
為探尋共表達網絡和通路信息之間的一致性,研究者基于通路相似性和互作相似性兩種方法,將每個疾病特異性共表達網絡與相互作用網絡進行疊加。只有30%-33.4%的常見共表達基因存在于相互作用網絡中。此外,這些常見的疾病特異性共表達基因與相互作用網絡中連接最緊密的蛋白間,也只觀察到很少重疊。研究者評估來自KEGG通路和疾病共表達網絡的所有蛋白之間的重疊,并試圖驗證疾病共表達網絡中最常見的蛋白是否也可以在通路數據中找到。在KEGG中僅發現共表達網絡中29%-31%的蛋白。常見蛋白的平均通路注釋數量(14.8個)略低于所有蛋白的平均注釋數量(16個)。以上結果表明,盡管這些基因是所有疾病共表達網絡中最常見的,但它們往往在科學研究和蛋白質互作研究中被忽視。
5.不同疾病中一致差異表達基因(DEGs)的meta分析
首先,研究者使用Limma R軟件包對46種疾病中患者和對照樣本進行差異表達分析。對每種疾病的DEGs進行篩選,只保留那些經過矯正后p<0.05的基因。研究者基于meta分析確定特異性疾病或跨疾病共享的DEGs之間的失調模式,并展示DEGs與疾病特異性共表達網絡和相互作用網絡的重疊,以闡明DEGs可能參與的機制。并獨立計算出這些疾病中所有上調基因和下調基因的平均值。46種疾病中的差異表達基因如圖5所示,幾乎所有的基因都在一種或多種疾病中上調,而在至少另一種疾病中下調。只有CCDC43、JADE3、RPL22L1、SOCS1和TOR3A是在多個疾病中特異性上調的, CAVIN2和ZSCAN18是特異性下調的。近2萬個基因在疾病-正常中發生差異表達,其中17600個DEGs上調,15600個DEGs下調。在最顯著差異表達的基因中,34個表達上調,26個表達下調。然后將這些基因與500種最常見和最不常見的疾病特異性基因進行比較。在上調最多的基因中,CDK1屬于最常見的疾病蛋白,而CRNDE、DEPTOR和RASD1則屬于最不常見的蛋白。同樣,在下調幅度最大的基因中,只有S100A8屬于最常見的疾病蛋白。此外,研究者發現上調幅度最大的4個基因屬于膠原基因,而一些蛋白家族基因在上調幅度最大的和下調幅度最大的基因中都可以找到。此外,這些基因在它們所涉及的絕大多數疾病中發生下調,但同時也會出現在某些疾病最顯著上調的基因中。

圖5. 差異表達基因(DEGs)的meta分析
6. 疾病特異性共表達網絡中邊的整體研究
研究者進一步探究共表達網絡中最常見的共表達關系,并將它們與正常的共表達網絡和相互作用網絡進行比較。由于共表達網絡中有相當多的邊,因此研究者將分析重點放在共表達網絡中最常見的邊上。研究者發現21條邊存在于70%以上的疾病共表達網絡中,202條邊存在于50%以上的疾病共表達網絡中。這21條邊中近一半由金屬硫蛋白家族的蛋白組成,其主要參與轉錄因子的調控和癌癥的發生。
此外,研究者將疾病共表達網絡中最常見的邊與正常的共表達網絡進行比較,以確定兩者之間的相關性。當限定相關性最強的1000或10000條邊時,疾病共表達網絡中最常見的邊與正常網絡中相關性最強的邊分別有19%到17%的重疊。在這些相互作用網絡中,隨著疾病與對照樣本間共表達網絡中比較邊數量的增加(即由最常見的1000到10000條),重疊的數量減少到4%。在多個疾病特異性共表達網絡中與互作網絡交疊的基因對需要進一步的研究,因為它們更有可能在疾病中一致出現。
7. 基于共表達網絡與通路信息識別疾病相關通路
研究者系統地將通路信息與疾病共表達網絡疊加,以揭示共表達網絡與通路數據庫中已確定的蛋白相互作用之間的一致或差異。共表達程度較高的基因更可能發揮相似功能,可以推斷共同表達的基因更可能參與相同的生物學通路。基于這一假設,研究者對疾病相關通路進行識別。首先基于KEGG的通路分別將通路知識映射到疾病共表達網絡和蛋白質互作網絡中,并將相互作用的映射部分映射到疾病共表達網絡中。在特定疾病和疾病類型中,顯示出不同程度的相似性(圖6)。相似性被定義為來自KEGG通路的潛在蛋白存在于疾病共表達網絡中的鄰居的百分比(即通路-疾病相似性),淺色代表相似度低,深色代表相似度高。比如,長期抑制的通路與精神抑郁的共表達網絡具有最高的相似性。胃腸道疾病,如腎癌,結直腸癌、致病性大腸桿菌感染等的共表達網絡有很高的相似性。

圖6. 基于通路知識和網絡相似性繪制疾病特異性表達模式
8.案例分析:精神分裂癥與長期增強通路的深入研究
為理解特定疾病相關通路的背后機制,研究者主要對長期增強(LTP)通路與精神分裂癥間關系進行探究,已經有證據表明精神分裂癥患者的LTP發生損傷。在KEGG中,LTP通路被歸類為神經系統通路,其主要由25個蛋白和35條邊組成(圖7)。通過將精神分裂癥共表達網絡與LTP通路疊加,研究者發現LTP通路蛋白間的獨特相關性,表明該通路中的絕大多數蛋白在共表達網絡中是相關的(圖7;灰色邊緣),并證明在給定的共表達網絡中相關的蛋白質確實也可以參與相同的生物過程,包括蛋白激酶A與NMDA受體、Ca2+/鈣調素依賴性蛋白激酶II (CAMKII)和鈣調素之間的相互作用,以及CAMKII隨后激活的AMPAR和代謝型谷氨酸受體等。

圖7. 精神分裂癥與LTP的深入研究
共表達網絡常見,WGCNA也常見,為啥人家就能輕輕松松NAR呢? 小編剛看到題目也是一頭霧水,但是看完整篇文章之后不得不感慨人家確實還是有兩把刷子的。一是數據集豐富,研究者不僅僅將目光鎖定到腫瘤上,更是從ArrayExpress中篩選出279套符合要求的63種人類疾病相關轉錄組學數據。二是工作量比較大,對63種疾病構建共表達網絡并進行系統的通路分析和比較分析。此外,結果部分的描寫細致,準確,非常值得我們學習。
如果暫時想不出好的科研思路,那不妨試試靠工作量獲取審稿人的芳心吧。
參考文獻:
Towards a global investigation of transcriptomic signatures through co-expression networks and pathway knowledge for the identification of disease mechanisms