哈嘍,大家好哇~馬上要過年了,小編在這里提前祝您新年快樂,闔家幸福~過年的氛圍該整還是得整起來,但是該讀的文獻也還是要繼續讀滴,誰讓咱是個卑微的搬磚人呢?
總覺得純生信快過時了,別人不還是一篇接一篇地中?就在1月17日(2022年的哦),frontier in genetics雜志發表了一篇純生信文章《Identification of Potential Prognostic Biomarkers Associated With Macrophage M2 Infiltration in Gastric Cancer》,主要關于腫瘤預后標志物的篩選,別猶豫了,這份攻略趕快收藏起來,說不定下一個中SCI的就是你~

本文的數據來源非常簡單,主要是GEO數據庫中的3個胃癌芯片,包括GSE54129、GSE79973和GSE118916,詳細信息如下圖:

如此簡單的數據,作者是如何玩出花樣的?且聽小編細細道來~
Part 1. DEGs鑒定和功能富集分析
說起鑒定腫瘤預后標志物,懂得人都懂,第一步當然是找差異啦~畢竟有差異,才能有對比,有對比才能有意義嘛~
本文作者的研究思路亦如此,他們在GEO數據庫中選取3個胃癌(GC)芯片數據(GSE54129、GSE79973和GSE118916),篩選差異表達基因(DEGs),繪制了火山圖如圖1A;
差異基因千千萬,究竟應該怎么選?莫慌,小編告訴你一個萬能又很實用的方法—“取交集”,沒錯!取交集就是在差異中找共性,共性才能說明問題嘛!試想一下,當所有的數據都說明一個共同的問題的時候,說服性和可靠性是不是更高呢?果不其然,作者取了3個GC芯片數據中共同表達的337個差異基因,繪制Venn圖如圖1B;悄悄說一句,本文中作者只選擇了GEO數據庫中的3個芯片進行了分析,如果想要增加文章的可靠性和豐富性,我們也是可以選擇不同數據庫(如TCGA等)中的數據取交集滴~
有了差異表達的基因,我們就可以放開手腳大膽干了,不出意外的話,接下來就該進行差異表達基因的富集分析了,知己知彼,才能百戰不殆嘛!這個富集過程就是對這些差異表達的基因們進行一個簡單的了解,主要弄明白這些差異基因在分子層面發揮的作用(分子功能,MF)、在細胞中的存在位置(細胞成分,CC)、參與的細胞過程(生物學過程,BP)以及參與的信號通路(KEGG)。富集分析結果的可視化有很多種形式(氣泡圖、條形圖等),在本文如圖1C。
圖A+B+C,動動小手3張圖一拼,這組圖1不就出來了嗎?忍不住夸自己真真是一個機智的小編呢[偷笑臉]

Part 2 使用CIBERSORT進行免疫細胞浸潤預測
此部分在論文中是放在最后才介紹的,但是為了便于理解,小編把其調整到前面進行解讀,因為本文是“在胃癌中鑒定與M2巨噬細胞浸潤相關的潛在預后生物標志物”,貼心的小編怕有些迷糊的小可愛一頭霧水:免疫細胞那么多,為什么單單就選擇M2巨噬細胞呢?是無心之舉?還是刻意為之?我們提前把話講清楚哦,這可不是隨便選選的哦,作者可是下了一番苦功夫的呢?作者使用CIBERSORT反卷積算法對免疫細胞浸潤進行預測,才發現“M2巨噬細胞”在胃癌腫瘤和正常樣本中是顯著性差異表達的,于是才選擇它作為研究對象,可真是個寶貝疙瘩兒~
Part 3. 通過WGCNA鑒定巨噬細胞相關模塊和中樞基因
接下來整點兒高大上的~
首先介紹一位重磅級人物“WGCNA”,英文全稱Weighted correlation network,中文名字是“加權基因共表達網絡分析”,是用來描述不同樣品之間基因關聯模式的系統生物學方法,可以用來鑒定高度協同變化的基因集,并根據基因集的內連性和基因集與表型之間的關聯鑒定候補生物標記基因或治療靶點。相比于只關注差異表達的基因,WGCNA利用數千或近萬個變化最大的基因或全部基因的信息識別感興趣的基因集,并與表型進行顯著性關聯分析。一是充分利用了信息,二是把數千個基因與表型的關聯轉換為數個基因集與表型的關聯,免去了多重假設檢驗校正的問題。
話不多說,接下來就上干貨~
如文中所講,M2巨噬細胞在胃癌患者和正常人之間存在統計學差異,于是作者就對M2巨噬細胞和337個DEGs進行加權基因共表達網絡分析。以M2巨噬細胞作為外觀性狀,對GC樣本進行聚類分析,如圖2A所示;在構建共表達網絡之前,還有一步比較關鍵的步驟—尋找最優軟閾值,如圖2B;關于尋找最優軟閾值的內容,不動的小伙伴自行百度吧,很多博主講的很詳細,在這里小編就不贅述了,主要怕懂的小伙伴打我[驚恐]
基于最優軟閾值構建共表達網絡,將基因劃分到不同模塊后,可以繪制基因聚類樹,如圖2C,上半部分是基因的層次聚類樹狀圖,下半部分是基因模塊,也就是網絡模塊。上下對應,可以看到距離較近的基因(聚類到同一條分支)被劃分到了同一模塊。本文中這些差異表達的基因主要聚類為4個模塊。
圖2D就很簡單啦,在三個數據集中,GC患者和對照組之間M2巨噬細胞百分比。
圖2E是共表達模塊與外部性狀(M2鋸齒細胞)之間的關系,橫坐標為表型性狀向量,縱坐標為每個模塊的特征值向量,中間小格子中的數值代表每個性狀和每個模塊的特征值之間的相關性以及對應的pvalue。
圖2F分析了M2巨噬細胞GS值和turquoise顏色模塊MM值的相關性,關于GS值和MM值的解釋,感興趣的小伙伴可以去查查資料哦~不過記住一點就好,進行這一步主要是為了篩選模塊中的核心基因(hub gene),在本文中鑒定了turquoise模塊中的141個核心基因。

Part 4. PPI網絡構建和核心基因鑒定
在String數據庫中對Part 1中獲得的337個差異基因構建PPI網絡,獲得了25個核心基因。Part 3部分,通過WGCNA鑒定了turquoise模塊中的141個核心基因。其中,有7個基因在這兩部分中均存在,包括COL1A1、COL4A1、COL5A2、COL12A1、LUM、PDGFRB和THBS1。
Part 5.使用GEPIA和KM數據庫對核心基因進行生存分析
是騾子是馬?拿出來溜溜不就知道了?沒錯,于是作者首先利用GEPIA數據庫分析這7個核心基因與GC患者的生存預后的關系,同時通過KM數據庫進行驗證,最終確定了COL1A1(logrank p = 8.9e?5),COL4A1(logrank p = 5.5e?07),COL12A1(logrank p = 0.002)和PDGFRB(logrank p = 8.2e?12)為GC的樞紐基因。

Part 6. 樞紐基因與腫瘤純度和免疫浸潤的關系
到這里已經看到了勝利的曙光,畢竟從成千上萬的基因中總算有理有據地篩選出了4個樞紐基因。但是,作者的腳步并沒有從此停下,而是進一步進行了免疫浸潤分析。結果發現,COL1A1、COL4A1、COL12A1和PDGFRB都與腫瘤純度呈負相關,與CD4 T細胞,巨噬細胞,嗜中性粒細胞和樹突狀細胞的浸潤之間存在顯著相關性。

Part 7. 樞紐基因的功能分析
俗話說,想要搞定女朋友,先要搞定她的閨蜜們~基因,同樣也是同樣的道理。想要真正了解某基因的功能,我們還要搞定它的閨蜜們,也就是相關基因,一個很好的方法就是構建一個基因相互作用網絡。探索基因間相互作用和功能,除了string還有geneMANIA,geneMANIA還可以用于基因功能預測。給定一個查詢基因,GeneMANIA會根據基因與它的相互作用,找到可能與它共享功能的基因。在本文中,鑒定出與4個樞紐基因相關的20個基因,進一步分析發現它們參與細胞外基質,細胞-基質粘附和ERBB信號通路。為了進一步探索GC中樞紐基因的功能,作者對TCGA-STAD RNA-seq數據進行了GSEA,結果發現COL1A1、COL4A1、COL12A1和PDGFRB,都富集在MAPK和PI3K-Akt信號通路中,這些信號通路與腫瘤細胞增殖、侵襲和細胞周期密切相關。

結語
最后,我們再來回顧一下,整篇文章的研究思路,順便把流程圖奉上~
客觀地講,生信分析的常見套路和方法也就幾種,想要玩出新意還是挺困難的,看上去相差無幾的圖片,總是給人一種灌水文、爛大街的感覺。縱觀本文,把任何一部分單獨拎出來,都可以說是毫無新意可言,并且很多圖都是在線網站就可以直接生成的,也沒有體現出獨特的代碼功力,更要命的是,數據來源也僅僅是GEO一個數據庫,但是在純生信文章接收頻頻遇冷的情況下,為什么作者的這篇文章還可以中呢?小編認為,可能因為以下幾點:
1)研究目標明確:全文圍繞M2巨噬細胞展開,避免了做生信分析最容易犯的“東一棒槌西一榔頭”的毛病,
2)采用了一些看上去比較高大上的算法:如CIBERSORT反卷積算法、加權基因共表達網絡分析等;
3)多種分析手段互相驗證:如GEPIA和KM數據庫、string和geneMANIA數據庫、常規差異表達基因和WGCNA同時鑒定核心基因等;
看到這里,一份完整的攻略已經雙手奉上,還勞煩小可愛們動動手指,點個贊,可否?

參考文獻:
Liu, B.; Ma, X.; Ha, W., Identification of Potential Prognostic Biomarkers Associated With Macrophage M2 Infiltration in Gastric Cancer. Frontiers in Genetics 2022, 12. https://doi.org/10.3389/fgene.2021.827444