基于公共數據的非腫瘤疾病研究,由于數據受限等種種原因,想發7+的文章相對來說還是比較困難的。腫瘤研究至少有TCGA等數據庫支撐,就算想發10+也是有可能的。今天跟大家分享一篇非腫瘤領域的純生信文章,一起來看看7+是如何做到的。
文章基于多套類風濕性關節炎公共數據,通過生物信息學方法鑒定了關鍵免疫細胞類型和基因,探索了類風濕性關節炎免疫分子機制,確定了四個疾病診斷標志物,以及參與疾病發生發展的重要基因-細胞軸,為類風濕性關節炎的診斷和免疫分子機制提供了新的視角。
文章八月份發表在Frontiers in Immunology(IF: 7.561)。
Identifying Immune Cell Infiltration and Effective Diagnostic Biomarkers in Rheumatoid Arthritis by Bioinformatics Analysis
在類風濕性關節炎中通過生物信息學分析識別免疫細胞浸潤和有效診斷標志物
背景
類風濕性關節炎 (RA) 是一種慢性全身性自身免疫性疾病,其特征是炎癥細胞浸潤,導致持續性滑膜炎和關節破壞。RA的發病機制尚不清楚。本研究旨在通過生物信息學分析探索RA的免疫分子機制。
材料方法:
5套GEO芯片數據作為訓練集,一套GEO RNA-seq數據作為驗證;CIBERSORT計算免疫細胞比例;Wilcoxon和LASSO識別顯著差異細胞類型;兩種方式識別差異表達基因;GO和KEGG進行功能分析;Cytoscape挖掘hub基因;ROC衡量診斷效能;Spearman評估基因與免疫細胞相關性
結果:
1.RA和正常滑膜組織免疫細胞浸潤
首先將5套GEO數據合并去除批次效應,基于CIBERSORT計算22種免疫細胞比例。其中,Tfh cell與memory activated CD4+ T cell,M1 macrophage顯著正相關,而M2 macrophage與na?ve B cell顯著負相關。通過兩種方法,篩選得到RA與正常間顯著差異的細胞類型,包括M1 macrophage,Tfh cell等10種細胞類型。


2.差異表達基因DEG識別
基于5套GEO訓練數據,首先使用去除批次效應的合集計算DEG;其次,5套數據分別計算DEG,使用‘RobustRankAggreg’獲取DEG。兩種方式overlap得到202個差異表達基因。

3.功能相關分析
基于202個DEG,進行GO和KEGG富集分析,發現DEG主要與免疫細胞相關的信號通路相關,例如趨化因子信號通路,原發性免疫缺陷,總體上來說,DEG與免疫細胞顯著相關,這也就與文章前期分析的免疫細胞建立了很好的聯系。

4.識別與驗證Hub基因
基于STRING數據庫的蛋白互作數據,構建DEG衍生的PPI網絡,作者利用10種方法在網絡種挖掘hub基因,最終得到了包括CXCR4, CCL5, CD8A, CD247和GZMA在內的5個基因。此外,利用RNA-seq獨立數據,對hub基因表達水平進行驗證。


5.RA生物標志物診斷效能
鑒于RNA-seq獨立數據樣本較大,作者利用這套數據分析所識別到的hub基因診斷效能,定義AUC大于0.8的作為潛在的診斷標志物,發現CCL5, CXCR4和CD247三個基因具有較好診斷效能。此外,作者將hub基因進行組合,發現CCL5+CXCR4和GZMA+CD8A同樣具有非常好的診斷效能,可以作為RA和早期RA的診斷標志物。

6.RA中生物標志物與差異免疫細胞相關性
為了探索識別到的生物標志物與免疫細胞的調控機制,也為了和文章開頭建立聯系,作者計算了標志物與前文識別到的差異免疫細胞的spearman相關性。其中,CCL5與M1 macrophage顯著正相關;CXCR4與memory activated CD4+T細胞顯著正相關;GZMA與Tfh顯著正相關。

總體上來看,文章雖然沒有構建復雜的模型,但是對于已有的方法的使用非常靈活和頻繁。第一點,關鍵免疫細胞的識別使用了兩種方法,差異基因的識別同樣使用了兩種方法,hub基因的識別使用了十種方法,并且使用超過5套數據進行分析,這一些列方式無疑都增加了文章結果的可信度。第二點,針對目前常見的免疫細胞的分析,作者在文章開頭進行刻畫,文章中間DEG分析時將基因與免疫細胞聯系,文末生物標志物刻畫時構建了基因-細胞調控軸,整體上邏輯清晰,聯系緊密,杜絕了常見的將免疫細胞分析硬湊在文章中的尷尬局面。
如果能夠將文章的兩個優點學到手,條件允許再加入適當的濕實驗驗證,相信文章水平最后肯定不會低。
優選思路 盡在生信人
