身邊人在議論,為什么有的生信分析加了濕實驗還是不被期刊認可,有的純生信如今仍然可以在CNS占據(jù)一席之地?首先科學研究的意義就是解決科學問題,所以,提出的科學問題的水準,決定了研究的最終歸宿,生信分析同理。本篇文獻作者就具備發(fā)現(xiàn)和提出科研問題的能力,小編相信,該作者未來也會挖掘更多具有臨床意義的生信文章。下面讓我們一起來看看這篇文獻,文章名:“A panel of platelet-associated circulating long non-coding RNAs as potential biomarkers for colorectal cancer“,10月投稿,12月發(fā)表在《Genomics》,影響因子5+。全文分析的數(shù)據(jù)來源,分別是利用高通量公開數(shù)據(jù)庫測序數(shù)據(jù),以及作者醫(yī)院收治的結直腸癌患者的低通量PCR所檢測的血液樣本的血小板來源的lncRNA的表達數(shù)據(jù)。
作者提出的問題:
目前,液體活檢的生物標志物主要包括循環(huán)腫瘤細胞(CTC)、循環(huán)腫瘤DNA(ctDNA)、細胞外囊泡(EVs,主要是外泌體)、循環(huán)無細胞RNA(cfRNA)、miRNA(和cfRNA共同構成了循環(huán)腫瘤RNA,ctRNA)。ctDNA主要被應用于指導晚期腫瘤患者選擇藥物,更多被應用于非小細胞肺癌和結直腸癌的用藥伴隨診斷。循環(huán)miRNA及l(fā)nRNA作為腫瘤標志物的綜述[1, 2]之前也有發(fā)表。結直腸癌早期診斷的檢查主要是結腸鏡,目前來看,無論鏡檢的系統(tǒng)如何升級換代,仍然是有創(chuàng)操作,存在一系列的風險。作者結合液體活檢的背景,提出利用病人血液樣本中血小板來源的lncRNA,作為診斷結直腸癌患者的生物標志物,接下來,我們一起看看作者都做了哪些分析。
結果1:Identification of dysregulated lncRNAs in tumor-educated platelets
作者下載GEO數(shù)據(jù)庫中研究結直腸癌患者循環(huán)血小板的lncRNA譜,數(shù)據(jù)集GSE68086共納入了54例血液樣本, 27 結直腸癌患者以及27例正常人。首先第一步是差異分析,常見的生信文章在差異分析這一步通常會和研究熱點的基因集取交集,比如免疫、凋亡、自噬和鐵死亡等等,目的是為病人群體區(qū)分亞群,更好的進行靶向治療。本篇測序樣本為血液,目的是鑒定出具有診斷疾病能力的基因,并不需要引入靶向治療的背景(tips:時刻謹記生信分析是一件工具,而工具的好壞,并不是判斷分析結果的唯一標準。隨處可得的樹枝,在楊過手里也一樣可以和利刃交鋒!)。
主成分分析首先得出實驗組和對照組的血液樣本中,血小板來源的lncRNA表達存在差異。繪制火山圖并計算實驗組與對照之間的差異基因,取得109個顯著高表達的lncRNA,19個顯著低表達的lncRNA。借MA圖的算法,計算差異基因的表達倍數(shù),最后分別取上調和下調差異基因中的4個進行后續(xù)的研究。(LNCAROD, SNHG20, LINC00534, TSPOAP-AS1, GAS5, DANCR, CCDC18-AS1, and LINC00926) 圖1

LncRNA expression profiles in platelets of CRC patients and healthy controls.
結果2:個人病人群體臨床表征,Characteristics of study populations
得到8個關鍵的血小板來源的lncRNA,作者接下來選擇直接構建診斷模型,臨床樣本驗證。也是臨床研究的常見設計流程。這里可以看見,驗證生信結果的方式并不是也做一次高通量測序,只要和演技目的嵌合,低通量的PCR同樣適用。作者將醫(yī)院收治的45例結直腸癌患者及45例正常人的血液樣本納入訓練集,將105例結直腸癌患者及105例正常人血液樣本納入驗證集。表格1 展示患者及正常對照組人群的基線資料,及腫瘤學特征。通過統(tǒng)計學檢驗,結直腸癌組與正常對照組之間,年齡、性別、吸煙史均無顯著差異,具有可比性。訓練集和驗證集中結直腸癌患者的基線資料及腫瘤學也正也不顯著統(tǒng)計學差異。表1

結果3:Modeling and evaluation of the diagnostic circulating lncRNAs
作者對納入研究的驗證集的血液樣本,進行定量PCR檢測。結果提示,結直腸癌患者血清中4種lncrna (LNCAROD、SNHG20、LINC00534和TSPOAP-AS1)顯著上調。在作者自己的臨床樣本檢測中,發(fā)現(xiàn)基于數(shù)據(jù)庫數(shù)據(jù)篩選的循環(huán)lncRNA中有4個是同樣高表達的。作者繼續(xù)探索這4個lncRNA區(qū)分正常和腫瘤患者的診斷效能,構建基于lncRNA的診斷模型。LNCAROD、SNHG20、LINC00534和TSPOAP-AS1組成模型,公式:Logit (P) = 3.84 + 0.77 LNCAROD +0.94 SNHG20 + 0.28 TSPOAP-AS1 + 0.15 LINC00534。作者比較了4種lncRNA單一作為分類標準和包含4種lncRNA的模型的診斷效能,ROC曲線顯示,與單個lncRNA相比,模型在識別結直腸癌患者方面具有更高的AUC值(0.90)。LNCAROD、SNHG20、LINC00534和TSPOAP-AS1對應的AUC分別為0.85、0.85、0.82和0.76。圖2

結果4:Validation of the 4-lncRNAs-based model
進一步評價基于4個lncRNA構建的結直腸癌患者診斷模型的效能。在作者的驗證集中,對每個信息lncRNA的進一步評估表明,CRC患者血清中LNCAROD、SNHG20、LINC00534和TSPOAP-AS1的上調與之前的訓練集中的結果一致。結果表明該模型具有較高的性能(AUC = 0.78)。LNCAROD、SNHG20、LINC00534和TSPOAP- AS1的AUCs分別為0.74 、0.73、0.73和0.63。此處,除了驗證生信分析結果,還進一步推廣了基于生信分析得到的模型臨床作用,這點體現(xiàn)了驗證層次,拔高了臨床意義。圖3

結果5:Correlation between lncRNAs and clinicopathological characteristics
除了診斷效能,該模型最終的目的是為了早期診斷結直腸癌。為了探索候選循環(huán)lncRNA與癌癥特征之間的關聯(lián),作者將來自訓練集和驗證集的結直腸癌患者組合并到一個驗證集,并進行后續(xù)的相關性分析。結果顯示,這些循環(huán)lncRNA的表達水平與性別、腫瘤大小、淋巴結轉移、遠處轉移和分化無顯著相關性 (P>0.05)。高表達的循環(huán)LNCAROD與分期(III/IV期) 存在相關 (P<0.05)。 此外,TSPOAP-AS1在結腸癌循環(huán)中為高表達水平(P<0.05)。到此,作者基于簡單的生信分析,得到了具有診斷結直腸癌的血小板來源lncRNA,并且與腫瘤的分期具備相關性,臨床價值不可謂不重要。表2

總結:腫瘤學的診斷以影像,活檢為金標準。但是診斷時效存在一定的滯后性,往往有影像學表現(xiàn)的時候,患者的分期已經進展。結直腸癌的早期診斷仍然是體檢,結腸鏡為主,而結直腸鏡也是有創(chuàng)操作,存在麻醉、機械損傷的風險。本文作者鑒定的lncRNA綜合診斷效能高,單一的lncRNA在晚期和總體結直腸癌都有高表達的表現(xiàn)。具有顯著的臨床價值。如果能鑒定出與術后治療相關的循環(huán)lncRNA,結合CEA等腫瘤標志物,將會大大提高對患者預后預測的能力。
回顧全文,作者生信分析部分只包括了差異分析,繪制了火山圖,熱圖,后文都是扎扎實實的臨床研究思路。不知道讀者平時讀生信文章有沒有這樣的感覺,開篇都是差異分析,一點閱讀的興趣就沒有,但是本篇的差異分析卻十分的吸引球,讓讀者十分想了解作者得到差異分析后又做了哪些研究,讀完一個結果就會感嘆一次作者所分析的內容之重要。
生信分析的本質是通過轉錄組學,來研究疾病發(fā)生、發(fā)展、預后、治療的工具。本文作者的使用的是生信分析中最基礎的方法,解決的卻是重要的臨床問題。所以,小編也引以為戒,不要被熱點所迷惑,多立足于你所研究的疾病的全方位考慮,能提出怎么樣的科學問題,哪些可以通過生信分析這個工具解決,修煉的是發(fā)現(xiàn)臨床問題的能力,而不是修煉使用工具的能力。
[1]. Tsutomu, K., et al., Circulating MicroRNAs: A Next-Generation Clinical Biomarker for Digestive System Cancers. International Journal of Molecular Sciences, 2016. 17(9).
[2]. 江楠, et al., 循環(huán)長鏈非編碼RNA作為生物標志物在腫瘤分子診斷中的應用. 生物工程學報, 2017. 33(6): p. 13.