Rank-In:教你零代碼在線完成轉錄組分析
今天小編給大家安利一款超好用的轉錄組在線分析工具Rank-In,同濟大學Cao Zhiwei老師于今年6月份發表在Nucleic Acids Research(IF=16.973)上。Rank-In用來分析整合轉錄組數據,包括芯片測序技術和RNA-seq技術,適用于以下三個方面的用戶需求:(1)不同時間、不同技術產生的用戶自有數據;(2)不同實驗室在不同平臺下產生的數據組合;(3)整合數據庫中大數據樣本。可以進行批次平臺校正、差異表達分析,甚至還可以進行自動繪圖。作者將其開發成網站(http://www.badd-cao.net/rank-in/index.html),用戶無需寫任何代碼,鼠標點點點就可以完成分析、作圖。
本文方法基本思想、方法性能評估、網頁實戰三方面進行介紹,對算法不感興趣的小伙伴可以直接跳轉到第三部分。
一、方法基本思想
Rank-In算法基本分為以下三個步驟:
(1)在所有需要整合的數據集內部按照表達值、信號值的對基因從低到高排秩,最低為1, 最高為100,中間用百分位數表示(向下取整),稱為內部排秩(Internal ranking)。
(2)對每個表達譜中的每個基因,利用基因表達值和內部排秩值,計算基因表達的權重值(weight),通過基因表達矩陣和基因權重的乘積可以得到加權的排秩矩陣(Weighted ranking matrix)。
(3)通過奇異值分解(SVD)得到基因的校正后矩陣。
通過圖1中比較RNA-seq和芯片測序,可以將基因表達值或信號值標化到同一基準,可以是校正后的表達值,也可以是校正后的排秩,無論是哪一種,都具有平臺間可比性。

二、方法性能評估
作者選用了兩套數據集GSE56457和GSE47774,比較了Rank-In和其它三種方法(ComBat、SVA和Angel’s method)對于不同測序平臺或技術的校正結果。當不進行校正的時候,不能從表達值很好的區分兩個樣本。但經過校正之后,兩個樣本能夠被區分開,這代表了生物學意義的捕獲。此外,從校正后表達值/排秩的分布角度來看,校正前存在兩個峰,Rank-In方法在較好的校正兩個測序技術所生成的信號值的同時,將兩個峰整合成為了一個峰,相比于其它方法更加貼合理想狀態,彰顯了Rank-In方法的優越性。

作者在膠質母細胞瘤和結腸癌的數據中驗證方法性能,同時引入正常的樣本作為參照。總的來說,Rank-In在區分癌癥樣本與正常樣本的基因譜方面表現最佳,在聚類同一生物樣本的基因譜方面也表現最佳,這表明其在減少基因芯片和RNA-seq的非生物效應方面具有獨特的能力。

其實對于轉錄組數據,必不可少的就是差異表達分析。因此作者比較了這幾種策略的差異表達分析的結果。隨著測試過程中樣本量的增加,DEGs的重復率也逐漸升高,并且性能也逐漸穩健,表明了芯片數據和RNA-seq數據在Rank-In方法的處理后進行差異表達分析,揭示的是相同的生物學變異。

三、網頁實戰
不會寫代碼?沒關系,作者開發了分析網站,鼠標點點點就可以完成全部分析,接下來讓我們看看它的online 版本吧。
主頁簡單明了,并且直接說明了Rank-In被構建來分析整合癌癥轉錄組數據,包括芯片測序技術和RNA-seq技術,適用于以下三個方面的用戶需求:(1)不同時間、不同技術產生的用戶自有數據;(2)不同實驗室在不同平臺下產生的數據組合;(3)整合數據庫中大數據樣本。

用戶需要提交數據文件,然后點擊Submit按鈕即可開始全部分析。其中紅色框起來的兩個文件是必需要上傳的文件,詳見下文。

輸入數據(必需):基因表達矩陣。一個tab分隔的txt文本文件,其中行表示基因,列表示樣本。每個基因和樣本的名稱必須是唯一的,對于芯片數據,如果有多個探針對應同一基因時,需要將相同探針的結果用中值或平均值代替。對于RNA-seq數據,標化格式支持FPKM、TPM、TMM。基因名稱可以是Entrenze ID、Gene symbol和Ensemble ID。上傳的數據有50MB的限制。對于有20000個基因的基因表達譜,這相當于大約200個樣本。

輸入數據(必須):樣本類別文件。其中編號樣本的類型,例如,“1”表示來自正常組織的樣本,“2”表示癌癥亞型1的樣本,“3”表示癌癥亞型2的樣本,以此類推。

可選輸入數據:
(1)作者鼓勵用戶上傳平臺、批次等附加信息。例如,平臺欄中“1”表示來自Affymetrix U133 plus2平臺的數據,“2”表示來自安捷倫微陣列的數據,“3”表示來自Illumina Hiseq 2000的數據,等等。格式同樣本類別文件。
(2)計算結果將以電子郵件方式發送,作者強烈建議用戶選擇此選項。
(3)按“提交”按鈕開始計算,將提供一個作業id,并將一個新頁面鏈接到結果。當結果可用時,頁面將自動刷新。用戶可以通過在上面的表中輸入作業id來跟蹤作業狀態。

接下來就是等待數據在后臺跑啊跑~~

終于,結果出來了,可以直接點擊下載。結果包括校正后表達值和差異表達基因,還給出了聚類熱圖。

如果之前填寫了郵箱信息,真的會把結果發到郵箱里面,小伙伴可以上傳完數據就去忙別的事情,開心等待郵箱收結果就可以啦~是不是很強很方便~

大家記得點贊收藏哦~~~