為什么需要探針重注釋
有的同學可能認為easyGEO能解決所有預處理的問題了,直到遇到了一些平臺根本就沒有提供探針與基因的對應關系。以數據GSE156144為例:
圖1 GPL16956平臺注釋文件

可以發現,平臺的注釋文件沒有提供探針與基因的對應關系,但是提供了探針的序列。這種情況就需要根據探針序列把探針轉換為基因,這個過程就是我們常說的探針重注釋了。
重注釋的思路
有了探針的序列,我們可以使用序列比對軟件(例如BLAST)將探針序列與基因序列進行比對,即可得到探針對應的基因。具體思路可以這樣:
1. 去GENCODE下載對應物種、對應版本的基因序列
2. 運行makeblastdb建立BLAST索引
3. 從探針注釋文件中得到探針的FASTA序列文件
4. 運行blastn得到探針與基因的比對結果
5. 處理比對結果(根據閾值過濾,抽取)得到探針與基因的對應關系
得到探針與基因的對應關系即可使用標準的預處理流程得到基因表達譜了。
如何一鍵重注釋+預處理
上述思路至少要求有兩個能力:
1. 運行命令行軟件的能力
2. 編程能力
這里介紹一個通過點點點就可以完成的方法:easyGEO(easygeo.cn)。
1. 搜索GSE156144
圖2 搜索GSE156144

2. 進入到詳情頁面
圖3 GSE156144詳情頁面

點擊數據預處理按鈕進入到數據預處理頁面
圖4 預處理頁面

(1) 是否重注釋,代表預處理前需要執行重注釋步驟,本例中需要選擇是
(2) 探針合并方法,即當多個探針對應同一個基因時,探針的合并方法,本例中選擇中位數
(3) 探針序列所在列,即上文中提及的哪一列是探針的序列,本例中為SEQUENCE
(4) 參考基因組,即上文中提及的對應的基因組版本,本例中選擇CRCh38
點擊開始預處理按鈕即可一鍵執行重注釋+預處理的步驟,是不是很簡單呢!