為什么需要預處理
GEO平臺上的數據主要可以分為兩大類:
傳統的microarray數據
近幾年比較流行的高通量測序數據
對于microarray數據,官網上一般給出的是探針的表達值。而我們執行分析時一般需要使用基因的表達值。這就涉及到一個把探針轉換為基因的問題,這個過程就是我們平時所說的預處理了。
預處理的思路
預處理的邏輯也非常簡單:
找到探針與基因的對應關系
根據對應關系把探針轉換為基因
如何找到探針與基因的對應關系
根據GEO官方給出的平臺注釋文件很容易得到探針與基因的對應關系。以數據GSE42568為例:

從詳情頁面可得,該數據所使用的平臺為GPL570,打開該平臺的詳情頁面:

可得,注釋文件的Gene Symbol列為探針與基因的對應關系。
轉換時的注意事項
轉換時有兩點需要注意:
可能會出現多個探針對應同一個基因的情況,這種情況一般取各個探針表達的中位數作為基因的表達。當然,視情況也可以取最大值、最小值、均值等。
可能會出現一個探針對應對多個基因,例如,DDR1 /// MIR4640,這種情況一般是探針設計在兩個基因的重疊位置,一般取第一個基因即可。考慮得更細致些,這其中還涉及了編碼基因和非編碼基因的選擇。
如何一鍵預處理
看了上面的思路,有的同學覺得可能直接使用Excel處理有點難度,需要寫代碼處理。這里介紹一個不需要代碼的一鍵處理方法:easyGEO(easygeo.cn)。
搜索GSE42568

進入數據詳情頁面

點擊數據預處理進入數據預處理頁面

這里有兩個參數需要注意:
(1) 基因名稱所在列,即上文所說探針與基因對應關系的列,本例中為Gene Symbol
(2) 探針合并方法,即上文所說多個探針對應同一個基因時采取的合并方法,本例中選擇中位數
點擊開始預處理按鈕即可,是不是很簡單呢!