幾個月前,我開發了一個GEO一站式分析平臺(https://easygeo.cn)。當時就有用戶反饋,他們在做數據預處理時,出現了一個叫9-Mar的基因,用戶覺得可能是我的程序出了問題。
我當時嚇了一大跳,這個看著像是一個用Excel做表格處理時候一個常見的錯誤,Excel把表格里面的某些內容當做日期,然后做了轉換。但是我轉念一想,我處理的時候都是程序處理,根本就沒用Excel啊,程序怎么能出這么大的bug呢?
是不是本身就有一個基因叫9-Mar呢?我把平臺的注釋文件下下來,grep一下:

看到這兒,我笑了。于是十分理直氣壯地回復用戶:“本身就有一個基因叫9-Mar,程序完全沒問題,放心使用吧。”
幾個月過去了,有一天我的領導氣沖沖的來找我:“你搞的這個easyGEO有個大bug,竟然有9-Mar這樣的基因,這明顯不對呀。”
聽領導這么說我笑了,原來你水平不過如此。“有個基因就叫9-Mar,不信我查給你看。”于是我就一頓操作,果然又在注釋文件里面找到了9-Mar。
“不對,肯定不對。”,領導堅定地說。“你把這個探針的序列BLAST一下我看看。”


這個基因果然不是9-Mar,而是MARCHF9(曾用名:MARCH9)。
這下我徹底服了,看來這次錯誤應該是用戶在提交該平臺注釋文件的時候出的問題。也就是說GEO官網上面提供的注釋文件就存在這個問題。
看來以后在做GEO數據預處理時,應該是探針重注釋為優先才對啊!