生物信息學,簡稱生信,這位久仰大名的“朋友”相信每一位奮戰(zhàn)在生命科學或醫(yī)學科研領域的同學們都不陌生,或許你是生信行家(投去崇拜的目光~);或許你同我一樣在慢慢走近它,開始了解它(同道中人,握握手~);或許你對生信是霧里看花,水中望月,有需求但不知從哪里下手的小白(說不定我可以幫到你~)。我今天結合個人科研經歷和大家分享一下我是怎樣熟悉這位“朋友”,以及它是怎樣幫助我的,希望能夠對你有一點啟發(fā),少走彎路就是加快科研進度,對吧~
1,概念
我們先了解一下到底什么是生信,生物信息學是一門利用計算機技術研究生物系統(tǒng)規(guī)律的學科,是分子生物學與信息技術的結合體。生物信息學的研究材料和結果就是形式各樣的生物學數據,其研究工具是計算機,研究方法包括對生物學數據的搜索(收集和篩選),處理(編輯、整理、管理和顯示)及利用(計算、模擬)。
2,緣由
就我自己的經歷來講,從碩博到科研崗位工作整整8年的時間里,眼看著生信迅猛發(fā)展,剛開始的時候總覺得與自己關系不大,認為術業(yè)有專攻,我與生信的關系是不同學科間科研方法和關注方向不同而已,這一觀念在我自己做多組學聯合分析時,被狠狠擊碎。我至今都記得面對大量數據無從下手的茫然無措,那時生信于我,是云里霧里的一座高山,近在咫尺卻找不到攀登的路,對于自己認知里組學做完就發(fā)文章萬事大吉的想法至今都覺得無地自容。我曾跟同事提起過我的困惑,得到的答案是“公司不是會反饋結果的么?”但相信有過類似經歷的同學們會知道,檢測公司反饋給我們的初步分析其實遠遠不夠我們發(fā)文章所用,技術支持提供的數據是程序式,模板式,而非個性化的。而且我們應該對自己手里的數據有整體的把握和了解,說到底,數據是要深度挖掘分析的,沒有人比你更了解你自己的課題細節(jié),由此我開始嘗試走近生信。
3,需求
生信是一片新的天地,要在自己原有的知識范圍以外開疆拓土,首要任務是要知道自己該從哪里做起,我總結了以下幾點我對生信需求:
(1)分析:原始數據和標準化數據,以及后續(xù)數據的進一步處理,數據經歷了哪些運算,使用什么算法,是否是合理可行,自己完全沒頭緒。
(2)繪圖:目前有很多數據分析平臺為迎合使用者的需求,有現成的小程序可分析作圖,簡便快捷,但僅適用于比較簡單的分析,如韋恩圖,熱圖,主成分分析等基礎分析,我最初的分析作圖多數得益于這些平臺工具,但有時圖片清晰度受限。
(3)思路:生信不僅僅是統(tǒng)計數據和作圖那么簡單,思路是靈魂,記得我向同學求助過,他很認真幫我將差異基因整理出來發(fā)給我,然后一個問題拋回來,我就又摔了跟頭,他說“接下來怎么做就看你想要什么了”原諒我又是一臉懵...好吧,我接著查找文獻學習思路,結論是:要學的東西真是太多了...
4,經驗
在經歷了閱讀文獻,嘗試現有平臺,請教專業(yè)人士以及多次試錯之后,總結經驗如下:
(1)閱讀文獻:
在實驗實施初期要大量閱讀相關文獻,開始學習思路設計,數據整理以及分析方法,因為后續(xù)數據整理分析過程需要投入大量的時間和精力,而在實驗之初多儲備相關知識,利于規(guī)劃整個課題的架構(體量,深度,關注點),以及把控實驗細節(jié)(對照,分組,樣本量),做到心中有數,有的放矢,文章邏輯就隨之而來了。希望你在收到實驗數據那一刻起,內心是興奮又從容的。
(2)準備充分:
①如果你是在讀碩博,導師交給你的其他工作任務沒有特別繁重,希望你嘗試學習R語言和python,從入門開始,然后進階完成一些數據處理和作圖(RNA-seq的表達矩陣、WES的變異結果等),當通過自己努力獲得的那份踏踏實實的成就感時,你會發(fā)現生信這座大山不再飄渺,你已站在半山腰。當然,學習期間的困難一定不比成就感少,建議多查資料,甚至你可以搜到現成的R包。多請教,你的困惑可能是在專業(yè)人士指導下轉換下思路、算法,或是修改一個詞,一個符號,但對于你必定是受益良多。
②如果你是專職科研人員或在現階段做科研的臨床醫(yī)生,剛剛涉足組學研究,時間精力都有限的情況下,可以通讀典型文獻,初期以了解組學知識和研究思路為基礎,弄清楚公司給的檢測報告,以及用到分析方法的解釋說明,這也是很好的學習資料(最好在樣本送出前或付款前詳細咨詢)。做好這些準備,在后續(xù)數據分析以及與分析人員溝通需求的時候,會非常有效率。
(3)巧用工具:
①數據庫:熟悉并巧用公共數據庫(TCGA和GEO等),以我自己的課題為例,在分析了蛋白質組學和代謝組學數據后,需要建立蛋白質和代謝產物之間的調控關系,可以借助PMI-DB網站進行查詢預測。為找到更多的證據支持我現有的結論,我通過下載已發(fā)表文章中的單細胞測序公開數據進行分析(實驗處理方法相似),經分析后彌補了自己多組學分析在基因水平的空白,實驗數據更為豐滿。
②分析平臺:現有很多方便好用的平臺可以幫助你完成數據分析和制圖,滿足基本需求完全沒有問題,一些檢測公司會幫助你開通賬號(如BMKCloud)。更完備一些的工具可能會需要你下載程序,學習簡單的教程,可直接鏈接公共數據庫,分析和制圖也更加嚴謹和美觀(如TB tools)。總之,在我們不會使用R語言和python的情況下,多了解現成的工具不失為一種捷徑,但最好能夠做到知其然,知其所以然,因為模式化分析算法,并不是對所有數據都適合,還是要充分了解自己的數據特征,需求和分析要點。工具是服務于我們結論表述和研究意圖的,不要只做工具的盲目使用者,若數據分析有誤,會直接影響到整個課題的后續(xù)研究。
(4)借助外力:
生信入門簡單,掌握不易,做好很難。如果你完全沒有時間去探索以上的學習內容,但能基本掌握組學研究思路,了解數據處理和作圖原理,具備清晰表達需求的能力,也可以交給專業(yè)生信人員去做。無論是科研合作形式,或是測試分析加工模式,將分析和繪圖的細節(jié)溝通好,一定會事半功倍!但專業(yè)人士一定要有足夠的耐心和責任心,充分了解你的研究意圖和分析重點,同時,這也是你學習思路和方法的大好機會,至少在這個過程中會了解到一個專業(yè)生信人的分析思路,對于你其他類似的研究,大有裨益。
5,結語:
我作為生信的新朋友且能力一般般,只能幫你到這里了。我見過讓人佩服的生信牛人,思路清晰,將各種數據“玩弄于”電腦屏幕之上,妙手生花,輸出圖真是賞心悅目且清晰明了,這樣的牛人在我眼里自帶光環(huán)!也見過同你我一樣的非生信專業(yè)醫(yī)學生通過自學R語言,在他所在研究領域內大放異彩,深受導師賞識。當然,我能理解,這是他們經歷無數個日日夜夜學習的結果。生信是一條學無止境的路,要不斷學習,不斷探索,不斷創(chuàng)新。無論是你想把生信學好,學透,還是作為科研錦上添花的工具,愿與你為伴,在生信的海洋里遨游,收獲飛躍的羽翼,共勉!