關(guān)于這個話題我早就想吐槽下了。
大家都知道
三流企業(yè)賣產(chǎn)品
二流企業(yè)賣服務
一流企業(yè)賣標準
最近華為拿到了5G通訊的部分標準,確實讓人振奮。
回到生物信息中,目前生物信息學中的數(shù)據(jù)格式標準還是可以的。比如標準的fa、fastq、gff3、bam等,這些標準格式用起來還是可以的。
今天小編主要想吐槽的就是生信分析中閾值這個點。
首先吐槽就是相似性,目前大家在做同源比對的時候,大多會選擇80%的區(qū)域相似,我們就認為這兩個序列同源。這里這個80%是怎么來的呢,我想大多情況下是大家的經(jīng)驗之談。
第一個吃螃蟹的人說用筷子夾著吃好吃,跟隨者自不必嘗試下用勺子的好處。
還有就是E value,在blast的時候,大家都默認物種內(nèi)是-10,物種間是-5,這些又是經(jīng)驗之談了。
當然這些在處理一般的問題的時候沒有什么問題。但是在處理特殊的物種的情況下就會出現(xiàn)很多的問題。比如這個物種整體就是和參考相差太多,變異較多。你還固守參數(shù)的話,結(jié)果肯定慘不忍睹。
我相信這里舉的例子只是一個簡單的代表,靠閾值來卡好壞結(jié)果的例子在生信中遍地都是。
但是目前生信分析對于這里木有固定的標準,素質(zhì)稍微高的分析人員會稍微考慮下物種的特異性,調(diào)整下標準,更多的人就是根據(jù)固定的經(jīng)驗值去篩,TM的愛是啥是啥。
既然行業(yè)沒有標準,說明這里確實不好訂標準,甚至連固定的方法都沒有。
小編又想起來得吐槽下,目前很多公司都在做三代全長轉(zhuǎn)錄組。大家在全長建庫的時候更多的是參考高粱和玉米的轉(zhuǎn)錄本的比例。建庫策略一般是:小于1K,1K-3K,3K-6K等等,比例也較為固定2:3:3。但是這里如果其之前測過轉(zhuǎn)錄組,或者存在近緣,是不是利用其數(shù)據(jù)簡單的評估下,選擇適合這個物種的建庫策略呢。
吐槽回來,小編其實想說如果存在行業(yè)標準,我們應該按照標準來說,但是同時要兼顧物種的特異性。既然標準是經(jīng)驗,經(jīng)驗就有失效的時候。還有就是應該從問題出發(fā),然后設定標準。
大于1是正選擇,但是這個物種超級保守,是不是選擇那些大于0.6的就可以了呢。
這里小編有三個想法
1、從問題本身出發(fā),生物信息分析其實就是一個初步篩選的過程,這里標準的設定其實不是最重要的,哪怕你通過抓鬮、扔鞋決定出來的基因,被證明有意義,都可以。這里研究的是生物問題,不是生信方法。
2、沒有標準,是否可以從統(tǒng)計學分布出發(fā)。目前這些所謂的標準其實也是基于統(tǒng)計學分析而來的,當這個物種比較特殊的時候,我們應該從物種本身的分布上去研究。舉例:在做正選擇基因篩選的時候,整體沒有大于1的,那這時我們應該繪制下這個物種基因受選擇壓力的整體分布圖,看下位于右5%,10%的基因。這些所謂的離群的點,最有可能就是有意義的點。這樣總比一刀切好的多。
3、 學生信的都弄過機器學習,這種問題完全可以機器模擬,學習搞定。將目前的所有的發(fā)布的數(shù)據(jù)整合下,構(gòu)建下數(shù)據(jù)庫,提取下特征,構(gòu)建分類器,然后研究新的物種的時候,運行下這個分類器,讓他給一個標準。這個絕對比你手一抖給的標準,可靠的多的多的多的多。
想起剛?cè)雽W的時候,一個老師說的話,給大家安利下。
按照預定的方案和計劃去實施,只能得到預定的結(jié)果,而無法實現(xiàn)超越。
歡迎關(guān)注生信人
