黄色片美女,亚洲四区,国产小毛片

單細胞轉錄組差異表達分析中，存在著普遍的假陽性

生信干貨 Peter ·2021年11月21日 15:25

在單細胞轉錄組分析中，差異表達分析是必不可少的一步，也有諸多對應的統計方法，然而這些方法的準確性，取決于其能否具有在類似樣本中被重復，如果忽略了不同樣本間無法避免的差異，就會將樣本間差異看成是導致的不同細胞間的表達量差異，從而造成虛假發現。自然通訊的論文“直面單細胞差異分析中的假陽性結果”，指出當前最常用的方法，在測試的小鼠受傷脊柱細胞中，會會在沒有生物學差異時，發現上百個虛假的表達量差異。

1用于檢驗的金標準數據集

為了判別是否為假陽性的檢測，該研究采用了在相同的細胞類型，相同的實驗環境以及相同實驗室測序的單細胞和bulk RNA測序，將bulk RNA中找到的細胞間差異當成是真實的，該研究通過文獻調研，找到了八個這樣的差異數據集。

用于檢測表達量差異的統計方法，選取了最常用的14個，這些方法加起來，使用量占據了當前相關研究中的近90%，下圖是使用方法的在單細胞研究中出現的次數。

其中的方法，可以分為三類，將bulk RNA中出現的表達量差異當成真集，可以看到pseudobulk的方法，其和金標準的一致性最高。這類表現最好方法的共同之處，是其會將相同條件下的單細胞數據先進行整合，形成偽bulk RNA測序結果，之后再進行比較，相比直接使用單細胞進行比較的方法，pseudobulk的方法，其假陽性的概率更低。

為考察不同方法檢出的表達量差異在功能上的影響，通過基因本體（Gene Ontogeny）上進行注釋，之后比較其和金標準的一致性，其中仍然是pseudo-bulk的方法表現最佳，這說明檢出的假陽性差異基因，有著對應的生物學功能，會影響下游分析。

單細胞數據和對應的bulk數據，在低表達量的基因上，更容易出現假陽性的表達量差異檢測，如下圖所示，在低表達量的基因上，由于個體差異，導致不同類型間細胞中檢出的表達量差異，不論哪種方法，都更和金標準一致率更低。

將基因按表達量分為高中低三檔，使用多種判定方法，都是表達量高的基因其一致性更高。

基因的平均表達量在該樣本中的相對位置越高，其存在差異表達的判定越準，和金標準的一致率越高

之后，通過實驗論證單細胞分析中，存在著廣泛的假陽性。通過spike in技術，可以在細胞中加入等量的一百種mRNA，這些mRNA對應的基因，并不應該被識別為差異表達基因。但在單細胞轉錄組分析中，最常用的判定差異表達的方法：秩和檢驗中，該方法會將平均表達量越高（橫軸）的基因，以越高的置信度（縱軸，p值得對數結果）被判定為存在差異表達，而psuedo bulk的方法（右圖）則不會這樣，這進一步，通過實驗說明了常用的判定方法會帶來假陽性。

人工加入的等量表達基因，被錯誤的當成存在差異表達的基因，其平均表達量越低，其存在表達量差異的p值，在秩和檢驗下就越大。

基因的平均表達量在該樣本中的相對位置越高，其存在差異表達的判定越準，和金標準的一致率越高。

為避免假陽性，一種方法是采取重復樣本，之后合并分析。但如果生物學重復之間存在顯著差異，那么這種情況下，采用重復樣本后，仍然有可能會識別出假陽性的差異表達。為說明這一現象，該研究通過模擬數據，對比組間異質性高和低的重復樣本，在使用了數據合并后，能否減少檢出的差異基因中假陽性的比例。模擬數據包含了10份來自同一類細胞的重復，隨機分為對照組和病例組，之后根據不同的重復之間的一致性，發現組間異質性低的，隨機分成的兩類，在降維后沒有差異，但對于組間差異大的，降維后隨機分成的兩組看上去卻是有差異的。

不論重復樣本的組間表達量差異，由于其具有同樣的生物學屬性，不應該有表達量差異，但實際采用秩和檢驗，以及采用pseudo bulk方法，在組件表達量差異較大時，都會找到對應的表達量差異基因，這說明此時使用重復樣本，如果樣本間的差異較大，也無法避免假陽性的差異基因檢出，但通過構建偽bulk的方式，可以減少假陽性的發現。

采用了對照重復樣本（模擬生成后）檢出的差異基因（皆為假陽性）數量，當組間差異較大時，使用偽bulk的方法，雖然比秩和檢驗檢出的假陽性數量少，但并不能如真實的重復對照，減少假陽性的差異基因檢出。

在14個包含至少6個對照樣本的單細胞數據中，同樣可以看出，使用pseudo bulk的方法，得到的假陽性差異表達明顯小于單個細胞去檢測的方法。

在小鼠脊柱的空間轉錄組中，通常也使用單細胞轉錄組采取的方法來檢出差異基因，此時將對照組隨機分為兩類，生成的不應有差異的樣本，對比pseudo bulk的方法edgeR-LRT以及秩和檢驗，同樣發現pseudo bulk的方法，在各個組織間，其產生的假陽性檢出明顯更少。

之后，在真實的，經過驗證的數據集上，對比單細胞測序，由pseudo bulk法檢出的差異表達基因Igbp6，以及秩和檢驗檢出的prex2，前者可以從表達量的箱線圖，看出其中確實和RNAscope檢出的結果類似，而對于秩和檢驗檢出的prex2，其均值相同，但由于細胞間差異量大，也被非參數檢測，判定為存在差異，而這就是一個假陽性的發現。

之后再經過實驗驗證，發現同一批數據，使用pseudo bulk的方法，檢出的差異基因，其中5/6是可以被驗證的，而秩和檢驗的結果，只有不到25%的差異基因可以被實驗驗證。

總結，該文指出，單細胞轉錄組由于檢測靈敏性的問題，有可能產生虛假的差異表達基因，假陽性的多少，取決于使用的統計方法，以及重復對照樣本的組間異質性。相較于常用的分參數檢驗，psuedo -bulk的統計方法，假陽性率更低，組間差異越小，假陽性率越低。該研究還指出虛假發現是單細胞轉錄組及空間組中一個普遍存在的現象。差異表達檢出的假陽性如此之多，不僅會加重科研的可重復性危機，還會造成很多科研經費被浪費在無意義的驗證實驗上。這突顯了學術界必須采用適當的統計方法，防止虛假發現的擴散。

欧美日本成人_亚洲一区二区日本_国产污视频在线观看_先锋影视av_99视频+国产日韩欧美_黄页视频在线免费观看_天海翼av在线播放_在线视频精品免费_黄色一级片免费在线观看_国内精品久久久久久久_av动漫网站_日本a级大片