今天要給大家介紹的是一個用于分析突變特征的R包——musicatk。文章于今年12 月發表在《Cancer Research》(IF:12.701)上。

用于發現、預測和探索突變特征的突變特征綜合分析工具包 (musicatk)
其實目前已經開發出了不少好用的用于突變特征分析的軟件包,那musicatk這個包又有哪些優勢和創新呢?首先,musicatk包中的突變特征注釋文件來自COSMIC中的最新版本,其次,它的功能更加全面和多樣化,同時還可以通過突變特征預測未知腫瘤的樣本類型。這個包的處理步驟主要可分為四步:①導入數據,②提取和計算,③突變特征的發現和預測,④對結果的可視化。

功能使用和介紹
1.數據導入和處理
在導入數據的格式方面,musicatk包支持各種輸入格式,包括VCF、MAF以及data.table或data.frame格式都可以。

2. 突變特征分析
musicatk包中默認的特征算法是來自topicmodels包中的LAD算法,因為通過計算發現這種方法的準確性更高,時間更短。除了突變特征的識別,musicatk包還提供了突變特征的預測功能。
3. 結果可視化
腫瘤中突變特征存在情況的可視化對于探索一組腫瘤中活躍的突變過程是很重要的。利用musicatk包可以對不同腫瘤中突變特征的類型和數量以及不同突變特征在不同腫瘤中出現的概率進行可視化統計(圖1B)。也可以通過UMAP降維,按樣本注釋分組(圖1C)。

4. 下游分析
musicatk包中提供的下游分析包括與COSMIC特征的自動比較、熱圖分析、可用于顯示樣本中突變特征出現的相對水平和樣本注釋,以及腫瘤組之間突變特征的差異分析。例如,我們可以將發現的突變特征與COSMIC V2和V3特征進行比較(圖1D)。

5. 未知樣本的突變特征預測
musicatk 包可以使用訓練和測試組的突變特征分布情況來預測樣本類別。例如,可用來自TCGA的腫瘤預測來源不明的樣本的腫瘤類型。在訓練集和測試集數據中使用相同的參考特征預測突變特征的分布情況后,進行下游分析,例如為所有樣本生成UMAP。測試樣本的類別可以使用與訓練隊列中每個類別中的樣本的歐幾里得距離中值來預測。對于每個測試樣本,具有最低中值距離的類別將是預測的類別結果。
6. 實例應用
通過應用基于LDA的方法來預測來自TCGA的Pan-Cancer數據集中的COSMIC v3 SBS 特征,結果發現65個特征中有39個在至少一種腫瘤類型中活躍出現。通過UAMP圖分析發現,一些突變特征存在于近一半的樣本中,一些存在于幾種腫瘤類型中,一些存在于單一腫瘤類型中,還有一些存在于多種腫瘤類型的交集中(圖2)。

利用上述突變特征對腫瘤樣本進行分群,最后確定了30個腫瘤亞群(補充圖7)。其中cluster3由兩個APOBEC相關特征SBS2和 SBS13的高頻率定義,而cluster8主要由特征SBS7a和SBS7b定義。腫瘤亞群cluster3中包含的主要腫瘤類型有CESC(宮頸癌)、BRCA(乳腺癌)、BLCA(膀胱癌)和 HNSC(頭頸癌)(圖2C)。

最后我們來說一下musicatk包將特征注釋從一個隊列映射到另一個隊列的能力(圖2D)。研究人員用MSK-IMPACT數據中的皮膚癌黑色素瘤 (SKCM)和膀胱癌(BLCA)來進行了測試,結果發現,100% 的MSK SKCM 樣本被預測為TCGA中的SKCM類型,相比之下,MSK BLCA樣本映射到幾種 TCGA 腫瘤類型(58% CESC、37.5% BCLA、4% HNSC)。研究人員推測這可能是由于癌癥本身的異質性所導致的。
文章還提供了代碼和測試數據(https://github.com/campbio/musicatk/)可供學習。
參考文獻
Chevalier A, Yang S, Khurshid Z, Sahelijo N, Tong T, Huggins JH, Yajima M, Campbell JD. The Mutational Signature Comprehensive Analysis Toolkit (musicatk) for the Discovery, Prediction, and Exploration of Mutational Signatures. Cancer Res. 2021 Dec 1;81(23):5813-5817. doi: 10.1158/0008-5472.CAN-21-0899. Epub 2021 Oct 8. PMID: 34625425; PMCID: PMC8639789.