與具有詳盡注釋的蛋白編碼基因不同, lncRNAs常常缺乏注釋,信息分散且收集不全。例如,大部分被報道的lncRNA 通過短reads裝配而成并且一般都缺乏完整的5’末端或3’末端。通常情況下,由于RNA降解或逆轉錄酶從3’末端方向合成DNA,致使cDNA文庫5’末端的截短。此外,RNA-seq reads在5’末端或3’末端覆蓋度不均一。這些不精確或者截短的lncRNA注釋會對其下游應用產生巨大的影響,比如把mRNA片段誤認作lncRNA,降低FRKM評估轉錄本豐度的可靠性,以及錯判lncRNA的啟動子位置。
Arraystar擁有高質量的轉錄組和lncRNA數據庫,對各種來源的lncRNA進行了全面收集,包括所有權威數據庫、高水平文章以及通過獨家自有收集流程所得到的lncRNA。在芯片lncRNA收錄過程中,對全長lncRNA給予了特別關注。比如,優先選擇公共數據庫中注釋為全長或有實驗數據支持的lncRNA。通過強有力的已知數據,對Arraystar獨家轉錄組數據庫以及最新研究進展中的lncRNA進行了嚴謹的序列完整性評估,包含是否有組蛋白標記,CAGE簇和DNA酶I超敏位點(DHS)等數據支持的5’末端,poly(A)位點測序(3P-Seq)數據支持的3’末端。另外,Arraystar還使用多種方法對lncRNA的編碼潛能進行了評估,只有通過以上評估的lncRNA才會被標記為全長lncRNA,并被收錄進芯片。
Arraystar human LncRNA V5.0芯片共收錄了39,317個lncRNAs,主要分為兩大類:8,393個金標準LncRNAs和30,924個可靠的LncRNAs。
金標準lncRNAs
金標準lncRNAs全部采用經過詳細注釋和實驗驗證確定的lncRNAs,剔除了公共數據庫中大量的lncRNA部分片段、不完整的UTRs和不可靠的lncRNAs。金標準lncRNAs具有完善的信息標注,包括轉錄單位、轉錄本異構體、功能機制以及亞細胞定位。它們的主要來源如下:
1. lncRNAdb v2.0 匯集了功能性的lncRNAs
2. LncRNAWiki 收錄的經過實驗驗證的特色lncRNAs
3. Level 1 GENCODE v21 LncRNAs精選了具有 RT-PCR-Seq 方面實驗數據支持的lncRNAs
4. Refseq 嚴格篩選了可信度高,具有全長序列的lncRNAs
5. Arraystar lncRNA通過 ENCODE CAGE Clusters, PolyA-seq, 深度 RNA-Seq以及 capture seq獲得的,具有5’TSS,3’末端和表達量信息的全部lncRNA轉錄本
Arraystar 保持嚴格評估lncRNA完整轉錄本的一貫性原則,持續從高水平文章中精選lncRNA
可靠的lncRNAs
這些lncRNAs序列通常由轉錄單位而獲得,是除了金標準lncRNAs外,lncRNAs轉錄組中全面且高度可信的lncRNAs分子集合。根據轉錄本來源數據庫,轉錄本長度和其他有效信息,從每個轉錄單位中挑選出一個最具代表性的lncRNA,最終從308525個lncRNA序列中篩選出32667個可靠的lncRNAs分子。
涵蓋的一組LncRNA是利用最受尊敬的公開轉錄組數據庫(Refseq、UCSC knowngenes、Gencode等)以及具有里程碑意義的出版物精心構建的。這些LncRNA數據庫正在不斷更新,以確保所有最新的注釋LncRNA都包含在陣列中。
接下來我們對Arraystar human LncRNA V5.0收錄的高質量數據庫進行一個總結:
RefSeq數據庫
NCBI RefSeq (Reference Sequence,美國國立生物技術信息中心參考序列庫),即RefSeq參考序列數據庫,提供的具有生物意義上的非冗余的基因和蛋白質等片段序列的數據庫。RefSeq的序列數據來源于大名鼎鼎的INSDC(InteRNAtional Nucleotide Sequence Database Collaboration,國際核苷酸序列數據庫聯盟),是目前世界上最具有權威性的序列數據庫。NCBI的參考序列計劃(RefSeq)將為中心法則中自然存在的分子,從染色體到mRNA到蛋白提供參考序列標準。RefSeq標準為人類基因組的功能注解提供一個基礎。它們為突變分析,基因表達研究,和多態發現提供一個穩定的參考點。
全面的,整合的,無冗余的序列
基因組DNA,RNA,蛋白產物
是醫學、功能、多樣性研究的一個基準
為基因組注釋,基因鑒定和特性描述,突變和多態性分析,表達研究和比較分析提供穩定可靠的參考
由NCBI和其合作者維護

UCSC Known genes 數據庫
加州大學圣克魯茲分校(UCSC)的已知基因數據集是基于來自Swiss-Prot/TrEMBL (UniProt)的蛋白質數據和來自Genbank的相關mRNA數據,通過完全自動化的過程構建的。描述了該過程的具體步驟。從該數據集到其他基因組和蛋白質組數據進行了廣泛的交叉參考。對于每一個已知的基因,都有一個詳細的頁面,包含了關于該基因的豐富信息,以及其他相關基因組、蛋白質組學和通路數據的廣泛鏈接。2005年7月,UCSC已知基因可以用于人類、小鼠和大鼠基因組。已知基因是支持幾個關鍵項目的基礎:UCSC網站提供的基因組瀏覽器、蛋白質組瀏覽器、基因排序和表格瀏覽器。所有相關的數據文件和程序源代碼也可用。可以通過http://genome.ucsc.edu訪問。分析UCSC已知基因、RefSeq、Ensembl基因、H-Invitational和CCDS的基因組覆蓋率。雖然UCSC已知基因在人類和小鼠的主要基因組中提供了最高的基因組和CDS覆蓋率,但更詳細的分析表明,所有這些基因都可以進一步改進。

Gencode數據庫
人類基因組包含成千上萬的長非編碼RNA (lncRNAs)。雖然一些研究已經證明了引人注目的生物學和疾病的作用,個別例子,分析和實驗的方法,調查這些基因的缺乏全面的lncRNA注釋。在這里,我們展示并分析了迄今為止最完整的人類lncRNA注釋,該注釋由GENCODE聯盟在ENCODE項目框架內產生,包含9277個人工注釋基因,產生14,880個轉錄本。我們的分析表明,lncRNA的產生途徑與蛋白質編碼基因相似,具有相似的組蛋白修飾譜、剪接信號和外顯子/內含子長度。然而,與蛋白質編碼基因相比,lncRNA表現出明顯的雙外顯子轉錄偏性,它們主要定位于染色質和細胞核,其中一部分似乎優先被加工成小RNA。與中性進化的序列相比,它們承受著更大的選擇壓力,尤其是在啟動子區域,啟動子區域的選擇水平與蛋白質編碼基因相當。重要的是,大約三分之一的人似乎是在靈長類譜系中出現的。綜合分析其在人體多個器官和大腦區域的表達,lncRNA的表達普遍低于蛋白編碼基因,且表現出更多的組織特異性表達模式,其中組織特異性lncRNA在大腦中表達的比例較大。表達相關分析表明,lncRNA與反義編碼基因表達顯著正相關。該GENCODE注釋為lncRNA的未來研究提供了寶貴的資源。

LncRNAdb數據庫
lncRNAdb數據庫,是一個真核生物的lncRNA綜合數據庫。它包括特異的序列結構信息,如轉錄本、基因組位置、表達、亞細胞定位和保守位點以及相關的功能和疾病。同時還將給出lncRNA相關的文獻證據的pubmedl鏈接以及在基因組位置信息的UCSC鏈接。

NRED 數據庫(The Noncoding RNA Expression Database)
NONCODE DB是一款綜合性的數據庫,該數據庫是一個比較全面的ncRNA相關注釋的數據庫,尤其是lncRNA信息,不僅支持常用lncRNA的name、NONCODE ID(NONHSAG000001.2)搜索,大部分lncRNA還支持其他數據庫名字進行搜索。NONCODEv5收集了自2015年9月以來新鑒定的非編碼RNA,非編碼轉錄本總數據量從527336增長到548640,目前包含17個物種(物種包括人、小鼠、牛、大鼠、黑猩猩、大猩猩、紅毛猩猩、恒河猴、負鼠、鴨嘴獸、雞、豬、斑馬魚、果蠅、線蟲、酵母、擬南芥和豬),并注釋了相關表達譜信息,功能信息及保守性信息等內容。

RNAdb 數據庫
近年來,有越來越多的轉錄本鑒定不編碼蛋白質,其中許多是發育調控和似乎具有調控功能。在這里,我們描述了一個全面的哺乳動物非編碼RNA數據庫(RNAdb)的構建,該數據庫包含800多個獨特的實驗研究的非編碼RNA (ncRNAs),包括許多與疾病和/或發育過程相關的非編碼RNA。數據庫可以在http://research.imb.uq.edu.au/RNAdb/上找到,可以通過許多標準進行搜索。它包括microRNAs和snoRNAs,但不包括基礎RNA,如RNA和tRNAs,它們在其他地方被編目。該數據庫還包括1100多個推測的反義ncRNA和近20000個推測的ncRNA,這些推測的ncRNA都是在高質量的鼠和人cDNA文庫中鑒定出來的,而且在不久的將來還會增加。這些RNA中有許多是大的,許多是拼接的,有些是交替的。該數據庫將為RNomics的新興領域以及ncRNA在哺乳動物基因表達和調控中的作用的表征奠定基礎。

以下為其他研究者總結歸納:
LincRNAs identified by Khalil et al
長干預非編碼RNA (lincRNAs)是由哺乳動物基因組中數千個位點轉錄而成的,可能在基因調控和其他細胞過程中發揮廣泛的作用。本文概述了對脊椎動物lincRNA的新認識,重點介紹了它們是如何被識別的,以及目前關于它們的基因組學、進化和作用機制的結論和問題。Khalil等人通過在已知的蛋白編碼位點外尋找染色質甲基化區域(H3K4me3和H3K36me3),鑒定并鑒定了3289個大的基因間非編碼RNA (lincRNAs)。通過將這些染色質狀態數據映射到轉錄組數據庫,消除所有注釋的非lincRNA轉錄本(如注釋的蛋白編碼基因、RNAs和tRNAs),并評估其編碼潛力,Khalil等人描述的2193個lincRNA被納入Arraystar Human LncRNA Microarray V4.0。
LincRNAs identified by Cabili et al
Cabili等人利用他們的RNA測序結果和公共數據庫信息定義了超過8000個人類lincRNA基因的參考目錄。從4662個嚴格定義的人類lincRNA基因中鑒定出14353個轉錄本。這些lincRNA中有6969個轉錄本被Arraystar Human LncRNA Microarray V4.0覆蓋。
LincRNAs identified by Iyer et al. & Clark et al.
Clark等人使用CaptureSeq極大地提高了RNA-seq的覆蓋率,支持78個組織樣本中16453個lncRNA轉錄本的鑒定。Iyer等人整合了來自25個獨立研究的7256個RNA-seq數據,包括TCGA、ENCODE等,得出58648個lncRNA。其中20,142個LncRNA被Arraystar Human LncRNA Microarray V4.0覆蓋。
Ultraconserved regions encoding LncRNAs (T-UCRs)
超保守區(UCRs)是長度大于200nt的基因內和基因間序列,在人類、小鼠和大鼠中100%相同。Bejerano et al.鑒定了481例人類ucr。大量的ucr轉錄一個lncRNA子集,即t - ucr,這些lncRNA在幾種人類癌癥中異常表達。所有t - ucr均在Arraystar人類LncRNA芯片V4.0上顯示。為了幫助發現來自這些區域的潛在非編碼轉錄本,我們還設計了962個探針,針對這些ucr的兩條鏈(http://users.soe.ucsc.edu/~jill/ultra.html)。
HOX loci LncRNAs (HOX LncRNAs)
HOX集群基因是動物發育過程中模式和軸形成的基本調控因子。Rinn等人在人類的四個HOX位點中鑒定了407個轉錄區域(101個HOX基因外顯子,75個內含子和231個基因間ncRNA轉錄本)。Arraystar人類LncRNA微陣列V4.0上的探針瞄準了所有這些不同的轉錄區域。此外,68個潛在的LncRNA被Arraystar Human LncRNA Microarray V4.0覆蓋,這些LncRNA的轉錄單元(TUs)在相同或反意義基因組鏈上重疊HOX簇基因。
LncRNAs with Enhancer-like Function (LncRNA-a)
使用人類GENCODE注釋,Orom等人從2,286個獨特的基因[11]中鑒定出3,019個具有增強子樣功能的人類lncRNA。具有增強器樣功能的LncRNA被包含在Arraystar Human LncRNA Microarray V4.0中
參考文獻
1. Pruitt K.D. et al. (2014) RefSeq: an update on mammalian reference sequences. Nucleic Acids
Res, 2014. 42(Database issue):D756-63
2. Hsu, F., et al., The UCSC Known Genes. Bioinformatics, 2006. 22(9): p. 1036-46.
3. Harrow, J., et al., GENCODE: producing a reference annotation for ENCODE. Genome Biol, 2006. 7 Suppl 1: p. S4 1-9.
4. Pang, K.C., et al., RNAdb 2.0--an expanded database of mammalian non-coding RNAs. Nucleic Acids Res, 2007. 35(Database issue): p. D178-82.
5. Dinger, M.E., et al., NRED: a database of long noncoding RNA expression. Nucleic Acids Res, 2009. 37(Database issue): p. D122-6.
6. Quek X.C. et al., lncRNAdb v2.0: expanding the reference database for functional long noncoding RNAs. Nucleic Acids Res. 2015. 43(Database issue):D168-73
7. Khalil, A.M., et al., Many human large intergenic noncoding RNAs associate with chromatin-modifying complexes and affect gene expression. Proc Natl Acad Sci U S A, 2009.106(28): p. 11667-72.
8. Cabili, M.N., et al., Integrative annotation of human large intergenic noncoding RNAs reveals global properties and specific subclasses. Genes Dev, 2011. 25(18): p. 1915-27.
9. Bejerano, G., et al., Ultraconserved elements in the human genome. Science, 2004. 304(5675): p. 1321-5.
10. Rinn, J.L., et al., Functional demarcation of active and silent chromatin domains in human HOX loci by noncoding RNAs. Cell, 2007. 129(7): p. 1311-23.
11. Orom, U.A., et al., Long noncoding RNAs with enhancer-like function in human cells. Cell, 2010.143(1): p. 46-58.
12. Pang, K.C., et al., RNAdb--a comprehensive mammalian noncoding RNA database. Nucleic Acids Res, 2005. 33(Database issue): p. D125-30.
13. Mercer, T.R., et al., Specific expression of long noncoding RNAs in the mouse brain. Proc Natl Acad Sci U S A, 2008. 105(2): p. 716-21.
14. Guttman, M., et al., Chromatin signature reveals over a thousand highly conserved large non-coding RNAs in mammals. Nature, 2009. 458(7235): p. 223-7.
15. Benson, D.A., et al., GenBank: update. Nucleic Acids Res, 2004. 32(Database issue): p. D23-6.
16. Clark, et al.Quantitative gene profiling of long noncoding RNAs with targeted RNA sequencing. Nat Methods, 2015. 12(4): 339-342.
17. Iyer, et al. The landscape of long noncoding RNAs in the human transcriptome. Nat Genet 2015.47(3): 199-208.