这篇文章将为大家详细讲解有关NONCODE数据库有什么用,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。
NONCODE数据库是一个综合的非编码RNA数据库,该数据库中包含了除tRNA和rRNA之外的其他类型的非编码RNA信息,其中绝大部分是lncRNA,网址如下
http://www.noncode.org/index.php
目前最新版本为v5, 共包含了17个物种的非编码RNA, 物种和对应的lncRNA数量汇总如下
该数据库通过两个途径收集和整理非编码RNA信息,第一种是通过pubmed进行文献检索,以ncrna
, non-coding
等关键词检索,然后从文章中提取非编码RNA;第二种是通过已有的数据库,比如RefSeq
, GENCODE
, lncRNAdb
等。
将收集到的所有非编码RNA以gtf
和bed
格式进行记录,通过compare
合并相同转录本,去冗余,对去冗余只有的转录本和基因赋予NONCODE的ID; 然后利用CNCI
预测其蛋白编码潜能,只保留CNCI
预测结果为non-coding的转录本。
以上可以得到非编码RNA的基本信息,除此之外,还提供了在不同组织或者细胞系中的表达谱,功能预测,在不同物种间的保守性, 相关疾病等注释信息,人类的非编码RNA表达谱从Human BodyMap2.0 项目和GSE30554
两个项目中得到;小鼠的表达谱数据从ERP000591
得到,lncRNA的功能预测结果通过lnc-GFP
这个软件预测得到。
通过Browse DB
, 可以查看数据库中每个非编码RNA的信息,示意如下
NONCODE数据库的转录本ID以NON
开头,后面三个字母代表物种,比如human对应HSA
, 接下来的T
代表转录本,后面的数字编号用于区分不同转录本; 对于每个转录本,给出了染色体位置,外显子个数,长度,CNCI score等信息。
点击每个转录本ID, 可以查看详细信息,除了序列等基本信息外,还包括以下两种信息
1. 表达谱
2. 二级结构
通过Function
菜单,可以检索得到lncRNA对应的Go注释, 结果示意如下
lncRNA对应的GO注释是通过ncFANS
这个在线网站得到的。
通过Disease
菜单,可以检索到得到lncRNA相关的疾病和突变信息,示意如下
官网还提供了iLncRNA
工具,用于预测lncRNA, 示意如下
只需要上传转录本对应的GTF文件或者BED文件就可以了。
对于所有物种的lncRNA, 提供了fasta
和bed
两种格式供下载,对于常见的human, mouse, rat, 还提供了gtf
格式的文件。