Ensembl是一项生物信息学研究计划,旨在开发一种能够对真核生物基因组进行自动诠释(automatic annotation)并加以维护的软件。该计划由英国维康基金桑格研究院及欧洲分子生物学实验室所属分部欧洲生物信息研究所共同协作运营,这是为了回应人类基因组计划即将完而于1999年启动的 。在存在10年之后,Ensembl的目标仍然是为遗传学家,分子生物学家和其他研究人员研究我们自己的物种和其他脊椎动物和模式生物的基因组而提供集中的资源。Ensembl是几个知名的基因组浏览器之一,用于检索基因组学信息。相似的数据库和浏览器还被发现在美国国家生物技术信息中心NCBI和加州大学圣克鲁兹分校的UCSC基因组浏览器。

Ensembl与NCBI Map Viewer和UCSC的区别

Ensembl与NCBI的NCBI Map Viewer和UCSC是最为常用基因组检索数据库。Ensembl 与NCBI Map Viewer和UCSC最大区别表现在以下5点:

Ensembl的基因数据集是依据mRNA和蛋内序列的数据信息白动注释的。数据来源为新的基因组数据,UniProt/SwissProt和UniProt/TrEMBL的蛋白序列,NCBI的RefSeq里的DNA和蛋白序列和EMBL的cDNA序列。
Ensembl是一个开源(Perl API )的全自动的基因注释软件系统,很多网站都采用Ensembl这套软件系统。
Ensembl拥存其特有的BioMart功能。BioMart可以依据设定的要求对基 因组进行条件性检索,检索的结果吋以以图表的形式给出。
与其它数据库相整合,比如DAS。
基因组间的比较分析。

Ensembl的两种注释

ensembl.org网站是常用真核生物参考基因组来源之一,能够对人类基因自动进行注释,包括人类,小鼠,斑马鱼,猪和大鼠等,也包括来自HAVANA的人工注释信息。Ensembl的通用基因注释有两种,一是Ensembl GeneBuild,它是自动化注释,速度快,实时更新,在不同物种上均适用;另一种是Wellcome基金会的 Havana (VEGA)小组的注释,它是手工注释,速度慢,但是准确,它依据的都是已经验证过的mRNA和蛋白序列来注释,比较费时。Havana (VEGA)小组的注释常有以下几种类型:

Protein coding: 包括开放阅读框 (ORF).
Processed transcript:没有开放阅读框(ORF)
Pseudogene:假基因,是指脱氧核糖核酸(DNA)的碱基序列中,一段与其他生物体内已知的基因序列非常相似的片段。但是这个片段由于移码突变或者无义突变破坏了ORF,无法发挥原有的基因功能,也就是无法制造出蛋白质
IG gene:免疫球蛋白家族基因
TR Gene:T细胞受体基因
TEC (To be Experimentally Confirmed)
详细信息:http://vega.sanger.ac.uk/info/about/gene_and_transcript_types.html

注释文件

我们可以通过Ensembl ftp下载注释文件,注释文件包括gff3gtf两种格式,gtf和gff3的差别和转换可参考(http://blog.nextgenetics.net/?e=27)。Ensembl注释集通常包括了许多的特征信息,如protein coding genes, ncRNA, repeat features等,还包括mRNA的各种可变剪接,因此下载之后要根据项目需求过滤出自己需要的特征。一个物种在Ensembl ftp上有多个注释文件,以gtf为例:

*.gtf结尾的文件,全部的注释结果,一般会使用这个文件。
*.chr.gtf结尾的文件,包括了所有染色体序列上的注释结果,也包括线粒体染色体的注释信息,但不包括没有被组装成染色体的序列上的注释信息。每条染色体也有单独的注释文件。
*.abinitio.gtf结尾的文件,为用Genescan和abinitio基因预测工具生成的注释信息,一般是denovo注释的结果。

人类和小鼠基因组的GTF文件与GENCODE计划发布的gene set文件相同。
The GENCODE project 的目标为对人类和小鼠基因组提供高质量的注释信息和实验确证。
The GENCODE gene sets被其他项目作为参考而广泛使用(如 1000 Genomes).
详细内容:https://www.gencodegenes.org/about.html

参考:

x2yline在生信进化树上的评论,http://www.biotrainee.com/thread-626-1-1.html