转载至:http://blog.sina.com.cn/s/blog_3f6403290100rb61.html(感谢原文作者)
HMMPfam的安装使用手记
前言
简要介绍一下 HMMPfam吧。这还要从HMMER说起,HMMER是基于隐马尔可夫模型(profile HMMs),用于生物序列分析工作的一个非常强大的软件包,而hmmpfam就是HMMER软件包中的一个重要组成部分。同时,我们还需要了解Pfam (Protein families database of alignments and HMMs),它实际上是一个涵盖了生物蛋白质序列中常见结构域的序列及其相对应的隐马尔科夫模型的数据库,由英国的Sanger Institute维护。hmmpfam的工作原理简单的说就是将用户所提交的查询序列在Pfam库中做比对计算,然后预测出查询序列中所隐含的结构域信息。
正文
通过前面的简介,我们知道要使hmmpfam能成功运行,需要同时安装HMMER软件包和Pfam数据库。下面就让我们开始吧:)
HMMER软件包从http://hmmer.janelia.org/下载,现在的版本为2.3.2。下载下来的应该是源码压缩包,放在任意目录下解压
$ tar xvf hmmer.tar.gz
切换到解压后的目录
$ cd hmmer-2.3.2
下面运行configure进行配置,其实默认配置很简单,直接用./configure 就行了,不用加任何参数。但我自己装的时候设了以下两个参数。–enable-threads 是多线程支持,因为我是在服务器上安装,我们实验室的服务器为4颗双核CPU,因此在这里开启了HMMER对多线程的支持(默认可以使用所有可用的cpu 同时进行运算),第二个参数–enable-lfs是开启对大于2G的文件的读写支持,以备不时之需。其它参数可以根据自己需要设置,我这里没有特别设定。
$ ./configure –enable-threads –enable-lfs
后面就很简单了,按部就班三步走。其中make install要在root权限下进行,默认安装路径为(程序:/usr/local/bin/ ,帮助文件: /usr/local/man/man1)
$ make
$ make check
# make install
这样HMMER就装好了,还是很简单的吧:)
下面从ftp://ftp.sanger.ac.uk/pub/databases/Pfam/current_release/上下载Pfam的数据库,现在的最新版本是23.0。Pfam的数据库主要有两个,Pfam_ls和Pfam_fs,我们主要使用Pfam_ls,所以就只下了这一个:Pfam_ls.gz ,解压后实际大小约700M。这里建议新建一个名字叫Pfam的工作文件夹,并把解压后的库文件放在这个文件夹下,以后做hmmpfam分析时的输入输出序列也放在这个文件夹下,这样使用起来不用特别指定目录,比较方便,个人经验,仅供参考,呵呵。
这样一切准备工作就都做好了,可以运行hmmpfam做分析啦:P
切换到Pfam目录下,并运行hmmfam程序。
$ hmmpfam –cpu 4 -E 0.0001 Pfam_ls InputSeq.fas >OutResults.fas
运行hmmpfam时我一般会设这两个参数,–cpu <n> 用于指定本次hmmpfam程序运行时使用的cpu个数,-E <n> 用于设定E-value的阈值。其实hmmpfam还提供了其它很多参数,具体使用时根据需要选用,下面简要列几个:
Usage: hmmpfam [-options]
Available options are:
-h : help; print brief help on version and usage
-n : nucleic acid models/sequence (default protein)
-A : sets alignment output limit to best domain alignments
-E : sets E value cutoff (globE) to ; default 10
-T : sets T bit threshold (globT) to ; no threshold by default
-Z : sets Z (# models) for E-value calculation
后记
回头看看这个安装过程,其实还是挺简单的,只要认真看看Manual文件,绝对没问题。
我对Linux其实也是一知半解,所以基本就是在摸着石头过河,在摸索中前进,在前进中提高嘛,呵呵。
另外,以上安装所使用的OS平台为:
Redhat Enterprise Linux Server Release 5.2 (Tikanga)