DS自带数据库有PDB_nr95, PDB, Swiss-Prot and antibody_variable databases。Discovery Studio包含pdb_nr95序列数据库,该数据库由95%冗余的PDB结构序列生成,特别适合同源建模。Discovery Studio还包括完整的PDB数据库,即从当前uniprot_sport生成的Swiss-Prot数据库。UniProt提供的fasta序列,以及antibody_variable数据库,其中包含各种哺乳动物物种的可变域序列。以往,nr和UniRef90数据库被处理以包含分类信息,并随Discovery Studio安装程序一起交付。在Discovery Studio的当前版本中,BLAST Search和PSI-BLAST搜索协议已经过更新,以使用原始数据库中包含的分类信息,而无需进一步处理。因此,这些数据库不再包含在Discovery Studio中。如需获取最新的NCBI nr数据库(最新为v5),请直接从NCBI网站下载nr。如果需要,可以下载其他蛋白质数据库,如pdbaa,并以类似的方式安装。对于UniRef90,您可以从UniProt网站下载FASTA格式的序列并生成数据库。其中一些数据库,特别是nr和UniRef90,非常大。除了需要大量的磁盘空间来存储外,根据服务器的速度和内存,搜索它们可能会非常耗时。PSI-BLAST搜索可能需要多次迭代,从而进一步增加所需的时间。出于这些原因,最好使用BLAST搜索(NCBI服务器)协议,而不是在本地执行搜索。
本主题的其余部分将讨论如何从各种来源下载和安装数据库的当前版本。
下载地址
NCBI database:可以通过命令行FTP下载,也可以通过FileZilla等FTP客户端下载,下载地址:https://ftp.ncbi.nih.gov/blast/db
UniRef90:uniref100,uniref90,uniref50是蛋白质数据库。uniref100是包含所有的已经验证的蛋白质的序列;UniRef90基于UniRef100构建,而UniRef50基于UniRef90构建;三个数据库大小均不相同,一般下载UniRef90就够用了。下载地址:ftp.uniprot.org/pub/databases/uniprot/current_release/uniref/uniref90
在Windows和Linux操作系统下,基本安装和异地安装的操作步骤不同。注意,二进制数据库文件是跨平台的,可以在Windows和Linux平台上使用。
Windows 安装
本地安装
NCBI database:使用WinZip 或者 7-Zip等解压工具提取。
UniRef90:下载并解压缩FASTA文件,然后运行makeblastdb.exe将其转换为二进制数据库文件。创建的二进制文件可用于Windows和Linux操作系统。makeblastdb.exe可以在<pps_install>/apps/scitegic/ sequanal /bin/win64/BLASTPlus目录下找到。
打开cmd,输入cd 定位到makeblastdb.exe路径,然后输入> makeblastdb.exe –in "<FASTA file>" -dbtype prot –blastdb_version 5 -parse_seqids -hash_index -out <Database Name>
其中"FASTA file"是当前fasta文件的文件名,"Database Name"是数据库的名称。
在独立的服务器上安装
您可以在Pipeline Pilot服务器安装之外安装数据库,这允许它们由多个Pipeline Pilot服务器共享,或者托管在具有大量磁盘空间的文件服务器上。
1. 创建一个Pipeline Pilot服务器可以访问的目录,并将数据库文件放在其中。使用与基本安装相同的过程。确保Pipeline Pilot服务是由具有数据库文件读访问权限的用户启动的。
2. 在Windows上,默认情况下,Pipeline Pilot服务将在本地系统帐户上运行。在<pps_install>\public\DS\BLASTDB中为每个数据库创建一个名为<database>.def的文本文件。例如,nr.def, UniRef90.def,其中<database>是数据库的名称,因为它出现在格式化BLAST索引文件的前缀中。
3. 在每个文本文件中指定数据库位置(您创建的目录)的完整路径。
4. 在Windows操作系统下,不要在路径中使用映射的驱动器名称。
Linux安装
本地安装
单个文件的NCBI database:使用以下命令提取。
tar -xvzf <basename>.tar.gz
多文件的NCBI database:使用以下命令提取。
cat <basename>.*.tar.gz | tar -izxvf - -i
UniRef90:下载并解压缩FASTA文件,然后运行makeblastdb将其转换为二进制数据库文件。创建的二进制文件可用于Windows和Linux操作系统。makeblastdb在<pps_install>/apps/scitegic/ sequanal /bin/linux64/BLASTPlus目录下可用。
> makeblastdb -in "<FASTA file>" -dbtype prot –blastdb_version 5 -parse_seqids -hash_index -out <Database Name>
在独立Linux服务器上安装
您可以在Pipeline Pilot服务器安装之外安装数据库,这允许它们由多个Pipeline Pilot服务器共享,或者托管在具有大量磁盘空间的文件服务器上。
1. 创建一个Pipeline Pilot服务器可以访问的目录,并将下载的NCBI或生成的UniRef90数据库文件放在其中。使用与基本安装相同的过程。
2. 确保Pipeline Pilot服务是由具有数据库文件读访问权的用户启动的。通常,Pipeline Pilot Linux服务器将使用用于安装服务器的用户帐户运行。
3. 在<pps_install>/public/DS/BLASTDB中,为每个数据库创建一个名为<database>.def的文本文件。例如,nr.def, UniRef90.def,其中<database>是数据库的名称,因为它出现在格式化BLAST索引文件的前缀中。
4. 在每个文本文件中指定数据库位置(您创建的目录)的完整路径。