从三大核酸数据库NCBI、Ensembl、UCSC 下载参考序列及注释文件html
0.人类基因组版本对应关系数据库
NCBI | Ensembl | UCSC |
GRCh36 | release_52 | hg18 |
GRCh37 | release_59/61/64/68/69/75 | hg19 |
GRCh38 | release_76/77/78/80/81/82 | hg38 |
1.NCBIapi
人类基因组spa
GRCh38下载(默认):3d
ftp://ftp.ncbi.nih.gov/genomes/H_sapiens/orm
GRCh37下载:cdn
ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/BUILD.37.1/htm
ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/BUILD.37.2/blog
ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/BUILD.37.3/ip
GRCh36及其余版本下载:
ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/
经常使用的GRCh37基因组大小压缩约900Mb,解压后约3G。人类的注释文件一直在更新,默认为GFF3格式。gff和gtf格式文件关系及相互转换见:https://www.jianshu.com/p/48b5a0972301
也能够经过NCBI的genome数据库下载,默认是GRCh38,若要下载其余版本,直接检索关键词。
如输入GRCh37或hg19:
参考序列和GFF文件都可今后处下载,其余物种相似。
2.Ensembl
同NCBI同样,可经过网页检索下载,也可经过ftp直接下载。
(1)官网下载:
或者经过进入download下载。
微生物或原生生物的下载,如幽门螺杆菌:
或者直接从这里进入:http://bacteria.ensembl.org/index.html
http://bacteria.ensembl.org/species.html
(2)ftp下载:
ftp://ftp.ensembl.org/pub/release-75/fasta/homo_sapiens/
更改release后的数字下载相应的版本,包括dna、cdna、cds等序列信息,release-75是目前最新的hg19版本。
注释文件下载(默认gtf,大部分比对软件输入格式):
ftp://ftp.ensembl.org/pub/release-75/gtf/homo_sapiens/
3.UCSC
参考序列下载很简单(尤为是人)
进入官网:http://hgdownload.cse.ucsc.edu/downloads.html,下载对应的各个版本
也可进入http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz,修改中间数字下载不一样版本
可是注释文件下载稍微有点麻烦,须要设置一系列参数来生成:
http://genome.ucsc.edu/cgi-bin/hgTables
Select the following options:
Reference:
http://www.novogene.com/tech/suppor/gene-calss/comprehensive/228.html