第一步,确定是找到相关序列。html
我从ncbi taxonomy进入,搜索oryza。由于要搜索mRNA核酸序列,今后选择nucleotide,点击Go:
python
注意,若是你真正想要的是哪些序列。好比,稻属中可能野生稻之类的并不是你想要的。这时就要用oryza sativa搜索,或者从oryza中选择合适的。
vim
进一步在左侧栏中选择mRNA,此时出如今Search details中的关键字组合就是咱们的过滤筛选条件,注意不是搜索框中关键字,不然你下载的将是未过滤的。
ide
找到序列以后,就能够下载序列。一般咱们利用NCBI网页中的Send to来进行下载。
可是这种方法很不稳定,常常会掉线,下载的序列极可能不完整,并不适合大批量序列的下载。fetch
这时,Entrez Direct就派上用场了。其中三个常见的命令:命令行
好比以上示例,咱们能够用Search details中的关键字组合来进行下载。code
esearch -db nucleotide -query 'txid4530[Organism:exp] AND biomol_mrna[PROP]' | efetch -format fasta >all_oryza_mRNA.fasta
从速度来看,还不如网页直接下载。但由于是命名行,可放在后台慢慢下载。相对更为稳定。orm
Entrez Direct的功能很强大,文献、结构、基因、表达等数据均可下载。BioPerl和BioPython都有相应的用法,感兴趣时能够慢慢摸索。htm
官网命令行:
https://www.ncbi.nlm.nih.gov/books/NBK179288/#chapter6.Sequence_Recordsblog