QIIME2是微生物组分析流程QIIME(截止17.7.13被引7771次)的全新版(不是升级版),采用python3全新编写,并于2018年1月全面接档QIIME,是表明末来的分析方法标准(大牛们制定方法标准,咱们跟着用就行了)。
安装
安装方法比较简单,参照官网:https://docs.qiime2.org/2017.8/install/native/#install-miniconda
附1. 核心概念
原文连接:https://docs.qiime2.org/2017.8/concepts/
想要深刻理解QIIME2的分析过程,QIIME定义的基本概念须要了解一下。
1. 数据文件: 人工产品 (artifacts)
QIIME2为了使分析流程标准化,分析过程可重复,制定了统一的分析过程文件格式.qza;qza文件相似于一个封闭的系统,里面包括原始数据、分析的过程和结果;这样保证了文件格式的标准,同时能够追溯每一步的分析,以及图表绘制参数。这一方案为实现未来可重复的分析提供了基础。好比文章投稿,同时提供分析过程的文件,别人能够直接学习或重复实验结果。
2. 数据文件:可视化(visualizations)
QIIME2生成的图表结果文件类型,以.qzv为扩展名,末尾的v表明visual;它同qza文件相似,包括分析方法和结果,方便追溯图表是如何产生的;惟一与qza不一样的,它是分析的终点,即结果的呈现,不会在流程中继续分析。可视化的结果包括统计结果表格、交互式图像、静态图片及其它组合的可视化呈现。这类文件可使用QIIME2 qiime tools view命令查看,不安装程序也可在线 https://view.qiime2.org 导入显示;
3. 语义类型(Semantic types)
QIIME2每步分析中产生的qza文件,都有相应的语义类型,以便程序识别和分析,也避免用户引入不合理的分析过程(如使用末标准化的OTU表进行多样性分析)。了解分析各步的结果,才能对分析有更深刻和全面的认识。
4. 插件(Plugins)
QIIME2中的某个特定功能即为插件,好比拆分样品、Alpha多样性分析等。插件每一个人均可以开发,系列已经由社区开发了标准化分析的插件,其余用户按其标准开发的特定分析,并可与团队联系发布,或整合入平台。
5. 方法和可视化
方法是对QIIME2定义的输入格式进行操做的过程,并产生标准格式的输出,以方便后续分析,输入和输出均为qza文件;可视化是对定义的标准输入,产生统计表格或可视化图形,方便用户解读,输入为qza格式,输出为qzv,文件不只包括结果,还包括处理的分析命令和参数,方便重复和检查分析过程是否准确。
附2. Glossary 名词解释
Action 方法或可视化的动做
A general term for a method or visualizer.
Artifact 本流程定义的文件格式,存储数据和分析结果
Data that can be used as input to a QIIME method or visualizer, or that can be generated as output from a QIIME method. Artifacts typically have the extension .qza when written to file.
Method 对Artifact分析的方法
An action that takes some combination of artifacts and parameters as input, and produces one or more artifacts as output. These output artifacts could subsequently be used as input to other QIIME 2 methods or visualizers. Methods can produce intermediate or terminal outputs in a QIIME analysis.
Parameter 参数,软件或方法中可调整的部分
A primitive (i.e., non-artifact) input to an action. For example, strings, integers, and booleans are primitives. Primitives are never output from an action.
Pipeline 流程,一系统分析方法的串联
A combination of actions. This is not yet implemented.
Plugin 插件,可扩展的功能
A plugin provides microbiome (i.e. domain-specific) analysis functionality that is accessible to users through a variety of interfaces built around the QIIME 2 framework. Plugins can be developed and distributed by anyone. In more technical terms, a plugin is a Python 3 package that instantiates a qiime2.plugin.Plugin object, and registers actions, data formats, and/or semantic types that become discoverable in the QIIME 2 framework.
Result 分析结果
A general term for an artifact or visualization. A result is produced by a method, visualizer, or pipeline.
Visualization 可视化,把数据绘制成图表方便查看和分析规律
Data that can be generated as output from a QIIME visualizer. Visualizations typically have the extension .qzv when written to file.
Visualizer 可视化工具,将结果可视化的软件
An action that takes some combination of artifacts and parameters as input, and produces exactly one visualization as output. Output visualizations, by definition, cannot be used as input to other QIIME 2 methods or visualizers. Visualizers can only produce terminal output in a QIIME analysis.
附3. 经常使用的语义类型semantic types
原文连接:https://docs.qiime2.org/2017.8/semantic-types/
FeatureTable[Frequency]: 频率,即Feature表(OTU表),为每一个样品中对应OTU出现频率的表格
FeatureTable[RelativeFrequency]: 相对频率,OTU表标准化为百分比的相度丰度
FeatureTable[PresenceAbsence]: OTU有无表,显示样本中某个OTU有或无的表格
FeatureTable[Composition]: 组成表,每一个样品中OTU的频率
Phylogeny[Rooted]: 有根进化树
Phylogeny[Unrooted]: 无根进化树
DistanceMatrix: 距离矩阵
PCoAResults: 主成分分析结果
SampleData[AlphaDiversity]: Alpha多样性结果,来自样本自身的分析
SampleData[SequencesWithQuality]: 带质量的序列,要求有质量值,要求序列名称与样品存在对应关系,如为按样品拆分后的数据格式
SampleData[PairedEndSequencesWithQuality]: 成对的带质量序列,要求序列ID与样品编号存在对应关系;
FeatureData[Taxonomy]: 每个OTU/Feature的分类学信息
FeatureData[Sequence]: 表明性序列
FeatureData[AlignedSequence]: 表明性序列进行多序列比对的结果
FeatureData[PairedEndSequence]: 双端序列进行聚类或去噪后,分类好的OTU或Feature
EMPSingleEndSequences: 采用地球微生物组计划标准实验方法产生的单端测序数据;
EMPPairedEndSequences: 采用地球微生物组计划标准实验方法产生的双端测序数据;
TaxonomicClassifier: 用于物种注释的分类软件