如何使用TASSEL l 作GWAS 说明文档

最近写了一些GWAS的学习笔记，但无疑TASSEL是最香的，发现对于编程界面，对不少朋友仍是不可逾越的障碍。确实，原本就不是作生信的，只是想利用GWAS分析一下，却要学习Linux，学习R语言，学习Python，真是太难了。因此，TASSEL安排起来吧，毕竟才是学习成本最低的，该有的都有了，还要什么自行车？？？编程

顺便再立个Flag，阅读量超过1000，我录制一下操做视频，怎么样，三连走一波。。。微信

…………………………………………………………………………………………………………
学习

如下是原文
spa

…………………………………………………………………………………………………………….net

以前写的Tassel说明文档，虽然我都是使用命令行相关的软件，可是我发现，Linux，命令行对大多数人仍是可望而不可即，分享一篇我作的说明文档，用示例数据，一步一步进行GWAS分析。具体以下：命令行

目录3d

1. 下载安装软件orm

2. 导入数据视频

3. 处理数据blog

3.1 清洗数据

3.2 主成分分析

3.3 用基因标记估计系谱

3.4 用通常线性模型分析GLM

3.5 用混合线性模型分析

4. 欢迎关注个人微信公众号

1. 下载安装软件

下载地址：http://tassel.bitbucket.org/

这里下载的是win的64为系统，截图以下：

安装成功后，打开菜单以下：

2. 导入数据

数据下载地址：http://tassel.bitbucket.org/

截图以下：

打开data，load，选择Make Best Guess

选择几个示例数据：

打开后的数据以下

里面包括系谱数据、性状数据和基因型数据（snp）。

3. 处理数据

3.1 清洗数据

选中mdp_trait，

而后选择：Data中的TransformPhenotype，

能够对数据进行转化、标准化等操做，注意，要先对数据进行选择，而后再进行操做：

也能够对缺失值的数据进行删除，点击imput，Numerical impute，就会生成没有缺失值的数据，这只是缺失值的不一样替换方法。

3.2 主成分分析

主成分分析（PCA）是一种统计方法，它能够将相互关联的变量转化为独立的主成分（PC），第一种成分包含最多的组分，其它依次下降。另外一个主成分的做用能够用标记的主成分来表明群体结构。这种方法比最大似然法节省时间。由于大部分的分子标记都是字符，须要先将其转化为数值，而后再进行主成分分析，通常将纯合的标记用0代替，另外一个纯合子用2代替，杂合的用1代替。PCA要求变量不能有缺失值，所以，在进行主成分分析时，须要对数据进行清洗，去除缺失值。

去掉频率小于0.05的标记，能够选择Data,选择Site，而后在最小频率的框中键入0.05，而后选择Remove minor SNP status，而后点击Filter，进行过滤，模型以下：

选择PCA，而后选择5个主成分（默认项），点击肯定，就会生成结果，模型以下：

结果以下：

3.3 用基因标记估计系谱

利用主成分分析能够判断群体的结构特征，可是若是利用系谱信息，这种结果会更加准确。能够用基因型数据生成系谱信息，首先选中基因型数据，点击Analysis，选择Kinship

结果以下：

3.4 用通常线性模型分析GLM

下面咱们用GLM模型来分析示例数据，mdp_genotype.hmp.txt是snp数据，里面有3093个标记，281个玉米自交系，另外一个文件是mdp_population_structure.txt，里面是282个玉米自交系的群体结构，还有一个是mdp_traits.txt，里面是282玉米自交系的表型数据。

首先对基因型数据进行过滤，去掉频率小于0.05的，最小的数目是150，点击过滤，生成过滤后的基因型数据：

而后对数据进行个过滤，选择开花期dpoll这个性状，

进行协变量选择，即选择群体结构的文件，这里咱们去掉Q3，数据以下：

合并数据，将这三个过滤好的数据，选中进行合并，点击Data IntersectJoin，

数据合并以下：

而后选中合并后的数据，用analysis ，GLM来进行分析

运行结果以下：

QQ图：

P-value值：

3.5 用混合线性模型分析

混合模型须要添加系谱矩阵

点击run

结果：