目前单细胞转录组以10X公司为主流,咱们也是在单细胞天地公众号详细介绍了cellranger流程,你们能够自行前往学习,以下:html
-
单细胞实战(一)数据下载 -
单细胞实战(二) cell ranger使用前注意事项 -
单细胞实战(三) Cell Ranger使用初探 -
单细胞实战(四) Cell Ranger流程概览 -
单细胞实战(五) 理解cellranger count的结果
可是这个两年前的系列笔记是基于V2,V3版本的cellranger,目前呢它更新到了版本4,有一些改变,因此有必要再总结一个笔记。web
软件下载及安装
一样的,须要本身简单注册后就能够获取wget下载地址,由于版权的问题,我这里就不复制粘贴出来地址啦,反正简单填写邮箱便可注册拿到地址。数据库
注册网页是: https://support.10xgenomics.com/single-cell-gene-expression/software/downloads/latestexpress
通常来讲,软件以及配套的数据库都须要下载,下载速度呢,就取决于你本身的网路状况啦,反正在中国大陆地区下载确定会很慢的,建议nohup到后台,等一个晚上便可,我下面秀给你看两个不一样的速度状况:服务器
下载成功后的文件夹以下所示:微信
972M Jul 4 05:18 cellranger-4.0.0.tar.gz
11G Jun 23 02:04 refdata-gex-GRCh38-2020-A.tar.gz
由于不作小鼠的数据,因此我只是下载了 refdata-gex-GRCh38-2020-A.tar.gz 这个数据库文件。编辑器
再看看咱们的10x下机后的fastq数据文件
10X单细胞数据比较特殊,它的测序文库中包括index、barcode、UMI和测序reads。利用mkfastq
或者bcl2fastq
生成的文件,大概长这样:ide
能够看到,截图里面是两个样本,其中一个样本有4次测序文件,每次测序文件都是 I1,R1,R2这3个fastq文件。工具
官网给指出来了文件名规则:https://support.10xgenomics.com/single-cell-gene-expression/software/pipelines/2.0/using/fastq-input#wrongname ,若是你的fastq数据不是这样命名,就须要自行更改过来了,我上面截图的就是须要修改的,由于里面混入了AK这样的编号。学习
若是要理解这3个文件的区别,同理,也是须要本身去学习了解10x的原理,我这里就再也不赘述:
-
首先,1-26个cycle就是测序获得了26个碱基,先是16个Barcode碱基,而后是10个UMI碱基;
-
而后,27-34这8个cycle获得了8个碱基,就是i7的sample index;
-
最后35-132个cycle获得了98个碱基,就是转录本reads
使用Cell Ranger
Cell Ranger主要的流程有:拆分数据 mkfastq、细胞定量 count、定量组合 aggr、调参reanalyze,还有一些小工具好比mkref、mkgtf、upload、sitecheck、mat2csv、vdj、mkvdjref、testrun。
可是,大几率上,咱们只须要使用它的定量流程,就是 cellranger count 命令,教程在consult Running 10x Pipelines on FASTQ Files,主要就是须要把软件和配套的数据库文件,以及10x的fastq文件准备好。
以下所示:
bin=../pipeline/cellranger-4.0.0/bin/cellranger
db=../pipeline/refdata-gex-GRCh38-2020-A
fq_dir=../raw/HP4540_2
$bin count --id=HP4540-2 \
--localcores=4 \
--transcriptome=$db \
--fastqs=$fq_dir \
--sample=HP4540-2 \
--expect-cells=5000
是否是超级简单,值得注意的是我把样本名字进行了修改,才成功运行这个 cellranger count 命令。服务器配置不同,这个cellranger count流程运行时间不同,我上面截图的一个样本是60G的fq文件数据走这个流程是5小时。
输出文件超级多,以下所示:
简单介绍以下:
-
web_summary.html:这个是必需要看的,粗略浏览本次10x样本走cellranger count流程的运行质量
-
metrics_summary.csv:CSV格式数据摘要,能够不看
-
possorted_genome_bam.bam:比对文件,超级大的bam文件,能够不看
-
possorted_genome_bam.bam.bai:前面bam文件的索引文件,能够不看
-
filtered_gene_bc_matrices:是超级重要的一个目录,下面又包含了 barcodes.tsv.gz、features.tsv.gz、matrix.mtx.gz,是下游Seurat、Scater、Monocle等分析的输入文件
-
outs/filtered_feature_bc_matrix/matrix.mtx.gz
outs/filtered_feature_bc_matrix/features.tsv.gz
outs/filtered_feature_bc_matrix/barcodes.tsv.gz -
filtered_feature_bc_matrix.h5:过滤掉的barcode信息HDF5 format,能够不看
-
raw_feature_bc_matrix:原始barcode信息,能够不看
-
raw_feature_bc_matrix.h5:原始barcode信息HDF5 format,能够不看
-
analysis:数据分析目录,下面又包含聚类clustering(有graph-based & k-means)、差别分析diffexp、主成分线性降维分析pca、非线性降维tsne,由于咱们会本身走Seurat、Scater、Monocle等分析,因此这个也不看。
-
molecule_info.h5:进行aggregate使用的文件,能够暂时不看
-
cloupe.cloupe:官方可视化工具Loupe Cell Browser 输入文件,咱们一般不须要可视化软件,能够不看
10X单细胞转录组免费分析
我最近成功招募了几个实习生,因此能够继续开启免费数据分析活动啦。其实数据分析对我来讲其实就没有成本,无非就是跑一下流程,关键是沟通起来太费劲,你们只须要把10X单细胞转录组的fq数据给到我,我就免费给你们跑流程,以及出几百个图表给到你。可是我不会给你解释任何细节知识点,也不要试图添加我微信哈,绝大部分生信技能树粉丝都没有机会加我微信。已经屡次满了5000好友,因此我开通了一个微信好友,前100名添加我,仅需150元便可,3折优惠期机会不容错过哈。个人微信小号二维码在:0元,10小时教学视频直播《跟着百度李彦宏学习肿瘤基因组测序数据分析》
我会安排实习生去给你解释个人10X单细胞转录组的结果和图表,固然了,你也能够本身学,课题设计能够看咱们之前的教程:
还有:使用seurat3的merge功能整合8个10X单细胞转录组样本 和 seurat3的merge功能和cellranger的aggr整合多个10X单细胞转录组对比 。
技术细节能够看:
-
10X scRNA免疫治疗学习笔记1-前言 -
10X scRNA免疫治疗学习笔记-2-配置Seurat的R语言环境 -
10X scRNA免疫治疗学习笔记-3-Seurat标准流程 -
10X scRNA免疫治疗学习笔记-4-细胞亚群的生物学命名 -
10X scRNA免疫治疗学习笔记-5-差别分析及可视化 -
10X scRNA免疫治疗学习笔记-6-marker基因的表达量可视化 -
10X scRNA免疫治疗学习笔记-7-条条道路通罗马—单细胞分群分析
另外,我创立了《单细胞天地》这个公众号,而且制做了两个视频:
全网第一个单细胞课程(免费基础课程)
-
免费学习地址在B站:https://www.bilibili.com/video/av38741055 ,欢迎提问弹幕交流! -
务必听课后完成结业考核20题:https://mp.weixin.qq.com/s/lpoHhZqi-_ASUaIfpnX96w -
课程配套资料文档在:https://docs.qq.com/doc/DT2NwV0Fab3JBRUx0
技能树出品的第二个单细胞课程(进阶课程,仍然免费)
-
详情请自行阅读介绍 https://mp.weixin.qq.com/s/bLfO-8ri_SNUepGs4UwRQw -
本课程长期答疑文档,https://docs.qq.com/doc/DT0FxbEpHYU5ZVlpu
由于课程涉及到知识点太多,因此我拆分红为了5个子课程,欢迎B站提问弹幕交流!所有连接是:
-
「生信技能树」单细胞进阶数据处理之文献导读,连接是:https://www.bilibili.com/video/BV17f4y1R7N8 -
「生信技能树」使用10X单细胞转录组数据探索免疫治疗,连接是:https://www.bilibili.com/video/BV1xD4y1S74P -
「生信技能树」单细胞基因组数据拷贝数变异分析流程,连接是:https://www.bilibili.com/video/BV1Yf4y1R75R -
「生信技能树」云服务器处理单细胞转录组数据,连接是:https://www.bilibili.com/video/BV154411Z7DU -
「生信技能树」使用Smart-seq2单细胞转录组数据探索小鼠性腺发育,连接是:https://www.bilibili.com/video/BV1454y1q77Z
也但愿能够帮助到你。
其它数据分析也免费
前面的优秀本科生活动, 已经带领了近100名优秀本科生了解生物信息学相关毕业设计:这120万我就不要了,送给500名优秀本科生,符合条件的继续报名哈!还有《暑期夏令营活动》,虽然没有遇上夏令营大部队,但也算是表达了个人心意。
而后是咱们生信技能树推文里面提到的各类各样的数据分析环节都是我很是有经验的,好比我在lncRNA的一些基础知识 ,和lncRNA芯片的通常分析流程 介绍过的那些图表,以及下面的目录的分析内容 对我来讲是举手之劳,但愿能够帮助到你!
-
转录组数据分析的4个维度认识(数据分析继续免费哦) RNA-seq数据的2个分组差别分析,热图,PCA图,火山图等等 -
根据感兴趣基因看肝癌免疫微环境的T细胞亚群差别 条形图或者箱线图 -
查看感兴趣基因的甲基化水平和RNA表达水平(数据分析免费作)相关性 散点图或者箱线图 -
我不相信kmplot这个网页工具的结果(生存分析免费作) -
单基因GSEA分析策略(数据分析免费作活动继续) -
干扰一个基因而后分析全局基因表达实际上是没法定位该基因完整功能(春节免费数据分析活动继续) -
log与否会改变rpkm形式表达矩阵top的mad基因列表 WGCNA分析免费作 -
甲基化信号值的差别分析也许不该该是看logFC 甲基化信号矩阵差别分析免费作 -
WGCNA获得模块以后如何筛选模块里面的hub基因 WGCNA分析免费作 -
既然能够看感兴趣基因的生存状况,固然就能够批量作彻底部基因的生存分析
仍是老规矩,发送数据分析要求,以及简短的项目描述到个人邮箱 jmzeng1314@163.com 目前只接受邮件这个交流形式,谢谢合做,麻烦用心一点写!
邮件正文最好是加上你是啥时候认识生信技能树的哦,或者其它一些寒暄的话,自我介绍也行。主要是考虑到可能想免费分析数据的朋友不少,因此会根据你的来信,我主观断定一个优先级哦。目前我有20多个愿意长期在个人指导下进行数据探索的学徒,等个人团队扩大到200人,咱们应该是能够作到数据分析所有免费,敬请期待哈!
本文分享自微信公众号 - 生信技能树(biotrainee)。
若有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一块儿分享。