单细胞分析实录(1): 认识Cell Hashing

这是一个新系列code

差很少是一年之前,我定导后没多久,接手了读研后的第一个课题。合做方是医院,和我对接的是一名博一的医学生,最开始两边的老师很排斥常规的单细胞文章思路,即各大类细胞分群、注释、描述,因此起初的几个月都在摸索一条主线,再后来有主线了,要加实验验证,周期有点长。我这边的分析基本作完。读研生活还在继续,我也不能太在乎这一个课题,尽管有些时候我也很着急,尽管我在这个课题上花了不少时间。整理分析流程是个好习惯,最大的受益者仍是本身,因此接下来我打算把我在处理单细胞转录组过程当中,学到的用到的全部技能以这样的形式写出来,估计有二三十篇吧~orm

我想先从Cell Hashing这样一种改良的单细胞测序技术开始blog

1. CITE-seq

事实上Cell Hashing是在CITE-seq的基础上改进的,CITE-seq全称cellular indexing of transcriptomes and epitopes by sequencing,是一种同时对细胞内RNA和细胞表面蛋白进行测序的技术。ip

测序原理如上图,将特定的抗体连上一段序列,序列上包含与抗体信息对应的antibody barcode,像右上方表格同样,还包含一段ploy-A。该抗体复合物和细胞共培养后,细胞表面就会连上一些抗体,某种蛋白分子越多,连上的抗体就会越多。过流式以后,裂解细胞,断开二硫键,此时细胞内的RNA和抗体复合物来源的序列都会连到磁珠上,像右下图那样,这两种类型的序列长度不一样,能够分开建库,调整核酸浓度,以确保二者都有合适的测序深度。ci

因此这样一种技术,除了提供转录组的信息,还提供了部分蛋白的信息。正如做者所说,多模态数据应用得愈来愈多。
支持cite-seq的R包去年看的时候,我知道有Seurat和CiteFuse,CiteFuse今年发表在Bioinformatics。hash

2. Cell Hashing

Cell Hashing和CITE-seq的测序原理基本同样,只是换了一个应用场景。它解决的问题是:如何将不一样样本的细胞混起来测序(便宜),测完了还能区分哪一个细胞来源于哪一个样本,这样作也减小了批次效应。it

标题里面提到了doublet检测仅针对来源于两个样本的doublet,不是指不一样cell type的doubletio

背景中提到了另外一种解决这类问题的方案就是提供样本的遗传多态性信息(单细胞数据比对后也能获得部分信息,和已知的样本信息比较,就能知道细胞来源于哪一个样本了),固然这个信息不那么容易获取。form

如图,不一样的样本有不一样的antibody barcode。基础

实验过程如上图,在选择抗体时,尽可能选择普适的抗体,好比CD45,免疫细胞都表达。是用一种仍是多种无所谓(原文用了4种,CD45, CD98, CD44, and CD11a),只要保证antibody barcode与样本对应便可。

原文提供了针对cell hashing数据的拆分方法,这是对应的两个图。B图中的一个点和C图中的一列表示一个液滴(或者理解为一个cellular barcode)。正常状况下,一个液滴里面只有一个细胞,那么对应的样本tag (HTO) 只有一个,也就是只有一个tag有UMI,其余tag的UMI应该为0,否则就是doublet或者空的液滴(negative)。

3. Cell Hashing测序的拆分原理

一般咱们在完成测序数据比对后,能获得一个表达矩阵,行为gene列为细胞,而cell hashing的数据,比对后获得的是行为gene+tag,列为细胞。上图给出的tag x cell的一个例子,咱们利用的是这个矩阵来断定每一个细胞属于哪一个样本。

  • 第一步是对UMI矩阵标准化,式子里的i表示第几行,n表示样本(tag)的总数;
  • 第二步是粗分类,最后一类要么是8个UMI都和高,要么都很小;

  • 第三步,假设第9类细胞的tag x cell矩阵每一行都服从负二项分布,根据观测值拟合以后,求0.99分位数,据此来判断某一个值是positive仍是negative;
  • 第四步,一列一列看,若是只有一个positive,说明是有效的CB,根据较大的HTO归到对应的样本里去;两个或多个positive则是doublet;没有positive则是空液滴。

预告

  • 下篇写如何从测序数据获得表达矩阵,普通10X以及cell hashing数据都适用
  • 下下篇写cell hashing数据拆分实战,用seurat和citefuse两种方法

因水平有限,有错误的地方,欢迎批评指正!