中文 EN

singleron@singleronbio.com
02558165529

原创文章|单细胞转录组数据细胞分类工具比较

发布时间:2019-11-06 09:50:51阅读次数:631
分享到:

新格元原创文章“Evaluation of single-cell classification for single-cell RNA sequencing sets”已正式见刊,对目前可便捷使用的单细胞分类工具进行了系统评估,发表于生物信息学核心期刊《Briefings in Bioinformatics》(IF=9.1)。

微信图片_20200309215230.png

 

文章使用新格元公司GEXSCOPE™单细胞转录组技术平台产生的混合细胞系(Mixed)数据集,以及公共的外周血单细胞(PBMC)数据集和胰腺(Pancreas)数据集,对9个分类工具进行了系统的评估,下面我们就来看看文章的详细内容吧。

 

一、研究背景

细胞类型鉴别作为单细胞转录组测序数据分析的关键步骤,对癌症分型、寻找良好的预后指标等十分重要。传统的细胞分类方法是先将细胞无监督聚类(clustering),然后结合经实验验证且经典的细胞类型特异基因(marker genes),识别聚类所属的细胞类型。但这种方法不适用于日渐增大的单细胞转录组数据集,且需要专业的知识、复杂的步骤和人工操作。

因此,有监督地对单细胞进行自主分类的方法和工具逐渐被开发出来。根据参考数据集及其中的细胞类型注释信息,有监督分类工具经过“训练”获得判断细胞类型的能力,进而对未知细胞类型的单细胞转录组数据集的单个细胞进行自动分类。但这些分类工具并没有经过系统的比较,研究人员难以确定使用哪个分类工具能更好的进行研究。


二、研究内容

文章使用了3个数据集:新格元公司GEXSCOPE单细胞转录组技术平台产生的混合细胞系(Mixed)数据集,以及公共的外周血单细胞(PBMC)数据集和胰腺(Pancreas)数据集。Mixed数据集作为金标准,是分类工具分类能力的最低限度。公共数据集由于在多篇论文中被用来测试新分类工具的性能,所以可以公平可靠地测试工具的实际应用性能。根据易用性、可行性,从http://www.scrna-tools.org选择了9个分类工具(Table 1.)进行系统公正地评估。这9个工具主要分类两类:基于机器学习(ML)的分类工具和非机器学习(none-ML)的工具。

微信图片_20200309215247.jpg

1.不同工具在数据集中的综合表现

从准确率(Figure 1)来看,在Mixed数据集中,无论是自我预测还是相互预测,几乎所有工具都有较高的预测准确率,说明这些工具可以轻易区分显著不同的细胞类型。对于Pancreas数据集和存在多种相似细胞类型的PBMC数据而言,这些工具表现相对差一些,尤其是预测PBMC中的细胞类型,虽然是自我预测,但准确率依旧较低。对于预测参考集(ref)中不存在的细胞类型,这些工具的表现也不尽人意。总的来说,工具的分类能力受数据集影响较大,而批次效应、实验方案等对分类产生影响较小。

微信图片_20200309215252.png
Figure 1


2.批次效应及细胞数量对分类的影响

随后文章分析了批次效应和参考集中细胞数量对分类的影响。从准确率来看(Figure 2),大部分工具分类性能受批次效应影响较小。而且随着参考集中细胞数量的增加,基于ML方法的工具分类性能明显上升,而其它工具并没有上升趋势,这也符合ML方法在其他分类领域应用的特性。

 

微信图片_20200309215258.jpg


微信图片_20200309215306.jpg

Figure 2


scmapc2c,scPred和scID的分类性能相对较差,虽然他们都有预测ref中没有的细胞类型的能力(即对新类型细胞分配一个“unassigned”标签),但在进一步的分析中我们发现,该功能对识别新细胞类型的效果也较差。除此之外,用类不平衡(class-imbalance)数据集测试工具,我们发现当参考细胞数量增多时,工具在相似细胞之间的识别性能明显上升,而且none-ML方法受class-imbalance影响较小。


三、研究结论

总体来看,目前并没有一个相对完善的工具可以在不同的数据集中,即实现较高准确率,同时兼顾新细胞类型捕捉等要求。相对来说,Seurat,SingleR和CaSTLe在各方面表现的相对较好。实际应用中,我们可以根据性能较好的分类工具的分类结果,通过投票机制筛选出置信度较高的细胞标签,对于不确定细胞类型的细胞,可以用传统的clustering + marker genes策略进行确认。

科学发展日新月异,技术革新从未止步,新的单细胞分类工具正不断被开发出来(http://www.scrna-tools.org)。在单细胞测序应用这片新大陆上,新格元从未停止开发新的实验技术和数据分析方法的脚步,期待与您共同合作、共同进步,开创属于单细胞测序应用和精准医疗的新时代!

Copyright © 2019 新格元生物科技有限公司.   流量统计 苏ICP备19004238号-1 网站维护:华科互动