单细胞轨迹分析知多少--拟时间分析比较

来源: 安诺基因   2020-1-8   访问量:1295评论(0)

轨迹推断(TI,trajectory inference)可以根据测序细胞之间表达模式的相似性对单细胞沿着轨迹进行排序,以此来模拟细胞动态变化的过程,是单细胞研究应用中一种常用且重要的方法,轨迹推断也常被称作拟时间分析(pseudotime analysis)。

近几年,已研发了大量的轨迹推断(后续简称TI)方法,在omictools.com[1]、awesome-single-cell[2]、scRNA-tools.org[3]、single-cell-pseudotime[4]4个收录单细胞工具的库中,可进行TI分析的工具占大多数。

新用户往往在选择TI方法时非常迷茫,虽然大多数人选择了引用率较高的Monocle2[5]做TI分析,但是Monocle2的结果不能令人满意,或无法解决大数据集项目的TI分析。不同的数据集可能对应不同的轨迹模型(线性的、分叉、树形、循环图、不连续图),繁多的TI方法在性能、可扩展性和可用性上存在差异,各有优劣。

2019年发表在Nature Biotechnology的一篇文章A comparison of single-cell trajectory inference methods[6]对45种TI方法在110个真实数据集和229个合成数据集中进行了全面比较,评估了TI方法的准确性、可扩展性、稳定性和可用性四个方面。

1578451229349037.jpg

结论1

文章的研究评估发现,当前TI方法之间存在很大的互补性,根据数据集的特性不同,最佳选择的TI方法也不同;

结论2

基于评估的结果,作者制定了一套准则,以帮助用户为自己的数据集选择最佳方法(http://guidelines.dynverse.org);

结论3

开发了一个R包--dyno[7],把文章中测试过的TI方法进行了封装,目前已封装了55种,允许用户根据guidelines.dynverse推荐的方法,自由选择进行TI分析,dyno采用统一的输入,同时也对不同TI方法的输出做了统一。

不得不说dyno[8]真的很吸引人,一个R包就解决了那么多TI包的安装和使用问题,可以让用户在自己项目的数据集上方便的尝试多种TI方法,所有TI方法的输入统一成一种格式,提供了统一的可视化模式,方便用户比较不同TI方法在自己项目数据集上的表现。


不同TI方法的比较策略

1578451702501079.jpg

 

为使不同TI方法的输出彼此之间可直接对比,作者开发了一个通用的概率模型表示来自所有可能来源的轨迹,如上图所示。在这个模型中:

1. 整体拓扑结构由里程碑网络表示

细胞被放置在每组相互连接的里程碑所形成的空间内;

2. 不同TI结果标准化归类输出

几乎每种TI方法都返回一个唯一的轨迹结果,作者总结了TI方法的结果,把这些结果分为7个不同的公共轨迹模型,如下图。

1578452408578875.jpg

对每一种TI方法的结果做归类,假如一组数据用某一种TI的结果被归为了Branch assignment,就把这种TI方法的分析结果转化成统一的Branch assignment类标准的公共轨迹模型输出。

1578452442814287.jpg

这个通用模型可以对任何TI方法产生的轨迹模型执行通用分析功能,例如轨迹的可视化及与黄金数据集结果的比较。

3. 不同TI方法归类

TI方法之间最大区别在于:是否固定拓扑。作者定义了7种可能的拓扑类型,从最基本的拓扑(线性,循环和分叉)到更复杂的拓扑(连通图和非连通图)。大多数TI方法要么着重于推断线性轨迹,要么将搜索范围限制在树或较不复杂的拓扑中,只有少数尝试推断循环或不连续的拓扑,不同TI方法的轨迹模型分类如下图所示。

1578452548969631.jpg


四个核心方面评估

作者从四个核心方面评估了每种方法,分别是1)在110个真实数据集和229个合成数据集上给出金或银标准的情况下,预测的准确性;2)关于细胞和特征(例如基因)数量的可扩展性;3)对数据集进行二次采样后预测的稳定性;4)工具在软件、文档和手稿方面的可用性。

作者发现大多数TI方法在这四个评估标准之间存在很大差异,只有少数方法(例如PAGA,Slingshot和SCORPIUS)比较均衡,以下为大家详细介绍四个核心方面评估。

1578452659688716.jpg

 

 

1. 准确性评估(Accuracy)

为了将TI方法的结果与先验的参考轨迹进行比较,作者定义了几个度量标准:

1578452763189894.jpg

 

metric

1)HIM score:考虑了边长和度分布(度-degree 是指网络/图中一个点的与其他点的连接数量,度分布-Degree Distribution 就是整个网络中,各个点的度数量的概率分布)的差异,评估了两种拓扑之间的相似性;

2)F1 Branches assesses:将细胞分配到分支的相似性;

3)Cell positions:通过计算成对测地距离之间的相关性,来量化两个轨迹之间的细胞位置相似性;

4)Features (genes):特征量化了从已知轨迹到预测轨迹的轨迹差异表达特征之间的一致性。


dataset source

测试数据由229个合成数据集(提供最精确参考轨迹)和110个真实数据集(提供最高生物学相关性)组成。

110个真实的数据集[9]来自各种单细胞技术、生物体和动态过程,并包含几种类型的拓扑轨迹。作者把做测试用的真实数据集做了两个分类:

Gold standard:参考轨迹是通过细胞分选或细胞混合而来,不是从表达数据本身中提取;

Silver standard:gold standard之外的数据集;

作者使用4个不同的合成数据模拟器合成了229个合成数据集,对于每种模拟,作者都使用一个真实的数据集作为参考,以匹配其尺寸,差异表达基因的数量,丢弃率和其他统计特性;

dyngen:用来模拟细胞调控网络github.com/dynverse/dyngen;

dyntoy:缩减空间中表达的随机梯度github.com/dynverse/dyntoy • PROSSTT:从线性模型中抽取表达式,该模型取决于拟时间;

Splatter:模拟不同表达状态之间的非线性路径。


trajectory type

作者发现TI方法性能在各个数据集之间的表现变化很大,这表明没有一种通用的方法适用于每个数据集。

1578452890799251.jpg

不同数据集来源之间的总体得分与包含金标准的真实数据集的得分具有中等至高度相关性(斯皮尔曼等级相关性在0.5-0.9之间),从而确认了金标准轨迹的准确性以及合成数据的相关性。

1578452960295407.jpg

不同的指标(metric)经常彼此不一致,Monocle和PAGA Tree在拓扑分数上得分更高,而其他方法(例如Slingshot)则在细胞排序并将它们放入正确的分支方面更好。TI方法的性能在很大程度上取决于数据中存在的轨迹类型,Slingshot通常在包含更简单拓扑的数据集上表现更好,PAGA,pCreode和RaceID/StemID在具有树状或更复杂轨迹的数据集上得分更高。

1578453013827500.jpg

这种情况反映在每种方法检测到的拓扑类型中,因为Slingshot预测的拓扑倾向于包含较少的分支,而PAGA,pCreode和Monocle DDRTree检测到的拓扑倾向于更复杂的拓扑。

1578453072606356.jpg

 

因此,这些分析表明,对于大多数TI方法而言,检测正确的拓扑仍然是一项艰巨的任务,因为就数据中拓扑的复杂性而言,目前的TI方法往往过于乐观或过于悲观

数据集之间的高度可变性以及不同TI方法检测到的拓扑结构的多样性可能表明不同TI方法之间存在一定的互补性,为了测试这一点,作者计算了仅使用所有TI方法的子集时获得顶级模型的可能性,顶级模型被定义为获得的总得分高于最优模型得分的95%。

在所有数据集上,只使用一种TI方法(PAGA Tree)的情况下,有27%可能性获得顶级模型。

1578453161436796.jpg

以上获得顶级模型的方法组合是一组相对多样化的方法,其中包括严格的线性或循环方法,以及具有广泛轨迹类型范围的方法,例如PAGA,在仅包含线性,分叉或多分支轨迹的数据上,作者发现顶级方法之间具有相似的互补性迹象。

1578453215286989.jpg

 

2. 可扩展性评估(Scalability)

早期TI方法构建时的测试数据集在1000个细胞左右,但是现在随着10X等高通量单细胞技术的普及,这些TI方法经常需要处理几万个细胞,甚至在未来有处理上千万细胞的需求,随着单细胞多组学技术的发展(10X ATAC等),每个细胞的需要处理的特征(gene|peak等)也越来越多。所以作者评估了目前的TI方法在处理细胞数、特征数(gene)性能的扩展。

扩展对运行时间的影响

作者发现,大多数TI方法的可扩展性很差,大部分图和树的方法无法在一小时内在具有10k个细胞和几千个特征(gene)的数据集上完成,这是典型的10X等基于液滴的单细胞数据集大小。

随着细胞数量的增加,运行时间进一步增加,只有少数几个方法(PAGA、PAGA Tree、Monocle DDRTree、Stemnet and GrandPrix)可以在1天内处理完100万细胞的分析。当处理大量特征的数据集时,某些方法(例如Monocle DDRTree和GrandPrix)也会遇到运行时间较长的情况。

运行时间短的TI方法具有的两方面特征

相对于细胞/特征,它们具有线性的时间复杂度。添加新的细胞/特征导致时间增加相对较低。作者发现,在所有方法中,有超过一半的方法具有相对于细胞数量的二次或超二次复杂度,这将使得很难在合理的时间范围内将这些方法中的任何一种应用于细胞量超过1000的数据集。

2.4.jpg

 

扩展对运行内存的影响

大多数TI方法都具有合理的内存消耗。但是,对于细胞数比较多的数据集而言有一些方法(RaceID / StemID、pCreode和MATCHER)内存需求非常高,对于Monocle DDRTree、SLICE 和 MFA来说,特征值比较多时会消耗比较大的内存。

2.5.jpg

数据集大小是选择合适方法的重要因素,在TI方法开发的时候应该更加注意保持合理的运行时间和内存使用率。

3. 稳定性评估(Stability)

TI方法不仅要能够在合理的时间范围内推断出准确的模型,而且要在给定非常相似的输入数据时生成相似的模型。为了测试每种方法的稳定性,作者对10个数据集的子集(95%细胞,95%特征)测试了每种方法,并评估每对模型之间的平均相似性和轨迹的准确性。考虑到通过算法或通过参数固定拓扑的方法的轨迹已经受到很大的限制,因此可以预料,这种方法会产生非常稳定的结果。在具有自由拓扑的方法之间,稳定性更加多样化。Slingshot产生的模型比PAGA(树)更稳定,而PAGA(树)又比pCreode和Monocle DDRTree更稳定。

4. 可用性评估(Usability)

1578453755162822.jpg

尽管可用性评估与推断轨迹的准确性没有直接关系,但一个TI方法能不能被评估实施以及对生物学用户的友好度也很重要。

 

作者对每种方法的软件包装、文档、自动代码测试以及发布的期刊做了评估,发现大多数方法都满足基本标准,例如教程的可用性和基本代码质量标准,新方法的质量得分比旧方法好,以下几个方面几乎所有的TI方法在某些方面多少有些不足,包含Availability、Behaviour、Code assurance、Code quality、Documentation、Paper,只有两种方法(Slingshot和Celltrails)具有近乎完美的可用性评分,可以用它们作为未来新方法开发的参考。

 

以上是本期分享,明天将为大家分享“TI方法选择指导原则”,敬请期待~


参考文献

[1] omictools.com: http://omictools.com
[2]awesome-single-cell:https://github.com/seandavi/awesome-single-cell
[3] scRNA-tools.org: https://scRNA-tools.org
[4] single-cell-pseudotime: https://github.com/agitter/single-cell-pseudotime
[5] Qiu et al., 2017: https://www.nature.com/articles/nmeth.4402
[6] Saelensetal., 2019: https://www.nature.com/articles/s41587-019-0071-9
[7] dyno: https://github.com/dynverse/dyno
[8] dyno: https://github.com/dynverse/dyno
[9] 110个真实的数据集: https://static-content.springer.com/esm/art%3A10.1038%2Fs41587-019-0071-9/MediaObjects/41587_2019_71_MOESM4_ESM.xlsx



安诺基因   商家主页

地址:北京市亦庄经济技术开发区,科创六街生物医药园B1-B2栋,安诺优达
联系人:裴博士
电话:4008-986-980
传真:010-56315338
Email:service@genome.cn