“癌细胞变形记”：单细胞结合人工智能揭开癌症可塑性的神秘面纱

随着单细胞技术的迅猛发展和广泛应用，我们对癌细胞的异质性、其与周围微环境的相互作用，以及对癌症生物学的理解都日益加深。近年来，肿瘤微环境中的细胞类型已成为研究人员的关注热点。然而，越来越多的证据表明，癌细胞的可塑性在癌症演进和临床结果中扮演着关键角色。遗传因素在癌细胞状态可塑性中的作用已得到大量证实，转录组学和表观遗传学机制的作用证据也日益增加[1,2]。

癌细胞的可塑性是由遗传、转录和表观遗传学机制共同作用，促进细胞状态连续转换的结果[3] 。癌细胞状态的可塑性导致了不同的生物学行为，某些特定的细胞状态或状态转变与肿瘤进展和治疗反应密切相关。随着单细胞检测技术的发展，我们现在可以对单个癌细胞的这些特征进行大规模测量。然而，这些数据的高维度、基因组特征之间复杂的关系，以及对定义癌细胞状态的基因组概况缺乏精确的了解，为使用人工智能方法描绘癌细胞状态的景观提供了机遇。细胞状态的可塑性对癌症表型的影响，如治疗抗性、转移和休眠，往往被基于数百万个细胞平均信号的“批量”基因组数据分析所掩盖。

单细胞技术通过生成肿瘤生态系统的高维细胞景观、量化单个细胞的基因组特征，并创建更详细的模型来研究癌症的可塑性，从而有效地解决了这一问题（《基因组研究》31:1719, 2021; 《癌症生物学研讨会》53:48-58, 2018; 《信号转导与靶向治疗》5:1-36, 2020）。与此同时，人工智能方法的快速发展也带来了许多可用于研究癌细胞可塑性的工具。

1. 静态模型——创建细胞状态的全景图

单细胞技术产生的数据具有几个显著特点，这些特点为数据分析带来了挑战：数据结构是高维的，涉及数万个细胞中成千上万个基因的表达信息；此外，数据通常是稀疏的，每个细胞的基因表达矩阵中充斥着大量非表达基因的“零”值。这些特性表明，传统的数据可视化和降维技术并不适用。“流形学习”已经成为分析和可视化单细胞数据的一种标准技术，它通过一系列非线性降维方法，将高维细胞数据映射到低维的“流形”空间中，从而保留数据的局部结构和全局关系。

1.1 常用聚类方法UMAP

目前，均匀流形逼近和投影（UMAP）是应用于单细胞数据的最常见流形学习技术之一。UMAP主要作为可视化工具，它能够改善二次分析，如细胞聚类和注释，从而帮助调查可能的未知或未表征的细胞状态。聚类一直是识别癌细胞状态群体及肿瘤微环境中细胞状态的常用方法。然而，应用聚类时需要仔细考虑下游分析，因为不同细胞类型可能会聚集在一起，从而被错误注释为单一细胞类型。这导致生物信息被掩盖，限制了对细胞状态变化的表型影响的二次分析。一个解决方案是在“每个单元格”基础上对单元格进行注释，这能够解决许多挑战，但通常需要参考映射来对齐数据。

2. 动态模型——单细胞状态轨迹预测分析

尽管静态模型能够捕获细胞基因组状态的快照，人工智能模型已经被开发出来以推断细胞状态的轨迹——即估计细胞状态的未来变化。

2.1 Monocle 轨迹分析

Monocle是最早用于推断细胞轨迹的算法之一，它利用单细胞RNA测序（RNA-seq）数据识别基因表达在细胞状态转换过程中的变化，并计算每个细胞的伪时间轨迹。

2.2 RNA velocity

自2014年发布以来，已经开发出新的方法来改进生物系统的轨迹分析。推断细胞状态转换的概率或速度的过程称为细胞速度分析。基于RNA速度框架开发的软件，如Velocyto和scVelo，模拟RNA的成熟过程，以预测细胞状态转变的速率。RNA速度算法常用于研究癌细胞的细胞状态轨迹，从而提高我们对肿瘤系统的理解。一个重要的贡献是谱系估计，它被用来识别癌症亚型之间恶性细胞谱系的差异。准确识别分化谱系可以成为预测肿瘤特异性特征（如进展和治疗耐药性）的有用临床工具。胶质母细胞瘤是一个明显的例子，研究者可以从单细胞数据中估计细胞状态和动态谱系轨迹，并推断由特定细胞状态引起的癌细胞发育过程。

从概念上和实践上来讲，多种学习技术都能很好地应对理解癌细胞状态可塑性的挑战，因为它们能够表示细胞的非线性和连续景观。癌症可塑性模型利用这些信息，通过将细胞置于n维景观中来研究癌细胞状态的景观。基于细胞状态转换的概念，可以分析细胞的基因组图谱，以预测它们从一个景观位置移动到另一个位置的可能性。这种分析还可以扩展到考虑细胞在这个景观中的空间，其中细胞代表“稳定状态”，稳定状态之间的过渡通道则代表细胞状态变得可塑性的路径。

3. 深度学习：生物学功能推断

深度学习技术是人工智能的一个分支，其应用改善了细胞状态的识别和状态转移的推断。应用深度学习算法早期的挑战在于深度学习算法能否扩展到单细胞数据的规模和维度。随着软件和硬件的改进，以及算法的并行化，这一挑战在很大程度上得以克服，如人工神经网络（ANNs）和知识启动神经网络（KPNNs）。尽管在图像识别、语音识别、自然语言处理、棋盘和计算机游戏、自动驾驶等多个领域，使用人工神经网络的深度学习已经达到了前所未有的复杂任务预测性能，但经过训练的人工神经网络通常缺乏可解释性，即无法提供人类可理解的高级解释，说明它们如何将输入（预测属性）转换为输出（预测类值）。

图1：KPNN与ANN的结构网络比较分析

3.1 知识启动神经网络(KPNNs)

这种可解释性的缺失是深度学习在生物学和医学中广泛应用的主要限制因素，因为它降低了在临床诊断等高风险应用中对这种预测的信任和信心，并且错失了利用深度学习进行数据驱动生物学发现的重要机会。KPNN作为一种结合了深度学习预测能力和生物网络可解释性的方法，能够解释细胞状态下基因信息的流动[4]。在知识启动神经网络中，模型中的每个节点对应于一个基因或蛋白质，每条边缘则对应于在注释数据中观察到的调节关系。权重可以基于生物学先验知识，例如估计调控的重要性，如转录因子或信号蛋白在生物学问题中的重要性。这种方法已被用于研究肿瘤系统，并在单细胞数据中进行了演示，验证了深度学习技术在利用癌细胞状态可塑性解读肿瘤异质性方面的巨大潜力。

图2：基于KPNN的可解释深度学习

总而言之，KPNN的网络结构不同于一般的人工神经网络，它结合了生物网络的关键特性，如稀疏模块化架构和跳过层次的快捷方式。KPNN的自由参数更少，可以通过深度学习进行优化。此外，KPNN中的每个节点和每个边都有相应的生物学解释。因此，KPNN的特征网络结构有利于其生物学可解释性[4]。

3.2 KPNNs推断T细胞受体刺激的调节模型

使用优化的学习方法训练TCR KPNN时，基于单细胞RNA-seq数据对TCR刺激和未刺激的Jurkat细胞进行训练，获得了很高的预测精度(图3a)，与在KPNN和ANN上进行的一般深度学习的预测精度相当。此外，的确观察到训练后的KPNN模型在生物学可解释性方面的预期提升(图3b-d)。

图3：T细胞受体(TCR)刺激的KPNN分析

3.3 KPNN在单细胞RNA-seq数据的可解释深度学习中广泛应用

在模拟数据和TCR数据集上建立并验证KPNN后，为应用于更广泛的生物学问题，从人类细胞图谱和其他来源获得了最近发表的癌症和免疫细胞的单细胞RNA-seq数据集，并且推导出一个广义KPNN，该KPNN不需要预先了解与感兴趣的生物系统相关的受体和信号通路(与TCR KPNN不同，后者的T细胞受体活性被先验指定为输出节点)。由此产生的“GEN KPNN”将公共数据库中的细胞表面受体、信号通路和基因调控相互作用整合到一个网络中，该网络可直接用于可解释的深度学习，并与广泛的单细胞RNA-seq数据集兼容。

图4：癌症和免疫细胞的KPNN分析

总结与展望

深度学习方法可以比静态模型更准确地估计细胞的整体景观，并通过扩展技术在该景观中定位每个细胞。自编码器方法最初用于执行质量控制和聚类，但现在已扩展到从单细胞数据中的噪声中“反卷积”生物信号。展示了知识启动神经网络（KPNNs）在单细胞RNA-seq数据的分子解释中的应用，成为一个不断发展且前景广阔的研究领域。此外，鉴于对描述生物机制网络的广泛兴趣，未来期望在生物网络中使用深度学习也将与生物学和医学的其他领域相关，例如分析代谢组/蛋白质组数据、生化反应网络、细胞分化，甚至大脑回路。

【参考文献】

1. da Silva-Diz V, Lorenzo-Sanz L, Bernat-Peguera A, Lopez-Cerda M, Muñoz P. Cancer cell plasticity: impact on tumor progression and therapy

2. Qin S, Jiang J, Lu Y, Nice EC, Huang C, Zhang J, et al. Emerging role of tumor cell plasticity in modifying therapeutic response. Signal Transduct Targeted Ther 2020 5:1. Nature Publishing Group; 2020;5:1–36.

3. Barkley D, Rao A, Pour M, França GS, Yanai I. Cancer cell states and emergent properties of the dynamic tumor system. Genome Res. 2021;31:1719.

4. Fortelny N, Bock C. Knowledge-primed neural networks enable biologically interpretable deep learning on single sequencing data. Genome Biol. 2020;21:190.

关于焕一生物

焕一生物（AliveX Biotech）是中国领先的AI+多组学技术平台公司，拥有端到端干湿实验闭环的多组学实验平台以及AI生物计算平台，包括时空单细胞组学，靶向蛋白组学、代谢/脂质组学等高质量生物检测分析技术以及多组学整合分析、AI建模、知识图谱、疾病药理机制建模等计算技术高效赋能研发。焕一生物拥有国际领先的跨学科院士教授以及产业专家团队，为科研以及药企合作伙伴提供定制化的科研解决方案，包括疾病与药物的机制研究，生物标志物和靶点的发现与评估，患者分层，多模态AI预测，临床试验方案与精准诊疗方案的优化等。焕一生物已服务上百家临床及科研院所和国际大型药企。公司拥有核心技术自主知识产权数十项，并获得国家级高新技术企业认证，美国病理学会CAP认证，ISO9001认证。