洞察市场格局
解锁药品研发情报

免费客服电话

18983288589
试用企业版

机器学习与多组学分析揭示了中国乳腺癌患者的风险分层与治疗靶点

HER2 乳腺癌

乳腺癌是女性肿瘤中发生率和死亡率最高的肿瘤之一,随着乳腺癌精准分子分型及分子靶向治疗的推广,乳腺癌患者预后有所改善,但当前乳腺癌多组学的研究仍具有一定的局限性,包括蛋白组学和代谢组学的研究少、研究队列多为西方人种、样本量不足、缺乏亚洲人群研究数据等。

2024年2月12日,来自复旦大学的研究团队在Nature Cancer(IF=23.5)上发表题为Integrated multiomic profiling of breast cancer in the Chinese population reveals patient stratification and therapeutic vulnerabilities的文章。

该研究应用基因组学、转录组学、蛋白组学、代谢组学等对乳腺癌进行了深入探究,研究人员发现与西方人群相比,HER2富集亚型在中国乳腺癌队列HR+HER2+患者中占比更高,ERBB2扩增也更为常见。代谢组学和蛋白质组学分析发现铁死亡可能是基底样亚型的潜在治疗靶点。此外,该研究利用机器学习整合临床、转录组学、代谢组学、影像组学和病理学特征,能够有效地预测高复发风险患者和低复发风险患者,对于指导个体化治疗、提高治疗效果和预后预测具有重要意义。

中国乳腺癌患者的多组学景观

本研究纳入了773名中国乳腺癌患者,患者于2013年至2014年期间就诊于复旦大学上海肿瘤中心(随访期中位数为83.1个月)。最终获取了653例乳腺癌组织和血液的全外显子测序(WES)数据、685例拷贝数变异(CNA)数据、752例RNA测序数据、278例蛋白质组学和453例代谢组学数据。此外还获得了样本队列的核磁共振影像数据419例及组织病理切片图像626例。

PAM50是基于乳腺癌分子亚型的一种分类系统,通过分析乳腺癌组织中的50个基因表达模式,将乳腺癌分为不同亚型,研究人员应用PAM50分类方法对RNA-seq数据进行亚型分析,发现752例数据中有29.5%为luminal A型、29.4%为luminal B型、19.7%为HER2富集型、14.9%为基底样型、6.5%为正常样亚型。

基因组测序分析发现该队列中最常突变的基因有TP53、PIK3CA、GATA3、MAP3K1、KMT2C、AKT1,其中有约四分之三的基底样型患者存在TP53基因突变,约十分之一的luminal A型患者存在AKT1基因突变。此外,该研究还鉴定了不同亚型患者数据中存在差异表达的mRNA、蛋白质和代谢产物。

中国乳腺癌患者的多组学景观

CBCGA队列存在特异性分子特征

接下来为了进一步探究白人乳腺癌患者队列(TCGA, The cancer genome atlas)和中国乳腺癌患者队列(CBCGA, Chinese Breast Cancer Genome Atlas)的差异,选择了浸润性导管癌病例进行分析,研究人员首先关注了基因组的差异,发现CBCGA队列中AKT1基因的突变频率显著高于TCGA队列,在luminal A亚型中更为显著。

乳腺癌的分子分型可根据病理报告中免疫组化结果中4个指标,即ER(雌激素受体),PR(孕激素受体),Her-2和Ki-67来确定,其中ER和PR可以合称为激素受体(HR)。研究人员进一步对比CBCGA队列和TCGA队列亚型是否差异,结果发现和TCGA队列队列相比,在CBCGA队列HR+HER2+患者中HER2富集型占比更高,且ERBB2基因的高扩增与下游mRNA和蛋白表达显著相关。综上所述,针对HR+ HER2+亚型乳腺癌患者,前期若可确定是HER2富集型,那么选择抗HER2治疗的效果可能会更好。

CBCGA队列的特异性分子特征

多组学联合分析细化乳腺癌亚型分类

为了进一步探究CNA对mRNA和蛋白质水平的影响,进行相关性分析,研究人员发现在不同的亚型中,CNA与mRNA和蛋白质水平的相关性不同。从转录层面到翻译层面,luminal B亚型表现出最大的CNA-mRNA-蛋白顺式效应。通过相似网络融合分析乳腺癌患者转录组和蛋白组学数据,发现可将乳腺癌患者分为4个clusters,其中cluster3的HR+HER2−患者预后更差,cluster3表现为免疫激活状态,免疫治疗可能对该群患者更有效果。

多组学联合分析表征乳腺癌亚型分类

接下来研究人员对代谢组学和脂质组学数据进行了分析,发现了大多数代谢产物主要在肿瘤中富集,肿瘤样本存在代谢失调,不同乳腺癌亚型存在不同的代谢特征,其中基底样亚型具有丰富的铁死亡相关的多不饱和脂肪酸(PUFA)、含有多不饱和脂酰基的磷脂(PL-PUFAs)等,铁死亡相关蛋白在基底样亚型中也发生上调,因此,研究人员认为铁死亡可能是基底样亚型的潜在治疗靶点。

代谢组学分析鉴定乳腺癌亚型的潜在治疗靶点

多组学联合分析表征中国乳腺癌患者的肿瘤微环境异质性

通过对乳腺癌的转录组数据进行分析,研究团队发现了3种肿瘤微环境(Tumor Mircroenviroment, TME)类型,分别用cold、mederate和hot表示,其中cold代表低水平免疫细胞浸润,mederate代表存在基质细胞浸润和一些不活跃的先天免疫细胞,hot代表存在大量适应性免疫细胞和激活的固有免疫细胞。此外,相比其它2个类型,hot TME免疫治疗疗效预测评分最高,应用外部单细胞数据进行反卷积分析和免疫浸润分析等验证了3种肿瘤微环境的稳健性。

通过TCR多样性分析发现和hot TME相比,cold、mederate TME的TCR多样性低,肿瘤细胞可以利用T细胞扩增减少而实现免疫逃逸。不同TME类型的突变基因不同,hot TME主要为TP53、XIPR2和LRP1B,cold TME主要为CSMD1。上述分析为中国乳腺癌肿瘤微环境的异质性研究提供了更深的见解。

多组学联合分析表征中国乳腺癌的肿瘤微环境异质性

通过机器学习整合多模态数据预测乳腺癌患者复发风险

在这项研究中,研究团队利用机器学习技术整合多模态和多组学数据,以全面揭示乳腺癌患者的风险特征。多模态数据包括临床信息(如分期和免疫组化亚型)、影像学特征、病理信息、以及从患者样本中提取的分子层面信息(如转录组和代谢组数据)。整合这些不同来源的数据有助于全面分析疾病的复杂性。

在进行机器学习建模之前,研究人员首先对数据进行了预处理。这包括清理和标准化数据,以便使不同的数据类型更具可比性。通过相关性分析筛选特征时,只保留皮尔森相关系数大于0.6的特征。为了进一步简化模型,研究团队还通过方差分析,从每种数据类型中挑选出最显著的五个特征。这一过程有助于去除噪声和冗余信息,使模型更专注于真正与疾病复发相关的变量。

为了确保模型的稳健性和泛化能力,研究人员将数据分成训练集和测试集。其中,训练集包含118位患者的数据,用于模型的学习和调参;测试集包含80位患者的数据,用于评估模型的最终表现。

在训练模型时,团队采用了集成模型的策略。这一模型组合了三种生存分析模型算法,包括Cox比例风险模型(用于探索特征与生存期的线性关系)、随机生存森林模型(可以处理非线性关系和复杂的特征交互)和生存支持向量机模型(适合处理高维数据)。这种多模型集成策略的优势在于,它可以平衡不同算法的优缺点,从而构建一个更全面、准确的预测模型。

为了进一步提高模型的预测准确性,研究人员使用了5倍交叉验证。这种方法可以防止模型过拟合(即模型过度依赖训练数据,导致在新数据上的表现较差)。在5倍交叉验证中,研究人员将训练集分成5个小的子集,每次选择一个子集作为验证数据,剩余的用于训练。

这种反复试验的过程可以优化模型的参数,使其在不同的数据子集中表现出一致性。经过几轮优化后,选择了表现最优的模型参数,以确保模型在测试集上也能有较好的预测效果。最终的集成模型被称为TMPIC(假设模型名称),它能够将乳腺癌患者分为高复发风险组和低复发风险组。模型在测试集上的验证表明,其具有较高的预测准确性,有助于识别那些有较高复发风险的患者。

通过机器学习整合多模态数据预测乳腺癌患者复发风险

总结与展望

本研究创新性地将多组学和多模态数据与机器学习相结合,可有效地区分高复发风险和低复发风险乳腺癌患者,为个体化治疗提供了依据。同时该研究也发现了亚洲人群乳腺癌的一些独特生物学特征,为进一步优化临床管理策略提供了重要启示,未来需要进一步验证这些发现,并探索更多针对性的治疗方法。

【参考文献】

Jiang, YZ., Ma, D., Jin, X. et al. Integrated multiomic profiling of breast cancer in the Chinese population reveals patient stratification and therapeutic vulnerabilities. Nat Cancer 5, 673–690 (2024). 



关于焕一生物

焕一生物(AliveX Biotech)是中国领先的AI+多组学技术平台公司,拥有端到端干湿实验闭环的多组学实验平台以及AI生物计算平台,包括时空单细胞组学,靶向蛋白组学、代谢/脂质组学等高质量生物检测分析技术以及多组学整合分析、AI建模、知识图谱、疾病药理机制建模等计算技术高效赋能研发。焕一生物拥有国际领先的跨学科院士教授以及产业专家团队,为科研以及药企合作伙伴提供定制化的科研解决方案,包括疾病与药物的机制研究,生物标志物和靶点的发现与评估,患者分层,多模态AI预测,临床试验方案与精准诊疗方案的优化等。焕一生物已服务上百家临床及科研院所和国际大型药企。公司拥有核心技术自主知识产权数十项,并获得国家级高新技术企业认证,美国病理学会CAP认证,ISO9001认证。

<END>
*版权声明:本网站所转载的文章,均来自互联网,旨在传递更多信息。鉴于互联网的开放性和文章创作的复杂性,我们无法保证所转载的所有文章均已获得原作者的明确授权。如果您是原作者或拥有相关权益,请与我们联系,我们将立即删除未经授权的文章。本网站转载文章仅为方便读者查阅和了解相关信息,并不代表我们认同其观点和内容。读者应自行判断和鉴别转载文章的真实性、合法性和有效性。
综合评分:0

收藏

发表评论
评论区(0
    添加收藏
      新建收藏夹
      取消
      确认