洞察市场格局
解锁药品研发情报

免费客服电话

18983288589
试用企业版

Cell子刊|基于机器学习筛选并用大规模样本验证用于早期诊断结直肠癌的血清外泌体蛋白质组特征

CEA CA19-9 结直肠癌

结直肠癌(CRC)的早期诊断对提高患者生存率至关重要,但现有的结肠镜检查、癌胚抗原(CEA)和糖类抗原19-9 (CA19-9)检测等CRC诊断方法具有一定的局限性,如有侵入性、敏感性不足等。近年来利用血液中细胞外囊泡(EVs)进行肿瘤诊断的液体活检技术因无创、灵敏度高等优点受到广泛关注。然而,血清细胞外囊泡(EVs)作为诊断CRC的非侵入性生物标志物的潜力仍不明确。

中山大学黄智坚、杨峥 、深圳市人民医院袁小澎共同通讯在Cell Reports Medicine在线发表题为“Machine learning-based analysis identifies and validates serum exosomal proteomic signatures for the diagnosis of colorectal cancer”的研究论文,该文章的第一作者为深圳市人民医院尹浩帆、中山市人民医院谢晋烨和中山大学肿瘤防治中心邢珊。该研究确定了CRC患者血清EVs中关键的蛋白质组学特征,并建立了一个有希望用于临床CRC诊断的EVs相关随机森林模型。


研究人员采用了深度的4D-DIA蛋白质组学和机器学习(ML)流程,从37例参与者(25CRC12例健康对照HC)的发现队列的血清EV样本中鉴定出可用于CRC诊断的关键蛋白质PF4和AACT。通过ELISA方法在912例受试者组成的验证队列中进行验证,发现PF4和AACT的检测结果优于传统生物标志物CEA和CA19-9。他们开发了诊断效能高的EV相关随机森林模型,在训练集和测试集的AUC值分别为0.960和0.963。值得注意的是,该模型对早期CRC以及CRC与良性结直肠疾病的鉴别具有可靠的诊断性能。此外还采用多组学方法预测血清EV来源蛋白的功能和潜在来源。



研究路线图:



研究对象患者的临床病理特征:



主要研究结果

1:通过4D-DIA 蛋白质组学分析鉴定和表征HC CRC 患者血清EV

(A)分离的EVs的粒径分布和颗粒浓度。

(B)Western blot 在血清EV 中检测到EV 标志物CD63 和TSG101。GRP94和 calnexin用作阴性对照蛋白。

(C)TEM 图像显示了分离的EVs 的形态。

(D和 E)CRC组和 HC 组之间EVs 的 差异表达蛋白由火山图 (D, p < 0.05, log2fold change > 0.5, n = 37)和热图 (E)展示。

(F-I)上调蛋白富集分析显示,与HC 组相比,CRC组富集了潜在的分子功能 (F) 、 细胞成分 (G) 、生物过程 (H) 和 KEGG通路 (I)。




2:通过机器学习筛选EV 来源的生物标志物以进行CRC 诊断

(A和 B)通过正交偏最小二乘判别分析(OPLS-DA) 分析,评分图 (A) 和散点图 (B)显示基于4D-DIA 蛋白质组学的CRC 和 HC受试者之间的显著区分。

(C)通过使用预测变量投射重要性 (VIPpred) 分析,根据 VIPpred scores >4选择的12 种候选蛋白。

(D)条形图显示了分类误差在基于不同算法的机器学习诊断模型中的价值。

(E)可变重要性评分图显示了随机森林诊断模型中12 种候选蛋白的贡献度。

(F和 G)基于4D-DIA 蛋白质组学的Lasso 回归分析和预后基因的部分似然偏差。最小标准和1-standard error (1SE)  标准用于在变量的最佳值处绘制垂直虚线。

(H)Venn图显示了来自随机森林模型和基于最小标准和1SE 标准的Lasso 回归模型的候选蛋白质的交集。

(I和J)基于PF4、AACT水平以及结合PF4和AACT水平的4D-DIA蛋白质组学的随机森林诊断模型的ROC曲线(I)和PR曲线(J)。




:扩展队列中 PF4 AACT 的异常水平

(A和B)通过ELISA检测EV来源PF4水平,在健康对照组(HC,训练集:n = 96,测试集:n = 112)、良性结肠病(BCD,训练集:n = 47,测试集:n = 55)和结直肠癌(CRC,训练集:n = 195,测试集:n = 161)组的结果分别展示在训练集(A)和测试集(B)中。

(C和D)通过ELISA检测EV来源AACT水平,在HC、BCD和CRC组的训练集(C)和测试集(D)中的结果。

(E和F)在CRC患者不同临床阶段的EV来源PF4水平,训练集(E,I期:n = 22,II期:n = 48,III期:n = 83,IV期:n = 42)和测试集(F,I期:n = 19,II期:n = 31,III期:n = 47,IV期:n = 64)中的结果。

(G和H)在CRC患者不同临床阶段的EV来源AACT水平,训练集(G)和测试集(H)中的结果。数据以均值± 标准差(SD)表示;n.s.表示不显著,∗p < 0.05,∗∗p < 0.01,∗∗∗p < 0.001。




4: 用于CRC 检测的EV 相关随机森林诊断模型的构建和验证

(A和B)训练集中基于所指定变量的随机森林诊断模型的ROC曲线(A)和PR曲线(B)。

(C)累积局部效应(ALE)曲线描绘了PF4、AACT、CEA和CA19-9的累积局部效应。x轴代表特征值,y轴代表累积局部效应。

(D) Shapley值条形图展示了随机森林诊断模型中每个特征的Shapley值。每个条形代表在区分结直肠癌(CRC)患者和健康对照(HC)方面的平均贡献。

(E)变量重要性得分图显示了随机森林诊断模型中4个变量的贡献。

(F)不同变量组合的随机森林诊断模型的分类误差CE值、AUC值和AUC-PR值。

(G)混淆矩阵展示了273个测试集样本(161个CRC和112个HC)以及158个外部样本(98个CRC和60个HC)通过EV相关诊断模型的预测结果。

(H和I)使用训练集和测试集为EV相关诊断模型绘制的ROC曲线(H)和PR曲线(I)。

(J) 混淆矩阵通过EV 相关诊断模型显示了273 个测试集样本 (161 个 CRC和 112 个HC) 和 158个外部集样本 (98个 CRC 和60 个 HC) 的预测结果。

(K和L)使用训练集和测试集为EV相关诊断模型绘制的ROC曲线(K)和PR曲线(L)。




图5:EV来源的 PF4和 AACT的功能预测

(A和 B)GSEA根据 EV 来源的PF4-high (红色,n = 13) 和 PF4-low(蓝色,n = 12) 表型显示排名靠前的通路。

(C) 在 EV 来源的PF4-low表型中富集的相关通路的Enrichment Map 网络分析。

(D)STRING 数据库分析揭示了PF4 与富集通路中涉及的关键蛋白之间的潜在相互作用。

(E和 F)GSEA根据 EV 来源的AACT-high (红色,n = 13) 和 AACT-low(蓝色,n = 12) 表型显示了排名靠前的通路。

(G) 在 EV 来源的AACT 低表型中富集的相关途径的Enrichment Map 网络分析。

(H)STRING 数据库分析揭示了AACT 与富集通路中涉及的关键蛋白之间的潜在相互作用。




图6:scRNA-seq 分析显示CRC 上皮细胞是EV 衍生的PF4 和AACT 产生的主要来源

(A) 通过 GEO:GSE132465 数据集的单细胞RNA 测序 (scRNA-seq) 分析, UMAP 图显示CRC (n = 23) 和正常 (n = 10) 组织中的细胞类型不同。

(B)Dot plot 图显示了GEO:GSE132465数据集中正常和 CRC组织中 PF4 和AACT 的表达。

(C)Violin plot图显示PF4 和 AACT在 GEO:GSE132465 数据集的正常和CRC 组织中的表达。

(D) 通过 GEO:GSE132257 数据集的scRNA-seq 分析,UMAP图显示 CRC(n = 5) 和正常 (n = 5) 组织中的细胞类型不同。

(E)Dot plot 图显示了 GEO:GSE132257 数据集中PF4 和 AACT的表达。

(F)Violin plot图显示了 GEO:GSE132257 数据集中PF4 和 AACT的表达。

(G和 H)50对癌旁组织和 CRC标本中 PF4(G) 和 AACT (H)IHC 染色的代表性图像和统计分析(放大400×)。比例尺:50 μm。


×




恩泽康泰外泌体分离试剂盒(ES9P11e)助力了该研究。 



产品详情参见官网

http://www.echobiotech.com/engineered-info/553.html



原文阅读下载链接


<END>
*版权声明:本网站所转载的文章,均来自互联网,旨在传递更多信息。鉴于互联网的开放性和文章创作的复杂性,我们无法保证所转载的所有文章均已获得原作者的明确授权。如果您是原作者或拥有相关权益,请与我们联系,我们将立即删除未经授权的文章。本网站转载文章仅为方便读者查阅和了解相关信息,并不代表我们认同其观点和内容。读者应自行判断和鉴别转载文章的真实性、合法性和有效性。
综合评分:0

收藏

发表评论
评论区(0
    添加收藏
      新建收藏夹
      取消
      确认