前言:
作为近年来技术变革的重要力量,AI在生物医药领域展示了极大的应用潜力。国家发改委2022年发布的《“十四五”生物经济发展规划》提出,要利用云计算、大数据、人工智能等信息技术,对治疗适应症与新靶点验证、临床前与临床试验、产品设计优化与产业化等新药研制过程进行全程监管,实现药物产业的精准化研制与规模化发展。随着AI浪潮席卷全球,生物制药也被视为大模型有望率先落地的场景之一。
基于此,2023年10月,成都高投生物医药园区管理有限公司联合药融云数字科技(成都)有限公司,共同编写了《中国AI制药企业白皮书》,希望为业界厂商、政府机构等相关方提供有益思考,共同推动产业高质量发展。
第一章 人工智能(AI)制药行业概览
1. 人工智能的基本概念
人工智能(Artificial Intelligence,AI),是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。
人工智能是一个广泛的领域,包括专家系统、多智能体系统、进化计算、模糊逻辑、机器学习、知识表示、推荐系统、自然语言处理系统和计算机视觉等多个方面。其中,机器学习技术是应用最广泛的一种技术,具体包括以下几种方法:监督式学习、无监督式学习、半监督学习、集成学习、深度学习、强化学习、回归分析、分类聚合、量度学习、因果关系等。各类机器学习技术在各个领域都有广泛的应用,推动了人工智能的发展和应用。
人工智能作为新一轮产业变革的核心驱动力,将进一步释放历次科技革命和产业变革积蓄的巨大能量,并创造新的强大引擎,重构生产、分配、交换、消费等经济活动各环节,形成从宏观到微观各领域的智能化新需求,催生新技术、新产品、新产业、新业态、新模式,引发经济结构重大变革,深刻改变人类生产生活方式和思维模式,实现社会生产力的整体跃升。
2. AI制药是AI产业化中重要的应用场景
AI制药(AIDD)是指利用AI技术在药物研发、药物设计、药物筛选、临床试验和药物生产等各个环节中应用的制药领域。AI在药物研发中可以通过数据挖掘、机器学习和深度学习等技术,加速药物发现和设计过程,提高研发效率和成功率。AI还可以在药物筛选中帮助挑选出具有潜在疗效的候选药物,降低研发成本和时间。
在临床试验中,AI可以帮助优化试验设计、招募适合的患者群体,并提供数据分析和预测,加快药物上市进程。此外,AI还可以应用于药物生产中的质量控制、流程优化和智能化管理等方面,提高药物的生产效率和质量。
AIDD主要优化环节
随着AI技术的发展,AI技术基本实现了药物研发与市场化全流程的覆盖,特别是在药物发现和临床前阶段取得了显著进展。药物发现和临床前研发阶段是AIDD的主要优化环节,也是AI制药企业主要的研发及商业化方向。利用AI技术,企业能够在药物发现和临床前研发阶段,节约大量湿试验成本与时间成本,并实现高通量筛选,助力更多新靶点的发现与“老药新用”的适应症拓展。未来AI技术将持续发展,相信能够在药品临床开发、上市后生产与商业化等方面更进一步。
3. AI制药行业发展历史
纵观AIDD行业的发展,主要分为3个时期:
AIDD行业发展历程
(1)1956年~1981年的技术积累期,该时期是相关概念的早期构想阶段,但由于技术限制未能成功实施。
(2)1981年~2012年计算机辅助药物设计(CADD)研发时期,CADD的虚拟筛选,可用于寻找有希望成药的苗头化合物进行药物开发,但CADD是药物发现过程的支持部门,而不是核心部门。 CADD仅缩短药物发现时间,受限于工艺优化、临床、注册等环节,新药数量并未出现激增。
FDA CDER批准新药数量统计
(3)2012年~至今的AIDD高速发展期,该时期迎来的AI技术的“井喷式”发展,AIDD相关论文数量迎来“指数级”增长,相关技术栈逐步丰富完善。
在药物发现及临床前研究阶段,基于从前的CADD技术,结合人工智能、机器学习和深度学习等技术,可以处理大量的生物数据,从而在药物开发全过程中减少时间和成本。
AIDD有效减少药物发现及临床前研究时间
同时,区别于CADD研发时期主要聚焦于药物发现阶段,AI技术逐步应用于药物开发全流程。如:临床前研究中的剂型开发、工艺优化等;临床研究阶段的受试者筛选及结果预测;药物生产过程中的智能化生产管理、生产工艺优化。AIDD行业相对起步较晚,但管线数量逐年增加,头部AI药企临床前研究管线中药物数量已接近传统头部药企的50%,并已经有多款药物进入临床阶段。
4. AI制药行业配套政策分析
AIDD行业,是在近年才开始崭露头角的新兴领域,相比传统制药行业,它起步较晚。这主要是因为AI技术的发展和应用在医药领域的探索相对较新。然而,随着人工智能技术的迅猛发展和在医疗领域的广泛应用,AIDD行业正逐渐崭露出巨大的潜力。
尽管AIDD行业发展迅速,但相关的配套政策相对较少。由于AI技术的复杂性和涉及的伦理、法律等问题,政府和监管机构需要时间来理解和评估其潜在影响,以制定相应的政策和法规。美国、欧洲等国家及地区,行业起步较早,经过多年的发展及规划初版的监管政策于近年才推出。
国外AIDD行业相关监管政策(含草案)汇总
目前,国内AIDD行业相关政策起始于“十四五”时期,主要以政府宏观政策为主,相应的执行发展政策及监管政策,还需要随着国内行业逐步深入发展而进行细化、完善。
国内AIDD行业相关宏观政策(含草案)汇总
各省都紧跟国家政策的方向,因地制宜出台了各地的特色政策。以AIDD行业产业布局最密集的上海为例:
上海市部分AIDD行业产业政策
5. AI制药行业投融资现状分析
近年来,AIDD行业曾短暂成为投资的热点,其中2021年行业融资金额达历史高点,超过290亿美元。2022年以来,受资本环境影响,行业投资“热潮”已经有所退却,回落至相对稳定水平,预计融资金额将处于下行水平。AIDD资金回报周期长,全球投资者偏好选择成长期(69.4%)和初创期(19.2%)企业,中国投资者选择初创期、成长期、成熟期比例分别为33.1%,42.6%,23.9%。
AIDD行业投资金额统计分析
AIDD行业投资策略分布
第二章 AI+药物发现
1. AI助力药物发现阶段概览
AI技术通过三方面助力药物发现阶段研发
2. AI助力药物靶点发现与验证
随着微阵列、RNA-seq和高通量测序(HTS)技术的发展,高校、研究机构及企业实验室产生大量的生物医学数据,当代药物发现也因此进入了生物大数据时代。随着生物大数据分析,药物发现研究的重点逐渐转向靶向药物发现,即以“基因-药物-疾病”为中心,通过AI技术分析与疾病高度相关的靶点,发现酶、蛋白质或其他基因产物,以及针对该靶点的小分子。
药物靶点发现策略包括实验方法、多组学分析方法和AI计算方法。实验方法受限于通量和成本,而基于AI技术的多组学分析方法和AI计算方法能够高效、有效地发掘具有潜力成为药物靶点的分子。多组学分析方法整合生物学数据,揭示疾病关键靶点,而AI计算方法利用机器学习和数据挖掘技术筛选化合物库,加速药物靶点发现。这些方法在药物研究和开发中具有重要作用,并在未来发展中将变得更加关键。
AI技术通过三方面助力药物发现阶段研发
AI技术驱动药物靶点发现与验证工作流程
最新技术举例
(1)利用多组学数据训练机器学习/深度学习模型进行靶点发现
近年来,基于机器学习的算法,特别是深度学习方法,在制药领域取得了显著成果并引起了广泛关注。深度学习,也被称为深度神经网络,由多个隐藏层节点组成,通过级联方式逐步进行数据处理和特征提取。与传统的机器学习方法相比,近期更加先进的基于深度学习的架构,如生成对抗网络(GANs)、循环神经网络和迁移学习技术,在制药方面广泛应用,例如新型小分子设计、衰老研究以及基于转录数据的药物药理预测。此外,利用公开可用的多组学数据和文本挖掘,深度学习还在未满足临床需求的疾病方面发挥着重要作用。
(2)利用机器学习/深度学习模型进行分子建模
(3)大语言模型通过文献挖掘发现治疗发现
基于大型语言模型的聊天功能,如微软的BioGPT和Insilico Medicineiv的ChatPandaGPT,通过对从数百万论文中提取的大量文本数据进行预训练,可以将疾病、基因和生物过程联系起来,从而快速识别疾病发生和进展的生物学机制,并发现潜在的药物靶点和生物标志物。
(4)使用AI生成的合成数据进行靶点识别
“合成数据”是指通过人工生成的数据,它可以模拟真实世界中的模式和特征。借助人工智能算法,能够创建合成数据,以模拟各种生物数据,从而帮助研究人员探索和分析新药物的可能。这种方法在实验数据稀缺或难以获得的治疗领域尤其有价值。举例来说,在罕见疾病或患者数据有限的情况下,人工智能可以基于现有的知识和模式生成合成数据。然后,我们可以利用这些合成数据来训练人工智能模型,并识别可能被忽视的潜在治疗靶点。
(5)计算生物学大模型用于靶点发现
国内企业布局
AI靶点发现需要大量的生物数据来训练模型,并需要专业人员对数据进行清洗、预处理,去除冗余和错误数据,并对数据进行标准化和格式化。对于AIDD初创企业而言,与大型制药企业相比,他们面临着生物实验场景数据严重不足的挑战。在短时间内难以积累足够的数据量。因此,AI靶点发现技术在初创企业中具有一定的门槛。
国内能够进行靶点发现的AIDD企业约32家[1] ,主要分布在北京、上海、深圳等地区,具体企业名称及布局技术领域如下表所示。值得注意的是,AI靶点发现技术具有一定的局限性,靶点发现的企业并非完全利用AI技术:例如,水木未来能够利用冷冻电镜技术解析蛋白质结构进而完成靶点的发现;药物牧场利用IDInvivo+转座子靶点发现平台,结合Medchem5人工智能药物化学平台在药物靶点发现上进行开拓。
能够进行靶点发现的AIDD企业主要分为3类:AIDD Biotech企业、具备AI技术的CRO企业、AIDD技术平台企业。
国内主要布局AI药物靶点发现与验证初创企业汇总
国内代表企业
(1)英矽智能
英矽智能是一家由生成式人工智能驱动的临床阶段药物研发公司,通过下一代人工智能系统连接生物学、化学和临床试验分析,利用深度生成模型、强化学习、转换模型等现代机器学习技术,构建强大且高效的人工智能药物研发平台,识别全新靶点并生成具有特定属性分子结构的候选药物。英矽智能聚焦癌症、纤维化、免疫、中枢神经系统疾病、衰老相关疾病等未被满足医疗需求领域,推进并加速创新药物研发。
英矽智能AI靶点发现技术全球领先,具有大量应用实例。自主研发人工智能生物靶点发现平台 PandaOmics™ ,公司利用该平台确定了许多此前从未报道过的肌萎缩侧索硬化症 (ALS) 潜在治疗靶点。
(2)药物牧场
药物牧场成立于2015年,主要利用遗传学和人工智能技术开发针对乙肝、肿瘤和自身免疫疾病的创新疗法。利用IDInvivo+转座子靶点发现平台,结合Medchem5人工智能药物化学平台在药物靶点开拓的“卡脖子”领域攻关突破。前者基于转座子进行基因筛选,在具有完整免疫系统的活体动物中直接发现新药物靶点;后者利用深度学习技术进行药物分子的设计。
药物牧场已经发现20余个创新靶点;结合专有的人工智能(AI)药物发现平台,公司原创新药DF-006已经进入I期国际多中心临床。
(3)百图生科
百图生科是中国首家生物计算技术驱动的生命科学平台公司,致力于用高性能生物计算和多组学数据技术加速创新药物和早筛早诊等精准生命科学产品的研发。
业务将分为两大阶段,第一阶段利用前沿AI技术构建完整的生物计算平台,并与提供新的数据轴和新的数据分析、药物设计工具的初创企业与研究机构携手,构建生物计算生态,为生命科学企业和科研用户提供丰富的工具能力和完整的解决方案。第二阶段,将深度参与或主导发起新型精准药物和精准诊断产品的研发,携手合作伙伴,研发生命科学产品。百图生物成果入选美国癌症研究协会(AACR)2023 年会,研究内容覆盖全新抗体设计的蛋白结构预测模型、靶点发现,以及高通量自动化蛋白表达/表征平台的构建。
(4)予路乾行
予路乾行是一家以人工智能、量子力学及分子模拟算法为核心技术,通过模拟运算赋能新药研发的交叉学科技术驱动型生物医药公司。公司结合自主创新的AI技术,结合高精度分子动力学模拟核心算法,建立了国际领先的新一代人工智能药物研发平台。该AI研发平台主要针对未解析靶点与高柔性靶点进行高精度结构解析及生理动态过程还原模拟,从而实现难成药靶点的新药研发。
3. AI驱动药物分子设计、优化
药物设计的目标是开发出具有特定性质、符合特定标准的药物,包括疗效、安全性、合理的化学和生物特性以及结构的新颖性。近年来,利用深度生成模型和强化学习算法进行新药设计被认为是一种有效的药物发现方法。这种方法能够绕过传统基于经验的药物设计模式的限制,让计算机通过自主学习药物靶点和分子特征,以更快的速度和更低的成本生成符合特定要求的化合物。这种新方法为药物设计领域带来了更多的创新和可能性。
最新技术举例
(1)AI生成模型在药物设计领域应用
AI生成模型在全新药物设计领域具有巨大的优势,因为它们在生成分子时不需要先验的化学知识。这些模型可以在更广阔的未知化学空间中进行搜索,超越现有分子结构的限制,自动设计新的分子结构。在新药设计中,广泛使用的深度生成模型包括基于循环神经网络(RNN)的生成模型、变分自编码器(VAE)和生成对抗网络(GAN)等。利用生成模型设计分子的过程具有高度的随机性,生成的分子在结构上呈现千变万化,质量也参差不齐。强化学习可以通过微调模型参数进行有针对性的优化,使生成的分子具备特定的药物分子特性。这种结合生成模型和强化学习的方法为全新药物设计提供了新的途径和可能性。
主要AI生成模型框架示意
(2)简单AI生成模型:基于循环神经网络(RNN)的生成模型设计药物分子
基于RNN的生成模型可以生成具有全新结构的化合物,同时保持与样本化合物具有相似的生化特性。训练过程首先利用大型化学数据库对RNN模型进行训练,使其学习如何生成正确的化学结构。然后使用强化学习算法对 RNN 参数进行微调,使模型能够将生成的化学结构映射到指定的化学空间。强化学习使基于 RNN 的生成模型能够生成具有良好药理特性的新分子,并确保生成分子的结构多样性。
(3)简单生成模型:基于循环神经网络(RNN)的生成模型的先导化合物优化
基于 RNN 的生成模型药物在先导化合物的优化方面发挥着作用。研究者提出了一种名为 “Scaffold-constrained molecular generation (SAMOA)”的新分子生成算法,用于解决先导化合物优化问题中的支架约束问题:使用 RNN 生成模型生成新分子的 SMILES 序列,然后使用精细采样程序实现支架约束并生成分子。此外,还应用了一种基于策略的强化学习算法来探索相关的化学空间,并生成与预期相匹配的新分子。
RNN分子生成模型主要工作流程
(4)进阶AI生成模型:基于变分自动编码器(VAE)的生成模型
VAE已成为复杂数据分布的无监督学习最流行的方法之一。VAE模型能够完成小分子的全新设计和肽序列的生成。VAE有许多不同的变体,但其核心架构始终不变(如下图所示)。
VAE的变体主要可以分为SMILES-VAE 、Graph-VAE和3Dgrid-VAE三种类型。SMILES-VAE是应用最为广泛,因为其容易实现,例如英矽智能构建的GENTRL算法。尽管GENTRL生成的分子顺利通过实验验证,但仍难以保证生成100%验证的SMILES。Graph-VAE和3Dgrid-VAE能够解决这些问题,由于3D结构训练数据有限,目前商业化应用较少。3D技术将对未来的AIDD项目具有巨大价值。
VAE模型的核心架构
(5)进阶AI生成模型:基于通用对抗性网络(GAN)的生成模型
GAN主要由生成器和鉴别器组成,它们相互博弈,互相对抗,通过对抗生成高质量的数据。GAN能够生成与真实数据分布相似的新样本,并能够使用网络来辨别网络,删除不需要的内容。在AIDD领域,GAN 通常与特征学习和强化学习等技术相结合,在蛋白质功能预测、小分子生成等方面发挥了重要作用。基于 GAN已经构建多种分子生成模型,如Mol-CycleGAN、ORGANIC、RANC。
(6)进阶AI生成模型:基于对抗性自动编码器(AAE)的生成模型设计药物分子
AAE在VAE基础上增加了判别模型,对采样分子和真实样本进行区分,基于对抗的思想训练生成模型和判别模型,扩展了分子的生成空间,一定程度上弥补了VAE在生成分子时结构新颖性方面的缺陷。
(7)基于强化学习(RL)的生成模型设计药物分子
强化学习(RL)通过智能体在与环境的交互过程中,不断优化人工智能模型,以最大限度地提高预期的累积回报。与有监督学习和无监督学习不同,RL可以在不受人类先验知识和训练数据束缚的情况下达到惊人的表现,例如最著名的应用是AlphaGo。
(8)综合多种技术的AI药物分子小分子生成平台技术成熟并成功在相关工作中应用
(9)AI技术应用于大分子药物分子设计
目前,国内外的AI药企主要专注于技术相对成熟的小分子药物研发,并且已经有多款由AI设计或辅助优化的小分子药物进入临床阶段。然而,近年来,随着新药物形式的兴起,布局抗体药物、核酸药物、多肽药物、基因细胞治疗药物、合成生物学等领域的企业比例也在不断增加。这些新药物形式带来了新的治疗理念和手段,为疾病的治疗提供了更广阔的前景。AI技术在这些领域的应用也在逐渐发展,为新药物形式的研发和优化提供支持。随着技术的进一步发展和应用的推广,未来可以期待AI在大分子药物领域的应用为医药行业带来更多的创新和突破。
国内企业布局
国内能够进行药物分子发现、设计、优化的AIDD企业60余家[1] ,主要分布在北京、上海、深圳、苏州、杭州等地区,具体企业名称及布局技术领域如下表所示。国内的药物分子设计、优化AI发展水平参差,具备药物分子从头设计的AI技术的企业数量较少,而大多数企业根据现有数据库进行/提供药物发现或“老药新用”服务。
国内主要布局AI药物分子发现、设计、优化初创企业汇总
国内代表企业
(1)云深智药
云深智药是由腾讯自主研发的AI驱动的药物发现平台。该公司开发的iDrug平台能够实现小分子的从头合成。现有的模型通过对ZINC drug-like中超过680万个小分子数据进行训练学习,来达到学习分子空间的目的。目前支持对319个Kinase和52个GPCR靶点进行分子生成。在分子生成这一过程中,腾讯的iDrug平台的算法能够针对不同靶点在分子空间中的映射进行针对性采样,从而生成新的可能对靶点有活性的分子。
(2)晶泰科技
晶泰科技是一家以智能化、自动化驱动的药物研发科技公司,为全球生物医药企业提供药物发现一体化解决方案。晶泰科技首创智能计算、智能实验和专家经验相结合的药物研发新模式,致力于打造三位一体的研发平台,助力客户缩短药物研发的周期,提高药物研发成功率。
晶泰科技具备小分子药物发现技术,基于智能计算、自动化实验和专家经验的“三位一体”研究模式,以XtalCryo靶点确证、XcelaHit分子设计、XceptionOp成药性优化和XcelDev可开发性优化四大技术平台覆盖新药研发从靶点到获得PCC的完整流程,提供一体化药物研发服务。此外,晶泰科技具备大分子药物发现技术,将AI算法与湿实验进行有机结合拥有从靶点识别到先导抗体药发现的全流程一体化能力。
(3)星药科技
星药科技是一家从临床需求出发、以AI为核心技术驱动药物研发的生物科技公司。
星药致力于使用人工智能驱动药物研发,布局未成药、难成药靶点的药物研发管线,解决未满足临床需求。以“AI驱动的研发管线”和“AI赋能的计算平台”为双循环,赋能药物研发产业。星药人工智能药物发现平台Pyxir®使用AI前沿算法,结合计算化学、药物化学和生物学的工具及经验,全方位攻克小分子药物早期研发流程中的疑难问题,快速发现活性高、成药性好且结构新颖的候选分子。星药的智能计算平台M1结合了AI与经典物理学原理,可快速准确地描述分子和蛋白间的相互作用、精确地计算目标药物分子与特定靶标的结合自由能,突破经典计算模拟方法,达到世界顶尖水平。
4. AI辅助药物分子筛选
除了传统的实验方法,计算机辅助药物设计(Computer-Aided Drug Design,CADD)自问世以来在药物研发阶段发挥了巨大的作用。药物-靶标相互作用(DTI)是药物发现的重要基础,准确有效的DTI预测能极大地助力药物研发,加速先导或苗头化合物发现。计算机模拟DTI并非全新技术,世面已有许多成熟的开源程序或商业化软件。将AI技术引入CADD中,能够一定程度提高分子筛选的效率与覆盖度。
近年来基于机器学习/深度学习的预测DTI的方法陆续被报道。以已知化合物的活性和结构信息作为训练数据,并对数据进行预处理和特征提取,通过选择合适的机器学习算法进行模型构建和训练。后续利用已构建的机器学习模型对新化合物进行预测和筛选,并结合化学规则和药物性质等要求对化合物进行优化和筛选。
最新技术举例
(1)基于机器学习/深度学习的药物-靶标相互作用预测
(2)生物医药大模型助力药物分子筛选
国内企业布局
国内能够进行药物分子设计、优化的AIDD企业约55家, 主要分布在北京、上海、深圳、苏州、杭州等地区,具体企业名称及布局技术领域如下表所示。
中国AIDD行业起步较欧美等国家略有滞后,虽然并不缺乏新药管线,但大多数管线仅处于早期研发阶段,具有临床管线的AIDD企业数量较少。由于交叉学科的特性,早期AIDD公司成立后一般需要经历漫长的团队建设、平台完善和技术验证的时期,自主设计分子并推进到后期临床的公司凤毛麟角。除“老药新用”外,目前国内研发进度进展临床试验最快的AI药物是英矽智能研发的ISM001-055,该药物的研发进度同样位于全球前列。
现阶段AI药企普遍数据生产能力和干湿实验结合能力不足,这限制了新平台的应用。AI药企在新治疗方式领域同样面临数据稀缺性和孤岛效应,而且生物药的数据生产成本更高,兼具不同药物形式和AI的人才储备更少,所以未来AI药企需要持续加强数据资产的挖掘和累积。
国内主要布局AI药物分子筛选初创企业汇总
第三章 AI+临床前研发
1. AI助力药物临床前研发概览
AI在药物临床前研发侧重于非临床药理学、药动学和毒理学研究。药物的物理化学特性及其 ADMET 特性对于药代动力学和毒理学研究至关重要 。候选药物的不良特性可能导致昂贵的药物开发阶段失败。利用AI技术通过对候选药物的相关特性进行早期评估,可以降低临床研究的失败率和损失。
2. AI辅助药物理化特性预测
候选药物的ADMET特性直接受其物理化学特性的影响,对于药物成功上市至关重要。例如,药物分子的溶解度会严重影响药物的制剂方法,而药物分子在不同pH条件下的ADMET特性则深受其电荷状态的影响。尽管并非所有具有潜在药物价值的苗头化合物最终都能成功上市,但通过对苗头化合物理化特性的研究,能够提供大量实验数据,完善AI预测模型,助力药物晶型的设计与改良,制剂的设计与优化,并为其他药物的设计提供经验与灵感。
最新技术举例
(1)AI技术辅助药物晶型预测
多晶型现象是一种物质可以存在多种不同晶体结构中的现象,对于化学药物分子,几乎所有固体药物都具有多态性。由于晶型的变化可以改变固体化学药物的许多物理性质和化学性质。药物发展史上,存在一些药物由于晶型问题而导致上市失败的情况。
晶型预测(CSP)是指给定分子的二维结构式通过计算模拟获得它的所有可能的稳定晶型。晶型预测在制药工业中具有重要意义。使用AI有效地动态配置药物晶型可以完全预测小分子药物的所有可能的晶型,与传统的药物晶型研发相比,制药公司不必担心缺少重要的晶型。此外,晶型预测技术大大缩短了晶体的发展周期,更有效地选择了合适的药物晶型,缩短了开发周期并且降低成本。现常见的方法或工具有Crystalline Sponge Method、Dimorphite、ChemML等。
(2)AI技术辅助药物热力学溶解度预测技术
利用AI技术能够识别并预测新分子溶解度等理化性质,在确定研发成本或临床前终止研发至关重要。实验中测量溶解度存在较大的不确定性,导致测得的溶解度可能被高估。基于物理模型的第一性原理计算预测溶解度需要高额的计算成本,可行性较低。利用人工智能技术建立基于物理模型的热力学溶解度预测流程,实现了轻量级晶型预测技术,这对于预测分子的热力学溶解度具有重要意义。这些方法可以帮助提高溶解度预测的准确性,加速药物开发过程,并为决策提供更可靠的依据。
(2)AI技术辅助指导实验制备新晶型
3. AI辅助药物剂型设计
最新技术举例
4. AI助力药物ADMET性质预测
最新技术举例
ADMET(药物吸收, 分配, 代谢, 排泄和毒性研究)是当代药物设计和药物筛选中十分重要的方法。临床试验的失败通常是由于药物的 ADMET 问题,而不是缺乏疗效。传统的ADMET研究非常耗时且昂贵,但同时又是能否成药一个很重要的条件。AI可提取化合物相关结构特征,评估多个ADMET参数间的关系和趋势,有效提升ADMET性质预测的准确性。
AI在药物ADMET预测的原理主要基于机器学习算法。这些算法使用了大量已知药物的ADMET数据来训练预测模型,并通过预测药物分子的化学和物理属性来推测其ADMET性质。数据的质量和数量是ADMET预测的巨大障碍。大多数预测模型由数百到数千个小型化学数据集组成,无法覆盖足够的化学空间。生物活性测定的数据受实验平台的影响,容易产生实验误差,导致后续的数据管理产生困难。当前数据驱动的ADMET预测研究依赖于文献衍生数据及公开数据库,数据量稀缺且数据质量参差不齐。这既考验公司对数据管理能力,也考验模型的泛化能力。
(1)定量结构活性关系(quantitative structure–activity relationship,QSAR)模型预测ADMET性质
从人工智能中受益的药物发现的关键领域之一是ADMET性质预测,通过定量结构活性关系(quantitative structure–activity relationship,QSAR)模型来预测多种性质,从简单的物理化学性质到复杂的药代动力学(PK)、药效学(PD)和毒理学特性。重要的PK端点包括清除率、通透性和稳定性;重要的药效学端点包括药物靶标特异性和选择性;重要的毒理学端点包括细胞色素P450诱导和hERG抑制等。
5. AI+临床前研发国内企业布局
AI技术在药物临床前研发阶段有着广泛的应用。主要包括晶型预测、剂型设计和药物ADMET性质预测等,其中能够完成药物ADMET性质预测企业数量最多。
由于技术发展时间长,相对技术成熟,市面具有多款药物ADMET性质预测CADD软件免费开源/商业化软件,随着AI技术的发展,相关软件逐渐添加了AI功能辅助数据的提取与处理,承接相关业务门槛低,因此相关企业数量较多。但多数企业仅停留在对相关软件的应用,并未有创新的核心算法与技术的拓展。
CADD的能力局限于对已有的知识和数据的筛选与优化,相较之下,AIDD能够充分探索未知的分子结构空间,对更多未知的分子性质进行预测,给药物研发带来了颠覆性变革,但AIDD的发展需要高数量、高质量的生物数据作为支撑。目前国内企业的技术重点在于药物ADMET性质预测,布局晶型预测、剂型设计等方面国内企业数量较少。
(1)药物发现阶段/临床前研发阶段国内企业竞争格局
利用AI技术主导或辅助药物发现及临床前研发阶段是中国AIDD行业企业重点关注的技术,超过90%的行业企业在该方面有所投入。基于行业理解,我们将中国AIDD行业的企业主要分为AIDD Biotech企业、具备AI技术的药企/CRO企业、具备AI技术的药企/CRO企业、AIDD技术平台企业(分类不包括引进AI技术的大型制药企业)。
AIDD Biotech企业:即AI技术贯穿于新药发现全过程的企业,该类企业以新药管线研发为核心商业模式,此外部分Biotech企业与大型制药企业开展合作,承接药物筛选等服务工作。
AI技术驱动的CRO企业:该类企业以CRO服务为核心商业模式,该类型公司无研发管线/管线数量较少,主要通过对外提供研发服务作为盈利模式。此外,该类型的公司也通过对外授权/售卖早期管线实现营收。
AIDD技术平台企业:该类企业以软件工具服务为核心商业模式。
中国主要AIDD行业企业格局
AI新药研发的三要素是核心生物数据、基础算力和核心算法,AIDD技术平台企业基于本身在算法方面的优势,有望通过提供软件产品实现商业模式;平台型研发企业通过与大型药企/Biotech企业合作,完成项目的积累和自主研发能力边际的不断拓宽,在数据积累上会有较大优势,也有望衍生出AI新药研发的CRO企业,专注于建立平台提供服务,为不具备AI新药前端开发能力的企业提供支持;AI新药研发最终走的也是新药研发的逻辑,这也会催生一批在AI药物管线开发上具有突出能力的Biotech企业。
中国主要AIDD行业与大型制药企业/Biotech企业合作关系网络
第四章 AI+临床研发
1. AI助力新药临床试验概览
新药开发是一个漫长、昂贵、高风险的过程,其中大约一半的时间和投资消耗在临床试验阶段,而临床试验的高失败率又使其成为新药研发中最困难的一步。临床试验是药物开发的基石,成功的药物开发依赖于准确且有效的临床试验。
据研究,约有90%的药物会在临床试验阶段被淘汰,进入临床Ⅱ期的化合物中,不到三分之一能进入临床 III 期[1] ,在进入临床Ⅲ期的化合物中,又有超过三分之一的化合物未能成功获批上市[2] 。由于Ⅱ、Ⅲ期临床试验处于整个药物开发阶段后期,且最复杂的 III 期试验成本约占整个试验的 60%,因此,每项失败的临床试验均会造成巨额损失。
一篇发表在Nature子刊《npj Digital Medicine》,关于数字化临床试验文章指出,目前传统临床试验存在参与率过低、临床试验进展缓慢等问题。在受试者招募、筛选、数据采集和质控等方面的效率低下,会给受试者以及研发企业带来经济和时间上的负担,且延长临床试验时间。
药物研发阶段及化合物在各临床试验阶段成功率
人工智能(artificial intelligence,AI)的发展,为新药研发带来了新的技术手段,尽管目前AI技术大多应用于药物发现及临床前阶段,但在临床试验环节,也可以利用ML、自然语言处理等技术辅助临床试验设计、患者招募和临床试验数据处理等。
用于临床试验设计的AI技术:从方法到结果改善
AI在临床研究中的分析类型及目标
AI临床试验方案设计是指利用人工智能技术辅助和优化临床试验设计的过程。它利用ML(机器学习)、DL(深度学习)、自然语言处理(NLP)、决策支持系统(DSS)等技术,快速处理同类研究、临床数据和监管信息,以及读取临床试验等数据,以提供更有效的临床试验方案。
欧美在临床阶段对AI技术的应用起步较早,主要在应用自然语言处理 (NLP)、改进病人分层、简化临床试验的操作流程三个大的层面。通过收到的超过300份AI临床研究申请,FDA归纳分析并对该技术进行了总结,将AI在临床阶段的应用分成了“六大分析类型”与“九大分析目标”。
AI在临床研究中的分析类型及目标
近年来,AI在临床研究中不乏成功案例。如:成立于2016年的美国企业Owkin,使用联邦学习来训练和开发其机器学习模型,专门用于提高临床试验效率,并已经建立了一个高级模型目录,使他们能够从成像、基因组学和临床数据中识别新的生物标志物。Owkin致力于识别具有严重疾病进展特征的患者,这些患者可能对开发中的治疗反应最好,目前该公司总共筹集了2.54亿美元,其中包括赛诺菲、Bpifrance和Mubadala等投资机构。
另一家来自剑桥的公司GNS healthcare,成立于2000年,该公司的技术基于各种复杂的数据创建“虚拟患者”,这是一个准确的疾病计算机模型。GNS专注于肿瘤学、免疫学、中枢神经系统和心脏代谢疾病,他们的技术支持更好的病人分层,并能确定哪些病人应该接受一线或二线治疗。
临床研究AI国内企业布局
2022年8月,国家药品监督管理局药品审评中心(CDE)连发三项意见稿,支持远程智能临床试验方案的应用和发展,强调在合规且可行的范围内提高患者参与临床试验的便利度、减轻患者参与临床试验的负担,并对数字化、智能化等新技术在临床试验中的合规运用进行了细致的规定。而在此前,CDE已下发的2项建议中已强调ePRO在数据采集方面所体现出的高效性、实时性、灵活性、合规性、安全性和其在患者隐私保护等方面所具备的显著优势。
几项政策立足 “以患者为中心” 的理念,接轨国际诸多监管机构对临床试验智能化的政策,为中国临床试验进一步实现从 “纸” 到 “云” 的发展变革提供了方向。紧随技术发展趋势,基于国家政策,我国AI+临床试验企业迎来发展机遇。
据药融咨询统计,国内目前涉足AI+临床企业不多,截至2023.09.01,约16家,可大致分为AI SaaS 、AI Biotech、AI CRO以及AI Biotech+ CRO 四种商业模式。
国内涉足AI+临床研发主要企业
从十六家企业在临床阶段的具体业务类型来看,主要包括:临床试验方案设计,如患者筛选/招募等,以及临床结 果预测、临床试验数据统计分析。从企业类型来看,可提供AI+临床试验企业多为向药企或CXO企业提供服务的企 业,此外,一部分企业实施“双业态”运营模式,仅在少数特定治疗领域内开发自有产品管线,而在大多数治疗领域对外提供AI赋能的临床设计服务。
2. AI助力受试者招募管理
(1)最新技术举例
患者招募是决定临床试验是否成功的关键因素之一,临床试验的入组标准通常有很严格的限制,研究显示,大约80%的进展期非小细胞肺癌(aNSCLC)患者不符合临床试验的资格标准,导致约86%的临床试验由于无法按时招募足够的受试者而终止 。而大样本的随机对照临床试验(RCT)是临床证据的主要来源,但受试者的招募往往因为试验方案的入组标准严格而影响进度。
相关研究证明,结合真实世界数据,AI可自动筛选符合入组标准的患者,提高招募效率。 AI辅助药物临床试验受试者招募,总体可以看作是利用自然语言处理、机器学习等技术,对不同来源的受试者信息和临床试验方案的入组/排除标准进行识别和匹配的过程。《Nature》发表的一项研究介绍了AI在简化临床试验入组标准方面的价值和应用,通过使用开源的人工智能工具Trial Pathfinder,从肿瘤患者的真实世界数据中学习,来优化入组标准的包容性,该工具可以使用EHR数据模拟临床试验,按照不同的入组标准自动整合EHR数据,并分析总体生存风险比率,同时,使用逆概率加权法来调整基线混杂因素和模拟随机化。分析结果显示,许多常见的入组标准,对临床试验的结果影响甚微。
用于临床试验设计的AI技术:从方法到改进结果
Trial Pathfinder包括临床试验模拟和分析两部分。在临床实验模拟中, Trial Pathfinder将真实世界数据和目标试验方案(治疗和资格标准)作为输入,根据患者特征、诊断、实验室值、生物标志物和先前的治疗方法,以编程方式对不同的入组标准(从文本中提取)进行编码,并使用倾向评分的加权分析法进行临床试验模拟。然后对模拟的治疗组进行生存分析,并报告符合条件的患者数和由此产生的风险比。在分析中,Trial Pathfinder将标准的重要性分析与Shapley值相结合,评估了每个纳入/排除标准如何影响合格受试者的数量和试验结果。研究表明,几个常用的纳入/排除标准不会对试验的总生存期的风险比产生实质性影响,也不会潜在地降低试验的有效性。
此外,一项回顾性分析全面了解了AI在临床试验注册登记中的应用现状[4] ,并评估该技术筛选患者的准确性,这是第一项评估AI用于癌症临床试验登记的系统性回顾和meta分析。数据显示,除一个数据集外,所有数据集的准确性、灵敏度和特异性均超过 80%,17个数据集中有 5 个的阳性预测值超过 80%,所有数据集中的阴性预测值均超过 80%,汇总敏感性为 90.5%(95% CI:70.9%-97.4%);总体特异性为 99.3%(95% CI:81.8%—99.9%) 。总的来说, AI在患者筛选方面的表现似乎与人工筛查持平,且AI拥有更高的效率,可花费更少的时间和资源。
(2)国内企业布局
目前多家AI制药企业在助力患者入组的研究上已取得一定成就。如IQVIA、Unlearn、ConcertAI等, ConcertAI 的DTS eScreening采用了机器学习算法LightGBM来开发17个模型,这些模型根据各种标准预测患者参加临床试验的资格,包括ECOG评分(癌症研究中采用的标准衡量标准),使用的其他指标包括癌症分期、实验室结果和生命体征,平均预测准确率超过99%。
2020年,FDA同意Medidata Synthetic Control Arm® 合成对照组解决方案(“SCA®解决方案”)应用于美国临床阶段免疫治疗公司Medicenna Therapeutics 公司(“Medicenna”)一项MDNA55治疗复发性胶质母细胞瘤的III 期注册试验中。在此试验中,Medidata成功帮助Medicenna在此三期临床中减少招募了100个对照患者,这也是罕见病试验首次采用混合外部对照组,也开启了III期临床试验应用混合外部对照组的先河。
国内企业运用AI助力临床试验患者招募/入组尚处于起步阶段,代表企业包括普瑞基准、埃格林、西湖欧米以及锐格医药等。这些企业并非专注于临床阶段或临床试验患者招募,而多覆盖药物开发多个流程,如科辉智药,其AI驱动的研发平台eLEAD是覆盖研发全流程,AI筛选患者人群是其中一部分。锐格医药主要通过自主研发的 rCARD™(计算机加速新药研发)平台来发现和开发临床差异化的创新药物。
哲源科技可进行虚拟临床试验,预测响应患者。据哲源科技官网披露,其核心技术包括TWIRIS(生物医学文献处理算法-大规模生物医学知识AI平台)、DAGG(基因组霰单枪损伤评估算法-细胞功能定量评估AI平台)、 Dpverse(泛癌种功能数字化病人库MOA虚拟平台)。在研管线中,为全新机制、全新靶点药物管线共3条,ZY0001(胰腺癌、小分子)、 ZY0002(泛癌种、大分子)、 ZY0003(胰腺癌、小分子),均处于药物合成阶段。
零氪科技提供第三方服务,主要开展基于精准生命科学解决方案(LinkSolutions)的临床招募、真实世界研究、数据洞察等服务。其临床研究招募主要采用机器学习算法将已知的信号通路和药物靶点库进行匹配,以预测个性化治疗和患者耐药点的有效性,实现患者对特定临床试验的最佳适配性。
埃格林是具有从靶点到临床试验“端到端”能力的AI赋能创新药企,埃格林采取自研+对外服务的模式,一方面,从事自有药品管线的研发,另一方面,对有人工智能研发需求的制药企业,提供创新药开发服务与合作。
3. AI助力预测临床试验效果
(1)最新技术举例
鉴于临床试验的高失败率,以及药物开发的资金密集型性质,制药公司只能承担有限数量的项目,因此开发者通常不得不中止一些项目,以支持成功概率更高的药物进一步开发。对于继续研发药物的选择,目前常用的方法基本上是基于管线上药物的治疗类别,和所处开发阶段历史上其他药物的监管批准率,结合对项目特定风险因素的非结构化讨论和主观调整,来做出投资决策。
对于临床试验效果的预测,在药物开发中一直难以达到。AAPS于2022年一月发表的一篇关于在制药研发过程中应用机器学习/人工智能预测技术和监管成功概率的文章指出,关于临床试验效果预测尚未有经验证的报告[1] 。但AI技术发展迅速,此后,不少文章研究结果显示,尽管具有难度,但对于AI临床试验结果预测,从技术上看,正在朝着积极的方向前进。
HINT:端到端的神经网络模型
其中,《Cell Pattern》于2022年4月发布了首个临床试验结果预测公开数据集,提出了基于深度学习(图神经网络)的临床试验结果预测方法。作者设计了一种基于图神经网络的深度学习方法,可以显示的模拟不同的临床试验因素及其交互关系,从而预测试验结果,该方法被命名为Hierarchical interaction network (HINT)。 HINT 在临床 I 期、II 期和 III 期的预测中分别获得了 0.665、0.620和0.847 的 F1 分数。
部分AI预测临床试验效果相关文章
(2)国内企业布局
目前,国内可将AI技术用于临床试验结果预测企业较少,代表企业包括英矽智能、白星花科技、西湖欧米。2023年8月3日,国内领先的生成式人工智能(AI)驱动的生物医药科技公司英矽智能,利用其自主研发的基于Transformer的人工智能临床试验预测引擎inClinico,高度准确地预测了多项临床试验II期至III期的转化结果。这项研究成果已发表在《 CLINICAL PHARMACOLOGY & THERAPEUTICS》上。
2014年以来,英矽智能长期致力于开发用于II期到III期临床试验转化成功率预测的人工智能模型。英矽智能搭建的高效人工智能药物研发平台Pharma.AI,包括PandaOmics™、Chemistry42™、inClinico™三大组成部分,其中inClinico™ 是一个SaaS模式的在线软件系统,旨在预测临床试验II期至III期的转化成功率,它整合了多种评分方法、多模态数据源(包括文本、组学、临床试验设计和小分子特性)以及生物学背景,并与深度学习模型相结合。2022年11月以来, inClinico™以SaaS形式提供服务。
用于预测临床试验结果的人工智能框架和数据源概览
根据英矽智能发表的论文,inClinico平台在55,000多项独特的II期临床试验中进行了训练,并在回顾性、准前瞻性和前瞻性验证研究中进行了验证。在准前瞻性验证中,inClinico 在预测临床试验II期至III期的转化成功率方面的 ROC AUC 达到了0.88。在前瞻性验证中,它对真实世界临床试验结果预测的准确率达到了79%。
除了成功预测多项临床试验II期至III期的转化结果外,该研究结果还表明,靶点选择比临床试验设计更有可能影响临床试验结果预测。此外,论文还展示了inClinico的投资应用,使用了日期标记的虚拟交易组合,展示了35%的9个月投资回报率。以投资为目的的实践还表明,inClinico 可以为投资者提供技术上的尽职调查见解,并帮助制药公司确定药物开发项目的优先次序。
inClinico用于预测临床试验结果的人工智能框架和数据源概览
inClinico核心用途和功能
4. AI助力临床试验数据管理
(1)最新技术举例
新药研发是一个数据密集型的工作,虽然过去几年中AI取得了令人瞩目的进展,但研究者们仍然面临着海量数据的挑战。如临床研究数据管理需要包括从研究设计、研究注册、数据采集、患者随访、项目管理、安全预警、数据管理与初步分析的全链条管理。
单临床试验的纳入/排除标准可能多达六七十项,而这些标准可能包括实验室检查结果、过去的药物暴露史、药物反应等。此外,临床试验数据的固有复杂性和多样性面临着进一步的挑战。如在肿瘤治疗领域,临床试验通常包含多方面的设计,包括复杂的组织取样和分子处理要求。因此,医疗组织必须确保拥有具备经验丰富的医护人员,但传统的数据收集管理存在诸多问题,数据的可靠性、安全性和准确性得不到保证、数据易丢失、数据核查的工作量太大、数据管理的费用过高且过程较为繁琐等,整个过程会推迟临床研究进展。改革传统临床数据管理模式迫在眉睫。如何完整、及时、高效地采集数据变得尤为重要,人工智能和机器学习工具的使用也应运而生。
具体而言,AI在临床试验数据管理方面的应用包括数据收集和整合,数据清洗和标准化,数据监测和质量控制,以及数据分析和预测等。目前,在临床试验数据管理中,运用AI的主要技术包括:ML (机器学习) 、DL以及NLP等。
近年来AI在临床试验数据管理方面已取得一定进展。如:在2023年美国临床肿瘤学会(ASCO)会议中,Concert AI分享了它如何成功地自动化了一项研究所需的55%的数据,该公司研发的DTS eScreening软件,是一种基于ML的工具,旨在根据临床试验入排标准对患者进行排名;2023年6月13日,领先的临床数据技术和自动化公司Beaconcure宣布获得1400万美元B轮融资, Beaconcure的人工智能平台Verify是与辉瑞联合开发的,它简化了临床试验数据统计分析过程并使之自动化;此外,生成临床研究报告 (clinical study reports, CRS) 是临床试验的重要组成部分,通常需要数周或数月,而 NLP处理先驱Yseop于2023年6月推出“Yseop Copilot”,据Yseop,使用该技术自动撰写CSR有助于将报告撰写时间平均减少40%。Yseop Copilot采用了预训练的大型语言模型,并结合了数据到文本(符号AI)和文本到文本(预训练的开源LLM)技术。
(2)国内企业布局
国内,将AI技术应用到药物开发的临床及临床后阶段企业较少,在IND阶段后,对临床试验数据的管理、分析是应用相对较多的场景,主要有普瑞基准、耀乘健康等企业。
据公开信息披露:耀乘健康科技AI技术团队实施了 AuroraPrime 底层架构与 OpenAI 的对接,并着手在多条产品线中实际落地应用场景。包括: Prime Create、 Prime Coordinate、 Prime Catalog等等。Prime Catalog 是在 AuroraPrime 平台上构建的企业级文档管理系统,包含了 eTMF、项目公盘等文档产品,满足了企业级文档、项目级文档和项目 eTMF 多维度的文档管理诉求。在OpenAI助力下,可结合项目 eTMF 目录结构以及上传的文档名等关键信息,在用户操作过程中智能推荐文档的归档位置等,提升整体文档管理效率。
AuroraPrime 临床研究平台
国内将AI应用于临床试验数据管理的代表企业及应用场景
5. AI赋能药物注册eCTD申报
CTD(The Common Technical Document,共同技术文件)是国际公认的文件编写格式,用来制作向药品注册机构递交的结构完善的注册申请文件。一共分为五个模块,模块一行政管理文件和药品信息;模块二通用技术文档总结;模块三质量;模块四非临床试验报告;模块五临床研究报告。其中,模块一为区域性要求,具体内容和格式由相应的监管机构规定,模块二、三、四和五为国际通用要求。电子通用技术文档(eCTD)是对CTD的一种电子化呈现和管理方式,通过可扩展标记语言(XML)技术将基于CTD文件结构和eCTD技术规范的文件加以组织,并用于药品注册申报和审评的一种注册文件技术格式。eCTD使申报资料编制、申报、受理、审评、全生命周期管理和档案存储更加便捷经济,既保障了资料的申报质量,又提高了审评效率,更重要的是使申报资料的格式、内容及标准要求保持全球通用性和一致性。
中国国家药品监督管理局已自2021年12月29日起全面开展和推进药品电子通用技术文档(eCTD)申报,正式打开了eCTD申报时代的大门。可以预见,随着 eCTD 在我国的全面实施,递交网络化及验证自动化、eCTD 4.0 试点以及云数据和 AI 自动化等应用也将逐步落地。
目前国内较为典型的是成立于2017年的深度智耀,其自主研发的AI智能系统和相关服务覆盖制药研发全链条,其中就包含全球注册申报以及文本智能(医学写作、医学翻译、eCTD递交、文档管理)等各模块。在临床研究阶段,包括 AI 驱动的药物警戒系统、注册事务系统、写作翻译系统、临床数据编程系统等产品。另外,公司的AI 自动翻译写作申报系统实现集医学写作、医学翻译和注册申报“三位一体”的人机交互自进化平台,改变以往上述三大环节的割裂状况,重构了传统的数据文件整合模式。
第五章 AI+药物生产及商业化
1. AI赋能药物生产支持
(1)最新技术举例
人工智能为药物生产也提供了许多可能性,包括但不限于优化工艺设计和工艺控制,智能监测和维护,以及趋势监测以推动持续改进等,使用人工智能来支持药品生产,可以与其他先进的生产技术一起部署,以实现预期的效益。人工智能是实施工业4.0模式的助推器,可以为生产商带来一个控制良好、超级连接、数字化的生态系统和医药价值链。
根据 FDA药品审评和研究中心发布的《药品生产中的人工智能》讨论稿,AI用于药物生产可主要分为四个场景,包括工艺设计优化以及工艺放大、高级工艺控制、工艺过程的检测以及缺陷的检查、趋势分析和检测。
目前,AI用于药物生产尚不成熟,但已取得一些阶段性成果。如生物技术公司Pow.bio通过AI+连续发酵平台,朝着优化和自动化发酵的方向发展,使其既具有成本效益又精简。
Teledyne DALSA开发了一种特殊的盲文视觉检测系统,该系统使用带有面扫描摄像头的VICORE智能视觉系统的形状阴影技术,以及Sherlock形状阴影算法,从背景复杂的盲文中获取对比度较高的3D效果图像。然后,Sherlock应用预处理程序优化盲文点的残缺形状,从而使OCR算法能够读取盲文字符,以帮助盲人阅读药品说明书。
在工艺优化设计中,可采用数字孪生技术。工艺数字孪生是物理过程的数字复制,用于更好地理解、分析、预测和优化工艺性能。对于分析以有限的开发数据为特征的制造工艺,数字孪生尤其有用。如:GSK与西门子公司合作[1],在中试规模验证数字孪生技术并获得成功;奥地利初创公司Novasign开发了基于混合模型的数字孪生系统,运用该系统对大肠杆菌表达超氧化物歧化酶的过程进行优化[2] ,加速发酵过程优化的进程;西门子公司2019年收购PSE公司过程数字化模型软件平台gPROMs,用于布局生物过程数字孪生系统。
数字孪生关键架构
在药品制造中,可以使用如神经网络等AI/ML技术,以实时过程数据为输入,来实现APC。这些方法也可以用于开发能够预测一个过程是否在一个控制状态下运行的过程控制,这需要结合实时传感器数据使用AI/ML工具,包括与生产线的智能监控相结合,以提高现有制造线的效率和产量。
对于药品质控,常常采用机器视觉检测技术。在制药生产过程中,对具有难点的产品进行检查是一项非常具有挑战性的工作。如:对于无法完全去除气泡的高粘度注射液,区别这些气泡与颗粒存在困难。在达到平衡的检测水平和误剔率之前,这些情况通常需要长期进行视觉算法开发与优化。“AI图像视觉检测”,其本质是通过基于深度学习的AI算法,对检测物进行图像采集,并进行样本标注、训练,从而达到对检测物进行分类决策的目的,将良品与不良品进行分类处理。
对于趋势监控, AI/ML可以被用来辅助审查偏差报告,这些报告通常包含大量的数据或文本,用于分析制造相关的偏差趋势,聚类问题领域,并优先处理需要主动持续改进的领域。与过程性能(Ppk)和过程能力(Cpk)指标集成的AI/ML方法可以用来主动监控制造操作的趋势和失控事件,并预测触发CAPA(纠正和预防措施)有效性评估的阈值。
(2)国内企业布局
具药融咨询统计,目前国内已将AI技术运用于制药环节企业不多。AI+制药企业主要包括沃时科技、大湾生物、胜普泽泰,三家企业研究领域有所不同,但在药物制造上,均主要用于工艺优化。
沃时科技聚焦于小分子化合物,在AI+逆合成与工艺场景优化上发力,服务客户主要为CRO、CDMO企业,帮助这些公司合成分子并在合成工艺上进行优化。
大湾生物将AI技术主要应用于生物药领域,公司已有3个智能化生物工艺开发平台进入商业化运作阶段,包括Klone4.0™、AlfaStaX®与AlfaMedX®。通过AI技术与生物技术,大湾生物进行抗体蛋白类药物CDMO工作,通过 AI技术和生物工艺相结合,开发定点整合高表达细胞株。
胜普泽泰致力于多肽药物的研发和生产服务。该司以大数据与AI驱动的Chemical Space新药发现技术在瑞士发展近20年,已合作药企众多,包括ROCHE、LONZA、BRACCO、人福药业、兴齐眼药等。
我国制药行业年产量高,且种类众多,胶囊、片剂等在生产及铝塑封装过程中不可避免会产生缺粒、凹坑、破损、批号不清等缺陷。在制药过程中,除生产工艺需要优化外,对于药品的质检也具有迫切需求。一些通过人工智能技术提供先进生产力的企业,涉足领域较广,也包含生命科学领域。如:镁伽科技、科亿科技等,此类企业多为药企提供产品的缺陷检测。
此外,太仓中科信息技术研究院携手华为推出智瞐系列智能视觉检测产品。该产品基于昇腾AI基础软硬件平台,融合迁移学习、数据增强、弱监督检测等AI模型算法,解决了对泡罩药品跨产品、跨型号、跨类别的通用检测难题,为制药行业打造药品封装缺陷检测的数智化解决方案。
智瞐系列智能视觉检测核心产品包括:
A. 智瞐 ZMAI 视觉检测软件:基于昇思MindSpore AI 框架和MindX深度学习视觉SDK;B.智瞐工业AI视觉检测平台:可实现大规模数据的快速训练和迭代,建立全面的缺陷检测模型库;C.智瞐药品检测设备及模组:基于昇腾Atlas 300 AI推理卡,独立检测设备ZMX-100可直接对药板的正反面包装缺陷及药品缺陷进行全方位检测;独立视觉检测模组ZMX-320可加装在药品泡罩机上,在高节拍快速检测的同时实现识别精度的有效提升。
昇思MindSpozre总体架构
2. AI赋能药物市场开拓与商业化
(1)最新技术举例
AI营销是指利用人工智能技术和算法来辅助和改进市场营销活动的过程。它结合了大数据分析、机器学习和自然语言处理等技术,通过对海量数据的处理和分析,提供个性化、精准和智能化的营销解决方案。在AI营销中,人工智能可以帮助企业实现的目标包括:市场分析和预测、目标受众定位、个性化营销和推广、自动化营销、客户关系管理,以及营销决策支持等,这些应用可以帮助药企更好地理解市场和消费者需求,以提供个性化的营销和推广。
此外,AI在药物市场开拓中,一个重要的作用为帮助产品定价,确定价格的方法为利用其可模仿人类专家思维的能力,对产品生产后的定价控制因素进行评估。决定创新和仿制药价格的因素包括:药品研发过程中的支出、相关国家的价格监管制度、独占期的长短、专利到期一年后创新药的市场份额、参照产品的价格以及定价政策等。
目前已有企业将AI应用到药品市场开拓与商业化中,如 Intelligence Node、Veeva Systems、Aktana、 DeepIntent等等,Node推出的 In competitor 是一个零售竞争情报平台,可分析竞争对手的定价数据,帮助零售商和品牌商监控竞争对手。
在AI药物市场开拓中,用到的AI技术主要包括:NLP、ML、数据挖掘和大数据分析等。在 ML 中,软件会分析大量统计数据,如产品开发成本、产品市场需求、库存成本、制造成本和竞争对手的产品价格等,然后开发出预测产品价格的算法。
(2)国内企业布局
2023年全球经济不确定性增强,市场承压、竞争加剧,传统医药营销模式下,成本高、效率低、转化差、手段单一所带来的问题更加凸显,这也倒逼企业加速转变营销模式与技术策略,开辟第二增长曲线。而通过人工智能技术可以更准确地了解患者需求,从而确定更适宜的药品营销策略,基于人工智能的分析,也能帮助制药公司缩短市场反馈周期,从而优化药品推广策略等。
在此背景下,国内在AI赋能药物商业化上迎来一定进展,据药融数据统计,目前国内赋能药物市场开拓及商业化企业共六家。通过对其服务内容和应用场景进行分类,我们发现,企业提供服务内容大致可分为:与KOL的沟通交流、市场准入策略制定、销售预测、竞品对比以及话术合规。
3. AI逐步应用于药物警戒领域
药物警戒(Pharmacovigilance-PV):药物警戒是与发现、评价、理解和预防不良反应或其他任何可能与药物有关问题的科学研究与活动。
目前,AI已在PV管理中发挥了非常重要的作用。AI,包括ML方法,如自然语言处理和深度学习,可以检测和提取药物不良事件的信息,从而使药物警戒过程自动化,改善对已知和记录的药物不良事件的监测。此外,随着对远程医疗服务需求的增加,在管理急性和慢性疾病方面,AI可以在检测和预防药物不良事件方面发挥作用。以数据智能技术为支撑,健全药品安全监管体系,是完善健康保障的重要一环。
哈佛大学对基于ML的AI的使用进行了范围审查,检索了PubMed、Embase、Web of Science和IEEE Xplore数据库,以识别2000年至2021年9月发表的与ML在药物警戒中的使用相关的文章,结果显示,大多数研究 (53%) 侧重于使用传统统计方法检测安全信号。在使用较新的ML方法的研究中,61%的研究使用了现成的技术并稍作修改。时间分析显示,近年来,深度学习等较新的方法使用越来越多。AI的进步尚未完全渗透到药物警戒领域 (尽管最近的研究表明这可能正在改变)。在整个药物警戒管道中,存在着实施ML方法的机会。
FDA将AI应用于PV以提高IVSRs分析的效率和科学价值时间相对较早,除了每年从制药行业收到的近200万份FAERS报告外,FDA还将公众直接提交给其的数十万份报告处理后传输至FAERS数据库。从对FDA工作进展的描述中可以看出,AI用于PV时,大多数工作都涉及到使用NLP(自然语言处理)从ICSRs叙述中自动提取涉及因果关联性评价的关键性特征,少数工作试图开发可预测的机器学习(ML)算法,试图将ICSRs关键信息要素提取、整合和分析的人类认知过程自动化。
FDA近年来将人工智能应用于药物警戒活动的主要进展见表:
国内企业布局
根据已发布的2022年国家药品不良反应监测年度报告,2022年,全国药品不良反应监测网络收到不良反应报告202.3万份;1999年至2022年,全国药品不良反应监测网络累计收到不良反应报告2085.6万份[1] 。鉴于每年接受的庞大ICSRs(个例安全性报告)数量,如何处理、分析、评价和利用这些庞大而异构的海量数据,如何更好地利用ICSRs为上市后药品监管工作服务,是我国药物警戒(PV)工作的重大挑战之一。 PV系统的两个主要构成部分包括单个案例处理:即个人不良事件的收集、解读和报告,以及信号检测,对AE数据进行持续性的趋势监测以判断是否有未知的安全信息会对风险获益评估结果产生影响。
我国在人工智能用于PV上起步较欧美国家晚,但当前,基于真实世界数据和数据智能技术的药物警戒系统正在重塑我国药品监管格局。
目前国内利用AI技术提供药物警戒服务的企业约七家左右,这些企业大多集中在北京,且类型均为Saas 服务。除洞悉网络外,其他公司除药物警戒外还提供药物研发生命周期的其他服务。而成立于2016年的洞悉网络专注医药安全,采用“全生命全产业链医药安全产业数字化SaaS+安全重度垂直服务”的模式,面向医药行业,提供覆盖临床试验到上市后全生命周期的药物警戒及风险管理服务。
国内AI+药物警戒企业清单
第六章 AI制药行业总结及未来展望
1. 现状分析及展望
AI新药研发技术迎来成果检阅,多款药物进入临床,但尚无药物成功上市。
尽管全球已有多款AI研发药物进入临床,且最高进展已到临床三期,与此同时,有很多利用AI技术研发的药物进入临床后失败,目前尚无AI研发的药物成功上市 。如:2023年 7 月 31 日,日本住友制药和大冢制药宣布,其合作在研的 ulotaront 药物的两项 III 期研究精神分裂症临床试验未能达到主要终点。 Ulotaront 是一款利用人工智能技术发现,具有 5-HT1A 激动剂活性的TAAR1激动剂,目前正在研究用于治疗精神分裂症、广泛性焦虑症和重度抑郁症的辅助治疗,并正在考虑其他适应症。由Exscientia和日本住友制药合作开发DSP-1181的药物,是一种用于治疗强迫症(OCD)的长效血清素5-HT1A受体激动剂,这是全球首个由AI设计的分子,但因临床I期研究未达标而停止研发。
英国头部AI药企Benevolent AI公布其治疗特应性皮炎的局部泛Trk抑制剂BEN-2293的Ⅱa期临床没有达到次要疗效重点,Relay Therapeutics在AACR2023会议上披露了选择性PI3Kα抑制剂RLY-2608的临床数据有效性不佳。
Recursion(Nasdaq:RXRX)开发的REC-3599用于治疗一种罕见病—GM2神经节苷脂沉积症临床一期结束后下阶段的临床试验迟到2年也已停止研发。
国内借助AI进入临床阶段药物及进展
AI制药存在“数据困境”,但并非无法破局。
数据是AI的三大核心要素之一,一方面,AI能够从海量的生物医药数据中挖掘出价值点;另一方面,AI药物研发又普遍受到数据之苦。 AI/ML模型本质上是数据驱动的,对用于训练、测试和验证的数据的属性或特征特别敏感,然而数据需要考虑偏见、完整性、隐私和安全、出处、相关性等各种问题。鉴于AI/ML模型本质上是数据驱动的,基于获取的各种来源的训练数据不断升级,这使得模型很容易纳入人为偏见,所以,在开发各种AI/ML模型时,应尽一切努力获取平衡、客观和高质量的训练数据集。
现阶段,大多数公开数据库来源于文献和实验室数据以及通用数据库。但目前存在诸多问题,如:由于生成数据的实验条件和记录数据的格式或注释往往不相同,存在数值不一致、数据缺失、误差等问题,难以被计算机统一识别。且医药领域普遍存在“数据孤岛”,大多数高质量和核心数据掌握在少数企业中,保密性极强,公开可能性较小,制约了行业的整体向前发展。大型通用数据库能够对初始生成模型进行预训练,用来评估其模型能力。但公开数据集一般质量参差不齐,需要自主进行筛选过滤和标准化。针对不同的场景,基于不同的数据维度与颗粒度进行数据清洗处理,还需要较大的投入。
与此同时,从偏差的数据中,亦可挖掘出有价值的信息。2023年8月31日,发表在 NEJM综述表示:开发医学人工智能工具的时候,“偏差的数据” ,比如人群代表性差的数据、信息缺失的数据等等,也具有其价值,不应该只简单丢弃或者技术上的 “矫正” (特别是有些 “矫正” 缺乏依据,加剧偏差)。这些 “偏差的数据” 蕴含着丰富的信息,比如,它们就像 “文物/遗迹” 一样,可以反映当时或现在的社会、制度状态;将来结合创新的人工智能工具,就可以很好的总结这种 “数据偏差模式” ,帮助人们进一步分析偏差成因,并促进更公平的医疗。
AI赋能药物开发多集中在药物发现阶段,临床试验阶段应用或为AI带来新方向。
全球范围内,AI制药均主要集中在药物发现环节。可能原因在于,该环节以化学过程为主,研究人员对候选化合物数据的完整性及可重复性、化学稳定性、理论认知度等都有较好的把握,有利于AI建模。
但临床试验阶段有较大不同,是以生物学过程为主,其复杂性在数据和AI建模两方面带来巨大挑战。在数据方面,需要将临床数据加以结构化处理,而诸如病历、随访记录目前还很难标准化、数字化;此外,由于涉及患者隐私,目前尚无能充分保障数据安全的有效措施,这也限制了临床数据的灵活运用。在AI建模方面,化合物与人体靶点的反应过程非常复杂,但目前理论认知还不足,受环境影响因素很大,数据稳定性和可重复性差,所以不利于AI建模,对疗效和安全性的影响也难以把控。
因此,对于真实可信、覆盖临床各环节的完整临床数据库,还有较大发展空间。
“黑盒”算法带来安全风险,突破其不可解释难题意义显著。
AI算法“黑盒”问题是指由于广泛应用在AI产品上的深度学习等主流算法模型内部结构复杂、运行过程自主性较强且人工无法干预等因素,在数据输入、模型训练、结果输出等方面出现运行机制难以解释的情况,人工智能的内部工作原理对最终用户来说是不可见的,导致运行结果无法完全掌控。
当人工智能模型是“黑盒”时,很难理解模型是如何得出预测以及建议的。人工智能的可解释性提供了对人工智能模型内部工作的深入了解,例如有助于预测的潜在因素、特征或模式,并解释了这些模型的决策过程和输出。目前深度学习作为AI技术的主要算法之一,其特点是通过大量的训练数据对模型训练,最终确保在特定输入数据下通过“黑盒”运行,得到更加智能、精准的输出结果。
在生命科学行业,人工智能越来越多地被用于在可能危及生命的地方做出具有深远影响的关键决策和预测,如疾病诊断、治疗计划或药物开发,可解释性对于确保透明度、可信度和监管合规性至关重要。如:浙江大学指出,由于历史数据的偏差,曾发生过算法对肺炎患者诊断出错等问题。从产业实践上看,目前各家科技公司基本利用自身所搜集的有限数据进行测试,各公司宣称“安全”的AI产品往往具有很多较难发现的安全漏洞。因此,一旦未经充分安全测试的相关产品大范围应用于医疗/制药领域,将暗藏错误推理、错误决策等较大安全隐患。
对“黑盒”算法进行更多可解释性的分析研究,使人工智能模型的输出更具透明度,如:对于小分子,如果结合自由能的预测,或是基于靶点口袋的分子生成,或是对先导化合物进行优化改造,将微观物理的信息融入到深度学习框架之中,这个模型就能够更好地学习到真实的因果关系或物理规律,模型的鲁棒性和可靠性也会得到大幅提升。或许会成为未来的主要发展趋势之一。
集采、医疗反腐背景冲击下,AI+市场营销迎来新机遇。
2023年7月21日,国家卫健委同教育部、公安部、审计署等十部门联合召开视频会议,部署开展为期1年的全国医药领域腐败问题集中整治工作。随后多个省份已发文,跟进集中整治。此次反腐行动力度大,覆盖范围广,强调针对医药领域生产、供应、销售、使用、报销等重点环节和“关键少数”,深入开展医药行业全领域、全链条、全覆盖的系统治理。
在此背景下,医药行业对于药品学术推广及市场营销等的合规性要求愈加严格,而传统质检难以全面覆盖销售推介和客户服务交流的内容,存在极大的合规风险。但智能质检可提供通话记录全量质检,不遗漏任何违规项,如过度承诺、询问药量等,在医疗反腐大背景下可能迎来一定的市场机会。此外,在药物市场开拓中,AI技术辅助营销可以及时向医生提供专业医学内容,帮助医生提高专业知识储备、满足研究需求等。
2. 上市企业商业化模式
纵观全球上市的AI制药公司,从业绩上讲,盈利能力较低,年度营收过亿的企业仅有2家。
鉴于目前尚未有真正意义上的AI药物上市,AI制药行业目前商业模式主要分为:
(1)AIDD相关软件销售/技术平台授权:该模式毛利率极高,但技术门槛高且集聚效应强,市场规模优先且少数头部企业几乎实现垄断,通过该模式实现盈利企业数量较少,如Schrödinger;
(2)转移研发风险的CRO模式:帮助企业完成药物发现工作,收取授权费。相较于创新药物研发,变现难度相对低,回款周期较短,是多数企业的选择,如AbCellera Biologics;
自行承担研发失败的风险的合作/项目转让:通常采取里程碑式付款,目前首付款比例有下降的趋势;
(3)“财务投资+项目管理”模式:低价买入药企闲置的临床管线,减少研发成本,后续自行研发药物,如Roivant Sciences、Erasca。
全球AI制药上市企业信息汇总
3. 全球主要AI制药上市企业
(1)AbCellera Biologics
AbCellera Biologics,主营抗体发现和开发平台AbCelera ,专门设计用于解决传统抗体发现的障碍,以更高的精度和速度找到最佳的临床候选药物,更快地到达诊所和患者。 借助平台,公司搜索范围广泛的不同抗体,快速选择最有效和可开发的先导物,并通过授权、交易先导化合物及建立合作伙伴,开发优化的解决方案实现盈利。公司与40个合作伙伴签订超174个项目合同,其中149个项目包括里程碑和版税。
(2)Exscientia
Exscientia是全球具有代表性AI驱动的制药企业,采取和外部企业合作形式,共同推进研发管线,利用广泛合作沉淀更多的数据支持其算法模型进行迭代和优化。Exscientia利用已开发的人工智能平台进行自动化药物的研发指导,利用大数据和机器学习方法,根据已有药物研发数据自动设计的小分子化合物,并根据药效、ADMET等条件对化合物进行评估和筛选,对筛选出来的化合物进行实验检测,并反馈到AI系统中进行筛选。Exscientia内部管线专注于肿瘤领域的药物开发,而合作管线则侧重于其他治疗领域。
(3)Schrödinger
Schrödinger成立于1990年,是AI制药领域中的明星企业。Schrödinger的核心技术平台是物理计算平台,即基于物理学的预测方法和机器学习技术,为预测模型、数据分析、合作等提供整合差异化解决方案,以加速药物发现。Schrödinger采取“软件营收+新药研发”的布局,与预营收模式的药企相比,具备客户稳定且毛利率极高的分子模拟技术及相关软件销售兜底(全球TOP 20药企均为其客户,且使用时间超10年),而与AI平台公司相比,其新药研发业务更具潜力。
(4)Valo Health
Valo Health成立于2019年。Valo的Opal平台能够通过分析人类数据,发现专有的新分子、遗传标记和疾病之间的未知关联。Opal是一个完全集成的、组件化的、端到端的药物开发平台,采用云计算和人类数据。这个计算平台由于减少了药物开发过程的成本、持续时间和失败次数而使其更加高效。
(5)C4X Discovery
C4X Discovery是一家药物发现公司,将AI技术与尖端的药物发现技术相结合,有效地发现世界领先的创新药物。公司致力于发现和开发小分子药物,治疗免疫炎症性疾病,,以高效地发现世界领先药物。同时,C4X Discovery与国内外制药公司合作(如阿斯利康、Horizon、成都先导等),致力于开发出更好、更安全、更有效的药物。
(6)Recursion Pharmaceuticals
Recursion Pharmaceuticals,是一家利用计算机视觉技术处理细胞图像并分析细胞特征以评估患病细胞的药物后反应结果的公司。利用成像技术和AI技术进行高通量的细胞模型实验。公司致力于在数百种疾病的细胞模型中测试数千种候选药物,最终找出不同疾病对应的新药。
(7)Relay Therapeutics
Relay Therapeutics是一家以分子动力学模拟见长的AI药物发现公司,旨在将蛋白质结构和运动的深刻理解应用于药物发现。该公司将基因组数据、计算科学以及实验科学深度融合,致力于改变药物发现的过程。
(8)Roivant Sciences
Roivant Sciences成立于2014年,专注孵化创新药企。Roivant旗下现拥有12家子公司涉猎AI制药、数据整合与分析、免疫疗法等新兴技术。Roivant Sciences成立AI+CRO子公司VantAI ,主要为大药企提供从头药物设计、靶点预测、蛋白降解剂的计算设计和优化等服务。收购蛋白降解公司Oncopia Therapeutics,形成子公司之间的协同布局。同时创办新公司Psivant Therapeutics搭建计算物理驱动的药物设计平台。
(9)Icosavax
Icosavax成立于2017年,主要利用华盛顿大学蛋白质设计研究所授权的类病毒颗粒技术,搭建技术平台用于新型高效疫苗的发现。VLP平台技术旨在实现复杂病毒抗原的多价、基于粒子的呈递,这将诱发对特定病毒的保护。Icosavax的产品线包括针对呼吸道合胞病毒(RSV)、人类偏肺病毒(hMPV)和严重急性呼吸道综合症冠状病毒2(SARS-CoV-2)的候选疫苗。
(10)Erasca
Erasca是一家开发RAS/MAPK途径驱动的癌症疗法的生物技术公司,其目标是开发新一代抗癌药物,彻底治愈癌症。Erasca采用了一种模式诊断方法,通过小分子治疗药物、大分子治疗药物和蛋白质降解剂,选择性地、有效地抑制或降解RAS/MAPK途径中的关键信号节点。OPRA(肿瘤模式识别算法)是Erasca专有的人工智能药物发现平台,它利用机器学习等先进的计算工具,通过阐明新颖的肿瘤生物学和创新策略来加速药物发现。
(11)Evaxion
Evaxion成立于2008年,公司使用免疫学、生物信息学和机器学习方法,来发现和开发针对感染和癌症的有效疫苗。Evaxion的两个平台PIONEER和EDEN可以预测、排列和优化表位和抗原。EDEN能快速准确地揭示新的抗原,而PIONEER则能识别引发自然保护性免疫反应的变异蛋白质表位。
全球AI制药企业临床管线汇总
全球AI制药企业大宗项目合作交易
以上内容均来自{中国AI制药企业白皮书},如需查看或下载报告,可点击!
<END>
想要解锁更多药物研发信息吗?查询药融云数据库(vip.pharnexcloud.com/?zmt-mhwz)掌握药物基本信息、市场竞争格局、销售情况与各维度分析、药企研发进展、临床试验情况、申报审批情况、各国上市情况、最新市场动态、市场规模与前景等,以及帮助企业抉择可否投入时提供数据参考!注册立享15天免费试用!
收藏
登录后参与评论