洞察市场格局
解锁药品研发情报

免费客服电话

18983288589
试用企业版

峰瑞资本合伙人马睿:以AI为点,换个思路看待生物医药

峰瑞资本 马睿


ChatGPT的热浪从去年一直席卷到今年,带来了一场全民的科技狂欢。GPT在获得热烈讨论的同时也让人们对其未来的落地焦点与应用趋势陷入了思考。如今人工智能与大众的“蜜月期”已过,正是我们聚焦到生物医药行业,探究GPT的出现是否会带来变革以及具体应用的可能之时。


鄂维南院士提到,AI特别适合解高维数学方程,帮我们接近复杂的科学问题。相比于物理、化学和材料,生物学更加非线性和更加复杂,无法用简单的方程或原则描述,更加需要AI来帮助降维。峰瑞资本合伙人马睿先生非常认同此观点,他曾经提到,在生物领域,测量工具将给我们带来真正高通量的数据,Bio可能是最适合AI驱动的领域之一。Gpt x Bio会带我们走向AI制药的2.0时代。


    马睿,峰瑞资本合伙人。马睿博士是峰瑞资本合伙人,关注材料和生物科技方向,在智能化、材料、生物和能源的前沿交叉领域寻找投资机会。代表项目包括清陶能源、晶泰科技、剂泰医药、蓝晶微生物、优脑银河、苏州安益谱、芯宿科技、衍微科技、多场科技等。

    加入峰瑞资本前,马睿曾任职于生态环境部,深度参与国家政策和规划的制订。马睿在纳米材料和化学领域有十余年的研究经历,拥有卡内基梅隆大学工程学博士学位,及清华大学硕士和学士学位。他早前曾任CMU学生学者联合会主席,并创立了CMU中美创新创业峰会(CMU SUMMIT)。


那么,人工智能对生物医疗领域的冲击是什么?未来生物医药会走向何方?


马睿先生给出了以下的回答:


“ AI能够在隐式空间里对高维的问题进行降维,在没有维度爆炸的情况下来解决问题。 ”


“ 在今天来看还是有不少技术瓶颈 ”


“ 未来整个生物科技可能会挪到生成式生物的模式上 ”


01


为什么注定会有AI制药2.0


“AI能够在隐式空间里对高维的问题进行降维,在没有维度爆炸的情况下来解决问题。 ”


PLM和NLP很像。上图最下方的泛素蛋白的氨基酸序列看上去跟一段文字没什么差别。这个蛋白的氨基酸序列就像字母表里的字母,蛋白的二级结构很像文字里的单词,如果用一定的顺序把这些二级结构连接在一块,就像一个有语义的句子。如果更大范围地把更大量的结构域累加在一块,就变成了一个长句。它跟语言很像在于,有的时候你改其蛋白中的一个氨基酸序列,它的功能就完全丧失了,在语义上你改一个字母,它就完全不是一个意思。有的时候,你调换一组单词的位置,却并没有改变句子的意思,很像功能域的重排。有的时候有语法正确,但是没有任何意义的句子,很像生物体内有的这种错误折叠的蛋白(内禀无序)。


NLP是预测一句话里面下一个词出现的概率是什么。这个概率和句子中已经存在的词都相关,因此是一个联合的高维(长句子)的联合概率分布。相似的,蛋白语言模型也将是个高维函数。


和物理相比,生物是更复杂的系统,其规律是非线性或者随机的,描述生物关系的函数往往更加地高维。我们很难找到简单的经验公式来描述生物过程。这就是为什么我们只能发现药物,而不能去对它进行设计。生物这样的一个高维的系统是最适合用AI来进行解决的。


为什么AI特别适合解决高维的数学/科学问题?因为AI在隐式空间里对高维的问题进行降维,在没有维度爆炸的情况下来解决问题。Transformer这样更好的特征提取器帮助我们捕捉人脑看不到的隐含联系。超大数据、超强算力、超多参数在工程化上胜过人。制药是从分子到细胞再到人体,是一个多尺度的高维的问题,所以是天然地适合AI来做的。我们对于AI制药2.0的到来深信不疑。

生物医疗里面的数据化和计算,我们把它简单分成两类。第一类是只关心生物大分子本身,沿着中心法则去看DNA、RNA、Protein;第二类是关心相互作用的数据化和计算。


左边的图很好理解,从关心一个基因或一个蛋白变成关心一组基因或一组蛋白,逐渐来到了系统生物学的时代。右边的图,分子间的相互作用是AI制药关心的基础问题。本来我们关心一个蛋白的功能,但现在要把几十个蛋白串联,了解它们之间的相互作用,这个被称为合成生物学。


02


GPT仍有机会?


“ 在今天来看还是有不少技术瓶颈 ”

在各个层次上,模型的计算能力是不一样的,而且差别是很大。从分子到细胞,从生物大分子到相互作用的计算,不能混为一谈。如果只从中心法则上的序列结构功能来看,其实我们在DNA层面,研究得是比较充分的。在蛋白层面,其实是进展最快的。


但是在RNA层面,我们才刚刚开始。上图表格的左边半部分摘自中科院的娄春波老师的一个PPT。他的意思是,虽然你能计算,但是生物系统越复杂就越计算得不准,核酸层面能做到80%的精确度,到蛋白层面可能只有50%,到基因线路层面就只有不到10%,如果你在整个细胞层面来做modeling,就只能做一个定性的描述。


右边我添加了相互作用的大致数据。算小分子和小分子相当于固相化学或者固态化学的这些计算还是比较准的,算蛋白跟小分子就已经不准了,而且这里面AI比CADD(computer aided drug design,计算机辅助药物设计)更加不准。AI的准确度能到多少,这是个见仁见智的问题。


GPT会首先影响到图片中黄色高亮的这两个部分,蛋白设计、蛋白-蛋白相互作用的准确率、阳性率、设计速度会极大地提高,可能会超越我们的想象。如果一年之后再来看,这两个数可能就会非常地高。那将会带来非常大的颠覆,下面就举例说明。

因此,先说结论(上图)——GPT在Biotech领域里的机会,按照现状和技术渗透的先后我认为主要有以下几种机会。


首先,GPT驱动的NLP的进步,直接应用于生物医疗知识的提取。我们能不能从知识、文献等里面挖掘知识?其实在AI制药1.0的时候也有类似的公司。例如,BenevolentAI。


其次,是聚焦在生物大分子本身,序列-结构-功能,能不能去做计算?这个方向进展其实是很快的,比如说单体蛋白质结构的预测基本上已经被Alphafold2解决了。至于结构预测的逆问题蛋白设计,也就是给定功能或者结构,去设计序列,是现在发展特别快的一个领域。在过去一年半的时间里基本上是以月为单位在迭代进化:从计算蛋白的能量,到用transformer,再到用生成式AI和diffusion model。而相比于DNA和蛋白上的计算,RNA结构的预测和RNA的设计才刚刚开始。


第三个层面,就是相互作用的计算。药物的设计往往要考虑抗体抗原结合,蛋白来作为binder(粘合剂),或者说是蛋白和小分子的结合。其实酶的设计,也是要考虑蛋白和小分子的相互作用的动态能量过程。


AI制药1.0很有挑战的地方在于,它选了最难的问题——蛋白和小分子的结合计算,这个小分子还要能成药,最后还要在人体内有效。这些问题即便在今天来看还是有不少技术瓶颈,短期内难以解决。但是对于大分子,我们预测未来1—3年有可能解决蛋白和蛋白相互作用的问题,完全能用计算来解决。如果能实现,这意味着可能以后再做蛋白和蛋白的设计,不用再做实验了,可能和Alphafold2 一样精准,将会带来非常大的颠覆。


03


AlphaFold 2 VS GPT:胜败在此一点


 “未来整个生物科技可能会挪到生成式生物的模式上 ”


二者区别在于,AlphaFold 2还是偏向专有领域,它的进展非常厉害,能够解决一个具体的问题,而且解决得非常彻底,利用计算实现了和做实验一样的精度。


但GPT用在生物领域更像是一个思路,它给我们提供了非常多好的模型、算法,让我们换一个思路去看生物的数据。


我当然觉得AlphaFold 2是厉害的,但我也觉得GPT可能会带来更大的想象力。它们之间的区别主要在于,AlphaFold 2是已经做成专业领域的模型,GPT则让我们有了新的看待数据的方式,催生出 “生成式生物学”这么一个新的理念。


现在回过头来看,AlphaFold 2其实做了两件事,一个是采用了Transformer提取器。在结构预测领域,有些科研人员就把AI 里面的新技术学过来了。


第二,生物科技领域以往最多的数据是在序列测序上,AlphaFold2利用多序列比对(MSA),把蛋白质的结构和生物信息整合到了深度学习算法中。


在生物学领域,多序列比对是开展进化生物学研究的前提。通过研究序列比对中同源序列是如何随时间变化的,可以推断序列的结构和功能是如何进化的。


相比较AlphaFold 2,在生物领域,为什么GPT可能会带来革命性的影响?一句话就是,GPT利用AI学习了进化过程中的生物数据,AI提取了规则之后,可以生成出符合底层生物逻辑,但是不在进化历史里的全新分子。


比如原来我们找不到某个分子,如果把GPT和生物结合在一起,你就有可能找到这个分子,而且更有效率。原来要花一年时间,现在可能几秒钟就能找到。你可以把GPT和生物的结合理解成范式的转移,未来整个生物科技可能会挪到生成式生物的模式上。


现在大家都很兴奋,想着能把GPT用在哪儿。首先是用NLP挖掘现在的知识,然后做蛋白结构预测和蛋白设计,RNA序列的挖掘,以及酶的设计。然后是能不能做药,解决蛋白和蛋白相互结合、蛋白和RNA相互结合、蛋白和多肽相互结合的问题,最后解决蛋白和小分子相互结合的问题。


再往后,大家会考虑能不能预测临床实验的成功率,改一下临床实验的设置,使成功率更高一些。这都是未来的方向,它们可能是顺序的概念,也可能同时发生,因为现在所有做生物学的研究组都高度关注GPT的进展,都在琢磨怎么能够把GPT用上, 希望“又要懂技术,又要强场景”,在场景里把它落下来。


AlphaFold 2现在就为生成式AI提供了一个非常准的判别或计算的工具,可以调用这个工具来做一些生成式的事情。


在生成式生物学里,学了很多数据,掌握了它的底层规则,依据这些规则生成了很多生物分子,这些生物分子有些是你想要的,有些不是。但是生物领域里的容错率还是会比聊天场景要高很多,我设计5000个蛋白,其中只要有1个我想要的,我还是会满意。


随着越来越多的生成,越来越多地学习数据,未来生成式生物可能也会出现数据量井喷。模型越来越大,同时还需要调用一些非常准的工具帮助它去做约束。我觉得这两件事情对我的价值观都产生了影响,我对AI本身会变得更乐观一些。这种迭代会给上层的应用带来非常大的影响,而且是正面的影响。



欢迎大家来现场与峰瑞资本交流互动!

● 扫码关注我们

微信号 : dsbz20101028

新浪微博:@中关村东升科技园

客服热线:4000-1000-33



<END>
*版权声明:本网站所转载的文章,均来自互联网,旨在传递更多信息。鉴于互联网的开放性和文章创作的复杂性,我们无法保证所转载的所有文章均已获得原作者的明确授权。如果您是原作者或拥有相关权益,请与我们联系,我们将立即删除未经授权的文章。本网站转载文章仅为方便读者查阅和了解相关信息,并不代表我们认同其观点和内容。读者应自行判断和鉴别转载文章的真实性、合法性和有效性。
综合评分:0

收藏

发表评论
评论区(0
    添加收藏
      新建收藏夹
      取消
      确认