人类遗传学数据指导药物发现_摩熵医药(原药融云)

导读

中国创新药过去几年投融资遇冷，很大原因是“靶点内卷”导致商业化不及预期。药物的发现和开发是一项耗时、风险高且昂贵的工作，进入临床阶段的药物近九成未能获得批准。中国制药起步采取低风险的follow策略也是产业特定时期的必然。中国制药产业更进一步的发展是需要和国际大药企一起站在创新的前沿。创新意味着风险，整个制药产业都非常渴望能有新的技术提高新药研发成功率。随着高通量测序、各种组学及数据分析技术的迅猛发展，人类遗传学的信息，因其直接来自人体，相比传统细胞或者动物模型，理论上有更高的转化率，尤其是在复杂疾病（如NASH、CNS等）动物模型已被证明转化率非常低的领域，更得到广泛重视。本文主要介绍人类遗传学发展现状及对靶点发现的意义。

选择正确的靶点对新药开发意义重大

药物的发现和开发是一项耗时、风险高且昂贵的工作。根据BIO Industry Analysis对Biomedtracker数据库中2006年-2015年新药的研究，临床阶段的药物几乎有九成的失败率。

图1 新药从临床I期到获批的概率

（适应症按照获批概率从高到低）

药物发现整个工作流程都基于药物靶点展开，药物的效果很大部分取决于靶点的好坏。中国抗体开发和小分子发现等技术逐渐成熟，确定靶点后新药开发效率较高；但即便对国际大药企来说，发现安全、有效、可成药的新靶点也是非常困难和高风险的，因此国内企业多采取follow策略，是导致最近几年中国创新药“靶点内卷”的主要原因。典型的例子如肿瘤免疫的PD-1、ADC领域的Her2、小核酸领域的PCSK9。在2016-2021 期间合计受理新药（1649个）涉及的靶点有520 个；前6% (30) 的靶点涉及41%(681) 的新药。

图2 2016-2021期间新药涉及靶点 T0P 30

选择成熟靶点，尽管一定程度上降低了研发风险，但热门靶点扎堆，同质化问题严重，常常会导致产品上市之后商业化不及预期，从而使得创新药价值难以兑现。

如何低风险的创新或者说降低创新的风险是制药领域都非常关注的话题。那么首先需要了解创新药研发的风险点在哪。一篇发表在Nature Reviews Drug Discovery的文章，分析了2013-2015年II（包括I/II期）-III期临床失败的原因，研究显示临床研究失败的原因主要是疗效不足。导致疗效不足的原因其实可以归结于对疾病生物学认识不足、过度依赖动物模型或候选化合物较差（亲和力、特异性或药代动力学较差）等。

选择正确的生物靶点是开发新药最关键的决策，而确定靶点首先需要确定疾病发生发展的分子机制。而对疾病及其机制的研究通常是基于来自动物、细胞和离体模型等间接证据。多篇综述性文章均表示，基于动物模型生物学的机制在人体试验中经常无法复制。因此，制药界非常需要关于靶标及其潜在临床疗效的更可靠的信息，以提高新药研发成功率。因此，直接来自人类的信息被寄予厚望，这就催生了人类基因组计划的诞生和后续人类遗传学波澜壮阔的发展。

图3 2013-2015年新药II-III期临床失败原因

人类遗传学指导新药发现进展、挑战及对策

人类基因组计划1990年正式实施，对30亿个碱基对构成的人类基因组精确测序，2000年6月26日，人类基因组草图的绘制工作得以完成并于2003年发布。从此为基础，伴随着微阵列、高通量测序和信息技术的进步，以人为研究对象的人类遗传学和各类组学得以长足发展，取得了前所未有的突破。有了海量人类遗传信息，自然而然想到的是如何更好的理解人类基因和性状的关系，并将之转化为药物靶点，从而为疾病治疗提供新的思路和方向。因此全基因组关联分析(GWAS，genome-wide association study)应运而生。GWAS是探索基因与疾病关联性的一种研究方法，其以单核苷酸多态性（SNP）为分子遗传标记，从基因层面发现与复杂疾病相关的遗传变异因素。

图4 GWAS原理示意图

从2005年全球首个复杂疾病GWAS研究结果发表至今，已有6000多篇GWAS与性状或疾病之间相关性的文献发表，揭露超7万个遗传变异与表型的关系。期间GWAS也逐渐从学术界走向工业界，虽然从遗传变异与疾病的关联关系寻找新靶点的逻辑显而易见，但直接应用GWAS的结果到靶点发现上的案例并不多，因为其主要面临两个挑战：

1、靶基因确定：从GWAS发现的突变位点确定靶基因

GWAS是探索单核苷酸多态性（SNP）与疾病关联性的一种研究方法。SNP本质上是一个标签，GWAS的结果实际上都可以概括为“某个标签和某个性状有关”。但首先要解决的问题是该标签“代表”的基因是什么，因为基因才是功能的本体。当GWAS找到的SNP落在基因蛋白质编码区时，那么这种“代表”显而易见，人们能较直接了解SNP对蛋白质功能的影响。但人类基因组有97%的区域是非蛋白质编码区，大部分GWAS研究发现的SNP都发生在基因组中的非蛋白质编码区，可以调节转录，mRNA剪接，mRNA稳定性以及附近或远处基因的翻译。因此GWAS研究多数时候无法直接阐明SNP与蛋白质功能以及疾病发生的关系，这也是大量GWAS的发现未被人们重视和利用的原因。

图5 GWAS遗传变异（编码/非编码）效应的两种代表性机制

通过新的技术方法，揭示这种非编码区突变调控基因表达进而影响疾病的案例比比皆是。

例如，在人类的GWAS研究中，位于基因CELSR2 的3’UTR区（非编码区）的若干个SNP与血清低密度脂蛋白胆固醇（LDL-C）相关，是与心肌梗死（MI）相关的风险位点。按照一般逻辑这些突变一定与CELSR2的调控相关，但通过eQTL（表达数量性状位点）分析以及后续的多群体重复验证，发现表达量与这个区域的突变最相关的基因不是CELSR2，而是位于这个3’UTR区40k下游的SORT1。进一步研究显示，其中最显著的SNP rs12740374通过与转录因子C/EBP结合进而调控SORT1基因的表达。

图6 3’UTR区的突变影响转录因子结合

从而调控下游基因表达

再如FTO基因与肥胖之间的关系的案例。自2007年来，先后有90多篇肥胖的GWAS研究发现，在FTO基因第一内含子上的一个SNP与肥胖发生存在最强有力的关联，所以很自然地认为距离这个SNP最近的FTO基因是导致肥胖的原因，但后续许多针对FTO与肥胖关系的研究并不能认可这一结论。直到2015年一篇Nature文章，通过4C-seq技术（circular chromosome conformation capture, coupled to high-throughput sequencing，是染色体构象捕获技术的衍生技术）发现FTO基因第一内含子在DNA三维空间中，会与下游一个远端基因IRX3的启动子在染色体上直接相互作用，从而影响IRX3的表达。

图7 FTO基因第一内含子对IRX3基因表达调控机制示意图

因此，近十年来随着高通量测序、单细胞分析、QTL分析、蛋白芯片等技术的进步，各种组学（蛋白组学、表观基因组学、代谢组学、转录组学、三维基因组学）数据的积累和持续增长，通过将GWAS数据与这些组学数据结合，相信GWAS发现的SNP位点定位到靶基因的问题将会持续得到解决。

那么，GWAS需要解决的第二个挑战是“关联不是因果”的问题。

2、因果变异：GWAS给出的是“关联关系”而非“因果关系”

限制GWAS应用的一个重要因素是GWAS给出的是关联关系，而不一定是因果关系。GWAS与传统的观察性研究类似，潜在混杂因素和反向因果关系会影响其因果推断能力。因此，一种新的技术方法——孟德尔随机化 (MR) 受到业界的重视，近年来其相关的研究和应用越来越广泛，尤其是在GWAS和组学数据爆炸式增长的今天，更加增加了MR方法的效力，使得其转化能力持续提升，其原理简述如下：

明确因果关系的金标准是随机对照试验（Randomized control trial, RCT)，即对受试者随机分为对照组和实验组，以研究某个因素的影响。但现实中，要完成随机对照试验的难度非常高，需要大量的人力物力，有时因为伦理问题，对某个因素的研究几乎是不可能的。孟德尔第二定律（“受孕时等位基因的独立分离”）意味着这些遗传变异不应该系统地与混杂变量相关联，从而得以可创建一个类似于随机试验的自然实验，原理如下：

图8 孟德尔随机化和随机试验类比示意图

图9 孟德尔随机化分析假设

（孟德尔随机化3个假设：(1)遗传变异与暴漏因素有关；(2)遗传变异与混杂因素无关；(3)遗传变异仅通过暴漏因素影响结局）

大多数药物靶标是蛋白质，蛋白质由基因编码。因此，和蛋白紧密相关的遗传变异（如SNPs）可用作研究该蛋白质靶标干预效果的工具变量。由于受孕时遗传变异的随机分配，遗传变异通常独立于影响亲本基因型的混杂因素。因此，除了由于种群分层或连锁不平衡而产生的关联之外，遗传变异应该独立于混杂因素，只通过其紧密相关的蛋白质（Exposure）与表型（outcome）产生关联。此外，基因型是与生俱来的，意味着基因型不受环境影响，从而减少由于混杂因素而导致虚假结果的可能性，并确保遗传关联免受由于反向因果关系而导致的误差。因此，与GWAS及传统的观察性流行病学分析相比，孟德尔随机化分析从理论上，很有可能为因果关系提供更可靠的见解。而且，随着GWAS研究积累数据的持续增长及上述组学的进展，以SNPs为工具变量的孟德尔随机化分析的效力会越来越大。

比如，孟德尔随机研究应用于动脉粥样硬化性心血管疾病(ASCVD)，消除了一些与ASCVD的潜在相关但无因果关系的所谓危险因素，把一些相关性研究的结论进行了纠正。在传统观察性研究中发现与ASCVD相关的危险因素，在随机对照实验和孟德尔随机化研究中均被证明与ASCVD无因果关联的经典例子包括：高密度脂蛋白胆固醇（HDL）、维生素D、维生素E、ω-3补充剂等。其中最违反大众认知的是补充维生素D对心血管的效果，最为行业熟知的是HDL与血脂关系的故事。

（1）维生素D与心血管疾病和全因死亡率

维生素D作为人类必需的一种脂溶性维生素，缺乏维生素D可能会导致佝偻病、骨质疏松症，并与心血管疾病、糖尿病、慢性肾脏病等相关，因此，提到维生素D大家的第一反应就是多补充。但补充维生素D与治疗心血管疾病和全因死亡率的随机试验却基本得出无效的结果。2023年底发表在柳叶刀子刊《The Lancet Diabetes and Endocrinology》中的一篇迄今为止最大的观察性研究，通过孟德尔随机化分析显示：无论个体是否缺乏维生素D，循环25-羟基维生素D[ 25(OH)D ]（评价人体维生素D营养状况的临床可靠指标）与心血管疾病和死亡率结局均不存在因果关系；即使是缺乏维生素D的个体，长期低剂量补充也无法大幅度降低死亡率和心血管疾病的发生率。孟德尔随机化研究结果与随机对照临床研究的结果一致，“补充维生素D与治疗心血管疾病和全因死亡率无关”这一结论也基本盖棺定论了。

（2）HDL与血脂

自20世纪60年代以来，众多流行病学研究及临床随机对照试验已经证实了血脂异常与心血管疾病之间的密切关系，血脂水平管理已经成为预防心血管事件发生的核心措施。脂肪、胆固醇等血脂为疏水性物质，所以必须与载脂蛋白等其他物质结合形成脂蛋白 (lipoprotein) 才能在血液中运输。脂蛋白按体积大小和密度分类可分为乳糜微粒，极低密度脂蛋白 (VLDL)，低密度脂蛋白 (LDL)以及高密度脂蛋白 (HDL)几种主要类型。

1961年Framingham心脏研究首次指出HDL-C（高密度脂蛋白胆固醇）水平与心血管病风险呈负相关，血浆HDL-C每上升0.026 mmol/L，心血管事件发生风险可下降2%~3%。此后许多大规模的队列研究均证实HDL在心血管事件中所发挥的保护作用。这些“相关性”研究使得HDL-C成为公认的“好胆固醇”。

尽管当时已经有多款他汀类药物上市（降低LDL水平），但血脂相关问题并不仅局限于LDL水平过高，有的病人还会出现HDL水平过低以及甘油三酯水平过高的问题。因此寻找能够与他汀类药物产生协同作用的新药仍是药企关注的方向，其中提高HDL水平的药物是当时药物研发的重要方向之一。

2006年12月，辉瑞宣布该公司torcetrapib（通过靶向胆固醇酯转移蛋白CETP升高HDL水平）一项入组人数超过15000人、花费超过8亿美金（可能是当时最贵的临床）的III期临床试验失败。后续礼来、罗氏和默沙东等大药企也都进行相同靶点的药物开发，但均以失败告终。

2012年柳叶刀杂志发表的一篇文章，采用了孟德尔随机法结合GWAS研究LDL、HDL以及心血管事件三者的关系，结果发现只有LDL升高与心血管事件发生存在因果关系，而HDL与心血管事件之间没有因果关系。这就解释了降低LDL蛋白的药物在开发上取得巨大成功，如阿托伐他汀曾经是“一代药王”，而升高HDL蛋白的在临床上却以失败告终。倘若在决定推进大规模临床前多一份人类遗传学数据参考，决策是否会不一样呢？

因此，随着高通量测序和功能基因组学数据的不断积累、孟德尔随机化方法效度的提升和广泛的应用，制约GWAS临床转化的两大瓶颈“靶基因确定”和“因果变异”均实现了突破，人类遗传学数据的宝库中正在和即将逐步被挖出更多有价值的宝藏……

人类遗传学已成功指导多款新药开发

前蛋白转化酶枯草溶菌素9（PCSK9）抑制剂的例子展示了人类遗传学在新药研发领域的重要作用。最初在 PCSK9基因中发现了增强功能和功能丧失突变，分别导致低密度脂蛋白（LDL）胆固醇的血液水平增加或降低。此外，PCSK9的功能丧失变异与冠状动脉疾病的风险降低相关。最重要的是，完全丧失功能的突变人群没有观察到相关的不良反应，意味着针对该靶点开发的药物安全性非常好。这些观察结果对于该治疗靶点的发现和验证至关重要，因为工业界指出了通过药理学抑制 PCSK9是预防或治疗冠状动脉疾病的安全策略。美国食品和药物管理局（FDA）在2015年批准了第一个用于该适应症的 PCSK9抑制剂，这是在最初遗传发现发表后的12年。后来，针对该靶点开发了包括抗体、siRNA、口服多肽（临床）、口服小分子（临床）、ASO（临床）甚至基因编辑（临床）等各种类型的药物。制药产业界几乎使用了所有的成药范式，这都是后话了。

除此之外，在人类遗传学指导下开发的新药案例不胜枚举：

1）CCR5抑制剂：研究观察到在感染 HIV 时，CCR5基因遗传缺陷的个体对艾滋病具有保护作用。FDA 于2007年批准了第一种用于 HIV 治疗的 CCR5抑制剂。
2）SOST抑制剂：研究观察到 SOST 基因中导致疾病的功能丧失突变携带者具有全身骨量增加的现象。骨质疏松症是一种骨量减少导致骨折的常见疾病，SOST 抑制剂 romosozumab 已于2019年获得了骨质疏松症治疗的批准。
3）ANGPTL3抑制剂：研究观察到在 ANGPTL3基因中携带功能丧失突变的个体具有较低的血浆脂质水平，促使了 ANGPTL3抑制剂的开发。2021年2月，FDA 批准了 ANGPTL3的生物抑制剂 evinacumab 作为纯和型家族性高胆固醇血症的治疗。

人类遗传学在新药开发价值已得到业界认可

2015年，GSK研究团队就指出，在那些研究较充分的疾病领域，随着临床阶段的增进，作用机理中有遗传学证据直接支持的药物占比也在不断增加——从临床前阶段到获批阶段，这一比例从2.0%激增到8.2%，表明机理上有依据的药物更容易在临床上走到最后。该团队在摘要最后提到，如果能利用这些数据来选择靶点和适应症，应当会对新药的成功开发带来显著影响。

图10 有人类遗传学数据支持的药物占各临床阶段开发药物的比重

（GWASdb：多个数据源，包括the National Human Genome Research Institute (NHGRI) GWAS Catalog, NHGRI GWAS Catalog补充材料和Genotypes and Phenotypes数据库(dbGaP)；OMIM：Online Mendelian Inheritance in Man）

多年过去了，有研究团队再次回溯 FDA 获批的新药时，发现这一占比再次出现提升。在2021年获批的50款创新药中，有高达66%（33/50）的新药背后有人类遗传学证据的支持。这指的是在之前的研究中，相应靶点或与靶点结合的其他蛋白质被表明与新药获批的适应症相关。

越来越多的证据显示人类遗传学证据支持的药物研发成功率更高。工业界，尤其是大药企也提高了对人类遗传学的重视度。2018年AZ在NATURE REVIEWS DRUG DISCOVERY中发表了公司总结的“5R framework”的概念，用以指导R&D的研究方向和方法。“5R”策略大幅度提升了AZ研发部门的成功率，从PCC到Phase III成功的概率由2005-2010年间的4%提升到2012-2016年间的19%。“5R”策略中“Right target（正确的靶点）”是排在第一位的，如何评估是否是“正确的靶点”？最重要的一条是靶点与疾病之间的强连接。在文章中也明确表示“GSK和 AZ等制药公司注意到遗传学角度得以确认的靶点，会大大提高临床试验中的成功率”。

图11 阿斯利康的“5R”策略

产业和资本对该领域的热情也逐渐起来。我们看到大药企纷纷成立单独的部门或通过对外合作进行人类基因组学的研究，为新管线开拓提供决策支持。2018年7月，葛兰素史克和23andMe达成了一项3亿美元的4年独家合作协议，以发现和开发创新药物靶点和相关疗法。再生元组建遗传中心，并将其在人类遗传学中鉴定的新靶点（HSD17B13、GPR75）推进到临床。用人类遗传学信息指导新药开发的biotech，如Maze Therapeutics、Alector Therapeutics和丹码生物等，也受到资本的青睐。

总结

人类遗传学信息在新药开发领域已崭露头角，并逐渐得到制药界的认可。但这只是冰山一角，因为在人类遗传学相关研究持续发展、各种组学数据爆炸式积累、算力不断进步的今天，人类遗传学所蕴含的信息宝库只会愈加丰富，亟待人类去开采。随着新的数据分析技术不断引入、人工智能的持续突破，我们有充足的理由相信，人类遗传学在指导药物研发上的巨大潜力将持续兑现。

参考文献

Clinical Development Success Rates 2006-2015
Harrison, R. Phase II and phase III failures: 2013–2015. _Nat Rev Drug Discov_ 15, 817–818 (2016).
David Ochoa et al., (2022), Human genetics evidence supports two-thirds of the 2021 FDA-approved drugs, Nature Reviews Drug Discovery.
Trajanoska K, Bhérer C, Taliun D, Zhou S, Richards JB, Mooser V. From target discovery to clinical drug development with human genetics. Nature. 2023 Aug;620(7975): 737-745.
Voight, B. F., Peloso, G. M., Orho-Melander, M., Frikke-Schmidt, R., Barbalic, M., Jensen, M. K., Hindy, G., Hólm, H., Ding, E. L., Johnson, T., Schunkert, H., Samani, N. J., Clarke, R., Hopewell, J. C., Thompson, J. F., Li, M., Thorleifsson, G., Newton-Cheh, C., Musunuru, K., ... Kathiresan, S. (2012). Plasma HDL cholesterol and risk of myocardial infarction: a mendelian randomisation study. _The Lancet_, _380_(9841), 572-80.
Nelson, M., Tipney, H., Painter, J. et al. The support of human genetic evidence for approved drug indications. Nat Genet 47, 856–860 (2015)
Burgess S, Mason AM, Grant AJ, et. Using genetic association data to guide drug discovery and development: Review of methods and applications. Am J Hum Genet. 2023 Feb 2;110(2): 195-214.
Morgan P, Brown DG, Lennard S, Anderton MJ, Barrett JC, Eriksson U, Fidock M, Hamrén B, Johnson A, March RE, Matcham J, Mettetal J, Nicholls DJ, Platz S, Rees S, Snowden MA, Pangalos MN. Impact of a five-dimensional framework on R&D productivity at AstraZeneca. Nat Rev Drug Discov. 2018 Mar;17(3): 167-181.
Floris M, Olla S, Schlessinger D, Cucca F. Genetic-Driven Druggable Target Identification and Validation. Trends Genet. 2018 Jul;34(7):558-570. doi: 10.1016/j.tig.2018.04.004. Epub 2018 May 23. PMID: 29803319; PMCID: PMC6088790.
Harrison, R. K. (2016). Phase II and phase III failures: 2013–2015. Nature Reviews Drug Discovery, 15(12), 817–818.
Long E, Wan P, Chen Q, Lu Z, Choi J. From function to translation: Decoding genetic susceptibility to human diseases via artificial intelligence. Cell Genom. 2023 May 4;3(6):100320. doi: 10.1016/j.xgen.2023.100320. PMID: 37388909; PMCID: PMC10300605.
King EA, Davis JW, Degner JF. Are drug targets with genetic support twice as likely to be approved? Revised estimates of the impact of genetic support for drug mechanisms on the probability of drug approval. PLoS Genet. 2019 Dec 12;15(12):e1008489. doi: 10.1371/journal.pgen.1008489. PMID: 31830040; PMCID: PMC6907751.
Musunuru K, Strong A, Frank-Kamenetsky M, etal. From noncoding variant to phenotype via SORT1 at the 1p13 cholesterollocus[J]. Nature, 2010, 466(7307): 714-719.
Smemo S, Tena JJ, Kim KH, Gamazon ER, Sakabe NJ, Gómez-Marín C, Aneas I, Credidio FL, Sobreira DR, Wasserman NF, Lee JH, Puviindran V, Tam D, Shen M, Son JE, Vakili NA, Sung HK, Naranjo S, Acemel RD, Manzanares M, Nagy A, Cox NJ, Hui CC, Gomez-Skarmeta JL, Nóbrega MA. Obesity-associated variants within FTO form long-range functional connections with IRX3. Nature. 2014 Mar 20;507(7492):371-5. doi: 10.1038/nature13138. Epub 2014 Mar 12. PMID: 24646999; PMCID: PMC4113484.
Arsenault BJ. From the garden to the clinic: how Mendelian randomization is shaping up atherosclerotic cardiovascular disease prevention strategies. Eur Heart J. 2022 Nov 7;43(42):4447-4449. doi: 10.1093/eurheartj/ehac394. PMID: 35869924.
Emerging Risk Factors Collaboration/EPIC-CVD/Vitamin D Studies Collaboration. Estimating dose-response relationships for vitamin D with coronary heart disease, stroke, and all-cause mortality: observational and Mendelian randomisation analyses. Lancet Diabetes Endocrinol. 2021 Dec;9(12):837-846. doi: 10.1016/S2213-8587(21)00263-1. Epub 2021 Oct 28. Retraction in: Lancet Diabetes Endocrinol. 2024 Jan;12(1):8. Retracted and republished in: Lancet Diabetes Endocrinol. 2024 Jan;12(1):e2-e11. PMID: 34717822; PMCID: PMC8600124.
https://mp.weixin.qq.com/s/ghY7SWLZdoq_DIbNTGZhzA
Genome-Wide Association Studies Fact Sheet