审评四部审评八室 赵建中审校
2005年3月EMEA发布了《小规模人群中临床试验指南(草案)》征求意见。指南中对小规模临床试验的适用条件,可提高设计效率或分析效率的方法,以及这些方法不适用时应当采取的措施提供了一般性原则和具体的实例。对此类临床试验有一定的指导意义。 1.前言 本文件讨论低患病率疾病临床试验有关的问题。在欧盟,一些罕见疾病的患者只有几千例,甚至少于100人。在这种情况下,实施几百例患者的临床试验不切实际或根本不可能。因此罕见疾病临床研究的实施、分析和解释,有时不同程度地受所研究疾病患病率的限制。 本文是由CHMP有效性工作组(EWP)与科学建议工作组(SAWP)的成员、孤儿药品委员会(COMP)和儿科专家组协作撰写完成。组内的专家包括来自国家主管部门和大学的临床医生、流行病学专家和统计学家。 目前不存在只与小规模研究相关而不适用于大规模研究的方法。但在小规模人群或规模非常小的人群中不属于常规的和/或不够常见的方法是可以接受的。本文件简要介绍试验方法的策略。 本文件中介绍的一些方法主要用于大规模研究不可行的情况,不能认为是药物开发评价中一般性规则的调整。 药品上市申报过程中所作的决定总是不肯定的。从来没有“不容置疑”的证据。患者、科学家、主管部门和医药公司必须承认,这很难证明任何主张,特别是在采用医学科学广泛采用的归纳方法的情况下。因此主管部门倾向于常用的和可靠的方法。 由于使用归纳推理有缺陷(也就是说从特殊病例得出一般性结论),在试验实施时应当尽可能认真遵循既定的指南。这份指南专门用于这些既定指南不能被遵循的情况。 一般而言,提高设计效率和分析效率的方法也适用大规模人群的研究,但由于大规模人群的复杂性增加,所以用得不多。如前所述,一般原理可适用于以下两种情况:(1)随机对照试验可行,即使与含几百甚至几千例患者的典型III期试验相比,其结果解释可能不够明确;(2)随机对照试验虽然可行,但把握度明显不够。在这种情况下可以使用病例队列(使用外部对照组)研究,有时仅有个案病例报告。 这两种情况可发生在罕见病领域,但也可见于进展很快的领域(如器官移植)。而且,针对每个目标药品的细化研究,例如通过应用药物基因组研究,可能会有很多目标人群,但每个人群中的人数更少。本文所举例子对某些常规的情况可能是不恰当的,但可能适用于其他情况。在研究只能入选很少病例的情况下,需要其他方法。这种折中的情况常常以削弱结果的可靠性为代价,因此产品疗效、安全性和风险-受益的可靠性受到影响。但即使未开展随机对照试验,一些孤儿药也获得了批准。 本文件的内容包括:(1)可提高设计效率或分析效率的方法,(2)这些方法不适用时应当采取的措施。文中给出了一般性原则和具体的实例。这些纲要和例子并不是全部,但要鼓励进一步探索对特殊情况可能适用的各种方法。阅读本文件应当与以下法令和文件结合: l 2001年4月4日欧洲议会和理事会的法令2001/20/EC,内容是各成员国关于开展人用药品临床试验过程中落实临床试验规范(GCP)有关法律、法规和管理条例趋于相同的法令。 l 2001年11月6日欧洲议会和理事会有关人用药品欧盟法规方面的法令2001/83/EC。 l 评价药物临床安全性的人群暴露程度(ICH EIA)。 l 支持药物注册的量效信息(ICH E4)。 l 临床试验的一般考虑(ICH E8)。 l 临床试验的统计学原理(ICH E9) l 临床试验中对照组的选择(ICH E10)。 l 儿科人群中药品的临床研究(ICH E11)。 l 加速评价适用于严重疾病(威胁生命的或严重致残的疾病)的产品(CPMP/495/96第1次修订)。 l 有关诊断用药评价的考虑要点(CPMP/EWP/1119/98)。 l 包含1)荟萃分析和2)一个核心研究的申请的考虑要点(CPMP/2330/99)。 l 指定孤儿药品的某种疾病其患病率计算和报告的考虑要点(CPMP/436/01)。 l 孤儿药品的申办者对欧盟扩大应当注意的事项(EMEA/35607/03)。 2.证据的级别 小规模人群中上市申报要根据与其他药品同样的标准判断,但要考虑患者入选的限制。 通常按照强弱次序描述各级证据: l 随机对照临床试验的荟萃分析 l 各项随机对照试验 l 观察性研究的荟萃分析 l 各项观察性研究 l 发表的病例报告 l 个案病例报告 l 该领域内专家的意见。 所有这些形式的证据都提供一些信息(即使是个案病例报告),任何一个都不能忽视。但药物开发过程中高级别的证据来源于充分规划和妥善实施的对照临床试验,特别是通过恰当的设盲和随机化使偏倚降至最低水平的试验。得出结论时,治疗效果越大越好、效果的可信区间越窄越好、效果的大小最好有高度统计学意义。对此类试验进行充分规划和妥善实施的荟萃分析可得到更强有力的证据。但必须认识到不好的荟萃分析不会得出可靠的结论。 在非常罕见的疾病中,将单个病例的研究综合起来可能是累积证据的唯一方法。这些情况下,治疗方案和数据收集可能仍要以对照的方式进行,这可以增加证据的份量。而且,如果认真考虑了统计学分析,(包括如随机对照试验的正式“累积荟萃分析”等方法),那么这会比临时汇总某些病例报告的份量更重。应当考虑各个病例报告的荟萃分析或观察性研究的荟萃分析。 一般而言,大样本量和/或小的方差可以得到较窄的可信区间和非常高水平的统计学意义。使用不那么极端的显著性水平(例如考虑p<0.10,而不是以p<0.05作为有统计学意义的临界值)得到“有统计学意义”结果的机会就增加(不论治疗是否有效)。还请注意,0.05是一个常用的临界值,但它是人为制定的。这些值不足以证实确实存在疗效。根据具体情况,可以采用不同的显著性水平,但一定要预先说明采用显著性水平的依据。几乎在任何情况下,治疗效果估计值的可信区间比p值更有意义。 3.药理学考虑 深入理解疾病的病理生理学和药物的药理学有助于设计有效的临床研究,并有助于确定所需临床数据的数量。 对于罕见病,临床前药理学研究特别重要,它们常常用于为临床研究的设计提供信息。但这些研究也可提供有关给药剂量、给药次数、给药途径等特征方面的重要信息,当然最好还是尽可能在人体中对这些内容进行研究。 对于“替代研究”(特别是酶或激素替代),缺乏所致的明确的近期或远期后果以及对化合物药代动力学和药效学清楚的理解可以指导研究的设计。假如缺乏相关的症状已经明确,并且产品在临床研究中的药代动力学和药效学数据翔实,那么“替代产品”注册的法规要求有时不会像对待其他产品那样严格。一种摧残健康并且预测会进展的疾病中,患者自身比较可以提供足够的数据以支持受益-风险的评价。 变异(无论是疾病表型、基础的病理生理、药理学还是药代动力学)是成功开发药物的一个威胁。有效率的研究设计和分析需要尽可能明确所有这些变异的来源。 如果观察到明确的量效关系,或者能够发现明确的系列事件(例如药物暴露量达到目标量、达到动态指标、达到临床结果),那么研究结果的可信度可以提高。另一方面,“黑箱设计”不那么令人信服,并且在研究结果的稳健性和有说服力方面,对数据要求更高。 非常罕见的疾病中,一定要让每个参加研究的患者提供尽可能多的资料,这对于协助受益-风险评价非常重要。因此,充分规划使用现有的最好技术来获得和分析资料至关重要。这适用于从药代动力学和药效学建模至处理和分析活检材料的整个研究过程中。 4.终点的选择 最好使用一个“刚性的”且有临床意义的终点。作为一个极端,终点可以是疾病完全“治愈”。 减缓疾病进展是一个中等水平的终点,必须指定疾病严重程度或疾病进展的测量方法。最好是经过验证可用于临床试验的工具,但必须承认可能由于患者例数太少而不能使用部分患者来验证终点,其他患者用于检验治疗。以疾病进展时间或缓解时间为终点的研究中,对患者进行足够长时间的随访很重要;这些证据常常来自随机研究的“开放的延长期”。例如,最好能确定治疗是否真正导致特定的(有益)结果,还是仅仅延缓了疾病的进展。 像肾功能衰竭(例如Fabry病中)这样的临床终点是有高度临床意义的终点的一个很好的例子,因为它可严重影响患者存活时间和健康状况。缓解症状也是一个有用的临床终点——往往受到患者的高度认可——但它可能不会真正反映疾病进展的延缓或死亡的延迟。即使不能证明对临床终点有益,症状的缓解以及由此产生的患者的偏爱可能是一个有价值的研究终点。但对某种疾病和治疗来说,一定要合情合理。 如果患者仍有严重残疾(例如复苏后或颅内出血后神经状态很差),那么改善临床终点可能不够。如果要测量生活质量,则必须采用经过验证可用于所治疗的特定适应证的量表来评价,尽管如前所述,有时患者太少不能进行验证活动及另外的治疗评价。即使有这个限制,仅生活质量的改善(也就是说无其他临床益处)这一项不足以获得上市批准。生活质量数据最好应考虑作为支持证据。这种证据可作为一种手段,使产品在其他现有的治疗中获得立足之地。 某些情况下,选择“最恰当的”临床终点可能不被广泛认可。其他情况下,试验治疗的作用机制可能还不够明确,不能预测可能有用的几个结果中哪一个会受影响。这些情况下,常规的事先指定主要终点的方法可能太保守,通过收集所有切合实际的/有可能的终点,然后在研究总结报告中列出所有数据,这样可以获得更多的知识。还要尽量在终点中确定恰当的等级。如果综合起来看,这些数据有说服力,那么有可能获得上市批准。 如果入选足够数量的患者似乎受到限制,或者需要的时间太长,那么可以用替代指标。生物标记是用于替代有临床意义的终点的实验室测量指标或体征,它测的是患者的感觉、功能或存活情况。术语“替代终点”最好是仅用于经过验证的生物标记。在罕见疾病中,考虑把一个生物标记作为一个有效的替代终点要求有合理的依据,根据流行病学、病理生理学或其他证据可以预测受益。例如,母细胞的数量或BCR/BL基因产物可作为慢性粒细胞白血病(CML)的一个很好的预后指标。因此血液学和细胞遗传学治疗反应被认为是一个有效的替代终点。其他例子包括CD4细胞计数和HIV病毒载量作为评价抗病毒药物过程中死亡或机会性感染的替代指标。但预测本身不足以获得替代指标的资格,替代指标可能不足以确定疗效。应当考虑以下几个方面的问题: l 替代终点的变化与导致临床终点或症状终点的变化之间关联的密切程度如何 l 与治疗相关的危险性有多大 l 同一疾病现有其他什么治疗(如有) 替代终点的验证是困难的。流行病学数据和来自患者登记的数据可以提供原始资料,用于对疾病潜在的替代指标进行验证。如果患者的数量非常少则它的价值可能有限。替代终点总是有难以与真正的临床受益关联的缺点,并且进行风险-受益评价时,受益的程度难以根据替代终点来估计。替代终点不能作为临床疗效或长期受益的最终证据。如果要用这些替代终点作为主管部门评审及批准的依据,除非经过正确验证,否则要事先制定计划,用进一步的证据作为这些研究的补充,以便支持临床受益、安全性和风险/受益评价。 5.对照组的选择 理想情况下,我们希望得到所研究的治疗与安慰剂或另一种活性对照药比较没有偏倚的疗效估计值。为此,要尽量从治疗试验阶段的一开始就对患者随机化。在小规模人群的研究中以及常见病的大规模研究中,获得一个无偏倚的疗效的估计值的目标都是要得到证实的情况。因此在开始任何一个治疗时,对照试验通常是首选,但并非总能做到。在无其他治疗的严重的和威胁生命的疾病中,可能会不放过能给患者带来一丝希望的任何治疗。由于个案报告患者有效,实际上使得劝说患者参加随后的对照试验非常困难。 一般而言,选择对照患者有两种方法:内部对照或外部对照,可以是历史对照或同时对照。最好是采用内部对照组的对照试验,因为使用历史对照(或其他外部对照)本身有一些众所周知的问题。 如果有很强的结果预后因素,那么分层随机化方法结合合适的分层/模型分析可以大大提高试验的效率。同样,这些分层,按尽可能多的因素分层,通常可以通过确保这些因素在各治疗组的平衡而提高结果的可靠性。小规模研究中按许多因素分层几乎不可能,除非使用动态随机化/协变量适应性随机化方案。 虽然内部对照是对照试验的首选,个别情况下也可使用外部对照(用“当前”疗法治疗的患者或未曾治疗的患者)以证明一种新疗法的疗效、安全性、给药的方便性等等。一般而言,只有当疾病的自然史非常明确时才可以不使用任何对照数据。 患者登记可以提供有关疾病史的重要资料,并可能有助于评价疗效和安全性。而且,这些登记可作为历史对照的来源。 如果只能采用活性对照药物,那么要表明等效性或非劣效性可能有困难,因为不能确保研究试验方法的灵敏度,因此这些情况下获得许可证极为困难。有关疾病自然史的论据可能有助于支持研究的检测灵敏度。 6.方法和统计学考虑 即使没有专门用于小样本的统计学方法,仍有一些方法对小样本的统计有帮助。下文讨论许多方法,可能对特定的情况有所帮助。正如本文开头所提到的,所列举的方法不是全部,这一列表也不是全部。 每种方法(不仅仅是这些所列出的)需要根据其优缺点来具体衡量。在考虑使用其他设计和方法时鼓励申办者寻找科学的建议或方案支持。 6.1设计阶段 在常规的III期试验中,申办者需要入选几百甚至几千例患者。任何试验的设计和实施都应当尽量少产生生物噪音(bio-noise)。生物噪音是试验设计和实施过程中可避免的和不可避免的非系统性错误的总和。它通常(尽管并不总是)导致朝向不能显示治疗之间差异的偏倚。例如一个典型的有可避免和不可避免因素的错误是失访。研究者不能强迫患者继续参加研究,但一些经验性证据表明,在纵向研究中某些措施有助于降低失访率。例如确保以合理的间隔和患者方便的时间安排好访视,必要时提供交通等。 大规模的试验中,噪音-效果比的影响通常只要通过增加样本量就可以降低,但在小规模的研究中,这可能成为一个严重的问题。因此申办者尽可能使可避免的错误降至最低限度就极为重要。有关临床试验统计学原理的ICH指南(E9)以及其他有关临床试验设计和分析的标准文本提出了一些重要的注意事项。以下方法中许多有可能减少生物噪音的量,因而可提高研究的效率——但几乎所有的情况下其代价是复杂性增加,偏倚也有可能增加。 连续性变量与那些分类的或者甚至分为“有效”与“无效”的变量相比,通常可以精度更高/样本量较少。如果能在恰当的事先指定的协方差分析(ANCOVA)模型中对基线值做出解释,情况尤其如此。即使未获得最终结果变量的基线测定值,其他重要的预后变量有可能提高ANOVA或ANCOVA分析的效率,并且几乎不会降低其效率。通过选择另一个结果(只要这一结果有临床意义并在研究开始之前选定)、对结果评价人员进行培训、使用多个分级也可避免特定结果的不可靠性。在研究开始之前所有这些方面都应当考虑到。认真选择最有效的终点(即使不是最有临床意义的)有助于证明治疗的效果。但在权衡风险受益时一定要有临床效果的大小。 随机化方法 匹配或分层(包括所谓的“最小化”方法)也可提高把握度,特别是当根据重要的预后变量进行匹配或分层时。此外值得一提的是在真正的实际情况下,这些方法很少会显著降低研究的把握度(即使分层因素最终并不重要)。因此这些方法配合事先指定的分层分析和灵敏度分析可能有用。 协变量适应性方法(Covariate-adaptive method) 有时使用这些方法来替代分层。一般而言,这种协变量适应性方法或称动态随机化方法(包括但不限于“最小化”)的原理是每一个新的分配会导致组间在所测的协变量方面不平衡。于是这些方法的目的是通过将下一个患者分配至一个或另一个治疗组从而尽可能纠正这种不平衡。这可以根据已经分配的患者的特征以及下一个将要分配的患者的特征,通过改变分配至某个特定组中的概率来实现。 这种方法的问题是它们不是严格的“随机”,并且不能使用常规的统计学方法进行数据分析。 当随机应当分层,但因素太多不能分层时,协变量适应性方法可能是合适的。当相对于分层因素和层数而言试验规模小时尤其是这样。但不清楚这种方法是否肯定平衡了未知的混淆因素。而且,如果用中心作为分层因素,并且有许多个中心,但每个层的患者很少时,这会导致简单的轮流分配,因此会影响分配的隐蔽性。 有很好的证据表明这些方法可有效实现良好的组间平衡,即使是在小规模的试验中、甚至无奈提前终止的试验中也如此。但分析时必须充分考虑分层因素,还必须讨论对未用于分层的变量(包括那些测定的和未测定的变量)的影响。 效应-适应性方法 效应-适应性设计不是改变患者分配至治疗以获得基线协变量的平衡,而是根据效果“最好”的治疗来改变分配的比例。当患者完成试验时,如果1个治疗开始效果较好,那么进入研究的新的患者被分配至那个治疗的可能性较大。这些设计有时被称为“乘胜追击”设计。分配的概率可以不断变化,不依赖于一种治疗较优(研究有可能会被终止时)的“好的证据”。一旦一种治疗显示的效果较好,新患者的分配将偏向那种治疗。随着研究的继续,表面“最好”的治疗可能会发生变化,分配的偏倚也会随之发生变化。这种方法依赖于迅速(相对于患者入选而言)获得的结果数据,还依赖于对完成研究的每例患者连续揭盲。由于它不是根据分配至每个组的概率相同和恒定这一标准的假设,因此分析可能非常复杂。 效应-适应性设计的一个变化是那些用于探索剂量的设计——这些设计一般被称为“连续再评价方法”。有时候用这种方法,但很少。此类方法的特性远胜于那些常规使用的“上下”剂量探索设计。这些方法确定最佳剂量的速度比较快(无论是怎样确定的),用最佳剂量治疗的患者比较多,对最佳剂量的估计更准确。在开发的各个阶段都鼓励使用这些方法。 序贯设计 序贯设计——如果一种真正优于对照的治疗其目的是证明有“统计学意义”-一般可减少所需的样本量。有多种不同类型的序贯设计——均可得出有效的统计学结论,但每一种设计需要根据预期的结果和可用患者数量之间的平衡来具体确定。有些设计是“开放性的”并且(理论上)连续入选直到可以得出有关治疗可靠的正面或负面结论为止。其他设计为“闭合性的”,因此有一个固定的入选上限(但在此之前可以停止)。受益和有害的停止边界不一定要对称;相对于活性对照而言显示治疗有益的边界也不一定要对称。序贯设计与效应-适应性设计一样,需要快速(相对于患者入选速度)获得治疗结果。例如,如果我们要观察长期的存活数据时这几乎不可能,但如果我们要观察短期临床结果或替代指标/生物标志物,则可用这种设计。罕见疾病临床试验的常见问题是由于患者太少,因而入选较慢;因此这类方法在这些情况下可能比常见的疾病中有更大的应用空间。但最后样本量可以减少到什么程度取决于效果的大小。 单病例随机试验(n-of-1 trials) 这种设计中随机化的事项为干预,而不是患者。这类设计更像是交叉研究,但是在单个患者中进行。患者的首次治疗是随机决定的,在一个治疗阶段结束时患者被再次随机化;也可能改为其他治疗而不是随机化。可以出现多次转换。这种研究的结果所得出的结论是:对于某个患者来说哪种治疗最好。一系列单病例随机试验可能开始显示反复偏爱一种治疗而不是另一种治疗的趋势。这种设计的优势是确保每例患者“最终”以对其最佳的治疗结束。不同的研究者在 “他们自已的”单病例随机研究中,可以使用相同的治疗比较,而不需要遵守标准的方案,因为这些方案对于某些具体病例可能太严格。因此,这类设计不会因为患者不符合入选标准或因为他们不能遵守所有必须的试验程序而将他们从试验中排除,每个试验可以根据每例患者的具体情况而设计。单病例随机试验与交叉试验一样有许多局限性。这类试验对于快速起效的对症治疗以及治疗后迅速恢复至稳定的基线值的疾病最有价值。许多单病例随机试验的结果可以用类似于交叉研究和荟萃分析的方式汇总分析。 6.2数据分析 假设 患者例数少的研究常常被认为情况简单:没有很多的资料(数据),因此只需要简单的(通常为描述性的)分析。因此对于“简单的”情况使用较复杂的方法似乎违反直觉,但这确实是必须的。如果我们有大量的数据,简单的方法常常是恰当的,但如果只有非常少的数据时,一定要使用最有效和最有用的分析方法。这些方法中有许多涉及“统计学建模”。这些模型常常对治疗效果的数据或形式作出假设。如果数据很少,那么这些假设可能不能检验或不能验证。但假设对数据起到补充,因而较复杂的统计学模型与简单的描述性统计相比,给我们提供信息的更多。因此,应当给出包括各种分析/模型的灵敏度分析,这些分析可以对数据作出不同的假设。然后可以看出结论是否高度依赖于模型假设,或者事实上它们对各种似是而非的假设是否稳健。 非参数方法 与以上相反,如果不能确定数据是否呈正态分布(或其他指定的分布)时,常常可使用非参数方法即“不受分布影响的”方法。对数据或各种治疗疗效的形式作出“很少”(尽管通常不是“无”)假设的方法有很多。一些类型的引导方法(Bootstrap)对数据的分布不作假设,因此当数据太少而不能检验或验证模型假设时,可认为它们是“安全的”选择。这些方法的主要用途是估计参数估计值的准确性(如偏倚和方差)以及计算出可信区间。这些方法适用于所观察到的数据来源的人群类型不明的情况下。这些方法在可用样本数据非常有限并且传统的参数建模和分析有困难或不可靠时特别有用。引导方法与其他数据再取样方法如折刀方法(jack- knife)密切相关。 α和β错误 数据分析阶段,应当使用几种方法以提供相互印证或支持性的分析。而且,由于α和β错误受样本量的限制,重点是估计值(点估计和可信区间)而不是假设检验。95%可信区间可用于推断显著性检验能否得出p<0.05。这种可信区间的观察没有帮助,这时从“标准的”95%可信区间转向其他概率范围可能有帮助。如果申办者选择这样做,那么应当事先充分说明这样做的依据。 预后变量 基线变量的调整可以明显提高分析的效率。进行正确的统计学推论,研究随机化分层所用的因素必须用于对分析进行分层。如前所述,分析中包括分层变量(事实上预后价值非常小)对分析的效果很少会有影响。相反模型中增加预后变量可以大大提高治疗作用的精度。大规模“常规”开发计划中,II期研究通常会发现那些重要的协变量。在我们只能有1项研究的情况下,则需要认真建模以明确需要用哪些协变量,哪种函数形式(例如线性、倍增的,等等)。 纵向数据 一定时间内或体内不同部位重复测定也可以提高分析的效率。这类数据分析时常常遇到的问题是观察结果间的非独立性。当数据进入各个组或群时,例如在体内不同部位或在纵向研究中,可出现非独立性问题。分析相互依存的数据时,不能使用标准的统计学方法如广义线性模型(GLM),因为它违反了观察结果间独立性的假设。这些情况下,如果忽视数据相互依赖的情况,会得出错误的结论。一般而言,结果的精度及其显著性通常会被高估。现有不同的方法可用于分析群聚的相互依赖数据,例如广义估计方程(GEE)方法、等级线性模型或混合效应模型。这些现代的统计学方法考虑到受试者内部的相关性,并且也允许每个受试者的观察次数不等(例如,由缺失值所致),因此可以确保有效的推论。 贝叶斯方法 贝叶斯方法是另外一个对数据“增加假设”的来源。这种方法是正式将以往数据的知识或以往“观点”与研究的数据结合的一种方法。采用以往的观点常常是药品管理中的一个顾虑。但由于其化学式、与现有其他药物的相似性、作用机制等等,能够使用药物可能发挥的作用方面的知识,对于稀少的数据是一个非常有价值的补充。与前面提到的灵敏度分析一样,应当使用各种合理的先验分布将小规模研究中的数据结合起来,从而确保结论至少是根据数据得来的,而不是几乎完全根据过去的观点得来的。 6.3证据的解释 小规模的研究可能不会像其他领域研究那样有良好的对照,因此主管部门和申办者在解释这些小规模研究的结果时要有灵活性。1965年,Bradford-Hill描述了观察性研究中确定因果关系的标准,其中包括: l 与现有知识关联/连贯的一致性:是否有其他证据支持这种作用?现有证据有多充分? l 生物学梯度:有无量效关系? l 关联的特异性:所研究产品是否产生这种特定的结果? l 生物学合理性:所观察到的关联为什么有意义? l 关联的强度:大的作用往往容易检出偏倚和混淆因素。 如果没有对照临床试验,这些标准可能有帮助。即使有随机试验(但规模非常小),这些也有一定帮助作用。 7.总结和结论 l 设计、执行或分析小规模人群中的临床试验没有特殊方法。但有一些措施可增加临床试验的效率。并且一些在大规模试验中不能接受的方法,可用于小规模人群和规模非常小的人群中的试验。应当权衡统计学效率上的需求与临床上有意义的结果的需求。 l 与常见病相关的指南(ICH、CHMP和其他)也适用于罕见病。 l 不可能获得新治疗的疗效和安全性的对照证据的情况下,只要确保患者的利益得到了保护,主管部门评审时可以接受不同的方法。 l 设计研究时,某种化合物的详细药理学知识会有所帮助。药理研究有助于发现患者基本情况不同的原因。非临床药理学(可能受病例数的限制)对于病例非常少的情况可能特别有帮助。 l 替代终点是可以接受的,但需要充分说明理由。必须明确替代终点与临床疗效的相关性,以便能权衡风险和受益。 l 对照和对照组很重要。并非所有罕见疾病的研究都包含当前对照。如果没有,则研究的可靠性会受到影响。 l 患者登记可以提供有关疾病自然史方面的重要信息,并可能有助于评价有效性和安全性。而且,这些登记可作为历史对照的来源。以这种方式使用的登记应当含有高质量的数据,预期可能会有GCP视察。 l 当计划的统计学(分析)方法未能显示治疗效果时,应当寻求其他方法(最好在研究方案中事先估计到)。最好使用几种方法,如果不同方法/统计学方法的结果相符,那么对结果的解释有帮助。 l 当使用大规模人群中不常用的策略和方法时,有科学的建议/方案支持,可指导申办者获得上市批准。
附录 设计阶段 替代指标 当前,如果入选足够的病例数遇到困难或者等待的时间太长,主要措施是选择一个替代指标。这里有3个例子显示CHMP批准用于治疗孤儿疾病的药物上市所依据的证据级别。 例1是甲磺酸伊马替尼,这是一种被批准用于治疗慢性粒细胞白血病的药物。在欧盟成员国内,估计CML的患病率大约为每10000人中0.9例。这里开展了几个入选病例数最多达532例的试验(总共1027例患者用于评价疗效)。主要终点为血液学和细胞遗传学反应。随后替代终点显示与存活率相关。 例2是波生坦,这是一种被批准用于治疗肺动脉高压的药物。在欧盟成员国内,估计肺动脉高压的患病率大约为每10000人中2例。开展了2项随机对照试验:1项小规模的剂量探索试验(n=21),一项入选213例患者的规模较大的关键研究。主要终点为6分钟步行试验;使用了许多次要终点,其中部分有临床意义。 例3是Laronidase,这是一种被批准用于治疗粘多糖I增多症的药物。粘多糖I增多症是一种非常罕见的疾病,估计患病率低于0.03/10000。递交了一项随机安慰剂对照试验用于上市申报,这项试验入选了45例患者。主要终点为(1)最大肺活量,(2)6分钟步行试验。有几个次要终点,其中1个测定残疾作为生活质量评价的一个维度。 这些情况下CHMP接受替代终点,是考虑到与未能满足的医学需求相关的信息有限。可能还有很多情况,现有的生物标记和其他替代指标是不合适的。 协变量适应性分配方法 这里有一个最小化方法的实例介绍[Falk2002]:230例以往未经治疗的非小细胞肺癌患者,因局部病变进展到了很晚期不能切除,也不能放疗,准备药物治疗,并且没有立即胸部放疗适应证,这些患者被随机分配到支持治疗加立即胸部放疗或延迟胸部放疗组,采用最小化方法按照以下方式分层:临床医生(至少24层——未给出确切的数量),(2)组织学(4层),(3)是否有转移(2层),(4)WHO功能状态(4层)。这样一共有24×4×2×4(=768)层,即使对于一个大规模的研究这也非常大。这个例子中使用了最小化方法以确保各组有非常好的平衡,并且随机噪音不会过分干扰干预效果的评价。 效应-适应性方法 采用“乘胜追击法”将一组12例呼吸衰竭的新生儿分配至标准治疗或体外人工肺组。第1例患者被随机分配至常规治疗组(这例患者死亡);然后选择11例患者进行体外人工肺治疗(均存活)。在12例患者之后试验终止(Bartlett,1985)。这项特殊试验遭到严厉批评,并且随后一项随机对照试验(O"Rourke, 1989)也受到批评,于是在对照组4例患者死亡后随机化停止。“乘胜追击法”可以改进,例如可以包括随机化元素。这种方法很可能不是今后的方向,但表示可以有类似的方法。 另一个例子中,也尽量使接受表面上“最佳”治疗的患者比例最大化,Giles et al. (2003)使用了效应-适应性规则。共有3个治疗组:伊达比星+ara-C(IA)、曲沙他滨+ ara-C(TA)和曲沙他滨+伊达比星(TI)。起初,随机化分组按1:1:1的比例进行,但随着患者接受治疗并观察到治疗反应后,分配的比例改为有利于最有前景的治疗。34例患者接受治疗。在最初5例患者接受TI后,这一组被停止(分配比例变为0)。当第34例患者入选时,分配比为0.959:0.041有利于IA。得出IA优于TA或TI的结论后研究终止。 序贯设计 Trnavský et al. (2004)在膝骨关节炎的研究中使用了一种适应性分组的序贯设计。研究基本上是“标准的”随机、平行组、双盲设计,但有3次事先计划好的中期分析(除了可能会进行的“最终”分析以外)。每次中期分析以及可能因疗效而终止研究时,还重新评价计划的研究样本量。第1次中期分析计划在每个治疗组获得12例患者后进行。如果观察到的p值小于0.0041 则研究应当终止(因正面的效果)。研究没有得出强有力的证据,因此研究继续进行,但总的样本量作了修改。第2次中期分析时(每组有25例患者之后),研究确实达到了有统计学意义(在校正的显著性水平),因此研究终止,计算出布洛芬乳膏的受益优于安慰剂。 Sharpe et al. (2003)在接受原位肝移植的患者中进行了一个完全序贯设计。患者配对入选:1例随机分配在依曲康唑,另一例分配在安慰剂组。在获得每一对患者后,根据患者随后是否出现感染确定患者“偏爱”一种或另一种治疗(或两种都不选)。最初71例患者中, 9例在安慰剂给药后出现感染(伊曲康唑“获胜”),伊曲康唑给药后仅1例发生感染(安慰剂“获胜”)。此时的风险比为0.24/0.04=6, P=0.04 (Fisher精确检验),研究可以终止。 Cheng, Chang and Yuen (2004)介绍了另一个完全序贯设计的例子,研究者使用了交叉设计,以使每例患者可以显示一种治疗或另一种治疗的优越性(与前一个例子中患者成对随机化不同)。所研究的治疗为接受化疗的儿童口腔冲洗以减轻粘膜炎。入选了40例患者,其中6例未完成研究。但在34例患者完成交叉方案之后,研究终止,达到了在统计学意义上有利于氯已定(p<0.05)。 单病例随机试验 在一项试验中,51例不明确非甾体类抗炎药(NSAID)是否对他们有“帮助”的骨关节炎患者,随机分配在常规治疗组(n=25)或单病例随机试验组(n=24)(Pope et al. 2004)。单病例随机试验组在整个3个月研究期间以随机、双盲的方式接受NSAID或安慰剂2周。对照组所有患者接受“常规”治疗,即NSAID。单病例随机试验组中81%的患者和“常规”治疗组79%患者中NSAID显示出治疗效果;安慰剂组没有患者偏爱安慰剂。在这里,单病例随机试验用于比较常规NSAID治疗的安慰剂对照试验中观察到的效果。但理论上仅24例患者有必要明确与安慰剂相比的有效性。 由Wegman et al. (2005)发表的另一个例子也是在骨关节炎患者中进行的。研究选择了13例患者,并将他们随机分配在2周NSAID和2周对乙酰氨基酚的5个系列中。仅5例患者完成研究,观察到两种治疗方案的差异很小。目前不明确这是由于效果无差异还是把握度不够所致。 分析阶段 无假设的方法 采用成本-效益分析以强调这一问题(Korthals-de Bos IBC, 2003)。由于总是为数不多的患者使用许多资源,因此成本常常明显地呈非正态分布。Korthals-de Bos et al使用引导的成本和效益估计绘制了令人信服的图表:与理疗相比,推拿治疗很可能更有效、更便宜。推拿治疗效果不好且较贵的情况不大可能。 非参数方法 例子:有100个对照(通常不是当前的)。你只能看一看指定期间内的5例,但计划看一看5个这样的类别。你想知道事先指定数值高于对照中位数的患者数量并且你指定了可信区间(例如95%)。据此,你可以(a)计算把握度或(b)分析结果。Ad (a),把握度:例如,如果你假定5例中有3例的值高于对照的中位数,你想知道这种研究的把握度;可信限的下限可以定义为15(即5例中有3例的值低于对照的第15个值[译者注:第15个百分位数])和85(即5例中有3例的值高于对照的第85个值[译者注:第85个百分位数]),这几乎是95%可信区间。如果研究中确实有这种效果,那么有80%的把握度检测出这种效果。Ad (b):现在你有10个对照而只有5例中2个先后组。限度为1和9(对照的顺序统计量)。使用这些预测限度值表明,2次重复中每1次5个样本中有3个偶然大于第9个对照样本的概率为0.018;2次重复中每1次5个样本中有3个偶然小于第1个对照样本的概率为0.003。 放宽I类错误和II类错误的边界 放宽I类错误边界会增加假阳性试验结果的风险。但有些情况下可以使用这种方法。1个实例是在肉芽肿患者中进行的试验,这种非常罕见的疾病的年死亡率为2-5%(Gallin, 2003)。患者患有严重的细菌和真菌感染。抗生素预防可显著降低严重感染的发生率。问题是以伊曲康唑预防能否降低真菌感染的发生率。困难在于真菌感染的发生率大约为0.1/患者年,因此几乎不可能入选足够大的样本。入选了39例慢性肉芽肿病患者;每年采用偏倚硬币法对患者重新随机化以确保两组暴露数量相同。拒绝无效假设的双侧p值为0.102。经过12年的随访之后,伊曲康唑组61病人年中有1例发生感染,而安慰剂组63病人年中有7例发生感染(p=0.10)。研究者得出结论在这一适应证中伊曲康唑有效。 贝叶斯方法 Tan et al. (2002, 2003)介绍了贝叶斯方法也可以用于罕见疾病的试验数据分析。根据可靠性和这些试验与所研究的问题的相关程度来权衡现有的信息。然后这些数据可用于估计必需的样本量或预告小规模试验中获得的数据。这种方法与经验性Bayes方法相关,经验性Bayes方法中数据仅仅由(未加权的)研究数据来预告。并且他们介绍了如何在灵敏度分析的框架内使用事先指定的情况:他们提出了一个怀疑的先验分布(假定新治疗甚至差于标准治疗);一个中立的先验分布(新治疗根本无效);一个积极的先验分布(新治疗具有事先指定的现实效果)。在这个例子中,这些情况用于向数据监测委员会预告所提出的试验能否得出有用的结果。很明显这种方法也可用于试验较晚的阶段。
参考文献 (略)
|