洞察市场格局
解锁药品研发情报

免费客服电话

18983288589
试用企业版

有关临床试验中多重性的考虑要点

发布日期

2007-05-21

发文字号

/

信息分类

其他

有效地区

/

时效性

现行有效

实施日期

/

颁发部门

CDE电子刊物

正文内容

审评四部审评八室  黄钦 审校


伦敦,2002年9月19日  CPMP/EWP/908/99


1.前言
    实际上所有的临床试验中都存在推断的多重性问题。通常对多重性的担心是如果它未经妥善处理,可能会因假阳性结论的比例被夸大,而做出无确实依据的有关一种药物有效性的主张。例如如果对5个亚组进行统计学检验,每个检验独立进行,均在2.5%显著性水平(单侧定向假设),那么发现至少有一个假阳性统计学意义的检验的概率增至12%。
    这个例子表明多重性对假阳性结论的发生率有明显的影响,任何时候只要有机会从两个或两个以上分析中选择最有利的结果,那么假阳性结论就可能影响试验药物的批准和产品说明书。但如果不存在这种选择,那么就不会有影响。下面将对这两种情况的实例进行讨论。在可接受的α水平对每个研究中假阳性结论的发生率进行控制是一个重要的原则,这在评价验证性临床试验中常常有很大的价值。
    有许多控制假阳性结论发生率的方法,首选的方法取决于各种具体情况。本文档全文中,将采用缩写的术语“控制I类错误”的发生率,这是指有意控制成族的I类错误(family-wise type I error),即控制拒绝至少一个真的无效假设的概率,而不论哪个无效假设子集是真的。在包含需要一个以上验证试验的情况下,在申报水平设定恰当的I类错误水平这一问题,在另一个考虑要点文件中讨论(CPMP/2330/99有关应用1)荟萃分析和2)一个核心研究的考虑要点)。
    本文件不准备讨论多重性的各个方面,但主要考虑近期欧洲申报活动中发现是重要的问题。其中包括:
- 多重性的校正——何时有必要与何时无必要?
- 如何解释多个次要变量的显著性以及何时可以根据其中一个提出论断?
- 何时可以从亚组分析中得出可靠的结论?
- CPMP何时会把上市许可限制于亚组?
- 怎样结合原始变量对“有效者”的分析进行解释?
- 如何根据声称的论断对复合终点进行统计学处理?
    此外还有其他涉及临床试验中多重性的问题,但按照上述问题列表,它们不是本文件讨论的重点。例如,有关中期分析(有可能因无效或声称有效而提前终止)的方法学多样性和复杂性或逐步设计研究(有可能为将来的步骤而作适应性的变化)取得了迅速进展。但由于问题的重要性以及有关这一问题具体信息的数量,似乎应当专门编写文件讨论这些方面。
    在多次访视时,对主要疗效变量重复评价的解释不会导致多重性的问题,因为在多数情况下,一个恰当的概括指标要么是事先指定的或按照治疗终点要求的,主要评价是在事先指定的访视时进行的。因此本文件中不考虑涉及重复测量分析的潜在多重性问题。
2.多重性的校正——何时有必要和何时无必要?
    不需要校正I类错误的临床研究要求包含2个治疗组、使用单个主要变量,采用的验证性统计策略事先只指定一个与主要变量相关的无效假设,不进行中期分析。虽然所有其他情况需要关注潜在的多重性作用,但多数情况下不会产生多重性的问题,例如在有事先指定的主要变量和所有次要变量被声明属于支持性的情况下。
    文献中,控制总的I类错误α的方法有时称为“多水平α检验”。控制成族的I类错误常常(但并非总是)意味着被接受的和事先指定的I类错误α总量必须分解,不同的无效假设必须在所得到的α分解值水平进行检验。这通常被称作“校正I类错误水平”。界定如何以这种方式“分解”α的算法,其复杂性各不相同。通常对于较为复杂的程序,对于所发现的结果进行临床解释会变得困难。例如,为了估计和评价估计值的精度,可信区间最为重要,但就针对控制I类错误的许多较为复杂的多水平α检验(或较为普通的闭合检验)而言,没有与检验相符的用于建立可信区间的方法。选择一种方法时,建议考虑现有的可靠的统计学方法能否满意地作出临床解释。
    由于常常有正确处理多重性的其他方法,但可能会得出不同的结论,因此有必要事先指定首选的多水平α检验。为避免解释的困难,研究方案或统计学分析计划中应当详细介绍具体步骤。
    如果出现未预见的多重检验的情况,必须使用保守的方法,例如Bonferroni’s或相关程序。此时,本身会降低把握度。因此如果预见有多重检验的情况,建议事先说明用于处理这种情况的方法。
    本文件讨论临床试验中多重检验相关的情况以及常用的和认可的用于控制(或校正)I类错误的方法。
2.1 多个主要变量——何时不需要正式的校正
    有关临床试验中生物统计原理的ICH E9指南指出,一般而言临床试验应当有一个主要变量。如果一个变量中,治疗引起的变化本身可证明有临床意义的治疗效果有普遍的共识,那么仅这个主要变量就足够。但如果单个主要变量不足以得出有临床意义的治疗受益的范围,那么有必要使用1个以上的主要变量。有时在同一项试验中需要达到一系列相关目标,而每一个目标有其主要变量,而在其他情况下研究许多主要变量是为了对部分或所有变量的有益作用提供令人信服的证据。这些情况下,样本量的规划变得较为复杂,因为必须确定每个主要变量的其他假设和把握度的限度,并且使相互之间达到平衡,以让研究有一个坚实的基础达到其目标。
    对于有1个以上主要变量的试验,以下小节描述的情况可以进行区分。描述的方法可以进行临床解释、满意地处理多重性的问题,而避免任何正式校正I类错误发生率的要求。事实上这些方法属于控制成族的I类错误发生率的一套闭合检验程序。
2.1.1 需要2个或2个以上主要变量以描述有临床意义的治疗受益
    所有主要变量需要有统计学意义。因此不需要正式的校正。
    在这里,结果的解释是最明确的,因为为了提供足够的证据,表明治疗受益有临床意义,每个主要变量的每个无效假设需要在相同的显著性水平(例如0.05)被拒绝。有关这一情况的例子见CPMP有关阿尔茨海默病治疗指南的注释,或CPMP有关慢性阻塞性肺病患者长期治疗药物的临床研究的考虑要点。这些情况下,没有计划或没有机会选择最有利的结果,因此设定每个I类错误的水平等于总的I类错误水平α,即没有必要降低。这种方法夸大相关II类错误(这里:错误地接受至少1个无效假设是正确的),其中最坏的情况是与每个假设相联系的II类错误的总和。应当考虑这种夸大作用以便正确估计试验的样本量。
2.1.2 按照临床意义分级的2个或2个以上主要变量
    不需要正式的校正。但验证时所依据的变量的等级不能低于或等于无效假设是第1个不能被拒绝的变量的等级。
    有时同一个试验中需要达到一系列相关目标,而其中一个目标最为重要,但其他目标的令人信服的结果也明显提升治疗的价值。典型的例子为:(1)抑郁疾病中通过预防进展而得到的短期效果,(2)急性心肌梗死中预防其他严重事件后病死率降低。这些情况中,无效假设可以按照分级的策略进行检验(并可提供可信区间)。分级的次序可以是自然的次序(例如假设按时间或考虑的变量严重程度排序),也可以根据研究者具体的关注点。同样,没有必要降低或分解α。检验无效假设的等级次序应当在方案中事先说明。这一方法的作用是验证的假设所依据的变量等级不能低于或等于其无效假设是第1个不能被拒绝的变量的等级。可以推导出与这一分级检验方法一致的可信区间。很明显,对应较低等级变量的假设的II类错误被夸大。值得一提的是处理次要变量时可使用类似的方法(见3.2节)。
    文献中有可能发现许多处理多个变量的方法,这些方法对于可能很少在验证临床试验遇到的情况有价值,因此在本文中不进行讨论。建议在使用这些方法之前先与主管部门沟通。
2.2 分析集
    可以对有不同患者数据子集的同一个变量进行多重分析。正如有关临床试验中生物统计学原理的ICH E9指南中所指出的,数据需要纳入主分析的受试者集应当在研究方案的统计学部分事先规定。从这些受试者集中选择一个(通常为全集)用于主要分析。
    一般而言,对受试者不同子集或用不同指标进行多重分析以研究主要分析得出的结论的灵敏度时,不应当校正I类错误。这些分析的主要目的是增加从主要分析得到的结果的可信性。
2.3 其他统计学方法——多重性的顾虑
    对于相同的数据集,有时可以试用不同的统计学模型或统计学技术(例如参数与非参数或Wilcoxon检验与时序检验)。有时使用2步法,目的是为了选择恰当的统计学技术,在第一个统计学(事先的)检验结果的基础上进行治疗间的主要比较。如果这些方法提供明显的机会,使得根据已知的患者治疗分配情况可选择有利于结论的分析策略时,则会立即产生多重性顾虑。但若根据正式的盲法核查(见ICH E9)而选择的最终统计学模型则不会出现这些顾虑。当这些方法使用对比性的治疗信息,并且难以对总的I类错误的影响进行评价时,在这些方法中选择的机会常常很微妙。最后,事后改变研究重要特征的要求会使人对研究的可靠性和结果的稳健性产生怀疑,可能的后果是需要进一步的研究。因此即使没有选择的元素时,也建议不要使用这些方法。
2.4 安全性变量中的多重性
    当安全性变量为研究验证策略的一部分,并因此在获得批准或说明书标签的内容中起作用时,那么不应当与主要疗效变量分别处理,除非观察到相反的作用,可能产生安全性顾虑(也见3.3)。当不良反应p值的价值非常有限时,显著的差异(以相对危险度或危险性的差异表示)会产生顾虑,具体取决于程度、严重性或结果,而不论观察到的p值如何。
    在那些使用大量统计学检验方法作为标志,以发出试验药物具有潜在危险性的信号情况下,一般说来,校正多重性达不到考虑的安全性目标。很明显在这种情况下未控制单个假设的I类错误,这些结果的重要性和合理性将取决于以往对这种药物药理学的认识。
2.5 有两个以上治疗组的研究中多重性的顾虑
    对于有2个以上主要变量的研究,正确评价和解释有2个以上治疗组的研究可能会变得非常复杂。本文不准备详尽讨论与多个治疗组研究相关的每个问题,确证性临床试验中仅在极少的情况下使用这些较为复杂的设计。因此以下讨论仅限于较为常见的和简单的设计。通常来说,有意控制成族的I类错误(即应用闭合的检验方法)是确证的最低要求。需要注意的是,治疗组间成对差异的可信区间(少数情况下例外)常常与闭合的检验方法不符,并且通常太窄。
2.5.1 三个组的“金标准”设计
    对于一种有普遍认可的参照药物治疗的疾病,常常建议(当符合伦理要求时)在有以下三种治疗的3个组的研究中证明新药的疗效和安全性:参照药、安慰剂和研究药。通常这种研究的目的有多个:(1)证明研究药与安慰剂相比的优效性(证明疗效);(2)证明参照药与安慰剂相比的优效性(证明试验的灵敏度,见ICH E10,2.5.1.1.1节);(3)证明研究药与安慰剂相比仍保留参照药的绝大部分疗效(证明非劣效性)。如果所有这些为目的,所有三个比较必须在所需的水平显示有统计学意义,不需要正式的校正。未能显示试验药优于安慰剂,那么应当对研究药无效(当参照药优于安慰剂时),或试验缺乏灵敏度(当试验药和参照药未显示优于安慰剂)作出解释。
2.5.2 固定复方的疗效证明
    对于药品的固定复方,对应的CPMP指南(CPMP/EWP/240/95)要求“固定复方中的每种物质必须在复方中有经证实的作用”。对于两种(单个)成分的复方,这一要求被解释为需要开展3个组的研究,以两种成分作为单药治疗和联合治疗。如果联合显示优于两种成分,那么可认为这种研究是成功的。不需要对总的显著性水平进行正式校正,因为两个配对比较都必须显示统计学上有意义的优效性。
    使用多剂析因设计评价复方药物,目的是(1)提供复方比每种药物成分单用更有效的验证证据(见ICH E4有关支持药物注册的量效信息指南的注释(CPMP/ICH/378/95))和(2)找到推荐用于目标患者人群的有效和安全剂量的复方(有用的剂量联合范围)。虽然(1)可通过使用全面检验策略达到,但为达达到目标(2)必须使用恰当的闭合检验方法。
2.5.3 量效研究
    对于目的为确定试验药一个或几个剂量用于特定患者人群的治疗性量效研究,必须有意控制成族的I类错误。由于这些研究中有大量的设计特征、假设和目的(例如假定或不假定随剂量增加量效关系的单调性;在所用设计的限制下发现最低有效剂量;发现等效于(不亚于)参照药物推荐剂量的剂量),因此具体的建议超出了本文讨论的范围。相关文献中已经发表了各种与多剂研究相关的闭合检验程序的方法,这些方法可经过修改用于具体的目的,也可以对I类错误进行必要的控制。
    有时一项研究没有足够的把握度来发现和推荐单个有效和安全的剂量(或剂量范围),但仅成功地证明总体上临床作用与剂量增加呈正相关。这已经是一个有价值的进展(见ICH E4,见3.1节)。那么可以按外推的方式将单剂量配对比较的估计值和可信区间用于设计将来的研究。在这种情况下,没有必要调整I类错误。
3.如何解释多个次要变量的显著性以及何时可以根据其中一个提出论断?
    以往临床试验方案中有许多疗效的次要变量。到目前为止,有关临床试验中次要终点的作用和权重还没有达成共识。
3.1 表达支持性证据的变量
    不计划提出论断;可信区间和统计学检验是探索性的。
    次要终点可以提供治疗作用的其他临床特征,但这些终点本身用于申请注册或其他说明书信息的主要证据不足以令人信服。这里,增加次要变量的目的是得到与主要目的相关的支持性证据,并且不需要确证性结论。可信区间和统计学检验是探索性的,不企望提出论断。
3.2 可能成为其他论断的依据的次要变量
    只有在达到了临床试验的主要目标后,并且这些变量是确证性策略的一部分时,这些变量的显著性作用才可考虑用于其他论断。
    更为重要的是,一旦达到了主要目的,次要变量才可能与成为其他论断的依据的次要目的相关(见2.1.2节)。处理这种次要变量的一个可靠的方法是分级处理。一旦关于主要目的的无效假设被拒绝(并由此达到主要目的),如果有一个以上的次要变量,那么可采用次要变量本身的另一个等级次序,对次要变量进行进一步的确证性统计学检验。在这种情况下,主要变量和次要变量仅仅在假设等级中所处的位置有差异,当然这些差异反映了这些变量在研究中的相对重要性。值得一提的是,被认为是相应的主要变量变化的直接后果的次要变量的变化,不能作为说明书信息的一部分。例如当精神分裂症患者病情缓解时,抑郁症状消失。在这种情况下,不能另外提出具有抗抑郁治疗作用的论断。
3.3 提示临床受益的变量
    如果临床上非常重要的变量(例如死亡率)未被定义为主要变量,那么当观察到这一变量有显著的受益而主要目标未达到时,则需要进一步的研究。
    提示大的临床受益或在不同情况下显示重要的安全性问题(例如,死亡)的变量,可能因为事先认为计划的样本量太少(因此把握度太低)因而不能显示益处,因此被降为次要变量。但如果观察到有益作用明显大于预期,而研究未达到其主要目标时,这是需要进一步研究以支持观察到的受益作用的一个典型例子。
    但如果可能提示大的临床受益的同一个变量在相反的方向显示作用,那么将产生有关安全性的担心。那么其上市许可可能会遭拒绝,不论变量是否已被加入确证计划。
4.从亚组分析中得出可靠的结论,上市许可限于亚组的情况
    从亚组分析中得出可靠的结论一般需要事先指定的妥善的统计学分析策略。如果在重要的亚组中发现无法解释的突出的不一致性,或如果治疗作用的不一致性可以合理假设,但对于重要的亚组人群不能被充分评价时,则上市许可会受到限制。
    临床试验中,评价亚组中治疗作用的原因有许多。许多研究中,当达到主要目标后,亚组分析具有支持性或探索性目的,即证明显著的总体临床受益。特别声称特定亚组的受益作用需要事先指定相应的无效假设和妥善的验证分析策略。当总的研究人群中无显著作用时,基于亚组分析的论断被接受的可能性极小。方案中应当考虑到把握度,随机化一般应当分层。
    各个亚组间治疗作用一致性的评价一般是主管部门担心的问题。已知一些因素可引起治疗作用的不一致性,例如性别、年龄、地区、疾病严重程度、民族、肾损害或吸收或代谢差异。这些重要亚组的分析应当是临床研究评价的常规部分(如相关),但通常应当考虑为探索性的,除非事先怀疑这些因素中有1个或多个因素会影响一个亚组中治疗作用的大小。但当发现有很突出的交互作用,提示在亚组治疗中有不良作用,并且这一现象没有令人信服的解释或其他信息证实交互作用的可能性时,则上市许可应除外相应亚组的患者,直到获得其他临床数据。这也适用于当有历史原因,主管部门认为某些患者亚组不会从药物中受益而结果未强烈反驳这一看法时。
    如果研究很多的亚组而方案中无恰当的计划处理这种情况时,那么上市许可仅限于某些亚组也是有可能的。从主管部门的角度而言,如果有理由预计相应亚组中治疗作用不一致时,那么不能根据整个研究人群中总的阳性结果(统计学上和临床上)而得出对于所有亚组有效的论断。如果缺少有意义的对整个研究人群的定义,那么上市许可可能会仅限于具有充分代表性的、并且观察到有统计学意义和临床意义的亚组。
5.如何结合原始变量对“有效者”的分析进行解释?
    如果对“有效者”的分析不是主要分析,在必需的主要变量的平均水平已经确定了统计学显著意义后可以使用,以确定所见“有效者”比例差异的临床意义。当以这种方式应用时,无治疗作用的无效假设的检验按原始的主要变量进行要优于按有效者的比例进行。
    在许多申报中,例如涉及阿尔茨海默病或癫痫病的那些申报中,很难解释主要变量平均水平的小幅度但有统计学意义的改善。由于这一原因, “有效者”(和“无效者”)用于表示每例患者治疗的临床受益。可以有许多方法定义“有效者”/“无效者”。定义应当在方案中事先指定,并且应当在临床上有说服力。临床指南中指出,“有效者”分析应当用于确定观察到的作用的临床意义,以协助评价疗效和临床安全性。值得注意的是把原始变量分为“有效者”和“无效者”后会有一些信息丢失(因此统计学把握度降低)。
    在某些情况下,“有效者”标准可以是主要终点(例如CPMP有关帕金森病治疗药物临床研究指南)。在这种情况下,它应当用于提供无效假设的主要检验。但这里主要说明的情况是一旦在主要变量的平均水平确定了治疗作用具有统计学意义后,“有效者”分析何时被用于对临床意义进行判断(减肥药物或治疗阿尔茨海默病药物临床研究指南的注释)。在这种情况下,“有效者”的分析不需要有统计学意义,但有效者比例的差异应当支持所研究的治疗产生有临床意义的作用。
    需要指出的是“有效者”分析不能挽救主要变量原本令人失望的结果。
6.如何根据声称的论断对复合终点进行统计学处理?
    通常复合变量是主要变量。应当对其所有构成指标分别进行分析。如果声称的论断是根据其构成指标的亚组分析,那么这需要事先指定并包含在有效的确证分析策略中。治疗应当对所有构成指标均有益,或至少在临床上较为重要的构成指标不受负面的影响。一个构成指标如要体现在适应证中,则治疗对其的任何作用均应有数据明确地支持。
    复合变量的类型有2种。第1种即等级评定量表,它是由多个临床指标合并而产生。这种类型的复合变量在某些适应证(例如精神或神经系统疾病)中有长期的使用经验。本指南中不对这种类型的复合变量作进一步的讨论。
    另一种类型的复合变量是在生存分析的背景下产生的。综合几个事件来定义复合结果。如果患者有事先指定的构成指标(例如死亡、心肌梗死或致残性卒中)列表中的1个或多个事件,则认为患者有这种临床结果。至出现结果的时间以患者随机化至首次出现列表中事件的时间计算。通常,各构成指标代表相对罕见的事件,并且单独研究每个构成指标需要非常大的样本量。因此复合终点是增加达到临床结果的患者百分比的一种方法,因此可以提高研究的把握度。
6.1 复合变量作为主要终点
    当复合变量用于显示疗效时,它通常是主要终点。因此,它必须符合单个主要终点的要求,即它能提供获准注册上市所需的疗效的主要证据。建议还要分别分析单个构成指标和和临床意义相关联的成组的构成指标,以提供支持性信息。但只要主要终点达到显著性,则没有必要校正多重性。如果声称的论断是基于构成指标的亚组分析,那么这需要事先指定并包含在有效的验证分析策略中。
6.2 预期治疗会以同样的方式影响所有构成指标
    定义复合变量时,构成指标建议仅采用以同样的方式受到预期的治疗影响的指标。对构成指标的相似的治疗作用的假设应当根据既往同样类型的研究经验判断。增加一个可以预见的对治疗作用不敏感的构成指标会导致变异性增大,即使这一构成指标不影响治疗差异估计的无偏倚性。直接的后果将是降低证明治疗组间优效性的灵敏度。变异性增大也是非劣效性或等效性研究中不希望的。如果观察到对某些构成指标有负面作用,那么非劣效性研究将难以解释。对于目的是为了证明优效性的研究,首选较为普通的构成指标作为主要终点,因为这是最保守的分析。由于同样原因,对于非劣效性/等效性研究,首选特异性较高的构成指标(例如疾病相关的病死率)作为主要终点。
6.3 至少临床上较为重要的构成指标应当不受到负面影响
    如果至住院的时间是临床研究中的一个终点,那么将到达医院之前死亡的患者处理成截尾者一般是不恰当的。确定的复合终点最好是把所有较为重要的临床事件都作为构成指标(包括本例中的死亡)。但从主管部门的角度来说,复合终点指标的一个顾虑是所研究的治疗中,部分有可能对一个或多个构成指标有不良影响,并且这种不良影响可能被复合终点掩盖,如被其他构成指标较大的有益作用掩盖。如果这些构成指标与疾病的不同程度或临床重要性相关,那么这一顾虑尤其有意义。例如,如果全死因死亡率是一个构成指标,那么应当提供对所有原因死亡率的单独分析,以确保对这一终点没有不良影响。至少少到什么程度,在错误方向的统计学意义才会对不良作用产生怀疑,目前尚无共识,一旦观察到数据,在支持“无不良作用”方面建立信心的一个方法是在设计阶段说明这一问题。例如研究计划可以说明,对较为重要的构成指标产生不良影响的危险性大小,而这些构成指标能以计划的样本量以足够大的概率排除(假定在无效假设下无治疗差异),并且研究报告应当含有相应的对比的估计和可信区间。
6.4 治疗对体现在适应证中的构成指标的所有作用应当有数据明确地支持。
    考虑的一个重要问题是可以根据对一个复合终点的成功的主要分析而合理地提出论断。如果论断不能正确反映所使用的是复合终点这一事实,例如所提出的论断明确地涉及发生率低的构成指标时,则会产生困难。举例说来,如果复合结局变量是“死亡或肝移植”并且只有几例死亡时,“降低死亡率和需要肝移植”的论断不能令人满意,因为在这种情况下,对死亡率的影响的依据不足。但这并不意味着需要从复合终点删除“死亡”成分,因为如果不同时考虑至少与“肝移植”同样严重的所有疾病相关的结果,那么“肝移植”结果将是不完整的。但这意味着对于这一适应证应当采用不同的措辞,避免暗示对死亡的影响。
7.结论
    临床研究中,常常需要回答具体疾病中一种或多种治疗的疗效(或安全性)的多个问题,因为药物开发计划的成功可能取决于正面回答1个以上的问题。众所周知,如果不采取措施避免由于多个统计学检验而使假阳性发现被夸大,则假阳性发现的机会随着所提出的问题的数量增加而增加。在这种情况下,担忧的是针对从多重分析中选择有利结果的机会。因此设计用于处理或避免多重性的统计学方法有必要在研究方案或统计学分析计划中详细说明,以便能评价其适用性和合理性。
    已经建立了许多不同的方法以控制假阳性发现。但这些方法中并非所有都能同样成功地提供临床上可以解释的结果,因此始终应当考虑到方法的这一方面。由于治疗作用的估计通常是一个重要问题,得到与具体方法相联系的可信区间可能是其选择的一个标准。
    只有在临床试验的主要目的达到后,相应的问题是事先指定而且是计划的统计学分析策略的一部分时,才有可能根据次要变量或亚组分析有统计学意义和临床意义的发现提出额外的论断。

<END>

最新政策法规资讯

对摩熵医药数据库感兴趣,可以免费体验产品