洞察市场格局
解锁药品研发情报

免费客服电话

18983288589
试用企业版

EMEA《优效性与非劣效性之间转换的考虑要点》

发布日期

2007-04-05

发文字号

/

信息分类

其他

有效地区

/

时效性

现行有效

实施日期

/

颁发部门

CDE电子刊物

正文内容

审评四部审评八室  黄钦 审校


伦敦,2000年7月27日  CPMP/EWP/482/99




I.前言
许多近期的申报导致CPMP就优效性、非劣效性和等效性试验的解释进行讨论。ICH E9(临床试验的统计学原则)中包含了这些问题。ICH E10(对照组的选择)的第2步草案以及CPMP有关生物利用度和生物等效性研究指南的注释中也有进一步的相关材料。但指南未说明实践中生物利用度的某些具体困难。从更广的角度来说,这些困难与分析时从一个设计目的向另一个目标转换相关。


所讨论的试验的类型是那些设计用于比较新产品与活性对照药的试验。目的可以是证明:
l 新产品的优效性
l 新产品的非劣效性或
l 两种产品等效
当获得试验结果时,它们可以提出另外的解释。因此优效性试验的结果可能仅足以支持非劣效性,而非劣效性试验的结果可能显示出支持优效性。另外,等效性试验的结果可以显示出支持更小范围内的等效性。


这一专题满意的方法需要理解可信区间以及得到试验结果和从这些结果中得出结论的方式。这一理解还有助于我们认识到为什么试验结束后对把握度的计算意义不大。


为简便起见,本文从单个主要变量疗效研究的角度来说明优效性、非劣效性和等效性问题。在VI节还对其他情况进行了评论。整个本文件中假定临床目的的转换不会导致主要变量的选择或定义发生任何变化。


II.试验目的
II.1优效性试验
设计优效性试验是为了检出治疗间的差异。分析的第一步通常是检验统计学意义,以评价试验结果是否与两种治疗的临床效果无差异的假设相符。在质量好的试验中,统计学意义的程度(p值)提示观察到的差异(或较大的值)是偶然产生的,假定事实上并无差异。概率越小,则假定治疗间真正无差异的可能性越小。


一旦认为“无差异”的假设不可靠,那么一定要估计差异的大小,以评价作用是否有临床意义。这包括两个方面。首先,有治疗间差异大小的最佳估计值(点估计)。对于正态分布的数据,这通常是被看作每个组平均值间观察到的差异。其次,根据临床试验的结果,真正差异有一个合理的值的范围(可信区间)。很明显这一范围不能包含0,因为差异为0的概率已经因不合理而被拒绝。建立可信区间的方法一般要确保做到这一点,前提是它对应于显著性检验的选择。因此以下两种说法通常意义相同:
l 均数间差异的双侧95%可信区间不包括0。
l 两个均数在双侧5%水平有显著性差异(p<0.05)。


以上的文字说明的情况是,两个均数之间的差异是所关注的统计量,而0差异代表无作用。在实际应用过程中,许多其他概括性统计量用于评价治疗间的差异,例如生物等效性研究中比例的比值比或几何均数的比值。(后者来源于用于生物利用度数据的对数转换。)在这种情况下,适用同样的原则,但“差异”可用值0以外的值来表示——这里举的2个例子中均为1。这些情况下,所关注的是,相对于这一“无差异”值而言,检验统计量的可信区间所处的位置。


当实践中进行显著性检验时,常常引用概率的精确值,例如p=0.032,因为这比p<0.05可提供更多的信息。这样可以根据无效假设与观察到的数据之间不一致的程度来进行更精确的判断,而不是使用临界值0.05、0.01和0.001得出近似值。但可信区间必须与具体的概率值(概率范围)相关,这几乎总是使用95%(0.95)。当差异在较极端的水平例如p=0.002具有统计学意义时,那么双侧95%可信区间应当不包括0,并有较宽的余地。图1描述了这些要点。


图1:显著性检验与可信区间之间的关系


观察到的差异是否真正具有临床意义需要判断。等效性或非劣效性试验的临床意义通过研究前选择的Δ来解释(见II.2和II.3节),而优效性试验的临床意义判断与之不同,需要另外考虑:差异有统计学意义不一定有临床意义。在优效性试验中作为把握度计算依据的差异,不能假定是合适的值。


请注意图1以及本文的其他部分中,假定0右侧的值对应的是新疗法的效果好,因此左侧的值对应的是新疗法的效果差,即对照治疗较好。


II.2等效性试验
设计等效性试验是为了证明治疗间的差异没有意义。在这种情况下,使用可信区间的计算和考查进行分析可以得到更多的信息,尽管有使用显著性检验方法的密切相关的方法(见II.3节)。通过定义临床上可以接受的最大差异来选择临床等效的边界(Δ),因此差异比这个边界大时才有意义。与这一分析相关的众所周知的困难在这里不作更详细的介绍。如果要声明两种治疗等效,那么双侧95%可信区间(确定两种治疗间可信的差异范围)应当完全在-Δ至+Δ之间。见图2。有时选择的等效边界在0两侧可以不对称。


图2:等效性试验分析的可信区间方法


在生物等效性研究中,当评价两种剂型的药代动力学参数平均值是否足够接近时,可信区间覆盖90%的概率已经成为可以接受的标准。


当不可能开展常规生物等效性试验时(例如非专利的吸入药或外用药),可以进行临床等效性试验得出双侧95%可信区间。


II.3非劣效性试验
在III期药物开发中,非劣效性试验比等效性试验更常用。在这些试验中我们希望新治疗的效果不比现有治疗差——效果可能更好或者相似。同样,可信区间是分析时最直接的方法,但此时我们仅关注一个方向的可能差异。因此双侧95%可信区间应当完全在-Δ值的右侧。见图3。非劣效性试验有时会被误认为和设计为等效性试验。这一区别很重要,并有可能因此而产生混淆。


图3:非劣效性试验分析的可信区间方法


还应注意到通过使用II.2所指的密切相关的显著性检验方法,有可能计算出与优效性无效假设相关的p 值。这也有助于评价有利于非劣效性证据的强度。


II.4一侧和双侧可信区间
这份文件全文中假定所有临床试验使用双侧95%可信区间,而不论其目的是什么。除其他益处以外,使用双侧95%可信区间可以保持显著性检验及随后估计的一致性。并且它还与ICH E9指南注释提出的指南一致。如果使用单侧可信区间,那么它们应当与97.5%的概率范围一起使用。


在生物等效性研究的特殊情况下,例如按照生物利用度和生物等效性研究指南的CPMP注释推荐的标准,建立双侧90%可信区间。


III.事先定义的意义
等效性或非劣效性的结论明显依赖于作为最大可接受差异所选择的Δ值。如果在审查数据后选择Δ,那么总是可以选择出一个Δ值从而得出等效性或非劣效性的结论。由于Δ的选择一般很困难,所以不论研究者计划得如何好,都有产生偏倚的很大空间。对于回顾性选择Δ,常常要事先有令人信服的论据。在设计等效性和非劣效性试验时,这一原因(还有其他原因)使得研究者在研究方案中有必要事先选择Δ,并说明作出这一选择的理由。此时还应当选择相应的可信区间概率范围(通常95%)。(当目的改变时这些要求如何应用见IV.2节)。如何选择恰当的Δ将在随后CPMP考虑要点中说明。


鉴于以下多种原因,有必要事先把试验指定为优效性试验、等效性试验或非劣效性试验:
l 确保对照治疗、剂量、患者人群和终点合理(见ICH E10)
l 可以根据正确的把握度计算来估计样本量
l 确保事先指定等效性和非劣效性标准
l 可以在方案中描述恰当的分析计划
l 确保试验有足够的灵敏度达到其目标(见ICH E10)


如果试验的目的由优效性向非劣效性转换,或由非劣效性向优效性转换,那么这些方面产生的困难可能会大于显著性检验和可信区间的解释。


IV.比较目的的转换
唯一可能有实际意义的转换是优效性和非劣效性之间的转换。等效性试验太特殊,因此必须专门进行。


IV.1把非劣效性试验作为优效性试验来解释
如果治疗作用的95%可信区间不仅都大于-Δ,而且也大于0,那么就统计学意义而言在5%水平(p<0.05)有优效性的证据。见图4。在这种情况下,可以计算与优效性检验相关的p值,并评价这一p值是否足够小,从而令人信服地拒绝无差异的假设。不存在影响这一解释的多重性论据,因为就统计学而言,它对应的是单个闭合的检验程序。只要新药与对照药的安全性特点相似,通常这一受益的证明本身就足够。但当不良事件增加时,一定要估计作用的大小,以评价临床上受益是否足以超越不良反应。


图4:非劣效性转换为优效性


有许多其他因素受这一目的改变的影响。


IV.1.1对照药的恰当性
如果对照药适合于证明非劣效性,那么应当有良好对照数据显示它是有效的治疗。因此,对于证明疗效,在统计学意义方面清楚地证明优于对照药是可以接受的。


IV.1.2把握度计算
非劣效性试验一般规模较大,因为它们需要排除新药相对于活性对照而言较小程度的劣效性。但如果新药实际上稍微优于对照药时,那么把握度显示其非劣效性增加。证明较小程度地优于对照药在理论上需要计划规模更大的试验。但当试验结束时,可信区间提供的结果可以对实际所获得的精确度进行具体的评估,从而替代试验前所进行的各种把握度计算。


IV.1.3其他临床受益的大小
由于非劣效性试验中对照药一定是有效的药物,只要优于这种对照药物即说明优于不治疗(安慰剂)。由于这一原因,除了不良反应增加而影响相对风险/受益以外,所证明的其他临床受益的大小可能与疗效的主张不相关。但如果计划的注册申报包括优于对照药的主张时,应当在临床上讨论其他受益的大小。


IV.1.4分析集的选择
在优效性试验中,根据ITT(意向治疗)原理的全分析集是首选的分析集,PP(符合方案)分析集可以提供相应的支持。在非劣效性试验中,全分析集和PP分析集同等重要,对于稳健的解释,使用这些数据集时应当得出类似的结论。目的的转换需要认识到这一侧重点的差异。优效性试验和非劣效性试验中这两种分析集的相对重要性的详细情况见ICH E9指南的注释。


IV.1.5试验质量
显示等效性或非劣效性的试验必须显示与方案中的计划高度一致才可靠。偏离入选标准、计划的治疗方案、程序和采取措施的方式和准确性等等,都会降低试验的灵敏度,从而得出“无差异”结论的可能性较大,即使偏离在性质上是非系统性的或随机的。与这些方案偏离和其他方案偏离相关的偏倚的大小一般是未知的,可能会使得这一试验无法解释。当两种治疗都无效时(可能由于给药不当所致),也不能显示治疗组间的差异。这一问题对优效性试验的影响程度不同,因为证明差异本身就是证明试验的灵敏度。但作用大小的估计也同样受影响。由于这些原因,从非劣效性向优效性转换在结论中的可信性更大。


IV.1.6结论
从非劣效性试验向优效性试验转换是可行的,前提是:
l 试验要按照非劣效性试验的严格要求正确地设计和执行。
l 提出优效性的实际p值以独立评价证据的力度。
l 最大限度地强调按照意向治疗原理的分析。


IV.2把优效性试验解释为非劣效性试验
如果优效性试验未能检测出治疗组间显著性差异,可能会关注确定非劣效性的较低的目的。如果优效性试验按照治疗差异的95%可信区间的方式总结,则可信区间的下限可以定量估计新治疗相对于对照药而言的最小估计效果。当研究方案含有一个可接受的、前瞻性确定的非劣效性边界-Δ时,下调目的在方法上不会有很大的问题。见图5。事先指定非劣效性边界似乎仅在以非劣效性为目的的试验中是合理的。但在非劣效性结果可以接受用于注册的所有优效性试验中,明智的做法是在方案中事先指定非劣效性边界,以避免以后这一选择会产生严重困难。在这些情况下,设计期间就考虑到以后可能要求说明研究有足够的灵敏度可检测出所关注药物的效果,这也是明智的(见IV.2.4节)。一定要注意有些医学领域内,与活性对照相比的非劣效性不能作为唯一的或主要的疗效证据,而需要安慰剂对照的试验。


在没有前瞻性指定的非劣效性边界的试验中,在事件后应当提供这一量化的依据,在许多情况下这是不可能的。有可能在观察到结果时需要提出书面的依据,并且主观选择边界的外部依据不多。


虽然没有哪一种统计学多重性问题本身与这一目的转换相关,但这不会减少与事后定义Δ相关的困难。


图5:优效性转换为非劣效性


许多问题需要讨论:


IV.2.1对照药、剂量、患者人群和终点的合理性
用于证明优效性所选择的对照药不能用于得出非劣效性结论。为了能够被接受,必须确定有来自质量好的对照的优效性试验的数据显示一致的证据,表明对照药是一种有效的治疗并且效果可再现,并确定相对于无治疗其效果的大小。还应当有合理的依据可预期在当前的试验中会显示同样程度的疗效。例如患者人群和终点应当相似。这些问题在ICH E10中有详细讨论。


IV.2.2把握度计算
如IV.1.2中所指出的,可信区间提供的结果可以对临床试验中实际所获得的精确度进行具体评估,从而替代试验前所进行的各种把握度计算。可信区间下限相对于被认可的非劣效性标准的位置提供了有关非劣效性决策的关键信息。


IV.2.3分析集的选择
在优效性试验中,根据ITT(意向治疗)原理的全分析集是首选的分析集,PP(符合方案)分析集可以提供相应的支持。在非劣效性试验中,全分析集和PP分析集同等重要,对于稳健的解释,使用这些数据集时可以得出类似的结论。目的的转换需要认识到这一侧重点的差异。优效性试验和非劣效性试验中这两种分析集的相对重要性的详细情况见ICH E9指南的注释。


IV.2.3试验质量
显示等效性或非劣效性的试验必须显示与方案中的计划高度一致才可靠。偏离入选标准、计划的治疗方案、程序和采取措施的方式和准确性等等,都会降低试验的灵敏度,从而得出“无差异”结论的可能性较大,即使偏离在性质上是非系统性的或随机的。与这些和其他方案偏离相关的偏倚的大小一般是未知的,可能会使得这一试验无法解释。当两种治疗都无效时(可能由于给药不当所致),也不能显示治疗组间的差异。这一问题对优效性试验的影响程度不同,因为证明差异本身就是验证试验的灵敏度。由于这些原因,从优效性向非劣效性转换在结论中的可信性较小。有必要通过以下方式特别注意证明试验的灵敏度:
l 发现对照治疗显示其通常疗效的直接的或间接的证据
l 把试验与以往证明对照药疗效的试验进行比较
l 特别要证明患者的不依从性水平和脱落以及数据至少与以往的试验相似。
l 显示全分析集和PP分析集的结果相似。


IV.2.5结论
试验目的从优效性向非劣效性转换是可行的,前提是:
l 有关对照治疗的非劣效性边界是事先指定的或可说明理由。(后者可能是困难的,仅限于有广泛接受的Δ值的罕见情况下)
l 按照意向治疗原理和PP分析进行分析,显示劣效性无效假设的可信区间和p值,给出类似的发现。
l 试验按照非劣效性试验的严格要求经过妥善设计和实施(见ICH E9和E10)。
l 试验的灵敏度足够高,以确保能够检测相关差异(如果存在)。
l 有直接或间证据表明对照治疗显示其通常水平的疗效。


V.改变等效性边界
等效性和非劣效性试验相关的另一个相关问题涉及在试验结束时改变等效性边界。让我们假定生物等效性试验发现新剂型的相对生物利用度的90%可信区间为0.90-1.15。由于0.80-1.25是事先指定的等效性边界,我们只能得出结论:相对生物利用度在常规的范围内吗?我们可以得出可信区间在0.90-1.15范围内的结论吗?


根据实际数据的较窄的可信区间是可以接受的合理区间。因此,如果主管部门要求改为±15%,这项研究可以得出满意的结果。这里数据推导的选择程序是不存在问题的。


但如果试验得出的可信区间的范围为0.75-1.20,那么不能事后把等效性边界改为±25%,因为明显可以看出所选择的等效性边界是为了适合数据。


这些考虑同样适用于临床等效性和非劣效性的95%可信区间。基于临床试验结果的可信区间总是结果的最好总结。正是等效性边界的选择容易出现偏倚。这应当根据外部信息作出选择,而不是为了适合数据而进行选择。


VI.讨论
这份考虑要点的编写涉及比较活性药物的有单个主要变量的疗效试验。实践中,一些研究可能有一个以上的主要变量,并且多数研究有次要变量。至于目的转换,这些变量中每一个都需要在具体药物开发的背景中单独考虑,依次分别得出每个变量优效性或非劣效性的结论。有关试验作为一个整体是否确定新治疗的优效性或非劣效性的总的判断,取决于该临床领域的法规要求以及所有相关变量之间结果的规律。


如果安全性变量是事先确定为比较活性药物的试验的主要终点,这些考虑要点所涉及的概念也适用于这些具体的变量。


实践中,目的转换的问题与安慰剂对照试验不相关,即使与安慰剂相比非劣效性是一个可评价的结果,即对于安全性变量。


在知道非劣效性和优效性都是可能有在价值的结果时,通过前瞻性设计试验可以避免事后转换目的的问题。在这种情况下,本文件中所列举的问题应当在设计时说明。特别是应当采用恰当的逐步的程序进行统计学分析,从非劣效性过渡到优效性。


VII.总的结论
把优效性试验解释为非劣效性试验或把非劣效性试验解释为优效性试验,最好的方法是将结果表示为试验治疗与对照之间差异的可信区间。作为任何一个解释模式的基础,没有与使用这一可信区间相关的根本问题。对于良好设计和实施的试验,通过恰当分析不能解决的与非劣效性向优效性转变有关的困难很少。但在观察到结果后,由于可能需要为等效性边界寻找一个依据和达成共识,因此从优效性向非劣效性转换则存在较为严重的困难。设计优效性试验时有一些后果,其中非劣效性是可以接受的结果。


当解释过程中就有关等效性边界的其他选择对结果进行考察时,主要问题来源于试图向较宽的可接受的边界转换。满足较窄等效性边界的数据可以按这种方式安全地作出解释。

<END>

最新政策法规资讯

对摩熵医药数据库感兴趣,可以免费体验产品