洞察市场格局
解锁药品研发情报

免费客服电话

18983288589
试用企业版

EMEA《有关校正基线协变量的考虑要点》

发布日期

2007-05-21

发文字号

/

信息分类

其他

有效地区

/

时效性

现行有效

实施日期

/

颁发部门

CDE电子刊物

正文内容

审评四部审评八室  黄钦 审校


伦敦,2003年5月22日  CPMP/EWP/2863/99


前言
    临床试验统计学原理指南(CIH E9)的注释简要地说明了校正协变量的问题。注释建议实验者“找出预期对主要结果有重要影响的协变量”,并说明“如何在分析中对其进行解释以提高精度,弥补组间不平衡的情况”。注释还提醒注意校正“随机化测定的协变量,因为这些协变量可能会受治疗的影响”。
    基线协变量通常是指受试者开始使用研究用药之前(通常在随机化前)测定的或观察到的,并且预期会对所分析的主要变量产生影响的定性因素或定量变量。
    基线协变量的类型有多种,这些协变量的性质取决于研究的具体情况。这些协变量可以是人口统计学变量,如年龄或体重、疾病特征如持续时间或严重程度、真正的预后因素(这些因素一般有普遍认可的病理生理依据),或研究中心或研究者等因素。还有主要结果的非常常见的基线值。
    基线协变量可以在临床试验的两个阶段考虑:可以在随机化过程中进行说明(一般采用分层随机化)和/或分析时进行校正。
    校正基线协变量有许多不同的技术,这些技术的选择取决于协变量的性质和结果变量。常用的方法为方差分析或协方差分析(当主要结果为定量指标时)、logistic回归(当结果为二分类数据或分类指标时)和Cox回归(对于事件出现时间之类的数据)。
    本文件不讨论各种模型的技术方面和理论方面,也不讨论用于协变量的方法。本文也不讨论具体协变量选择的临床意义。其内容主要涉及确证性(一般为III期)随机试验的主要分析。非随机化试验如观察性研究不在本文讨论的范围之内。
    本文的目的是为了说明基线协变量何时以及为什么应当包含在方案或统计学分析计划指定的主要分析中,以及如何在研究报告中介绍和解释这些结果。常常遇到的一个问题是校正的或未校正的分析是否应在方案中列为主要分析。本指南文件对这一重要问题进行说明。
I.设计方面的考虑
I.1 分层
    随机化可以在协变量水平对治疗组进行平衡,但实践中,事后观察到不平衡的情况并不少见。如果这些不平衡有利于实验组,那么这些不平衡就会特别受关注。分层随机化常常用于在指定的协变量(一般为定性协变量或分类定量协变量)水平内减少治疗组间这种不平衡的概率。
为什么要使用分层随机化的其他原因包括:
- 治疗组在一个或一个以上具体预后协变量方面的平衡可提高试验结果的可靠性。
- 分层可以提高估计治疗效果的效率,特别是对于小规模或中等规模的试验。在随机化阶段分层和分析时校正协变量可以看作对协变量作出解释的补充方法。
- 如果预期重要的事先指定的亚组(例如年龄组或种族)间治疗作用有明显的差异,那么对这些亚组进行分层有助于解释治疗作用及其在这些亚组间的一致性。这也可以提高最受关注的某些亚组分析的可靠性。如果预期有这些交互作用,那么试验应当在具体亚组内对治疗作用有把握度。
- 有时使用分层是为了管理更方便。
    如果试验中有许多有影响力的协变量,则分层会变得极为重要。对于小规模试验,由于每一层内样本量小而无法对几个协变量进行分层时,这尤其重要。即使在大规模的试验中,虽然理论上有可能对许多因素进行分层,但因素的数量应当限定于临床意义最大的和/或预后价值最大的协变量。
I.2 多中心试验
    由于实际的原因或由于预期研究中心(或研究者)会受其他已知的或未知的预后因素混淆,因此大多数多中心试验按研究中心(或研究者)分层。如果多中心试验不按中心分层,那么应当在方案中说明为什么其他协变量比中心更重要,并说明理由。
    当预期每个中心的病例数非常少时,按中心分层可能是不切实际的。这种情况下,应当考虑随机化是否可以按国家或地区分层。做出这一选择可以根据合并用药、对症治疗或其他因素等方面的情况相似,说明可以进行分层。方案中应当描述这一选择的原因和依据。
I.3 动态分配
    如前面所提到的,并不总是能对很多个预后因素进行分层,尤其是对于小规模的试验。在这种情况下,有时使用动态分配技术(如最小化)以便同时获得几个因素的平衡。即使避免使用确定性的计划,这些方法仍有很大争议。因此,强烈建议申报者避免使用这些方法。如果使用这些方法,应当提供在临床方面和统计学方面有说服力的理由(见II.4节)。
II.主要分析中包括和排除一个协变量的标准
II.1 与主要结果的相关性
    试验的分析中包括一个协变量的主要原因是协变量和主要结果的指标之间存在强的或中等的相关性。校正这些协变量通常可以提高分析的效率,因此可以得到有关治疗作用的更强的和更精确的证据(p值更小和可信区间更窄)。但需要强调的是,单纯得出较小的p值不足以得到令人信服的临床上有用的治疗作用的证据:治疗作用的大小及其在协变量水平的一致性总是重要的考虑。
    应当根据以往的证据(从以往或当前其他试验中得到的可能数据)和/或临床背景,提供已知的或预期的与主要结果变量之间的相关性的依据。主要分析中包括协变量的原因应当于揭盲前在方案或统计学分析计划中清楚地说明。
II.2 分层
    主要分析应当反映分层所提示的随机化的限制。为此,主要分析中通常应当包括分层变量作为协变量——不论它们的预后价值如何。必须对主要分析中分层和校正之间协变量不匹配的情况作出解释,并说明理由。
II.3 多中心试验
    当多中心试验按中心分层时,应当在主要分析中校正中心,而不论其预后价值如何。同样,如果其他特征如地区或国家用作分层因素,那么应当在主要分析中对这些特征进行校正。如果每个中心(或地区等)可能入选的病例数非常少,那么以这种方式对随机化进行分层可能是不恰当的,而未校正的分析可能是合理的。
    校正一些小中心是可能的,但由于没有最佳的解决办法,因此会产生分析的问题。忽略用于随机化的中心或校正大量小中心的分析可能会导致对治疗效果的估计和p值不可靠,这些估计可能会太大或太小。而且,将小中心进行合并以得到一个与其他中心相似大小的中心也没有科学依据。如果申报者选择在分析中不包括随机化方案中包含的中心,他们应当说明其原因,并通过有详细解释和充分理由的灵敏度分析、模拟或其他方法,证明试验结果不会因此而受到显著影响。
II.4 动态分配
    强烈建议不要使用动态分配。但如果使用动态分配,那么一定要将分配方案中使用的所有因素包括在分析中作为协变量。即使有这一要求,分析是否恰当地反映了随机方案仍存在争议。申报者要描述他们用来支持主要分析结论的灵敏度分析。如果没有足够的和恰当的支持性/灵敏度分析,申报者很可能不会获得成功。
II.5 事后观察到的基线不平衡
    基线不平衡本身不应当考虑为包含基线指标作为协变量的正当原因。在随机化的试验中不能事先预测明显的基线不平衡:如果随机化程序没有问题,任何观察到的不平衡一定是随机现象。
II.6 受治疗分配影响的协变量
    可能受治疗分配影响的协变量(例如在随机化后测定的协变量如疗程、依从性水平或使用挽救用药)通常不应当包括在验证试验的主要分析中。当协变量通过直接因果关系或通常与另一个因素的相关性而受治疗的影响时,那么调整会隐藏或夸大治疗作用。因此会使治疗作用难以解释。
II.7 “与基线相比的变化”分析
    当分析是基于连续的结果时,常常需要选择是使用原始结果变量还是与基线相比的变化作为主要终点。这些终点中不论选择哪一个,主要分析中应当包含基线值作为协变量。使用与基线相比的变化而不校正基线,一般不是恰当的协变量校正。需要注意的是当模型中不包括基线作为协变量时,对于“与基线相比的变化”和“原始结果”分析,估计的治疗作用是相同的。因此如果进行了妥善的校正,那么终点的选择就成了怎样解释的问题。
III.主要分析的说明
III.1 一般考虑
    主要分析中包含的变量必须在方案或统计分析计划中事先说明。当确证性(一般为III期)试验开始时,重要的协变量应当通过以往的试验和现有的其他证据已经确认。但如果制定方案与研究结束之间知识的状态发生了变化,那么在揭盲前在方案修订中或在统计学分析计划中重新考虑和更新分析的描述可能比较好。此时,应当明确地说明包括新的协变量(或排除以往确定的其他协变量)的依据。应当同时考虑临床和统计学依据。如果之前缺少这种明确的知识,那么使用不含或只含少量协变量的简单模型是较为安全的。所有情况下,包括许多协变量的分析总是不如包含较少的、认真选择的协变量的分析那么令人信服。
    分析中包含的协变量的性质和数量可影响对分析的解释,特别是在非线性模型中。在这些模型中,校正的参数和未校正的参数有不同的解释:在介绍校正的分析时,申报者一定要对所估计的作用大小的意义做出清楚而精确的解释。
    应当避免采用选择与主要结果相关性最强的协变量的协变量选择方法(常常称为“协变量选择方法”)。应当根据当前数据集以外的数据评价协变量的临床意义和统计学意义。
    在某些情况下,对特定的一个研究并非所有相关的灵敏度分析都能在方案中考虑到。但某些灵敏度分析应当事先计划,以确定从主要分析中得到的结论是否稳健。特别是,应当设计灵敏度分析以检验有关协变量的具体假设。
III.2 分析中协变量的数量
    主要分析中包含的协变量不能太多。即使校正方法(例如协方差分析)理论上可以校正大量的协变量,但事先指定简单的模型是安全的。基于这种模型的结果可能在数据上更稳定,这一统计学模型的基本假设比较容易验证,并且可以改善结果的概括性。
    虽然规模较大的试验中允许的协变量可以比规模较小的试验中多,但有关任何一项分析中最多可以允许多少个协变量没有具体的规定。潜在的协变量常有很强的相关性,因此相关性的知识可作为在规划阶段删除部分分层变量的一个有用的依据。在删除协变量时应当考虑到临床方面。
    应当限制统计学模型中包含的协变量的数量以及参数的总数。多个水平的分类协变量可能会导致效率降低。对于这些协变量,应当在方案中事先说明进行合并分类或进行其他灵敏度分析的策略。
III.3 协变量与主要结果之间的关系
    随机临床试验的目的不是为了明确协变量与主要结果变量之间真正的相关性,而是为了在没有偏倚的情况下估计治疗间真正的差异。
    根据标准线性模型所适用的假设,确定无偏倚的治疗效果的估计并不依赖于使用正确的函数形式(如线性的或二次的)以使协变量和主要结果联系起来。但应当注意协变量或结果变量的极端值,因为这些极端值对结果会产生不良影响。如果可能预见极端值,那么可以使用稳健度合适的方法减少其影响。
    如果分析方法是广义线性或非线性模型(如logistic回归或生存分析),那么协变量与结果之间关系妥当的问题更为重要,对这种关系的误设会导致对治疗效果的估计出现偏倚。但如果事先没有明确的有关协变量与结果之间关系的知识(大多数临床试验中常常如此),那么模型应当使用简单的形式。例如,当协变量是连续变量时,那么模型可以根据协变量与结果之间线性关系,或根据协变量在几个级别的分类,级别的数量取决于样本量。在这种情况下,确定如何描述类别的规则应当事先指定,并进行灵敏度分析以确保实质性的结论不会高度依赖于所选择的类别。
    如果事先从以往的研究中获得确认的有关协变量与结果如何相关联的信息,那么主要模型应当包含这一信息。使协变量与结果相关联的函数形式应当在方案或统计学分析计划中事先指定,并说明理由。可使用非参数回归方法,这种方法不必对独立和非独立变量之间的关系进行假设。但在这些情况下,一定要妥善估计治疗作用的大小,而不是仅仅计算显著性水平。
III.4 治疗-协变量交互作用
    这已经在ICH E9中说明,并且不是专门涉及校正协变量的问题。治疗作用可能因协变量的基线值而不同这一情况,是考虑是否校正这一协变量所关注的问题。
    如果没有理由怀疑治疗与协变量之间存在交互作用,那么主要分析应当只包含治疗与协变量的主要作用。相反,如果在设计阶段怀疑有很大的治疗-协变量交互作用,那么应当相应地事先计划分层随机化和/或亚组分析。试验应当有足够的把握度,以检测出相关亚组内的治疗作用。
IV.结果的报告
IV.1 一般考虑

    如果方案或统计学分析计划中清楚地指定了关键的协变量,并且正确地进行了分析和解释,那么可以安全地得出恰当的结论。但如果协变量以及校正这些协变量的方法没有明确指定,那么许多备用的其他分析可能同样可靠。很难让申报者事后才提出某个具体的分析最有意义。
IV.2 基线比较
    在处理随机化和设盲非常满意的试验中,基线不平衡的统计学检验没有作用。从临床的角度而言,应当给出并讨论主要协变量的基线总结,而不论统计学检验是否提示治疗组间是否有“统计学意义的”差异。
    如果事实上将患者分配至治疗组的程序不是随机的,那么所产生的任何偏倚不能以任何统计学校正方法来纠正。应当研究不平衡所产生的原因,并采取恰当的措施(有可能排除部分患者或中心)。在这些情况下,结果的解释应当非常谨慎。
    如果仅仅由于偶然而使治疗组间基线协变量有一定的不平衡,那么校正的治疗作用可能是这一观察到的不平衡的原因,而未校正的分析可能不能用于解释这种不平衡。如果不平衡表现为实验组的预后优于对照组,那么对不平衡进行校正特别重要。应当进行灵敏度分析以证明所有观察到的正面治疗作用,不仅仅是可用基线时任何协变量的不平衡能够解释的。
    在基线非常不平衡这种非常少见的情况下,没有哪种校正方法足以令人信服地恢复结果的可靠性。但某个变量(不一定是事先指定的协变量)的基线非常不平衡也可以是灵敏度分析中包括这一变量作为协变量的原因,以便能评价从主要分析中得出的结果的稳健性。
IV.3 治疗-协变量交互作用
    主要分析应当只包括方案中事先指定的协变量及没有交互作用的项目。但应当按照ICH E9指南的建议探讨治疗和协变量的交互作用。交互作用的检验常常缺乏统计学把握度,一个交互作用无统计学证据,并不是不存在有临床意义的交互作用的证据。相反,不能仅仅根据交互作用的显著性检验而认为存在某种交互作用。根据统计学显著性检验对交互作用项的评价价值不大。
    如果从临床的角度来看,某些交互作用较大或从统计学角度来说具有显著性,那么这表明亚组间治疗作用有差异。应当认真对这些发现进行研究,根据主要分析得出的结果(无交互作用)应当谨慎解释,并进行讨论。如果观察到的交互作用在数值上或性质上特别大,那么不可能对试验总的结果做出解释。
IV.4 模型假设的可靠性
    在简单的方差分析或协方差分析中,模型假设一般适用于较弱的条件。应当关注协变量或主要分析的极端值,如果观察到极端值的话,那么应当使用其他方法以评价结论的稳健性。
    如果分析是广义线性模型或非线性模型,那么模型的误用会导致对治疗作用的估计不正确。因此,必须认真核对假设,并在研究总结报告中列出具体发现。如果模型假设不适用,应当提出其他分析(最好在方案中事先指定),并提供明确的统计学依据和临床依据。
IV.5 灵敏度分析
    一定要提供其他分析,以证明研究的结论不受协变量选择的影响,也不受假定的协变量与结果之间关系的选择的影响。这些灵敏度分析的发现通常应当考虑为探索性的,但必须支持主要分析。
    对于常规线性模型,校正的治疗作用估计值应当与未校正的估计值进行比较。尽管不一定相同,但预期治疗作用大小的估计值会相似。由于一般预期校正的分析可以提高效率,未校正的分析中不太显著的结果不一定需要关注。相反,如果从校正的分析和未校正的分析得出的结论之间有很大的差异,那么应尽可能进行讨论和解释。如果从主要分析和灵敏度分析得出的结论从临床和统计学显著性角度而言有很大的差异,那么试验结果无法得出结论。
    对于广义线性模型或非线性模型,校正的治疗作用和未校正的治疗作用可能有不同的解释,并且有时从校正的分析和未校正的分析中可以获得不同的结果。因此,选择恰当的协变量和事先指定主要模型特别重要。
V.总的结论和建议
    对使用简单随机化的试验进行有效分析一般不需要校正协变量。但包含有影响力的协变量会提高估计治疗作用的效率,因此排除这些协变量会导致无法检测出治疗作用(在存在治疗作用的情况下)。
    未校正的分析在技术上简单,容易解释,而校正的分析可以非常复杂。因此使用校正的分析应当有依据,并且应当以一种读者或评审者能够清楚理解的方式进行介绍。使用较为复杂的技术不能作为不明确的借口。
建议如下:
- 分层可用于确保协变量在治疗之间的平衡;由于管理的原因也可使用分层。作为分层依据的因素,通常应当作为协变量包含在主要模型中。
- 事先已知与主要结果有很强的或至少中等相关的变量,和/或这种相关性有充分的临床依据的变量,在主要分析中也应当考虑为协变量。根据这一依据选择的变量应当在方案或统计学分析计划中事先指定。
- 不能将事后观察到基线不平衡作为考虑主要分析中包括一个变量作为协变量的理由。
- 随机化后测定的并因此可能受治疗影响的变量通常不应当作为协变量包含在主要分析中。
- 如有连续结果的基线测量值,那么通常应当作为一个协变量。无论主要结果变量是被定义为“原始结果”还是“与基线相比的变化”,这都适用。
- 主要分析中应当只包含少量协变量。虽然较大的数据集与较小的数据集相比可以支持较多的协变量,但应当说明包括每个协变量的理由。
- 当以往无相关知识时,对于连续性协变量与结果变量之间的关系,应当假定一个简单的函数形式(通常为线性或将连续数值二分类)。
- 评价结果时必须检查模型假设的有效性。对于广义线性或非线性模型这特别重要,因为误用模型会导致对治疗作用估计错误。即使为常规线性模型,也应当关注某些极端值的潜在影响。
- 当用校正的分析时,应当给出按协变量(如相关则进行合理分类)分成的亚组中治疗作用的结果,以便能评价模型假设的有效性。
- 灵敏度分析应当事先计划并列出,以便研究主要结果的稳健性。应当对差异进行讨论,并作出解释。如果存在不能合理解释的重要差异时——例如校正的分析与未校正的分析得出的结果之间的差异,那么试验的解释会受严重的影响。
- 主要模型不应当包括治疗和协变量之间的交互作用。如果事先预期有明显的交互作用,试验的设计应当可以单独估计具体亚组中的治疗作用。
- 可以进行探索性分析,以更好地理解未包括在主要分析中的协变量,并帮助申办者继续对药物进行开发。
- 方案或统计学计划中事先明确指定,并得到正确实施和解释的主要分析,应当支持试验中得出的结论。由于可能有许多其他有效的分析,但根据事先指定的分析得出的结果最为可靠。

<END>

最新政策法规资讯

对摩熵医药数据库感兴趣,可以免费体验产品