在临床研究统计分析思路与统计图表系列的第一篇文章[1]中,我们将临床研究的统计分析思路总结为三个部分:(1)描述基线信息;(2) 估计效应量;(3)补充敏感性分析。基线信息是临床研究论文结果中不可或缺的重要内容,其统计分析方法和呈现形式也值得临床研究者关注。本文将结合研究实例对基线信息分析中涉及的统计方法和统计图表进行说明。
1 基线信息的概念和内容
“基线”没有严格的定义。Segen Medical Dictionary在临床研究的背景下给出了基线的解释:基线是研究人群在前瞻性研究开始时的健康状况,是研究对象在实验组或时间的状态” 0" 对照组干预前。药物的安全性和有效性可以从基线数据的变化来评估,基线数据在组间的分布差异可能会使结果评估产生偏差[2]。所谓“基线”其实是相对于“跟进”用于前瞻性研究设计的,但其他类型的研究设计也可以用“基线”来指代研究人群的基本情况。基线信息包括两个方面:(1)研究人群的选择和排除过程。先用纳入标准粗略圈定分析人群,再用排除标准修正分析人群;(2)研究人群基线特征的描述与比较。基线特征通常包括社会人口学特征、临床特征、实验室检查指标以及疾病史和用药史。(2)研究人群基线特征的描述与比较。基线特征通常包括社会人口学特征、临床特征、实验室检查指标以及疾病史和用药史。(2)研究人群基线特征的描述与比较。基线特征通常包括社会人口学特征、临床特征、实验室检查指标以及疾病史和用药史。
2.基线信息显示形式
研究人群的选择和排除最常用的展示形式是研究人群的流程图,即文中的“图1”。不同的research design type有不同的具体录取流程统计分析方法,在之前的文章和相应的例子[1]中都有提到,这里不再赘述。对研究人群基线特征的描述和比较,通常以基线表的形式展示,即文章中的“表1”。“表1”在详细展示时,根据不同的研究情况有不同的形式:在介入性研究中,以实验组和对照组分组展示,如PLANTO、CHANCE等大型随机对照临床试验[3] ,4]; 在观察性研究中,根据不同的暴露因素对组进行分组。例如,在 CNSR II 研究中,在评估影响急性脑卒中合并非瓣膜性房颤患者华法林出院的因素时,根据患者是否按房颤分组对基线信息进行描述和比较[5] ],或按不同程度的暴露因素分组展示。例如,CKB课题组在研究肥胖与脑卒中的关系时统计分析方法,基线表根据暴露因素BMI的6个截点分为7组:18.??0、20.5、23.0、25.0、27.5、30.0 [6]. 以上两种思路都是从因果到结果的逻辑顺序,适用于前瞻性研究设计。如果设计为回顾性研究,则应按照从结果到原因的逆逻辑顺序分为“病例”组和“对照”组,如Fox等。心脏病学分为病例组和对照组,以描述和比较基线信息 [7]。如果没有分组,所有的研究人群都可以描述为一个单一的群体,但这种情况比较少见,例如台湾注册研究的遵循指南(GWTG)[8]。
3 基线信息统计方法
对于研究人群的选择和排除,只需统计每个排除标准的频次和百分比,但应采用分级排除法,避免排除总人数与实际排除人数不一致人由于不同排除标准统计的人数的交集。所谓层级排除法,就是在不同层级统计被每个排除标准排除的人数和百分比。例如,在NRMI 2研究中研究急性心肌梗死患者的急救医疗服务质量和后续护理时,人群排除过程采用了分级排除法[9]。
基线特征的描述和比较应根据变量的不同特征(如连续变量、分类变量、正态、非正态)、组数(两组、三组或更多)选择相应的描述形式和测试方法。连续变量用“均数±标准差”或“中位数(四分位距)”描述,两组采用t检验或Wilcoxon秩和检验,三组采用方差分析或Kruskal-Wallis检验。分类变量用“频率(百分比)”描述,卡方检验用于评估组间平衡。传统的假设检验使用P值来评估协变量的组间平衡,但在使用大样本时容易出现假阳性,无法通过P值评价给出定量差异。因此,大样本随机对照临床试验直接看均值和百分比,不报告组间比较的P值,而是使用标准化组间差异[10]或Hodges-Lehmann估计[11] ] 来评估两组之间均值或中位数的差异。具体统计方法详见表1。而是使用组之间的标准化差异 [10] 或 Hodges-Lehmann 估计量 [11] 来评估两组之间均值或中位数的差异。具体统计方法详见表1。而是使用组之间的标准化差异 [10] 或 Hodges-Lehmann 估计量 [11] 来评估两组之间均值或中位数的差异。具体统计方法详见表1。
标准化组间差异和Hodges-Lehmann估计量国内研究者很少使用,这里简单介绍一下。连续变量组间标准化差的计算公式如下:
Xe和Xne分别表示暴露组和非暴露组中连续变量的均值,Se和Sne分别表示暴露组和非暴露组中连续变量的标准差。分类变量组间标准化差的计算公式如下:
其中,Pe和Pne分别表示暴露组和非暴露组中某一分类变量某一水平的组内百分比。标准化差的绝对值超过10相当于传统假设检验的P
4 常用统计分析工具
绘制所选研究人群的流程图,先用统计软件按层次排除法计算出各排除标准排除的人数及百分比,再用传统流程图绘制软件(如Visio)或office软件(MS Office/Power point),甚至一些在线小工具如ProcessON(processon.com/)、draw.io(w.io/)等绘制流程图,然后以合适的格式导出图片。
基线特征的描述和比较基本上可以借助传统统计分析软件(如SPSS、SAS、R、Stata)的默认菜单或模块来实现,但在易操作性、方便性、可重复性、代码等方面痕迹各有优缺点。表 2 简要举例说明了 SAS 中常用的基线表格统计分析工具。
另外,借助一些基于上述软件的二次开发包,可以更方便快捷地得到基线统计表。例如,SAS软件平台可以使用作者开发的基线表宏程序%ggBaseline,一键自动生成适合学术期刊的RTF或PDF格式的统计表[12]。%ggBaseline生成的统计表涵盖单组、多组、P值或标准化组间差异/Hodges-Lehmann估计量评估组间平衡等,具体样式如图1所示。其他软件平台,如如R的qwraps2软件包中的summary_table()函数,也可以尝试[13]。
临床研究的基线信息是研究成果的重要组成部分。它是研究人群社会人口学特征的基本描述,是同类研究结果比较的依据,是随机对照研究随机化过程的评价方法。此外,基线信息组间平衡的比较也为后续多元模型校正的效果评价提供了参考。
参考:
[1] 顾红秋.临床研究统计分析思路与统计图表综述[J] 中国循证心血管医学杂志, 2018, 10(7): 827-30.
[2]baseline.(nd) Segen 医学词典。[EB/OL] (2011)[2018-08-18]. medical-dictionary.thefreedictionary.com/baseline
[3]Wallentin L、Becker RC、Budaj A 等人。急性冠脉综合征住院患者替格瑞洛与氯吡格雷的比较[J]. 新英格兰医学杂志, 2009,361(11):1045-57.
...
[13] DeWitt P, Bennett T. qwraps2: Quick Wraps 2. R packageversion 0.3.0, CRAN.R-project.org/package=qwraps2
招聘:
希望来事业部的人,
想和我一起玩SAS的,
想做临床研究
传统/生物统计学/统计学,
已经毕业的童鞋(2019年6月毕业也可以),
请点击以下网址查看招聘广告。
ncrcnd.org.cn/plus/view.php?aid=712