温馨提示:本文有1500+字,大约需要5-10min的阅读时间。
1、基线表的概念
基线表(Baseline Table)是医学研究中常用的一种数据表格,用于在研究开始时呈现参与者的初始特征和状态。这些特征通常包括人口统计学数据、健康状况和疾病史、临床指标、实验室检测、生活方式、社会经济等。
2、基线表的作用
基线表是临床研究报告中的一个重要环节,它不仅有助于保证研究的有效性和可靠性,还增加了研究的透明度和可信度,使其他研究者和临床医生能够更全面地评估和理解研究结果。
此外,四大医学期刊发表文章中的图和表总数一般不超过5个,其中就包括基线表,其重要性不言而喻。根据研究类型的不同,基线表的作用有一定的差异。
在随机对照实验(RCT)中,基线表用于展示随机化后试验组和对照组的参与者特征是否平衡。
在观察性研究(如:临床预测模型)中,基线表提供了对研究人群特征的全面了解,有助于评估结果的外推性。
3、基线表的展示格式
因研究类型的不同,基线表的展示格式也存在一定的差异,但通常都是第1张表,因此也常叫做Table 1。
3.1、RCT中的基线表:一般展示的是试验组和对照组中,各个研究指标的对比,其中分类型(计数)的指标采用频数和百分比表示,连续型(计量)的指标采用平均值±标准差或四分位数或中位数及取值范围等表示,常见的形式如图1所示。需要注意的是,RCT研究中的基线表一般不展示差异性检验的p值,因为经过随机化处理后试验组和对照组的基线资料是均衡的。

图1 RCT研究中的基线表举例
来源:Gogishvili M, et al. Cemiplimab plus chemotherapy versus chemotherapy alone in non-small cell lung cancer: a randomized, controlled, double-blind phase 3 trial[J]. Nature Medicine, 2022.
3.2、观察性研究中的基线表:观察性研究的基线表一般有3种格式:第1种是训练集和验证集对比的基线表;第2种是不同研究结局状态对比的基线表;第3种是以上两种情况结合起来的基线表。
·训练集和验证集对比的基线表:这类基线表通常在“临床预测模型”类型的文章中出现,表示随机划分出的训练集和验证集均衡可比(几乎所有的p值都是大于0.05的),使用训练集进行建模后,再使用验证集进行验证模型,结果具有说服力,常见形式如图2。

图2 训练集和验证集对比的基线表
来源:Lei Z, et al. Nomogram for preoperative estimation of microvascular invasion risk in hepatitis B virus–related hepatocellular carcinoma within the milan criteria[J]. JAMA surgery, 2016
·不同研究结局状态对比的基线表:这类基线表以不同的研究结局进行分组,分别对比并检验每个指标的差异情况,常见的形式如图3。一般来说多数指标是存在差异的(p<0.05),否则这个研究可能就没什么价值了。

图3 不同研究结局对比的基线表
来源:Lee C L, et al. Development and validation of an insulin resistance model for a population with chronic kidney disease using a machine learning approach[J]. Nutrients, 2022.
·两种情况结合起来的基线表:这种基线表有两层,外层是训练集和验证集的分组,内层分别是训练集中不同研究结局的对比和验证集中不同研究结局的对比。P值是各自对比的检验,一般来说多数指标也是存在差异的(p<0.05),常见的形式如图4。需要注意的是,在这个例子中,训练集和验证集并没有展示差异性比较的p值,如果需要展示的话,需要再加1列p值数据。

图4 训练集和验证集中各自不同研究结局对比的基线表
来源:Huang Y, et al. Development and validation of a radiomics nomogram for preoperative prediction of lymph node metastasis in colorectal cancer[J]. Journal of clinical oncology, 2016.
4、P值的计算方法
以上可见,观察性研究中的基线表都是展示p值的,其计算方法有以下几种(仅说明两分组)情况:
·满足正态分布的连续型变量,采用t检验,同时以平均值±标准差表示;
·不满足正态分布的连续型变量,采用Mann-Whitney U-检验,同时以中位数[Q1,Q3]表示;
·满足卡方检验条件的分类型变量,采用卡方检验,同时以频数和百分比表示;
·不满足卡方检验条件的分类型变量,采用Fisher精确检验,同时以频数和百分比表示;
5、本文总结
·本文对常见的基线表进行了汇总说明,以帮助新手研究者快速扫盲;
·本文引用的例子虽然都是高分SCI文献,但是对于普通文献同样也是适用的;
·本文仅以最常见的两分组进行了基线表的介绍,如果是多分组的情况,格式相同,只是部分检验方法存在差异;
·本文仅是理论层面对基线表进行了汇总,并未涉及如何用统计软件进行实际操作,可以实现的统计软件包括Excel、SPSS、R和Python等;
·本文开始,将开启一个系列,逐步介绍实用的医学统计学,敬请关注。