作者:王世亮 许健健 叶红杨 储成顶* 作者单位:(合肥工业大学控释药物研究所 合肥230009)
【摘要】 目的:探讨临床试验CRF表全息数据库统计批处理“联姻”模式。 方法:按纸版CRF表建立电子CRF表,并加载库操作程序和近10个常用统计模块,进而构成全息数据库。 结果:以上海某大型临床试验资料作为本数据库试验运行之素材,共处理数据元约11万个,做出统计判断约1000份,调用统计工具8种,转换数据类型约10余次,运行时间仅半小时,出具大型试验综合性报告2份,统计归纳报告20余份。 结论:此举既可作为电子数据获取系统EDC的应用过渡,也是EDC全面推广的前期实践。
【关键词】 临床试验; CRF表; 数据库
新药临床试验,动辄使用几十至几百份临床病例报告表case report form(CRF),目前国内还多为纸质版形式,以详细记录受试患者在临床试验前后的各种体能、体征参数、临床处置过程及试验效果。这个有着几百份,每份都有十数页的临床观察表构成了一个较大的信息数据资料库,处理及统计它们是一项综合性很强的系统工程。并且这些统计处理过程以及所形成的资料结果,其规范性有着很强的要求,直接关系着临床试验的目标如某新药报批的成功与否。按我国GCP规定:“数据管理的目的在于把得自受试者的数据迅速、完整、无误地纳入报告;所有涉及数据管理的各个步骤均需记录在案,以便对数据质量及试验实施进行检查。用适当的程序保证数据库的保密性,应具有计算机数据库的维护和支持程序”。我们尝试探讨建立临床试验全息数据库,以系统地处理临床纸版CRF表,对全部资料和信息进行自动批量的统计处理,使之进一步规范化,准确化,快捷化。此举既作为电子数据获取系统EDC(Electronic data capture)应用的过渡,也作为EDC全面推广的前期实践[1~9],现以本文报道之。
例选南京某大型医药企业抗肿瘤缓释植入剂新药的多中心临床试验,参考其试验基地:上海多家大型三甲医院所共同拟制的临床观察纸质版CRF表,为基准CRF表,并以该次临床试验结果为本全息数据库课题试验运行之素材。
1 全息数据库的结构
由4个显性模表⑴~⑷和一个隐性模块⑸组成。见图1。图1 全息数据库的结构⑴ 纸版CRF表:这是全息数据库的基础,也称书式CRF表(Book type)。临床试验前发放到临床医师手里,供其详细纪录临床试验的各类信息。试验结束后由专人统一收回,经双录入程序输入至电子CRF表中。⑵ 电子CRF表(eCRF):这是全息数据库的信息主体,建立于EXCEL平台。每份纸版CRF表对应于一个电子版CRF表,即占用EXCEL的一张工作表。一群电子CRF表经链接,工具运算构成临床试验全息数据库即EXCEL的一个完整工作薄。⑶ 综合信息一维表:上述电子CRF表,每表信息元排列都是两维平面结构(行×列)。这极不便于群表间的浏览和比较运算。故全息数据库的一个很重要的运作就是自动生成综合信息表:每一个完整的电子CRF表,在综合信息表中仅表现为一行或一列信息排列,即由原两元结构转换为一维结构。⑷ 统计工具群表:常用的统计工具,建立于EXCEL平台上,每工具占一表,组成统计工具群表。⑸ 库程序: 即以VB编程的运行指令群,提供各类除统计之外各种运算功能:如调用、核对、提示、纠错、格式变换,精度变换、简单计算以及EXCEL函数调用等。
2 纸质版CRF表
2.1 封面、注释及说明
名称(例:上海市抗癌协会胃肠肿瘤专业委员会 临床研究病例报告表);内容(例:植入用缓释氟尿嘧啶预防进展期胃癌术后复发和转移);方案(例:SSGIC0601;IV期;日期;部门及保密声明;填表说明及简明规范:试验性质;组别(试验组或对照组);试验药物;临床研究单位;研究负责医师;受试患者姓名;受试者住院号;受试者随机分组号;患者入组时间;病例入选标准:标准共16条,满足条款9条,否定条款7条。
2.2 各类信息及观察资料
⑴ 试验者一般资料:姓名;性别;出生日期;身高;身份证号码;社会保障卡号码;本人地址;电话;邮编;联系人姓名;与患者关系;联系人地址;联系人电话;其他联络方式;住院号;病理号;入院日期;入院主述。⑵ 入组时检查资料:体力状况计分(karnofsky计分);病灶描述;各项检查资料:术前胃镜检查;术前CT检查;术前经肛门直肠腔内超声检查;其他重要的检查记录;术前实验室检查(测定项目,结果,正常范围):血常规5项;肝肾功能6项;肿瘤标记2项。⑶ 手术、病理记录及术中给药记录:手术一般记录5项;术中探查情况14项;其它术中所见;术后重建方式;术中给药情况:治疗组:给药部位及剂量9×2项。对照组:给药方式及剂量;其它记录。⑷ 术后病理检查结果:描述共4项;术后住院期间观察项目:术后恢复情况及不良事件记录共18项,观察至术后11天;其它不良事件记录;术后实验室检查(同术前项目)。⑸ 术后辅助化疗记录:第1~6次化疗前后的各种纪录化疗方案实施情况各18大项。其它辅助治疗情况:放射治疗;免疫治疗;靶向治疗;基因治疗等4项。⑹ 出院随访记录:6×6月的随访纪录,各11大项,50余小项;发现肿瘤复发与转移后的治疗记录共7大项。
3 电子CRF表
3.1 搭载平台
电子CRF表建立于EXCEL平台,以群表构建临床试验全息数据库。EXCEL是优秀的数据处理软件,使用该平台将为数据相关、综合处理、统计判定带来极大方便。虽然其打印文本难以做到像WORD文档那样精美,但对临床CRF表来说已属适用。临床CRF表主要要求是结构合理、数据全面、条理清晰,对文本的美观要求也仅局限于字体字号合理,各种符号健全,而EXCEL完全能够满足这一要求。总体框架按"全息数据库"要求构建。
3.2 内容
内容为纸质版全部信息(见以下分类的描述)。各类信息资料的录入排列顺序也完全照搬纸质版CRF表(空表可直接打印形成纸质版CRF空表),每份纸版CRF表即为1个电子CRF表,顺序占用1个SHEET表。数据的顺序排放则大大方便了后期录入人员的准确输入。
3.3 数据信息分类
分为两大类。一类是无须统计处理的信息,简称文本资料;另一类是需要统计处理的数据,简称信息资料。文本资料要求的是完善、美观、合适即可。例如对CRF表的一些备注,CRF表的名称、患者的普通资料,各种检查项目的标准值和正常值,各种信息量所使用的单位量纲等等。信息资料,也即统计和计算的对象,它必须是可运算的信息代码。此类信息代码又分为A数量信息、B判定信息和C异类信息3类。
3.4 信息资料的处理
A类数量信息:毋须赘言,就是能直接统计计算的数据,例如出血量,给药剂量,化验指标量……表现形式主要为计量数据。这类信息后面,一般跟有量纲等文本资料,单独放置在其后的单元格里。
B类判定信息:很多的观察结果,通常用是或否来判定,这类常用的统计信息,我们在全息数据库里并不过严的苛求,允许使用有或无、是或否、正常或异常等这些直观的汉字来表示。考虑到纸板临床观察CRF表都是由不同的医生或临床试验者及组织者来填写,虽然经过临床试验前的统计培训,但填写的习惯仍然会有相异之处,故设计的处理程序中将会采用兼容的方式,例如对“有或无”就要兼容“有或没”,“有或不”,“有或/”,“有或×”……此一类信息,多用计数的方式,转化成计数数据信息供统计处理。
C类异类信息:例如没有进行这项观察,现场医师填写的可能是空格或/或-,甚至还有医生手误写成一个叉,库程序在遇到这类信息(录入或读取)的时候会做出标记,提示操作者去重新核对这些代码的意义。
另有大量的非规范的A类信息,也划到C类信息中。例如1.3ug/ml有时会误放在1个单元格里,处理系统将会自动地提取1.3做为统计信息,而将后面的ug/ml做为校准信息,其不参与统计运算,但是却参与比对过程,库程序会把这个量纲和基准CRF表量纲进行比较,同时提示操作者进行核对。还有一些既含有数字信息,也含有其它非数字信息,又不易分割的一些特殊信息,例如临床医生对肿瘤的描述,常用长×宽×厚,如3×6×9厘米,甚至还有只写了长×宽的。这其实是一种复杂的异类信息,对这类信息也用提示的方式通知操作者自行核对修正。
当然,对CRF表使用者和录入计算机人员的前期培训非常重要,本课题将程序或处理系统做得尽量完美和兼容,只是为了尽可能地减少错误,而并不是为了取代规范化的培训过程。
4 综合信息一维表的库程序运行
运行库程序的“照抄”命令,将在数据库内新建一工作表(称一维原表)。从第1CRF表开始,按人的阅读习惯,从上至下从左而右顺序,判断选读每一个信息单元,将A、B或C类信息,依次读入一列。读入A类数据信息时,还会紧接读入其后单元格里的信息,因为这可能是量纲类的信息,而不同的临床试验实施者或实施单位,可能会误使用自己习惯或沿用的检验指标单位/量纲。这就会造成量纲的不同,后面的检验值因此无从统一比较和统计,需要库程序在此把关。在此步,库程序只起照抄功能。n份CRF表读取结束,即获得n列CRF一维序列,构成一张综合信息一维表。“照抄”命令为条件锁定命令,一次使用后便暂时锁定,需要输入解除命令后才能再次使用,以防止误刷新一维原表。
运行库程序的“核对”命令,即对所有信息进行左右(同行)比对。按第一列对应单元格内容,对数据相差10倍以上的(尽管可能是对的)、量纲不同的、判断类的信息用字不同的、及前速异类信息,都会加以颜色标注。提示操作者进行核对。核对命令可以多次使用。
运行库程序的“转置”命令,又将在数据库内新建一工作表(一维新表)。即对一维原表做行列转置。转置的目的是使其符合EXCEL的筛选排序要求,更利于后面统计比较和人的总览阅读习惯。行列转置后即进行排序,将对照组排在前面。尚有其它许多调整功能不予一一介绍。此命令结束后即生成一维新表。转置命令也为条件锁定命令。运行库程序的“计数”命令,将进行条件判定计数,例如分别统计对照组,治疗组某指标的“有”“无”“正常”“异常”及无纪录的个数,并输至指定区域。
运行库程序的"计量"命令,将进行计量数据的归纳统计,例如分别对对照组,治疗组某指标的量计算个数n、均值、方差;对同一试验个体计算某一相同指标的试验前后差值,并对这些差值数据群进行上述“计量” 归纳统计,并输至指定区域。
以上命令皆可单独运行,操作者可在各命令运行后做出调整或信息核对改正。调整完成后,可以运行库程序的“自动”命令,将上面的指令连续执行一次。
综合信息一维表运行示例部分截图见图2。库程序代码页局部示例见图3。图2 综合信息一维表统计过程截图(部分)图3 库程序代码页局部示例
5 统计功能群表
5.1 数据的分类处理
CRF表里面的数据分属两大区域:甲区,临床试验前的数据,主要是非处理数据和拟定的处理数据标准,基数,试验前的一般性资料主要来自这里。
乙区,临床试验后的数据,主要是疗效,处理步骤,处理程度,不良反应及跟踪随访数据。这两区的数据中有计数数据和计量数据两类。
计数数据,又分为一般计数数据和有序计数数据,对这两类数据的区分,库程序不做判断,由操作者在临床CRF表的电子版本上加以标注,有序数据加注1、2、3、4……,无序数据不加注。库程序在统计的时候就会对应的选择相应的统计程序,例如某种新药治疗的临床疗效,会填有全愈,好转,无效,恶化,操作者会加标记1、2、3、4。这显然是一个有序计数系列。库程序读到1继而查2、3、4及后续序数信息。例如本例,统计出来为4,表示为4级计数数据,于是调用后面将要提到统计功能群表中的Ridit统计软件,或秩和软件来进行统计。这之后,库程序也将每一级的数据,看成是一个单独的信息(属一般计数数据)进行比较统计,会调出卡方统计软件,单独进行每组数据的比较。对于一般计数数据,无须多言,直接调用卡方列联表统计程序或4格表统计程序进行3种卡方运算或精确概率运算。
前述B类信息,基本上多为计数数据。计量数据,需区分独立组或配对组。一般来说,CRF表在运行之前,试验的性质已经明确,试验组和对照组之间的比较,一般是两独立组的比较。而试验组同类指标在试验前后的比较,当然就是配对比较。库程序会按照此类规则,对数据超过一定量的计量数据进行方差检验,对较少样本量的数据进行两独立组t检验或配对t检验。
计量数据要注意到数据的分布是否正态,因此库程序还有一个正态检验。如果检查出数据是非正态的,又必须进行两步运算:①按轻微偏态处理,并将统计结果提示给操作者;②按严重偏态处理,提示操作者是否进行数据转化,或者是核对数据。数据转化程序由操作者指令决定,选择对数变化、指数变化、方根变化、平方变化等。前述A类信息,基本上多为计量数据。
5.2 库内内置统计软件
研究及编制实用统计软件,是本课题并全息数据库编程的核心选题。目前在该全息数据库系统里加载的统计软件为:卡方检验;精确概率检验;方差检验;两独立组t检验;配对t检验;Ridit检验;秩和检验;线性相关检验;离群数据Q检验;数据正态检验及随机数的肯特尔检验等。
这些统计程序均在EXCEL前台或后台编制完成,各自占用一个独自的工作表组成统计工作界面表群,允许程序和手工调用,并允许表群中各表单独使用,各自成为一个独立的统计计算器。
各种统计过程所形成的格式规范,包括统计参数的排列,统计结果的输出,自动生成的统计报告等,也是库程序的一个编制重点,不再一一叙述;为该全息数据库编者的各类统计软件,也将另行撰文介绍。
内置统计工具表选例:成组t检验运行截图见图4。图4 统计工具表选例:成组t检验 运行截图(部分)
6 试验运行效果简介
试验运行的CRF表资料来自南京某大型医药企业联手上海抗肿瘤协会进行的氟尿嘧啶植入剂新药的大型临床试验,共收回CRF表约196份,对照组76份,试验组120份。输入建立全息数据库后,对其中试验前的一般资料,试验前的各种检查资料,试验后的治疗效果资料,不良反应资料,出院随访资料均进行统计学组间比较处理。另,试验组治疗前后的各项医学检查资料做组内统计比较处理。共处理数据元约11万个,做出统计判断约1000份,调用统计工具:成组t检验,配对t检验,秩和检验,离群检验,方差检验,卡方检验,精确概率检验,正态检验等8种计140余次。转换数据类型约10余次。运行时间(不含输入及人工纠错时间)仅半小时。出具大型试验综合性报告2份,统计归纳报告20余份。
【参考文献】 1 卜擎燕,熊宁宁 ,邹建东 ,等.从临床研究数据管理角度设计病例报告表.中国新药杂志,2007,16(5):339~343.
2 孙亚林,贺佳,曹阳,等.临床数据管理的电子化趋势.中国新药杂志,2005,14(4):393~395.
3 Clinical Trial EDC Task GrouP of Pharma Biostatistics& Data Management Technical Group. EDC Position Paper Revision,2005,9.
4 王怡兵,熊宁宁, 擎燕,等.临床试验数据采集与报告文件设计制作的技术规程.中国临床药理学与治疗学,2004,9(5):595~597.
5 卜擎燕,熊宁宁,邹建东,等。电子数据获取:实现更加优质与高效的临床研究.中国临床药理学与治疗学,2007,12(4):455~459.
6 孙亚林,贺佳,曹阳,等.临床数据管理的电子化趋势.中国新药杂志,2005,14(4):393~395.
7 万霞,杨红,刘建平.临床试验中病例报告表的设计.中医杂志,2007,48(10):885~887.
8 Gerhard Fortwengel Guide for clinical trial staff:inplementing good clinical practice Karger,2004,32.
9 王映辉,焦拥政.中医临床研究病例报告表设计及相关问题分析.中华中医学杂志,2005,20(10):620~623. |