建立临床数据库前的准备--688IT编程网

建⽴临床数据库前的准备

刘岳鹏

徐州市中⼼医院

摘要：

临床数据库是临床科研必不可少的基础，其建⽴的准备过程可以归纳为三步：定调、确定内容和形式标准化。通过以上三个步骤的实施形成⼀个临床研究病例报告表和⼀个可靠、易⽤的数据载体，最终为临床数据库的建⽴做好准备。

关键词：临床数据库；

循证医学时代，临床数据库通过收集有研究价值的临床诊疗数据，为临床经验的积累提供数据⽀撑，并孕育出⼀篇篇的临床研究论⽂，是科室的发展和个⼈的成长过程中不可或缺的助⼒。现阶段，各临床科室也逐渐认识到建⽴临床数据库的重要性和必要性。那么，在建⽴临床数据库之前，哪些准备是必要的呢？这⾥总结了三点：

1. 定调

关系型数据库系统有哪些⾸先，根据个⼈或者科室⽬前的能⼒和需求，确定需要哪种类型的数据库。根据复杂程度，数据库分为三类：单任务型，其内容是针对⼀个试验项⽬⽽建⽴的，包含⼀个核⼼结局变量集，数据量少，收集⼯作量不⼤，但是数据不能反复利⽤；多任务型，其内容针对多个可能的试验项⽬，包含多个核⼼结局变量集，数据量⼤，收集⼯作量⼤，数据可以反复利⽤[1]；多中⼼型，是建⽴在多个机构之间的多任务型数据库，除了兼具多任务型的特点外，在数据管理，数据保密等⽅⾯具有⾃⼰的特点（表1）。表格中提到的“核⼼结局变量集”是临床科研标准化的概念之⼀[2]，是指通过最少且必需的⼀系列变量对某个结局事件进⾏评价，其⽬的是避免变量过多，浪费⼈⼒物⼒，⼜避免变量过少，不能全⾯评价结局事件。

表1. 临床数据库的类型及其特点

类型

内容

特点

单任务型

针对⼀个试验项⽬，包含⼀个核⼼结局变量集

数据量少，数据不能反复利⽤

多任务型

针对多个可能的试验项⽬，包含多个核⼼结局变量集

数据量⼤，数据可以反复利⽤

多中⼼型

多个研究机构

兼具多任务型数据库特点

⼆、确定内容

1. 确定临床数据库的主题和特⾊。确定数据库的主题，即确定个⼈或科室感兴趣的研究领域，⽐如乳腺癌、甲状腺疾病等。数据库主题可以有其独特之处，⽐如特殊的疾病，也可以和其它的数据库⼀样。唯⼀注意的是，对于感兴趣的疾病是否能够获得⾜够的病例数量，没有⾜够的病例数量就⽆法得出确实的研究结果。另外，数据库建设⼀定要有特⾊，⼀⽅⾯是考虑到撰写有新意的论⽂，另⼀⽅⾯也是为了做

出创造性的⼯作。这⾥是“创造性”，不是“创新性”。“创新性”在医学基础研究中⽐较重要，然⽽，在临床研究中不单纯强调创新性，因为许多临床研究的⽬的是为了为临床诊疗提供证据⽀撑，⽽不是为了产⽣新的医学理论和⽅法，相似设计的多个临床研究为后续系统性综述的实施提供了便利。

数据库的特⾊从以下⼏个⽅⾯考虑：1）特⾊的预测变量（也称作⾃变量）。结局变量是评价某个疾病转归的⼀系列变量，通常是标准化的，⽽预测变量是影响结局的因素的变量，其随着新技术、新的诊断⽅法、新的药物的出现⽽不断变化，是⼀个数据库特⾊的、可定制的⽅⾯；2）⾜够多的病例数。⼤样本的观察可以为临床实践提供最确实的证据，增加论⽂结论的可信度。⼀个临床数据库在各⽅⾯都普通，却包含⼤量的样本，也是⾮常有价值的数据库；3）系统地保留⾎液、组织等样本。物以稀为贵，组织、⾎液等样本在临床上是珍贵、不易得的，包含这些样本的临床数据库⾃然就是珍贵的。即时或者未来对样本的检测都可以为我们了解疾病提供重要的信息；4）特⾊的研

究⼈。不同的⼈可能是不同的民族，有不同的⽣活习惯或对某疾病的具有不同的易感性的⼈，不同⼈的临床研究为了解疾病提供了多样的信息。

2. 确定需要收集的变量。需要收集变量也分为三类：1）结局变量（集），以多个变量从多个⾓度来全⾯评价⼀个临床事件结局，这些变量被称作“核⼼结局变量集”，其内容是相对固定的、标准化的；2）预测变量，这是有特⾊的，可以由研究者根据研究⽬的定制的部分；3）其它变量，包括与预测变量有关

的变量，和与结局变量有关的变量。收集这类变量的⽬的是为了从中筛选出混杂变量，从⽽在多因素分析过程中排除混杂变量的影响⽽得出预测变量对结局变量的相对“独⽴”作⽤。

确定这三类变量的⽅法⼀般是通过专家共识，⽂献查询，参考模板，依照标准四个途径。前三个途径照字⾯的含义，⽽“依照标准”的含义是参考“临床数据交换标准协会（CDISC）”制定的标准来设计需要收集的变量的种类[3]。原则上，收集的变量不能过多，会消耗⼤量的⼈⼒和物⼒；变量不能过少，会遗漏重要数据，要在这两者之间取得平衡。变量的收集的种类最终归纳在临床研究病例报告表（CRF）中。

3. 确定纳⼊的⼈。建⽴数据库之初，要在⼀定程度上明确今后要进⾏的临床研究形式（诊断研究、病因研究或预后研究）进⽽确定纳⼊标准和排除标准，因为这关系到对照组⼈的纳⼊。例如，预后研究是研究⽅案的有效性，可以只纳⼊患者，预后好的与预后不好的患者互相作为对照；在诊断研究中要研究与诊断相关的因素，则要纳⼊病种或综合征相似的、需要鉴别诊断的病例作为对照；病因研究中还要纳⼊没有患病的⼈作为对照。纳排标准的确定根据以下原则：1）纳⼊标准有四个根据，分别是：临床特征、时间特征、地理特征和⼈⼝学特征[4]；2）排除标准：原则上为了增加外推性，尽可能不设排除标准，但是容易失访，有潜在不良反应，⽆法提供数据，可以列为排除标准[4]。

三、形式上标准化

1. 变量名的标准化：需要遵循的⼏个原则：尽量长使其具有⾃明性，尽量短⽽⽅便输⼊；避免使⽤空格

和特殊字符。例如，SubjectID、FName、ExamDate、WghtKg、HghtCm、LabID[4]。个⼈⼿⼯建⽴的，⼩型的数据库可以借鉴举例进⾏变量命名。此外，⽬前数据库建设领域有个“公共数据元”的概念，是“临床数据交换标准协会（CDSIC）”提出的，已经被业界普遍接受的概念，其主张同领域的数据库⽤统⼀的变量类别、名称、格式、单位等来建⽴数据库，其⽬的是⽅便临床数据的交换和重复利⽤[5]。CDSIC建议的命名更系统，但是其⾃明性略差，⼀般是电⼦数据采集系统在采⽤。

2.数据库软件：软件是数据的载体，同时起着对数据进⾏管理、查询，甚⾄统计分析等作⽤。根据其特点分为三类：1）本地平台：Microsoft EXCEL和ACCESS等，其优点是可在本地运⾏，容易上⼿，定制程度⾼；2）云数据平台：临床研究平台2.0（MedSci）、Revman（中国临床试验注册中⼼）等，该类型对临床数据的存储和采集有不同程度的优化，通过⽹路进⾏数据存储，数据安全性更⾼；3）商⽤EDC：linklab，易侕EDC等，其特点是收费，针对临床数据的存储和采集有相当程度的优化，有专业团队进⾏指导数据库的建设。

3.数据表格的标准化：计算机数据库包含⼀个或多个数据表格，其中“⾏（Row）”对应个体记录，“列（Column）”对应变量。标准化的数据库是“多表格关系型数据库”[6]，其特点为受试者特征、既往病史、伴随⽤药、实验室检查结果等为单独的表，受试者具有唯⼀的研究对象识别编号进⾏标识，可以通过“查询” 功能进⾏不同表格之间的数据的连接。

总之，建⽴临床数据库的准备⼯作，⼀是形成⼀个临床研究病例报告表，⼆是形成⼀个可靠、易⽤的数据载体，这需要多种背景的⼈员共同参与。值得⼀提的是，数据库的建⽴不是⼀簇⽽就的。⾸先建⽴的是“采集型数据库”，其⽬的是为了全⾯地记录试验的信息；其特点是采

⽤“纵向数据结构”，多⽤⽂字描述来记录信息，没有进⾏“数字化”，不能直接进⾏统计分析；接着建⽴的是“分析型数据库”，其⽬的是为了统计分析；其特点是数据结构有“纵向数据”和“⽔平数据”两种，其中变量直接或衍⽣⾃“采集型数据库”且经过“数字化”⽽归纳成“⼆分类变

量”，“多分类变量”，“有序分类变量”，“连续变量”等可分析的形式。

参考⽂献：

[1]赵⼀鸣, 曾琳, 李楠，等. 临床注册研究可持续发展的科学基础：多⽬标多任务研究⽅案[J]. 中华医学杂志, 2013, 093(046):3649-3651.

[2]邱瑞瑾, 李敏, 韩松洁，等. Interpretation of the COMET handbook (version 1.0) and its insight for developing core outcome sets in clinical trials of traditional Chinese medicine[J]. 中国循证医学杂志, 2017, 017(012):1482-1488.

[3] 王雅倩, 杨悦. CDISC标准与临床试验数据标准化[J]. 中国医药指南, 2016, 14(12):296-297.

[4]Stephen B.Hully,Steven R. Cummings, Warren S. Browner等. 临床研究设计（第4版）[M]. 北京⼤学医学出版社, 2017.

[5] 林玲. 中医临床护理信息数据元标准体系构建[D]. 湖北中医药⼤学, 2014.

[6] 张永亮, 侯俊. 关系型数据库的规范化⽅法研究[J]. 通化师范学院学报, 2013, 034(006):31-32.

发布于 08-05

688IT编程网

建立临床数据库前的准备

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

建立临床数据库前的准备

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式