人队列研究的数据管理与质量控制策略(全文)
如何制作网页版调查问卷摘要
大型人队列研究因具有大样本量、多时间点数据等特点,使得其在病因学研究领域具有独特优势,同时也带来了数据管理与质量控制方面的巨大的工作难度。我国近年来启动多项大型人队列研究,相关队列数据的管理与质控工作面临巨大挑战。本文综合当前我国队列研究领域已有经验和共识,从队列数据特点出发,针对问卷调查数据、临床诊疗数据、生物样本检测数据和观察结局数据等四种主要来源的队列数据的类型和主要形式,从数据存储、流转及传输等工作环节,全面概括了队列数据管理相关工作内容与方法,并针对这些队列数据,从调查问卷评估、数据逻辑核查、调查对象抽查以及多数据库复核等多种途径提出了相应的数据质控策略,以期为我国人队列研究中数据管理与质控相关策略的制定提供借鉴。
20世纪中期,随着慢性非传染性疾病对于人类健康的威胁日益严峻,人队列研究开始蓬勃兴起。人队列是一类针对特定的人以个人或家庭为单位进行长期随访观察,以评估暴露和结局的因果关联的一种前瞻性的观察性研究[]。这种研究形式先因后果的时间顺序明确,论证因果关系的证据强度高,结果外推性好,且可以同时评估多种暴露因素对多种结局风险的影响[],
因此是一种高效的关联研究策略。自1948年美国弗雷明汉心脏队列(The Framingham Heart Study)率先建立以来[],诸如英国医生队列(The British Doctors Study)[]、美国护士队列(Nurses' Health Study)[]以及欧洲多国的出生队列已经并且仍然在产出了大量的高质量研究成果,为人病因学研究奠定了坚实的基础。进入21世纪以来,队列研究的发展日益呈现出新的趋势,样本量更大,如英国的UK Biobank和中国慢性病前瞻性研究项目(China Kadoorie Biobank,CKB)均超过50万人。伴随着大样本量而来的海量人数据的质量是评价队列建设的核心指标[]。这些人数据质控工作难度大、任务重、要求高。因此,需要在队列建设中强化顶层设计,采用合理高效的数据质控策略来提升数据质量。随着我国近两年在国家重点研发计划领域加大对队列建设的支持力度,以及一些大型研究机构和团队对队列建设的重视,我国目前正在建设和即将开始建设的人队列数量快速增加。因此,本文拟综合队列研究领域已有经验和共识,探讨队列建设数据管理与质控相关问题,以期为我国人队列研究中数据管理与质控相关策略的制定提供借鉴。
大型人队列的数据来源与获取
在队列基线调查和随访阶段,通常会基于调查问卷、医疗档案等途径获取队列成员的多种类
型的数据,这些数据获取途径的工作开展方式有显著不同,因此在具体设计与实施过程中应有针对性的做好统筹管理。此外,目前绝大多数队列均涉及生物样本采集,生物样本采集过程中各类属性、参数、环境条件等均应按照相应的规则体系化标识和管理。
1.问卷调查数据:
问卷调查是流行病学研究获取数据的最经典方法,需要调查员与被调查对象面对面的进行访谈,由调查员询问来完成问卷,或者由调查员指导被调查者独立完成问卷。随着互联网的发展,越来越多的队列倾向于甚至已经开始尝试用移动终端开展无纸化的问卷调查,二者在质控的方式和时效性上存在显著差异。对于调查对象无法实现面访,电话、网络问卷形式是重要补充,但是在问卷设计时,应充分考虑问卷题目的设置要遵循重要的在前、不重要的在后的原则,确保在第一时间获得最关键的数据。网络调查可以基于网页版和手机端APP等途径进行电子问卷的调查,被调查者可以在任何地点完成电子问卷。从而为被调查者提供了最大的便利,但是同时带来了调查过程的不可控性,导致答卷过程的规范性缺乏有效监控,因此在数据的完整性及准确性方面需要开展特定及时核查和反馈机制,以便对不合格数据进行补充调查。
2.医疗机构档案记录:
近年来,随着我国医院信息化程度不断提高,医院诊疗档案已经相对完善。这些档案数据涵盖了丰富的实验室检查、临床检查、疾病诊断、药物使用等多种数据,具有极其重要的科研价值。队列研究人根据其不同设计特点和人类型,均具有不同完备程度的医疗记录数据。因此,大多数人队列建设过程中,获取队列成员医院诊疗数据也是一项具有重要意义的工作。此外,还有医保系统数据、死亡登记系统数据等。上述各类数据的获取有几种途径:(1)通过人工摘录;(2)利用系统接口直接导出或对接数据库;(3)利用软件工具抓取队列所需数据,整合成固定格式后再导入至队列数据库;(4)利用机器学习和深度语言等新兴信息技术实现临床病例资料的获取。以上四种方式中,第一种方法效率低,出错率高。因此,直接对接数据库或抓取数据是更加高效的方案。此外,随着机器学习和深度语言等新兴技术的兴起,可以实现对临床诊疗过程中产生的数据实时监控获取,并将图像信息、视频录像信息等自动转化为数据参数进行记录,目前已经有一些机构能够提供这类服务,因此,队列建设中也应注意加强不同机构间合作,引入第三方专业团队,以实现队列建设的高效推进。尽管如此,由于非结构化的数据、智能集成的数据以及不同中心之间存在的标准和数据结构等存在差异,使得这些相对快捷的数据提取方案仍然需要大量的人工参与以核查其
准确性。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论