数据公开新冠疫情确诊患者轨迹结构化数据
数据公开
新冠疫情确诊患者轨迹结构化数据
随着新冠疫情发展与国家疫情相关数据公开,新冠疫情确诊患者轨迹、所在⼩区及相关移动信息等成为在疫情防控中⼤众关⼼的热点信息,越来越多政府部门也陆续公开相关确诊患者的⾮隐私信息。同时,该部分数据也为相关研究⼈员、政府部门研究疫情传播与防控提供了重要数据参考。
但是由于全国公开数据分散,多为⽂本⾮结构化数据,难以直接迅速形成有价值的结构化信息为后续的研究提供深度⽀撑。北航⼤数据⾼精尖中⼼研究团队进⾏数据来源的整理与获取,利⽤⾃然语⾔处理等技术从已公开全国各省市直辖区4626位确诊患者轨迹(更新⾄2020年2⽉20⽇,以下同)中抽取了基本信息(性别、年龄、常住地、⼯作、武汉/湖北接触史等)、轨迹(时间、地点、交通⼯具、事件)及病患关系形成结构化信息。希望能为疫情传播与防控相关研究提供有效数据⽀撑。数据将保持定期持续更新、持续提⾼数据抽取精准性,如有不⾜请⼤家批评指正,欢迎各位⾃然语⾔处理、数据分析研究者取⽤,也欢迎⼤家共同完善此数据集。
注:由于部分省市公开确诊患者轨迹数量较少,导致该数据数量上与确诊病例数量产⽣较⼤的差距。
数据介绍
本数据集采集⾃全国政府官⽹、卫健委等官⽅途径,现共获取4626位确诊患者轨迹信息。
注:数据的Top10省份分布
注:轨迹数据省份分布
数据获取⽅式
该数据集提供获取的原始数据(Word)、结构化数据(JsonXmlcsv),可通过Github⽅式获取。链接为:
结构化数据属性
公开数据以患者为单位,分为基本信息和轨迹信息两类信息:
基本信息包括病例编号(官⽅公布编号)、性别、年龄、常住地、⼯作、病例公布地区(省、市、区县)、确诊时间、武汉(湖北)接触史、武汉(湖北)接触史描述,共9种属性。轨迹信息包括时间、事件、交通⼯具、途经地(起点终点)及经纬度、描述,共5种属性。
确诊患者原始公开数据
Json格式化数据
为满⾜⽤户的不同数据格式需求,系统提供三种格式的结构化数据,分别: Json格式、csv格式、Xml格式。其中,csv 格式数据的分隔符为英⽂逗号。
Xml格式化数据
csv格式化数据
北航⼤数据⾼精尖中⼼研究团队也已开发‘ 确诊患者轨迹可视化分析与查询 ’可视化系统,系统⽬前正在完善中,即将发布,同时,病患关系结构化数据也即将发布,敬请期待。
特此感谢⽀持数据公开与系统研发⼯作的北航⼤数据科学与脑机智能⾼精尖创新中⼼及参与这项⼯作的各位团队成员
北京疫情最新数据特此感谢⽀持数据公开与系统研发⼯作的北航⼤数据科学与脑机智能⾼精尖创新中⼼及参与这项⼯作的各位团队成员(排名按字母、不分先后):
关旭涛何睿智李卓然梁为寅罗培祥齐楚涵孙凯张淑慧郑春晓杨凤涛
数据来源(各省市区卫健委、各省市政府及官⽅媒体):
1. 北京市疾病预防控制中⼼
2. 天津发布
3. 河北⽇报
4. 海南省卫健委
5. 哈尔滨市⼈民政府
6. ⼤河报⽹等
(其余来源本处未详尽列举)
⼤数据科学与脑机智能⾼精尖创新中⼼是依托北京航空航天⼤学建设的⾸批北京⾼校⾼精尖创新中⼼之⼀。中⼼以创建⼤数据科学与脑机智能科学理论体系、突破⼤数据科学与脑机智能关键技术为使命,通过汇聚国内外本领域顶级科学家和⾼端技术⼈才,建⽴并创新⾼精尖中⼼的机制体制以激发⼈员活⼒、提升中⼼效率,开创⾯向智能的数据科学、智能科学、认知科学三⼤研究⽅向,重点突破复杂⼤数据可计算、体智能可学习、多态跨域知识可关联等世界级难题。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论