基于数据空间的电子病历数据融合与应用平台

基于数据空间的电子病历数据融合与应用平台web

包小源1,2, 张凯3, 金梦1,2, 谢双莲3, 宋锴3数据库

1 北京大学医学信息学中心,北京 100191安全

2 国家医疗服务数据中心,北京 100191服务器

3 北京大学医学部,北京 100191网络

摘要:为了创建高效可扩展且易于管理的数据融合与应用平台,利用数据空间技术,按照数据敏感性将电子病历数据按照原始数据空间、匿名数据空间、模型数据空间的框架进行集成、融合,对匿名数据进行二次分析与挖掘,并针对各数据空间设计实现了不一样的存储、安全保护、数据访问机制。平台已在国家医疗服务分析以及北京大学附属医院医疗能力、质量、效率的分析中获得应用。数据结构

关键词: 电子病历 ; 数据平台 ; 数据空间 ; 数据质量 ; 数据脱敏架构

论文引用格式:app

包小源, 张凯, 金梦, 谢双莲, 宋锴.基于数据空间的电子病历数据融合与应用平台. 大数据[J], 2019, 5(6):47-61框架

BAO X Y, ZHANG K, JIN M, XIE S L, SONG K.A data-space based platform for the integration and application of electronic health records[J], 2019, 5(6):47-61机器学习

1 引言

我国电子病历的应用愈来愈普遍,使用电子病历数据进行临床研究、医院管理以及数据共享利用的研究愈来愈常见。作到数据收集、数据质量控制、数据分析处理、分析模型发布的“兼容差别、深刻利用”,是承担国家医疗数据中心数据平台建设任务的基本要求。其中“兼容差别”规则是指在数据输入端,能够读入目前主流应用生成的数据文件格式,能够识别语义相容的数据内容,不一样版本不一样标准的数据(如疾病编码标准、手术编码标准、病历编码标准)均可以向一个版本进行映射与转换等;在输出端,则能够按照需求定制输出接口与输出格式,包括变量的定制、值的自定义等。“兼容差别”的规则主要用于应对我国因为各类实际系统建设、应用差别所致使的数据差别,最大限度地兼容各个医院的数据,并使之能在一个基准线上进行分析。同时,要对差别不大的数据(如病案首页)、差别较大的数据(如电子病历文档以及病例系统数据)进行区分处理,最大限度地提升处理效率。“深刻利用”规则既要求设计可以集成、融合全部数据进行各个维度、各个层面的分析建模的平台,又须要平台的结构可以保护敏感数据,同时面向特定需求发布匿名数据,进而利用各类优质资源进行数据挖掘分析、二次利用,并将分析结果、模型也做为数据进行存储、管理。

2 国家医疗数据中心系统架构

国家医疗数据中心所得到的数据主要来自医院的不一样数据源,包括病历系统、影像系统(PACS)、检验系统(LIS)等,数据类型也包括了文本、图像、视频等多种形式。对于同一家医院,数据可能经历屡次迭代,期间可能有错误数据的替换、缺失数据的补充等数据层面的操做。为了管理分散、异构的数据,国家医疗数据中心创建了以数据空间技术为基础的三层结构,在层次内部,针对数据模式固定的数据采用数据仓库进行管理。
数据空间是与主体相关的数据及其关系的集合,主体、数据集、服务是数据空间的3个要素。在数据模型上,内部的数据不依赖严格的数据模式,能够以一种松散的数据模式来组织。在构建方式上,数据空间不须要提早提出全部可能的需求以设计合适的数据库模式,而是在演化过程当中,根据新增的需求创建主体、数据集和服务三者之间的关系和逻辑,同时能够根据不断改变的需求,以较低的成本从新创建新的关系。数据空间包含围绕数据集提供的服务,能够对业务过程进行很好的分层和组织。
数据仓库是一系列具备继承性、主体性和持久性的数据集合,与数据空间不一样,数据仓库须要有固定的数据模式,对于数据的查询效率有很好的提高,但对于数据变化的适应比较迟钝,所以国家医疗数据中心仅对一些有固定数据模式的数据(如病案首页)采用基于数据仓库的管理。
目前国家医疗数据中心主要提供数据集成、匿名化处理及数据查询与分析服务。为保证敏感数据的安全,从数据存储结构和结构内部脱敏操做两个层面进行了处理。根据涉及的数据的敏感性,经过物理隔离的3层数据空间进行数据管理,即原始数据空间、匿名数据空间、模型数据空间。
原始数据空间的数据集为直接从安全通道获取的原始数据,这部分数据未通过任何脱敏操做,所以全部数据都以加密形式存储,而且有物理隔离和严格控制的访问策略。在这一层次主要进行数据清洗以及基本的数据有效性的校验,所以在这一层次的数据迭代次数是最多的。符合数据有效性检验的数据均视为合格数据,进行脱敏处理后,下发至匿名数据空间,使得数据迭代的成本降至最低。
匿名数据空间主要进行匿名数据的管理。首先去除相应字段,再使用训练好的机器学习模型识别自由文本中的敏感信息,予以去除。将通过脱敏的匿名化数据输入匿名数据空间,创建匿名数据库;提取的敏感数据被存储在与匿名数据空间有物理隔离的模型数据空间的敏感信息数据库中。在匿名数据空间中,部分数据(如病案首页)有较固定的数据模式,还需进行部分关键信息的抽取和加载,并存入数据仓库。
模型数据空间的数据集为下发的模型数据,根据用户的需求,将所需的数据下发至用户的虚拟空间,进行模型计算。模型数据空间整合用户的需求,同时,这些需求也进一步完善了各数据空间的数据组织和管理。
各层次的数据存储均使用多级存储机制,采用Hadoop开发团队开发的开源Hadoop分布式文件系统(Hadoop distributed file system,HDFS)。在不一样的物理磁盘上保存至少3份数据的备份,以保证数据的可靠性。
整体而言,因为医疗数据格式多样,国家医疗数据中心主要采用数据空间技术进行数据管理,对于其中数据模式较为固定的部分,在层次内以数据仓库的方式进行管理,提高查询效率。
3层数据空间的功能如图1所示。

基于数据空间的电子病历数据融合与应用平台
图1 3层数据空间的功能

3 基于数据空间结构和空间内功能的敏感信息保护

医疗数据涉及病人隐私,信息内容复杂,从安全通道得到的原始数据从自动清洗到数据分析与发布,涉及多个数据处理环节,每一环节所需的数据结构均不一样,涉及的敏感数据也不一样,须要不一样的数据安全级别。所以本文提出基于数据空间的数据管理,不一样数据空间存在物理隔离,数据空间之间的数据流动也有详尽的安全控制和日志记录。
对于敏感信息的保护,本文在两个层面上进行实现。一是从数据存储和管理结构上,根据数据的敏感程度,定义了3层数据空间:原始数据空间、匿名数据空间和模型数据空间;二是在数据空间中设置了多层次的脱敏处理及敏感信息的严格管理。除此以外,记录全部操做生成的数据世系也可对每步操做进行回溯。

3.1 基于3层数据空间结构的敏感信息保护

3.1.1 原始数据空间
原始数据空间处理和存储的数据集为直接从安全通道得到的原始数据经自动清洗和标准化转换后的结果数据集。这一数据空间中的输入数据包含了可识别身份的敏感数据,所以安全级别最高。在这一数据空间中,主要进行敏感信息的检测、提取,存储以及数据匿名化处理,输出匿名数据到匿名数据空间。本层数据空间存在物理隔离的数据层和应用层,这是因为在抽取敏感信息的过程当中,国家医疗数据中心须要针对敏感信息进行必要的数据统计,统计结果存储于统计数据库中,并向部分通过严格安全审计的用户开放统计数据的查询功能,这一过程纳入应用层的范围。
3.1.2 匿名数据空间
匿名数据空间包含匿名化处理、匿名化数据存储及匿名化数据下发过程,分为数据层及应用层。数据层主要执行匿名化数据存储和管理,应用层主要提供数据需求的审核及定制数据的下发。
3.1.3 模型数据空间
模型数据空间主要处理数据请求、下发数据至用户虚拟机以及对下发数据进行数据存储。不一样数据请求单独创建数据库文件,经过安全通道下发至我的工做区,同时在数据备份存储空间备份。

3.2 数据空间的存储、安全与访问机制

3.2.1 存储机制
数据空间包含如下数据。
(1)各医院提交的原始数据
因为各医院病案室采用的文件归档系统不一样(如DBase系统的DBF文件、Excel格式文件和CSV格式文件等),这部分数据通过自动清洗并生成元数据后,主要以文本文件形式进行存储。
(2)各数据层中的数据
这部分文件已经通过清洗,造成了完整的数据结构,所以主要以数据库形式进行存储,常见的格式有MySQL、SQL Server数据库文件格式。
(3)用户使用过程当中生成的数据
这部分数据是用户对我的数据库操做产生的,主要以文件(如CSV)和数据库(如MySQL、SQL Server)形式存储。
在数据的存储模式上,首先根据各数据空间中数据的敏感程度进行物理隔离的数据分区,将3层数据空间的数据严格存储在不一样的服务器集群中,设立不一样的安全机制。在各数据空间内部,主要采用分区、分片的分布式存储方式。
在数据的分区上,对数据量大、集成度要求高而数据查询和分析又较为频繁的匿名数据空间的分区机制进行了较为详细的探索。在数据库层面,最频繁的查询有2种:第一种是按医院的多列数据查询与提取,用于DRG计算、秩序列、TOPSIS等模型的计算;第二种是按主要疾病分区的数据查询与提取,因为主要疾病频数的差别较大,所以在分区时须要考虑将频数在前10位(或100位)的疾病按照历史数据统计结果进行分区策略的动态调整。
基于这2种查询模式,一般以医院和主诊断来进行分区,其中医院节点数目相对小,而主诊断的节点数目较大。在分配主分区键和次分区键时,常见的方法有2种:第一种是以医院为主分区键,以主诊断为次分区键;第二种方法是以主诊断为主分区键,以医院为次分区键。从并行计算的角度考虑,越分散查询效率越高,但网络开销也会相应增大,此时要根据具体的需求平衡网络开销和查询效率,例如提取某个医院的某个疾病时,在集群中可能只会集中在一台机器上,可能会致使查询效率降低;而在模型计算时,通常的查询会分布在多家医院,所以查询会被分发到不一样节点上去。2种方法在网络开销和查询效率上各有优劣,应注意其中的平衡点。主诊断数目相对节点数目庞大得多,须要专门配置映射文件,对分区进行映射转换后进入数据库。
3.2.2 安全机制
因为3层数据空间自己是根据数据的敏感性划分的,所以对于各层数据空间,本文设立了不一样的安全机制,其中原始数据空间的安全级别最高,模型数据空间的安全级别最低,各层数据空间之间保持物理隔离。
在原始数据空间中,网络层面运行在与其余空间物理隔离的计算机集群上,用户认证等方面则从严格的审计机制、操做日志记录机制等多角度实现对原始数据的彻底隔离。查询、处理等均局限于数据库,而文件则通过加密压缩后,密码文件独立存放,非特殊权限或特殊缘由再也不打开或提取。
在模型数据空间中的安全保障机制方面,本文为每一个用户分配相互隔离的虚拟机,用户以虚拟桌面的方式登陆,以实现我的数据的独立、安全。针对每一个用户提供不一样的数据,在我的虚拟机上实现不一样的应用,以解决整个平台上多用户的不一样需求。
3.2.3 访问机制
在访问内容上,本文只提供对数据库的访问,各医院上传的原始数据文件均不开放对外访问权限,数据库访问主要以B/S结构查询。传统关系查询可使用Oracle BI等平台型工具,将原始数据做为后台数据模型,直接将一些能够维度化的列创建为维度,在此模型下,直接用OBIEE客户端对相关数据进行查询、展示便可。元数据查询也会提供B/S查询接口,但只开放基本的统计数据,目前包含医院上传数据的问题、反馈次数、修改问题而带入的新问题等。关键字查询的接口依然是B/S结构,但其查询结果以表关联的方式返回,在该表上能够查询对应的数据条目。
模型数据空间中的访问接口与其余两个数据空间没有很大的区别,只是在用户的数据权限(列、行、导出、计算、数据总量)方面,须要在大数据虚拟语言环境模型(model in virtual language environment of big data,MVLB)中进行监控,并记录实际操做序列等数据。因为访问方式在接口方面区别不大,本文在MVLB环境中的入口访问集群框架设计方面,采用了相同架构、面向不一样需求的定制化配置部署方式。

3.3 数据空间多结构数据集成与敏感信息保护

3.3.1 多结构数据集成
国家医疗数 据中心获取的数据类型多样,囊括了关系数据、半结构化数据以及非结构化数据(基于openEHR修正模型的集成逻辑框架),而在原始数据空间中,最重要的技术是对多结构的数据进行集成。
数据集成的方法主要有2种:全局视图方式和局部视图方式。考虑到病案首页的格式是中华人民共和国卫生部规定的标准格式,虽然各地区对具体内容会有所调整,但其数据结构具备相对稳定性。本文采用了全局视图的方式(即各医院病案首页数据模式向全局数据模式映射的方式),其步骤包括目标模式肯定、数据收集、源包装器构造、并行集成执行及结果数据集的合并等。
数据空间具备数据组织松散的特征,使用索引和映射查询数据较为低效。多数据集成针对数据空间中结构化较好、查询频繁的数据创建数据仓库,利用数据仓库查询速度快的特色,提高数据查询效率,实现高效、准确的数据查询。对于数据空间中存储的电子病历文本数据,本文采用关系数据库(SQL server)存储并创建全文索引,以实现对病历文本的检索。
3.3.2 敏感数据提取和匿名化处理
首先参照敏感信息条目和国家电子病历数据接口标准,提取原始数据中涉及我的信息的数据,将这一部分数据定义为敏感数据,用于后续的操做。敏感信息条目的制定参考了美国HIPAA法案、国家标准GB/T 35273-2017《信息安全技术我的信息安全规范》以及相关文献说起的敏感数据条目,并人工复核了医院上报的数据,最终肯定了包含我的信息(如姓名、年龄、联系电话、详细地址等)、病历识别号(如医保卡号、病历号、影像号等)、就诊详细日期(如入院日期、手术日期、出院日期)、就诊过程隐私数据(如床号、主治医师姓名、手术医师姓名等)在内的多项数据。而后对上交的包含自由文本的字段进行脱敏处理,在这一步,本文使用已有的机器学习方法,对数据进行两遍扫描,第一遍进行元素值的特征计算,第二遍将数据分为敏感信息和非敏感信息,并去除敏感信息。
匿名化数据还要进行从新识别风险的评估。每次有新的数据源加入后,都进行一次全面的评估。在平常使用时,按期随机抽取数据,以评估从新识别的风险,根据从新识别患者所须要结合的字段数来评估数据的安全性。
3.3.3 敏感数据关联机制
将匿名数据空间中提取的敏感信息存入敏感信息数据库后,会返回与存入信息对应的惟一ID,将此ID做为识别码与提取的敏感信息一并存入匿名数据库,创建匿名数据库与敏感数据库的关联。识别码不做为可下发字段,仅在有特殊需求时,做为与敏感信息数据库关联的方式。在评估特殊需求时,要根据计算结果是否返回敏感信息进行严格的评估和审核。

3.4 数据世系的生成与查询

在数据世系信息的生成、查询及管理方面,目前比较关心的是每个处理步骤都抽取了哪些数据、有多少许以及结果存储在哪里,所以针对每一个中间结果集,都要记录其查询语句并进行反向计算,以便追踪到起点或其前驱处理节点的信息。目前采用查询语句与查询结果一一关联映射的方式实现数据世系的管理。为实现数据世系的自动生成,须要在Perl或其余高级语言的基础上加一层命令解析器,这样,每一次查询及其结果都会被写到日志中,以后的数据世系信息均以专门的解析器抽取日志文件的方式造成。每一个处理模块完成任务处理后,都须要运行自动的日志信息处理语句,其目的是识别原始程序中的查询语句、查询输出目标、查询输入、当时运行该数据处理的程序自己等,而后在原始程序的特定位置,增长输出到日志文件的语句,这样作的优势是数据处理自己会专一于业务处理,而日志输出等常规、广泛性要求都会经过系统来自动完成。
在原始数据空间中,只提取匿名数据进入匿名数据空间的过程也须要将查询处理和处理结果的对应关系记录下来,整个过程参照数据世系模型、数据集成指令(包括选项)的类型,进行业务数据世系的内容生成。
在模型数据空间中,经过基于环境支撑层对处理工具中嵌入处理日志的强制记录方式来实现我的空间的数据世系信息生成。另外,模型空间的处理定制化需求很是明显,而处理方式很是复杂,所以目前在MVLB中,将数据世系的记录方式简化为输入数据、处理程序源码(或指令序列)、输出数据。

3.5 数据流动过程及处理流程

经过安全通道得到的原始数据在原始数据空间中进行数据清洗、入库,造成关系数据,并下发至匿名数据空间,在匿名数据空间中进行匿名化处理,提取敏感信息,并保存匿名化数据。通过审计的用户提出数据需求后,被提取的匿名数据下发至模型数据空间。若是用户得到了随访数据查询的许可,必要的敏感数据也将从敏感数据库下发至模型数据空间。
数据在数据空间中的全部操做日志都被记录在以数据空间为主键的日志数据库中,便于生成直观的数据世系信息。总体系统框架及处理流程如图2所示。

在原始数据空间中,经过安全渠道获取的数据通过定制的数据包装器框架,将文本、电子表格、数据库文件、XML等格式的文件转化为可识别和导入的数据格式,以文本形式插入输入数据库。这一步须要验证数据的完整性,对于缺失必填项的文件,则只存入元数据存储空间备份,而不作导入操做,待相关医院从新上传补充缺失项的文件后,再导入数据库。完整的数据文件导入输入数据库后,原始文件通过强密码加密,存入元数据存储空间。
进入输入数据库的数据将通过进一步的数据清洗,首先根据国家医疗数据中心发布的数据接口标准对数据列定义进行数据类型的验证和转换,对于不符合定义数据格式的数据,必要时要求相关医院进行自查和从新上传。通过数据格式转换的数据,将根据数据接口中对各部分数据的定义,创建关系数据表,造成多维度的数据,保存于原始数据关系数据库,并进一步进行数据匿名化处理。除根据数据列定义去除涉及我的信息的数据列外,还对包含天然语言的文本使用深度学习识别姓名、地名等信息,并进行脱敏处理。将敏感信息存入敏感信息数据库,生成惟一对应的ID,并将此ID与非敏感信息下发至匿名数据空间。

基于数据空间的电子病历数据融合与应用平台
图2 总体系统框架及处理流程

有关原始数据的一些必要的统计信息被存入统计数据库,供有权限的用户经过查询系统进行查询。原始数据空间框架及处理流程如图3所示。
3.5.2 匿名数据空间框架及处理流程
匿名数据空间主要进行匿名数据的存储与管理,将原始数据空间下发的脱敏数据存入匿名数据库,并在此层进行模式固定的数据的集成。同时,能够经过敏感数据ID在模型数据空间中查询原始数据。

基于数据空间的电子病历数据融合与应用平台
图3 原始数据空间框架及处理流程

用户经过模型数据空间向匿名数据空间发出的数据下发请求,此请求在应用层获得处理。在查询需求经过审核后,按照申请的新数据字段,生成须要下发字段名和数据列列表,根据此列表,从匿名数据库中提取相应的数据,记录日志并生成新版本号,将以版本号命名的数据做为模型数据空间的输入数据。匿名数据空间框架及处理流程如图4所示。
3.5.3 模型数据空间框架及处理流程
在模型数据空间中,用户我的提出数据申请后,会在初步审核后生成包含所需字段名的请求,并提交给匿名数据空间处理。在模型数据空间进行的初步审核主要审核用户是否具备获取该字段的权限。当匿名数据空间经过审核,肯定能够提供相关数据列,并下发数据后,数据首先存入模型数据库,并备份至数据备份存储空间,随后下发到用户的虚拟机上。
用户能够在虚拟机上从请求的数据库中提取须要的数据,并存入虚拟机的我的数据库进行处理。其中,提取的数据也记录操做日志,以实现数据世系的追踪。模型数据空间框架及处理流程如图5所示。

基于数据空间的电子病历数据融合与应用平台
图4 匿名数据空间框架及处理流程

https://mmbiz.qpic.cn/mmbiz_jpg/GU9CT4xCibiaDfERMquoQAvRzE2vE7Rybr93knMzXGaA38E1SNlrfH1mtxSyAs9NvDJdGHaibs10onokb0oF5yPoA/640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1
图5 模型数据空间框架及处理流程

4 系统运行状况

国家医疗数据中心利用3层数据结构已经平稳运行6年,3层结构业务及产出如图6所示。原始数据层已经拥有成熟的数据接口工具,而对于未标注使用接口标准的数据,也已有了用于判断数据接口标准的模型,国家医疗数据中心共收集并整合了全国总计500余家医院的数据。在匿名数据空间脱敏的过程当中,造成了用于数据脱敏的匿名语料库和匿名知识库。
对外发布的数据包括根据匿名数据空间及原始数据空间计算的数据质量报告以及模型数据空间用户训练的模型。自2013年以来,已经完成1 600余份质量报告的发布。经过模型数据空间提取和处理的数据,已经提供给了DRG模型、临床分层评价模型进行计算。

基于数据空间的电子病历数据融合与应用平台
图6 3层结构业务及产出

本文使用数据世系结构来表示数据产生和数据演变的过程,追溯模型数据空间计算结果的原始数据。数据世系做为表示数据演变的技术,被普遍应用于互联网及物联网大量的数据管理中,用于追踪数据的演变过程。根据用户使用数据库的版本号,首先能够在数据备份存储空间中找到原始数据,若是发现数据有问题,能够从数据世系中找到匿名数据库下发数据的时间、内容及版本号,判断在下发时间点后有无数据更新,还能够进一步经过匿名数据版本号,对应到原始数据空间中的数据。若是确认数据有误,可反馈给相应医院进行数据的迭代更新。

5 系统结构的设计思路

在架构选择方面,国家医疗数据中心主要采用了基于数据空间的数据结构。当前有一些开源的医疗数据存储解决方案,如应用比较普遍的架构openEHR,该架构是由国际openEHR组织于1999年提出的开放式电子健康档案规范,它采用由参考模型和原型模型组成的两层结构,以实现医疗领域知识和实际临床信息的分离,使信息模型具备高可扩展性。
国家医疗数据中心收集的数据是各医院提交的临床数据,其关键不在于创建内容的逻辑关系,而在于如何存储管理已有数据,进行进一步处理、分析及发布。因为openEHR更关注内容逻辑,对于数据的内容敏感度没有严格的划分,使得数据匿名化和发布面临较大困难,所以,本文并无选择以openEHR架构为基本框架,而采用了可以更好地体现数据敏感度的基于数据空间的3层结构,以较好地区别管理原始数据和匿名数据。
从传统数据集成的角度考虑,传统的数据库管理模式通常须要在总体设计、全面标准化的基础上,从数据源到目标平台进行完整的设计,包括数据抽取、清洗、加载,并存放于标准的数据仓库中。而数据空间管理与传统的数据管理有如下4个区别:一是数据空间须要支持全部类型的数据;二是数据空间提供数据更新的能力,所以不像传统数据库对数据有彻底的控制能力;三是对于数据查询的需求,数据空间只能根据数据的状况返回最好的结果,而不必定都能返回准确的结果;四是数据空间须要有数据集成的能力,数据空间还能够将用户反馈加入数据管理的过程当中,使得数据空间能够不断演化,知足更多的需求。
在业务相对成熟的行业,使用传统数据管理模式是很是有效的。可是,就医疗行业自己而言,其收集的数据不只包含大量的数据类型,已收集的数据也可能有部分数据列缺失的状况(但此时非缺失的数据已经能够用于分析),并且随着学科发展而新出现的诊疗会呈现出新的数据内容、数据格式等(譬如近年来兴起的基于基因技术的精准医疗就产生了大量的基因数据),加之对数据的需求也更加具体和复杂,在建设大数据平台时须要听从pay-asyou-go的方式进行,即边建设、边应用、边改进、边融合,进行渐进的、螺旋式的数据平台建设。所以,在医疗行业使用数据空间管理,是更加符合实际状况的。
在设计系统结构时,本文主要考虑数据敏感性。因为我的的医疗数据具备独特性,在匿名化过程当中不只须要考虑去除明确的涉及患者隐私的数据列,还要考虑从新识别的风险,即便用者经过结合多个数据列识别出患者的风险。例如根据患者在既往史和现病史中披露的就诊医院、时间和所作手术就能较准确地识别出患者。所以在系统设计上,应该考虑控制匿名化数据从新识别的风险。参考文献讨论了评估系统从新识别风险的3个方面:数据接收方的数据安全性、数据泄露对病人隐私侵犯的程度以及数据使用方从新识别患者的收益。而对于医疗数据,显然数据泄露对病人隐私侵犯程度是极高的,所以设计系统架构时须要严格控制接收方数据的安全性,经过提升从新识别的成原本下降从新识别的收益。本文使用3层数据空间的结构,针对接收方数据的安全性,使用模型数据空间来管理用户及用户数据,以实现对用户数据安全性的彻底掌控;针对提升从新识别的成本,则采用对匿名数据空间进行匿名化和按需下发数据来解决。
使用数据空间来管理数据也呈现出了一些问题。因为在数据检索和计算时不必定能返回准确的结果,数据空间具备必定的不肯定性,同时查询效率也不如传统数据管理模式高。针对这一问题,本文将部分数据模式固定的数据集成在匿名数据空间的数据仓库中,解决了部分经常使用数据的查询效率问题。另外,因为数据空间具备数据优先、淡化模式的特色,数据质量也有所降低。本文在模型数据空间进行了基本的数据质量控制,可是有些数据问题在模型计算时才显现,笔者仍然将这部分数据视为合格数据,将反馈后更新的数据视为这些数据的新版本进行管理。总之,使用数据空间做为医疗数据管理的主要技术是符合实际状况的,由于数据空间在保护了敏感数据的前提下,提供了更多二次利用的可能。它提供的pay-as-you-go的模式,能够容纳因为学科进步、信息化水平提升而产生的新的数据。对于部分红熟的数据模式,还能够在数据空间内用数据仓库进行优化,可以最大化地从数据中获取信息。

6 结束语

从国际、国内大数据应用的趋势考察,笔者发现大集成和大融合是临床数据管理的基本模式,而专项、细分的定制化分析与挖掘则是数据利用的基本方式。本文基于数据空间所构建的数据平台正是顺应了这一基本趋势。大集成和大融合在原始数据空间、匿名数据空间完成,而定制化分析则在模型数据空间中实现个性化支撑。下一步将对智能数据管理方法作进一步探索,实现平台对数据质量控制、数据集成融合、数据脱敏、基本数据分析的智能赋能,创建基于分类自治的索引框架,支持高效查询,进一步提升平台管理的效率,实现我的数据空间的易用性。

相关文章
相关标签/搜索