跳动百科

科学家创造了一种省力的自动化方法来研究电子健康记录

导读 在Patterns杂志上发表的一篇文章中,西奈山伊坎医学院的科学家描述了一种新的、自动化的、基于人工智能的算法的创建,该算法可以学习从电子

在Patterns杂志上发表的一篇文章中,西奈山伊坎医学院的科学家描述了一种新的、自动化的、基于人工智能的算法的创建,该算法可以学习从电子健康记录中读取患者数据。在并排比较中,他们表明他们的方法称为 Phe2vec(FEE-to-vek),可以准确识别某些疾病的患者以及需要更多体力劳动的传统“金标准”方法发展和执行。

“以电子方式存储在患者病历中的数据的数量和类型继续呈爆炸式增长。解开这个复杂的数据网络可能非常繁重,从而减缓临床研究的进展,”遗传学和基因组科学助理教授 Benjamin S. Glicksberg 博士说,他是西奈山 Hasso Plattner 数字健康研究所 (HPIMS) 的成员。 ),以及该研究的资深作者。“在这项研究中,我们创建了一种通过机器学习从电子健康记录中挖掘数据的新方法,该方法比行业标准更快,劳动强度更低。我们希望这将是一个有价值的工具,将促进临床信息学的进一步研究,减少偏见。”

该研究由 Glicksberg 博士实验室的研究生 Jessica K. De Freitas 领导。

目前,科学家依靠一套已建立的计算机程序或算法来挖掘医疗记录以获取新信息。这些算法的开发和存储由称为表型知识库 (PheKB) 的系统管理。尽管该系统在正确识别患者诊断方面非常有效,但开发算法的过程可能非常耗时且不灵活。为了研究一种疾病,研究人员首先必须梳理大量医疗记录,寻找与该疾病唯一相关的数据,例如某些实验室测试或处方。然后,他们对算法进行编程,引导计算机搜索具有特定疾病数据的患者,这些数据构成了“表型”。反过来,计算机识别的患者名单需要研究人员手动复核。每次研究人员想要研究一种新疾病时,他们都必须从头开始。

在这项研究中,研究人员尝试了一种不同的方法——计算机自行学习如何发现疾病表型,从而节省研究人员的时间和精力。这种新的 Phe2vec 方法基于该团队已经进行的研究。

“以前,我们表明无监督机器学习可能是挖掘电子健康记录的高效和有效策略,”HPIMS 前助理教授、该研究的资深作者 Riccardo Miotto 博士说。“我们方法的潜在优势在于它可以从数据本身中学习疾病的表征。因此,机器完成了专家通常会做的大部分工作,以定义最能描述特定疾病的健康记录中的数据元素组合。”

从本质上讲,计算机被编程为可以浏览数百万份电子健康记录,并学习如何找到数据与疾病之间的联系。这种编程依赖于之前由语言学家等其他研究人员开发的“嵌入”算法来研究各种语言的词网络。其中一种称为 word2vec 的算法特别有效。然后,计算机被编程为使用它学到的知识来识别近 200 万患者的诊断,这些患者的数据存储在西奈山卫生系统中。