研究人员将计算机与疾病联系起来

麻省理工学院的一项新研究发现了“健康知识图谱”，它显示了症状和疾病之间的关系，旨在帮助临床诊断，但在某些病例和患者中可能是不够的。结果提出了提高系统性能的方法。

研究人员将计算机与疾病联系起来

健康地图通常由专业临床医生手动编辑，但这可能是一个费力的过程。最近，研究人员试图从患者数据中自动生成这些知识图谱。麻省理工学院团队一直在研究这些图表在不同疾病和患者中的表现。

在2020年太平洋生物计算研讨会上发表的一篇论文中，研究人员评估了基于真实数据集自动生成的健康知识图谱，该图谱包含27万多名患者，有近200种疾病和770多种症状。

研究人员将计算机与疾病联系起来

该团队分析了各种模型如何使用电子病历(EHR)数据(包括患者的医疗和治疗史)来自动“学习”疾病-症状相关性的模式。他们发现，该模型对于老年或非常年轻的患者或男性或女性患者比例较高的疾病尤其无效——但为正确的模型选择正确的数据并进行其他修改可以提高性能。

这一思想旨在为研究人员在利用电子健康档案构建健康知识图谱时，提供数据集大小、模型规格和性能之间关系的指导。这可能会带来更好的工具来帮助医生和患者做出医疗决策，或者找到疾病和症状之间的新关系。

第一作者艾琳陈(Irene Y. Chen)说：“在过去的10年里，医院使用的人数急剧增加，因此我们希望挖掘大量数据来学习这些疾病症状图。电气工程和计算机科学系(EECS)。“我们必须仔细检查这些图表，以便将其作为诊断工具的第一步，这一点至关重要。”

麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究生莫妮卡阿格拉瓦尔与陈发表了一篇论文。贝丝女执事医疗中心(BIDMC)的史蒂文霍恩；EECS的大卫桑塔格教授是CSAIL和医学工程与科学研究所的成员，也是临床机器学习小组的负责人。

病人和疾病。

在健康知识图谱中，有数百个节点，每个节点代表不同的疾病和症状。边(线)将诸如“糖尿病”的疾病节点与诸如“口渴”的相关症状节点连接起来。谷歌在2015年推出了自己的版本，由几名临床医生在数百小时内手动规划，被认为是黄金标准。现在，当您搜索疾病时，系统会显示相关症状。

在2017年《自然科学报告》的一篇论文中，Sontag、Horng和其他研究人员在他们当前的研究中使用了同样27万名患者的数据(这些数据来自2008年至2013年间的BIDMC急诊科)来构建健康知识地图。他们使用了三种模型结构来生成图形，这三种模型结构被称为逻辑回归、朴素贝叶斯和噪声或。利用谷歌提供的数据，研究人员将自动生成的健康知识地图与谷歌健康知识地图(GHKG)进行了比较。研究者的图表非常有效。

在他们的新工作中，研究人员进行了严格的误差分析，以确定哪些特定的患者和疾病没有被该模型很好地治疗。此外，他们还试图将模型从急诊室外扩展到更多的数据。

在一项测试中，他们将数据分解成疾病和症状的子集。对于每种模型，他们研究了疾病和所有可能症状之间的关系，并将其与GHKG进行了比较。在论文中，他们将调查结果分为50种表现最差的疾病和50种表现最差的疾病。表现不佳的例子有多囊卵巢综合征(影响女性)、过敏性哮喘(非常罕见)和前列腺癌(主要影响老年男性)。高绩效是常见的疾病和症状，如心律失常和足底筋膜炎，这是导致足部组织肿胀的原因。

他们发现，对于几乎所有的疾病和患者，一般来说，嘈杂的or模型具有最强的抗错能力。但是，对于所有同时有多种疾病和症状的模型，以及非常年轻或85岁以上的患者，所有模型的准确性都会下降。对于百分比高或低的患者，他们的表现也会受到性别的影响。

基本上，研究人员假设表现不佳是由具有异常预测表现和潜在不可测量混杂因素的患者和疾病引起的。例如，老年患者比年轻患者更倾向于带着更多的疾病和相关症状进入医院。陈说，这意味着模型很难将特定疾病与特定症状联系起来。她补充说：“同样，年轻患者没有很多疾病或症状，如果他们有罕见的疾病或症状，他们不会以模型理解的正常方式出现。”

拆分数据

研究人员还收集了更多的患者数据，并创建了三个不同粒度的不同数据集，看看这是否能提高性能。原始分析中使用的270，0。

00次就诊中，研究人员提取了140,804名独特患者的完整EHR历史，追溯了十年，并从各种来源(例如医生笔记)中总共获得了740万个注释。

数据集创建过程中的选择也影响了模型性能。其中一个数据集将140,400个患者历史记录的每一个汇总为一个数据点。另一个数据集将740万个注释中的每个注释视为一个单独的数据点。最后一个为每个患者创建“情节”，定义为连续的就诊系列，间隔不超过30天，总共产生约140万次发作。

从直觉上讲，将完整的患者历史记录汇总到一个数据点的数据集将导致更高的准确性，因为考虑了整个患者历史记录。然而，与直觉相反，这也使朴素的贝叶斯模型在某些疾病上的表现更差。“通过机器学习模型，您可以假设患者信息越多越好。但是这些模型取决于您提供给它们的数据的粒度。” Chen说。“您使用的模型类型可能会不知所措。”

如预期的那样，提供模型人口统计信息也可能是有效的。例如，模型可以使用该信息排除所有男性患者，例如，预测宫颈癌。而且某些疾病对于老年患者而言更为常见，可以在年轻患者中消除。

研究人员将计算机与疾病联系起来

但是，令人惊讶的是，人口统计信息并不能提高最成功模型的性能，因此可能不需要收集数据。Chen说，这一点很重要，因为根据数据编译数据和训练模型可能既昂贵又耗时。但是，根据模型，使用数据分数实际上可能不会提高性能。

接下来，研究人员希望利用他们的发现建立一个强大的模型，以在临床环境中进行部署。当前，健康知识图了解疾病和症状之间的关系，但是不能从症状中直接给出疾病的预测。“我们希望将任何预测模型和任何医学知识图表置于压力测试之下，以便临床医生和机器学习研究人员可以自信地说：'我们相信这是一种有用的诊断工具，” Chen说。

猜你喜欢

最新文章