医药知识

您现在的位置是:首页 > 医药知识

jn江南登录入口关于医疗大脑、知识图谱与智能诊断这是最全的解读 雷

发布时间:2024-04-06 22:41:08| 来源:JN江南官方体育app 作者:JN江南官方

  雷锋网按:本文整理自康夫子创始人张超在雷锋网硬创公开课上的演讲,主题为“智能诊断与医疗大脑”。

  张超:康夫子创始人,前百度自然语言处理部资深研发工程师、文本知识挖掘方向负责人;知识图谱、实体建模方面专家;毕业于电子科技大学计算数学专业、新加坡国大多媒体搜索实验室研究助理。

  张超:让计算机去阅读医疗文献,构建知识库,赋予这些知识库一些推理能力,最后达到辅助医生、患者的目的。

  在产品维度,分为面向患者和医生;医生端分为全科与专科医生。它们的底层是相似的,都是知识图谱加推理,不过上层应用有差别。患者偏重逻辑问答,包括患者语言的理解;全科医生要求知识面,而专科则要求临床路径监控,包括医嘱的下达。

  现在我们的产品主要用在医疗机构这样的B端,主要提供医学辅助,不做诊断,结论由医生把关,供患者参考。

  张超:医疗大脑是个比较笼统的称呼,简单来说是一种知识库,加上基于此的逻辑推理和计算。它可以泛指医疗从业人员的智慧总和。具体点说,它具备诊断、治疗的能力,可以独立提供用药辅助、分诊导诊、健康咨询等服务,也可以高质量的辅助医疗从业人员完成某项工作。

  对我们的医疗大脑来讲,患者医疗健康行为需要的能力、所有医生行医过程中的知识辅助能力我们都会着力去构建打造。

  我们和Watson的场景和方法不太一样,它大的框架是问答、搜索的框架,同时融入了多种Feature( 如 知识图谱)。我们整个医疗决策系统是基于知识图谱做推理。技术上讲,对肿瘤这样的疑难杂症,Watson诊断用的维度非常高,但常见病的维度没那么高。这两个方面带来的挑战不一样,我们是从常见病入手,把服务的范围也会扩大。

  我们的医疗大脑和百度医疗大脑在某些方面有着相同之处,都致力于辅助网民提供医疗信息服务。差别是:

  1. 在数据维度,百度医疗大脑数据来自百度医生APP上医患之间交流数据;我们的医疗大脑定位在医疗级产品,知识图谱构建数据来自权威的医疗文献和电子病历数据。

  从时间上分,有传统派和新兴派。传统派是指类似决策树专家系统,知识库依靠专家构建,诊断逻辑也基于专家书写的roadmap等等。新兴派是指利用AI技术,利用计算机从海量文献数据中构建知识图谱,并根据历史经验自动学习诊断逻辑。

  从类型上分,有基于文本从症状、化验入手做智能诊断的,也有基于图像从CT图片入手做智能诊断的。

  传统派的诊断系统,受限于知识库的规模和复杂的医学逻辑表示,疾病的覆盖率和诊断的准确率都不够高。新兴派在这块整体上要好于传统派,但由于研发时间短,目前仍无法达到可用状态。

  技术上,我们现阶段认为智能诊断的底层核心是知识图谱,诊断的过程是基于知识图谱实现的推理过程。知识图谱的规模从根本上决定了智能诊断的瓶颈。另外就是应用上的挑战,智能诊断不管服务谁,在应用场景上有很大的差别,要有针对性地提升效果。

  另外不同服务对象的诊断系统标准也是不一样的,比如,如果智能诊断是用来服务医生,除了核心诊断能力,还需能结合医生所在医院科室的医疗习惯。

  前两部分数据用来构建知识图谱,训练诊断逻辑。互联网数据主要用来做患者语言理解,患者可能会有一些不标准的描述,比如“感觉身体被掏空”,这些词在医学上没有对应的匹配,需要计算去理解。

  2.因为知识是通过知识图谱表现出来的,所以,可以针对知识图谱进行一些推理计算,及早发现某些矛盾,进而安排人工审核校对;

  3.在整个计算过程中,也可以加入大量的容错机制。相信知识的统计分布,假设学习样本中,错误的知识毕竟是少数,通过一些排序策略进而降低错误知识展现的机会。

  这里面的难点在于数据的获取、预处理、结构化和建模。另外,目前能看到的病历数据很复杂,多数做AI诊断的,很少有团队用门诊病历,多数用的都是住院病历,而住院病历是很复杂的,如果服务于C端用户,这类数据就不太合适了。

  个人认为,智能医生或者影像解读,现阶段都有着充足的数据供训练。比如,在病例或者文献上,医生在无结构化文本种已经变相做了标注,如:“大叶性肺炎通常表现为咳铁锈色痰”,一个医学影像也有专家解读成文本信息供使用。数据维度难在从这些大量的数据中提取出优质数据。

  雷锋网:如果说医学上只要有充分的度知识,就能在辅助决策上做一些事,那之前智能诊断不算流行的原因是哪些?是否是有哪些技术上的进步?

  在技术上,悲观来看近几年没有多少进步。只是前些年,人工智能和自然语言处理多在大公司和研究院使用,而现在有很多优秀人才流入到创业公司。

  深度学习目前在NLP领域取得的成绩,比不上在多媒体领域取得的成绩。康夫子目前主要基于深度学习做一些患者语言理解方面的工作,不排除未来会拓展到更多的场景中去。

  至于将深度学习用于Clinical Decision Support这样的专业领域,我觉得现阶段不太合适。首先深度学习是个黑盒,让人感觉不可信,这是心理上的问题。在应用方法上也有很大难度,比如训练数据并非完全准确,包括格式都有误差。我认为短期内这是一个不断研究的方向,但不能立马产生效果。

  比如在医疗领域,实体维度包括疾病、症状、检查、检验、体征、药品等等医学名词,甚至医生、科室、医院也可以纳入范畴。关系是指实体间的关系,比如,针对疾病和症状,关系可有“包含关系”,“不包含关系”,甚至“金标准关系”(比如,所有炎症都会带来发热,这就是金标准)。疾病和医生可以定义“医生擅长治疗疾病”,医生和医院可以定义“归属于关系”等等。这些都是知识图谱的构成。

  我们在应用时,需要基于这些关系做推理,进而满足上层应用,同时上层应用的需求也会指导知识图谱的建设方向。比如,我们想帮助患者推荐医生,那么推理路径大概分为:根据“症状与疾病”的关系推测患者可能疾病,根据疾病和医生的关系,为患者推荐医生。

  首先知识图谱的知识结构是专业人(医生)定义出来的。医生觉得,在诊疗过程中,我需要用到什么知识,那么就让计算机去学习并构造这些知识。

  医生的知识结构可以举一反三、演绎归纳,但现有的知识图谱只能机械的做一些事,并且在短时间内该部分技术很难取得较大突破。那么在这种场景下,知识图谱的积累和构建速度就显得尤为重要,同时真实的应用场景不断给知识图谱提需求,那么二者之间的差异也会逐渐缩小。机器是按照人制定的逻辑工作,而人是有联想能力的。

  我从2010年加入百度,大部分精力在从事信息抽取类工作,从中也积累了大量的实战经验。在信息抽取(知识图谱建设)上,我们的着眼点依次是:

  在这样的标准下,我们比较推荐简单粗暴可控的框架,即基于模板的抽取。这类方法简洁可控,容易冷启动,准确率可控,通用性也不错。不足是:模板产生困难、覆盖率不高,而且容易产生语义漂移,需要做边界控制,最后是计算复杂度高。这是目前这种计算框架的优劣。

  在构建中,我们首先攻克计算性能问题,即在做pattern learning时,如何做快速计算、筛选,给每个pattern打分,这是计算性能问题。

  然后我们通过pattern协作,搞定便捷控制和语义漂移。最后是把大量的精力放在pattern learning上,同时加大数据量提升覆盖率,并引入bootstrapping机制提升召回。这是我们认为当前比较好的解决方案。

  另外,我们主要做从无结构化文本抽取,一些类似HTML的半结构化数据比较容易,但是有深度的知识覆盖面很少。这块有不少工作,有兴趣的话,也可以经常关注一些IE方面的论文,有很多新奇的想法。

  这里的知识规律发现其实就是上文说的pattern learning。人们是按照一定书写方式来描述知识的,数据量越大越能体现出书写的语法及结构。康夫子的一个核心技术即针对要抽取的知识从海量文本中学习这种知识的描述方式。

  上图是计算机阅读海量文献,针对某种知识总结出上万条书写规律然后进行抽取。如针对“疾病—症状”的关系,文献中描述方式为:“(X疾病)的症状有(Y症状)”,“(X疾病)临床表现为(Y症状)”,“(X疾病)容易引起(Y症状)等不适症状”等等。

  在技术维度,较多层面是我们原创的技术,我们定义一个好的规律,既要体现出不同文本之间的区分性,又要能够尽可能的匹配到相似文本,另外还要追求量和简洁性。在这个目标约束下,剩下的就是求解优化的问题了。

  我们认为,当输入数据一样时,机器是可以完全比人做的好。比如,给定相同的若干组症状、若干辅助检查数据,机器诊断是可以轻松超过人的,因为这时候诊断的过程本质上是个搜索的问题,人脑的计算量和记忆程度在特定任务下是比不过机器的。

  但是,医生的优势在于,不可思议的联想能力,可以帮助他更好地获取对诊断有用的数据。还是针对上面症状+检查数据,当医生诊断不确信时,他可以从病理或者历史经验去联想新的数据特征,进而辅助诊断。而对于机器来讲,联想能力基本为零。

  2. 用大量的临床数据去训练知识体系之间的关系,也就所谓的“联想能力”,进而更好地获取数据,支撑诊断;

  如果让我们给我们自己的产品打分,100分是非常满意,应用效果等同于所有科室的专家诊断总和,我们现阶段只能打到40分,而同时市面上类似产品很少能超过30分。

  这里的不及格除了在知识图谱维度还不够完善,另外就是这个产品目前还只能按照既定方式去完成某些任务,而在真实的诊断场景中,“知识联想、理解用户”是非常重要的环节。

  当然,现阶段康夫子智能诊断还比较年轻,我们花了不到半年的时间已取得非常不错的效果,也正是因为各种不满意才促使我们的系统更加迅速的迭代。

上一篇:2022医疗人工智能报告:距离盈利医疗AI还有多远 下一篇:百度发布灵医大模型 定位“产业级”医疗大模型 面向