jn江南登录入口【复旦大学熊贇分享】如何在数据开放同时确保数据稀缺
IEEE x ATEC科技思享会是由专业技术学会IEEE与前沿科技探索社区ATEC联合主办的技术沙龙。邀请行业专家学者分享前沿探索和技术实践,助力数字化发展。
随AI技术的不断深入发展,医学人工智能应用如雨后春笋般迅速涌现,在医疗领域遍地开花。AI具有智能化、自动化的特点,能够通过强大算力解锁复杂数据、处理海量数据,在医学变革过程中发挥着无与伦比的重要作用。IEEE x ATEC科技思享会第三期会议特邀四位嘉宾围绕“AI驱动下的医学变革—从生命科学到医疗管理”独立TALK。
以下是复旦大学教授/博导、上海市数据科学重点实验室副主任、ATEC科技精英赛高级咨询委员会专家熊贇的演讲《医疗大数据:由浅入深、由繁至简》。
大家好,我是复旦大学的熊贇,感谢IEEE x ATEC科技思享会,非常高兴能够与大家分享医疗大数据的相关研究进展。
今天,我将从以下几个方面来进行介绍:首先我将介绍医疗数据的来源、类型和特点,然后重点介绍医疗大数据挖掘分析技术和开放互联技术的相关工作。
我们都知道数据已成为一种新的生产要素。医疗健康关乎民生福祉。习总指出,要加快“互联网+医疗健康”发展。医疗数据的价值发现及其在药物研发、辅助诊断等方面都起到了非常重要的作用。数字医疗为实现优质医疗资源共享、解决医疗资源分配不均和就医成本高等问题提供了可行的方案。
医疗数据类型多样,常见的有患者的就医记录(包括患者的基本信息、就医诊断、用药等信息),也有以非结构化文本形式存在的电子病历及其诊断报告,还有医学影像、医疗试纸以及文献等各类数据。我们对这些数据进行分析,从中挖掘其价值,要针对这些不同数据的特点,从不同角度来看医疗数据并研究其相应算法。我们有单一来源的数据处理方式,多来源数据的处理方式,也有结构化、非结构化和多模态、多源异质数据的处理方式。
医疗大数据包括了数据类型繁杂、数据质量较差、数据孤岛众多、数据安全薄弱和数据应用尚浅等问题。这些问题在领域里面也有共性。这也是我们之所以能够将现有的一些数据挖掘机器学习(例如自然语言处理、图像视觉处理等方法)引入的一个基础。但医疗领域对数据质量和分析结果的有效性的要求更高,因此,我们需要对这些共性技术加以改进。
对于类型繁杂的数据,我们需要采用多模态的数据融合技术,例如我们要将医疗影像和医疗报告文本的数据不同模态下进行对齐。对于数据质量差的,我们需要有专门的医疗数据规范化的技术,例如利用电子病历文本与ICD编码对齐这样的规范化的技术。医疗数据的高敏感、高隐私的要求和我们在做医疗智能分析时对数据全面特征的需求,两者之间存在着矛盾,这就需要我们要有更为有效的共享互联机制和技术支撑。
在分析挖掘方面,我们的研究工作是由浅入深发展的。首先我们在医疗大数据挖掘方面,包括了从单一来源的就医数据的简单挖掘到基于深度学习的特征表示,从结构化到非结构化和跨模态数据的深度学习方法在医疗影像和文本方面的分析,以及多源多模态的组学数据分析。
我们可以从一些患者的就医记录中看到患者的基本信息和用药记录等信息。我们可以使用最基础的训练模式,挖掘频繁模式挖掘算法,来得到患者的用药模式。例如上图中的三个患者,他们都有使用前面三种药物。可以看到三种药物之间存在着一定的用药关联。这种直观的方式可以带来一定的辅助诊断作用,但医疗实际场景下不同的用药顺序也反映了患者的疾病状态。比如先用某一种药和后用某一种药,治疗疾病的原理可能是不一样的。另外,用药的剂量也反映了该病人症状的治疗方案。
因此我们使用不同的方法,包括考虑统计频次的方式、考虑顺序的方式和考虑剂量的方式,得到的用药模式也是不一样的。
可以对于某一种用药以及其他相关用药进行展现。患者的用药特点反映了患者本身的特征,有助于对患者个性化的精准治疗。例如有相似用药模式的患者,他们更为相似,可以作为诊断的参考。但我们也发现这种简单的(参考)对反映用户特征方面仍然是有限和不足的。
随着深度学习技术的引入,可以利用患者更多的数据进行刻画,捕获更多的信息。比如刚刚只考虑了药物的顺序,但是药物用药之间的时间间隔以及前一状态对后一状态的影响等信息并没有考虑到。
为了能够更好地刻画这些多元复杂的因素,我们将患者行为进行一个图的建模,构建成一个二部图。这个节点分别是患者和用药。边上记录了丰富的交互行为,即在什么条件下、什么时间使用了某一种药物或药物的剂量以及药物的具体情况等等。现在我们的问题就转化为,得到图中的每一个患者节点的特征向量来刻画用户的特征,用于下游任务。比如对用户的相似性识别或者对用户分类,对于每一个节点都可以用深度学习模型得到一个特征向量。如果两个患者的特征向量相似,那认为这两个患者是足够相似的。
之所以采用图的建模,是因为首先能够更好的捕获时序依赖性,即建模了多个时间间的依赖关系。比如对于一个用户来说,他在每个不同的时间段、不同的时间点使用了药物。那可以知道他服用A药物以后可能还会服用B药物。因此深度学习的建模主要是能够最大化的用药共现概率,当用户来使用A这个药物时他会使用的下一个药物是什么的。
并且还能建模单个事件在不同条件下发生的概率及条件邻近性,例如患者在什么时候来使用这个药物。即我们的模型要能够最大化患者和用药,在某一个条件下面最大的概率。
传统的基础文本分析方法可以用在医疗文本上。例如对于电子病历,进行特征抽取,然后得到它具有较多共性的文档,形成共性文模板。这种方法可以采用比较简单的SimHash来提取文本的特征。但可以看到这对于医疗本身的语义特征的提取是非常有限的。
以ICD编码为例,即这个医疗文本主要是以文本的非结构化的信息展示。但是每一个文本都会标注一定的ICD编码。因此可以实现给一个医疗文本,能够得到它对应的ICD编码。这其实是一个多标签的分类问题。我们采用的方式是对文本中的词进行嵌入表示学习。
然后引入图深度学习的方法。对于需要建模的ICD编码的层次关系进行图的表示。我们利用图卷积的方式得到每一个图的节点特征表示。在这种方式的支撑下,能够比原有的浅层模型或者没有加入图的模型得到有效提升。但在这个过程当中,对于文本的这个特征仍然是用通用领域的一个卷积模型来实现的。这里面也可以采用像BERT这样的预训练模型。
由于通用领域包含的医疗生物信息知识比较少,因此在通用领域上的预训练模型,比如BERT或者GPT,可能它不能够更好的学习到生物医学领域的知识,因而出现了一些专门利用生物医学语料库进行训练得到生物医疗领域专门的预训练模型。
我们所做的工作是在现有基础上,对医学文本预训练模型考虑到中文情景当中中文汉字各个部件之间的语义关系,再进行提取。比如每一个汉字,特别是对于疾病里面的一些汉字,它的部件其实体现了一定的语义特征。我们将每一个汉字拆成更小的图的形式,然后利用图的深度学习模型来得到各个部件的语义特征,再和通用领域的BERT进行结合,最终得到一个更好的反映医学文本特征的领域的预训练模型。
除了单一模态数据分析外,多模态的数据融合分析也可以做到更多的价值挖掘工作。例如除了传统影像中进行疾病检测之外,其实医学报告的生成也成为了当前的热点,即如何能够更好地利用文本数据,这个思想其实是来源于图像视觉领域里面通用领域的思想。它对于一个图片来说,不仅可以得到里面有哪些具体的物件,还能够生成一段相应的文本,即看图说话。
在医疗影像领域里面存在哪些更多的挑战呢?首先在医疗文本领域,文本报告描述的长度相对而言总是比较长的。对于一段比较长的文字,就会有一个常依赖的问题。另外要得到的异常区域比较小,挖掘、描述异常是一个挑战。
因此我们将主题的注意力机制,还有门控单元等技术、深度学习的技术应用到医疗影像文本报告的生成。我们的模型得到了更好的表述异常的描述句子。
我们也发现了另一个问题,即所能够获得的有些疾病的样本量可能是比较少的。因此提出了一个Few-shot GAN的方法,让我们能够生成更多的少见疾病的样本,并且还利用了疾病图卷积来建模疾病之间的内在关联性。即对于疾病的标签之间的关联性也进行了建模。这样对于一些少的疾病和其他相对更多的疾病之间的关。
上一篇:希望两岸携手把中医药做大做强 下一篇:安徽中医药大学项目:让农民工安“薪”又暖心