抗癌管家   你身边的抗癌专家
微信号:4688 26656
抗癌专家免费解答
 更多抗癌相关问题,可直接添加管家微信 4688 26656 免费咨询 

AI 技术皇冠之 NLP,在临床大规模应用的「门槛」有多高?—抗癌管家

 二维码 33
发表时间:2019-09-18 08:46作者:抗癌管家

02 手机网站 文章头图 468826656.png

她已经和肺癌搏斗了11年;他是曾经的肝癌患者...7年来,他们在群里为大家传授抗癌经验......“抗癌管家互助群”,是大家共同的抗癌家园。

欢迎大家添加抗癌管家微信4688 26656,加入抗癌管家互助群和大家多交流。

群里有来自北京胸科医院、北京协和医院、上海瑞金医院等名医指导抗癌。还有十几年抗癌经验的抗癌明星一起分享。

祝愿每个患者和家属都健康平安。抗癌管家-你身边的抗癌专家。


当今社会,每个人都生活在两个世界——一个是真实世界,一个是数字世界。我们的身体也在两个世界——真实世界中的生老病死,数字世界中的健康记录。


从一个人进入医院起,预约、挂号、治疗、医生诊断……医院中,林林总总的信息系统支撑着业务运作,每分每秒都产生着大量数据。


以一家普通的综合性医院为例,每年仅产生的影像数据约有 30TB(注:1TB = 1024 GB)。按规定,医学影像保存时间必须大于 15 年;若按照 20 年计算,则总数据量就有 600TB。这是一个庞大的数据量。据 IDC Digital 预计,到 2020 年医疗数据量将达 40 万亿 GB,数据生成和共享的速度将迅速增长。

威尼斯.jpg

这些数据是智能时代的驱动力,是反映健康/疾病深层诱因的信息宝库。如果能进一步冶炼,这些数据将成为医疗行业的源头活水,让整个行业面目一新。


在医疗行业,数据的极度复杂性与数据的丰富价值形成了巨大落差。这些数据高度敏感,记录了患者最隐私的个人信息、疾病信息;这些数据格式各异,由不同信息系统产生、互不兼容且随机性大,其中大部分是通过自然语言描述的非结构化信息。


NLP(自然语言处理) 技术是将电子病历等临床非结构化文本转化为结构化数据的桥梁,是数据智能处理的核心环节。据 IDC Digital 预计,80% 以上的医疗数据为非结构化数据。


准确率保证是 NLP 技术落地临床的门槛之一


对关键信息抽取的准确率是 NLP 技术真正落地临床的门槛之一。NLP 技术是 AI 中最困难的问题之一,被比尔·盖茨誉为「人工智能皇冠上的明珠」,是计算机科学、语言学、人工智能与数学等的交叉学科,处理过程包含一连串技术,需要与行业深度结合。


经过无数个日夜,基于华西医院和依图医疗多次迭代后的规则,由华西医院多个专家随机抽取 200 名患者病历对临床科研智能病种库结构化水平进行人工验证,结果显示——对于这些病历中关键医学信息抽取准确率达至 99% 以上,抗癌管家,我们一起抗癌,治愈癌症不是梦。这意味着通过不断迭代评估和完善知识模块,系统结构化能力具有泛化性,在复杂的真实场景医疗语料中有良好表现。


一般来说,NLP(自然语言处理) 技术对关键医学信息抽取准确率受限于医学理解、技术能力等多种因素,特别是当病例中出现复杂多变的医学问题时,结果准确率都将下降。


在医疗领域,数据基于医学逻辑产生,将这些数据通过医学知识建立数据关系是一件非常复杂的工作。


一般来说,利用 NLP 技术对文本病历进行结构化,其抽取规则建立在词或词类间句法关系基础上,抽取特定的信息后形成结构化数据,最终形成树状结构。


总体上,结构化分析的处理过程包含:

文本划分:参考《电子病历基本数据集》等对病历进行分段,如将入院记录分为:患者基本信息、主诉、现病史、既往史、体格检查等段落。


句法分析:识别文本中各种语法结构,完成各类实体的识别,如症状、体征、诊断等,通过关键词匹配和 NLP 技术两者有机融合实现各类实体识别。


抽取:按照预先定义模板确定抽取任务以及要求,利用抽取模式识别文本中实体间关系,抽取相应信息。


模板生成:将抽取到的信息自动生成相应的结构化病历模板。


医学文本数据不同于主流语料,包含很多专有医疗相关名词、词性和语义,只通过传统的 NLP 技术很难完成,需要将医疗理解穿透到数据处理的最底层。那段时间,华西医院的很多权威专家也直接坐到了依图医疗办公室,「小九九」 团队技术专家说起肺癌领域的某种疾病也是信手拈来。


对特定字段进行结构化抽取时,需要综合多个维度文本信息,对同一个数据指标进行多维度校验,这是「小九九」项目克服的一大难点。


以【是否确诊肺癌?】为例,答案是「是」或「否」,这是病历结构化中最基础的字段,但对这个问题的回答需要综合多个不同模块、多个时间点的互相矛盾的信息。比如有的患者出院诊断为肺恶性肿瘤,抗癌管家,我们一起抗癌,治愈癌症不是梦。此时患者病理报告结果尚未出来(很多医院流程中,病人病理报告晚于患者出院),结果病理报告显示为其他部位的肿瘤转移;有的病历中,医生在初次诊断结果为疑似肺癌,病理报告确诊为小细胞肺癌;有的患者第一次病理报告诊断为不是癌症,但后续病理更正了这个结论,诊断为肺癌。


病历数据短缺也是一道棘手的难题。大量肿瘤患者病历中【TNM 分期】数据缺失,但这是科研中重要字段,肺癌 TNM 分期是国际公认的描述肺癌病变范围的系统,TNM 分期将肿瘤特征与疾病分期联系起来,将疾病分期与生存情况和治疗推荐关联,对于多个病例比较、疾病治疗方案评价、预后评估等都具有重要意义。


综合评估客户痛点和自身优势后,「小九九」团队融合了 NLP 技术、CV(计算机视觉)技术,对文本、影像等多模态海量数据综合挖掘,对缺失的 TNM 分期字段进行智能填充,极大方便了医生科研。依图医疗的技术优势在这里得到了充分发挥,依图医疗的图像识别、自然语言处理和语音识别三大 AI 技术均获得世界级成绩,与华西医院合作建设包括肺癌智能病种库在内的多个病种库是国内少有的超越单一文本数据,实现临床数据、影像数据等多种维度数据集成的病种库。


因为看见,所以相信


信息抽取准确率是肺癌临床科研智能病种库走向应用的基础之一。至此,依图医疗与华西医院对该院内大量肺癌数据的数据治理走到一个新阶段——逐步建设为多维、动态、不断累积的肺癌病种库,抗癌管家,我们一起抗癌,治愈癌症不是梦。对数据进行高准确率的数据治理和复杂逻辑结构化处理;在此基础上,实现学科研究、临床、人才三位一体创新能力的提升。


对医疗数据的解析能力是依图医疗成立之初就一直构筑的。依图内部流传的一句话可以对此解释「因为看见,所以相信」——对医学数据进行结构化解析是数据的基础,是切入医疗诊断环节的基础。


如今,依图医疗的 NLP 技术已经在业内处于领先地位,并且积累了大量的医学知识图谱,后者是 NLP 技术迭代和落地的必备条件。2019 年 2 月,依图医疗与广州妇女儿童医疗中心等合作的研究成果发表在 Nature medicine [1],这是全球首次在顶级医学杂志发表有关 NLP 技术基于中文文本型电子病历(EMR)做临床智能诊断的研究成果。


赋能智慧医院建设,深层数据解析总体分为「两步走」,即分别构建医疗大数据的「根系」与「枝叶」——首先基于 AI 技术,进行数据解构、深入解析与标准化,实现临床数据、影像数据、基因组学数据、随访数据、生物样本库等数据的智能化治理;其次,基于 AI 技术以及其处理后的医疗大数据,搭建智能诊断模型,生长出临床诊疗、科学研究、患者管理、教学传播等人工智能应用。


大数据分析和 AI 技术的运用已经像水电煤一样开始渗透至医疗行业,公立医院正经历从信息化到数字化再到智能化的关键发展阶段,医院需要新的发展模式、管理模式和工作模式。


依图医疗已经赋能多家医院智慧建设。2019 年 4 月,科技部新一代人工智能发展研究中心到访华西医院,重点调研该肺癌临床科研智能病种库 [2];2019 年 6 月,抗癌管家,我们一起抗癌,治愈癌症不是梦。依图医疗协助建设的浙江省肺癌诊治技术中心肺癌大数据平台正式对外公布 [3];同样在 6 月,北京医院与依图医疗联合启动国内前列腺癌人工智能科研大数据平台建设 [4]。


大数据治理与应用是没有终点的系统工程,而在医疗领域,更需要敬畏的态度,追求极致的耐心,如履薄冰的安全意识以及长期耕耘的决心。

她已经和肺癌搏斗了11年;他是曾经的肝癌患者...7年来,他们在群里为大家传授抗癌经验......“抗癌管家互助群”,是大家共同的抗癌家园。

欢迎大家添加抗癌管家微信4688 26656,加入抗癌管家互助群和大家多交流。

群里有来自北京胸科医院、北京协和医院、上海瑞金医院等名医指导抗癌。还有十几年抗癌经验的抗癌明星一起分享。

祝愿每个患者和家属都健康平安。抗癌管家-你身边的抗癌专家。

02 手机网站 文章头图 468826656.png

推荐阅读