9月15日,在由中国人工智能学会学术指导的全国博士后学术交流活动上,国际核能院院士、中国人工智能学会不确定性人工智能专业委员会主任、全国政协常委张勤发表了题为“DUCG智能医疗诊断云平台简介”的演讲。
下为张勤院士在本次大会中的演讲实录,经整理后发布。
张勤:首先报告大家一下,我是很多年以前清华的博士后,现在是清华大学博士后校友会的会长,也在带博士后,跟大家是同类项。大家看我是学核电的,目前担任国家核电重大专项评估专家组组长。我的研究领域是核安全,具体来说是核电站故障诊断和风险评价。我在美国留学的时候,我的两个导师(都是美国工程院院士)对我提出的科研要求是在核电站发生故障且有虚假信号的情况下,怎么用人工智能的方法实时在线准确地诊断出故障在哪里,而不是靠人来判断。人判断很容易出现失误,因为人很难在复杂的工况下及时做出正确的判断,特别是在有虚假信号、知识不完备、且信号动态变化、事故危害大的情况下。美国三哩岛核事故就是例证。所以那个时候给我的任务就是要用计算机人工智能来进行故障诊断。但是我一做人工智能的调研就发现,已有人工智能理论主要是基于大数据机器学习的。在核电站领域,很少有故障数据。核电站是高可靠性系统,老出故障还行?而且绝不会出重复的故障,因为一旦出故障,硬件和软件包括操作员都会发生改变,不会再出现以前出过的故障了。例如美国三哩岛核事故后,全球都不会再出现与三哩岛相同的核事故;日本福岛核事故之后,全世界的核电站都进行了相应的改进,不会再出现福岛同样的核事故。但新的以前没有出现过的核事故仍然可能发生。我的任务就是要能够诊断从来没有发生过的故障,而且还要在存在虚假信号的情况下。
可见,我所面临的人工智能问题是没有可重复使用的故障数据,所有已有人工智能理论没办法用。怎么办?只好自己创立一个理论,这个理论发展到现在,就是动态不确定因果图DUCG(Dynamic Uncertain Causality Graph)。因为虽然我们没有故障数据,但我们有知识。核电站再复杂,再没有故障数据,也是人设计建造的。对核电站操作人员的培训就是让他懂得核电站各变量之间的关系,例如流量、压力、反应性等等,彼此之间是什么因果关系。有了这些知识后,操作员就可以进行故障诊断了。但问题是人没有计算机可靠、速度快。所以要用人工智能的方法来辅助操作人员进行故障诊断。
这类需求不仅核电站有,所有的电厂、化工系统都有这样的需求。包括潜艇出去了,一旦出现故障,要让官兵能够以最快的速度找到故障在哪里,不能发电报回大陆找专家帮你诊断,因为要保持电磁静默。我们在这个领域的技术现在已经比较成熟。但我们发现DUCG不仅可以给工业系统做故障诊断,还可以给人看病,因为本质上两者都是大型复杂系统。今天讲用DUCG给人看病。
这张图片是我们已经做过的东西。这个是化工系统,这个是最早在清华核电模拟机上做的核电站故障诊断实验,这是宁德核电站的故障诊断,这是卫星电源系统故障诊断,这是做的黄疸疾病的医疗诊断系统,这是分诊系统。
今天不讲工业系统,只讲看病的系统。看病面临的问题大体上比较清楚:全国医疗机构基层占约94%,三甲医院占1%不到。所以我们一直面临一个重大难题:就是看病难,看病贵,医患矛盾突出,医保入不敷出,有很多不该做的检查做了,医保不堪重负,但有些该做的检查没做,或做了也不知道是哪里出了问题,漏诊误诊,漏检误检、漏治误治。这个问题不仅中国有,全世界都有。现在国家搞分级诊疗医疗体制改革,目的是解决人民群众优质医疗资源可及性和社会公平性问题,还要解决医保费用不够问题,于是推动医疗资源下沉,实行“基层首诊,双向转诊,急慢分治,上下联动”。但问题是基层首诊正确率非常低。有人估计县乡级医院诊断正确率能达到40%就不错了,60%以上误诊。所以,想实现90%大病不出县的医改目标,关键问题就是要提高基层首诊的正确率。基层医院的水平怎么有效提高?除了硬件,关键是要有好的医生。于是就有了全科医生培训计划。国家规定到2020年中国要培养30万个全科医生,2030年要培养70万个全科医生。培养模式是“5+3”,五年本科学习,三年全科医生规范化培训,国家补贴,毕业后取得全科医生的资质,到基层医院工作至少五年。但目前我国愿意学全科的很少,毕业后一般都呆在大城市,很难下基层。
好的医生到不了基层,以“90%大病不出县”为目标的分级诊疗就没办法实现。为什么要医疗资源下沉?除了解决医疗公平外,还因为医疗每下沉一级,费用就降低一级。例如从省会城市医院下沉到地级医院,费用下降一级。再往下沉,到县乡级,费用又可以下降一级。也就是说,在基层医疗的费用可能是北京三甲医院的百分之几,这就很容易实现医保控费。但问题是沉不下去。于是基层诊断的正确率就难以提高。人的生命只有一次,大家都很珍惜。所以但凡有点能力或条件的病人,就往三甲医院跑,导致三甲医院门庭若市,基层医院病员不足。我到过一个县医院,一看他们医生的水平,与三甲医院医生的水平差得太远。我们的DUCG技术就是要解决这样的问题,让基层医院的医生在DUCG的辅助下,达到三甲医院医生看病的水平。
我们的DUCG系统跟现在流行的基于大数据的智能系统不一样,我们的不是大数据,而是大知识,跟在座各位做的不一样。这里很重要的问题就是可解释性。不管是给核电站做故障诊断还是给人看病,计算机算出来的结果不能没有可解释性。图象识别对解释性的要求不高,所以深度神经网络搞医学影像识别也许还可以。但是常规的看病就难了,因为没有可解释性,医生很难接受。这就是大家都知道的黑箱问题。DUCG不是黑箱,是一个完全透明的白箱,结果可解释,每一步计算都讲得出道理来。
现在讲讲DUCG开发应用的情况。这是一个可视的DUCG知识库,用于黄疸疾病诊断。全世界各种各样的医疗智能系统很多,能做黄疸疾病诊断的很少。这是我们与李兰娟院士的团队合作的成果。这张DUCG图由很多张子图合成。我们用2007-2015年浙大第一附属医院将近四千个出院的黄疸病人的病例来进行验证。注意不是从病历学习知识库,DUCG的知识库是跟医学专家一块构建的。但是构建得对不对,诊断结果对不对,要靠病例来检验。为什么用出院病例?因为门诊病例不知道是否可靠。病历中80%是门诊病历。但门诊是否正确难以确定,因为看好了病人不来了,没看好病人找其他医生看去了。住院且病好后出院的病历是可靠的。所以我们用这些病例来检验我们的DUCG系统。
我们有些AI公司不了解这一点,买了一大堆病历数据。门诊的病历和住院的病历都有,门诊占多数。我个人的看法是这样的数据没什么用,因为质量不可靠。
我们用这4000份病例来进行随机测试,从每个病的病历中随机抽十个病例。不多抽,十个就够了,因为我们不是大数据学习,而是检验。十个随机病例检验正确,基本上就正确了。因为我们检验的是知识点,每个病十个随机病例的检验基本上就能够覆盖绝大多数知识点,再多的验证如果不涉及新的知识点并发现缺陷,结果就不会有改变。有的病罕见,只有两个,就全部拿来。这个病只有三个病例,也全部拿来。这样就能保证对罕见病也能正确诊断。大数据AI系统测试数以万计的病例,但绝大多数是少数几种常见病,罕见病被测试的几率很低。所以虽然看起来测试正确率可以很高,但实际上诊断不了罕见病。这样的系统能用么?万一我恰好就是罕见病呢?人的生命只有一次。
我们的检验分成两步:第一步是尚未做深入检查的,第二步是做了深入检查的。检查分化验、影像、病理等。不做检查就是在医生的医务室里跟病人交谈获得信息,包括用听诊器听一听,手摸一摸,温度计量一量等,不需要专门的设备。最终,加上检查后,随机抽取了涵盖全部27个病的203个病例,诊断结果只有两个是错的,正确率为99.01%。其实应该是100%,因为那两个错的我们请专家仔细看了一下,认为病历有问题,记录有误或不全。但我们仍把这两个算成是我们的错,于是正确率为99.01%。这是我们发表的论文。
给人看病比工业系统故障诊断更复杂。工业过程系统每次故障通常只有一个初因事件,再加上没有或有若干非初因事件,但初因事件只有一个。病人却可能同时患几种病,你要有本事把并发症都弄出来。这个病人同时患两个病,各占50%的概率。现在新的DUCG系统计算的概率是各为100%。刚才说了看病结果要有可解释性。凭什么是这两个病?点击图解按钮,DUCG用这张图来解释。绿色表示状态正常变量,其他彩色表示状态异常变量,无色是未知变量,灰色是不可检测变量。所有异常(阳性)证据和状态为正常(阴性)的负证据都显示在这张图上。多数异常证据用我们的诊断结果可以解释。这些是未能解释的孤立异常症状。病人的情况很复杂。有的病人来了,说头痛,但真实原因是焦虑,晚上没睡好觉,与他的病没关系。好的医生能够把孤立症状辨识出来,我们的DUCG也是。这些变量是风险因素,即影响发病率的因素。例如性别。对于卵巢囊肿疾病来说,如果病人是男性,就不可能有这种病。但对于乳腺癌来说,女性的发病率高,但男性也有可能。风险因素不仅包括性别,还包括年龄、工作环境等。例如像我这样的年纪、从事案头工作,得颈椎病的可能性比干体力活的人要高,而干体力活的人受到某种感染的可能性或许比我高。有些指标异常属于金标准,就是你查出来这个指标偏高,就百分之百确诊你得了这个病,无论你是否还有别的病。
这些不同性质的变量用不同的图形来表示,可以一目了然为什么是这个诊断结果,使我们的用户在使用DUCG的同时就在学习。我们的想法是改变目前全科医生的培养模式,让学员了解基础的医学知识和掌握检查技能后,再对如何使用DUCG稍加培训,就能成为全科医生,而且诊断结果正确率很高。
培养一名优秀的医生是非常困难的。一般来说,需要八年的大学学习,然后在临床实践中积累十年的看病经验,总共一二十年才能成为经验丰富的医生。这是因为由因到果容易,由果到因难。即知道是什么病后,预测患者会出现什么症状容易。反之,通过症状来找病因难,因为很多症状是多个病因共有的,有些是跨科的。这些症状的某种组合究竟代表哪个疾病,通常只能靠导师在临床诊断过程中的知识传授和自己的经验积累。这个过程太漫长了。专科如此,全科更难。但是使用DUCG系统,一个小时就会了,水平与建库专家相当。而且边用DUCG,使用人的诊断知识水平边提高,因为DUCG在看病过程中可以告诉你建库专家的医学知识和经验。这样,基层医生就可以边用边学,逐渐达到建库专家的看病水平,无需长时间进行全科医生培训。这是因为DUCG不仅是一个看病系统,同时也是一个教学系统,其诊断结果具有强可解释性。
这是眩晕疾病的DUCG知识库,是最早做的,跟北京朝阳医院五官科主任王宁宇教授的团队合作的。眩晕是大家公认的疑难杂症,总的病因大概有两百多个,我们只做了其中较常见的22个,是早期的探索性研究成果。从医院的病例库中随机抽了60个病例,涵盖了22个病中的18个疾病,正确率88.3%。这是我们发表的论文。论文出版社Elsevier在论文发表一个月后主动通知我们,论文已被下载140篇,两个月后再通知我们已下载390篇。芬兰赫尔辛基大学的研究人员给我们发电子邮件,希望合作,他们可以向我们开放他们的贝叶斯网络系统的源代码,希望我们也向他们开放。但我们只需要他们的三千个病例,不愿意开放我们的源代码,因为他们的贝叶斯网络系统诊断正确率很低。最后由于双方利益诉求不一致,没有达成合作。
这个BPPV病就是耳石症,是眩晕的重要病因,大约占三分之一。我们对这种病诊断的正确率为91.7%。但BPPV还有很多类型,大约有23个类型。把BPPV患者具体是哪个类型弄清楚,就可以通过仪器精准治疗。这是我们的分型知识库,正确率达到100%。这篇论文被审了一年多,既没被拒,也没被接受,因为找不到合适的审稿专家。
这是我们跟协和神经外科王任直主任的团队一起做的鞍区疾病诊断知识库。我们对20个疾病建立子图,由计算机将其合成为全图。这个是关于垂体浓肿的子图。
我们用北京协和医院的病例来检测我们的诊断正确率。这是各个病的病例总数,从中随机抽取十个进行测试,不足十个就全部测试。抽取的十个病历未必都能用,因为有些病历质量不够,不能用于测试。这样实际测试的数量就可能少于十个。有些罕见病在病历库中找不到,我们在网上找到了几个病例,补齐了测试的病例。最后测试结果准确率为93.7%。注意,这个正确率是跟最后确诊结果的比较。要是跟医生的主观判断比较,一致率应该是100%。因为受限于现在的医学水平,专家的倾向性判断也不都是正确的,最后要根据术后对切除组织的病理检查才能确诊。这篇文章已经在国内核心期刊上发表了。
除看病外,我觉得还有一个很重要的事情就是全科分诊。我们的模型是先建立第一层基础层的分诊知识库,根据病人自述和基本的检查,判断患者应该到哪一个知识库或者科室就诊。我们大概看了一下三甲医院的科室,除了放射科、化验科等辅助科室之外,真正直接面对病人的科室一般三十多个。但是各个医院的分科不一样,我们大概按照五十个分科来建库。在分诊知识库中,疾病换成了科室或知识库,再结合风险因素和症状、体征,就可以构建一个基础分诊知识库。根据患者信息,包括风险因素和医生初诊的提问或测量获得的信息,就可以给出患者属于哪个科室或知识库的概率,我们叫做权重,然后按照权重知识库进行诊断和综合。
现在到医院看病的病人通常在医院内部各科室转诊好几次,终于找到适合自己疾病的医生。以北京协和为例,这是全国的顶尖水平,每个医生擅长的疾病也就那么几个。有些疾病诊断涉及多个科室。我们把相关各科医生的知识收集到一起,这种知识是考医生水平的。比如眩晕,涉及到五官科、神经科、骨科、血管科等。我们可以把这些科室的医生弄到一起来围绕某主诉症状建库。
我们的分诊系统是按照详细分科来构建的。但具体到某个医院,它的分科没有那么细,我们会根据该医院的分科做个映射。这几个基础科属于某医院的同一个科,或既归属这个科,也属于那个科,各占百分之多少。我们尚未与医学专家合作建分诊知识库。这是我的学生根据网上搜到的医学知识自己建的分诊知识库。这个患者有浮肿等症状,诊断属于两个科室,一个是内科,一个是骨科。内科占2/3,骨科占1/3,内科占主要部分。这项工作尚待完成。
我们现在把DUCG医学诊断平台放到了云上,全世界任何一个手机可以上网的地方都可以看病,专家也可以建库。现在我请清华大学计算机系博士后姚全营来演示一下我们的云上DUCG系统。先从应用平台开始。这个账号是专门为了演示用的,因为不能跟其他的医生正在开发或使用的知识库打架。这是四川遂宁市中心医院的一个真实病例。患者年龄26岁,女性。我们分了两个部分来输入信息。一个是必选项。你要看关节痛这个病,这些问题都必须回答。绿色为阴性(正常),其它彩色是阳性,即不正常。这些基本信息放在必选框,提示基层医生去掌握看这个病应当也容易掌握的必要信息。另一部分是其他项,通常是专项检查的结果。
信息可以有不确定性。比如发烧,体温37度,是发烧还是不发烧?可能各占50%。必选项通常包括风险因素、症状和体征,其他项主要是实验室检查和化验、影像学检查等等。在知识库里这些检查项都会出现。如果基层医生看不懂检查项,可以点击这个按钮查看每个症状到底是什么意思,有详细的文字描述、图片、甚至有声音、动作视频等。例如肠鸣音、腹部释放性疼痛检查动作视频等。
为了方便共享病历,我们把患者的病历存在网上,密码由患者保管,免除了患者在不同地方看病携带病历的烦恼。现在看到的这个病人是青年女性,有淋巴肥大等症状。这部分是检查的结果。我们把病历记载的所有相关信息都输进去,然后来诊断一下。先用常规诊断。这是诊断结果:系统性红斑狼疮。病历中记载的确实是这个病。绿色的变量表示预期可能异常,但这个患者没有异常。也许过一段时间后会出现异常,但是现在还没有异常,有的是本来就不一定会出现异常。这时这个正常状态证据对于这个病来说就是负证据。这个六边形变量代表金标准,其异常状态出现表示必定患有某种疾病。
目前诊断这个患者100%患有系统性红斑狼疮,没有显示其他疾病,因为我们用的是常规诊断。常规诊断要求病因能够解释至少两个异常症状,只能解释一个症状的被扔掉。我们也可以用精细诊断,保留只能解释一个症状的疾病。结果就会比较多了。DUCG诊断除了给出是什么病,还给出这个病的危险程度,由建库专家给出。
以上是在已知全部检查结果的情况下的诊断。实际应用中包括怎么收集证据,该做哪些检查,循序渐进,不断迭代,逐步确诊。我们的目标是用最少的检测和代价最快找出真正的疾病。不漏检,也不过度检查,为医保和病人节省费用和时间。作为基层医院的医生,你怎么知道要问哪些问题、做哪些检查、先后顺序呢?一个好的人工智能系统应该能引导用户一步一步去做该做的检查,给出对当前患者最优的临床路径。换句话说,标准的临床指南未必是个性化的,因而也未必是最优的。DUCG提供个性化的最优临床路径。这样,制定临床指南意义就不大了。
现在我们重新输入一下患者信息,只有必选信息,其他信息未知。然后我们诊断一下,结果尽管有系统性红斑狼疮,但概率不高,因为还有很多检查没有做。这时我们点击推荐检测按钮,看看下一步我该做什么检查。结果血常规检查排第一,推荐率60%多,其中包括三个检查项,就是白细胞,血色素和血小板。这三项的推荐率是分别计算的。但都属于血常规检查,抽一次血,就可以得到这三项指标。我们把检查结果输入,再看看诊断结果。现在系统性红斑狼疮的参考概率上升了。但还是不够高,所以还应该做进一步的检查。再次推荐检查排第一的是自身免疫性抗体检测,有五项指标。我们把这些检查结果都输进去,再诊断一下,系统性红斑狼疮已经是百分之百了。我们只做了两项八个指标检查,就得到了准确结果。而真实病例做了二十多个指标的检查,结果完全一样。可见,DUCG可以缩短临床路径,优化临床路径,减少医疗检查项,快速找到病因。我们的推荐检测考虑了检测效率、疾病危险度和检测代价,分别有权重系数。目前缺省设置权重系数相同。实际应用可以根据患者的情况调整权重。例如有人不在乎花钱,代价的权重就定得低;有人在乎花钱,就把代价的权重设得高一些。注意,我们现在是用的手机上网实时演示,速度很快,每次诊断和推荐检测只有一秒钟左右。用户体验是很好的。我们租的云资源非常普通。如果租更多更好的云资源,速度会更快。
此外,点击生成病历按钮,DUCG就自动生成结构化标准化的病历,既规范了病历,又免除了医生撰写病历的烦恼。我可以告诉大家,除了自动撰写结构化标准化的病历外,我们还可以在DUCG的基础上生成临床规范、包括临床诊断的标准化代码。这是非常有意义的。
现在我们演示云上知识库编辑器。这个库是关于内分泌的,建库的工具我们已经做好,建库专家从菜单中将想要的变量拖拽出来放在白板上,写上变量描述和参数,再用箭头将他们之间的因果关系连接起来就可以了。这是甲亢和甲状腺相关的情况。每条线都可以被打开,显示为一个矩阵。左边是输入的状态,上面是输出的状态,是一个稀疏矩阵,即只需要填写异常与异常状态之间的因果概率,正常与正常之间、以及正常与异常之间可以为空。这种不完全表达为知识库的构建带来了极大的方便,因为人们实际上只关心异常导致异常的不确定性。
这是关于水肿的知识库,虚线代表条件因果关系,即只在某些条件下因果关系成立,不满足这些条件则因果关系不成立。比如有的因果关系对女性成立,对男性不成立,或对成年人成立,对儿童不成立。条件因果关系中的条件可以是很复杂的逻辑关系,可以是任何事件的任意组合。满足条件事件后,虚线因果关系就变成了实线因果关系。如果不满足,虚线就断掉了,即因果关系不成立。在风险因素的组合影响下,疾病的无条件发病率会有所改变,从B变量的发病率放大或缩小为BX变量的发病率。放大或缩小的倍率参数嵌入在双线箭头中。
DUCG知识库按照模块化的方式构建,将大型复杂问题变成小型模块化及其合成问题。通常我们按照每个疾病一个模块来构建。一个模块就是一张DUCG子图,彼此之间可以有变量重叠。DUCG平台可以自动将这些模块合成为完整的DUCG图,对应于某主诉症状的病因诊断、或某类疾病的病因诊断。合成过程中如果发现有错误或冲突,平台会自动提示修改模块,直到完成合成。合成之后的DUCG图通常很复杂,难以看懂,对应于疾病诊断所需的复杂的知识库。合成后的知识库推送到应用层,就是我们临床应用的知识库。这样构建的知识库与大数据没有关系,是临床专家知识的图形表达。病历数据只是用以验证所构建知识库是否正确,而不是用于构建知识库。这是我们的技术与大数据技术的本质区别。我们也不会涉及病人隐私和病历数据的知识产权,因为我们只用数据验证知识库,就是由有权限的医生从医院病历库中调出相关病历,并根据病历记载信息,在DUCG应用平台上勾选变量状态或输入变量数值(例如体温),病历中的隐私部分不输入(由任意的编号取代,例如病人甲、病人乙等),病历数据也无须拿走。由于我们的知识库建立在医学知识的基础上,具有天然的可靠性和鲁棒性,应用场景的变化很难影响DUCG的诊断质量。这在我们正在进行的第三方测试中已经得到了验证,因为如果测试发现问题,我们会与测试方和建库专家进行沟通,弄清是测试病历的问题还是建库的问题。如果是建库的问题,改进相应模块的知识库再合成就行了。一般情况下只需要几分钟。与大数据不同,我们的知识库不是通过数据量的积累自动迭代更新的,而是在发现新知识后通过专家认证修改知识库而进化的,每一步更新是什么都有记载,一清二楚。这种更新完全符合CFDA的认证要求。
在云上,我们可以看到建库专家如何定义变量,包括疾病、症状、体征和各种检查等。我们做的是开放性的平台,不同的医生可以建立各自不同的知识库,其中很多变量相同,但描述不同。我们允许不同医生之间有不同的学术观点,不强迫医生们一致。北方的情况和南方的情况可能就是不一样,他们可以对同一疾病的诊断有不同的知识库。当然,建库专家需要经过我们核验其资格,授权之后才可以用我们这个平台去构建各种各样的知识库。我们鼓励相同变量使用相同的定义和描述。为此,我们在今后会给出标准变量参考库,供建库专家们调用,自然形成规范,而不是找部分专家建立规范,让其他专家遵守。实践证明这种方式很难行得通。我们一方面鼓励建库专家采用我们提供的标准库,节省专家的建库时间,另一方面可以在不同定义的相同变量之间给一个统一的代码,就像现在的ICD标准疾病代码那样。有了代码,我们就知道不同自然语言的变量实际上是同一个变量。
最后总结一下,构建DUCG知识库的工具都放在编辑器上,供用户拖拽调用、创建变量和变量之间的关系。变量及其关系可以复制、删除、移动、撤销、修改、以及变量关键字输入和检索查询等。所构建的知识库结合DUCG推理机和应用平台(数据的云上存取功能和用户界面),可以颠覆基层临床医生的培养模式,因为高水平临床诊断知识资源获得了无限放大,无需专家本人深入基层或远程会诊,其智力资源就可无限复制直达基层,从而解决分级诊疗制度落地的关键问题。这是因为DUCG把临床诊断问题变成了DUCG知识库的正向表达和反向计算问题(逻辑运算和数值运算),反向计算就是临床诊断,可由计算机完成。而一旦诊断问题变成了一个科学的计算问题,计算机就可以超过人类。当然,我们这里只是对基层医生赋能。
未来DUCG的商业模式包括ToG(卫健委、医保等)、ToB(医院、诊所等)和ToC(患者)。对政府来说,可以解决医疗公平和优质医疗资源可及性问题,规范医疗,节省医保费用,提高为人民服务的能力和水平;对基层医疗机构来说,可以提高技术水平,降低人力成本,吸引更多病人来医院就诊治疗,增加效益,同时还可以在使用DUCG的过程中自动教学,提高基层医生的知识水平;对患者来说,省去了到三甲医院看病的烦恼,既可以自己看病(做仪器检查、化验和拍片检查等除外,但这些可以到专门的检测机构去做,不一定是医院),还可以在医院看完病后自己将病历记载的信息输入DUCG系统进行第三方验证,改变现在医患双方信息不对称的局面,为主动对自己的生命健康负责提供可能。当然,在出现医患纠纷时,DUCG还可以充当专业第三方的角色。
现在我们正与北京协和医院、北大医院、宣武医院、朝阳医院、浙大第一附属医院、湘雅医院等大医院的临床专家合作构建和测试各种知识库。多数是西医,也可以是中医,或中西医结合的。目前除上述提到的疾病外,还在开展腹痛、发热伴皮疹、泌尿系统、流鼻血等主诉症状的病因诊断知识库构建和测试。近期还将开始对精神病、肥胖、头痛、不明原因发热等疾病诊断知识库的构建。我们正在与四川遂宁市中心医院、重庆西南医院、大坪医院,重医附二院、肿瘤医院、万州三峡人民医院开展合作,测试我们围绕各种主诉症状构建的知识库。开展合作建库的三甲医院专家已有二十多个,还在增加。我们希望有更多的专家参与进来。现在DUCG已能诊断并发病,正在进行诊断继发病推理机的开发,未来将加入推荐处方功能。根据临床诊断学,主诉症状大约30来个。预计我们一两年就可以覆盖。我们再增加一个全科分诊和权重综合功能,就成为高水平的全科医生助手了。未来我们还要在疾病分型上构建知识库,形成某疾病的专科知识库,提供更加细致的诊断。
我们和大数据是互补合作关系,不是排斥关系。不管是X光片、B超图像、舌像、还是心电图,我们都不做读片判断;我们也不判断肠鸣音、心音等。要么医生自己判断,要么通过远程由第三方检测机构判断,当然也可以由大数据AI完成图像和听音判断。无论谁判断,其结果都是DUCG的输入证据,并由DUCG完成综合诊断,且这些检测和判断也是由DUCG推荐检测功能发起的。所以我们跟大数据人工智能是互补的关系。
下面探讨一下当前流行的大数据技术和我们的DUCG技术的比较。这是人工神经网络NN,只有纵向且单向连接,没有横向和反向连接,更没有环。激活函数多为ReLU分段非线性函数,即取多个输入中的最大值。也有取均值的。贝叶斯网络BN有一定的可解释性,因为它体现了因果关系。BN也主要是通过大数据学习获得的,因为其条件概率表PCT难以由专家给定。于是数据质量问题仍然存在。这种从数据学出来的因果结构与医生的知识结构未必一致,因而难以获得广泛认可。此外,BN中父变量之间的逻辑关系隐含在条件概率表中,是隐含表达,对数据精度要求高,不容易理解,计算量也很大。DUCG是显式表达,其结构直接反映医生的知识结构,参数少,可解释性强。DUCG的参数可以通过参数学习获得,但实际上不需要。因为对DUCG来说,求的是条件概率,是分子分母的运算关系,参数的绝对值基本不起作用,仅相对大小起作用。所以建库专家只需要拍脑袋给参数就行了,无需大数据参数学习。例如0.8比0.4大一倍,0.6比0.3大一倍,结果是一样的。这就是基于知识的DUCG不需要大数据建库的一个重要原因。
另外,大家不应将神经网络NN理解为对人脑的模拟,因为人脑远比NN复杂。今年4月在中国科协年会上,马云上午在大会上讲我们对脑的认知“只有”15%。但在下午脑科学分论坛上,蒲慕明院士就说我们对脑是怎么记忆的几乎一无所知。连记忆都不知道,思维就更不知道了。模拟的对象都不清楚,怎么模拟呢?我们人脑细胞大约有一千亿个,九百亿是胶质细胞,一百多亿是神经元细胞,彼此的关系不清楚。NN只模拟神经元怎么可能模拟脑呢?即使是神经元,其构成也非常复杂,纵向横向和环路连接都有,还会产生空洞、这些空洞会根据需要自动长大、缩小等,到底是什么机理,尚无人知晓。神经元之间的连接方式也非常复杂,传递信息的方式多样,电学的、化学的,以化学的为主。
清华大学戴琼海院士在搞一个观察神经元的电镜项目,选择神经元只有100多个的蠕虫为研究对象,就是为了把神经元的活动机理弄清楚。为此必须从原子层面进行电学的、化学的等微观观察。目前许多国家提出了脑科学计划,包括美国。总之,要首先把生物脑弄清楚了才能谈得上用计算机模拟的问题。现在的深度卷积神经网络跟人脑神经元网络差之万里。用NN来模拟人脑,谈何容易!
其实凡是可计算的问题,计算机都能超过人类。例如图象识别、语音识别,本质就是用数学模型提取特征量,将识别问题变成一个数学计算问题。计算机算得比人快,比人准,完全在意料之中。所以说AlphaGo战胜人类一点都不奇怪。AlphaZero没有向任何棋谱学习,战胜了AlphaGo。但围棋的规则却是人输入计算机的,并且用算法来实现。计算机的计算能力和记忆能力远远胜过人类,所以AI在这些可计算智能问题上胜过人类一点都不奇怪。DUCG是一种与大数据无关的算法,可由计算机进行精确计算,能力肯定可以超过单个的人。但如上所述,DUCG没有大数据的局限,当然,也没有大数据的优势。所以两者是互补关系。
从建库和验证库的难度上看,DUCG建库是很容易的。目前我们的实践结果显示:临床专家每个月花四个半天基本上可以完成一个主诉症状疾病知识库的构建,再在两个月里花8个半天的时间进行内部测试,完善知识库。大约三个月可以建一个库。之所以要这么多个月,主要有两个原因。一是医生忙,抽不出时间;二是医生需要时间收集、查询和梳理有关知识。正真建库花的时间并不多。目前我们如何申报国家项目调动医生跟我们合作的积极性是一个大问题,因为我们的理论是原创的,评审专家不懂,很难得到认同(评审专家都是搞大数据的,要他花时间弄懂DUCG的理论很难)。但我们在努力争取,特别希望国家对原创理论和技术实行特殊的评审方法,至少多给答辩时间,因为我们需要回答评审专家对DUCG理论是什么的询问。否则,让我们跟大众化的理论竞争,我们始终处于弱势。这不公平,也不符合国家鼓励原创的政策。
这是这几年以我为第一作者发表的SCI论文。除第一篇外,都是Q1区的。我并不赞成按照SCI的影响因子评价论文质量。但现在讲究这个,让我花了很大精力来发表SCI论文,尤其是高影响因子的论文。但我最好的几篇论文都不在高影响因子期刊上,因为越原创,越难发表。这是我国科技体制改革需要解决的问题。还有几十篇我不是第一作者的,就不列出来了。
演讲就到这儿,谢谢大家!
CAAI原创 丨 作者张勤
未经授权严禁转载及翻译
如需转载合作请向学会或本人申请
转发请注明转自中国人工智能学会
更多学会活动演讲实录陆续更新,欢迎关注中国人工智学会微信公众号CAAI-1981。
来源:CAAI-1981 中国人工智能学会
原文链接:http://mp.weixin.qq.com/s?__biz=MjM5ODIwNjEzNQ==&mid=2649790088&idx=1&sn=bd330f7aa4a82a92992d4d894f61efdc&scene=0#wechat_redirect
版权声明:除非特别注明,本站所载内容来源于互联网、微信公众号等公开渠道,不代表本站观点,仅供参考、交流、公益传播之目的。转载的稿件版权归原作者或机构所有,如有侵权,请联系删除。
电话:(010)86409582
邮箱:kejie@scimall.org.cn