怎样培养合格的人工智能“医生”？惩罚它！

对算法的假阴性结论进行惩罚，或许能提高其诊断准确率。

如今，用人工智能（AI）诊断疾病的场景越来越常见。但机器学习算法的精确度仍是个大问题，具体来说，科学家们还无法让算法正确判断诊断对象是否患病。

机器学习是人工智能的分支之一，算法从数据集中学习，并在学习过程中变得更加智能。南非约翰内斯堡大学博士后研究员Ibomoiye Domor Mienye博士说：“假设有一个关于某种严重疾病的数据集，数据集包含90个未患病者以及10个患病者。机器学习算法会告诉大家有90人没有患病，但它无法诊断出这10名患者。”

eurekalert.org网站当地时间11月1日报道，Mienye博士等在《医学信息解密》杂志中展示了针对医疗目的显著改进机器学习算法的方法。

研究涉及的算法包括逻辑回归、决策树、提升算法和调参实例（XGBoost）和随机森林算法，这些都是受监督的二进制分类算法，因此只能从“是/否”数据集学习。此外，研究人员还在每个算法中引入了代价敏感（cost sensitivity）——用医学术语解释是，给出假阴性结果会比假阳性结果受到更严厉的惩罚。

Mienye博士等使用糖尿病、乳腺癌、宫颈癌（858项记录）以及慢性肾脏疾病（400项记录）的公共学习数据集，分别测试了代价敏感/无代价敏感下的算法准确率和查全率。结果显示，在这些数据集中，惩罚的作用符合预期。例如，对于慢性肾病，随机森林算法的精度为0.972，查全率为0.946。在引入代价敏感后，算法精度提高至0.990，查全率达到1.000。此外，引入代价敏感后，其他三种算法针对慢性肾病的查全率也提高到了1.000。研究人员表示，精度为1.000意味着算法没有出现一个假阳性预测，而查全率为1.000则说明算法没有出现一个假阴性预测。对于其他疾病数据集，不同算法的结果是不同的。以宫颈癌为例，代价敏感的随机森林和XGBoost的精度和查全率都达到1.000，而逻辑回归和决策树算法则没有达到完美值。

总体而言，算法判断对象没有患病的准确率高于确诊准确率。这与算法的学习方式有关——算法从大型医院或州医疗保健项目的数据集中学习，但数据集中的大多数人其实并未患病。Mienye博士说：“比如说，某个人到医院做慢性肾病检测。因为症状符合慢性肾病的症状，于是医生将他送去做肾病检测，最终，事实证明这个人并没有慢性肾病。在数据集中，未患病的人比患者更多。我们称之为不平衡数据集。”

更重要的是，这些算法不仅学习速度快，并且只需要普通电脑就能运行。Mienye博士认为这在偏远的农村地区将大有可为。

科界原创

编译：德克斯特审稿：西莫责编：陈之涵

期刊来源：《医学信息学解密》

期刊编号：2352-9148

原文链接：https://www.eurekalert.org/news-releases/933199

谢明华

0

航天是一项高风险事业。精益求精、追求卓越是作为航天人一项基本的工作素养，一项工艺的参数大小、一个参数正负号的疏漏，都会造成无法弥补的后果。
袁勇

0

科界平台，信息全面，解读权威，值得关注！！！
阎红菊

0

脚踏实地，干一件事情，干好事，成就自己！
解福燕

0

怎样培养合格的人工智能“医生”？惩罚它！
田野

0

怎样培养合格的人工智能“医生”？惩罚它！
卞勤

0

科界这个平台，帮我学习，促我进步！/
田东斌

0

感谢科界平台，让我获取新知，开阔眼界，拓宽视野，获得真知灼见。
田东斌

0

感谢科界平台，让我获取新知，开阔眼界，拓宽视野，获得真知灼见。
廉保友

0

适应新发展阶段，贯彻新发展理念，构建新发展格局！
杨莉楠

0

科技越来越强大了，学习强国一代有我在