关于ZAKER 融媒体解决方案 合作 加入

这个医疗 AI 准确率突破天际,招来了铺天盖地的质疑

量子位 10-19

这个医疗 AI 准确率突破天际,招来了铺天盖地的质疑

只要输入一次心跳的波谱。

就能判断一个人有没有发生心力衰竭 ( CHF ) ,准确率100%

这是英国华威大学领衔的团队,用机器学习方法做出的新成果。

还登上了影响因子 2.943 的 Biomedical Signal Processing and Control 期刊。

准确率眼看就要突破天际,高得反常识,招来了铺天盖地的质疑:

主要的疑点有两个:疑似过拟合 ( 没有规律硬拗出规律 ) ,疑似数据泄漏 ( 训练集和测试集有重叠 ) 。

一日之间,话题在 Reddit 论坛的热度已经超过了 400:

那么,来看看到底发生了什么。

怎样的研究

这项研究,是依靠心电图 ( ECG ) 来推测,人有没有出现充血性心力衰竭 ( CHF ) ,也就是人们常说的心力衰竭:

指的是心脏没能推送足够的血量,维持身体所需。

来自华威大学、佛罗伦萨大学以及萨里大学的科学家们,想让 AI 去看看心力衰竭的心电图波形有没有规律可寻。

于是,团队设计了一维的卷积神经网络 ( CNN ) ,用公开的心电图数据集,训练它给心电图做二分类:正常 vs 心衰。

训练完成后,团队用490,505 次心跳的数据集测试了模型,结果训练集上的分类准确率达到了 99.9%:

论文还写到,重要的是模型发现了心衰的心电图,有非常突出的形态特征可以用于诊断:

不过,研究用的数据集受到了质疑,准确率受到了质疑,连 AI 发现的重要特征也受到了质疑。

实验的漏洞

乍一看,论文的样本数量似乎很大,论文作者采集了 275,974 正常的 ECG 心跳样本和 214,531 个心脏衰竭患者的样本,总数量达到了 49 万个。

但仔细一看,其实样本的数量是非常少的,总共也只有 33 个人,一个人多个的心跳不是独立样本。

心衰患者的数据来自 BIDMC 数据集,每秒采样 250 个样本;正常人的数据来自 MIT-BIH,每秒采样 128 个样本。

当采用两个不同数据集时,需要对其中一组数据进行下采样,匹配另一组数据的频率。不过研究人员已经注意到这一点,在训练前做了预处理,大漏洞不在这里。

但之后的训练过程,就令人产生了数据泄漏 ( Data Leakage ) 的质疑。

首先,数据集被随机分成三个较小的子集,分别进行训练、验证和测试(相当于总数据的 50%、25%和 25%)。

每个人的心跳数据只包含在了一个数据集中,没有在多个数据集里重复出现。因为作者知道,如果一个人的心跳数据,在训练集和测试集都出现,存在交叉验证的可能性。

但是这又带来一个问题,测试集中只有少数几个人的数据,这就相当于拿训练后的模型在个别样本上进行验证,结果的可靠性也大打折扣。

为了保证结果在更多的数据上进行测试,作者又想到了另一种方法,将样本做 10 次随机分割,分别进行 10 次训练和评估,以减少分类结果带来的差异性。

虽然一开始的方法避免了单次实验的交叉验证,但是多次实验取平均,等于又把交叉验证的问题带了回来,造成了数据泄露(Data Leakage)。

然后,作者一个只有 33 个样本的数据上,用了三个 1D 卷积神经网络层进行拟合,准确率近乎 100%,难免不让人觉得是过拟合。

在训练集上避免过拟合,本来是 " 炼丹 " 过程的常识,却被作者作为一项优点来宣传。难怪有网友在吐槽:这是一篇门外汉写的机器学习论文。

100% 对于非机器学习领域的人来说是一件令人惊叹的事情,而专业人士看到只会说 " 什么鬼 "。

这篇论文还被发表在正式期刊上,有网友感叹:审稿人的水平哪去了,这个问题看不出来?

另外,Hacker News 上还有人 ( @Cass ) 说,AI 总结出的两类心电图 ( 正常 vs 心衰 ) ,根本就有问题:

看图 4 ( 下图 ) ,正常心电图的 " 平均 " 波形,压根不是这样。P 太平了,Q 太大了,R 太钝了,S 和 T 之间也不应该有那个额外的波。

如果,提取的正常人平均值都能这么混乱,得出怎样的结果都不奇怪了。

一直被滥用

这篇论文在 Reddit 上引起了激烈讨论。

随着机器学习大热,很多其他领域的研究者,也开始用机器学习模型,来执行自己领域的任务。而跨学科的研究人员,如果对机器学习的理解不足,很容易出现大问题。

比如,数据泄漏的问题,让人想起了去年 8 月在 Nature 发表的一篇预测余震的论文,来自谷歌和哈佛。今年,一位名叫 Rajiv Shah 的数据科学家用自己的实验证明,这篇文章是 " 深度学习的错误用法 "。

他一共提出了三个致命缺陷:

最大的缺陷就是数据泄漏。算法在测试集上的表现,远远超过训练集。查看数据集发现,测试集和训练集,包含许多相同的地震。把重叠部分去掉之后,模型的表现下降到了传统方法的水平。

第二个缺陷是,用随机森林这样的简单方法,也得出了相似的表现和结论。能用简单的方法,却用了复杂的方法,这就是消融实验 ( Ablation Studies ) 没做好。

第三个缺陷是,论文中训练用了 470 万行数据,而 Shah 用 1500 行数据,就得到了几乎一样的表现。Shah 认为,能用少量的数据解决问题,就不该用成千上万倍的数据量。

这次重大的质疑,引起了业内的巨大关注,甚至有许多同行都来一起找 Bug:

10 月 2 日,Nature 又刊登了一篇质疑这项余震预测的论文,证明一个神经元的预测效果比一个六层的网络还要好,相当于否定了一年前的研究成果。

这篇后发的论文指出,仅使用两个参数的逻辑回归模型,可以达到与深度学习方法相同的预测能力。

机器学习是个好工具,但在使用它们的时候,需要充分了解它的特性、使用方法和局限性,而不是一味地套用,简单粗暴地进行数据拟合。

目前机器学习还处在技术曲线的顶峰,等到热潮褪去,才能知道谁是真正的干货。

新闻报道:

https://www.surrey.ac.uk/news/new-ai-neural-network-approach-detects-heart-failure-single-heartbeat-100-accuracy

https://www.forbes.com/sites/nicholasfearn/2019/09/12/artificial-intelligence-detects-heart-failure-from-one-heartbeat-with-100-accuracy/#228e5a067ac9

论文地址:

https://www.sciencedirect.com/science/article/pii/S1746809419301776

活动推荐 | 品玩 2019 科技创新者大会

2019 年 10 月 25 日,PingWest 品玩 2019 科技创新者大会 - 杭州站。阿里钉钉、阿里平头哥、蘑菇街、云浪生、驭势科技、VIPKID 等都技术大咖都将来到现场,分享产业实战案例。免费票限时预订中,点击小程序即可报名。

量子位 QbitAI · 头条号签约作者

' ' 追踪 AI 技术和产品新动态

喜欢就点「好看」吧 !

以上内容由"量子位"上传发布 查看原文

觉得文章不错,微信扫描分享好友

扫码分享