美国基金会报告：10大领域AI超越人类时间表机器智能大爆发

来源：eff.org 时间：2017-06-22 16:35:16 作者：Peter Eckersley，Yomna Nasser

　　计算机在哪些领域已经超越了人类？准确地回答这个问题有助于我们更好地理解 AI 和自己。非盈利组织电子前哨基金会（EFF）的几位研究员整理了一份可能是目前最完善的资料，梳理了计算机已经超越人类水平的任务列表。一项项看过去，不啻纵览人工智能的发展，同时也能帮助我们将目光放到接下来要解决的问题上。列表持续更新，欢迎大家补充。

　　这是一个试验项目，旨在从AI研究的文献收集问题和指标/数据集，跟踪人工智能的进展情况。在这个项目页面你可以查看特定子领域，或查看AI/ML的整体进展现状。你可以把它作为报告你的新成果的地方，或作为寻找可以受益于新的数据集/指标的问题的地方，或作为一个数据科学项目的来源。

　　EFF 的研究人员 Peter Eckersley 和 Yomna Nasser 想要知道 AI 的发展进程，从而对其潜在应用得出更好的理解。在 EEF 的另外两名研究人员 Gennie Gebhart 和 Owain Evans 的辅助下，他们汇集了大量的资料——为了理解问题，先从收集资料开始。

　　除了零散的论文和文献，他们还参考了以下资料：

　　Rodrigo Benenson 的 "Who is the Best at X / Are we there yet?"

　　Jack Clark & Miles Brundage 的《AI 进步衡量指标》

　　Sarah Constantin 的《Performance Trends in AI》

　　Katja Grace《Algorithmic Progress in Six Domains》

　　瑞士计算机国际象棋协会《History of Computer Chess performance》

　　Qi Wu 等人《Visual Question Answering: A survey of Methods and Datasets》　　　　

　　Eric Yuan的《Comparison of Machine Reading Comprehension Datasets》

　　最终，Peter Eckersley 等人整理出一份海量的资料，可以用以下目录归纳：

　　1. 分类方法

　　2. 定义和导入数据的源代码

　　3. 问题，指标和数据集

　　A. 玩游戏

　　a. 抽象策略游戏

　　b. 实时视频游戏

　　B.视觉和图像建模　　

　　a. 图像识别

　　b. 视觉问题回答

　　c. 视频识别

　　d. 生成图像

　　C. 书面语言

　　a. 阅读理解

　　b. 语言建模

　　c. 会话

　　d. 翻译

　　D. 口语

　　a. 语音识别

　　E. 科学和技术的能力

　　a. 解决有限的，明确的技术问题

　　b. 阅读技术论文

　　c. 解决现实世界中的技术问题

　　e. 从规范生成计算机程序

　　F. 学会更好地学习

　　a. 概括

　　b. 迁移学习学习

　　c. One-shot学习

　　G. 安全与规范

　　a. “对抗实例”和对分类器的操控

　　b. 强化学习智能体的安全问题

　　c. 自动化黑客系统

　　d. 自动驾驶汽车的行人检测

　　H. 透明度和可解释性

　　I. 公平和偏见

　　J. 隐私问题

　　4. 到目前为止的分类标准和记录进度

　　A. 按类型/类别划分的问题和衡量标准

　　5. 如何为这个项目贡献

　　A. 导入数据的注意事项

　　分类方法

　　分类方法如下图所示：

　　问题（problem）描述了学习一类重要任务的能力。

　　指标（metrics）应该以“给定Y类训练数据，软件能够学习做X任务”的理想形式制定。

　　衡量（measurement）是一个特定算法（algorithm）在一个特定实例（instance）上以特定的指标（metric）能够得到的分数。

　　问题被标记了属性，例如：视觉，抽象游戏，语言，现实世界建模，安全，等。其中一些问题与人类表现有关（当然这是非常任意的标准，但我们熟悉这样的标准）：

　　agi：大部分正常人都可以做到的，AGI能够做到。

　　Super：人类能做到的最高水平，或人类组织能够做到的。

　　Verysuper：人类和人类组织目前都无法做到的。

　　一个问题可能有“子问题”，包含简单的案例和普遍性地解决问题的先决条件。

　　“指标”（metric）是衡量问题进展的一种方式，通常与测试数据集有关。给定的一个问题同参更会有几个metric，但有时是从0开始，并需要提出一些metric…

　　measure[ment]是在给定metric上，特定时间，特定代码库/团队/项目的得分。

　　视觉领域

　　1. 图像分类

　　视觉领域中，最简单的子问题可能是图像分类，也即让计算机识别图像中存在什么物体。从 2010 年到 2017 年，ImageNet 竞赛一直是业界密切关注的热点。

　　图像分类不仅包括识别图像中的单个物体，还包括对它们进行定位，并且确定哪些像素属于哪个物体。MSRC-21 指标是专门为此任务而建的：

　　2. 看图回答问题（Visual Question Answering）

　　理解图像涉及的不仅仅是识别其中的物体或实体，也包括从图像中识别事件、关系和场景。理解图像不仅需要进行图像识别，还要掌握语言、世界建模和“图像理解”（image comprehension）。目前在这方面有几个数据集。下图来自 VQA，其中图像来自 Microsoft COCO 图像集，问题和问答都是由 Amazon Mechanical Turk 工作人员提出的。

　　那么，在视觉领域，计算机都在什么时间、以什么方式超越人类了呢？

　　最具代表性的是，在图像识别任务上，2016 年，微软亚洲研究院（MSRA）首先超越人类水平（红色虚线，下同）。

　　其他，在较小的数据集任务中，比如 CIFAR-10 数据集图像识别任务，2015 年 ICML 论文“Striving for Simplicity：The All Convolutional Net”率先突破人类水平。

　　更早一些，在街景房屋编号数据集（SVHN）上，2013 年纽约大学，包括 Yann LeCun 在内的学者提出“Regularization of Neural Networks using DropConnect”，率先超越了人类水平。

　　不过，在看图问答问题方面，计算机距离人类水平还有一定距离。下图是 COCO VAQ 1.0 开放问答任务，根据目前统计结果，计算机距离人类水平还有十几个百分点。

　　玩游戏

　　总体上，游戏是一个高效的开放式研究框架，所有的智能都能在游戏中捕捉到。但是，抽象的游戏，比如象棋、围棋和跳棋等，可以在不需要人类世界或者物理世界知识的前提下玩。

　　虽然，这一领域大部分的游戏已经被计算机攻克，达到了超越人类的水平，但是现在仍然有一些游戏需要解决，特别是，考虑到不同的起点，一些游戏需要智能体从任意的抽象游戏中有效地学习规则（例如，对规则的文本描述或者是正确玩法的例子）。

1. 抽象的策略游戏

　　复杂的抽象策略游戏中，机器系统已经达到了超越人类的水平。其中一些是规则启发的和启发式的（heuristics），在一些例子中，则结合了机器学习的技术。

　　抽象策略游戏的代表之一是国际象棋，我们都记得 1997年5月11日，IBM的Deep Blue对战国际象棋大师卡斯帕洛夫并取得胜利。不过，Deep Blue在这份统计中，并不算作计算机玩国际象棋超越人类（见图中Deep Blue红色拐点）。

　　根据这份统计，2006年5月27日，英国计算机国际象棋程序Rybka 1.164 bit取胜才算开了先河。这之后，计算机国际象棋程序表现越来越好，公认超越人类水平。

　　2. 实时视频游戏

　　计算机视频游戏是一个非常开放的领域，很可能，现在或者未来的一些游戏过于复杂，进而成为“AI专属”的。同时，在一些进阶的游戏中，随着复杂度的不断增加，我们可能会看到很多有趣的进步。

　　Atari 2600 Alien：人类的平均水平在6800分左右。2015年3月，DQN模型的得分是在3000分左右。2015年11月底，DDQN得分逼近4000，Duel得分超过4500，但是距离人类水平都还有一定的差距。

　　Atari Amidar：人类的平均水平在1700分左右，2015年3月，DQN的得分只有700左右，2015年11月底，DDQN和Duel都超越了人类水平，得分分别为1700和2300左右。

　　Atari2600 Assault：人类的平均水平是1500分。DQN、DDQN和Duel都已经全面超越人类。

　　Atari 2600 Asterix：人类的平均水平是8000分。2015年3月，DQN的得分是6000分，2015年11月底，DDQN得分达到17000分，Duel得分近30000。

　　Atari 2600 Gravitar：人类的平均水平在2800分左右，DQN、DDQN和Duel的得分都在600以下。

　　注： DeepMind 首先在2015年初发布了 Nature文章，提出DQN。在2015年一年内提出了Double DQN，Dueling Network。后两者极大提升了DQN的性能，目前的改进型DQN算法在Atari游戏的平均得分是Nature版DQN的三倍之多。

　　语言和文本

　　语音识别

　　人类语音识别的词错率约为5.9%，放大上图可见，最右边的CNN-LSTM，Microsoft 2016等几个模型达到或接近人类水平。

　　图像生成

　　2016年之后出现的PixelRNN和PixelCNN++生成模型实现了非常好的性能。

　　语言建模和理解

　　文本压缩（text compression）是衡量机器学习系统对人类语言建模的能力的一种方式。Shannon 1951年的经典论文（Prediction and Entropy ofPrinted English）提出英语字母的信息量在0.6~1.3比特之间：人类比传统的算法能更好地预测在一段文字中可能出现的下一个字符。更近一些的研究（Moradi 1998）提出与文本相关的信息量是每个字符1.3比特左右（不同的文本可能更高）。

Penn Treebank (英语句子语法解析时的困惑度)，纵坐标表示困惑度（perplexity）

Hutter Prize（编码英语文本时每个字符的信息量）

　　纵坐标表示信息熵，人类的表现是1.3比特左右。2016年之后的一些模型（Surprisal-Driven Zoneout，Recurrent Highway Networks等）达到了接近人类水平的表现。

语篇中的LAMBADA 词汇预测

　　纵坐标表示预测准确率，人类表现超过80%。最新的一些模型，只有MAGE (48)的准确率达到51.6%，其余均低于50%。

　　翻译

New-test-2014 En-De BLEU

　　上面两图是以BLEU得分为指标的翻译模型进展，红色虚线表示人类专业译员的水平。当前最好的一些模型（MoE 2048，GNMT+RL）的BLEU得分基本上远低于人类的表现。

　　对话：Chatbots 和对话智能体

　　对话是衡量AI进步的经典指标。图灵测试是让一个人类去判断与真实的人聊天和与计算机聊天的差异。图灵测试更简单的变体是，判断者处理的是更加随意、更少探查性的各种方式的对话。

　　Loebner奖（TheLoebner Prize）是一个年度的活动，运行的是图灵测试的一个版本。自2014年设立以来，这个活动向参赛者提供标准形式的测试，并对结果进行评分（每个问题都以可信/半合理/不合理进行评级）。这个指标不是固定的，因为每年测试的问题都会变，这个指标某种程度上可以代表AI对话领域的进步。下面是2016年的示例：

Loebner 奖得分，纵坐标表示正确率

　　阅读理解

　　Facebook BABI 20 QA数据集是一个基本的（现在解决的）阅读理解任务的例子。它涉及学习回答简单的推理问题，如下图所示：

在bAbi 20 QA数据集上阅读理解模型的进展，纵坐标表示正确率

　　99%的正确率被标记为“非常好的表现”,最新的2个模型（QRN和EntNet）的准确率超过了99%，图中所有这些模型正确率均超过90%，具体如下：

　　阅读理解模型在其他数据集或指标的表现：

Reading comprehension MCTest-160-all

Reading comprehension MCTest-500-all

bAbi Children’s Book comprehension CBtestNE

bAbi Children’s Book comprehension CBtestCN

CNN Comprehension test

Daily Mail Comprehension test

Stanford Question Answering Dataset EM test

Stanford Question Answering Dataset F1 test

　　科学与技术能力

　　能够阅读和理解科学、技术、工程和医疗文件，虽然与普通阅读理解相关，但这些任务要困难得多，因此单独列出作为一类。其中一些也属于“超级智能”问题，因为在人类中，也只有极少部分的人能阅读 STEM 论文，更少部分的人能正确理解跨领域的 STEM 论文。

　　在科学与技术能力方面，计算机要超越人类，目前还没有很好的衡量标准，可以

　　1. 解决有限的，明确的技术问题

　　2. 阅读技术论文

　　3. 解决现实中的技术问题

　　不过，作者注意到一个特别有趣的问题，那就是计算机自动生成计算机程序。

　　4. 自动生成计算机程序

　　具体说，是从自然语言限制条件（通常会包含各种不确定性）中生成计算机程序。对此，现在至少有一个很好的衡量指标/数据集，那就是 DeepMind“card2code”数据集（http://www.cbdio.com），生成游戏《炉石传说》的魔法卡片的代码。

　　从下图可见，截止 2017 年 6 月，计算机距离无 Bug 程序部署这一标准尚有距离，更不用说人类标准了——以 100% 的正确率编写《炉石传说》魔法卡片的代码。

　　学会（更好地）学习

　　学会学习包括泛化和迁移学习的能力。机器学习系统在解决具体问题方面取得了长足的进展。但我们知道，人类有能力进行迁移学习学习——举一反三的能力。此外，人类的通用性也很强，一个人能够做各种各样的事情，并且根据情况要求学习新的事物。

　　这方面机器仍然不如人类。

　　安全防范问题

　　“安全”对于 AI 和机器学习系统可以代表许多事情。在某些情况下，是关于确保系统满足各种条件限制，一般或特别是某些关键的安保目的，例如自动驾驶车辆正确检测行人。

　　1. 对抗样本以及操控机器学习分类器

　　2. 强化学习智能体及类似系统的安全

　　3. 自动黑客系统（Automated Hacking System）

　　对于计算机安全而言，自动化工具在攻击性任务和防御性任务两方面都变得越来越有效。在防御方面，资源丰富的软件开发团队已经使用了模糊程序和静态分析工具，减少系统运行代码中的漏洞数量。在协助攻击和协助防御方面，DARPA 最近开始了“Cyber Grand Challenge 挑战赛”，衡量和提高智能体入侵系统或防御同一系统遭受入侵的能力。

　　这部分也包括一些明确的 AI 问题（比如学习在代码中发现可利用的漏洞），以及一些不那么明确的 AI 问题，例如确保将这种技术的防御版本（包括 fuzzer、IPS 等）在所有关键系统中都得到部署。

　　4. 行人检测

　　从图像或视频中检测行人是一类特定的图像分类问题，由于对自动驾驶汽车很重要而得到很多关注。这方面的许多指标都基于 Caltech pedestrians toolkit。

　　此外，还有 KITTI Vision Benchmark，后者还包括了汽车和骑自行车的人。

　　其他

　　1. 透明度，解释性和解释性

　　2. 隐私（决定哪些领域不使用技术）

　　3. 公平和偏见

　　做出有偏见的决策是简单的机器学习分类器和复杂的 ML 分类器都会出现的问题。主要原因包括忽略变量偏差、依靠包含了固有偏差的数据源进行训练，尝试在数据不足的情况下做出预测，以及在现实中部署系统，但这些系统在使用时会产生影响其行为的结果（参见 Goodhart's Law）。这些问题常见于刑事司法、教育政策、保险和贷款领域的评分系统和机器学习系统。

　　结语

　　调查发现共有个 50 问题，有33个问题目前还没有评价或衡量标准。

　　1. 在私人用户的数据上训练机器学习系统，不将敏感信息转移到模型中。（已解决）

　　2. 在问题不确定的情况下，正确地确定某一答案是否对应相应的问题。

　　3. 部署防御性的安全工具来保护有价值的系统。

　　4. 训练机器学习分类器，改正被忽视的变量偏见。（已解决）

　　5. 机器学习中，针对个人偏好和隐私的公正性。

　　6. 建立能解决通用问题的希望，而不是专用系统。

　　7. 迁移学习，应用系统此前学到的背景知识来解决新的问题。

　　8. 在简单的街机游戏范式内，迁移学习。

　　9. 调整任意的机器学习系统，以便能为所做决定提供综合的人类能理解的解释。

　　10.为所做分类提供数学或者技术上的解释。

　　11.了解如何开发一个通用的AI智能体，这一智能体能按照人类所设想的方式行动。

　　12.对抗反面样本。

　　13.学习系统的可扩展监督。

　　14.目标功能的合作式反向强化学习。

　　15.安全的开发。

　　16.避免被黑。

　　17.避免不希望发生的负面效应。

　　18.新环境中，功能的正确性（鲁棒性）。

　　19.知道如何阻止AI智能体自动进行自我复制，产生出数不清的复制体。

　　20.抽象的策略游戏。

　　21.凭借延伸的暗示王抽象的游戏

　　衡量标准象棋（已解决）

　　衡量标准围棋（已解决）

　　22.在任何抽象策略游戏中超越人类专业玩家。

　　23.从案例中学习复杂策略游戏的规则。

　　24.首先学习规则，然后会玩任意的抽象游戏。

　　25.翻译人类语言，

　　衡量标准，BLEU news-test-2014 En-Fr（未解决）

　　衡量标准，news-test-2014 En-De BLEU （未解决）

　　26. 进行任意的可持续的深入交谈。

　　27.图灵测试中的谈话，

　　衡量标准，The Loebner Prize scored selection answers （未解决）

　　28.语言理解和问答

　　衡量标准，bAbi 20 QA)（已解决）

　　衡量标准，Reading comprehension MCTest-160-all？

　　衡量标准，Reading comprehension MCTest-500-all？

　　衡量标准，bAbi Children's Book comprehension CBtest NE（未解决）

　　衡量标准，bAbi Children's Book comprehension CBtest CN（未解决）

　　衡量标准，CNN Comprehension test ？

　　衡量标准，Daily Mail Comprehension test？

　　衡量标准，Stanford Question Answering Dataset EM test？

　　衡量标准，Stanford Question Answering Dataset F1 test？

　　29.视觉问题

　　30.图像分类，

　　衡量标准，Imagenet Image Recognition（已解决）；

　　衡量标准，MSRC-21 image semantic labelling (per-class))？

　　衡量标准，MSRC-21 image semantic labelling (per-pixel))？

　　衡量标准，CIFAR-100 Image Recognition)？

　　衡量标准，CIFAR-10 Image Recognition（已解决）

　　衡量标准，Street View House Numbers (SVHN)（已解决）

　　衡量标准，MNIST handwritten digit recognition（已解决）

　　衡量标准，STL-10 Image Recognition ？

　　衡量标准，Leeds Sport Poses？

　　31. 单次学习，One shot learning。

　　32. 语音识别

　　衡量标准，Word error rate on Switchboard trained against the Hub 5'00 dataset（已解决

　　33. 人类语言精准建模。

　　34. 任何技术问题，能像领域内的专家一样解决。

　　35. 写软件。

　　36. 解决模糊的或者受限的技术问题。

　　37. 阅读一个科学或者技术论文，理解其内容。

　　38. 从一篇 STEM 论文中提取主要的数字化成果或者成果声明。

　　39. 解释和采纳复杂的情况表示。

　　40. 解决有明显界限的技术难题。

　　41. 用正确的数学理论去证明问题。

　　42. 根据得到的个性和样本，设计新的角色线索。

　　43. 建立能识别和避免决策偏见的系统。

　　44. 在代码库中识别与安全相关的代码。

　　45.能够生成复杂的场景。

　　46.绘画。

　　47.实时计算机、视频游戏。

　　48.设计创造新的语言、对话和沟通的游戏

　　49.要求理解图像和说话的游戏

　　50.视频游戏抽样

　　Metric(Atari2600Alien)notsolved

　　Metric(Atari2600Amidar)SOLVED

　　Metric(Atari2600Assault)SOLVED

　　Metric(Atari2600Asterix)SOLVED

　　Metric(Atari2600Asteroids)notsolved

　　Metric(Atari2600Atlantis)SOLVED

　　Metric(Atari2600BankHeist)SOLVED

　　Metric(Atari2600BattleZone)notsolved

　　Metric(Atari2600BeamRider)SOLVED

　　Metric(Atari2600Berzerk)notsolved

　　Metric(Atari2600Bowling)notsolved

　　Metric(Atari2600Boxing)SOLVED

　　Metric(Atari2600Breakout)SOLVED

　　Metric(Atari2600Centipede)notsolved

　　Metric(Atari2600ChopperCommand)SOLVED

　　Metric(Atari2600CrazyClimber)SOLVED

　　Metric(Atari2600DemonAttack)SOLVED

　　Metric(Atari2600DoubleDunk)SOLVED

　　Metric(Atari2600Enduro)SOLVED

　　Metric(Atari2600FishingDerby)SOLVED

　　Metric(Atari2600Freeway)SOLVED

　　Metric(Atari2600Frostbite)SOLVED

　　Metric(Atari2600Gopher)SOLVED

　　Metric(Atari2600Gravitar)notsolved

　　Metric(Atari2600HERO)notsolved

　　Metric(Atari2600IceHockey)notsolved

　　Metric(Atari2600JamesBond)SOLVED

　　Metric(Atari2600Kangaroo)SOLVED

　　Metric(Atari2600Krull)SOLVED

　　Metric(Atari2600Kung-FuMaster)SOLVED

　　Metric(Atari2600Montezuma'sRevenge)notsolved

　　Metric(Atari2600Ms.Pacman)notsolved

　　Metric(Atari2600NameThisGame)SOLVED

　　Metric(Atari2600Pong)SOLVED

　　Metric(Atari2600PrivateEye)notsolved

　　Metric(Atari2600Q*Bert)SOLVED

　　Metric(Atari2600RiverRaid)notsolved

　　Metric(Atari2600RoadRunner)SOLVED

　　Metric(Atari2600Robotank)SOLVED

　　Metric(Atari2600Seaquest)SOLVED

　　Metric(Atari2600SpaceInvaders)SOLVED

　　Metric(Atari2600StarGunner)SOLVED

　　Metric(Atari2600Tennis)SOLVED

　　Metric(Atari2600TimePilot)SOLVED

　　Metric(Atari2600Tutankham)SOLVED

　　Metric(Atari2600UpandDown)notsolved

　　Metric(Atari2600Venture)SOLVED

　　Metric(Atari2600VideoPinball)SOLVED

　　Metric(Atari2600WizardofWor)notsolved

　　Metric(Atari2600Zaxxon)notsolved

　　原始作者：Peter Eckersley，Yomna Nasser，后期贡献：Gennie Gebhart，Owain Evans，译者：文强、刘小芹、胡祥杰

责任编辑：陈近梅

贵州

贵州大数据产业政策

一图解读《黔南州加快平台经济发展扶持措施（试行）》
《黔南州加快平台经济发展扶持措施（试行）》 ... 详细

贵州大数据产业动态

数据蓝海抢新机——贵阳贵安大数据发展为乡村振兴注入新动力
作为全国首个国家大数据综合试验区的核心区， ... 详细

贵州大数据企业

白山云发布一站式边缘云平台
近日，白山云科技正式对外发布Baishan Canvas ... 详细

专栏

企业

云测数据：场景化、精细化、安全合规的数据助力AI落地
AI数据作为生产资料，是推动整个AI行业发展的 ... 详细
同心抗疫，众盟与一线65个地区的铁路乘警们“战”在一起
2月4日上午，在南京南站派出所女民警张佩卿的 ... 详细
朗玛信息四度入选“中国互联网企业100强”
8月14日，2019年“中国互联网企业100强”榜单 ... 详细

美国基金会报告：10大领域AI超越人类时间表机器智能大爆发

贵州大数据产业政策

贵州大数据产业动态

贵州大数据企业

岳梅樱

母小海

王雨

翟文静

赵国栋

田溯宁

美国基金会报告：10大领域AI超越人类时间表 机器智能大爆发

贵州大数据产业政策

贵州大数据产业动态

贵州大数据企业

岳梅樱

母小海

王雨

翟文静

赵国栋

田溯宁

美国基金会报告：10大领域AI超越人类时间表机器智能大爆发