人工智能安全技术，人工智能安全性与稳定性

摘要:人工智能研究人员很容易欺骗一个图像识别系统，使香蕉被错误地识别为烤面包机。这引起了一系列安全问题。如何保证人工智能系统的安全性？

本周，微软和阿里巴巴提出了新的担忧，即机器人将很快夺走大多数人的工作。两家公司分别透露，他们的人工智能系统在阅读理解测试中击败了人类。这项测试的目的是训练人工智能回答维基百科文章的问题。

就像已经部署在商业图片应用中的图像识别软件一样，这些系统给人的感觉是，机器已经越来越有能力复制人类的认知能力:识别图像或声音，现在加快阅读文本段落，并以人类级别的准确度反馈答案。

然而，机器的智能并不总是那么准确。麻省理工学院的研究生Anish Athalye说:“在某些领域，神经网络实际上是超人，人类远远落后于它们。但是它们有一个奇怪的特征。看来我们很容易骗过他们。”

香蕉图片附近放置了类似“迷幻烤面包机”的对抗贴纸，使得谷歌图像识别系统将图片内容识别为烤面包机，而非相关水果。

在LabSix的方法中，一种算法会稍微修改图像中每个像素的颜色或亮度。虽然你的照片或我的照片看起来一样，但这些细微的变化使系统将其解释为完全不同的东西。阿萨里(Athalye)说，“如果你在现实世界中看到有人竖起路标，它看起来还不清楚，那么你可能会认为它看起来像限速标志，但你的自动驾驶汽车认为它完全不同，这很可怕。”

对于烤面包机，谷歌大脑采取了不同的策略。他们不是想单独改变形象，而是想开发一种可以放在任何场景下适应的技术方案。这意味着创造一个全新的独特形象——首先，它会混淆深度学习系统，使其无法专注于其他项目。烤面包机需要鹤立鸡群，不能混在人群里，不能被认出来。谷歌的汤姆·布朗(Tom Brown)在邮件中写道:“由于补丁只控制其范围内的像素，我们发现补丁的用途变得非常突出。传统的恶意攻击改变单个图像中的所有像素。所以对于这种对抗性的补丁，我们会用大量的像素来换一些像素。”

为了在实验室之外工作，贴片还必须对真实世界中的视觉噪声具有弹性。在以前的研究中，改变图像的方向或亮度可以欺骗系统。一张经过修改的猫的照片被归类为鳄梨色拉酱，但当猫被转到一边时，系统又知道它是一只猫。相比之下，烤面包机可以以任何亮度或方向呈现，但仍然会破坏系统。布朗写道，“这更难开发，因为这意味着在各种模拟场景中训练这个补丁，从而找到一个可以在所有这些场景中成功的补丁。”

虽然这些例子很蠢，但是潜伏在现实世界中是致命的。Athalye推测，恶意攻击可能会使自动驾驶汽车忽略停车标志。或者它可以在机场行李检查中伪装炸弹的x光图像。Athalye和Brown的研究目标是在部署之前帮助识别技术弱点。

纽约大学心理学教授加里·马库斯(Gary Marcus)认为，人工智能很容易被这种方式欺骗，因为机器不了解整个场景。马库斯说，人工智能可以识别物体，但它不能理解物体是什么，也不能理解它的用途。它无法真正理解事物之间的因果关系，也无法真正理解谁在为谁做什么，为什么做。

在关于AI系统的头条阅读理解测试后，马库斯贬低了这个结果，称机器做的事情与真正的理解无关。马库斯在推特上写道:“测试表明，机器可以突出文本中的相关段落，但不会让它们理解。”

马库斯认为，这个领域应该从认知心理学的角度开发更深层次的理解软件，而不是在成千上万个例子中训练人工智能系统。然而，深度学习可以识别一只狗，甚至可以从它从未见过的图像中对它的品种进行分类，但它不知道是人在遛狗还是狗在遛人。它不明白狗到底是什么，它是如何与世界互动的。马库斯说，“我们需要一种不同类型的AI架构，这是一种解释，而不仅仅是模式识别。”在这种情况下，我们的工作至少在一段时间内是安全的。

以上是翻译。

文章的原标题“如何黑掉一台智能机器”由黄翻译，袁虎修改。

人工智能安全技术，人工智能安全性与稳定性

建筑知识相关栏目本月热门文章