人工智能 (AI) 和机器学习 (ML) 正深刻改变着人们的工作、社交和生活方式。随着 AI/ML 技术的普及,保护用户及其数据免受侵害,同时防止 AI 和算法被滥用、攻击和提取,成为亟待解决的问题。本文档汇集了 Microsoft 在设计并运行基于 AI 的在线服务过程中积累的安全经验。尽管未来发展方向难以预测,但当前已有一系列亟待解决的安全挑战。此外,为了确保用户数据的长期安全,整个技术行业必须应对一系列战略性问题。
本文档并非聚焦于基于 AI 的攻击,也未探讨 AI 如何被人类攻击者利用。相反,我们着重于 Microsoft 及行业合作伙伴需应对的挑战,以保护 AI 产品和服务免受高度复杂、创意及恶意的攻击,无论这些攻击来自单个挑衅者还是整个黑客群体。
本文档聚焦于 AI/ML 独有的安全工程问题,但由于信息安全领域的广泛特性,讨论的问题和发现在一定程度上会与隐私和道德领域重叠。鉴于本文档重点介绍技术行业面临的战略挑战,目标受众为安全工程领域的领导者。
我们的初步调查建议包括:
- 需要针对现有安全实践进行 AI/ML 特定透视,以减少本文档所述的安全问题类型。
- 机器学习模型难以区分恶意输入和良性异常数据。训练数据的一个重要来源是未经策划、未经调节且允许第三方参与的公共数据集。攻击者在参与编写数据集时无需破坏数据集。随着时间推移,如果数据结构/格式保持正确,低置信度的恶意数据可能变成高置信度的受信任数据。
- 由于深度学习模型可能使用大量隐藏分类器/神经元层,对 AI/ML 决策过程和算法输出的信任度过高,而对其决策过程的理解不足。这种混淆导致难以“展示工作”,当 AI/ML 受到质疑时,也难以为其辩护。
- AI/ML 越来越多地用于支持医学和其他行业的高价值决策过程,错误的决策可能导致严重伤害或死亡。AI/ML 中缺乏取证报告能力,使得这些高价值结论在法庭和公众舆论中难以立足。
本文档的目标是 (1) 突出 AI/ML 独有的安全工程问题,(2) 对新出现的威胁提出初步想法和观察,(3) 分享关于潜在修正的早期想法。文档中的难题包括需要在接下来两年内解决的技术问题,以及当前必须应对的挑战。如果不深入研究本文档涵盖的领域,AI 未来可能成为“黑箱”,因为无法信任或理解(并在必要时修改)其数学层面的决策过程。从安全角度看,这实际上意味着失去控制,背离 Microsoft 的人工智能指导原则。
传统的软件攻击途径仍是关键问题,但在 AI/ML 威胁环境中无法提供充分覆盖。技术行业必须建立新框架并采用新方法,以弥补基于 AI/ML 的服务在设计及操作方面的不足,避免用上一代的解决方案应对下一代的问题。
在保护 AI 及其控制的数据时,安全开发和运营基础必须包含复原能力和判断的概念。身份验证、责任分离、输入验证和拒绝服务缓解等领域都需要 AI 特定透视。没有这些领域的投资,AI/ML 服务将继续与所有技能水平的攻击者进行艰苦斗争。
AI 必须能够识别他人的偏见,避免在与用户的互动中产生偏见。要做到这一点,需要对偏见、刻板印象、方言及其他文化结构有全面、持续的理解。此类理解有助于保护 AI 免受社会工程和数据集篡改攻击。正确实现的系统在经历此类攻击后实际上会变得更强大,并能与其他 AI 共享其深入理解。
机器学习算法必须能够通过拒绝影响结果的训练数据,从良性“黑天鹅”事件中识别恶意引入的数据。否则,学习模型容易受到攻击者和挑衅者发起的博弈影响。
AI 必须具有内置的取证功能,使公司能够为客户提供 AI 的透明度和问责性,确保其操作具备可验证的正确性并合法合规。这些功能还可作为“AI 入侵检测”的早期形式,使工程师能够确定分类器决策的确切时间点、影响数据及其可信度。数据可视化功能正在迅速发展,有望帮助工程师识别并解决这些复杂问题的根源。
AI 必须识别和保护敏感信息,即使用户无法识别这些信息。AI 中丰富的用户体验需要大量原始数据进行训练,因此必须妥善规划用户的“过度共享”。
AI 设计人员需确保敏感数据的保密性、完整性和可用性,确保 AI 系统无已知漏洞,并为系统或用户数据提供针对恶意行为的防护、检测和响应控制。
防御恶意攻击的传统方法在这种新模式中无法提供相同覆盖。基于语音/视频/图像的攻击可绕过当前筛选器和防御系统。为防止新的滥用利用 AI,必须探讨新的威胁建模方面。这远超出通过模糊化或输入操作识别传统攻击面的范畴(这些攻击也具有 AI 特定透视)。它需要结合 AI/ML 独有的场景。关键在于 AI 用户体验,如语音、视频和手势。与这些体验相关的威胁未以传统方式建模。例如,现在可以定制视频内容以产生物理效果。此外,研究表明可以精心设计基于音频的攻击命令。
罪犯、已确定的攻击者和挑衅者的不可预测性、创意及恶意行为要求向 AI 灌输复原能力和判断价值:
- 弹性:系统应能识别异常行为并防止 AI 系统和特定任务中超出正常可接受行为边界的操纵或强迫行为。这些是 AI/ML 领域特有的新攻击类型。系统应旨在抵制与当地法律、道德及社区及其创建者所持价值观相冲突的输入。这意味着为 AI 提供一种功能以确定交互何时“脱离脚本”。可通过以下方法实现:确定不符合各种大型相似用户群体设定的标准的个别用户;识别已知的行为模式以指示恶意探测攻击和网络入侵终止链的开始;识别多个用户以协调方式执行操作的情况(例如多个用户发出相同的无法解释且精心设计的查询、用户数突然激增或在激活 AI 系统特定部分时激增)。此类攻击应与拒绝服务攻击同等对待因为 AI 可能需要修复漏洞并重新训练以避免再次落入同样陷阱至关重要的一点是当存在一些防范措施(如用于破坏情绪分析 API 的对策)时能识别恶意意图。
- 自定义:AI 应是任何信息的受信任担责管理员用户无疑会在与 AI 的关系中赋予一定程度信任在某些时候这些代理会代表我们与其他代理或其他用户交谈我们必须能够信任 AI 系统具有足够的判断力仅以有限形式分享它需要分享的关于我们的信息以便其他代理能代表其完成任务此外代表我们与个人数据交互的多个代理并非都需要对数据的全局访问权限任何涉及多个 AI 或机器人代理的数据访问场景都应将访问生命周期限制到所需最小范围用户还应能拒绝数据并拒绝来自特定公司或区域设置的代理身份验证就像 Web 浏览器现在允许站点阻止一样若解决此问题需要重新考虑代理间的身份验证和数据访问权限(例如云计算初期进行的基于云的用户身份验证投资)。
尽管 AI 应公平且包容不区别对待任何特定个人群体或有效结果但它需对偏见有固有理解才能实现这一目标如果 AI 未受过识别偏见挑衅行为或讽刺方面的训练它可能会被寻求低趣味的用户愚弄甚至对客户产生不利影响要达到这种程度的意识就需要“正常用户向 AI 演示一些不提倡的做法”因为这实际上是要求 AI 全面持续了解文化偏见 AI 应能识别出过去与其有过负面互动的用户并提供适当警示就像父母教导孩子提防陌生人一样解决此问题的最佳方法是小心地将 AI 以受控/节制/有限的方式向挑衅者公开通过这种方式 AI 可理解良性用户“试探行为”和实际恶意/挑衅行为间的区别挑衅者为 AI 提供了宝贵的训练数据流使其在未来的攻击中具备更出色的复原能力。
AI 还应能识别其训练数据集中的偏差这可以是文化偏差或地域性偏差包括特定群体使用的方言或感兴趣的话题/观点与恶意引入的训练数据一样 AI 必须灵活应对这些数据对其自身推理和推导的影响在 AI 核心这是一个复杂的输入验证问题类似于边界检查缓冲区和边界检查不是处理缓冲区长度和偏移量而是对来自广泛来源的警告词进行检查对话历史和使用词语的上下文也非常关键正如使用深入防御做法在传统 Web 服务 API 前端之上建立保护层一样在偏差识别和避免技术中也应利用多层保护关于理论上潜在的 ML 模型/分类器篡改和从服务中提取/盗窃已发表大量白皮书攻击者可访问训练数据集并了解使用中的模型首要问题是所有 ML 分类器都可能被控制训练集数据的攻击者欺骗攻击者甚至无需修改现有训练集数据只需能向其添加数据并利用 ML 分类器无法区分恶意数据和真正异常数据的缺陷使他们的输入随时间推移变得“可信”。此训练数据供应链问题向我们介绍“决策完整性”的概念即在恶意引入的训练数据或用户输入对分类器行为产生负面影响之前识别和拒绝它们的能力基本原理是可信的训练数据产生可信结果/决策的可能性更高尽管对不可信的数据进行训练和灵活应对仍至关重要但在这些数据成为高置信度的训练数据集一部分之前应对其恶意性质进行分析如果没有这些措施 AI 可能被迫对挑衅行为做出过度反应并拒绝向合法用户提供服务需要特别注意的是无人监督的学习算法训练是在未经策划或不受信任的数据集上进行这意味着攻击者可引入其所需任何数据只要格式有效并进行算法训练就能以与训练集其余部分相同的方式有效信任该数据点凭借来自攻击者精心设计的输入训练算法就失去从高置信度数据中辨别干扰和异常的能力作为此威胁的一个示例想象一个包含世界各地各种语言的停车标志数据库这对策划而言是极大挑战因为涉及大量图像和语言对数据集提供的恶意数据在很大程度上不会引起注意直到自动驾驶汽车不再识别停车标志数据恢复能力和决策完整性缓解措施在此必须携手合作以识别和消除恶意数据对训练的损害以防其成为学习模型的核心部分AI 最终将能以专业身份作为我们的代理协助我们做出重大决策例如帮助处理财务交易的 A I 如果被利用交易将在某种程度上被操纵后果可能涉及个人到系统在高价值场景中 A I 需要适当的取证和安全记录以提供完整性透明度问责性以及在某些情况下可能引起民事或刑事责任的证据基本的 A I 服务需要算法级别的审核/事件跟踪功能使开发人员能检查可能导致错误决策的特定分类器的记录状态为了在遭质疑时证明 A I 生成决策的正确性和透明度整个行业范围内都需要此功能事件跟踪功能可从基本决策信息的相关性开始例如上次训练事件发生的时间范围最新训练的数据集条目的时间戳用于做出重大决策的关键分类器的权重和置信度级别决策中涉及的分类器或组件算法最终做出的高价值决策对于大多数算法辅助的决策来说此类跟踪是多余的但是如能识别导致特定结果的数据点和算法元数据在做出高价值决策时非常有帮助此类功能不仅可通过算法“展示其工作”的能力证明其可信度和完整性而且这些数据还可用于微调AI/ML 中需要的另一个取证功能是篡改检测正如我们需要 A I 识别偏差而不受其影响我们也应具一些取证功能以帮助我们的工程师检测并应对此类攻击当与数据可视化技术结合使用时这种取证功能将具有巨大价值它允许对算法进行审核调试和优化以获得更有效结果丰富的经验需要丰富的数据用户已自愿提供大量数据供 M L 训练从常见的视频流队列内容到用于检测欺诈的信用卡购买/交易历史趋势在处理用户数据时 A I 应有一种根深蒂固的谨慎意识即使是由过度共享的公众自愿提供的数据也应始终采取行动保护这些数据为了完成复杂任务 A I 可与经过身份验证的“对等方”对话因此它也须认识到需限制与这些对等方共享的数据尽管项目还处于起步阶段我们相信且到目前为止收集的证据表明对以下领域进行更深入调查将是推动行业提供更可靠更安全 A I / M L 产品/服务的关键以下是我们对该领域的初步观察和想法可以建立以 A I / M L 为重点的渗透测试和安全审查机构以确保未来 A I 与我们的价值观相同并符合 Asilomar A I 原则此类小组还可开发行业范围内使用的工具和框架以支持保护基于 A I / M L 的服务随着时间的推移这种专业知识将在工程小组内部有机地积累起来就像过去十年传统的安全专业知识一样可组织培训使企业能实现诸如大众化 A I 等目标同时缓解本文档中讨论的挑战 A I 特定的安全培训确保工程师意识到对其 A I 和可支配资源带来的风险该材料需随当前有关保护客户数据的培训一起提供此目标实现不要求每个数据科学家成为安全专家而是要侧重于对开发人员进行关于适用于其 A I 用例的复原能力和判断的培训开发人员需理解在整个企业中重用的 A I 服务的安全“构建基块”需重点强调可轻松关闭的子系统的容错设计(例如图像处理器文本解析器)可对 M L 分类器及其基础算法进行强化使其能检测恶意训练的数据而不会干扰当前使用的有效训练数据或影响结果的准确性拒绝负面输入之类的技术需研究周期展开调查此项工作包括数学验证代码的概念验证以及针对恶意和良性异常数据的测试就此方面人为抽样检查/审核可能有所帮助特别是在存在统计异常的情况下可构建“监督者分类器”以更广泛地了解多个 A I 之间的威胁这极大地提高系统的安全性因为攻击者无法再盗取任何一个特定的模型 A I 可链接在一起以识别彼此系统中的威胁可建立一个集中的 M L 审核/取证库为 A I 的透明度和可信度建立标准还可生成查询功能以审核和重构 A I 的重大业务决策 A I 可不断地研究和分析不同文化群体和社交媒体中攻击者使用的方言以检测和回应挑衅讽刺等信息 A I 需灵活应对各种方言无论是技术方言区域方言还是特定于论坛的方言还可在内容筛选/标记/阻止自动化中使用这一知识体系以解决审查方可伸缩性问题这一全局术语数据库可托管在开发库中甚至可通过云服务 API 公开供不同的 A I 重用从而确保新 A I 从旧 A I 的综合知识库中获益可创建一个“机器学习模糊框架”让工程师能将各种类型的攻击注入测试训练集供 A I 评估这不仅可以重点关注文本方言还可关注图像语音和手势数据以及这些数据类型的排列方式 Asilomar A I 原则说明以一种始终有利于用户的方式实现 A I 的复杂性未来的 A I 需与其他 A I 进行交互以提供丰富且引人注目的用户体验这意味着从安全角度 Microsoft 正确实现 A I 还不够整个世界都必须这样做我们需要行业联合协作以类似于我们在全球推广数字日内瓦公约的方式更好地了解本文档中的问题通过解决此处提出的问题我们可以开始引导客户和行业合作伙伴走向 A I 真正大众化和增强全人类智慧的道路[1] Taleb, Nassim Nicholas (2007), The Black Swan: The Impact of the Highly Improbable, Random House, ISBN 978-1400063512[2] Florian Tramèr, Fan Zhang, Ari Juels, Michael K. Reiter, Thomas Ristenpart, Stealing Machine Learning Models via Prediction APIs[3] Satya Nadella:The Partnership of the Future[4] Claburn, Thomas:Google’s troll-destroying A I can’t cope with typos[5] Marco Barreno、Blaine Nelson、Anthony D. Joseph、J.D.Tygar:The security of machine learning[6] Wolchover, Natalie:This Artificial Intelligence Pioneer Has a Few Concerns[7] Conn, Ariel:How Do We Align Artificial Intelligence with Human Values?[8] Smith, Brad:The need for urgent collective action to keep people safe online: Lessons from last week’s cyberattack[9] Nicholas Carlini、Pratyush Mishra、Tavish Vaidya、Yuankai Zhang、Micah Sherr、Clay Shields、David Wagner、Wenchao Zhou:Hidden Voice Commands[10] Fernanda Viégas、Martin Wattenberg、Daniel Smilkov、James Wexler、Jimbo Wilson、Nikhil Thorat、Charles Nicholson, Google Research:Big Picture