AI决策的可解释性

AI百科5个月前更新 快创云
51 0

  这是一篇探讨机器学习和AI中可解释性最新进展的研究,着重于建立简化模型以制定决策标准。这些模型不仅是教学工具,还用于教育专业人员如何预测复杂系统的决策,并理解系统如何可能失效。然而,应牢记Box的格言:“所有模型都是错误的,但有些模型是有用的。”本文聚焦于这些模型与哲学和社会学解释之间的区别。这些模型可以通过“自己动手做套”进行解释,使从业者能够直接回答“如果有疑问怎么办”,或生成无需外援的对比性说明。尽管这些模型功能强大,但用作解释时似乎面临必要的挑战,而其他形式的解释可能没有相同的权衡取舍。本文对比了不同流派的解释,并建议机器学习可以从更广泛的角度看问题。

  1. 引言

  在现实世界中部署自动化决策系统时,问责制问题变得越来越重要。系统构建者会思考诸如“系统是否按预期运行?”、“做出的决定是否明智?”或“我们是否遵守平等法规和立法?”等问题,而决策算法的用户可能更关注“我是否受到公平对待?”或“我下次可以做些什么以得到令人满意的结果?”

  这些问题并非计算机决策系统独有,但随着基于机器学习的系统的发展,它们变得更加重要。机器学习之所以与众不同,是因为它对任意黑匣子的使用做出决策的功能。这些黑匣子功能可能非常复杂,内部状态由数百万个相互依赖的值组成。因此,决策所用的功能可能难以理解,并且可能无法完全理解完整的决策标准或基本原理。

  在这些约束下,哪种解释形式可以回答早期问题成为一个悬而未决的问题。因此,可解释性AI研究中最引人注目的方面之一是有多少人,例如律师、监管者、机器学习专家、哲学家或真菌学家,准备就可解释的AI的重要性达成共识。但是,很少有人停下来检查他们的同意,并找出可解释的AI对参与讨论的其他人意味着什么。

  在机器学习之间,这种期望差距是最大的,实质上重新定义了“解释”一词。法律、认知科学、哲学和社会科学领域(在这里我们统称为“解释科学”)具有相对明确的技术意义和关于xAI的解释类型、目的及其社会和认知功能的大量研究。xAI的工作目前仅占这一多样化研究领域的一两个小分支。具体来说,xAI的绝大多数工作都产生了复杂决策功能的简化近似。我们认为,这些近似的作用更像是科学模型,而不是哲学、认知科学和心理学中所考虑的科学和平日解释类型。

  在本文中,我们研究了xAI与解释科学之间的关系。我们通过首先审查在xAI中产生解释的方法做到这一点,并解释它们通常更类似于科学建模而非解释性。如果此比较成立,则可以得出以下结论:现有的方法充其量只能对模型功能产生局部可靠但在全球范围内具有误导性的解释。然后,我们研究了关于哲学、认知科学和暗示“为什么要问”(例如“为什么该模型表现出这种行为?”)需要说明这是具有对比性、选择性和社交互动性。在这个基础上,我们认为,如果xAI提出使算法决策系统更值得信赖和负责任的方法,则该领域的注意力必须转移到事后解释性交互式方法的开发上,从而使算法决策的争辩更加容易,并促进用户、开发人员、算法系统和其他利益相关者之间的知情对话。

  1. 哲学解释性入门

  我们对解释的哲学处理的兴趣是基于观察xAI领域的发展或研究,解决机器学习中的可解释性。我们的目标是确定xAI是否正在朝着这个方向努力——可以产生哪些解释来使受影响的各方、监管机构和其他非内部人员了解、讨论和潜在地质疑黑盒算法模型做出的决策。

  因此,我们的主要问题是:xAI当前正在生成哪种类型的解释?并且,这些解释实际上是否对受黑匣子影响的个人(或其代理)有用?解释性,以及更广泛的认识论、因果关系和辩护一直是几千年来哲学的焦点,提供黑盒算法解释的方法、模型和决策。“可解释性”是指给定的“黑匣子”模型或决策对人类的理解程度。可解释性差的模型是“不透明的”。机器说明学习模型和预测可以起到许多作用,可能需要做出解释才能遵守相关规定立法、验证并改善系统的功能(即作为一种“调试”类型),并帮助开发人员和使用系统的人员学习,并增强受决策者与系统本身之间的信任。正如这些目的所暗示的,可以向专业开发人员与系统协同工作的专业人士提供解释。我们在这里的兴趣仅在于提供解释的方式。回到哲学,可以区分各种解释,根据其完整性或整体程度可以解释事件的因果链和必要性。通常这表示为“科学”和“每天”的解释。Miller认为每天的解释地址是“为什么发生特定事实(事件、属性、决定等)”,而不是一般的科学关系。尽管这些区别隐藏了细微差别但它们很重要因为在一定程度上限制了我们讨论AI解释的重点。在最近的呼吁中有关AI和工作的解释关于机器学习中可解释性的更广泛的解释与特定实体有关的请求无论是特定实体决策、事件、训练有素的模型或应用程序。因此所要求的不是完整的科学解释因为它们不需要诉诸一般关系或科学法则但最多给定模型中变量集之间的因果关系。因此xAI有效地呼吁每天解释受训模型的总体功能或者在特定情况下的表现如何。

  1. 可解释的AI

  最近的许多工作致力于使机器学习模型可解释。工作的两个主要目标文献已经认识到可解释性:透明度和事后解释。透明度解决了模型在内部起作用的问题,而事后解释则关注模型的行为方式及其原因。可以根据其目标进一步指定透明度:分别对机器人功能的机械理解模型(可模拟性)、单个组件(可分解性)和训练算法(算法透明性)。可以通过以下方式使模型透明化:至少三个级别:“整个模型级别、各个组件的级别(例如参数)、以及特定的训练算法”。一个模型其组成部分或其训练/学习算法因此可以是如果可以理解其功能则表示透明全部由一个人完成。关于模型和特定决策的事后人类可解释性解释并非试图揭示模型的功能而是它的行为方式以及原因。根据Lipton所说事后解释性的方法包括口头(自然语言)解释、可视化和交互界面本地说明或近似值。自然语言的解释可以包括“文字或视觉提供对关系的定性理解的人工制品”输入要素(例如文档中的单词)与模型的输出(例如分类或预测)。可视化技术可以在视觉上演示特征或特定像素的相对影响(例如图像分类器),或为用户提供浏览界面文字或视觉解释。本地解释试图解释固定模型如何通过拟合更简单的局部模型来满足特定的预测围绕一个特定的决定或通过扰动用来衡量预测变化的变量。

  机器学习涉及将训练后的模型用作距离确定培训数据集中哪些案例最多的指标与要解释的情况或决定类似。这些培训案例然后可以与受决策影响的各方共享。尽管采用了多种方法但xAI社区现在寻求在更复杂的算法上对局部或近似模型进行改造的方法。这些简化了模型会近似用于制定决策的真实标准广义上讲有两种模型类别(i)基于线性或梯度的近似值为每个功能分配一个重要性权重无论是某人的年龄或图片中的特定像素以及(ii)基于决策树使用是/否决定的嵌套集进行近似的方法分类器。这些方法都可以应用于创建近似值一个global3或local4水平历史上很多工作都集中在模型的全局近似包括方法基于聚类整数编程和规则列表。相反局部近似值仅是特定位置的精确表示模型的域或“切片”。两者之间必然会发生权衡:近似模型的洞察力、简单性呈现的功能以及适用的域的大小并保持有效。无论在xAI中采用哪种方法都需要反射性来确保社区切实朝着其规范和使模型整体透明或提供模型的实际目标对模型行为的高质量事后解释危急问题必须反复询问和回答例如开发的方法是否会使机器学习模型更易于解释?更值得用户信赖吗?更负责?谁可以得到解释理解和有用的解释?要回答此类问题需要在解决此类问题的先前工作中考虑xAI开发的方法规范性和社会性问题局部和近似模型实际上可能类似于“解释科学”中现有的众所周知的解释方法该方法将为用户开发人员和其他利益相关者提供其实用价值和局限性的见解。

  3.1 科学建模和可解释的AI

  我们认为目前xAI研究人员所使用的大多数方法中最接近的模拟方法是使用科学建模或建立近似模型这些模型并非旨在捕获物理系统的全部行为而是提供有关方法的粗略近似系统表现良好这些近似值对于教学目的和对系统在受限域中的行为进行可靠的预测方面的专家都是有用的但是在作为模型向外行用户的解释时可能会产生误导这个问题的一个著名例子是牛顿物理学它是首先向学童们讲授的并为许多日常工程提供了足够好的描述但是众所周知当需要非常大或更高的精度时它就会分解为近似值非常小规模需要广义相对论或量子物理学广义相对论和量子物理学都是此类模型的例子尽管在它们的领域内非常精确但在它们的范围之外它们会崩溃并且仍在寻求在所有尺度上都是精确的统一物理模型可以将许多科学理论理解为此类模型的使用和表征尽管任何物理系统都可以从亚原子粒子的新兴属性既不是人类可理解的也不是计算上可行的取而代之的是科学家处理的局部近似值可提供准确的他们感兴趣的现象的描述但是在更大的范围内可能会证明是不准确的在这种情况下Box的格言是“所有模型都是错误的但有些模型是有用的”(Box 1979年)可解释的AI生成近似的简单模型并将其称为“解释”提供有关复杂模型如何运行可靠知识在表征此类模型在科学中的使用时黑森(1965)将模型的属性分为正类比已知模型的属性与我们感兴趣的现象的属性相对应;负面类比模型的属性与我们感兴趣的现象不匹配的地方;和中立的类比如果模型的属性与现象相对应当提供模型的近似值作为解释时此特征捕获了许多挑战仅仅提供人类可解释的模型作为解释是不够的为了使个人能够信任这样的近似模型他们必须知道模型在哪个域上可靠且准确模型在哪里崩溃行为在哪里不确定如果局部逼近的接收者不了解其局限性那么充其量是无法理解的并且在最坏的情况下会产生误导这并不是说局部逼近是没有根据的但是如果局部逼近的接收者不了解其局限性那么充其量是无法理解的并且在最坏的情况下会产生误导但是只有在收件人明确记录和理解其局限性的情况下他们才能可靠地拥有解释权对于具有何时和何时的深入知识的领域专家近似值分解的地方或者对于具有明确定义和测试的汇款范围被使用时它们将非常有用但是目前xAI通常避免了测试和验证近似模型或完全表征其域的挑战如果这些元素被个人很好地理解模型可以提供信息多于对单个决策或事件的解释在模型可准确映射到的域上那些我们感兴趣的现象可以用来回答“问题”例如“数据看起来像这样吗?”并寻找对比性的解释例如“如何更改数据以获得结果X?”但是本地模型也可能提供错误的保证如上文建议本地近似值通常会在其域外产生误导或不准确并且对功能响应和结果随输入的变化而变化通过定义本地解释仅适用于特定决策;什么解释不是模型如何整体运作而是与手头预测有关的模型的一部分从而同时有助于解释两者之间的权重和关系一小部分模型中的变量(与特定案例或决定)则说明不提供以下证据:整体模型的可信度或可接受性

  3.2 线性近似

  为了进一步为xAI和科学建模之间的模拟提供支持我们现在转向线性近似的变体研究人员在设计过程中做出的许多问题和设计决策领域直接指向先前建模的问题特别是三者之间的权衡取舍近似模型它描述的域的大小以及本说明的准确性

  3.2.1 连续空间中的线性模型
线性模型旨在为每个变量对它们近似的分类器的重要性提供单一度量在某些情况下这些权重可以直接解释为敏感度或一个告诉您多少的数字分类器响应将随特定功能的变化而变化不管线性模型旨在作为分类器的局部近似值或简单的重要性衡量他们面临两个不同的问题首先是曲率问题即分类器的灵敏度特定变量的变化可能会随可变的变化第二个问题是变量以及如何捕获它们之间的关系这两个问题都可以通过以下示例来说明假设某个特定的生物是蜜蜂因为有人告诉我它有6条腿和4个翅膀我不太可能相信如果我被告知它实际上有三个翅膀就会改变主意对于三翅昆虫最合理的解释是最初是一只四翼昆虫失去了一只翅膀但是如果我被告知它有两个翅膀我完全可以相信这是一只苍蝇这是灵敏度随变化大小而变化的一个示例另一方面我只会感到很舒服如果蜘蛛既有八条腿又没有翅膀则为蜘蛛那我应该说我的信念完全取决于它拥有的支腿数量完全地在机翼数量上还是两者都弱就像线性模型一样无法捕捉变量之间的相互依赖关系它们无法准确描述这些关系在所有此类情况下局部模型适合分类器响应域的选择或变量值控制近似执行的效果

  3.2.2 梯度灵敏度与二值化
关于敏感性和规模的变化存在两种主要的思想流派首先要注意的是分类器的敏感性仅当上一节中的大小趋于接近零在这种情况下灵敏度等于梯度尽管定义明确但这实际上意味着该模型拟合到大小为0的域并且可能会显示大量的不稳定同时提供有限的预测能力另一个选择是Ribeiro等人最有影响力的建议在他们本地可解释的模型中不可知的解释中的方法就是将问题二值化而不是试图作者认为线性分类器适合大范围的值二进制问题他们尝试在每种功能上切换它打开和关闭让他们回答问题“什么是给定数据f对分类器响应的贡献当前看到吗?”这留下了“贡献的问题”比较什么?对于非结构化数据例如计数很多次特定单词出现在文档中这很有意义与通过将计数设置为0创建的基线进行比较结构化数据更成问题例如如何评估某人的薪水对贷款决定的重要性分类器是否只能评估具有有效薪资的人?答案是将其与其他有效工资进行比较但这是不清楚应如何选择有效工资当创建计算机视觉算法的局部近似值时此问题更加明显因为单个像素无法从图像中删除但只能设置为不同的值一些已经提出了选择方案LIME似乎设定了图像达到未指定的均质值深度泰勒分解建议对图像进行模糊处理以保留色彩信息但会删除纹理DeepLift使用用户指定的值而分层相关传播集内部网络值设为0这些选择是对模型所涉及领域的隐式限制是适合的并且对模型的种类有不同的含义并可以大大改变赋予功能的重要性例如将当前图像值与特定图像进行对比颜色(例如灰色)使灰色像素看起来没有效果同时将图像与模糊版本进行对比似乎只有高频纹理提示才是重要的分类器不使用颜色信息

  3.2.3 高维空间中的线性模型
如上一节所述选择二元化然后对于使用线性模型近似估计这些值中的哪个仍然存在疑问即使限制了连续的高维范围到一组二进制变量这给出可能值的(超)立方体而线性函数可以仅唯一地指定值所有其他值均为线性的近似值(请参见图1)这引起了这些值中的哪个值很重要可以近似例如我们应该只注意对比解决方案吗?最接近于DeepLift建议的原始解决方案重量均匀或尽可能重视价值接近到接近替代解决方案的数据点(例如纯灰色图像);或两种方法的加权混合

  3.3 探索科学建模的替代方法
因此局部逼近面临通用性方面的困难选择领域的任意性以及产生误导的可能性除非近似值的域和认知限制是已知的否则它们都是接受者鉴于这些困难从以下观点出发做出解释可能是可取的局部近似值取决于收件人关于近似值限制的信息包括可能会分解并造成误导的条件决策模型的解释局部近似可以用作一种“解释工具包”或因果链允许专家用户探索模型的切片以进行原型制作或调试但是他们的非专家(包括个人)的最终效用和可靠性取决于系统做出的决定这是高度可疑的这一发现提出了一个问题:其他产生解释的方法可能会表现更好或者至少会带来不同的收益比起本地近似值其他方法可以为非专家提供更可靠或与个人相关的信息吗?

  1. 对比性解释

  到目前为止我们已经讨论了科学模型的哲学和实践目的这可以理解为部分因果关系有助于理解其中一部分内容的科学解释现象的功能鉴于局部逼近面临的困难值得事先研究在“解释科学”中进行工作以确定可能的替代方法为受算法决策影响的各方生成可靠且实用的事后解释的方法 如果我们的目标是提供易于理解的解释对专家和非专家利益相关者都有用这是明智的去检查描述方法的理论和实证工作;人类给出和接受解释在最近的几十年中科学和认识论哲学方面的工作越来越关注对比理论例如解释和反事实因果关系简而言之对比理论认为因果解释不可避免地涉及诉诸反事实案件无论是原因还是事件不会发生Lipton Lipton(1990)提供了一个典型的例子:“要解释为什么P而不是Q我们必须引用因果差异在P和非Q之间由P的原因和不存在非Q历史中相应事件的发生”一些作者甚至声称关于因果关系的所有问题本质上都是对比的解释性的对比理论当然并非没有批评例如鲁宾提出即使因果解释在本质上不可避免地是对比的他疑问可以通过传统的解释理论来处理此特征从而使“对比转折”变得有趣但最终没有必要对比理论的实用性仍然存在争议对比性解释可以解决特定事件或案例因此比模型功能的完整或全局解释更容易生成在xAI中值得进一步考虑的最新评论表明大量经验支持“日常”对比的实用性解释米勒回顾了文章和实证研究“关于人们如何定义的哲学心理学和认知科学选择评估和提出解释”

  4.1人类的解释是对比性的
“每天的解释”是“针对特定的反事实案件而寻求的……也就是说人们不问为什么事件P发生了而是为什么事件P发生而不是事件Q”不应使用对比性解释仅仅是非对比解释的认知复杂性例如因果链中的链接数相反经过审查的经验证据表明人类在心理上倾向于对比性的解释事件的感知异常会影响请求对比性解释说异常行为起着重要作用根据经验“正常”行为具有被证明被判断为“比异常行为更具解释力”而感知到的异常行为起着重要作用 解释选择支持异常的重要性提示用户当检测到异常或异常事件时要求提供对比说明的信息违反道德社会规范也可以将事件归类为异常事件历史上专家系统文献中曾针对为何未发生替代性预期事件的原因进行过解释说例如在“为什么不这样”的讨论中可以看到Lim和Dey(2009)的解释 4.2人类的解释是选择性的 在实践中很少有完整或科学的缺少一般法律或导致事件该属性通常可能有多种原因一组原因的给定原因可能不完整只要它们不是事件的唯一原因但在给定的上下文中或为接收者传达有用的信息给定的目的正如Miller所说:“人们很少(如果有的话)期望得到这样的解由事件的真实而完整的原因组成人类是善于从有时无限的原因中选择一种或两种原因数量”进一步为了提供信息不应完全简化 当一个解释为提供者(“解作者”)选择一个解时对于某个事件可能或实际的原因可能是“背景”或“折扣”表示根据上下文信息忽略了它们从而使它们与广告的目的无关 解释者或解作者(“解”)这种类型选择是必不可少的以减少长期的因果关系到认知可管理的大小在xAI中选择通常需要强调关键特征的形式-基于界面的相对权重或对给定的影响预测或输出 如上述观察结果所示功能的相关性(以及解决这些问题的说明)不仅要基于“统计权重”还取决于被解作者的主观兴趣和期望 4.3人类的了解是社会性的 解释是社会性的只要它们涉及一个或多个解作者与被解作者之间的互动即可互动转移需要知识根据信息量身定制信息接受者的信念和理解能力可以认为涉及一个或多个解作者和被解作者通过对话视觉表示或其他方式纠正信息或知识的不对称对于机器学习模型它可能是最有用的始终将解释为生成视为一个互动过程最初涉及人员和自动化参与者的混合至少询问者(例如开发人员用户)和模型或系统此外在必须选择和评估的情况下解释为迭代的在共同的前提和信念的基础上相关性是关键并且可能需要进行迭代才能有效地进行沟通或澄清通往相互理解的道路上的困惑点总之这些日常解的特征揭示了他们“不仅仅是原因的表述(因果归因)”虽然事件可能有很多原因但通常是解作者只关心一个小的子集(与对比情况有关)解作者选择该子集的子集(基于几个不同的标准)解作者和被解作者可能会互动并争论这种解”。 4.4 xAI中的对比说明 产生解释的对比方法是响应式的强调的三个特点“解科学”Martens和Provost描述了两种直接计算对比解的方法和Wachter这样的事后方法避免了基于模型的解释为人们所遇到的许多困难而不是明确生成一个近似功能值的模在一个限制性域上并依靠用户来解释这一点对比性解直接提供了替代数据点:“如果您的数据看起来像这样那么您应该得到这样的信息这些替代数据点可以是精确计算因此“建模”方法在生成解释为时面临的许多挑战例如在相当的程度上质量不会出现所选域的近似值或极限但是由于对比方法仅返回单个数据点更为紧迫的问题是产出的相关性如果这个数据点并不直接对应于用户它不能用来推论相关结论例如关于决定的合理性类似的问题出现在模型的拟合:如果模适合的领域没有捕获与目标受众相关的示例那么不太可能有用Martens和Provost(2013)描述的第一种方法是明确设计用于离散数据并专注于需要从中

© 版权声明

相关文章