论NLP可解释的评估:什么才是“好”的解释?
©PaperWeekly 原创 · 作者|李泺秋
学校|浙江⼤学硕⼠⽣
研究⽅向|⾃然语⾔处理、知识图谱
前⾔
深度学习模型已经成为 NLP 的标准⼯具,在解决许多问题上⼤显神通。然⽽其⿊盒性质也成为⼀⼤问题,对系统的可控性、可信任度都造成影响。在医疗、⾦融等领域,对模型可解释的需求都⽇益增加。
⽬前,NLP 的可解释领域中已经有了不少⼯作,⽐如:
•
基于 probing task 测试模型的语义理解能⼒
•
从模型的 embedding、activation、attention 到 saliency 的可视化分析
•
构造特定语⾔现象的 challenge set 作某种⽅⾯质量评估的
•
⽤各种启发式⽅法⽣成 adversarial sample 分析模型鲁棒性的
•
⽣成模型预测的⾃然语⾔解释⽂本(NL Explanation Generation)
•
寻简单的替代模型,或者将模型的局部分类⾯简化(LIME 等)
•……
等等。以上每⼀条线都有许多不同的⼯作,感兴趣的读者可以从这篇概述⼊⼿了解。
但是或许我们需要先回答⼀个更加基本,也更核⼼的问题:
如何评估解释的好坏?
如果没有⼀个直接的、统⼀的标准,⼜有什么制定标准的原则可以是值得参考和遵守的?
据个⼈⽬前了解,还没有⼯作提出⼀个能说服⼤部分⼈的解释的标准——或者只能定性⽽⾮定量分析(例如可视化⽅法),或者很⼤程度基于主观认识(例如 contrast set,或者和⼈⼯标注进⾏对⽐等),或者不能从根本上说明问题(例如对抗⽅法),有的甚⾄没有办法和其他⽅法进⾏⽐较孰优孰劣…… 说⽩了,所有⼈都像是在摸着⽯头过河。
但是,如果不将这⼀问题说明⽩,建⽴共识性的认知,那么可以说所有的解释⼯具都只是⾃说⾃话,解释也将和深度学习本⾝⼀样化为“⽞学”(甚⾄⽐⽞学更⽞,因为我们甚⾄不知道⽬标在哪⾥),再多 fancy 的 technique 也只会使我们离真实越来越远。
⽽这也正是⽬前⼤家所关⼼和纠结的问题:
于是,本⽂将解读⼀篇发表在 ACL 2020 的综述⽂章 Towards Faithfully Interpretable NLP Systems: How Should We Define and Evaluate Faithfulness? ,分享其中关于可解释评估的⼀些现状分析和思考。(当然,或许仅凭借这⼀篇⽂章也⽆法给出正确的结论,但是⾄少它可以提供了⼀些讨论的基础)
为了节约⼤家时间,先把⽂章的结论放在这⾥,可以快速跳到相关的内容:
1. 可解释的评估包含似然性和忠实性的评估,⽽⼈的参与只会把评估变为似然性评估,对证明模型具有真正的可解释能⼒——即忠实性⽅⾯毫⽆⽤处。
2. 忠实性的评估可以分为三个基本的原则假设,即模型假设、预测假设和线性假设(关于具体假设的内容请见下⽂)。
3. 忠实性不应该是⼀个“是”或“否”的评估,不然完全忠实的模型如同真空中的球形鸡,是不存在的。我们应该在更细微的“灰度”上评估忠实度,即使这些解释不具有全局性和明确的忠实性,也可以使解释有⽤。
NLP可解释领域现存的问题
1. 当前的解释⽅法受实际⽤例和应⽤程序的启发,以⾮常特殊性(⽽⾮普遍性)的⽅式定义解释。但是,这种视⾓通常⽆法区分解释质量的各个⽅⾯,例如可读性(readability),似然性(plausibility)和忠实性(faithfulness——Herman,2017 年)。
2. 此外,尽管很多⼯作可能会隐式或显式地评估对特定解释技术的忠诚度,但对忠诚度并没有统⼀和正式的定义。
3. 最后,当下还有⼀种趋势:将忠实性视为⼆元属性,然后说明解释⽅法不忠实。本⽂认为这是徒劳的——⼏乎不可能完全满⾜这些假设,并且通过反例来证明⼀种解释⽅法的真实性也太容易了。
针对以上内容,本⽂的贡献可以总结如下:
•
对于第 1 点和第 2 点,本⽂对忠实性作出了定义:和似然性⽆关,忠实的解释可以准确地表⽰模型预测背后的推理过程。并且本⽂认为,在要求解释如实的情况下,不完善或误导性的评估可能会造成灾难性的影响。
•
本⽂通过明确所有可解释的尝试背后的三个假设,将看似不同的评估⽅法串联起来,并提供了有关忠实的理想属性的讨论基础。
•对于第 3 点,本⽂主张在实践中对忠诚度有更实际的看法,采⽤分级标准来衡量⼀种解释在实践中是否忠实的程度和可能性。对于某个特定领域,如何构建这些标准的确切形式以及设计针对性的具体评估⽅法,是未来⼯作的主要挑战。
以下将详细说明。
区分忠实性与似然性
似然性(plausibility)和忠实性(faithfulness)是两个特别值得注意的标准:似然性是指对⼈类的解释令⼈信服,
⽽“忠诚”则是指它能准确反映模型的真实推理过程(Herman,2017;Wiegreffe and Pinter,2019)。
此处参考⽂献:
arxiv 2017,《The promise and peril of human evaluation for model interpretability》EMNLP 2019,《Attention is not not explanation》
如果只考虑符合其中⼀个性质,这是很容易做到的。例如,考虑通过事后(post-hoc,即模型预测后)⽂本⽣成进⾏解释的情况,其中⼀个额外的“⽣成器”组件输出模型决策的⽂本说明,并在⽤⽂本解释作为监督信号的情况下学习⽣成器(Zaidan 和 Eisner,2008;Rajani 等,2019;Strout 等,2019)。在这种情况下,似然性是主要属性,⽽不能满⾜忠实性。
忠实性。
尽管这两个标准之间存在差异,但许多作者并没有明确区分,有时甚⾄将两者混为⼀谈:
cooperative
•
NIPS 2017,《A unified approach to interpreting model predictions》
•arxiv 2018,《Evaluating neural network explanation methods using hybrid documents and morphological
prediction》
•
arxiv 2018,《Faithful multimodal explanation for visual question answering》
⽽且,即使明显属于某个阵营,⼤多数⼯作也没有明确列出要考虑的标准:
•arxiv 2018,《A humangrounded evaluation benchmark for local explanations of machine learning》
•arxiv 2016,《”what is relevant in a text document?”: An interpretable machine learning approach》
•arxiv 2018,《Looking deeper into deep learning model: Attribution-based explanations of textcnn》
•
arxiv 2019,《A human-grounded evaluation of SHAP for alert processing》
我们认为这⼀混淆很危险,缺乏明确的主张可能会给该技术的潜在⽤户带来错误的信息,这些⽤户不熟悉其内部⼯作原理。因此,必须明确区分这些术语。
2019 年 microsoft 的⼀篇论⽂《Interpreting interpretability: Understanding data scientists use of interpretability tools for machine learning》指出,尽管没有保证,即使是专家也倾向于过于相信解释的真实性。
固有的解释性
通常的解释性⽅法分为以下两类:
•
通过事后⽅式解释现有模型;
•设计固有可解释的(inherently interpretable)模型。
Rudin(2018)主张使⽤固有可解释的模型,该模型在设计上声称⽐⿊箱模型的事后解释提供了更多忠实的解释(2018 arxiv,《Please stop explaining black box models for high stakes decisions》)。
本⽂认为不能以表⾯价值来论证这⼀观点:所谓某个⽅法“固有地可解释”是需要验证的主张。确实,虽然注意⼒机制被认为具有“固有的可解释性“(Ghaeini 等⼈,2018; Lee 等⼈,2017),但最近的⼯作使⼈们对其忠实性产⽣怀疑(Serrano 和 Smith,2019; Jain 和 Wallace,2019; Wiegreffe 和 Pinter,2019年)。
通过效⽤评估
尽管解释有许多不同的⽤例,例如模型调试,合法保证或对健康⾄关重要的保证,但另外⼀个具有突出评价⽂献的可能⽤例是通过⼈机交互(HCI)实现的⾃动模型的智能⽤户界⾯(IUI)来协助⼈类决策者。在此进⾏解释的⽬的是增加⽤户与系统之间的信任度,为⽤户对系统的决定是否可能正确提供更多的微妙依据。
在⼀般情况下,最终评估指标是⽤户在执⾏任务时的表现(Abdul 等⼈,2018)。例如,Feng 和
BoydGraber(2019)在琐事问答环境中评估了模型的各种解释。
此处引⽤:2018,CHI,《Trends and trajectories for explainable, accountable and intelligible systems: An HCI research agenda.》2019,IUI,《What can ai do for me? evaluating machine learning interpretations in cooperative play.》
但是,在忠实性的语境下,我们也必须警告拒绝受到基于⼈机交互(HCI)的评估:在这种情况下,提⾼绩效并不意味
但是,在忠实性的语境下,我们也必须警告拒绝受到基于⼈机交互(HCI)的评估:在这种情况下,提⾼绩效并不意味着忠实的指⽰;相反,它只能表明解释的似然性与模型的性能之间存在的相关性。
举个例⼦,假设 HCI 评估环境中有⼀个不忠实的解释系统:给出的解释是⽂本输⼊的热图,将分数归因于各种标记。假设系统说明的⾏为如下:当输出正确时,说明由随机的内容词组成;当输出不正确时,它由随机标点符号组成。
换句话说,当模型正确时,这种解释更有可能看起来合理,⽽同时⼜没有反映模型的真实决策过程。使⽤者通过更美观的解释深信不疑,因此使⽤该系统的效果更好。但是,这种解释始终声称随机标记与模型的推理过程⾼度相关。尽管该系统特别有⽤,但解释所给出的主张并不能反映模型的决策。
尽管上述情况是极端的,但这种误解并⾮完全不可能,因为可信度与模型性能之间的任何程度的相关性都会导致⽤户性能的提⾼,⽽与忠诚度的概念⽆关。
这⾥的分析可以看出,所有基于可视化的⽅法的评估都⽆法证明解释的忠实性。然⽽,⽬前⼏乎所有的⽂章都是拿⼏个热⼒图⽐较⼀下,感性分析……
忠实性评估的⼏条指南
破了这么多旧观念,终于该到⽴论的部分了——
本⽂提出以下准则来评估解释的真实性。这些指南解决了我们在⽂献中观察到的常见陷阱和次优实践的问题。
•
明确评估对象。混⽤似然性和忠实性是有害的:应该明确评估其中⼀个,并针对每个评估使⽤适当的⽅法。当然,在设计解释技术时也应如此-明确要优先考虑的属性。
•忠实度评估不应包括对解释质量的判断。我们注意到:(1)⼈类⽆法判断⼀种解释是否忠实:如果他们理解了模型,那么解释就没有必要了;(2)由于类似原因,我们也⽆法获得对此问题的监督。因此,⼈的判断不应参与对忠诚度的评估,因为⼈的判断会衡量似然性。
这似乎是⼀个悖论:因为⽆法理解模型内部发⽣的事情,所以需要可解释⽅法;但是因为⽆法理解模型,我们也难以确定解释是否忠实反映了模型内部的决策过程…… 因此,对于忠实性最好的评估还是基于某些客观指标!
•忠诚度评估不应涉及⼈为提供的⾦标准。我们应该能够解释与正确的模型预测相同的错误模型预测。依靠⾦牌的评估⽅法受到⼈类先验对模型应该做什么的影响,并再次将评估推向了似然性的⽅向。
•
不要相信“固有的可解释性”主张。除⾮另有证明,否则固有的可解释性只是⼀个主张⽽⾮事实。“固有可解释”模型提供的解释必须遵循与事后解释⽅法相同的标准,并使⽤同⼀套评估技术对其忠诚度进⾏评估。
再次强调:注意⼒之类的⽅法只具有似然性,但是其对模型的⼯作⽅式的解释⾮常⾮常⾮常有限!具体请参考上⾯的专栏⽂章。
•
IUI 系统的忠实性评估不应依赖于⽤户表现。HCI 设置中的最终任务⽤户性能仅表⽰似然性与模型性能之间的相关性,但是这种相关性很⼩。尽管评估某些⽤例的解释效⽤很重要,但它与忠诚度⽆关。
定义忠实性
那么,如何定义解释⽅法的忠实性?
直观地,我们希望所提供的解释能够在做出决策时反映模型的真实推理过程。但是,什么是模型的推理过程?如何将推理过程相互⽐较?
由于缺乏标准定义,不同的⼯作通过引⼊测试来衡量他们认为良好的解释应该满⾜的特性来评估他们的⽅法。其中⼀些测试可衡量忠诚度的各个⽅⾯。这些临时定义通常对于每篇论⽂都是唯⼀的,并且彼此不⼀致,因此很难到共同点。
我们发现了所有这些⽅法背后的三个假设,使我们能够沿标准化轴组织⽂献,并关联看似不同的⼯作⽅式。此外,公开基本假设可以就其有效性和优点进⾏知情的讨论(我们或其他⼈将其留给未来的⼯作)。据我们所知,这些假设包含了研究界对忠诚度的当前有效定义:
假设1(模型假设):当且仅当两个模型使⽤相同的推理过程时,它们才会做出相同的预测。
•
推论 1.1:如果解释系统导致对做出相同决策的模型进⾏不同的解释,那么它就是不忠实的。
这⼀推论可以⽤作反⽰例(counter-example)的证明。从理论上讲,如果所有可能完美地模仿模型决策的模型也提供相同的解释,则可以认为它们是忠实的。相反,表明两个模型提供了相同的结果却有不同的解释,则证明了该⽅法不具有真实性。
2019,EMNLP,《Attention is not not explanation.》展⽰了如何通过对抗性训练模型推导这些反例,这些模型可以模仿原始模型,但提供不同的解释,同时还利⽤了这⼀假设来表明某些解释确实包含有关模型⾏为的有⽤信息。
•
推论1.2:如果解释导致的决定与其解释的模型不同,则它是不忠实的。
⼀个更直接应⽤是通过保真度(fidelity)的概念(Guidotti 等,2018;Lakkaraju 等,2019)。对于解释本⾝就是能够做出决策的模型的情况(例如决策树或规则列表(Sushil 等⼈,2018)),保真度定义为解释模型可以模仿原始模型决策的程度(⽐如准确性accuracy score)。
对于解释不是可计算模型的情况,Doshi-Velez 和 Kim(2017)提出了⼀种通过众包将解释映射到决策的简单⽅法,⽅法是要求⼈们模拟模型的决策⽽⽆需访问模型,⽽只能访问输⼊和解释(称为正向仿真)。Nguyen(2018)进⼀步探索并实践了这⼀想法。
2018,ACM,《A survey of methods for explaining black box models.》
2019,AAAI,《Faithful and customizable explanations of black box models.》
假设2(预测假设):对于相似的输⼊,当且仅当其推理相似时,模型才会做出相似的决策。
•
推论2:如果解释系统为相似的输⼊和输出提供不同的解释,则它是不忠实的。
由于解释是模型“推理”的代理,因此应满⾜相同的约束条件。换句话说,对类似决策的解释应该相似,⽽对不同决策的解释应该相似。
这种假设对于证明解释不具有忠实性更有⽤,因为证伪解释的不忠实需要到适当的情况,可能证明需要检查(⾮常⼤)令⼈满意数量的⽰例,甚⾄整个输⼊空间。
NLP 社区中最近的⼀次讨论(Jain 和 Wallace,2019 年; Wiegreffe 和 Pinter,2019年,即《Attention is not explanation》和《Attention is not not explanation》的讨论⼤战)涉及使⽤这⼀基本假设来评估注意⼒热图作为解释。前者试图针对每个实例对类似决定提供不同的解释。后者对前者提出了批评,并在很⼤程度上基于上述模型假设。
此外,Kindermans等(2019)《The (un)reliability of saliency methods.》建议对输⼊空间引⼊恒定的转移,并评估解释是否随着最终决定保持不变⽽发⽣显着变化。AlvarezMelis和Jaakkola(2018)《On the robustness of interpretability methods.》在术语可解释性健壮性下正式化了这种技术的概括:解释应不变于输⼊中的⼩扰动(预测假设的直接结果)。Wolf 等(2019)《A formal approach t
o explainability.》进⼀步扩展了这个概念,即“模型解释的⼀致性”。不幸的是,由于离散输⼊,很难在 NLP 设置中应⽤鲁棒性度量。
假设3(线性假设):输⼊的某些部分对模型推理⽐其他部分更重要。⽽且,输⼊的不同部分的贡献彼此独⽴。
•
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论