“中⽂屋”若被升级为“⽇语屋”将如何?
全⽂字数:12171
阅读时间:20分钟
⼀、导论:从“中⽂屋”到“⽇语屋”
了解过“⼈⼯智能哲学”(Philosophyof Artificial Intelligence)概况的读者,应该都知道美国哲学家塞尔(John Searle)的“中⽂屋”论证。⽽根据他⾃⼰的说法,尽管该论证是以⼈⼯智能专家珊克(Roger Schanker)的⼯作为启发的,具有更为宽泛的哲学意蕴。具体⽽⾔,为了驳倒“强⼈⼯智能论题”(即“我们原则上可以造出具有真正⼼灵的计算机器”这个论题),塞尔构想了出了这样⼀个思想实验:塞尔本⼈被关在⼀个⿊屋中,并试图通过与屋外中国⼈的字条传递活动,来诱骗后者相信他也是懂汉语的。但实际上,他仅仅是根据屋中所存留的规则书来将特定的汉字组合递送给外界的。尽管在外界看来,屋内⼈递送出来的“输出”的语义是⾮常准确的,但是作为屋内⼈的塞尔却⾃知:他依然不懂汉语。塞尔由此指出:既然任何⼀台处理语⾔的计算机在结构与处理流程上都是与“中⽂屋”类似的,那么,任何⼀台计算机也都不可能真懂⼈类语⾔。此外,由于具备懂得⼈类语⾔的可能性乃是“⼼灵”的⼀个重要属性,所以塞尔最后推出:计算机在原则上是不可能具有⼈类⼼灵的。
学术史上对于“中⽂屋论证”的驳斥早已汗⽜充栋,笔者本⼈也曾在别的地⽅对塞尔论证的有效性提出过质疑。然⽽,⼀个⾮常明显却始终被⼤多数评论者忽视的要点是:汉语在塞尔的论证中所扮演的⾓⾊是⾮常“功能性”的,即塞尔只是借⽤“汉语”指涉任何他不懂的语⾔。因此,从原则上说,“中⽂屋论证”也可以被替换为“阿拉伯语屋论证”、“⽇语屋论证”,等等。不难想见,这种忽略各种⾃然语⾔各⾃特征的论辩思路,在⼀开始也为塞尔的论证预埋了⼀个隐患,即他不可能注意到计算机在处理各种经验语⾔时所可能遭遇到的那些经验困难。⽏宁说,塞尔只是抽象地假定这些经验的困难总有⼀天都可能被解决,并在这种假定的前提下去追问被适当编程的计算机是否可能理解语⾔。然⽽,这种“扶⼿
椅”(armchair)作风浓郁的论证⽅式却很难不将我们带向某种版本的⼆元论思想——根据这种⼆元论思想,“理解⼀种语⾔”竟然可以成为与具体的语⾔交往⾏为相脱离的某种“神秘”事项。这种怀疑论显然就使得他的整个论证的最终⾛向与⼈⼯智能的科学实践完全脱节,⽽成为了⼀个纯粹的关于⼼灵与语⾔之间关系的形⽽上学话题。
在本⽂中,笔者并不试图回应塞尔的原始论证,⽽试图通过对于相关思想实验的改写,由此将读者的注意⼒转向那些为塞尔忽视的那些关于特定语⾔的经验问题之上。具体⽽⾔,笔者试图将原始的“中⽂屋”思想实验改写为“⽇语屋”思想实验——即这样⼀种情形:⼀个不懂⽇语的⼈(⽐如塞尔⾃⼰)被关在屋内,试图通过关于⽇语能⼒的图灵测验——并在这种改写的基础上,质问现有的⾃然处理系统是否能够把握⽇语的⼀个关键性特征:对于说话者主观⾝体感受的⾼度敏感性。
⽽笔者之所以要选择⽇语(⽽不是作为笔者母语的汉语)作为所聚焦的语⾔,则是出于如下考量:相⽐较汉语⽽
snow是什么意思中文⾔,“对于说话者⾝体感受的⾼度敏感性”这⼀特征在⽇语中更为明显,⽽这⼀特征本⾝⼜对我们把握“语⾔理解”与“具⾝性”之间的关系具有⾮常特殊的价值。⾄于笔者在本⽂中所试图论证的观点则是:现有的⼈⼯智能技术尚且⽆法把握“对于说话者主观⾝体感受的⾼度敏感性”这⼀⽇语现象——⽽之所以如此的根本原因,乃是因为现有的⼈⼯智能技术并没有在真正的意义上将“计算”与“具⾝性”(embodiment)结合在⼀起。
⼆、⽇语⾔说者对于具⾝性的敏感性
我们知道,要让“⽇语屋”中的塞尔通过关于⽇语能⼒的“图灵测验”,他所给出的⽇语表达式就必须尽量“地道”,⽽不仅仅
我们知道,要让“⽇语屋”中的塞尔通过关于⽇语能⼒的“图灵测验”,他所给出的⽇语表达式就必须尽量“地道”,⽽不仅仅是在词汇与语法上符合⽇语教材的需求。不过,要做到“地道”,恐怕并不容易。譬如,⽇本语⾔学家池上嘉彦、守屋三千代在提到“地道的⽇语”与外国⼈所说的“不地道的⽇语”之间的区别时,就举出了这样的两个例⼦:
很明显,从上表来看,对于主语(如“あなた”、“私”)的恰当省略乃是“地道的⽇语”的⼀个明显特征。关于此种现象,长期在加拿⼤从事⽇语教学与跨⽂化研究的⾦⾕武洋亦曾以英-⽇⽐较为契机,给出了更多的相关案例,见表2,其中汉语译⽂由笔者补⾜。不难想见,也恰恰因为汉语以及英语对于相关代词的省略没有像⽇语那么普遍,中国学⽣与英美国家的学⽣在学习⽇语时就会不⾃觉地“补⾜”⽇语中的⼈称代词,由此造成“不地道的⽇语表达”。
那么,为何⽇语⾔说者喜欢省略主语呢?关于这个问题,⽇本学界既有⼀种“现象学的解释”,也有⼀种“认知科学的解释”。在“现象学解释”的⽀持者池上嘉彦、守屋三千代看来,以⽇语为母语者本来就有“在语⾔中忠实描述所视之现象”的
释”。在“现象学解释”的⽀持者池上嘉彦、守屋三千代看来,以⽇语为母语者本来就有“在语⾔中忠实描述所视之现象”的习惯——⽽既然从“我”的视⾓出发,“我”⾃⼰的⾝体是看不到的,因此,对于“我”的表达就成为不必要了(所以在表1例句(2*)中才没有出现“私”)。⾄于为何在例句(1*)中连第⼆⼈称“あなた”(即“你”)也被省略了,⼆位学者的解释是:纵然就(1*)所涉及的情况⽽⾔,听话者是出现在说话者的视野之中的,但是根据语境,说话者显然是将听话者作为共同的谈话伙伴来看待的,⽽在这种情况下,为了表⽰⼆者之间的亲密共存关系,“你”往往就被省略了。同样持“现象学解释”⽴场的⾦⾕武洋则使⽤了“⾍⼦的视⾓”和“上帝的视⾓”这⼀对⽐喻性的说法,进⼀步说明了⽇语思维与英语思维之间的区别。在他看来,镶嵌在英语思维中的“上帝的视⾓”预设了⼀个本⾝不动的时空坐标系,⽽任何变动只有依赖于它才能够得到意义。
⾄于“⾍⼦的视⾓”,则采⽤了⼀种观察者合⼀的新颖坐标系:根据这种坐标系,主⼈公视⾓的变动将⾃然地连带观察者视⾓的变动——除此之外,没有什么东西是绝对不动的。为了具体地说明这⼀理论,他特别引⽤了诺贝尔⽂学奖获得者川端康成的名著《雪国》中的头⼀句话以作为例证。这句话的原⽂是:“国境の⾧いトンネルを抜けると雪国であった”(汉译:“穿过县界长长的隧道,便是雪国”)——⽽
这显然就是⼀个⽆主语的句⼦。若硬是要将此句译为英语,英译者就将不得不在译⽂中为其安上⼀个主语,譬如下⾯这种译法:“The train came out of the long tunnel into the snow country.”(汉语的字⾯意思是:“⽕车开出长长的隧道,驶⼊了雪国”。在此,“⽕车”显然是⼀个在⽇⽂原⽂中没有的主语)。不难看出,⽇⽂原⽂和英⽂译⽂会带给读者不同的⾝体体验。借⽤电影术语来说,⽇语原⽂给出的是⼀个从主⼈公视⾓出发的“主观镜头”(由此,读者和主⼈公⼀样体验到了脚下的⽕车驶⼊雪国的场景),⽽英⽂译⽂给出的则是⼀个从旁观者视⾓出发的“长镜头”(由此,读者观察到了载着主⼈公的⽕车驶⼊了雪国)。很显然,只有“主观镜头”所代表的那种⾝体感受,才是契合于⾦⾕⽒所说的“⾍⼦的视⾓”的。
对于同⼀现象的“认知科学解释”的提出者,则是⽇本东京电机⼤学⼯学部教授⽉本洋教授。通过对于说⽇语的被试者与说英语的被试者的⼤脑所做的核磁共振成像研究,他指出:⽇语母语者之所以不倾向于使⽤主语,乃是因为其与语⾔表述相关的⼤脑信息传播回路与英语⾔说者不同。具体⽽⾔,“⽇语脑”的信息加⼯回路是这样的:发声区被激活后,处于左半球的听觉区就倚靠对于元⾳因素的听取⽽被激活,并将刺激信号传导向与之毗邻的语⾔区。由于听觉区与语⾔区之间的距离很短,所以,听觉区所获得的资讯结构就⾮常容易被投射到语⾔结构上,⽽不会因为别的信息加⼯单位的介⼊⽽失真。这就造成了所谓的“认知结构与⾔语结构在⽇语脑中的同构化”。
与之相⽐,“英语脑”的信息加⼯回路则是这样的:发声区被激活后,处于右半球的听觉区就倚靠对于元⾳因素的听取⽽被激活,并由此将刺激信号传导向处于左半球的语⾔区(这⾥需要注意的是,虽然⼈类
左右半球都有听觉区,但根据⽉本⽒的研究,⽇语脑与英语脑获取母⾳信息的听觉区位置却是彼此相反的:前者在左半球,后者在右半球)。此外,也恰恰是因为这样的传播路径要经过“英语脑”的两个半球之间的胼胝体,这就造成了⼏⼗毫秒的时间空⽩,并由此为毗邻于右半球听觉区的负责“主、客表征之分离”之脑区(即下头顶叶与上侧头沟)的介⼊提供了机会。此类介⼊的最终结果,便是与动词所统摄的对象的主语的频繁出现,以及英语中常见的主—谓—宾结构的出现(参看图1)。
不难看出,对于⽇语中经常省略主语这⼀现象的“现象学解释”与“认知科学解释”虽然⾓度不同,但显然都涉及了⾔语活动与“具⾝性”的关联。具体⽽⾔,从现象学解释的⾓度看,⽇语的语⾔结构是对于⾝体感受外部环境的具体⽅式的直接编码;⽽从认知科学解释的⾓度看,⽇语的语⾔结构是对于“⽇语脑”内部的信息传播路径的某种反映。这也就是说,如果⼀个并⾮以⽇语为母语的⼈试图学会地道的⽇语的话,那么,从现象学⾓度看,他就必须尽量按照⽇语⾔说者的⽅式去体验世界(譬如,尽量搁置“上帝的视⾓”⽽从“⾍⼦的视⾓”去体察现象);从认知科学的⾓度看,他也就必须训练⾃⼰左半球的听觉区获取元⾳信息的能⼒,并通过这种训练重塑⼤脑的信息传播回路。
但对于被关在“⽇语屋”中的塞尔来说,做到以上这些⼏乎都是不可能的。⼈⼯智能哲学专家⽡拉赫(Wendell Wallach)与艾伦(Colin Allen)就曾尖锐地指出,塞尔的整个思想实验都是建⽴在⼀个错误的预设之上的:语⾔信息的处理系统可以在⾼度“不具⾝”(disembodied)的情况下,通过关于特定语⾔能⼒的图灵测验的——这也就是说,在塞尔看来,只要关于汉语与⽇语的规则书⾜够强⼤,关在屋内的他既不⽤感受到真正的⽇语⾔说者所感受到的,也不⽤具有真正的⽇语⾔说者所具有的脑内信息处理回路——他所需要做的,就是根据规则书的指导,在遇到特定的⽇⽂表达式组合后,再从装着所有⽇本汉字、平假名与⽚假名的“字符筐”中到特定的⽇⽂表达式组合,最后从“⽇语屋”的窗⼝将这样的结果递送出去。但这⾥的⼀个核⼼问题却是:从学理上看,可能存在着这样的规则书吗?
笔者看来,这样的规则书只是塞尔臆想的产物⽽已,⽽不可能被真正地编制出来。请注意塞尔思想实验
之语境中的“规则书”与我们在⼀般意义上所说的“算法”(algorithm)之间的联系与差异。众所周知,“算法”泛指任何⼀个能够在有限的时空中按照确定且有限的步骤计算⼀个函数的值的⽅法,⽽对这样的算法的执⾏必须在原则上被兑现为“从万能图灵机的初始状态进展到其终⽌状态”这⼀过程。很显然,当视觉科学家玛尔(David Marr)试图描述⼈类视觉⼯作机制的算法模型时,他并不怀疑⼈类感官系统的运作也是可以在上述意义上被“算法化”的。与之相⽐较,在塞尔的语境中,“规则书”则主要是指从作为输⼊的语⾔符号到作为输出的语⾔符号之间的映射机制,却基本与感官⽆涉(因此,这样的“规则书”就只能成为关于语⾔符号的算法,⽽⽆法成为关于感官的算法)——由此所导致的结果是:关在屋内的塞尔既看不到屋外⼈所看到的,也听不到任何⼀个元⾳或者辅⾳。⽽这⼀点却会在⽇常⽇语会话中造成致命的问题:当接话⼈⽆法直接看到——甚⾄⽆法在想象中看到——提问⼈的情况下,他⼜该怎么判断“⽇本の⽅ですか”(“是⽇本⼈吗?”)这个句⼦的隐蔽主语究竟是“あなた”(你)还是别的什么⼈?
有⼈或许会说,为了摆脱这种窘境,规则书的编制⼈不妨在遇到此类“主语不明”的情况下再让系统执⾏这样⼀条附加命令:“向屋外⼈递出如下字条:‘あなたは誰について話していますか’(你说的是谁)”,并根据对⽅的回答来补⾜缺省的主语。但在笔者看来,这样的“⼩聪明”并不真地⾏得通,因为这样的提问,反⽽会使得屋外⼈开始怀疑屋内⼈的⽇语能⼒,由此使得后者⽆法通过关于⽇语能⼒的图灵测验(因为“⽇语能⼒”本⾝就包含了说话者对于⾮语⾔环境信息的提取能⼒)。
有⼈或许还会说:我们完全可以这样升级“⽇语屋”,以使得屋内⼈最终可以通过这样的图灵测验:(甲)
给屋内⼈提供摄像头,以便能够使得其与屋外⼈分享⾄少某个感官道上的感觉体验,甚⾄给整个⽇语屋安置上⾏动装置,使得其“机器⼈化”;(⼄)重写规则书,使得玛尔这样的视觉科学家关于感官的算法化研究成果可以被整合到对于语⾔符号的处理中去;(丙)跟从⽉本洋的研究思路,将⽇语⾔说者进⾏思维的所有神经回路都搞清楚,最后也将这样的研究成果整合到规则书之中去。
从学术史的⾓度看,上⾯的提议(甲)与(⼄),其实正好对应着西⽅学界对于原始版本的中⽂屋论证的“机器⼈应答”,⽽提议(丙)则对应着西⽅学界对于原始版本的中⽂屋论证的“模仿⼤脑应答”。不过,笔者在本⽂中并不试图借机讨论“机器⼈应答”与“模仿⼤脑应答”是否真能对塞尔本⼈的论证构成威胁——正如本⽂⼀开始就指出的,本⽂关⼼的乃是
讨论“机器⼈应答”与“模仿⼤脑应答”是否真能对塞尔本⼈的论证构成威胁——正如本⽂⼀开始就指出的,本⽂关⼼的乃是中⽂屋或⽇语屋思想实验所牵涉到的⼀些经验问题,⽽不是其所牵涉到的形⽽上学问题。为了讨论⽅便,在下⼀节的讨论中,笔者将预设对于⽇语屋的“感官化升级”的确能够在原则上帮助屋内⼈通过图灵测验,并通过这种预设,将读者的注意⼒转向这样⼀个对⾃然语⾔处理的研究更具指导性的问题上去:我们如何将⾝体性感受与语⾔符号的运作整合到同⼀部规则书之中去?
⽽这样的问题之所以需要被提出来,显然是因为:在笔者看来,⾄少对于现有的主流计算机技术⽽⾔,按照前述提议(甲)—(丙)的要求去升级“⽇语屋”,并不是⼀件轻⽽易举的事(尽管作出这种“升级”的
抽象可能性始终是存在的)。或说得更直接⼀点:现有的⼈⼯智能技术并没有⼀个将具⾝性感受与符号编程完美融合的现成技术路径。因此,“⽇语屋”思想实验纵然没有在先验的意义上构成对于作为哲学论题的“强⼈⼯智能论题”的威胁,却⾄少在经验的层⾯上的确构成了对于主流⼈⼯智能技术的严厉质问。
三、主流⼈⼯智能的⾃然语⾔处理技术为何处理不了具⾝性
⾸先需要指出的是,在抽象的哲学层⾯上意识到“具⾝性”之重要性的⼈⼯智能专家,并不乏其⼈。譬如,⼈⼯智能专家罗德尼·布鲁克斯(Rodney Brooks)就曾指出:“世界就是认知系统所能够具有的最好的模型”,并说什么“这⾥的诀窍就是要让系统以恰当之⽅式感知世界,⽽这⼀点常常就⾜够了”。不过,布鲁克斯对于感知的强调,并没有引导他给出⼀条在⾃然语⾔处理的领域内处理具⾝性问题的可⾏性道路,因为布⽒的具体⼯作模型,即所谓的“包容构架”——最多只能模仿昆⾍等低级动物的⾏为模式,⽽⽆法覆盖以语⾔活动为代表的⾼级认知活动。
相⽐较⽽⾔,⽬前在⾃然语⾔处理的领域内最为接近“具⾝化”思路的技术进路,是由⼈⼯神经元⽹络技术提供的(顺便说⼀句,考虑到⽬下如⽕如荼的“深度学习”技术只是神经元⽹络技术的升级版,因此,在本⽂中笔者还是倾向于⽤“神经元⽹络”兼指“深度学习”)。⾮常粗略地说,神经元⽹络技术的实质,是利⽤统计学的⽅法,在某个层⾯模拟⼈脑神经元⽹络的⼯作⽅式,设置多层彼此勾联成⽹络的计算单位,逐层对输⼊材料进⾏信息加⼯,最终输出某种带有更⾼层⾯的语义属性的计算结果。⾄于这样的计
算结果是否符合⼈类⽤户的需要,则取决于⼈类编程员如何⽤训练样本与反馈算法去调整既有⽹络各个计算单位之间的权重(请参看图2)。⽽与传统神经元⽹络相⽐,“深度学习”⽹络的计算单位层数有数量级式的提升,全⽹的反馈算法在计算复杂性上也有极⼤的提升——因此,其整体的技术性能也明显优于传统的神经元⽹络技术。
不过,尽管神经元⽹络技术的⼯作原理的确具有某种意义上的“类脑性”并因此⽽与“具⾝性”发⽣了某种⾄少间接意义上的关联,但若我们从⾦⾕武洋的⽴场上去审视该技术的化,我们就会发现:它依然是⼀种体现了“上帝的视⾓”的技术进路,⽽⽆法为⽇语⾔说者所偏好的“⾍⼦的视⾓”进⾏有效的信息编码。现在,笔者就以此类技术对于语⾔中的“⽂本衍推”(textual entailment)关系的处理⽅案为例,详细说明这⼀判断。
“⽂本衍推”指的是这样⼀种通常⼈都有(并且也应当为⼀种理想的⾃然语⾔处理系统所具有的)能⼒:从像“两个医⽣在给病⼈做⼿术”这样的句⼦出发,合格的说话⼈能够从中推出“有医⽣在给病⼈做⼿术”,并知道原始句⼦所描述的情况是与下⾯这个句⼦相互⽭盾的:“两个医⽣在吃汉堡包”。应当看到,对于传统的基于逻辑的符号⼈⼯智能进路来说,要具

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。