据外媒报道,去年上映的电影《降临》引起了电影评论人士的热评。这是丹尼斯·维伦纽瓦(Denis Villeneuve)执导的科幻片,讲述了一个语言学家破译外星人语言的故事。另外,传奇科幻片星际迷航在去年庆祝了其上映50周年。星际迷航中出现的通用语言翻译机让作为语言极客和科幻迷的笔者十分着迷。
本文并非讲解机器翻译的文章。这种技术已经以各种各样的方式开始被投入实践,虽然效果还无法达到人类专家翻译的水平,但机器翻译已经可以在很多场景里使用。本文将重点探讨通用翻译机对未知语言的破译过程。
现实中的语言破译
不管多么复杂,所有的破译在本质上是相同的,即将未知的语言与已知知识进行匹配。罗赛塔石碑的故事已经成为传奇:一个刻有古埃及象形文字的石碑,同样的内容还用希腊语和埃及俗语各刻了一遍。当时人们一直对象形文字摸不着头脑,罗斯塔石碑的发现让语言学家可以通过对照希腊语倒推出象形字母的含义。罗赛塔石碑已经成为语言学习的标志性符号,并被引申为解决某难题的关键要领。
今天,人们用类似的方式打造了统计机器翻译(Statistical Machine Translation,简写SMT),使用平行文本作为虚拟的罗塞塔石碑。遇到平行参照语言不存在的情况,破译就依赖于相似语言或其他可利用的线索。
其中最戏剧性的故事要数玛雅文字的破译,这还牵扯到美苏两大阵营的博弈。2010年有条新闻是麻省理工的Regina Barzilay和她的团队开发出一个人工智能程序,成功破译了古代闪米特语言乌加里特语(Ugaritic)中的大部分。
玛雅文字是由音节文字字形组合成的意音文字,在功能方面与现代的日文类似
当没有罗塞塔石碑这种参照物时,该如何破解完全陌生的语言呢?就像电影《降临》表现的那样,手势、物体对象和彼此的面部表情都可以帮助理解词汇。地理大发现之前,邂逅新文明的探险家和海员便是用此种方法学习陌生种族的语言。今天在雨林中进行田野考察的人类学家仍然沿用此法。
图为 Daniel Everett 在亚马逊雨林中同Pirah?人交流
电影内外的通用语
但是如果面对面的沟通是不可能的呢?
几十年来,SETI的研究人员一直在试图寻找宇宙中外星智慧生命的迹象。他们当中有些人便关注这样的问题:我们收到信号又该如何破解呢?我们又怎么知道信号来自智慧生命,而不是宇宙噪音?
Laurance Doyle和John Elliott专注于这些问题的研究。Doyle的工作重点是香农信息理论的应用。通过观察信号的复杂程度来判断是否近似于人类通信。Doyle曾与著名的动物行为和传播研究员Brenda McCowan一起分析了各种动物的交流数据,并将其信息理论特征与人类语言特征进行比较。
John Elliott则专注于对未知通讯系统的研究,他判断信号是否是语言,并对其语言结构进行评估,其最终目标是建议一个所谓的“后检测破译矩阵”。用他自己的话来说,这个矩阵将包含整所有人类语言数据,并会在未来添加其他的通信系统(比如动物的)。Elliott的假设系统基于自然语义理论(Natural Semantic Metalanguage, NSM)。
有趣的是,电影中虚构的通用翻译和现实中科学家的研究有相通之处。电影中的柯克船长说:“某些普遍的想法和概念”是“所有智慧生物共有的”。通用翻译机便基于此假设,对脑波模式的频率进行对比,精确词义并组成句子输出。
脑神经产生可识别的活动(脑波),并且交流刺激神经中枢的特定区域。只要我们有足够精确的设备能够探测这些脑波变化,频率分析就有可能实现。频率分析也符合齐夫定律(Zipf's law)。齐夫定律是由哈佛大学的语言学家乔治·金斯利·齐夫(George Kingsley Zipf)于1949年发表的实验定律。它可以表述为:在自然语言的语料库里,一个单词出现的频率与它在频率表里的排名成反比。所以,频率最高的单词出现的频率大约是出现频率第二位的单词的2倍,而出现频率第二位的单词则是出现频率第四位的单词的2倍。齐夫定律可以被用来作为语言破译的参考。
星际迷航系列电影中不断出现一个翻译矩阵,排除艺术幻想和科幻加工,电影中的“矩阵”可以对应真实世界中的国际语模型,这是一种抽象、独立于语言之外的知识表达方式。
当电影中的通用翻译机无法工作时,还有一个被称为linguacode的工具工具。Linguacode在真实世界中可以对应上宇宙语言(拉丁语:Lincos,源自lingua cosmica的缩写)。这是一种在1960年由荷兰数学家和天文学家弗勒登塞尔博士提出的一种人工语言。他设计这语言并希望可以透过星际间的无线电信号传达,被外星生物理解。
从工程的角度来看
Elliott的方法使用所有人类语言的资料打造出一个通用语言模型,将有助于通用翻译机的实现。这是传统的定向交流系统所不能及的。
有了一个能映射语法结构和语义的系统,就可以构建出一个“场景的语料库”。随后再根据交互场景的普适性解码更多细节。
例如:
- 大多数对话的开头都包含一句问候语。
- 大多数技术文档包含数字。
- 所有命令都包含一个要求,而且通常是威胁性的。
- 新闻指的是一件事。
- 大多数长文档都会分章节,而章节之间会有数字或章节名。
- 参考性文档都会有所指,描述某一个实体。
以上这些特点是普适的,并非某一语言所特有。它们源自于群体沟通中的最小努力原则(Principle of Least Effort)。
基于语义学的系统可以不依赖表面词义构建语料库。相比罗塞塔石碑,这个系统可称作是一个高科技语言魔方。罗赛塔只记录三种语言,而后者可通过多变的组合匹配任何目标语言。
语言之外
在找到外星人之前,研究人员先在鲸类动物身上试验了“通用翻译机”假设。虽然目前还没有确切证据证明鲸类动物的通讯拥有人类语言的所有特征,不过它的却表现出一些迹象。
例如,海豚拥有自己的“签名口哨”,这相当于人类语言中每个人的名字。签名口哨用于海豚的定位,这符合语言学中的移位性(displacement)。在Louis Herman的实验过程中,海豚成功学会了理解“左”、“右”等抽象概念。海豚群体的社会活动很复杂,需要相当有效和复杂的通信系统来保障信息交流。
海豚之外,还有一些物种具有更复杂的通讯系统。一系列实验已经证明蚂蚁的通讯可能超乎人类的想象,蚂蚁甚至能对语句进行压缩,比如它们会将“左转,再左转,再再左转,再再再再左转”说成“左转四次”。
Doyle 和 Elliott 利用信息理论提供的各种工具对鲸类动物的交流进行了研究。Elliott计算了人类和动物语言以及非语言来源(比如白噪音和音乐)各自的信息熵。
交流系统呈现一个对称的A状振幅。人和海豚的声音尤其如此,鸟类声音对称性稍弱。Doyle对驼背鲸的声音进行测量,得出类似的结论。
这就是为什么几个研究动物交流计划与SETI计划进行协作的原因。如果我们连动物语言都无法理解,更遑论打造破译外星语言的通用翻译机了。