听阿波姆·迪伊格坐在自家的草棚下,用Koro语哼唱着当地祖祖辈辈口口相传的歌谣,谷歌“濒危语言”项目经理克拉尔·瑞瓦拉·罗吉斯感慨不已。Koro是“田野语言学家”在印度东北部山区发现的一种新的濒危语种。像阿波姆一样,经常使用Koro语言的人口仅有4000人左右。Koro语言没有文字,使用者绝大部分过着与世隔绝的生活。
“如果专家不及时施以援手,再过几年,当这些说着陌生语言的人老去,我们再就也听不到这些歌谣了。说这种语言的人所创造的文明和他们的故事,都将湮灭于历史的尘埃之中。”用克拉尔的话来说,和拯救脆弱的生态环境一样,拯救濒危语种也是迫在眉睫的事情。最近,谷歌在其官方博客中宣布,推出旨在拯救3000多种濒危语言的“濒危语言”项目。一批像克拉尔这样的“极客”和语言学家联手,希望用各种互联网技术,拯救濒危小语种。
保护语言多样性
“世界上现存语言大约有7000种,估计到2100年,至少有一半的语种会灭绝。差不多每两个星期,就有一种语言从地球上彻底消失。”今年2月,在加拿大温哥华会议中心的保护濒危语种的研讨会上,美国语言学家戴维·哈里森发表的研究结果,得到了其他语言学者的响应。
全球化浪潮和互联网的兴起,让人类语言的多样性受到了巨大的挑战,尤其是那些没有文字载体的小语种。“语言是沟通工具,也是一个信息贮藏库。一种语言消逝的背后,不仅仅意味着族群的消亡,随之消失的还有族群在几个世纪以来在自然、地理、生物、医药、历史、数学等各方面积累的宝贵经验。”和坐在图书馆中钻研古老文本的语言学家不同,自诩为“田野语言学家”的戴维和他的同事,常年穿梭于世界各地的偏僻地区,收集那些快要被世人遗忘的语言。
他们发现,世代以放养驯鹿为生的西伯利亚图法拉尔人,在其语汇中有不少描述驯鹿皮色、花纹、头部标记,以及生活习性、个性等综合信息的语汇。这对研究野生动物的进化史来说弥足珍贵。“我们想购买去当地的火车票,在莫斯科工作多年的列车售票员竟然说,他从来没有听到过这个地方和这群人。”2007年,戴维他们在玻利维亚发现了一个神秘部落,他们所说的Kallawaya语,包含着大量草药和医学经验。“我们在当地生活了很久,才弄明白这种语言是部落中懂得某种古老医术的人,为了使他们平生所学得以代代相传,在几个世纪之前创造的。”在最新发现的Koro语的歌谣中,也蕴藏着当地鲜为人知的历史、物种、草药学的信息。
现在,人们可以通过谷歌的“濒危语言”网站看到Koro等语言的视频。“我们现在使用的拯救方式,就是让戴维这样的‘田野语言学家’在当地用高清录音和录像收集尽可能多的语言资料。”然后,这些视频和录音经过社交网络的传播,成为学习语言的现成资料。在戴维等语言学家看来,这种形式可能是目前最好的传播和保留小语种的方式之一。克拉尔说:“语言学家起到了带头作用,我们鼓励更多的用户在该项目网站上,上传濒危语种的视频、音频和文本文档。”
人工智能新用途
“互联网的兴起让小语种处于被遗忘的弱势地位,现在,人们却要用互联网技术去拯救它们。当媒体热衷于讨论互联网的负面作用时,我们终于看到了其正面作用。”美国麻省理工《技术评论》杂志资深编辑汤姆·赛门特认为,“其实,互联网技术巨头可以做更多的事情。”比如,谷歌的智能翻译技术,从某种程度上来说,它有潜质成为保护濒危语种更为便捷的武器。
“理论上说的确如此。”谷歌翻译科学研究员徐鹏解释说,谷歌智能翻译,其实是一种人工智能技术。翻译研究员在分析出某种语言的语法和规律之后,编制出带有特定算法的翻译程序。加载了相关程序的谷歌服务器,会自动搜索网络上的语言资料和翻译文本,将其纳入自己的翻译资料库中。用徐鹏的话来说,谷歌智能翻译就像一个正在牙牙学语的孩子,它所掌握的语言资料和对应的翻译资料越多,它的翻译也就越准确。比如,经过了六年时间,随着掌握资料的增加,谷歌的中英文互译已经有了很大的进步。“如果我们有足够多的小语种资料和对应的翻译资料,我们就可以制造出专门负责翻译某一种濒危语种的系统。如果技术成熟了,我们非常乐意做这样的事情。”
除了谷歌的“濒危语言”项目和人工智能技术之外,微软也筹划类似的事宜。他们的微软译者中心也能在收集到足够的原文和翻译资料之后,创造出某种语言的特定智能翻译模型。研究部经理克里斯汀·图里说:“这等于是让计算机学会这些濒危语言。但是这项工作必须在语种消亡之前尽快进行,而且情况不容乐观。目前,世界上的大约7000种语言中,大概只有100种语言拥有计算机智能翻译系统。”