前言:四十人的公司中有近十人从事基础研究,他们研究的汉语自动分词技术取得突破性进展,在北大人民日报一千多万汉字的人工语料上测试,分词准确率达到99.5%以上。原美国朗讯科技总公司副总裁叶祖禹博士以个人身份投资入股并出任公司董事,原Intel中国研究中心周富秋博士出任公司董事。这些都来自于一家天津的软件公司-海量科技。
“如果中文能像英文一样词之间也有空格,那我们公司也就不存在了。”海量科技总经理郝玺龙口中说这句话的时候,他显得轻松。然而,就是这样一个看似简单的问题却给中文处理带来了巨大的包袱,使得中文处理很难达到英文那样易用、精确的水平,并制约着很多中文应用领域,从中文智能信息处理到检索、分类,甚至到中文输入法,分词都成为了最大的绊脚石。“没有中文分词,其他一切深入的中文信息处理都无从谈起。”一位专家这样说。
正因为如此,国家投入了大量的人力物力研究中文分词技术。然而几十年过去了,中文分词准确率仍然在97%以下徘徊,而这3%的差误率便让很多中文信息智能处理的下一步工作无法开展。
2001年10月的一天,在Intel中国研究中心会议室,当中心副主任周富秋博士看到海量的分词演示效果时,非常惊讶。周博士是世界上著名的自然语言理解科学家,手下有来自多所著名学府的不同学术流派的博士。其中多项研究都是基于中文分词的应用技术,他深知该技术的难度。2002年,周富秋博士成为海量科技董事会董事。虽然现在他已经担任中兴通讯主管软件的副总裁,但只要一有机会,周富秋博士就指点海量智能计算技术的基础研究。
初