在社交商务备受重视的今天,企业希望能从大量的视频、邮件、即时通信信息、社交网站信息,甚至人们的微博中获取有价值的信息,了解消费者的购买倾向,预测市场需求,进行决策分析,但非结构化数据的处理却并不是那么容易的。近日,惠普在收购 Autonomy后,宣布推出突破性信息平台Autonomy IDOL 10,帮助企业实时理解和处理结构化和非结构化信息。
从搜索到发现
我们知道,传统搜索基本上采用“关键词”搜索,即“非0即1”的方式。这种搜索可以很容易地发现网页之间的链接关系,但它最大的弊病是,如果关键词不确定,或者有错误疏漏,用户往往找不到自己想要的搜索结果。面对非结构化信息,这种搜索方式也显得束手无策。
而专门针对非结构化数据的Autonomy的搜索方法采用的是模式识别(pattern)技术。所谓模式识别技术,是一种基于语义的分析技术,以贝叶斯函数和香农理论为基础,通过判别识别度的高低来对数据进行检索,会对用户键入的检索内容进行语义上的分析,然后对海量信息进行概念匹配,找出在内容上最接近的数据提供给用户。
“如果文档中出现‘企鹅’这个词,它到底是代表一种动物,是代表腾讯公司,还是一家出版社?模式识别技术根据上下文来判断其究竟是什么意思。比如与其关联的词出现“鱼腥味”、“黑白色”,机器就明白了,这个情景的企鹅是作为一种动物的意思出现。IDOL 10 通过模仿人脑的阅读过程,做到真正理解在某个具体情境中语言所代表的意义。”惠普子公司 Autonomy 亚太及日本地区企业销售副总裁 Sanjay Aurora在接受记者采访时解释。
“再假设举例,如果一家全球化公司的德国员工现在要寻找一款轮胎,而此款轮胎的设计是由北京的公司完成的,北京的设计人员没有用惯用的标签标注,用其他的方式命名,类似用轮子替代轮胎。这样,要想在系统中查询肯定是搜不到的,但是基于语义的搜索就能解决这个问题。”如何基于语义处理非结构化数据已经成为企业数据利用的一大课题。
非结构化数据挖掘
“近年来,信息技术在硬件方面有了很大进步:芯片的处理速度越来越快,计算的架构不断地发生变化,从大型机到PC,包括现在的云计算,但对信息、数据的理解还停留在关系型数据层面,现在应该更加关注信息,做好信息优化了。”Sanjay Aurora风趣地说。
中国惠普有限公司软件事业部北方区技术经理魏喜勇向记者介绍,获取计算机能够识别的结构化语言,对信息优化来讲是远远不够的。企业做数据处理面临的挑战有两个:第一,企业要管理由想法和信息构成的自然语言,把所有的信息包括结构化和非结构化的数据都进行统一的管理。自然语言是随时随地产生的,比如每秒产生的9.7万条微博,每分钟产生1200万条的短信,每天产生2940亿封电子邮件等。第二,企业要管理海量数据,比如说商用航班飞行一次要产生240TB的数据,这种大量的数据需要一个高效、智能的信息优化分析的方法来处理。
“在很长一段时间内,企业使用关系型数据库处理结构化数据,而对非结构化数据使用简单的关键词匹配技术。” Sanjay Aurora 说,“IDOL 10 则融合了这两者,从而让企业能够实时地自动处理、理解和操作所有数据。因此,企业可以开发全新应用去探索丰富多彩的非结构化、半结构化和结构化格式自然语言,结果将是激动人心的。”
据记者了解,IDOL 10的部署非常简单,实际上它跟很多企业现有数据源有很多接口,它有400多个连接器,可以快速整合企业现有所有数据源,而不需要改变任何现有架构。整合数据后,Autonomy IDOL平台拥有超过500项的强大功能,比如说模式识别、信息关联等技术。据悉,Autonomy也有专门针对基于语义的医疗(Meaning Based Healthcare)方案,处理包括医学影像在内的非结构化数据,做智能医疗方面的应用。