信息从稀缺到过量的转变带来了广泛影响,企业主们将更多注意力转向如何利用信息发掘商业机会和商业价值,规避经营风险,揭示企业未来的发展方向,并希望通过利用更有效的架构,管理、分析海量信息,预测统计数据和采集其他具有可行性的信息,并帮助企业做出下一步行动的决策。
以往,我们将这一类工作称之为数据挖掘(Data mining)或数据采矿、数掘发现。它是数据库知识发现(Knowledge-Discovery in Databases, KDD)中的一个步骤。数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程,并通过统计、在线分析处理、情报检索、机器学习、专家系统和模式识别等诸多方法来实现上述目标。
数据挖掘技术早已成功地应用于传统数据库领域,现在,我们对于数据挖掘应用于互联网数据,这样的一些特殊数据源的应用也看到了希望,并且有一些人和机构正在做出相应的研究并发展出了相关的技术和应用。
传统数据挖掘
数据挖掘是信息技术自然进化的结果。数据库功能的发展见证了其进化的过程,从数据收集和数据库创建到数据管理(包括数据存储和提取,数据库事务处理)直至到数据分析与理解(涉及数据仓库和数据挖掘)。
“数据丰富,但信息缺乏”,快速增长的海量数据收集、存放在大型和大量数据库中,没有强有力的工具,理解它们已经远远超出了人的能力。收集大量数据的大型数据库变成了“数据坟墓”,而数据挖掘工具将数据坟墓转换成为了知识“金块”。
典型的数据挖掘系统主要由以下几部分组成:数据库、数据仓库或其它信息库,数据库或数据仓库服务器,知识库、数据挖掘引擎,模式评估模块和用户界面。
在实施数据挖掘之前,先制定采取什么样的步骤,每一步都做什么,达到什么样的目标是必要的,有了好的计划才能保证数据挖掘有条不紊的实施并取得成功。很多软件供应商和数据挖掘顾问公司投提供了一些数据挖掘过程模型,来指导他们的用户一步步的进行数据挖掘工作。一般的数据挖掘步骤包括定义商业问题、建立数据挖掘模型、 分析数据、准备数据、 建立模型、评价模型和实施。
数据挖掘能帮助企业改进理解客户行为的能力。相应地,这种更好地理解也有助于企业更准确瞄准目标市场并使活动更符合客户需求、想法、态度和期望。例如,从超级市场的售货数据中分析发现,购买纸尿裤的顾客经常同时也购买啤酒,而经常在超级市场中这两种商品并不是摆放在一起,利用数据挖掘得到情报后,超市调整了这两种商品的摆放位置。
互联网数据挖掘
互联网发展的同时,也引发了数据处理需求的高速增长。IDC最新“数字宇宙”研究结果显示,全世界的信息量每两年以超过翻番的速度增长,2011年将产生和复制1.8ZB的海量数据,其增长速度超过摩尔定律。视频、图片、音频等等非结构化媒体数据的应用越来越频繁,社交网络的不断增长和壮大,甚至于结构化数据个体容量和个体数量也在迅速飙升。
企业将更多的关注放到了外部,而非内部,与制定“策略”有关的资讯,我们必须有组织地从外部环境获得,包括市场、顾客及非顾客、本身产业及其他产业的科技、全球金融环境及变动中的全球经济,这些才是企业创造成果的领域。
将数据挖掘技术应用到互联网这个巨大的数据库上,理论上可行,但是由于互联网自身的特点,也使它面临一些需要克服的技术难点。
1、海量。互联网上的数据是十分庞大的,而这种庞大的数据还是动态的,并且增长速度惊人。
2、碎片化。超文本先天具有表达不连续、片段化的特征,web2.0使信息发布在时间、空间上也更加趋于分散。
3、全天候。随时随地产生数据,7×24小时数据流,信息不再以网页文件的形式存在。
4、非结构。非结构化数据量大,由于文本、图片、视频等形式存在,需要更多的智能分析手段支持。
EMC公司首席市场官Jeremy Burton曾经表示:“大量杂乱无章的信息无休止地增加,带来了无穷无尽的机会,将促使社会、技术、科学和经济发生根本性改变。信息是企业最重要的资产,大数据正在促使企业改变信息管理方式,并从信息中挖掘出更大的价值。”
全球一体化经济体系,影响企业经营和竞争环境发生变化的因素日趋复杂,企业的灵活性与敏捷性变得重要,这就要求更多关注外部,并提高对外部变化的相响应速度。如何从海量信息中发掘出有价值的知识和情报将是一个长久的话题。
国外互联网数据挖掘应用
数据挖掘技术互联网应用的巨大需求,引发相关新的获取、搜索、发现和分析工具应运而生,他可以帮助企业获得有关非结构化数据的深入信息。
Kontagent:帮助社会化软件开发的社交分析平台供应商
Kontagent 是个帮助社会化软件开发者分析用户行为的公司,他们最近宣布分析程序已经有了超过一亿名的用户数据,这一数字与一年前比翻了三倍。
Kontagent的实时平台能够根据地理位置、年龄分组、性别、用户参与时间、社交活动交互作用等参数,为Facebook应用开发者、游戏厂商和发行商提供详细的人口统计数据。新版本还允许开发者追踪和优化广告投放、用户扩散、应用内结构、虚拟商品和货币化等等。
目前Kontagent追踪的应用数超过1000个,每月的活跃用户突破1.5亿,每天提交的信息超过10亿条,它的客户包括EA、华纳兄弟、Popcap、育碧、Gaia和A&E等。
Collective Intellect:基于社会化媒体数据的Social CRM服务商
总部位于科罗拉多州波尔德市的Collective Intellect用文本挖掘软件(Text mining software)审查了Twitter、Facebook、MySpace及诸多博客和留言板上的帖子,以此来帮助企业了解用户对其产品的评论。该公司的软件运用一套算法来浏览文本,并总结出人们以何种语气在讨论什么。
它不仅限于像谷歌关键词检索一般,同时它也可解释其含义。公司技术总裁格雷格·格林斯特里特(Greg Greenstreet)说:"苹果"一词便是个好例证。它可以指代一家科技公司,也可以指水果。”集体智慧的软件通过观察在相似语境中一个词语的其他用法来对这些含义加以区分。因此,它可以和人一样做出判断与联想。格林斯特里特说:“如果我说"史蒂芬·乔布斯",我们的软件便和您一样,知道我说的是哪家公司。”
DataSift:基于Twitter数据的数据挖掘服务商#p#副标题#e#
DataSift已经开始发出alpha测试邀请,使用Alpha测试版服务,开发人员、社交媒体监测公司、营销人员、品牌可以获得过去60天的Twitter消息,并能够分析和过滤数据,而不仅仅是进行关键字搜索。alpha主要功能包括过滤流定义语言(FSDL,Filtered Stream Definition Language)。这是DataSift的过滤引擎使用的一种编程语言,使用这种语言,你可以编写相当复杂的规则,定义哪种类型的信息需要跟踪。比方说,你可以基于内容、Twitter用户名、Twitter关注者、个人资料信息,或Tweet位置进行过滤。
过滤流定义语言有一个有趣的功能,即能够在现有规则基础上建立新的“超级规则”。你还可以分享你的规则,让其他人在此基础上编写更多规则。这个工具的另外一个好处是,它不仅可以搜索Twitter数据,还可以搜索MySpace、WordPress和Six Apart的数据。
国内互联网数据挖掘应用
国外已有多家厂商开始着眼于互联网数据挖掘,以求得帮助企业打开互联网数据宝库的“大门”。但是,在国内由于语言文化的差异,中文信息化处理一直远远落后于英文以及其他语种,其中的中文分词技术则是中文信息自动化处理技术发展的主要瓶颈。
据了解,目前由海量信息科技有限公司(简称:海量)研发的中文分词技术是目前唯一被广泛应用的分词产品,海量以“砌词”为突破口,博采众长各个击破,采用复方概念平衡各算法,有效地提高了未登录词的识别率,降低了分词歧义的****。
分词技术是中文自然语言理解最基本的前提,也是中文信息从“数据时代”向“情报时代”进程中的必经之路。对于互联网自然语言人工智能处理分词技术是其中一个重要的组成部分,命名实体和知识体系的建设也是必不可少的。海量作为一家学习型的企业,相关技术和产品正在不断的完善中。
海量信息定位为基于互联网的智能计算的专家,希望通过自己的技术和产品让中国的互联网更智能、更聪明的,并在“云”的模式下面为客户提供更有价值的服务。据海量CEO郝玺龙介绍海量信息目前已将分词技术、智能计算技术及相关知识与规则转化为商业价值,推出了四款平台级和产品级服务。
1、 Reidx在线智能计算平台服务
Reidx是由计算网格、数据网格和知识网格组成的在线智能计算平台,以“云”计算模式为应用提供计算、数据、知识服务。
语义(S)引擎、行为(F)引擎和形式(B)引擎按照语义网的标准把数据加工成机器可认知信息,从而实现真正完整意义的信息和知识共享。
这是一个开放的平台,提供的是通用性的支持,在此之上面向于不同行业领域,可以开发各种应用。海纳、保10洁就是Reidx在互联网行业的应用,目前还有用户在Reidx提供数据网格基础上开发了,舆情、竞争情报等应用。
2、 海纳互联网社区采编服务
“海纳”互联网智能采编服务是一款为客户提供互联网资讯数据抓取、分析、加工的互联网在线技术服务。该产品在中央服务器集群上运行,通过连接互联网的客户端提供服务。
“海纳”基于网页结构化、文本语义分析、图像分析等多项智能计算技术,实现网页一键转载、页面监控、多页自动合并、关键词摘要自动生成等多项功能。在降低成本的前提下为面向互联网的资讯收集、加工工作提供有力支持。
3、 保10洁互联网智能净化服务
保10洁是面向社区中垃圾广告、违法广告等信息过滤的在线服务。该服务内嵌中文语义分析、行为分析和版式分析等多项智能计算技术,通过判断用户所发布信息的内容、版式,识别出所发布的信息是否为垃圾、广告信息,并能同时进行自动识别和清除工作。
保10洁智能计算引擎通过特征知识库中的规则,通过计算智能识别网站互动信息中的可疑、违法广告和垃圾广告等不良信息。
来自用户系统的互动信息经过智能计算引擎的识别后:正常的健康信息直接返回用户系统实施发布;而被判断为垃圾的信息则被阻止不予发布,并呈现在用户审核平台中;还有少量系统不能明确判定的可疑信息,则暂缓发布,由审核人员通过用户审核平台来判定发布与否。
其中被系统认定的垃圾信息和用户审核所判定的垃圾信息,又会经过智能计算抽象出其语义、版式等特征。这些特征会被系统自动更新到特征知识库中,这样,系统就具备了自行学习的能力,以此来应付互联网各种信息层出不穷、瞬息万变的情况。