关于社交媒体数据挖掘有大量的讨论,但行动却少之又少,Matthew Russell说。他是《Mining the Social Web》第二版本的作者,此书指导社交数据的收集和分析。数据挖掘可感知的困难对于那些有兴趣涉及这一领域的人来说是一个主要障碍。Russell说,这是一个虚假的障碍,因为使用知名的语言,尤其是Python来挖掘Twitter,不需要高级开发人员或数据科学家技能。
社交媒体数据挖掘帮助企业收集关键信息。一旦他们了解了API请求的基本知识、分析了销售趋势或代码等等,他们就可以使用这些见解来加速创新,Russell,说,他是云服务提供商Digital Reasoning Systems公司的CTO。本文讲述了他的一些建议,给那些对数据收集感兴趣的人。
Russell提倡在第一次社交媒体数据挖掘时使用Python,因为它的语法很简单,它的数据结构与文本数据兼容。“大多数社交媒体属性将以JSON格式返回数据给你,” Russell解释说。JSON(JavaScript对象表示法)是web环境中经常使用一种灵活的、直观的基于文本的数据格式,从而通过网络即能与简单的也能与复杂的数据结构通信。“Python的核心数据结构也JSON的很相近,以致于处理这些数据都没有真正的得到惩罚。做出这样的要求很容易。”
最终数据挖掘平台
对于数据挖掘,所有地社交网络媒体都有一定的价值,但是Russell认为没有比Twitter更好的起点了。这一平台模型的简单并且非对称性,再加上每月2.32亿的活跃用户,使它特别适合数据挖掘。Russell将应用程序比作一个繁忙的大街。“有许多人在喋喋不休,这些话语中总可以提取出一个信号。”
从开发人员的角度,Twitter特别适合数据挖掘,因为以下这三个关键属性:
Twitter的API设计良好,容易访问。
Twitter数据的格式易于分析。
Twitter数据使用的术语相对来说比较自由。普遍被接受的tweet是公共的,任何人都可以访问,因为这一非对称模型允许访问任何帐户,而不必请求许可。
“我认为Twitter的简单性以及上百万的用户创造了大量的价值,” Russell说。这一潜在的价值很大程度上还示开发,尽管如此,Russell认为高管和开发人员都错过了发现重要社交趋势的机会。
超越广告
Twitter的数据几乎完全用于声誉管理、品牌和情感分析。换句话说,它是一种广告。“当你拥有每月2.32亿的活跃帐户以及相当高百分比的日活跃度时,那么对于社交研究而言,就还有其它的一些特别机会,” Russell说。
他把Twitter描述为兴趣图谱,在线描述了个人或集团的兴趣。在小范围内,兴趣图谱预测购买行为。在更大的范围内,它可以用来分析社会趋势。“如果你认为接下来的关系可以作为‘产生兴趣的’关系的话,它就真的是那样,那么就拥有相当强大的数据集合,”他说。当兴趣图谱规模很大时,其潜在的有价值的见解就开始延伸超出广告范围了。“已经存在了大量的,你可以利用的数据了,却没有产生像销售一样的行为,但是可以真正了解市场或具体领域在发生着什么。”有一个例子是对冲基金,整个交易模型是建立在Twitter的数据利益分析上的,这之后会被用来做聪明的投资。
不应该低估了TwitterAPI的价值,Russell认为。API作为入口点,可以让Twitter平台启用第三方创新。“世界各地可能有许多更富创造性的人物,他们可以有比Twitter之前有过的更地的点子,”他说。Twitter的API巨大,然而却未被充分利用的资源。“任何人都可以利用这一资源,利用这个第三方商品进行创新,从一个只有一人,却拥有好的思想的小公司,到拥有大量软件开发人员的大型 协作的实体。”
Twitter的自组织的潜力和不断增长的数据池给个人和集体规模的趋势和利益提供了直接见解,但它尚未完全捕捉到开发人员的想象力。另外,来自于社交媒体数据挖掘的价值,Twitter只是冰山一角。Russell并期望企业把广告作为一种手段的时期即将结束,在使用社交媒体数据创建时,他们将会发现真正的价值。