数据浪潮汹涌而至,摩尔定律、普适计算、数据挖掘、社交媒体正强烈影响着我们的生活,在“大数据”的现实情景中,个人行为选择的参照系如何?“大数据”又为公共管理和商业创新带来何种机遇和挑战?“大数据”如何在中国落地?针对上述命题,上周日,第一财经·悦读会携手广西师范大学出版社·理想国,与嘉宾《大数据》作者涂子沛、贝格数据总裁李常青在复旦大学围绕“看得见的未来”这一命题进行讨论。
《大数据》讲述了美国半个多世纪信息开放、技术创新的历史。涂子沛认为,摩尔定律和普适计算将生成一个机会更平等、信息更充分的时代。如波普尔所言,一个开放的社会,意味着,人们把决定建立在他们自己的才智和掌控之上。他认为,如果一个社会对好的公共生活缺少想象力,是因为这个社会的公众站在低处,这个低,不是技术上的,而是价值观上的,“如果你不能理解爱与分享是生命中极为重要的东西,那么,你也很难真正理解,信息交流与分享对于一个社会的重要性。”
而如何定义“大数据”?涂子沛强调,在认识上需要厘清两个概念:首先,谈论“大数据”应回到信息公开和数据开放这两个维度,信息公开是“知情权”意义上的概念,但数据开放不仅仅是知情权的问题;另一方面,“大数据”不应该仅仅理解为存储数据的容量,而是挖掘数据和计算力的问题,数据挖掘是指通过计算器对大量的信息进行分析,从而揭示数据之间的关系、模式和趋势。
悦读会:数据开放是一个多方博弈的过程,放在中国的语境中,突破口在哪里?同时,博弈需要各个方面的妥协,妥协的界线是什么?
涂子沛:推动历史前进最重要的条件是开放,但所有的政府都有一个天性,希望你知道的信息越少越好,这就需要社会形成一个集体的声音,大家都认识到知情权的问题时,才能够形成监督的压力。当你有了社会责任感,当你只有在别人碰到问题的时候发出自己的声音,利益的天平才可能变化。我在书里引了一句话:“防止公民犯下错误不是政府的责任,但是防止政府犯下错误是每一个公民的责任”,你需要发出声音。中国社会的冷漠或者不作为,是大家都不发出声音。突破口还是公民意识的成长,大家都有公民意识、权利意识,我们都需要知道,美国社会的公开是个漫长的过程。
整个社会需要一个表达利益的机制,同时我们需要理性抗争,需要妥协,界线在于非暴力,整个社会的发展需要在一个共赢的状态中,利益的天平不可能永远公正,所有人都发出了声音,有可能照顾不到你的声音,但是你需要持续地去发出自己的声音,利益的天平才可能改变,这是不断调整的过程,历史就是这样发展过来的。
李常青:现在,中国逐渐开放数据,政府逐渐开放数据了,但是需要一些专业的公司把这些数据变成可阅读的,我想数据挖掘这一块,数据开放了,最终还是需要让个人能够解读,这方面可能需要我们做更多的工作。
悦读会:数据的大量涌现,出现了很多非结构化的数据,在数据的语义挖掘方面,有没有更好的方法?
李常青:金融数据的品种越来越多,确实存在很多非结构化的数据,很多文本、网上的消息都可以作为数据公司提取数据的来源,我们的挖掘手段统称大数据技术,这个概念提出很早了,但还需要能够真正落地。阿里巴巴就可以拿出一个具体的数据出来,所有贸易交易的数据显示去年一段时间下滑很厉害,这个数据很早就可以预测经济形势,通过数据挖掘形成一个数据报告,其产生的价值会很大。很多数据都是可以进行语义挖掘的,但是一般人无法使用,需要专业的数据公司进行精确化处理。
涂子沛:视频数据越来越多,现在语义分析的难点在哪里,不仅是数字挖掘,还包括视频挖掘、图像挖掘。比如,某位经济学家现在发表了一个什么观点,那么我们需要把他历次发表过的观点、他出现过的视频很快地进行挖掘,现在这个技术在很多领域都可以使用。再比如,所有在镜头中出现过玫瑰花的电影,你能否一下子把它找出来?这些语义发掘正显示出越来越重要的意义。
读者:大数据的行业前景如何?哪个行业在我们国家比较有前景?
涂子沛:中国面临的问题是大数据落地很难,难在哪里?首先一个原因是缺少数据运用的内驱力,比如,电信有那么多数据,但它没有驱动力去分析这些数据。它有很多领域可以赚钱,为什么还要去分析数据?但如果它需要面对充分的市场竞争,需要它对竞争的应对更加精细化,自然就会进行数据挖掘。究竟哪个领域,更容易落地?领域很多,比如气候,气候数据非常大,真正海量数据,还有交通数据,也是非常庞大的数据,每个摄像头产生的数据,经过分析和运用都是财富。虽然大数据目前在中国落地很难,但这是一个未来的趋势。
李常青:产生大数据的行业条件是,它需要有很多数据的积累,有人认为在中国只有大的互联网公司能做大数据,这个观点我不大认同。但是反过来看,可能会合理很多,说中国做大了的互联网公司都在做大数据,这个我是认同的,因为一方面是因为他们积累了很多用户交易数据,才可能延伸出更多的运用,催生出新的商业机会。就中国来讲,目前发展不错的行业,也能够佐证我这个观点,比如定位系统的行业,一是它数据量大、准确度高,再一个它跟你的生活关联度较高,这类行业的商业机会会好一些。另外一个我所从事的金融数据业,我也很看好,金融行业的数据量很大,各个金融机构产生的数据都是我们分析的对象,同时我们还需要关注外界对他们的评价,各种新闻、各种消息,都是我们的基础数据,这些数据挖掘、运用得好,数据增值空间会很大。所以,数据量大,跟生活关系密切,数据挖掘和数据结构做得比较合理的话,可能都是很好的商业机会。
读者:我们如何通过改变思维方式来推动大数据在中国落地?
涂子沛:还是要改变思维惯性,重视数据,在中国做大数据要从小数据做起。大数据对于中国为什么那么重要?我想它对中国社会的特殊意义在于,不仅仅是一个技术浪潮,也是中国社会提高对数据认识的契机,我们需要用数据来说话,成为论证自己的工具。数据的精神归根到底是理性的精神,数据归根到底是对世界的一个客观反映,中国社会缺乏这种精神,阅读和分析数据应该成为一个人的知识结构中很基础的一部分。