7月18日,MSG企业行在南京顺利举办。数十家创新科技企业的行业精英齐聚一堂,在江苏腾人工智能生态创新中心与AI领域的爱好者们共同开展了一场干货满满的技术交流会。
21世纪是数字爆炸的时代,也是人工智能技术走向了全面应用的时代。而疫情后,产业智能化的蓬勃发展同时也加剧了AI行业的激烈竞争。如何搭建创新技术产品、如何实现场景落地、如何进一步提升市场竞争力成为每家创新成长型 AI 企业所面临最大的挑战,也是创新成长型人工智能企业需要聚焦思考的重点。
在这场名为“在AI时代创业 数据驱动新格局”的演讲中,格物钛市场总监李晓雪介绍了格物钛的发展理念与产品核心,并从行业发展的角度向现场观众生动形象的讲述了数据开源对未来的重要意义。她表示:“整个AI行业正在由以模型为中心的开发模式,向着以数据为中心的开发模式发展。因此数据就是AI时代的创新动力,也是AI时代的新能源。”
以下为格物钛市场总监李晓雪演讲全文:
各位领导和嘉宾们,大家上午好。我是格物钛的李晓雪。很高兴受到Mindspore的邀请,有机会跟大家分享格物钛对于未来AI创新格局的看法,以及数据对于这个格局的影响。
在分享开头,我想让大家拿出自己的手机。看一看你的手机里还剩多少内存,想一想是不是2010年智能手机普及以来,我们习惯了用它拍照、录音、发抖音,像素越来越高、文件越来越大、数据越积越多。
随之而来的,就是非结构化数据的激增。什么是非结构化数据?数据结构不完整或不规则,不能够用数据库二维逻辑表来呈现的数据,像图像、语音、视频等等。据统计80%的企业数据是非结构化数据,它的特点和挑战在于,规模海量、分散、形式多样、关系复杂。
我们都知道人工智能的核心三要素,算力、算法、数据。数据是基础的基矗模型的搭建是一个庞大且复杂的工程,AI开发者在进行开发的初期,要花大量心思在数据收集、清洗和管理等数个环节。海量的、复杂的非结构化数据,无疑给AI开发进程又蒙上一道阴影。
以自动驾驶为例,请大家跟我一起想象,一辆自动驾驶汽车,50多颗传感器,20多个800万像素的摄像头、8个高线束激光雷达,每一天在不同场景下产生的非结构化数据,路况如何、行人多少,每秒钟产生的数据量几乎相当于3部电影,动态静态叠加的数据之大超乎想象。面对井喷式的海量数据,一个企业该如何存储、提娶有效管理?
借此机会,我想分享我们格物钛在做哪些事情。我们研发了TensorBay这款产品,专注于非结构化数据管理,希望帮助AI开发者和团队进行统一的数据云端托管、不同版本管理、在线可视化、高效协同等等,去帮助他们找到需要的数据、让标注效率加倍、随时评估质量和管理。还是以自动驾驶为例,原本需要以月为单位计算的数据准备过程,一款TensorBay可以把时间缩短到以小时为单位。
在机器学习领域,现在有两种哲学,一种是专研模型的迭代,这是Model-Centric;而格物钛推崇的是Data-Centric, 模型固定、让数据不断迭代。上个阶段的发展,代码是一切,有了代码就完成了软件开发,进而改变了整个社会构造和我们的生活方式。而我们认为,Data is the new code.数据就是AI时代的创新动力,是AI时代的新能源。
AI产业发展,首先要推动AI基础架构上的难点,我们希望帮助开发者能够更高效地去进行开发。我们相信,整个AI行业正在由以模型为中心的开发模式,向着以数据为中心的开发模式发展。因此数据正扮演着越来越重要的角色。
最后我想跟大家讲的是,如今我们的生活剧变,大部分是由开源代码所带来的;数据是AI时代的新代码,请大家想象一下,当开源数据成为机器学习的资源,未来又会带来怎样的颠覆性改变呢?
我们的公开数据集社区Open Datasets,希望将开源数据的发布和使用的门槛降低。去帮助企业:
发现积累数据的新创新应用,拓宽产品线或改善现有产品,提供更好的用户体验;
将内部的标准推动成全社区的标准,因为一个数据被使用的多了,它的组织形式就会成为既定的标准;
为更大的产业价值网发光发热,推动构建创新链、价值链的创新生态体系。
最后的最后,我想借此机会发出呼吁:格物钛希望和大家一起出发,创造更多的数据管理工具和更活跃的开放数据社区,去加速释放数据的底层价值,去改变未来基于AI的全球创新。谢谢大家!