创新工场联合搜狗等公司共同宣布携手发起“AI Challenger全球AI挑战赛”,希望借此打造中国最大的科研数据集与世界级AI竞赛平台,推动中国人工智能领域科研创新。
在人工智能领域,数据的质和量是科学研究与产品技术研发的核心。高质量训练数据对机器学习模型的建立和优化有关键性的作用。建立大规模、高水准的标注数据集,是推动AI科研和技术前进的驱动力。举办方称,AI Challenger大赛第一年启动将开放超过1000万条中英文翻译数据、70万个人体动作分析标注数据、30万张图片场景标注和语义描述数据,或是国内迄今公开的规模最大的科研数据集。基于此次开放的数据集,AI Challenger全球挑战赛面向全球AI科研人才广发英雄帖,致力于促进人工智能行业向更为开放、融合以及国际化的方向发展。
创新工场董事长暨CEO、创新工场人工智能工程院院长李开复曾多次在公开场合表示自己看好人工智能,认为未来十年之内人工智能将改变整个世界,甚至会是比工业革命影响更大的革命。当下伴随互联网和移动互联网而来的大数据、高效的计算机运算能力等条件都齐备的环境下,开放数据集和竞赛平台对于AI科研与开发人员是个难得的契机。“AI Challenger致力于解决数据集缺失的问题,为人工智能科研免费提供海量数据,辅以强大的学术界和产业界专家指导,全力支持国内外的高校、研究机构、产业界科研人才一起来挑战人工智能的未来可能性。”
搜狗CEO王小川也认为人工智能本质是建立在大数据和机器学习的基础之上,搜狗为了这次比赛也做了很多数据方面的精选和填加。他介绍说,搜狗目前以语言为核心的人工智能技术,已经通过问答、语音和翻译等形态应用于搜狗搜索和输入法等诸多产品中,并积累的大量的用户与数据规模。其中搜狗的语音输入日频次已达2.6亿次。
今年7月份,举办了八届的ImageNet挑战赛由创始人之一李飞飞博士正式宣布退出历史舞台。国际上,ImageNet挑战赛曾是每年企业和研究者都极为看重的活动。另一机器学习竞赛平台Kaggle着眼于真实数据和真实问题的解决方案,同样吸引了全球将近百万数据科学家和研究者进行挑战和探索其多元化的公开数据集。
李开复今日透露,创新工尝搜狗等计划在未来三年间投入数千万规模资金来完善平台的建设、扩大数据集的规模,希望AI Challenger在三年内打造来自中国的世界级AI开放数据和竞赛平台,成为推进全球人工智能研究和产业前进的新引擎。
据介绍,此次三方联合开放的AI Challenger数据集涵盖多个领域,包括大规模人体骨骼关键点数据集(用于无人驾驶、安防、体感游戏等场景)、大规模图像中文描述数据集(用于图像和视频内容理解、图像标题自动生成等各类应用)、大规模口语领域英中翻译数据集(用于同声传译等自然语言处理的各类应用)等。2017年竞赛将区分为五个竞赛任务供参赛者组队报名,设有共计200万元人民币的奖金池。自9月5日起开放参赛队伍线上进行数据集下载,三个月竞赛持续直到12月。未来“AI Challenger·全球AI挑战赛”或将扩大涵盖自动驾驶、智慧医疗、智慧金融、机器人等行业应用中的核心AI需求。(锡安)