中科院计算所数研院
喊你参加BDCI国际数据智能大赛了!
倒计时2天!CCF BDCI国际数据智能大赛:规模大、含金量高、奖励丰厚、价值足......
高校免费公益参赛且有丰厚奖金与就业绿色通道等奖励!
2020年最值得参与的国际大数据与AI赛事之一
你,还不来吗?
大赛介绍
CCF大数据与计算智能大赛(CCF Computing Intelligence Contest,简称CCF BDCI)由中国计算机学会于2013年创办。大赛由教育部教学指导委员会、国家自然科学基金委员会指导,是大数据与人工智能领域的算法、应用、系统、创业大型挑战赛事。大赛已经成为中国大数据与人工智能领域最具影响力的活动之一,是大数据综合赛事第一品牌。
2020年,第八届CCF BDCI大赛开赛。本次大赛分为大数据算法赛道、自主平台赛道、先进系统赛道、创新创业赛道、训练赛道共“五大赛道”,通过此系列联赛,助力国家发展战略,通过多种形式的赛道,考察参赛者的算法能力、应用创新能力、基础系统优化以及实践应用能力,发掘优秀团队,通过线下赛评审、嘉奖,推动作品应用落地。
10大亮点
亮点1:国际级规模赛事
大赛由中国计算机学会主办,教育部计算机类教学指导委员会、国家自然科学基金委员会信息科学部指导,CCF大数据专家委员会、CCF自然语言处理专业委员会、CCF数据库专业委员会、CCF高性能计算专业委员会、CCF人工智能与模式识别专业委员会、CCF计算机安全专业委员会、教育部易班发展中心、DataFountain联合承办。
亮点2:顶级专家评审指导
顶级专家评审指导梅宏、李国杰、倪光南、徐宗本、吴建平、郑纬民六大院士指导,国内外150余学术专家评审,百度、华为等多家名企技术专家参评。权威阵容,只为优秀的你。
亮点3:全新自主平台赛道
参赛者可通过使用国产AI开源框架,深入研究相应算法赛题。
全新赛道,等你来战。
亮点4:免费计算资源报名即领
凡成功报名大赛任意赛题,且身份为在校学生,即送云计算资源。算力从来都不是问题,现在就开始才是关键。
亮点5:一次性开放10余道赛
涉及互联网、金融、大数据、交通、安全、地产等多个领域,文本、图片、视频多种数据,图像识别、分类预测、系统优化、NLP等多项技术,算法题、方案题、系统题多种类型。
高质量赛题,一次把握。
亮点6:赛练结合新模式
除了正式赛道竞技赛外,特别针对不同技术方向,出具训练赛题,鼓励在训练赛道开源分享,帮助初学者锻炼基础能力,辅助高校开展相关专业及课程教学实践工作。体验真正的数据科学实战,可以边学边战。
亮点7:真诚靠谱的赛事激励
除高额奖金,任意一道赛题进复赛即获得招聘绿色通道,有意向创业可获得知名投资机构孵化扶持,纪念品大礼包花样繁多,周冠军、幸运星派奖到手软。
为了优秀的作品和优秀的你,值得。
亮点8:远远不只是一场竞赛
参赛即有大量机会获得决赛观礼卡,与300名入围参赛者,150名领域顶尖专家,共度两天一夜“决赛嘉年华”,评审、论坛、聚会全都有,差旅食宿都安排。
数据科学家年度盛会,不容错过。
亮点9:携手精英共建开源
所有决赛入围作品,条件允许情况下将统一开源,借由全球的技术精英的力量,让所有大数据及人工智能学习者、从业者受益。
开源之路,与你同行。
亮点10:反作弊机制净化赛圈
全自动反作弊机制贯彻大赛始终,违规禁赛黑名单长期开放,晋级代码云端逐行复核,特设仲裁委员会公正判决。
和DF一起,维护赛圈公平。
如果你精通各类算法,热爱编程?
快来大数据算法赛道
与数据科学爱好者“码”上PK!
如果你热衷于研究算法,喜欢钻研?
快来自主平台赛道
即刻体验国产AI开源框架!
如果你逻辑思维极强,善于构建方案?
快来先进系统赛道
提升系统优化能力!
如果你有奇思妙想,想应用于行业场景?
快来创新创业赛道
构建创新项目!
如果你没有竞赛经验,但跃跃欲试?
快来训练赛道
开启你的第一场竞赛!
大数据算法赛道
01. 百度
赛题名称:千言:多技能对话
赛题奖金: 5万
技术方向:对话系统
赛题概要:
开放域对话技术旨在建立一个开放域的多轮对话系统,使得机器可以畅自然地与人进行语言交互,目前,学术界已经公开了多个面向开放域对话建模的开源数据集。但大多数研究工作仅关注模型在单一或少量数据集上的效果,与真正很好的解决开放域对话这一技术挑战还有一定距离。
为了解决这个问题,我们需要有一套评估全面,领域覆盖广的公开评测数据集。本次竞赛主要基于百度千言数据集(https://luge.ai)及清华开放数据集(https://github.com/thu-coai/CDial-GPT),这些数据集收集了一系列公开的开放域对话数据,并对数据进行了统一的整理以及提供了统一的评测方式,期望从多个技能、多个领域的角度对模型效果进行综合评价。
本次评测的开放域对话数据集包含多个数据,涵盖了多个功能场景:包括日常闲聊对话,知识对话、推荐对话等。我们旨在衡量开放域对话模型在各个不同技能上的效果和模型通用性,参赛者所构建的模型需要同时具备上述三项能力。
02. 华为
赛题名称:大数据时代的Serverless工作负载预测
赛题奖金: 5万
技术方向:回归预测
赛题概要:
云计算时代,Serverless软件架构可根据业务工作负载进行弹性资源调整,这种方式可以有效减少资源在空闲期的浪费以及在繁忙期的业务过载,同时给用户带来极致的性价比服务。在弹性资源调度的背后,对工作负载的预测是一个重要环节。如何快速感知业务的坡峰波谷,是一个实用的Serverless服务应该考虑的问题。
本赛题从实际的应用场景出发,提供对业务工作负载的监控数据,希望参赛者可以针对历史的时序数据信息,对未来的用户工作负载做出预测。
难度与挑战:
1. 模型的准确性。模型的度量指标;
2. 模型的抗干扰能力。能应对异常数据的干扰;
3. 模型的通用性。不依靠堆叠模型提升效果。
03. 贝壳
赛题名称:房产行业聊天问答匹配
赛题奖金: 10万
技术方向:文本分类
赛题概要:
贝壳找房是以技术驱动的品质居住服务平台,“有尊严的服务者、更美好的居住”,是贝壳的使命。在帮助客户实现更美好的居住过程中,客户会和服务者(房产经纪人)反复深入交流对居住的要求,这个交流发生在贝壳APP上的IM中。
IM交流是双方建立信任的必要环节,客户需要在这个场景下经常向服务者咨询许多问题,而服务者是否为客户提供了感受良好、解答专业的服务就很重要,贝壳平台对此非常关注。因此,需要准确找出服务者是否回答了客户的问题,并进一步判断回答得是否准确得体,随着贝壳平台规模扩大,需要AI参与这个过程。
04. 题拍拍
赛题名称:小学数学应用题自动解题
赛题奖金: 5万
技术方向:知识挖掘
赛题概要:
阅读理解是近年来NLU的一个常见任务,通常要求在大段文本中理解关键信息。由于很多关键信息直接来源于文本的关键句子,所以很难衡量模型本身的”理解能力“,而机器对内容的理解是衡量AI在教育领域发展的一个重要依据。应用题包含简单的文字表述,相对密集的推理和计算,是评估机器阅读理解能力的一个重要场景。同时,应用题也是K12教研的重要组成部分,如果机器能完美的理解题意,将会给AI在教育中的发展产生巨大的想象空间。
本赛题任务是为了衡量现有机器学习模型在应用题理解方面的能力,模型读入一个应用题,输出该题的结果。为了降低任务的难度,赛题选择小学数学1-6年级校内题目。
05. 滴滴出行
赛题名称:路况状态时空预测
赛题奖金: 5万
技术方向:回归预测
赛题概要:
移动互联网时代的到来让所有移动设备的持有者都可以成为道路通行能力的描绘者,滴滴平台收集了海量的高质量司乘轨迹数据,可以对实时道路拥堵状况有良好的建模能力。如果可以基于实时和历史的路况信息,对未来的路况状态有较精准的预估,无疑对出行决策,缓解城市拥堵等场景有至关重要的作用。
然而,未来的路况预估仍然是十分困难的,未来路况会受到时间周期、道路通行能力、路网上下游拓扑、导航流量以及道路突然状况等多种因素的影响。此次竞赛诚邀参赛者基于滴滴提供的实时与历史路况状态信息以及道路属性等信息,精准预估未来某时间段内的路况状态,助力城市规划与智能出行方案。
06. 明朝万达
赛题名称:面向数据安全治理的数据内容智能发现与分级分类
赛题奖金: 5万
技术方向:文本分类
赛题概要:
随着企业信息化水平的不断提高,数据共享与开放对企业发展的作用日益凸显,数据已成为重要生产要素之一,而为了有效、规范保护企业较为敏感的数据,其首要问题是对数据进行分级分类,以识别敏感数据,从而进一步围绕保护对象的全生命周期进行开放、动态的数据安全治理,解决数据开放共享与数据隐私保护的矛盾与统一。
现有的敏感数据识别与分级分类已广泛采用基于自然语言处理的语义识别技术,但会存在以下问题:需要有大批量、高质量的标注数据,花费大量的人力和时间,建设成本高; 泛化能力不足,对新业务数据的适应能力弱,敏感数据的误报率和漏报率高;不能进行自我优化、自我学习,需要业务和技术领域专家共同进行人工干预,建设难度大。
本赛题任务是识别样本中的敏感数据,构建基于敏感数据本体的分级分类模型,判断数据所属的类别以及级别。
07. 明略科技
赛题名称:非结构化商业文本信息中隐私信息识别
赛题奖金: 2万
技术方向:关系抽取
赛题概要:
随着社交网络、移动通讯等技术的迅速发展,网络中存在大量包含隐私数据的文本信息,如何在非结构化的本文信息中精准识别隐私数据并对其进行保护已经成为隐私保护领域中亟需解决的问题。
例如,商业领域中,在保证双方隐私信息(公司及其客户的技术数据等)不被非相关人员或企业泄漏的情况下收集客户需求并进行挖掘是较为困难的,往往需要对本文中的隐私数据提取后进行进一步的匿名化等隐私保护操作。现有的隐私保护方法,如K-匿名、差分隐私等技术较为成熟,但缺少对隐私信息识别的关键技术。
针对这一问题,本赛题将关注点集中在隐私属性的识别问题中,针对非结构化的本文信息进行分析,对文本中所涉及到的隐私信息精准提龋该任务为后续隐私保护操作提供强有力的支撑,是隐私保护领域的重要前提。
08. 中国科大智慧城市研究院
赛题名称:企业非法集资风险预测
赛题奖金: 5万
技术方向:异常预测
赛题概要:
非法集资严重干扰了正常的经济、金融秩序,使参与者遭受经济损失,甚至生活陷入困境,极易引发社会不稳定和大量社会治安问题,甚至引发局部地区的社会动荡。如何根据大量的企业信息建立预测模型并判断企业是否存在非法集资风险,对监管部门、企业合作伙伴、投资者都具有一定的价值。
利用机器学习、深度学习等方法训练一个预测模型,该模型可学习企业的相关信息,以预测企业是否存在非法集资风险。赛题的难点在于数据集包括大量的企业相关信息,如何从中提取有效的特征并进行风险预测成为本赛题的关键问题。
先进系统赛道
01. 华中科技大学服务计算技术与系统教育部重点实验室
赛题名称:大规模图数据的求解kmax-truss问题算法设计与优化
赛题奖金: 5万
技术方向:性能优化
赛题概要:
大数据时代,随着图数据规模的不断扩大,对大型图进行分析处理的成本越来越高,因此研究人员经常通过分析大型图中的稠密子图来获得大型图的主要特征。团(clique)是一种典型的稠密子图结构,它要求子图中任一顶点都和剩余所有顶点相邻(用无向边连接)。
k-truss是由Jonathan Cohen于2008年提出的另一种稠密子图结构,它由团的概念衍生而来。k-truss放宽了结构约束,仅要求图中每条边至少属于(k-2)个三角形。k-truss是一种分层递进的子图结构, 3-truss ~ kmax-truss刻画了不同稠密程度的网络核心,它们彼此间是包含关系,即一个4-truss可以是一个3-truss的子图,一个5-truss可以是一个4-truss的子图。图2展示了truss间的包含关系,其中浅色部分是图的3-truss部分(每条边至少属于一个三角形),而深色部分是图的4-truss部分(每条边至少属于两个三角形),同时也是图的5-truss(每条边至少属于三个三角形)。k-truss在现实生活中有着丰富的应用,例如在社交网络中,k-truss经常用于发掘关系紧密的团体。
02. 锐安科技
赛题名称:基于大数据的互联网虚拟身份归一处理性能优化
赛题奖金: 5万
技术方向:性能优化
赛题概要:
随着近年来互联网的高速发展,各种类型多样的网络应用程序呈现爆炸式增长,人们对于互联网的依赖迅速增长,与现实社会不同的是,用户可以通过网络虚拟身份而非真实身份实现所有的网络行为,网民拥有的网络虚拟身份组成了一个巨大的虚拟网络社区,社区中的虚拟身份可能有着直接或者间接的关系。
而在移动互联网时代,每天都会产生海量的数据,如现实生活中的住宿、驾车、出行等,虚拟世界中的即时通讯、第三方支付等;数据量大、无统一的标识特征,导致各类数据零散、无法关联,如何自动分析并将相关数据的身份进行归一化,成为提升海量数据分析能力和分析效率的工作难点。
本赛题目标为在从样本数据中,提取所有具有关联关系的虚拟身份信息进行归一化,识别多个属于同一个现实用户的所有虚拟身份,并将其合并到一起,最终生成一个虚拟身份库。
训练赛道
训练赛
【训练赛】是CCF BDCI大赛推出的全新概念赛事,基于公开数据集,出具自然语言处理、图像识别、分类预测等不同方向的较低难度赛题,旨在帮助参赛者了解竞赛参与流程,参赛者报名参赛后不限制作品总提交次数,利用平台自动评测功能,帮助参赛者自我检验,自我提升。
大赛赛程
09.29 赛题发布,开放报名
10.13 启动仪式,开放数据下载及作品评测
10.13-12.06 举办线上初赛,参赛者提交基础作品
12.07-12.18 作品提交截止,决赛入围资格审核
12月下旬 大赛决赛,答辩评审及颁奖典礼
奖金福利
【参赛选手奖项】
单赛题奖:单赛题将评选出一二三等共五支团队,各获奖团队队员均可获得奖金、证书、面试绿色通道等奖励。
CCF综合奖:CCF综合奖将评选出综合特等奖一名、最佳单项奖三名,参赛团队队员均可获得奖金、证书及相关荣誉。
参赛特别奖:在线上赛过程中将根据参赛团队每周排名、开源算法、开源挑战奖及人气奖等特别奖项。
【评审专家奖项】
优秀指导老师:CCF综合奖获奖团队指导教师均可获得优秀指导老师奖,并在决赛颁奖典礼颁发奖杯。
CCF评审专家证书:参与CCF BDCI评审的专家学者均可获得CCF评审专家奖杯。
突出贡献奖:参与CCF BDCI题目出具、走进高校的专家学者均可获得CCF突出贡献奖奖杯。
【合作伙伴奖项】
优秀案例:部分出题企业所出具的优质赛题可获得由CCF颁发的优秀案例奖杯。
优秀合作伙伴:部分出题企业将获得由CCF颁发的优秀合作伙伴奖杯。
组织单位
指导单位:教育部计算机类教学指导委员会、国家自然科学基金委员会信息科学部
主办单位:中国计算机学会
独家战略合作:百度
承办单位:
CCF大数据专家委员会、CCF自然语言处理专业委员会、CCF数据库专业委员会、CCF高性能计算专业委员会、CCF人工智能与模式识别专业委员会、CCF计算机安全专业委员会、CCF计算机应用专业委员会、教育部易班发展中心、数联众创
赛题合作:
百度、华为、贝壳找房、题拍拍、滴滴出行、华中科技大学服务计算技术与系统教育部重点实验室、明朝万达、明略科技、锐安科技、中国科大智慧城市研究院
协办单位:
信息技术新工科产学研联盟、北京大数据研究院、CSIAM大数据与人工智能专委会、AWS、中科院计算所大数据研究院、中科院计算所厦门数据研究院、中关村大数据产业联盟、中科天玑数据科技股份有限公司
合作媒体:
中央广播电视总台、人民日报、新华社、中新社、科技日报、凤凰网、中国国际教育电视台、腾讯媒体、今日头条
官方竞赛平台:DataFountain
【大赛组委会】
大赛指导委员会主席
梅 宏,中国科学院院士、中国人民解放军军事科学院副院长
李国杰,中国工程院院士、中科院计算所研究员
倪光南,中国工程院院士、中科院计算所研究员
徐宗本,中国科学院院士、西安交通大学教授
吴建平,中国工程院院士、清华大学教授
郑纬民,中国工程院院士,清华大学教授
大赛工作委员会主席
程学旗,中科院计算所研究员、CCF大数据专家委员会秘书长
陈恩红,中国科学技术大学教授、CCF大数据专家委员会副主任
陈跃国,中国人民大学教授、CCF数据库专业委员会秘书长
窦志成,中国人民大学教授、CCF大数据专家委员会副秘书长
高阳,南京大学教授、CCF人工智能与模式识别专业委员会秘书长
金波,公安部第三研究所所长助理、CCF大数据专业委员会常务委员
唐前临,公安部网络技术研发中心高级工程师、CCF计算机安全专业委员会秘书长
万小军,北京大学计算机科学技术研究所教授、CCF自然语言处理专业委员会秘书长
章文嵩,滴滴出行高级副总裁,CCF大数据专业委员会常务委员
张云泉,中科院计算所研究员、CCF高性能计算专业委员会秘书长
参与报名方式
大赛官网
第八届CCF BDCI国际数据智能大赛
https://www.datafountain.cn/special/BDCI2020?utm_source=3
参赛报名详情请扫码
河南省内高校参赛等合作咨询:数研院 孙老师
(咨询备注:CCF BDCI)
2020 CCF BDCI国际数据智能大赛全球启动仪式
线上发布会链接:http://suo.im/64tb74
10月13日 20:00
不见不散,等你来看!