展会信息港展会大全

大数据过时了:这种方向或将成为 AI 研究的领头羊
来源:互联网   发布日期:2021-11-16 08:18:52   浏览:56319次  

导读:来源 Scientific American 原作 Husanjot Chahal Helen Toner 翻译 董聿恒 编辑 魏潇 大多数人在听到人工智能这个词时,都会联想到大数据。这是有原因的:过去数十年间,AI 领域许多重要的突破都有赖于巨大的数据集。图像分类领域自 2010 年以来前进了一大步...

大数据过时了:这种方向或将成为 AI 研究的领头羊

来源 Scientific American

原作 Husanjot Chahal & Helen Toner

翻译 董聿恒

编辑 魏潇

大多数人在听到“人工智能”这个词时,都会联想到“大数据”。这是有原因的:过去数十年间,AI 领域许多重要的突破都有赖于巨大的数据集。图像分类领域自 2010 年以来前进了一大步,这很大程度要归功于含有数百万张,被人工分类成上千个类别的大型图片数据集 ImageNet。近期发布的 GPT-3 语言模型可以使用深度学习来生成近似于人类创作的文本,它受益于互联网上数千亿词的文本训练。所以,在公众的认识中“AI”和“大数据”的联系如此紧密也完全不足为奇了。然而,AI 并不是只和庞大的数据集相关,关于“小数据”的研究在过去十年间发展迅速,例如“迁移学习(transfer learning)”就是其中一种成效显著的方法。

迁移学习也被称为“微调(fine-tuning)”,当你手上针对目标研究对象的数据较少,但相关的其他问题数据较多时,这种方法尤为有效。它的原理是首先利用大数据集训练出一个模型,然后用和你要研究的特定问题相关的小数据集再做一次轻度训练。举几个例子,来自印度班加罗尔的一个研究团队通过迁移学习的手段对一个 ImageNet 分类器进行了微调,用了仅仅 45 个训练范例就完成了一个能从超声图片中定位肾脏的 AI 模型。而另一个研究德语语音识别的团队发现他们可以先找来一个用大数据训练出来的英语语音识别模型,然后用迁移学习对其进行调整让它可以识别德语音频,最后得到的模型确实具备了更好的性能。

在过去十年间,对于迁移学习的研究取得了令人振奋的进展。美国乔治城大学安全与新兴技术中心(Georgetown University’s Center for Security and Emerging Technology)发布的一项新的分析报告将“小数据”方案大致上分成了五个门类:迁移学习、数据分类(data labeling)、人工数据生成(artificial data generation)、贝叶斯方法(Bayesian methods)和强化学习(reinforcement learning)。我们的分析发现迁移学习的发展格外瞩目,在过去十年的增长率最高也最为稳定。它的增长甚至超过了更加成熟范围也更大的强化学习门类,要知道后者在近些年已经获得了大量关注。

不止如此,迁移学习在不久的未来只会发展得更好。使用三年增长率预测模型,我们分析:到 2023 年,整个小数据研究领域中迁移学习技术会成为增长最快的门类。事实上,我们预测出的迁移学习增长速率会远远高于 AI 研究整体的增长率。这表明迁移学习很可能会被应用在更广阔的领域中。

以迁移学习为代表的小数据方案,对数据密集型方案助益良多。通过用较少的数据来驱动 AI,小数据对那些只能收集到很少数据,甚至无法收集数据的研究领域尤其有利。比如预报那些相对来说比较少见的自然灾害,或者预测特定疾病对于一些没有数字健康记录的人群的风险。一些研究者相信,目前为止,AI 在那些能收集到更多数据的领域更为成功。在这个基础上,例如迁移学习会变得更加重要。因为越来越多的组织在尝试拓宽 AI 的应用范围,开拓更多的处女地。

另一个认识迁移学习价值的角度是AI 的通用性。长期以来,AI 的使用一直存在这样一项挑战:让 AI 模型在它们的训练集之外更加“通用”。也就是说,AI 模型在面对一个比特定的训练集更加宽泛的“问题”(输入)时,也能给出很好的“答案”(输出)。因为迁移学习的原理就是将针对一个问题的知识迁移到另一个问题上,所以这个方法对于提升模型对新任务的通用性大有帮助,哪怕只有极少的可用数据也可以成功工作。

进一步来讲,迁移学习可以利用预训练模型缩短训练时间,并且减少对训练所需的计算资源的需求。这种效率上的提升是非常可观的。要知道,训练每一个大型神经网络的过程都要消耗大量的能量,二氧化碳排放量相当于大约五辆美国轿车的全寿命排放。

当然,对于不同的情况,使用预训练模型去解决新任务的效果也不尽相同。如果初始问题和目标问题的相似度不够高,迁移学习的效率就会大打折扣。对于某些领域来说,这个问题尤其严重,例如医学影像。在这个领域中,许多任务在数据大孝属性和任务要求上和以自然图片为主的数据集(例如 ImageNet)有着本质的区别。目前研究者们还在致力于研究有用的信息是如何在模型之间迁移的,以及不同的模型结构是如何阻碍或帮助这种迁移和微调的。希望对这些问题进一步的研究和实践应用能够拓宽迁移学习的应用范畴。

包括吴恩达(Andrew Ng)在内的许多 AI 专家都强调了迁移学习的重要意义。他们甚至表示这种方法会是机器学习在工业界取得成功的新驱动。目前为止迁移学习已经有不少成功的应用,癌症分类、电子游戏、垃圾邮件标记等很多领域都有这一方法的参与。

不过,尽管相关研究与日俱增,迁移学习的曝光度相对来说却不是很高。如今,当机器学习专家和数据科学家们对它们越来越熟悉的时候,那些在 AI 技术的采用和资金支持上有重要发言权的政策制定者们和商业领袖们,对包括迁移学习在内的这些技术的关注度还不够。

通过普及像迁移学习这样的小数据技术所取得的成果,以及分配更多的资源去支持它们的广泛应用,我们可以修正一些人工智能领域中广泛存在的、对于数据所扮演角色的误解,在新方向上助力 AI 发展。

https://www.scientificamerican.com/article/small-data-are-also-crucial-for-machine-learning/

点击在看,分享给更多小伙伴


赞助本站

AiLab云推荐
推荐内容
展开

热门栏目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能实验室 版权所有    关于我们 | 联系我们 | 广告服务 | 公司动态 | 免责声明 | 隐私条款 | 工作机会 | 展会港