近日,Meta 研发出一款新的 AI 系统Few-Shot Learner(FSL)。
如今,互联网上的一些有害内容演变速度非常快,而传统 AI 系统通常需要花费几个月的时间来收集和标记大量数据内容,然后才能识别一种新类型内容。这并不能满足快速识别新型有害内容的需求。
Meta 则表示,FSL 可以更快地发现错误信息,且只需要少量,甚至零的训练数据。具体来说,其可以在几周,而不是几个月的时间内对新的或正在进化的有害内容进行有效识别。
如果把传统的 AI 系统比作捕鱼线,那 FSL 好比一张渔网,可以捕获各种类型的鱼。
图 | Few-Shot Learner(来源:Meta)
据悉,FSL 适用的语言可达到 100 多种,除了能从图像、文本等不同类型的数据中学习,还可以加强现有的 AI 模型。
目前,FSL 已被应用在 Facebook、Instagram 等平台上。
与之前依赖于模式匹配带标签数据的AI系统不同,FSL 可以隐式学习策略文本。在解释 FSL 的产生过程时,Meta 说,“其先接受了数十亿个通用语言和开源语言示例的培训,又接受了违反政策的内容和我们多年来标记的边界内容的训练,还学习了如何用简洁的文本解释新政策。”
图 | 传统 AI 系统和 Few-Shot Learner 的对比(来源:Meta)
Meta 进一步说,“由于在自我监督学习技术和新的超高效的基础设施领域的突破,使得我们可以从传统的、定制的 AI 系统转向更大的、更加统一的系统,从而减少对标记数据的依赖。”
据了解,FSL 用到了一种少样本学习方法(Few-Shot Learning)。
Meta 将自己提出的方法与几种现有较先进的小样本学习方法进行了比较,并通过一系列的系统评价,结果表明,Meta的方法效率可以比其他方法高出 55%(平均高 12%)。
Meta 表示,FSL 是一种大规模、多模式、多语言、零样本或少样本 AI 模型,其能够实现联合策略和内容的理解。“我们正在积极开展研究,以培训使用简单的带有某种策略的语句,而不是成百上千带标签的例子的模型。”
FSL 主要是在零样本、少样本演示和具有微调的低样本场景中工作,每个场景都需要不同级别的标记示例。
FSL 的总体输入包括三个部分。首先,其从整个帖子中学习多模态信息,包括文本、图像、 URL 等。之后,分析与策略相关的信息,比如策略的定义,或者标记示例来表明某个特定的帖子是否违反了策略定义。最后,如有必要,可将其他带有标签的示例作为示范。
(来源:Meta)
在一些相对较新的事件上,Meta 对 FSL 进行了测试。其最近的一项任务就是识别那些有误导性或耸人听闻的信息,并成功阻止了大量反新冠疫苗(例如,“疫苗或 DNA 改变者?”)的帖子。
在另一个单独的任务中,FSL 改进了一个现有的分类器,可以标记接近于煽动暴力的内容,例如,“那个家伙需要他所有的牙齿吗?”而传统的方法可能已经错过了上述类型的帖子。
(来源:Meta)
Meta 还通过标准化的离线和在线 A/B 测试协议来衡量 AI 模型的性能。其研究了 FSL 在 Facebook 和 Instagram 上推出前后,有害内容分别的流行程度。简单来说,即人们看到的有害内容的百分比变化。
研究表明,FSL 能够正确地检测到传统 AI 系统可能遗漏的帖子,并帮助减少这些有害类型内容在社交平台上的传播。而且,结合现有的分类器,FSL 还有助于减少仇恨言论等内容的流行。
(来源:Meta)
“我们正在进行额外的测试,以改进分类器,使其能够从更多的标记训练数据中受益,就像那些在没有大量标记训练数据的语言国家中那样,我们将继续在新出现的违规内容模式中进行测试。”Meta 说道。
不过,现在智能化、通用化 AI 模型还处于早期发展阶段,到其能够理解几十页的政策文本并立即知道如何执行之前,还有很长的路要走。
对于没有大量标记培训数据的内容类型,快速执行的能力可以使 FSL 变得更加灵活,从而轻松应对各种新出现的挑战。
Meta 在少样本学习和零样本学习等尖端 AI 领域已经进行了大量研究和投资。其相信,随着不断发展,未来 FSL 可以通过所有完整的 AI 系统,利用单一的、共享的知识库,来处理众多不同类型的违规内容,从而弥补人类洞察力和分类器的不足。
Meta 同时表示,像 FSL 这样的成长型 AI 系统,可以显著提高其分辨新兴状况的敏捷性,并通过更快、更准确地识别不断变化的有害内容,来营造一个更良好的社区氛围。
来源:DeepTech深科技
-------------------END-------------------
看累了吗?戳一下“在看”支持我们吧!