对使用人工智能感兴趣的公司会面临一个巨大的挑战需要足够正确的数据来训练他们的系统。
这类公司需要大量带有标签的历史示例来训练AI系统,尤其是那些使用图像和视频的系统。这种需求催生了一个专门帮助其他企业注释数据的子行业。但是还有另一种方法来产生足够的数据来训练AI系统:制造它。
实质上,这就是一家快速成长的以色列初创公司DataGen专门从事的工作。该公司使用自己的机器学习系统来创建所谓的“合成数据”,如人工生成的静止图像和视频图像,然后交由客户用来训练自己的AI。
该方法仅需几个小时就可为其客户生成定制的合成数据集,相比之下,数据标签公司通常需要几个月来策划等效的现实世界视频或图像库。
除了速度优势之外,有了合成数据,公司不必担心存在于数据集中的任何个人识别信息,也不必担心数据如何收集的道德考量。随着世界上越来越多的人口受到数据保护法的保护,这一特性变得越来越重要。Gartner曾表示,到2023年,全球65%的个人数据将受到某种隐私监管,而去年这一比例仅为10%。
DataGen的联合创始人Ofir Chakon(首席执行官)(左)和技术负责人Gil Elbaz(右)创建了所谓的综合数据来训练AI系统。
DataGen的联合创始人Ofir Chakon(首席执行官)(左)和技术负责人Gil Elbaz(右)创建了所谓的综合数据来训练AI系统。
除此之外,在机器学习的训练中,数据偏差仍然可能是一个问题。在某些情况下,合成数据集可以简单地复制真实数据集中发现的相同偏差。不过该公司有可能消除偏见的方法,客户可以根据自己的意愿调整其生成的数据集,修改数据集里的任何参数,从而允许创建更多示例以确保AI系统知道如何处理这些异常或罕见情况。例如,当一个机器人在仓库周围导航时使用摄像机“看”,如果发生停电,仓库低级应急照明开关打开,会发生什么?这是一种罕见情况,而在现实世界的数据集中,要获得这些罕见案例的例子要困难得多。
通常情况下,只有一小部分可用数据被保留用于测试人工智能。人们很难测试足够多的罕见情况,以了解人工智能在现实世界中遇到相同或类似情况时的表现如何。合成数据集的出现,解决了过去无法解决的问题,或成为整个AI行业的推动者。
声明:本文版权归原作者所有,转载请注明出处,请勿转载至外网或用于商业用途。