世上没有绝对的垃圾,只有放错位置的资源。
在数字原住民的 Z 世代的口口相传中,「互联网时代 99% 的公开信息都是垃圾」的粗略定义早已见怪不怪了,而有趣的是,彼之砒霜,我之蜜糖,以 Google 为代表的 AI 巨头却开始盯上了这些互联网上公开的信息。
近日,搜索引擎巨头 Google 更新了其隐私政策,将使用互联网上的公开信息训练 AI 模型。隐私政策中写到,Google 现可通过收集网络上的公开信息或来自其他公共来源的信息,以帮助训练Google的AI模型并打造实用功能,如 Google 翻译、Bard 和 Google 云 AI,此外,Google 将还原本的「语言模型」更改为「AI 模型」。
据媒体 OSCHINA 分析指出,这项政策更新表明, Google 现在正在向公众及其用户明确表示,他们在网上公开发布的任何内容都可以用 Bard 和其未来版本,以及 Google 开发的任何其他生成人工智能产品。
生成式人工智能 AIGC 系统通常会根据互联网上的海量通用数据进行预先训练,从而大幅提升 AI 的泛化性、通用性、实用性,而这难免会陷入版权、隐私的纠纷。
对于这个困境,可能暂时没有谁比 OpenAI 更理解了。
就在不久前,人工智能聊天机器人 ChatGPT 母公司 OpenAI 被两名美国作家在旧金山联邦法院提起诉讼,声称 OpenAI 没有获得版权授权,就滥用他们的作品来训练人工智能。
被曝光的起诉书显示,OpenAI 的训练数据超过 30 万本书,其中就包括本就饱受争议,版权归属不清晰的「影子图书馆」(大多是以侵犯版权的方式向公众免费提供书籍文献内容的线上网站)。
此外就在昨天,OpenAI 宣布,将暂时禁用 ChatGPT 的官方网页浏览模式,而这或许与 ChatGPT 被曝能够翻阅付费墙,获取隐藏的付费内容有关。继美国作家版权诉讼事件之后,舆论之下,OpenAI 再次深陷版权风波。
因此,在 OpenAI 被诉讼的前车之鉴下,Google 未雨绸缪地更新隐私政策,提前给自己套上一个盾倒也合情合理。
虽然这一举措有效降低了 Google 「吃官司」的风险,却也将生成式人工智能使用海量网络数据进行训练的事实赤裸裸地摆在明面上,因此难免引发大众对于隐私权的担忧。外媒 Gizmodo 对此也评论认为,这是一种新的、有趣的隐私问题。
事实上,即使人们普遍理解网上公开发布的数据信息是开放自由的,对数据信息有可能被他人访问是有一个心理预期的,但是如果网络上海量数据信息被互联网 AI 巨头当做自家后花园,肆意使用以训练人工智能,相信不少人会凭空产生被侵犯个人领域的「别扭感」,从而对此持着一种较为谨慎的态度。
被这个问题困扰的不止普通用户,埃隆马斯克近日宣布 Twitter 将「临时限制」用户每日阅读推文数量:未验证的账户每天只能看到 600 条推文,对于新的未验证账户,一天只能看到 300 条。经过验证的账户每天只能阅读 6000 条帖子。
马斯克表示,这是因为有几百个组织(包括一些 AI 公司)正在抓取 Twitter 数据,以至于影响了真实用户的体验。
只不过,时代列车前行的轰隆声,有时足以淹没乘客充满异议的嘈杂。
如果 Google 这一举措合法合规,且得到 AI 巨头们的纷纷效仿,或许有一天,我们都会从生成式人工智能中找到自己存在的痕迹。