【资料图】
编程客栈() 7月6日消息:谷歌已更新其隐私政策以确认从互联网上获取公开数据来训练其人工智能模型和服务,包括其聊天机器人 Bard 和现在可以实时生成查询答案的搜索引擎。
谷歌隐私政策的 PDF 版本中写道:「谷歌使用信息来改善我们的服务,并开发惠及我们的用户和公众的新产品、功能和技术。例如,我们使用公开可获取的信息来帮助训练编程客栈谷歌的人工智能模型,并构建 Google 翻译、Bard 和 Cloud AI 等产品和功能。」
这些变化定义了谷歌在人工智能训练方面的范围。此前,该政策只提到了「语言模型」并涉及到 Google 翻译。但现在的措辞已被修改为涵盖「AI 模型」,并包括 Bard 和其他在其云平台上构建的应用系统。
一位谷歌发言人称,这次更新并未从根本上改变他们训练人工智能模型的方式。该发言人在一份声明中表示:「我们的隐私政策一直透明地说明谷歌使用公开网络上的可获取信息来训练 Google 翻译等服务的语言模型。此次更新只是明确了 Bard 等较新的服务也包含在内。我们根据我们的 AI 原则在开发 AI 技术时javascript融入隐私原则和保护措施。」
多年来,开发人员一直通过从互联网、相册、图书、社交网络、源代码、音乐和文章等收集训练数据来开发 AI 系统。然而,这个过程是有争议的,因为这些材料通常受版权、使用条款和许可证的保护,整个过程也导致了诉讼。
有些人对自己的内容不仅被用于构建复制其作品的机器学习系统感到不满,从而可能危及其生计,而且模型的输出与版权或许可证侵权过于接近,因为其不加修改地重复了这些训练数据。
AI 开发人员可能会辩称他们的努力属于合理使用(fair use)范畴,并且模型的输编程出是一种新的作品,实际上并不是原始训练数据的复制。这是一个备受争议的问题。
例如,Stability AI 就因为从其库存图像网站非法收集和滥用数百万张图片来训练其文javascript本到图像工具而被 Getty Images 起诉。与此同时,OpenAI 及其所有者微软也面临多起诉讼,指控他们不当从互联网、「图书、文章、网站和帖子——包括未经同意获得的个人信息」中获取「3000 亿字」的内容,并从公共代码库中提取源代码,以创建 AI 协作编程工具 github Copilot。
谷歌的发言人拒绝澄清该广告和搜索巨头是否会从公开受版权或许可的数据或社交媒体帖子中获取数据来训练其系统。
现在人们对于如何训练人工智能模型有了更多了解,一些互联网企业已经开始向开发者收费以获取其数据。例如,Stack Overflow、Reddit 和javascriptTwitter 今年推出了通过 API 访问其内容的收费或新规定。其他网站如 Shutterstock 和 Getty 则选择将其图像授权给 AI 模型构建者,并与 Meta 和英伟达等公司合作。