马斯克将起诉微软，称其使用 Twitter 数据“非法”训练GPT，吃瓜网友：事情变得更有趣了！

来源：InfoQ公众号　2023-04-20 15:51:37

北京时间4月20日早间消息，埃隆马斯克表示将对微软提起“诉讼”，理由是微软使用 Twitter 数据“非法”训练其产品。

今天早些时候微软宣布将停止在其智能广告平台上支持 Twitter，马斯克此举显然是针对微软的报复行动。微软和马斯克是当前各大平台上的“顶流”，他们之间还存在一些竞争关系，因此，马斯克的言论引起了大量吃瓜群众的关注。

1事件经过

(资料图)

今年2月，Twitter 宣布不再支持免费 API 访问，将改为付费使用，其套餐价格从每月4.2万美元到21万美元（约28.9万元到144.5万元人民币）不等。

根据外媒《WIRED》报道，Twitter 在其开发者平台上提供了三种级别的企业软件包，其中最便宜的是一个小套餐，每月支付42000美元可以访问5000万条推文。套餐等级php越高，研究人员或企业获得的推文数量就越多:每月支付12.5万美元可以获得1亿条、每个月支付21万美元可以获得2亿条。使用免费 API 将只能访问平台1% 的推文，根本不足全面反映该平台上的活动。这对很多研究人员甚至一些企业来说是一种“打击”。

因为马斯克改变了 API 政策，微软今天声称面向广告主的社交媒体规划和调度工具不再支持 Twitter。微软告诉客户:“从2023年4月25日开始，带有多平台的智能广告系列将不再支持 Twitter，从2023年4月25日开始，数字营销中心（DMC）将不再支持 Twitter”。这些举措意味着用户将不再能够访问他们的 Twitter 账户，或者通过微软的免费社交媒体管理服务创建、安排或以其他方式管理推文。

凭借其2.15万亿美元的市值和去年年底手头约1000亿美元的现金，微软显然有足够的钱向 Twitter 支付它想要的东西，因此微软想表达的并不仅仅是声明中的那么简单。

而马斯克也好不容易才看到扭亏为盈的希望，因此对微软的封杀令十分不满，他发推文指责微软非法使用 Twitter 数据进行 AI 训练，声称要起诉微软。

目前尚不清楚马斯克究竟指控微软使用 Twitter 数据非法训练哪些 AI 产品，但很可能针对的就是 ChatGPT。根据微软与 OpenAI 的许可协议，OpenAI 用“来自互联网的大量不同文本数据”训练了其强大的 AI 模型。

马斯克本身就对微软不满，后者已成为 ChatGPT 背后的公司 OpenAI 的主要合作伙伴。尽管马斯克帮助创建了 OpenAI，但他自那以后一直抨击这家位于旧金山的实验室是一家“由微软有效控制的闭源、利润最大化的公司”。

不管马斯克是否真会去起诉，马斯克推文下的吃瓜群众反正是乐翻了天:“爆米花准备好了!”“马斯克在做正确的事情，赶紧起诉，不要只说不做!”“啊，见证历史啊，马斯克要将 Billy-Bully 的盖茨告上法庭～”“马斯克与微软在 Twitter 数据上的战斗将是一场值得关注的大战”......

2马斯克与微软注资的 OpenAI 竞争升级

马斯克起诉微软，也有网友对此表示事情变得更有趣了，“马斯克说他要起诉微软，虽然我是 OpenAI 的粉丝……但是，我觉得马斯克的诉讼是有道理的。1） OpenAI 是用马斯克的钱 + 声誉资助的。2) 他创造了这个名字并获得了早期的雇员。3)他的名声被利用了……”

2015年，马斯克曾参与创立 OpenAI，并坚持要求 OpenAI 技术必须是开源的。2018年，编程客栈马斯克从公司董事会辞职。2019年马斯克宣布跟 OpenAI 彻底分道扬镳，表示由于自己与 OpenAI 在一些发展观点上发生不和，所以选择了退出。不久之后，OpenAI 宣布接受微软10亿美元注资，摆脱了非营利组织的地位。

马斯克曾明确地表示，“我为了创建 OpenAI 真的付出很多努力，以抗衡谷歌公司，”他说。“然后我转移了注意力。我猜，他们现在是闭源的，而且他们显然是逐利的，他们与微软合作密切。在这一点上，微软即使没有直接控制 OpenAI，也有很大的发言权。”

马斯克虽然也赞美过 ChatGPT 的表现“好得有点可怕“，但他更多的是担心人工智能带来的安全威胁，认为微软和谷歌在这方面做的都不够好:微软支持的 OpenAI 一直在“训练人工智能说谎”，而谷歌联合创始人拉里佩奇没js有认真对待人工智能安全。

今年2月，马斯克在 Twitter 上表示，对比 ChatGPT，“我们需编程要的是 TruthGPT”。至少从那时开始，马斯克一直在积极物色 AI 领域的人才，希望与 ChatGPT 展开竞争。他挖到的人才包括 Igor Babuschkin、 Manuel Kroiss 等，近期还大手笔购置1万张英伟达 A100GPU，这是训练大模型必备的高性能芯片。就在前几天，马斯克在接受采访时宣布，他将推出一个名为“TruthGPT”的 AI 平台。

马斯克认为 TruthGPT 是对 OpenAI 的修正。OpenAI 对利润的追求可能会干扰其塑造 AI 模型时的道德观念。与之对应，“TruthGPT”才是更加透明的选项。TruthGPT 团队也在其 Telegram 频道上解释说，TruthGPT 的使命是“建立马斯克愿景...... 其开发已经启动，很快它将成为全世界都可以访问的诚实和真理的灯塔。”

3反对大模型白嫖

数据是大模型训练中必不可少的资源，然而最近出现了许多关于数据使用权的争议，认为大模型侵犯了用户和企业的版权。

在马斯克扬言起诉微软之际，另一个社交媒体平台 Reddit 宣布计划向使用其 API 的用户收费，理由是 Reddit 用户的数据被用来训练人工智能模型。

Reddit 是 AI 聊天机器人的重要数据资源，其 API 自2008年以来一直免费对开发人员开放。4月18日，Reddit 宣布将开始向过度使用其数据 API 的公司收费。

虽然没有直接点名 OpenAI 或谷歌这样的公司，但 Reddit 首席执行官兼联合创始人史蒂夫霍夫曼表示，包括 Reddit 在内的社交媒体资源提供了用于训练大型语言模型（LLM）的一些资源，这些模型可以对人类提示提供有说服力的响应。他强调 Reddit 的数据语料库非常有价值，“是进行真实对话的地方”，“(人工智能公司)爬取 Reddit 产生价值，但不将任何价值返回给我们的用户，”霍夫曼认为，“现在是收紧政策的好时机。”

与此同时，生成式 AI 正面临艺术家集体诉讼，此前旧金山三名艺术家表示他们多年塑造的作品风格被 AI 仿效，要求绘图公司提供补偿。全球图库图片巨头 Getty Images 也对 Stable Diffusion 背后的公司 Stability AI 提起诉讼。Getty Images 声称其超过1200万张受版权保护的图片被用于训练 Stable Diffusion，要求 Stability AI 给予1.8万亿美元的赔偿。

当其他公司开始要求大模型企业付费使用时，马斯克是第一个声称微软使用 Twitter 的数据是违法的人。此后，任何公司，只要其数据被微软、谷歌等企业用来构建生成式人工智能产品，将都可以使用马斯克这一论点。

不确定 Twitter 和微软是否真的会在法庭相见，但大模型背后的公司和那些在途中无偿提供数据的公司，他们之间的诉讼将会越来越多。

参考链接:

https://bgr.com/tech/elon-musk-claims-microsoft-illegally-trained-its-ai-using-twitter-data-threatens-lawsuit/

https://twitter.com/elonmusk/status/1648784955655192577

https://www.businessinsider.com/reddit-to-charge-ai-companies-api-content-use-2023-4

推荐DIY文章