(相关资料图)
编程客栈() 8月8日消息:Prosecraft.io 是一个网站,它使用小说来支持一个以数据驱动的项目,用于显示字数、被动语态和其他更加主观的写作风格标记,比如生动性。
但在作者们抗议这个项目之后,Prosecraft 今天关闭了。Prosecraft 使用超过 25,000 本书的全部文本——这都是受版权保护的材料——以便开发一个数据库。作者们知道了这个项目,立即对此表示了强烈的不满。
Zach Rosenberg 是第一个在 X(以前被称为 Twitter)网站上引起作者们广泛关注的人。很快,越来越多的作者开始发声,其中包括高知名度的作者,比如 Jeff VanderMeer(《The Southern Reachtrilogy》),Indra Das(《The Devourers》),Gretchen Felker-Martin(《Manhunt》)。
其中一部分原因是 Prosecraft 承认使用了「人工智能算法」。在 2018 年 10 月 5 日的一篇博客文章中,Prosecraft 和基于 Prosecraft 库挖掘出来的数据构建的写作程序 Shaxpir 的开发者 Benji Smith 表示,「我们教会了我们的机器学习 [AI] 算法识别哪些词汇可以在哪些上下文中使用,通过观察在类似的句子和段落中出现的词汇和短语的类型。」此外,他写道,Shaxpir「分析了来自 3300 多位知名作者撰写的 580 多万字的小说。」他没有透露自己从哪里获得这些小说,也没有透露是否获得了许可。
虽然使用的技术并不一定是像 ChatGPT 那样的大型语言生成模型,但可以说,将生成的 LLM 算法纳入 Prosecraft 的规划是有可能的。而且由于该网站有庞大的图书库,作者们的担忧是完全合理的。在此次抗议之后,Smith 在 Medium 上写了一篇长篇博客,解释了为什么他自愿关闭了 Prosecraft。
尽管 Prosecraft 只使用了文本的一部分,但它并没有得到任编程何作者或出版商的许可来创建基于作者全部作品或整本书的数据库。Smith 在博客上写道,「由于我只发布了摘要统计数据和从这些书中提取的小段落,我相信我尊重了公平使用原则的精神,这并不需要原始作者的同意。」
尽管这个说法有些道android理,但公平使用并不允许你在没有获得许可的情况下使用作者的整本受版权保护编程的作品,作为一个反映在你自己的「AI 算法」上的编程客栈数据训练程序的一部分。虽然这种情况肯定会给很多人上一课,但很明显,作者们不会允许他们的作品被用来训练 LLM 和矢量网络。
最后,在一篇包含数十段文章的最后几段中,Smith 说「我听到了你们的反对意见,我希望你们能接受我最诚挚的歉意。」他在帖子的最后表示,他希望有一天「在作者和出版商的同意下重建这个项目」,社交媒体上的作家认为这暗示着他实际上并没有删除他的图书数据库,这意味着数据仍然可以假设可以用来训练人工智能程序,以制作出与真实作家具有相同字数和「生动性」的虚假书籍。