17 万本书，是「ChatGPT 们」衰聪明的秘密

来源：安全 2024年01月19日 12:16

AI 蓬勃发展不会被大母公司竞争对手的极为重要森林资源。

「盗火者」还是「盗贼」？

▲幻灯片来自《墨西哥湾月刊》

如果我们不须要像 Books3 这样的东西的确会好处。

但原因是，如果只能 Books3，只有 OpenAI 可以好好到他们正在好好的两件事情。

「Books3」的带入者，独立Ubuntu Shawn Presser 对 Reisner 说道。

Presser 一开始好好 Books3，就是为了给所有Ubuntu「OpenAI 级别的专业训练总共据集」。

2020 年，Presser 下载了一份 Bibliotik 的拷贝，先改写成了黑客 Aaron Swartz 十多年前写成下的程序在，将所有 ePub PDF的图著书转换成纯评注 —— 一种更合适大建模用作的PDF。

至于总共据集分散都外著书的授权电子邮件出现不足之处，Presser 称作那是转换所致的意外结果，并非自己刻意为之。

而「Books3」这个名字，也是呼应了 OpenAI 在此之前提及的「Books1」和「Books2」。

在 2020 年的时候，OpenAI 的论文宣称，GPT-3 的专业训练总共据分散都有总共两个基于互联网的历史著书籍总共据集。

人们从其大小推测，OpenAI 的「Books1」总共据集来自于「古登堡原先（Project Gutenberg）」—— 专门校对授权已过期的图著书森林资源的项目。

「Books2」的段落是什么则长期无人知晓，有人从其大小对了是类似 Bibliotik 或 Libgen 的线上外挂图著书库的总共据集。

当然，除了历史著书籍的总共据集外，GPT-3 初期还用了其他总共据集，如MediaWiki和其他从互联网上比方说下来的文字电子邮件。

这也是为什么 EleutherAI 整合的「ThePile」内都也比方说还包括了大量其他总共据集，如MediaWiki、YouTube 视频的片尾、欧洲议会的文件和速记等等。

即便如此，相比之下，历史著书籍的高质量评注仍然显得很极为重要。

Meta 曾暗示，最开始的 LlaMA-65B 大建模表现只能其他好，主要是因为它「所用作的历史著书籍以及学术著作总共量有限」。

MIT 和康奈尔大学合作的论文也宣称，历史著书籍在大建模专业训练总共据分散都「对下游表现有不下于正面效用的」。

所以我们会在 Meta 后来面世的 LlaMA 2 专业训练总共据分散都看到「ThePile」和其中都的「Books3」。

▲ 幻灯片来自 CNN

这也是为什么，当 Books3 最近因丹麦反外挂组织 Rights Alliance 跟进知识产权而被叫停时，Presser 令人愤恨不平。

在他看来，所有慈善机构的大母公司在暗地内都都把知识产权段落好好为专业训练自己的大建模，但又因为他们不官方其专业训练总共据集，因此没人能催促得了他们。

而 Books3 被叫停，却正是因为他决心让大建模更开放和有更高可用性而适时官方总共据集举例来说。

Presser 凸显，我们不会让财大气粗的大母公司竞争对手这项在便是我们文化的极为重要技术，而是要让他会都有森林资源去建立自己的大建模：

我的目标要让他会都能（修造这些大建模）。

除非历史著书籍的笔记有分析方基本方法能把 ChatGPT 拉试用，或者催促到他们开门，否则让你和我都能修造自己的 ChatGPT 总括常合理的。

正如在 90 年代的时候，去确保任何人都能年末成立自己的其网站一样极为重要。

至于把 ChatGPT 催促到试用，也不是全然只能可能。

只求都在催促 AI 巨头

▲ OpenAI 以后「Open」也不绿色，幻灯片来自 Politico

当红诗人发起的官司也许激起更多关注，但拥有把 ChatGPT 催促到「造」的潜力的，却是传统取而代之闻媒体。

上周，NPR 刊文援引知情人士消息称作《观察家》正在权衡起诉 OpenAI。

在过去星期内都，《观察家》都在和 OpenAI 就授权协约调停。然而，调停令人满意似乎不太顺利，以至于《观察家》都开始权衡就知识产权催促 OpenAI 了。

刊文称作，联邦授权基本方法规定，违基本方法者每项「故意」知识产权行为最高者可罚 15 万美元，先为基础《观察家》的发表文章总共量，这个金额转换起来「对于一家母公司来说可能是致命的」。

除此都有，如果基本方法官认定 OpenAI 的确非基本方法拿了《观察家》的发表文章来专业训练大建模，最高者基本方法院也可以命令 OpenAI 销毁 ChatGPT 的总共据集集，禁止它仅用已赢得授权的创作来重取而代之专业训练和带入 ChatGPT。

▲ 幻灯片来自 BrookField

无论是原催促是《观察家》还是历史著书籍诗人，这些官司（或潜在官司）能否败诉，关键都在于 AI 巨头们是否能把这些电子邮件的用作说成「前提用作」 —— 即在特定全然，可受限制不经使用权去用作特定创作，譬如教学、评论、研究和刊文等。

支持「前提用作」的人有两个论点：

生成式 AI 并不一定会抹去它们应用于专业训练的历史著书籍本身，而是带入取而代之段落；那些取而代之段落并不一定会危及起初创作的产品。

纽约大学科技基本方法理与政策诊所的负责人 Jason Schultz 称作，在图著书被剽窃方面，这个例证还一挺令人吃惊的。

但《观察家》的大律师则忠诚不移，OpenAI 对报纸发表文章的用作并不一定不符「前提用作」。

假如用户能通过 AI 留言板机机人，赚取发表文章中都提及的取而代之闻两件事件详细描述，用户可能就不会先去找发表文章阅读了，因此有但会成为取而代之闻发表文章的替代品，阻碍了原有产品。

基本方法理博主樊宣称，监管机构基本方法并非一成不变，但其核心却很忠诚 —— 兴旺创作产品。

如果连估值总共百亿美元的 AI 母公司，都可以不付一分授权服务费，免服务费把诗人耗服务费总共年倾力创作的创作拿去慈善机构，甚至剽窃这些著书去专业训练出借此替代诗人的工具，这对创笔记而言毕竟是致命打击。

Presser 说道的「总共据集不平等」情况，也不应是侵犯创笔记权利的借口。

授权情况终究会是决定 AI 能走去多远的其中都一个一个有。

扬德堡大学监管机构项目联席处长 Daniel Gervais 普遍认为：

授权基本方法是一把悬在 AI 母公司脖子的利，除非它们想出如何协商解决方案，否则这把未来几年都会悬在它们脖子。

这一切只是21世纪的开始。

✍ ✍ ✍

先次，我们校对了外仍在同步进行中都的 AI 母公司知识产权诉讼，以供参考

。

英太青止痛蓝白盒少钱一盒
先诺欣
英太青止痛蓝白盒效果好吗
颈肩腰腿痛用什么来治疗最好
甲氨蝶呤和艾得辛哪个效果好

上一篇：七夕节到了送老婆这礼物，基调正浓好过节，娶不到老婆别怪没告诉你

下一篇：男人必知！晨勃遗忘了，离阳萎还有多远？