新闻动态

为了培训AI模型，人类花费数百万美元来购买和“

作者:bet356官网首页 时间:2025/06/29 点击:

根据《今日外国媒体ARS Technica》的报道，6月26日，法院在当地时间发布的法院文件显示，人工智能公司人类人类花费了数百万美元来拆除实物书籍并将其扫描到数字文件中，以培训Claude，以培训像Chantgpt一样在AI中的助手。为了获得培训数据，公司被拆除并与系统上的大量书籍绑定，然后直接抛出了原件。判决长32页，并宣布了2024年2月的拟人化雇用汤姆·图里（Tom Turvey）。Turvey负责Google Books Project，该公司已任命他“从世界各地获取书籍”。这种策略的安排显然是希望复制Google先前确定为合理法院使用的书籍的数字模型。最终，William Alsup法官排除了扫描方法，以合理的方式扫描，理由是该书是合法的，是合法的，并在扫描后立即被销毁。宁，数字文件仅用于内部用途，而不是传播。他认为，这种转换等同于“节省空间”数字转换，并具有“转换”属性以合理使用。如果公司从一开始就遵循这一道路，它可能会为合理使用AI的第一个法学制定，但早期的盗版使其合法性分散了人们的注意力。主要原因真的很简单：AI培训需要大量的高质量文本。为了产生大型语言模型，研究人员需要将数十亿个单词添加到神经网络中，反复训练模型，并建立单词和概念之间的关系。培训数据的质量直接影响模型输出的准确性。与诸如在线评论之类的混乱信息相比，编辑的书籍和文章可以显着提高AI语言技能。 AI公司迫切需要发布内容，但通常会犹豫不决地花时间谈论P货币。美国的“首次销售原则”提供了一个法律空间：购买实物书籍后，用户可以持有它们。它使这本书购买合法的“绕行计划”。像他的许多同龄人一样，人类最初选择了一个捷径来错过版权。该众议院从法院材料中学到了这一点，以防止允许的过程长期复杂，Amodai促进了使用盗版电子书的使用。但是到2024年，出于法律原因，公司开始寻找更安全的继任者。获得二手书已成为一个不错的选择：无需谈论许可，您将获得高质量的培训文本。为了加快数字化流程，人为采用的“破坏性扫描”以购买大量书籍，打开包装，收获和扫描PDF文件阅读的机器，所有纸张都在完成后抛出。整个过程价值数百万美元。该公司的大部分购买目标都是零售频道的普通旧书籍。但实际上，长期以来，非破坏性扫描技术已经成熟。例如，Internetharchive开发了可以维护原始书籍的数字方式。本月初，OpenAI和Microsoftang BU还宣布，哈佛大学图书馆使用近100万本公共版本来培训AI，该图书在警告期间仍然保存得很好。【来源：这在家】