LLaMA都在用的開源數據集慘遭下架：包含近20萬本書，對標OpenAI數據集

2023-08-21 06:22:01

原文來源：量子位

圖片來源：由無界AI‌ 生成

開源數據集因侵權問題，慘遭下架。

如LLaMA、GPT-J等，都用它訓練過。

如今，託管了它3年的網站，一夜之間刪除了所有相關內容。

這就是Books3，一個由將近20萬本圖書組成的數據集，大小將近37GB。

丹麥一家反盜版組織表示，在該數據集中發現了150本其成員的書籍，構成侵權，所以要求平台下架。

現在該平台上的Books3網頁鏈接已經“404”。

數據集的最初開發者無奈表示，Books3的下架是開源圈的一場悲劇。

Books3是什麼？

Books3在2020年發布，由AI開發者Shawn Presser上傳，被收錄在Eleuther AI的開源數據集Pile中。

它總計包含197000本書，包含來自盜版網站Bibliotik的所有書籍，意在對標OpenAI的數據集，但主打開源。

這也是Books3名字的來源之處——

GPT-3發布後，官方披露其訓練數據集中15%的內容來自兩個名為“Books1”、“Books2”的電子圖書語料庫，不過具體內容一直沒有被透露。

開源的Books3則給更多項目提供了一個和OpenAI競爭的機會。

比如今年爆火的LLaMA、以及Eleuther AI的GPT-J等，都用上了Books3.

要知道，圖書數據一直是大模型預訓練中核心的語料素材，它能為模型輸出高質量長文本提供參考。

很多AI巨頭使用的圖書數據集都是不開源，甚至是非常神秘的。比如Books1/2，關於其來源、規模的了解，更多都是各界猜測。

由此，開源數據集對於AI圈內相當重要。

為了更方便獲取，Books3被放到了The Eye上託管。這是一個可以存檔信息、提取公開數據的平台。

而這一次慘遭下架，說的也是這一平台。

丹麥反盜版組織權利聯盟向The Eye提出了下架請求，並且通過了。

不過好消息是，Books3並沒有完全消失，還是有其他辦法獲取的。

Wayback Machine上還有備份，或者可以從Torrent客戶端下載。

作者老哥在推特上給出了多個方法。

實際上，對於這次下架風波，數據集作者老哥有很多話想說。

他談到，想要做出像ChatGPT一樣的模型，唯一的方法就是創建像Books3這樣的數據集。

每一個盈利性質的公司都在秘密做數據集，如果沒有Books3，就意味著只有OpenAI等科技巨頭才能訪問這些圖書數據，由此你將無法做出自己的ChatGPT。

在作者看來，ChatGPT就像是90年代的個人網站一樣，任何人都能做是很關鍵的。

不過由於Books3很大一部分數據來自於盜版網站，所以作者也表示，希望之後能有人做出來比Books3更好的數據集，不僅提升數據質量，而且尊重書籍版權。

這種類似的情況在OpenAI也有發生。

一個多月以前，兩位全職作者以未經允許擅自將作品用來訓練ChatGPT，起訴了OpenAI。

而之所以會發生這種情況，很有可能是OpenAI的數據集Books2從影子圖書館（盜版網站）中獲取了大量數據。

所以也有聲音調侃說，AI不僅帶來了新的技術突破，也給反盜版組織帶來了新任務。

參考鏈接： [1] [2] [3] [4]

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

留言

0/400

暫無留言