Membongkar Hambatan Data AI: Mengapa Data DAO Penting Sekarang

7/14/2024, 3:17:08 PM

Menengah

Artikel ini meneliti keterbatasan saat ini dari sumber data AI dan menyarankan bahwa Data DAO dapat menyediakan kumpulan data baru berkualitas tinggi untuk memajukan model AI. Data DAO dapat meningkatkan pelatihan AI dengan data dunia nyata, data kesehatan pribadi, dan umpan balik manusia, tetapi mereka juga menghadapi tantangan seperti distorsi insentif, verifikasi data, dan evaluasi manfaat.

Perjanjian otorisasi data yang signifikan baru-baru ini, seperti antara openai dan news corp dan reddit, menekankan perlunya data berkualitas tinggi dalam kecerdasan buatan. Model AI terkemuka telah dilatih pada sebagian besar internet. Misalnya, common crawl telah mengindeks sekitar 10% dari halaman web untuk pelatihan model bahasa besar, yang mencakup lebih dari 100 triliun token.

Untuk lebih meningkatkan model kecerdasan buatan, sangat penting untuk memperluas dan meningkatkan data yang tersedia untuk pelatihan. Kami telah mendiskusikan cara untuk menggabungkan data, terutama melalui metode terdesentralisasi. Kami sangat tertarik pada bagaimana pendekatan terdesentralisasi dapat membantu menciptakan kumpulan data baru dan menawarkan insentif ekonomi kepada kontributor dan pencipta.

Dalam beberapa tahun terakhir, salah satu topik hangat di dunia kripto adalah konsep data daos, yang merupakan kelompok orang yang membuat, mengatur, dan mengelola data. Sementara topik ini telah dibahas oleh multicoin dan lainnya, kemajuan cepat AI menimbulkan pertanyaan baru: “Mengapa sekarang saat yang tepat untuk data daos?”

dalam artikel ini, kami akan berbagi wawasan kami tentang data daos untuk menjawab pertanyaan: bagaimana data daos dapat mempercepat pengembangan ai?

1. keadaan data saat ini dalam kecerdasan buatan

saat ini, model ai pada dasarnya dilatih pada data publik, baik melalui kemitraan dengan perusahaan seperti news corp dan reddit atau dengan cara mengambil data dari internet terbuka. misalnya, llama 3 milik meta dilatih menggunakan 15 triliun token dari sumber publik. meskipun metode ini efektif untuk dengan cepat mengumpulkan jumlah data yang besar, namun memiliki batasan terkait jenis data yang dikumpulkan dan bagaimana data ini diperoleh.

Pertama, mengenai data apa yang harus dikumpulkan: Pengembangan AI terhambat oleh kemacetan dalam kualitas dan kuantitas data. Leopold Aschenbrenner membahas "dinding data" yang membatasi peningkatan algoritma lebih lanjut: "Segera, pendekatan sederhana dari pra-pelatihan model bahasa yang lebih besar pada data yang lebih tergores mungkin menghadapi kemacetan yang signifikan."

Salah satu cara untuk mengatasi tembok data adalah dengan menyediakan dataset baru. Sebagai contoh, perusahaan model tidak dapat mengambil data yang dilindungi login tanpa melanggar syarat layanan sebagian besar situs web, dan mereka tidak dapat mengakses data yang belum dikumpulkan. Saat ini, terdapat jumlah data pribadi yang besar yang tidak dapat diakses pelatihan kecerdasan buatan, seperti data dari Google Drive, Slack, catatan kesehatan pribadi, dan informasi pribadi lainnya.

kedua, mengenai bagaimana data dikumpulkan: dalam model saat ini, perusahaan pengumpul data mengambil sebagian besar nilai. Pernyataan s-1 reddit menyoroti lisensi data sebagai sumber pendapatan utama yang diantisipasi: "kami berharap keunggulan data dan kekayaan intelektual yang berkembang akan tetap menjadi elemen kunci dalam pelatihan llm di masa depan." Namun, pengguna akhir yang menghasilkan konten sebenarnya tidak menerima manfaat ekonomi dari perjanjian lisensi ini atau model ai itu sendiri. Ketidaksesuaian ini bisa mengurangi partisipasi - sudah ada gerakan untuk menggugat perusahaan ai generatif atau keluar dari set data pelatihan. Selain itu, mengkonsentrasikan pendapatan di tangan perusahaan model atau platform tanpa membaginya dengan pengguna akhir memiliki implikasi sosial-ekonomi yang signifikan.

2. dampak dari data daos

masalah data yang disebutkan sebelumnya memiliki tema umum: mereka mendapat manfaat dari kontribusi substansial dari sampel pengguna yang beragam dan representatif. sementara titik data tunggal mungkin memiliki dampak yang diabaikan pada kinerja model, secara kolektif, sekelompok besar pengguna dapat menghasilkan dataset baru yang sangat berharga untuk pelatihan ai. inilah tempat di mana data daos (organisasi otonom terdesentralisasi) berperan. dengan data daos, kontributor data dapat mendapatkan imbalan ekonomi untuk menyediakan data dan dapat mengendalikan bagaimana data mereka digunakan dan dimonetisasi.

Di area mana saja DAO data bisa memberikan dampak signifikan dalam lanskap data saat ini? Berikut beberapa ide - ini bukan daftar lengkap, dan DAO data tentu memiliki peluang lain:

(1) data dunia nyata
Di bidang infrastruktur fisik terdesentralisasi (depin), jaringan seperti hivemapper bertujuan untuk mengumpulkan data peta global terbaru dengan memberikan insentif kepada pemilik dashcam untuk berbagi data mereka dan mendorong pengguna untuk memberikan data melalui aplikasi mereka (misalnya, informasi tentang penutupan jalan atau perbaikan). depin dapat dilihat sebagai dao data dunia nyata, di mana dataset dihasilkan dari perangkat keras dan/atau jaringan pengguna. Data ini memiliki nilai komersial bagi banyak perusahaan, dan kontributor diberi imbalan dengan token.

(2) data kesehatan pribadi
Biohacking adalah gerakan sosial di mana individu dan komunitas mengadopsi pendekatan DIY dalam mempelajari biologi, sering kali melakukan eksperimen pada diri sendiri. Misalnya, seseorang dapat menggunakan berbagai obat nootropik untuk meningkatkan kinerja otak, mencoba berbagai pengobatan atau perubahan lingkungan untuk meningkatkan tidur, atau bahkan menyuntikkan diri dengan zat-zat eksperimental.

Data daos dapat mendukung upaya-upaya biohacking ini dengan mengorganisir peserta sekitar eksperimen bersama dan secara sistematis mengumpulkan hasil. Pendapatan yang dihasilkan oleh data kesehatan pribadi daos ini, seperti dari laboratorium penelitian atau perusahaan farmasi, dapat dikembalikan kepada peserta yang berkontribusi data kesehatan pribadi mereka.

(3) pembelajaran penguatan dengan umpan balik manusia
Pembelajaran penguatan dengan umpan balik manusia (RLHF) melibatkan penggunaan masukan manusia untuk menyetel model AI dan meningkatkan kinerjanya. Biasanya, umpan balik berasal dari ahli di bidang tertentu yang dapat secara efektif mengevaluasi keluaran model. Misalnya, laboratorium riset mungkin mencari bantuan dari PhD matematika untuk meningkatkan kemampuan matematika AI mereka. Hadiah token dapat menarik dan memberi insentif pada ahli untuk berpartisipasi, menawarkan nilai spekulatif dan akses global melalui sistem pembayaran crypto. Perusahaan seperti Sapien, Fraction, dan Sahara sedang aktif bekerja di bidang ini.

(4) data pribadi
Ketika data publik yang tersedia untuk pelatihan AI semakin langka, fokus mungkin beralih ke dataset milik perusahaan, termasuk data pengguna pribadi. Di balik dinding login terdapat sejumlah besar data berkualitas tinggi yang tetap tidak dapat diakses, seperti pesan dan dokumen pribadi. Data ini dapat sangat efektif untuk melatih AI yang dipersonalisasi dan mengandung informasi berharga yang tidak ditemukan di internet publik.

Mengakses dan menggunakan data ini menimbulkan tantangan hukum dan etika yang signifikan. Data DAO dapat menawarkan solusi dengan memungkinkan peserta yang bersedia untuk mengunggah dan memonetisasi data mereka sambil mengelola penggunaannya. Sebagai contoh, sebuah DAO data Reddit dapat memungkinkan pengguna untuk mengunggah data Reddit mereka yang diekspor, termasuk komentar, kiriman, dan riwayat voting, yang dapat dijual atau disewakan kepada perusahaan kecerdasan buatan secara privasi-protective. Insentif token memungkinkan pengguna untuk menghasilkan pendapatan tidak hanya dari transaksi sekali, tetapi juga dari nilai yang terus menerus dihasilkan oleh model kecerdasan buatan yang dilatih dengan data mereka.

3. masalah dan tantangan yang terbuka

Sementara DAO data menawarkan manfaat potensial yang signifikan, ada beberapa pertimbangan dan tantangan penting yang harus diatasi.

(1) distorsi insentif
Pelajaran penting dari sejarah penggunaan insentif token dalam dunia crypto adalah bahwa hadiah eksternal dapat mengubah perilaku pengguna. Hal ini memiliki implikasi langsung untuk menggunakan insentif token dalam mengumpulkan data: insentif dapat mengubah kelompok peserta dan jenis data yang mereka kontribusikan.

Memperkenalkan insentif token juga membuka kemungkinan peserta mengeksploitasi sistem, seperti dengan mengirimkan data berkualitas rendah atau palsu untuk memaksimalkan penghasilan mereka. Ini kritis karena kesuksesan data DAO tergantung pada kualitas data. Jika kontribusi menyimpang dari tujuan yang diinginkan, nilai dataset dapat terancam.

(2) mengukur dan memberikan imbalan data

Ide sentral dari data DAO adalah memberi penghargaan kepada kontributor untuk pengajuan data mereka dengan token, yang akan menghasilkan pendapatan untuk DAO dalam jangka panjang. Namun, karena sifat subjektif dari nilai data, menentukan penghargaan yang tepat untuk kontribusi data yang berbeda sangat menantang. Misalnya, dalam skenario biohacking: apakah data pengguna tertentu lebih berharga daripada yang lain? Jika ya, faktor apa yang menentukan ini? Untuk data peta: apakah informasi dari daerah tertentu lebih berharga daripada yang lain? Bagaimana perbedaan ini harus dikuantifikasi? (Penelitian tentang pengukuran nilai data dalam AI dengan mengevaluasi kontribusi data inkremental terhadap kinerja model masih berlangsung tetapi bisa komputasi intensif.)

selain itu, penting untuk mendirikan mekanisme yang kuat untuk memverifikasi keaslian dan akurasi data. tanpa langkah-langkah ini, sistem dapat rentan terhadap pengajuan data palsu (misalnya, membuat akun palsu) atau serangan sybil. jaringan depin mengatasi masalah ini dengan mengintegrasikan verifikasi pada tingkat perangkat keras, namun jenis data daos lain yang bergantung pada kontribusi pengguna mungkin lebih rentan terhadap manipulasi.

(3) nilai tambahan data baru
Sebagian besar jaringan terbuka telah dimanfaatkan untuk tujuan pelatihan, sehingga operator data dao harus mempertimbangkan apakah kumpulan data yang dikumpulkan secara terdesentralisasi benar-benar menambah nilai tambah terhadap data yang ada di jaringan terbuka, dan apakah peneliti dapat mengakses data ini dari platform atau melalui cara lain. Ide ini menekankan pentingnya mengumpulkan data yang benar-benar baru yang melebihi apa yang saat ini tersedia, mengarah pada pertimbangan berikutnya: skala dampak dan peluang pendapatan.

(4) mengevaluasi peluang pendapatan
Secara mendasar, data dao sedang membangun pasar dua sisi yang menghubungkan pembeli data dengan kontributor data. Oleh karena itu, kesuksesan data dao bergantung pada kemampuannya untuk menarik basis pelanggan yang stabil dan beragam yang bersedia membayar untuk data.

DAO data perlu mengidentifikasi dan mengkonfirmasi permintaan data mereka dan memastikan bahwa peluang pendapatan cukup signifikan (baik secara total atau per kontributor) untuk memotivasi kuantitas dan kualitas data yang diperlukan. Misalnya, konsep membuat DAO data pengguna untuk mengumpulkan preferensi pribadi dan data penelusuran untuk tujuan periklanan telah dibahas selama bertahun-tahun, tetapi potensi pengembalian bagi pengguna mungkin minimal. (Untuk konteksnya, ARPU global Meta adalah $13,12 pada akhir tahun 2023.) Dengan perusahaan AI yang berencana menginvestasikan triliunan dolar dalam pelatihan, potensi pendapatan dari data mungkin cukup untuk memberi insentif pada kontribusi skala besar, menimbulkan pertanyaan menarik untuk data dao: "Mengapa sekarang?"

4. menembus tembok data

Data daos menawarkan solusi yang menjanjikan untuk membuat dataset baru berkualitas tinggi dan menembus tembok data yang menantang kecerdasan buatan. Meskipun metode yang tepat untuk mencapai hal ini masih harus ditentukan, kami sangat antusias melihat bagaimana bidang ini berkembang.

disclaimer:

artikel ini dicetak ulang dari [Keuangan Jinse], dan hak cipta milik penulis asli [li jin]. jika Anda memiliki keberatan terhadap cetakan ulang ini, silakan hubungi tim Gate Learn di gatelearn@Gate.io.tim akan segera menangani setiap kekhawatiran sesuai dengan prosedur yang relevan.
disclaimer: pandangan dan opini yang terdapat dalam artikel ini hanyalah milik penulis semata dan tidak merupakan saran investasi apa pun.
Versi bahasa lain dari artikel ini telah diterjemahkan oleh tim Gate Learn. Tanpa menyebutkan.Gate.ioArtikel yang diterjemahkan mungkin tidak boleh disalin, didistribusikan, atau diplagiat.

Konten

1. Keadaan Saat Ini dari Data dalam AI2. Dampak Data DAOs3. Isu dan Tantangan Terbuka4. Menembus Tembok Data

Kalender Kripto

Peluncuran Produk AI NFT

Nuls akan meluncurkan produk NFT AI pada kuartal ketiga.

NULS

2.77%

2025-08-07

Peluncuran dValueChain v.1.0

Bio Protocol akan meluncurkan dValueChain v.1.0 pada kuartal pertama. Ini bertujuan untuk membangun jaringan data kesehatan terdesentralisasi, memastikan catatan medis yang aman, transparan, dan tidak dapat dirusak dalam ekosistem DeSci.

BIO

-2.47%

2025-08-07

Subtitel Video yang Dihasilkan AI

Verasity akan menambahkan fungsi subtitle video yang dihasilkan oleh AI pada kuartal keempat.

VRA

-1.44%

2025-08-07

Dukungan Multi-Bahasa VeraPlayer

Verasity akan menambahkan dukungan multi-bahasa ke VeraPlayer pada kuartal keempat.

VRA

-1.44%

2025-08-07

Eksekusi Beli/jual Otomatis

Linear akan menambahkan eksekusi beli/jual otomatis, memungkinkan trader untuk mengeksekusi perdagangan berdasarkan parameter yang telah ditentukan, meningkatkan efisiensi dan profitabilitas.

LINA

1.85%

2025-08-07