Mengalahkan seluruh keluarga alpaka, metode penyelarasan mandiri Meta AI yang baru membutuhkan sangat sedikit data pelabelan manual

2023-08-19 05:06:43

Sumber asli: Qubit

Apakah mendesak untuk memberi label data secara manual?

Metode baru Mata membuat model bahasa instruction following (instruction following) berkualitas tinggi dengan hanya sejumlah kecil seed data.

Dengan kata lain, model bahasa besar memerlukan data instruksi berlabel manusia dalam jumlah besar untuk penyetelan halus, tetapi sekarang model tersebut dapat secara otomatis menyimpulkan instruksi dari teks tak berlabel di kumpulan web.

Kemudian gunakan data instruksi yang dihasilkan sendiri untuk pelatihan, yang sebanding dengan yang diproduksi dan dijual sendiri.

Dan model yang dilatih dengan metode ini mengungguli alpaka open source dan rangkaian model turunannya pada uji benchmark Alpaca.

LeCun tweeted bahwa penelitian itu sensasional dalam hal model self-alignment:

Ringkasnya dalam sebuah kalimat dari seorang netizen:

Alpaca mulai berlatih sendiri.

Kedua kalimat itu merangkumnya seperti ini:

Awalnya diperlukan instruksi>kumpulan data respons (membutuhkan pelabelan manual), sekarang hanya perlu melatih "model terbalik" untuk instruksi> respons. Teks apa pun dapat dengan bebas diubah menjadi kumpulan data instruksi.

Netizen lain mengeluarkan siksaan jiwa:

Apakah saya satu-satunya yang menganggap ini seperti jalan menuju kecerdasan super? Jika Anda bisa mendapatkan LLM yang menjadi lebih pintar dan lebih pintar tanpa tambahan data eksternal berkualitas tinggi, maka ini adalah sistem tertutup yang dapat ditingkatkan sendiri. Mungkin hanya diperlukan sistem pembelajaran penguatan untuk memberikan sinyal, dan kemudian iterasi LLM sendiri dapat melakukan sisanya.

Alpaca: Saya menggunakan data untuk melatih ikan paus

Metode baru yang dapat diskalakan ini disebut Instruction Back Translation, dan Mata menamai model yang dilatih oleh metode ini-Humpback (paus bungkuk, juga dikenal sebagai paus bungkuk).

(Para peneliti mengatakan bahwa nama itu diberikan karena hubungannya dengan punggung unta, dan ukuran paus yang lebih besar sesuai dengan skala model yang lebih besar)

Langkah melatih Bungkuk hanyalah memulai dengan sejumlah kecil data berlabel, menggunakan model bahasa untuk menghasilkan instruksi yang sesuai dengan teks yang tidak berlabel, dan membentuk data pelatihan kandidat. Kemudian gunakan model untuk mengevaluasi kualitas data dan pilih data berkualitas tinggi untuk pelatihan ulang. Proses ini kemudian diulang untuk lebih meningkatkan model.

Seperti terlihat pada gambar di atas, “bahan” yang perlu disiapkan adalah:

Model dasar - LLaMa
Data benih (Data Benih) terdiri dari 3200 contoh dari set data Open Assistant, setiap contoh menyertakan instruksi dan output yang sesuai.
Dari korpus ClueWeb, 502 ribu teks tanpa label (Data Tanpa Label) yang telah dihapus duplikatnya, difilter, dan kemungkinan paragraf berkualitas rendah telah dihapus.

Contoh berlabel dan sumber korpus tersedia, dan langkah selanjutnya adalah tahap Self-augment.

Para peneliti menyempurnakan model dasar LLaMa dengan data seed untuk mendapatkan model prediksi instruksi. Model prediksi instruksi ini kemudian digunakan untuk menyimpulkan instruksi kandidat untuk teks yang tidak berlabel. Kemudian gabungkan kandidat instruksi dan teks (instruction-output pair) sebagai kandidat data pelatihan yang disempurnakan, yang merupakan Augmented Data A pada gambar di atas.

Namun, tidak mungkin menggunakan data A untuk pelatihan langsung, karena kualitas teks yang tidak berlabel itu sendiri tidak merata, dan instruksi kandidat yang dihasilkan juga memiliki noise.

Jadi, diperlukan langkah Kurasi mandiri utama, menggunakan model untuk memprediksi kualitas data dan memilih sampel berkualitas tinggi untuk pelatihan.

Secara khusus, para peneliti mencetak data kandidat menggunakan model instruksi yang disesuaikan hanya pada data benih. Skor penuh adalah lima poin, dan mereka yang memiliki skor lebih tinggi akan dipilih sebagai data kandidat untuk putaran berikutnya.

Untuk meningkatkan kualitas prediksi instruksi model, peneliti melatih model dengan data kandidat iteratif, dan dalam pelatihan iteratif, kualitas data akan menjadi lebih baik dan lebih baik.

Selain itu, saat menggabungkan seed data dan augmentation data untuk menyempurnakan model, mereka juga menggunakan tag petunjuk sistem yang berbeda untuk membedakan antara dua sumber data ini:

Kiat penggunaan data benih "Jawab dengan gaya AI Assistant."
Saring data menggunakan prompt "Jawab dengan pengetahuan dari pencarian web."

Setelah dua iterasi, model terakhir baru keluar dari oven.

Menggabungkan dua jenis data pelatihan: 1+1>2

Mari kita lihat hasil analisis para peneliti:

** **###### △ Keragaman instruksi untuk data benih dan data yang disempurnakan. Lingkaran dalam adalah kata kerja dasar umum dan lingkaran luar adalah kata benda umum yang sesuai dengannya.

Gambar di atas menunjukkan keragaman instruksi dengan 8% data seed dan 13% statistik data yang disempurnakan.

Dapat dilihat secara intuitif bahwa keragaman data yang ditingkatkan lebih kuat di bagian ekor panjang, dan data yang ditingkatkan melengkapi data benih yang diberi label artifisial yang ada, melengkapi jenis yang tidak muncul dalam data benih.

Kedua, para peneliti membandingkan tiga kumpulan data tambahan: Data tambahan, semua (tanpa pengelolaan mandiri),

, lebih sedikit data tetapi kualitas lebih tinggi

Eksperimen telah mengamati bahwa meskipun kumpulan data menjadi lebih kecil, kinerja model juga telah ditingkatkan dengan peningkatan kualitas data pelatihan.

** **###### △ Gunakan pemfilteran mandiri untuk mengevaluasi data pembesaran mandiri dari berbagai ukuran dan kualitas data. Sumbu y mewakili tingkat kemenangan dengan text-davinci-003 saat menyempurnakan LLaMa 7B dengan ukuran dan kualitas data tertentu.

(text-davinci-003, instruksi berbasis GPT-3 mengikuti model yang disesuaikan dengan data instruksi yang ditulis manusia, output, respons model, dan preferensi manusia menggunakan pembelajaran penguatan)

Terakhir, mari kita lihat hasil di papan peringkat Alpaca. Humpback mengungguli metode lain secara signifikan tanpa mengandalkan data suling dan menutup celah dengan model berpemilik.

Non-distilasi (Non-dstilled), mengacu pada model pelatihan yang tidak bergantung pada model eksternal apa pun sebagai bentuk pengawasan apa pun; Distilasi (Distilasi), mengacu pada pengenalan model eksternal yang lebih kuat selama proses pelatihan, seperti menggunakan data yang disaring dari model eksternal; Proprietary mengacu pada model yang dilatih menggunakan data dan teknik eksklusif.

** **###### △ Dibandingkan dengan tingkat kemenangan text-davinci-003

Dibandingkan dengan model open source LIMA 65B, Guanaco 65B, Falcon-Instruct 40B dan model berpemilik davinci-003, Claude, performa Humpback juga lebih sesuai dengan preferensi manusia.

Selain itu, para peneliti mencatat keterbatasan metode ini:

Karena data teks yang digunakan untuk pelatihan berasal dari kumpulan web, model yang disesuaikan dapat memperkuat bias data web. Meskipun dibandingkan dengan model dasar, model fine-tuned meningkatkan akurasi pendeteksian bias. Namun, ini tidak berarti bahwa masalah tersebut akan diselesaikan sepenuhnya.

Portal: tautan kertas)

Tautan referensi: [1] [2] [3]

Lihat Asli

Konten ini hanya untuk referensi, bukan ajakan atau tawaran. Tidak ada nasihat investasi, pajak, atau hukum yang diberikan. Lihat Penafian untuk pengungkapan risiko lebih lanjut.

Hadiah
suka
Komentar
Bagikan

Komentar

0/400

Tidak ada komentar

Topik
#PI#
288k postingan
#BTC#
260k postingan
#ETH#
170k postingan
4#GateioInto11#
82k postingan
5#ContentStar#
68k postingan
6#GT#
68k postingan
7#DOGE#
62k postingan
8#BOME#
62k postingan
9#MAGA#
53k postingan
10#SLERF#
51k postingan

Sematkan

peta situs