Jika AI ingin menjadi lebih baik, ia harus berbuat lebih banyak dengan sumber daya yang lebih sedikit.
Berbicara tentang "Large Language Models" (LLM), seperti GPT OpenAI (Generative Pre-trained Transformer) - kekuatan inti yang menggerakkan chatbot populer di Amerika Serikat - namanya menjelaskan semuanya. Sistem AI modern seperti itu ditenagai oleh jaringan saraf tiruan yang luas yang meniru cara kerja otak biologis secara luas. GPT-3, dirilis pada tahun 2020, adalah raksasa model bahasa besar dengan 175 miliar "parameter", yang merupakan nama untuk simulasi koneksi antar neuron. GPT-3 dilatih dengan memproses triliunan kata teks dalam beberapa minggu menggunakan ribuan GPU yang paham AI, dengan perkiraan biaya lebih dari $4,6 juta.
Namun, konsensus dalam penelitian AI modern adalah: "lebih besar lebih baik, dan lebih besar lebih baik". Oleh karena itu, tingkat pertumbuhan skala model telah berkembang pesat. Dirilis pada bulan Maret, GPT-4 diperkirakan memiliki sekitar 1 triliun parameter—peningkatan hampir enam kali lipat dari generasi sebelumnya. CEO OpenAI Sam Altman memperkirakan biaya pengembangannya lebih dari $100 juta. Dan industri secara keseluruhan menunjukkan tren yang sama. Firma riset Epoch AI memprediksi pada tahun 2022 bahwa daya komputasi yang diperlukan untuk melatih model teratas akan berlipat ganda setiap enam hingga sepuluh bulan (lihat bagan di bawah).
Ukuran parameter model AI yang terus meningkat menimbulkan beberapa masalah. Jika prediksi Epoch AI benar dan biaya pelatihan berlipat ganda setiap sepuluh bulan, biaya pelatihan dapat melebihi satu miliar dolar pada tahun 2026 – dan itu hanya dengan asumsi data tidak habis terlebih dahulu. Analisis pada Oktober 2022 memperkirakan bahwa teks berkualitas tinggi yang digunakan untuk pelatihan dapat habis dalam waktu yang sama. Selain itu, bahkan setelah pelatihan model selesai, biaya sebenarnya untuk menjalankan model besar bisa sangat mahal.
Awal tahun ini, Morgan Stanley memperkirakan bahwa jika setengah dari pencarian Google ditangani oleh program tipe GPT saat ini, perusahaan dapat dikenakan biaya tambahan $6 miliar per tahun. Jumlah ini kemungkinan akan terus meningkat seiring dengan bertambahnya ukuran model.
Akibatnya, pandangan banyak orang bahwa model AI "besar lebih baik" sudah tidak berlaku lagi. Jika mereka akan terus meningkatkan model AI (apalagi mewujudkan impian AI yang lebih besar), pengembang perlu mencari cara untuk mendapatkan kinerja yang lebih baik dengan sumber daya yang terbatas. Seperti yang dikatakan Mr Altman pada bulan April ini ketika melihat kembali sejarah AI skala besar: "Saya pikir kita telah mencapai akhir sebuah era."
Crunching Kuantitatif
Sebaliknya, para peneliti mulai berfokus pada bagaimana meningkatkan efisiensi model, bukan hanya mengejar skala. Salah satu caranya adalah mencapai trade-off dengan mengurangi jumlah parameter tetapi menggunakan lebih banyak data untuk melatih model. Pada tahun 2022, divisi DeepMind Google melatih 70 miliar parameter LLM yang disebut Chinchilla pada kumpulan 1,4 triliun kata. Meskipun memiliki parameter lebih sedikit dari 175 miliar GPT-3 dan data pelatihan hanya 300 miliar kata, model ini mengungguli GPT-3. Memasukkan LLM yang lebih kecil dengan lebih banyak data berarti membutuhkan waktu lebih lama untuk berlatih, tetapi hasilnya adalah model yang lebih kecil, lebih cepat, dan lebih murah.
Pilihan lain adalah membiarkan mengurangi ketepatan angka floating point. Mengurangi jumlah digit presisi di setiap angka dalam model, yaitu pembulatan, dapat mengurangi kebutuhan perangkat keras secara drastis. Para peneliti di Institut Sains dan Teknologi Austria menunjukkan pada bulan Maret bahwa pembulatan dapat secara drastis mengurangi konsumsi memori model mirip GPT-3, memungkinkan model untuk berjalan pada satu GPU kelas atas, bukan lima dengan "kehilangan akurasi yang dapat diabaikan. " ".
Beberapa pengguna menyempurnakan LLM tujuan umum untuk fokus pada tugas tertentu seperti membuat dokumen hukum atau mendeteksi berita palsu. Meskipun ini tidak serumit melatih LLM untuk pertama kalinya, ini masih mahal dan memakan waktu. Menyempurnakan 65 miliar parameter model LLaMA yang bersumber terbuka dari Meta (perusahaan induk Facebook) membutuhkan beberapa GPU dan memakan waktu berjam-jam hingga berhari-hari.
Para peneliti di University of Washington telah menemukan cara yang lebih efisien untuk membuat model Guanaco baru dari LLaMA pada satu GPU dalam sehari dengan penurunan kinerja yang dapat diabaikan. Bagian dari triknya adalah teknik pembulatan yang mirip dengan yang digunakan oleh para peneliti Austria. Tapi mereka juga menggunakan teknik yang disebut Low-Rank Adaptation (LoRA), yang melibatkan perbaikan parameter model yang ada dan kemudian menambahkan parameter baru yang lebih kecil ke dalamnya. Penyempurnaan dilakukan dengan hanya mengubah variabel baru ini. Ini menyederhanakan hal-hal sampai-sampai komputer yang relatif lemah, seperti smartphone, dapat melakukan tugasnya. Jika LLM dapat dijalankan di perangkat pengguna alih-alih di pusat data raksasa saat ini, ini dapat memberikan personalisasi yang lebih besar dan perlindungan privasi yang lebih baik.
Sementara itu, tim di Google menawarkan opsi baru bagi mereka yang dapat hidup dengan model yang lebih kecil. Pendekatan ini berfokus pada penambangan pengetahuan khusus dari model umum yang besar dan mengubahnya menjadi model yang lebih kecil dan terspesialisasi. Model besar berperan sebagai guru dan model kecil berperan sebagai siswa. Peneliti meminta guru menjawab pertanyaan dan mendemonstrasikan penalaran mereka. Baik jawaban maupun kesimpulan dari model guru (model besar) digunakan untuk melatih model siswa (model kecil). Tim berhasil melatih model siswa dengan hanya 7,7 miliar parameter (model kecil) untuk mengungguli model gurunya dengan 540 miliar parameter (model besar) pada tugas inferensi tertentu.
Pendekatan lain adalah mengubah cara model dibangun alih-alih berfokus pada apa yang dilakukan model. Sebagian besar model AI dikembangkan dalam bahasa Python. Ini dirancang agar mudah digunakan, membebaskan pemrogram dari keharusan memikirkan bagaimana program mengoperasikan chip saat sedang berjalan. Harga menutupi detail ini adalah kode berjalan lebih lambat. Memberi perhatian lebih pada detail implementasi ini dapat memberikan keuntungan besar. Seperti yang dikatakan Thomas Wolf, kepala staf ilmiah perusahaan AI open-source Hugging Face, ini adalah "aspek penting dari penelitian terkini dalam kecerdasan buatan."
kode yang dioptimalkan
Misalnya, pada tahun 2022, para peneliti di Universitas Stanford merilis versi "algoritme perhatian" yang ditingkatkan yang memungkinkan model bahasa besar (LLM) mempelajari hubungan antara kata dan konsep. Idenya adalah memodifikasi kode untuk mempertimbangkan apa yang terjadi pada chip yang menjalankannya, khususnya untuk melacak kapan informasi tertentu perlu diambil atau disimpan. Algoritme mereka berhasil melipatgandakan kecepatan pelatihan GPT-2, model bahasa besar awal, dan juga meningkatkan kemampuannya untuk menangani kueri yang lebih panjang.
Kode yang lebih bersih juga dapat dicapai dengan alat yang lebih baik. Awal tahun ini, Meta merilis versi baru kerangka pemrograman AI-nya, PyTorch. Dengan membuat pemrogram memikirkan lebih lanjut tentang cara mengatur perhitungan pada chip yang sebenarnya, ini dapat menggandakan kecepatan model yang dapat dilatih dengan menambahkan satu baris kode. Modular, startup yang didirikan oleh mantan insinyur Apple dan Google, bulan lalu merilis bahasa pemrograman baru yang berfokus pada AI yang disebut Mojo, berdasarkan Python. Mojo memberi pemrogram kendali atas semua detail yang sebelumnya dilindungi, dan dalam beberapa kasus, kode yang ditulis menggunakan Mojo dapat berjalan ribuan kali lebih cepat daripada blok kode setara yang ditulis dengan Python.
Opsi terakhir adalah meningkatkan chip yang menjalankan kode. Meskipun awalnya dirancang untuk menangani grafik kompleks yang ditemukan di video game modern, GPU secara mengejutkan bagus dalam menjalankan model AI. Seorang peneliti perangkat keras di Meta mengatakan bahwa untuk "inferensi" (yaitu, pelaksanaan model yang sebenarnya setelah dilatih), GPU tidak dirancang dengan sempurna. Akibatnya, beberapa perusahaan merancang perangkat keras mereka sendiri yang lebih terspesialisasi. Google sudah menjalankan sebagian besar proyek AI-nya pada chip "TPU" internalnya. Meta, dengan chip MTIA-nya, dan Amazon, dengan chip Inferentia-nya, mencoba hal serupa.
Mengejutkan bahwa terkadang perubahan sederhana seperti pembulatan angka atau mengganti bahasa pemrograman dapat menghasilkan peningkatan kinerja yang sangat besar. Tapi ini mencerminkan perkembangan pesat model bahasa besar (LLM). Selama bertahun-tahun, model bahasa besar terutama merupakan proyek penelitian, dan fokus utamanya adalah membuat mereka bekerja dan menghasilkan hasil yang valid, bukan pada keanggunan desainnya. Baru belakangan ini mereka diubah menjadi produk komersial dan pasar massal. Kebanyakan ahli setuju bahwa ada banyak ruang untuk perbaikan. Seperti yang dikatakan Chris Manning, seorang ilmuwan komputer di Stanford University: "Tidak ada alasan untuk percaya bahwa arsitektur saraf yang digunakan saat ini (mengacu pada struktur jaringan saraf saat ini) adalah optimal, dan tidak menutup kemungkinan bahwa arsitektur yang lebih maju akan muncul. di masa depan."
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Sudut pandang model AI "besar lebih baik" tidak lagi berfungsi
Penulis | Penerjemah The Economist |
Redaktur penanggung jawab | Xia Meng
Daftar | CSDN (ID: CSDNnews)
Jika AI ingin menjadi lebih baik, ia harus berbuat lebih banyak dengan sumber daya yang lebih sedikit.
Berbicara tentang "Large Language Models" (LLM), seperti GPT OpenAI (Generative Pre-trained Transformer) - kekuatan inti yang menggerakkan chatbot populer di Amerika Serikat - namanya menjelaskan semuanya. Sistem AI modern seperti itu ditenagai oleh jaringan saraf tiruan yang luas yang meniru cara kerja otak biologis secara luas. GPT-3, dirilis pada tahun 2020, adalah raksasa model bahasa besar dengan 175 miliar "parameter", yang merupakan nama untuk simulasi koneksi antar neuron. GPT-3 dilatih dengan memproses triliunan kata teks dalam beberapa minggu menggunakan ribuan GPU yang paham AI, dengan perkiraan biaya lebih dari $4,6 juta.
Namun, konsensus dalam penelitian AI modern adalah: "lebih besar lebih baik, dan lebih besar lebih baik". Oleh karena itu, tingkat pertumbuhan skala model telah berkembang pesat. Dirilis pada bulan Maret, GPT-4 diperkirakan memiliki sekitar 1 triliun parameter—peningkatan hampir enam kali lipat dari generasi sebelumnya. CEO OpenAI Sam Altman memperkirakan biaya pengembangannya lebih dari $100 juta. Dan industri secara keseluruhan menunjukkan tren yang sama. Firma riset Epoch AI memprediksi pada tahun 2022 bahwa daya komputasi yang diperlukan untuk melatih model teratas akan berlipat ganda setiap enam hingga sepuluh bulan (lihat bagan di bawah).
Awal tahun ini, Morgan Stanley memperkirakan bahwa jika setengah dari pencarian Google ditangani oleh program tipe GPT saat ini, perusahaan dapat dikenakan biaya tambahan $6 miliar per tahun. Jumlah ini kemungkinan akan terus meningkat seiring dengan bertambahnya ukuran model.
Akibatnya, pandangan banyak orang bahwa model AI "besar lebih baik" sudah tidak berlaku lagi. Jika mereka akan terus meningkatkan model AI (apalagi mewujudkan impian AI yang lebih besar), pengembang perlu mencari cara untuk mendapatkan kinerja yang lebih baik dengan sumber daya yang terbatas. Seperti yang dikatakan Mr Altman pada bulan April ini ketika melihat kembali sejarah AI skala besar: "Saya pikir kita telah mencapai akhir sebuah era."
Crunching Kuantitatif
Sebaliknya, para peneliti mulai berfokus pada bagaimana meningkatkan efisiensi model, bukan hanya mengejar skala. Salah satu caranya adalah mencapai trade-off dengan mengurangi jumlah parameter tetapi menggunakan lebih banyak data untuk melatih model. Pada tahun 2022, divisi DeepMind Google melatih 70 miliar parameter LLM yang disebut Chinchilla pada kumpulan 1,4 triliun kata. Meskipun memiliki parameter lebih sedikit dari 175 miliar GPT-3 dan data pelatihan hanya 300 miliar kata, model ini mengungguli GPT-3. Memasukkan LLM yang lebih kecil dengan lebih banyak data berarti membutuhkan waktu lebih lama untuk berlatih, tetapi hasilnya adalah model yang lebih kecil, lebih cepat, dan lebih murah.
Pilihan lain adalah membiarkan mengurangi ketepatan angka floating point. Mengurangi jumlah digit presisi di setiap angka dalam model, yaitu pembulatan, dapat mengurangi kebutuhan perangkat keras secara drastis. Para peneliti di Institut Sains dan Teknologi Austria menunjukkan pada bulan Maret bahwa pembulatan dapat secara drastis mengurangi konsumsi memori model mirip GPT-3, memungkinkan model untuk berjalan pada satu GPU kelas atas, bukan lima dengan "kehilangan akurasi yang dapat diabaikan. " ".
Beberapa pengguna menyempurnakan LLM tujuan umum untuk fokus pada tugas tertentu seperti membuat dokumen hukum atau mendeteksi berita palsu. Meskipun ini tidak serumit melatih LLM untuk pertama kalinya, ini masih mahal dan memakan waktu. Menyempurnakan 65 miliar parameter model LLaMA yang bersumber terbuka dari Meta (perusahaan induk Facebook) membutuhkan beberapa GPU dan memakan waktu berjam-jam hingga berhari-hari.
Para peneliti di University of Washington telah menemukan cara yang lebih efisien untuk membuat model Guanaco baru dari LLaMA pada satu GPU dalam sehari dengan penurunan kinerja yang dapat diabaikan. Bagian dari triknya adalah teknik pembulatan yang mirip dengan yang digunakan oleh para peneliti Austria. Tapi mereka juga menggunakan teknik yang disebut Low-Rank Adaptation (LoRA), yang melibatkan perbaikan parameter model yang ada dan kemudian menambahkan parameter baru yang lebih kecil ke dalamnya. Penyempurnaan dilakukan dengan hanya mengubah variabel baru ini. Ini menyederhanakan hal-hal sampai-sampai komputer yang relatif lemah, seperti smartphone, dapat melakukan tugasnya. Jika LLM dapat dijalankan di perangkat pengguna alih-alih di pusat data raksasa saat ini, ini dapat memberikan personalisasi yang lebih besar dan perlindungan privasi yang lebih baik.
Sementara itu, tim di Google menawarkan opsi baru bagi mereka yang dapat hidup dengan model yang lebih kecil. Pendekatan ini berfokus pada penambangan pengetahuan khusus dari model umum yang besar dan mengubahnya menjadi model yang lebih kecil dan terspesialisasi. Model besar berperan sebagai guru dan model kecil berperan sebagai siswa. Peneliti meminta guru menjawab pertanyaan dan mendemonstrasikan penalaran mereka. Baik jawaban maupun kesimpulan dari model guru (model besar) digunakan untuk melatih model siswa (model kecil). Tim berhasil melatih model siswa dengan hanya 7,7 miliar parameter (model kecil) untuk mengungguli model gurunya dengan 540 miliar parameter (model besar) pada tugas inferensi tertentu.
Pendekatan lain adalah mengubah cara model dibangun alih-alih berfokus pada apa yang dilakukan model. Sebagian besar model AI dikembangkan dalam bahasa Python. Ini dirancang agar mudah digunakan, membebaskan pemrogram dari keharusan memikirkan bagaimana program mengoperasikan chip saat sedang berjalan. Harga menutupi detail ini adalah kode berjalan lebih lambat. Memberi perhatian lebih pada detail implementasi ini dapat memberikan keuntungan besar. Seperti yang dikatakan Thomas Wolf, kepala staf ilmiah perusahaan AI open-source Hugging Face, ini adalah "aspek penting dari penelitian terkini dalam kecerdasan buatan."
kode yang dioptimalkan
Misalnya, pada tahun 2022, para peneliti di Universitas Stanford merilis versi "algoritme perhatian" yang ditingkatkan yang memungkinkan model bahasa besar (LLM) mempelajari hubungan antara kata dan konsep. Idenya adalah memodifikasi kode untuk mempertimbangkan apa yang terjadi pada chip yang menjalankannya, khususnya untuk melacak kapan informasi tertentu perlu diambil atau disimpan. Algoritme mereka berhasil melipatgandakan kecepatan pelatihan GPT-2, model bahasa besar awal, dan juga meningkatkan kemampuannya untuk menangani kueri yang lebih panjang.
Kode yang lebih bersih juga dapat dicapai dengan alat yang lebih baik. Awal tahun ini, Meta merilis versi baru kerangka pemrograman AI-nya, PyTorch. Dengan membuat pemrogram memikirkan lebih lanjut tentang cara mengatur perhitungan pada chip yang sebenarnya, ini dapat menggandakan kecepatan model yang dapat dilatih dengan menambahkan satu baris kode. Modular, startup yang didirikan oleh mantan insinyur Apple dan Google, bulan lalu merilis bahasa pemrograman baru yang berfokus pada AI yang disebut Mojo, berdasarkan Python. Mojo memberi pemrogram kendali atas semua detail yang sebelumnya dilindungi, dan dalam beberapa kasus, kode yang ditulis menggunakan Mojo dapat berjalan ribuan kali lebih cepat daripada blok kode setara yang ditulis dengan Python.
Opsi terakhir adalah meningkatkan chip yang menjalankan kode. Meskipun awalnya dirancang untuk menangani grafik kompleks yang ditemukan di video game modern, GPU secara mengejutkan bagus dalam menjalankan model AI. Seorang peneliti perangkat keras di Meta mengatakan bahwa untuk "inferensi" (yaitu, pelaksanaan model yang sebenarnya setelah dilatih), GPU tidak dirancang dengan sempurna. Akibatnya, beberapa perusahaan merancang perangkat keras mereka sendiri yang lebih terspesialisasi. Google sudah menjalankan sebagian besar proyek AI-nya pada chip "TPU" internalnya. Meta, dengan chip MTIA-nya, dan Amazon, dengan chip Inferentia-nya, mencoba hal serupa.
Mengejutkan bahwa terkadang perubahan sederhana seperti pembulatan angka atau mengganti bahasa pemrograman dapat menghasilkan peningkatan kinerja yang sangat besar. Tapi ini mencerminkan perkembangan pesat model bahasa besar (LLM). Selama bertahun-tahun, model bahasa besar terutama merupakan proyek penelitian, dan fokus utamanya adalah membuat mereka bekerja dan menghasilkan hasil yang valid, bukan pada keanggunan desainnya. Baru belakangan ini mereka diubah menjadi produk komersial dan pasar massal. Kebanyakan ahli setuju bahwa ada banyak ruang untuk perbaikan. Seperti yang dikatakan Chris Manning, seorang ilmuwan komputer di Stanford University: "Tidak ada alasan untuk percaya bahwa arsitektur saraf yang digunakan saat ini (mengacu pada struktur jaringan saraf saat ini) adalah optimal, dan tidak menutup kemungkinan bahwa arsitektur yang lebih maju akan muncul. di masa depan."