Butuh 10 orang dua bulan untuk membuat model besar! Diberkati oleh 16 makalah konferensi terbaik dalam satu tahun: Tidak ada satu pun makalah terbaik di pasaran yang bersifat open source
Sebuah perusahaan yang didirikan di Shenzhen pada Mei tahun ini memiliki tim kurang dari 10 orang.
Yang harus mereka lakukan bukanlah hal kecil: menantang AGI.
Dimana kepercayaannya? Pertama, lihat resume sebelumnya, dan kedua, lihat hasil trek saat ini.
Pada tahun lalu, orang-orang ini telah menerbitkan total 16 makalah besar terkait model di konferensi terkemuka seperti CVPR, ICML, dan ECCV, dan salah satunya dinominasikan untuk makalah terbaik di konferensi teratas ACL 2023.
Apa hasil Anda setelah memulai bisnis Anda? Dua bulan setelah didirikan, model yang dilatih berada di peringkat tiga teratas dalam daftar C, dan kemampuan bahasa Mandarinnya mengalahkan ChatGPT dan Claude-v1.3.
Ini adalah hasil dari matriks simbiosis.
Dan modelnya GS-LLM telah masuk dalam daftar untuk pertama kalinya sejak akhir Juli, dan berada di eselon satu di antara 65 pemain di daftar C.
Jadi, siapakah Matriks Simbiotik itu?
10 orang menantang AGI
Symbiotic Matrix bertujuan untuk membangun pabrik pemurnian data industri berdasarkan teknologi AGI yang dikembangkan sendiri.
Tim ini terutama mengandalkan model besar GS-LLM yang dikembangkan sendiri.
Skala parameter model berkisar antara 7B-130B dan dapat disesuaikan dengan kebutuhan sebenarnya pengguna.
Ada dua versi berdasarkan GS-LLM yang menempati tempat di C-, satu adalah versi 10 miliar parameter GS-LLM-Beta, dan yang lainnya adalah versi mini GS-LLM-Beta-Mini dengan kurang dari 10 miliar parameter .
Alasan peluncuran versi mini adalah karena banyak pengguna menemukan bahwa lingkungan operasi asli (bahkan lingkungan cloud) tidak cukup untuk mendukung penerapan lokal berskala besar.
Hasil pengujian menemukan bahwa GS-LLM-Beta versi multi-miliar dapat bekerja dengan baik, dengan peringkat terbaik ke-6 di C-.
Salah satu alasan mengapa pelatihan ini dapat tetap berada di urutan teratas daftar C adalah karena matriks simbiosis telah membangun kerangka pelatihan yang sepenuhnya independen, yang memberikan dukungan teknis yang relatif lengkap untuk keseluruhan pelatihan.
Poin kedua adalah data, yang sangat penting bagi perusahaan ini.
CEO Symbiotic Matrix Zhang Lin memberikan contoh sederhana:
Bandingkan pelatihan model dengan proses pertumbuhan manusia. Jika yang dia baca sejak kecil hanyalah novel bergizi, kemampuan orang tersebut secara keseluruhan tidak akan terlalu kuat.
Tahun lalu, tim menemukan dalam sebuah eksperimen bahwa ketika data model mencapai tingkat tertentu, lonjakan kualitas data sebenarnya dapat menyebabkan beberapa perubahan kualitatif.
"Dengan kata lain, jika Anda memiliki model berskala relatif kecil (misalnya puluhan miliar) dan memberinya data berkualitas tinggi, hasil pelatihan akan sangat mendekati hasil level ratusan miliar," kata Zhang Lin .
Eksperimen ini juga membuat tim lebih memperhatikan kualitas data dan cara sistematis untuk mendapatkan data berkualitas tinggi.
Faktanya, poin ini telah menarik lebih banyak perhatian dari semua lapisan masyarakat baru-baru ini. Microsoft memiliki studi baru "Hanya buku teks yang Anda butuhkan". Penelitian tersebut menunjukkan bahwa menjadi lebih besar bukanlah satu-satunya jalan keluar, tetapi data berkualitas tinggi adalah penting.
Hasilnya, tim Simbiosis membangun sistem rekayasa pembersihan data untuk terus membersihkan data 24 jam sehari.
Tim saat ini telah membersihkan sekitar 20T data teks yang dapat digunakan untuk pelatihan. “Tingkat data ini dapat mendukung pelatihan model sistem yang sangat besar.”
Namun, Zhang Lin juga mengungkapkan bahwa Symbiotic Matrix tidak akan mengungkapkan data yang dibersihkan tim kepada publik dalam jangka pendek.
Lantas, seperti apa konsep pabrik penyempurnaan data yang ingin dibangun tim?
Zhang Lin menjelaskan bahwa jika model besar dipahami sebagai "kompresi informasi", maka model itu sendiri merupakan database parameter yang besar.
Yang harus dilakukan oleh pabrik pemurnian data adalah membagikan dan memperdagangkan data parameter setelah model dilatih.
Anda harus tahu bahwa fungsi model besar dilakukan melalui parameter. Parameter transaksi sebenarnya adalah fungsi peralihan. Kita membutuhkan keragaman fungsi model besar. "Perdagangan parameter adalah jalur yang paling efisien."
Data yang dimaksud di sini bukanlah jenis data yang dapat dilihat semua orang, melainkan data parameter. Data yang sering kita bicarakan adalah sepotong teks atau gambar, dan data yang dimiliki pabrik adalah parameter model yang dilatih, dan parameter tersebut diperdagangkan secara komersial.
“Data mentah diperdagangkan secara langsung, yang dibatasi oleh jumlah besar dan masalah privasi.” Zhang Lin menjelaskan bahwa konsep perdagangan data telah diusulkan selama bertahun-tahun, namun belum sepenuhnya diterima oleh pasar. Tim percaya bahwa jika data ingin benar-benar diedarkan, maka harus lebih masuk akal, aman dan efektif, sehingga transaksi data pada tingkat parameter akhirnya dapat ditentukan.
Dalam visi tim, setelah pabrik penyempurnaan data selesai, beberapa data tidak perlu dilatih berulang kali, efisiensi akan ditingkatkan, dan biaya akan berkurang.
Gunakan lebih sedikit orang dan sumber daya untuk menyelesaikan sistem model besar
Di tengah hiruk pikuk model besar, cara mengevaluasi model besar telah menjadi isu penting, itulah sebabnya berbagai daftar bermunculan.
Setelah Symbiotic Matrix terdaftar sebagai C-, dunia luar fokus pada dua poin utama:
Selain hasil bagusnya, hal menarik lainnya adalah mereka merupakan tim kecil yang jarang masuk dalam daftar.
Tim tersebut mengatakan bahwa daftar tersebut bukan satu-satunya dan paling otoritatif di dunia, tetapi daftar tersebut mulai muncul dalam daftar satu bulan setelah ditetapkan, dan setelah mencapai tiga besar, yang mencerminkan bahwa "kita menggunakan lebih sedikit orang dan sumber daya untuk melakukan hal ini." melakukan pekerjaan dengan baik dalam sistem model skala besar."
Betul, tim Symbiosis Matrix beranggotakan kurang dari 10 orang.
Jumlah orangnya tidak banyak, tapi mereka semua cukup pandai bertarung——
CEO Zhang Lin, CTO Wang Junjie, dan anggota inti tim lainnya semuanya berasal dari IDEA Research Institute, dan memiliki pengalaman praktis yang kaya dalam sistem sumber terbuka model pra-pelatihan Fengshenbang domestik (dilaporkan bahwa Fengshenbang saat ini memiliki lebih dari 98 model terbuka sumber model pra-pelatihan)
Zhang Lin lulus dari Universitas Negeri New York dengan gelar Ph.D. dan telah menerbitkan lebih dari 30 makalah di konferensi komputer terkemuka. Sebelumnya ia adalah peneliti senior di Institut Ekonomi Digital Greater Bay Area (IDEA) Guangdong-Hong Kong-Macao ).
Wang Junjie meraih gelar PhD di bidang ilmu komputer dari Universitas Waseda dan sebelumnya merupakan anggota inti tim model besar Fengshenbang.
△Zhang Lin
Melihat pasar AI saat ini, tidak ada preseden bagi tim kecil untuk melakukan pekerjaan dengan baik di AI. Hanya ada 11 anggota di balik model diagram Vincent Midjourney yang paling terkenal, yang disebut sebagai tolok ukur organisasi era baru. Di era AI 2.0, banyak bermunculan tim wirausaha model besar yang mengedepankan “kecil tapi cantik” di dalam dan luar negeri.
Tentu saja, Zhang Lin mengatakan bahwa alasan yang lebih dalam adalah bahwa model besar bukan sekadar proyek yang menumpuk tenaga kerja, dan memerlukan sejumlah kecil tim elit untuk memastikan efisiensi.
Dia mengatakan bahwa saat melatih model, aspek teknis seperti optimalisasi operator, presisi campuran, dll., serta masalah komunikasi saat mendukung ratusan kartu pada saat yang sama, semuanya menguji kemampuan teknik. Jika tim kecil dapat memecahkan masalah teknik yang dihadapi dan meningkatkan efisiensi, maka tidak perlu bergantung pada tim besar untuk menyelesaikannya.
Selain itu, tim inti teknis yang kecil lebih kondusif untuk menjaga independensi ideologis dan mengeksplorasi lebih banyak kemungkinan dengan tidak berpegang teguh pada aturan. Namun, penumpukan tenaga kerja akan dengan mudah mengurangi efisiensi secara keseluruhan.
Menurut perkiraannya, talenta terbaik di bidang model berskala besar di negara tersebut "hanya boleh berjumlah sekitar 100 orang", dan hanya ada sedikit ruang untuk membentuk tim besar.
Oleh karena itu, jumlah tim akan tetap "kurang dari sepuluh orang" untuk jangka waktu tertentu.
Pada akhirnya, inilah perbedaan pemahaman paradigma dan konsep di balik era AI 2.0 dan era AI 1.0.
Selama proses komunikasi, Zhang Lin juga secara langsung mengungkapkan perbedaan pemahaman tim dengan suara mainstream di level lain, yang tercermin dalam konsep open source dan close source.
Beberapa waktu lalu, ketika LLaMA-2 gratis dan tersedia secara komersial dirilis, banyak orang mengatakan bahwa ini akan menjadi pukulan besar bagi startup di pasar, karena LLaMA-2 dapat memenuhi kebutuhan sebagian besar perusahaan akan biaya yang lebih rendah dan personalisasi.
"LLaMA-2 tidak mengubah struktur pasar." Di mata tim Simbiosis, tim yang benar-benar terkemuka tidak membuka teknologi inti sumber terbuka.
Zhang Lin juga menambahkan bahwa pada tahap saat ini, pentingnya open source lebih terletak pada mendidik pasar daripada mempromosikan komersialisasi.
Sama seperti Raspberry Pi yang berarti bagi penggemar elektronik, namun tidak akan mengubah pasar komputer seluler, LLAMA 2 lebih berharga bagi pengguna tingkat pemula, namun akan berdampak kecil pada pengguna yang ingin go komersial.
Masih banyak matriks simbiosis dengan pandangan dan pemahaman “non-mainstream” seperti ini.
Misalnya, kami tidak percaya bahwa model besar adalah titik akhir dari AI secara umum, kami juga tidak percaya bahwa ChatGPT mewakili arah akhir.
Mereka juga berhati-hati terhadap ekspansi cepat gaya unicorn dan lebih memperhatikan kohesi tim dan akumulasi teknologi.
......
Mengenai jalur pengembangan di masa depan, Symbiosis Matrix memilih untuk menjadi sumber tertutup dalam jangka pendek, dan mungkin menjadi sumber terbuka di masa depan jika ada peluang yang sesuai.
Open source harus memiliki tujuan bisnis yang jelas. Saat ini, teknologi model besar masih dalam tahap iterasi dan kompetisi yang cepat, dan teknologi inti open source berisiko kehilangan keunggulannya sebagai penggerak pertama.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Butuh 10 orang dua bulan untuk membuat model besar! Diberkati oleh 16 makalah konferensi terbaik dalam satu tahun: Tidak ada satu pun makalah terbaik di pasaran yang bersifat open source
Penulis: Hengyu
**Sumber: **Qubit
Sebuah perusahaan yang didirikan di Shenzhen pada Mei tahun ini memiliki tim kurang dari 10 orang.
Yang harus mereka lakukan bukanlah hal kecil: menantang AGI.
Dimana kepercayaannya? Pertama, lihat resume sebelumnya, dan kedua, lihat hasil trek saat ini.
Pada tahun lalu, orang-orang ini telah menerbitkan total 16 makalah besar terkait model di konferensi terkemuka seperti CVPR, ICML, dan ECCV, dan salah satunya dinominasikan untuk makalah terbaik di konferensi teratas ACL 2023.
Apa hasil Anda setelah memulai bisnis Anda? Dua bulan setelah didirikan, model yang dilatih berada di peringkat tiga teratas dalam daftar C, dan kemampuan bahasa Mandarinnya mengalahkan ChatGPT dan Claude-v1.3.
Ini adalah hasil dari matriks simbiosis.
Dan modelnya GS-LLM telah masuk dalam daftar untuk pertama kalinya sejak akhir Juli, dan berada di eselon satu di antara 65 pemain di daftar C.
Jadi, siapakah Matriks Simbiotik itu?
10 orang menantang AGI
Symbiotic Matrix bertujuan untuk membangun pabrik pemurnian data industri berdasarkan teknologi AGI yang dikembangkan sendiri.
Tim ini terutama mengandalkan model besar GS-LLM yang dikembangkan sendiri.
Skala parameter model berkisar antara 7B-130B dan dapat disesuaikan dengan kebutuhan sebenarnya pengguna.
Ada dua versi berdasarkan GS-LLM yang menempati tempat di C-, satu adalah versi 10 miliar parameter GS-LLM-Beta, dan yang lainnya adalah versi mini GS-LLM-Beta-Mini dengan kurang dari 10 miliar parameter .
Alasan peluncuran versi mini adalah karena banyak pengguna menemukan bahwa lingkungan operasi asli (bahkan lingkungan cloud) tidak cukup untuk mendukung penerapan lokal berskala besar.
Hasil pengujian menemukan bahwa GS-LLM-Beta versi multi-miliar dapat bekerja dengan baik, dengan peringkat terbaik ke-6 di C-.
Salah satu alasan mengapa pelatihan ini dapat tetap berada di urutan teratas daftar C adalah karena matriks simbiosis telah membangun kerangka pelatihan yang sepenuhnya independen, yang memberikan dukungan teknis yang relatif lengkap untuk keseluruhan pelatihan.
Poin kedua adalah data, yang sangat penting bagi perusahaan ini.
CEO Symbiotic Matrix Zhang Lin memberikan contoh sederhana:
Bandingkan pelatihan model dengan proses pertumbuhan manusia. Jika yang dia baca sejak kecil hanyalah novel bergizi, kemampuan orang tersebut secara keseluruhan tidak akan terlalu kuat.
Tahun lalu, tim menemukan dalam sebuah eksperimen bahwa ketika data model mencapai tingkat tertentu, lonjakan kualitas data sebenarnya dapat menyebabkan beberapa perubahan kualitatif.
"Dengan kata lain, jika Anda memiliki model berskala relatif kecil (misalnya puluhan miliar) dan memberinya data berkualitas tinggi, hasil pelatihan akan sangat mendekati hasil level ratusan miliar," kata Zhang Lin .
Eksperimen ini juga membuat tim lebih memperhatikan kualitas data dan cara sistematis untuk mendapatkan data berkualitas tinggi.
Faktanya, poin ini telah menarik lebih banyak perhatian dari semua lapisan masyarakat baru-baru ini. Microsoft memiliki studi baru "Hanya buku teks yang Anda butuhkan". Penelitian tersebut menunjukkan bahwa menjadi lebih besar bukanlah satu-satunya jalan keluar, tetapi data berkualitas tinggi adalah penting.
Hasilnya, tim Simbiosis membangun sistem rekayasa pembersihan data untuk terus membersihkan data 24 jam sehari.
Tim saat ini telah membersihkan sekitar 20T data teks yang dapat digunakan untuk pelatihan. “Tingkat data ini dapat mendukung pelatihan model sistem yang sangat besar.”
Namun, Zhang Lin juga mengungkapkan bahwa Symbiotic Matrix tidak akan mengungkapkan data yang dibersihkan tim kepada publik dalam jangka pendek.
Lantas, seperti apa konsep pabrik penyempurnaan data yang ingin dibangun tim?
Zhang Lin menjelaskan bahwa jika model besar dipahami sebagai "kompresi informasi", maka model itu sendiri merupakan database parameter yang besar.
Yang harus dilakukan oleh pabrik pemurnian data adalah membagikan dan memperdagangkan data parameter setelah model dilatih.
Anda harus tahu bahwa fungsi model besar dilakukan melalui parameter. Parameter transaksi sebenarnya adalah fungsi peralihan. Kita membutuhkan keragaman fungsi model besar. "Perdagangan parameter adalah jalur yang paling efisien."
Data yang dimaksud di sini bukanlah jenis data yang dapat dilihat semua orang, melainkan data parameter. Data yang sering kita bicarakan adalah sepotong teks atau gambar, dan data yang dimiliki pabrik adalah parameter model yang dilatih, dan parameter tersebut diperdagangkan secara komersial.
“Data mentah diperdagangkan secara langsung, yang dibatasi oleh jumlah besar dan masalah privasi.” Zhang Lin menjelaskan bahwa konsep perdagangan data telah diusulkan selama bertahun-tahun, namun belum sepenuhnya diterima oleh pasar. Tim percaya bahwa jika data ingin benar-benar diedarkan, maka harus lebih masuk akal, aman dan efektif, sehingga transaksi data pada tingkat parameter akhirnya dapat ditentukan.
Dalam visi tim, setelah pabrik penyempurnaan data selesai, beberapa data tidak perlu dilatih berulang kali, efisiensi akan ditingkatkan, dan biaya akan berkurang.
Gunakan lebih sedikit orang dan sumber daya untuk menyelesaikan sistem model besar
Di tengah hiruk pikuk model besar, cara mengevaluasi model besar telah menjadi isu penting, itulah sebabnya berbagai daftar bermunculan.
Setelah Symbiotic Matrix terdaftar sebagai C-, dunia luar fokus pada dua poin utama:
Selain hasil bagusnya, hal menarik lainnya adalah mereka merupakan tim kecil yang jarang masuk dalam daftar.
Tim tersebut mengatakan bahwa daftar tersebut bukan satu-satunya dan paling otoritatif di dunia, tetapi daftar tersebut mulai muncul dalam daftar satu bulan setelah ditetapkan, dan setelah mencapai tiga besar, yang mencerminkan bahwa "kita menggunakan lebih sedikit orang dan sumber daya untuk melakukan hal ini." melakukan pekerjaan dengan baik dalam sistem model skala besar."
Betul, tim Symbiosis Matrix beranggotakan kurang dari 10 orang.
Jumlah orangnya tidak banyak, tapi mereka semua cukup pandai bertarung——
CEO Zhang Lin, CTO Wang Junjie, dan anggota inti tim lainnya semuanya berasal dari IDEA Research Institute, dan memiliki pengalaman praktis yang kaya dalam sistem sumber terbuka model pra-pelatihan Fengshenbang domestik (dilaporkan bahwa Fengshenbang saat ini memiliki lebih dari 98 model terbuka sumber model pra-pelatihan)
Zhang Lin lulus dari Universitas Negeri New York dengan gelar Ph.D. dan telah menerbitkan lebih dari 30 makalah di konferensi komputer terkemuka. Sebelumnya ia adalah peneliti senior di Institut Ekonomi Digital Greater Bay Area (IDEA) Guangdong-Hong Kong-Macao ).
Wang Junjie meraih gelar PhD di bidang ilmu komputer dari Universitas Waseda dan sebelumnya merupakan anggota inti tim model besar Fengshenbang.
Melihat pasar AI saat ini, tidak ada preseden bagi tim kecil untuk melakukan pekerjaan dengan baik di AI. Hanya ada 11 anggota di balik model diagram Vincent Midjourney yang paling terkenal, yang disebut sebagai tolok ukur organisasi era baru. Di era AI 2.0, banyak bermunculan tim wirausaha model besar yang mengedepankan “kecil tapi cantik” di dalam dan luar negeri.
Tentu saja, Zhang Lin mengatakan bahwa alasan yang lebih dalam adalah bahwa model besar bukan sekadar proyek yang menumpuk tenaga kerja, dan memerlukan sejumlah kecil tim elit untuk memastikan efisiensi.
Dia mengatakan bahwa saat melatih model, aspek teknis seperti optimalisasi operator, presisi campuran, dll., serta masalah komunikasi saat mendukung ratusan kartu pada saat yang sama, semuanya menguji kemampuan teknik. Jika tim kecil dapat memecahkan masalah teknik yang dihadapi dan meningkatkan efisiensi, maka tidak perlu bergantung pada tim besar untuk menyelesaikannya.
Selain itu, tim inti teknis yang kecil lebih kondusif untuk menjaga independensi ideologis dan mengeksplorasi lebih banyak kemungkinan dengan tidak berpegang teguh pada aturan. Namun, penumpukan tenaga kerja akan dengan mudah mengurangi efisiensi secara keseluruhan.
Menurut perkiraannya, talenta terbaik di bidang model berskala besar di negara tersebut "hanya boleh berjumlah sekitar 100 orang", dan hanya ada sedikit ruang untuk membentuk tim besar.
Oleh karena itu, jumlah tim akan tetap "kurang dari sepuluh orang" untuk jangka waktu tertentu.
Pada akhirnya, inilah perbedaan pemahaman paradigma dan konsep di balik era AI 2.0 dan era AI 1.0.
Selama proses komunikasi, Zhang Lin juga secara langsung mengungkapkan perbedaan pemahaman tim dengan suara mainstream di level lain, yang tercermin dalam konsep open source dan close source.
Beberapa waktu lalu, ketika LLaMA-2 gratis dan tersedia secara komersial dirilis, banyak orang mengatakan bahwa ini akan menjadi pukulan besar bagi startup di pasar, karena LLaMA-2 dapat memenuhi kebutuhan sebagian besar perusahaan akan biaya yang lebih rendah dan personalisasi.
"LLaMA-2 tidak mengubah struktur pasar." Di mata tim Simbiosis, tim yang benar-benar terkemuka tidak membuka teknologi inti sumber terbuka.
Zhang Lin juga menambahkan bahwa pada tahap saat ini, pentingnya open source lebih terletak pada mendidik pasar daripada mempromosikan komersialisasi.
Sama seperti Raspberry Pi yang berarti bagi penggemar elektronik, namun tidak akan mengubah pasar komputer seluler, LLAMA 2 lebih berharga bagi pengguna tingkat pemula, namun akan berdampak kecil pada pengguna yang ingin go komersial.
Masih banyak matriks simbiosis dengan pandangan dan pemahaman “non-mainstream” seperti ini.
Misalnya, kami tidak percaya bahwa model besar adalah titik akhir dari AI secara umum, kami juga tidak percaya bahwa ChatGPT mewakili arah akhir.
Mereka juga berhati-hati terhadap ekspansi cepat gaya unicorn dan lebih memperhatikan kohesi tim dan akumulasi teknologi.
......
Mengenai jalur pengembangan di masa depan, Symbiosis Matrix memilih untuk menjadi sumber tertutup dalam jangka pendek, dan mungkin menjadi sumber terbuka di masa depan jika ada peluang yang sesuai.
Open source harus memiliki tujuan bisnis yang jelas. Saat ini, teknologi model besar masih dalam tahap iterasi dan kompetisi yang cepat, dan teknologi inti open source berisiko kehilangan keunggulannya sebagai penggerak pertama.