WebGLM, robot obrolan tanya-jawab Internetwork dengan 10 miliar parameter (makalah dipilih untuk KDD2023).
Anda dapat mengajukan pertanyaan apa pun, dan itu akan mencantumkan tautan ke artikel yang relevan di Internet (seperti Wikipedia, situs web resmi terkait) dan memilah jawabannya.
Misalnya:
Apa teknologi inti dari ChatGPT?
atau:
Siapa yang mengusulkan Music Transformer? Apa prinsipnya?
atau:
Bagaimana dengan Genshin Impact 3.5?
Bagaimana Anda bisa tinggal di kota tingkat pertama tanpa pekerjaan bergaji tinggi? (kepala anjing manual)
……
Itu bisa memberikan jawaban yang masuk akal.
Menurut laporan, dalam uji perbandingan kinerja, level WebGLM lebih tinggi dari 13,5 miliar parameter WebGPT milik OpenAI, dan dalam evaluasi manusia, bahkan sebanding dengan model parameter 175 miliar.
Nah, bagaimana cara melatihnya?
WebGLM Departemen Tsinghua yang dapat mengakses Internet
Menurut laporan, tujuan WebGLM adalah untuk meningkatkan model bahasa besar pra-pelatihan melalui fungsi pencarian dan pengambilan Web, sekaligus mengaktifkan penerapan aktual yang efisien.
Untuk itu, penulis mengembangkan berdasarkan tiga strategi.
Yang pertama adalah Large Model Augmented Retriever.
Ini terutama digunakan untuk meningkatkan kemampuan pengambilan konten jaringan terkait model, dan menemukan referensi yang relevan dalam kasus kueri yang diberikan, sehingga nantinya dapat menjawab pertanyaan dengan lebih akurat.
Ini memiliki dua tahap: pencarian web berbutir kasar dan pengambilan padat yang ditingkatkan LLM berbutir halus.
Diikuti oleh Bootstrap Generator.
Ini menggunakan kemampuan GLM (seperti model pra-pelatihan open source dwibahasa GLM-130B yang dirilis oleh Universitas Tsinghua) untuk menghasilkan respons terhadap pertanyaan dan memberikan jawaban terperinci.
Dengan menggunakan generator ini, penulis memperoleh WebGLM-QA - kutipan bootstrap LLM dan kumpulan data QA jarak jauh.
Itu dibersihkan dan difilter melalui strategi seperti pembelajaran konteks, dan akhirnya mencakup 45k sampel yang difilter berkualitas tinggi dan 83k sampel kebisingan.
Tulang punggung WebGLM adalah model GLM yang dilatih pada kumpulan data ini.
Akhirnya, ada pencetak gol berdasarkan preferensi manusia.
Ini mengevaluasi kualitas respons yang dihasilkan dengan memprioritaskan preferensi manusia daripada umpan balik ahli yang mahal, memastikan sistem menghasilkan konten yang bermanfaat dan menarik.
Tiga komponen di atas akhirnya membentuk alur WebGLM dengan urutan:
Dapat dilihat bahwa terdapat tiga modul yang sesuai dengan tiga bagian yang diperkenalkan di atas, di antaranya:
Retriever LLM yang disempurnakan akan menggunakan lima teratas halaman paling relevan sebagai sumber referensi, membiarkan generator bootstrap menghasilkan beberapa jawaban, dan terakhir pencetak skor memilih salah satu yang paling mungkin memenuhi preferensi manusia sebagai hasil akhir.
Kinerja melebihi OpenAI WebGPT
Selain WebGLM itu sendiri, tim Tang Jie juga mengusulkan standar evaluasi untuk sistem penjawab pertanyaan yang ditingkatkan jaringan Objek evaluasi mencakup referensi dan jawaban akhir.
Diantaranya, yang pertama mengukur lima dimensi relevansi, kepadatan informasi, keaslian (tidak ada kesalahan faktual), toksisitas (tidak termasuk informasi seperti pornografi kekerasan) dan tingkat prasangka sosial; yang terakhir mengukur kefasihan, kebenaran, akurasi kutipan, dan objektivitas. .dan redundansi.
Mereka menggunakan 272 pertanyaan yang disediakan oleh situs web demo WebGPT (dari OpenAI, disesuaikan berdasarkan GPT-3) untuk evaluasi komparatif, dan merekrut 15 sukarelawan dengan gelar master untuk dinilai.
Hasil akhirnya adalah sebagai berikut:
("Rel.", "Den."... masing-masing sesuai dengan 10 indikator yang disebutkan di atas.)
Dapat dilihat bahwa meskipun hasil pencarian WebGLM sedikit lebih rendah dari WebGPT-175B, mereka jauh lebih baik daripada Perplexity.ai dan WebGPT-13B (evaluasi referensi di sebelah kiri).
Perlu disebutkan bahwa proses pengambilan WebGLM hanya menggunakan beberapa algoritme berbasis kata tradisional dan dua Contriever yang parameter kumulatifnya tidak melebihi 300 juta.
Selain itu, WebGLM juga jauh lebih baik daripada WebGPT-13B dalam hal kinerja komputasi dan konsumsi waktu, dan sebanding dengan 175B.
Dalam hal hasil akhir, WebGLM mencapai skor tertinggi dalam hal kelancaran, keaslian, dan redundansi, dan indeks kebenarannya mendekati WebGPT-175B, jauh lebih tinggi daripada Perplexity.ai dan WebGPT-13B.
Menurut penulis, ini menunjukkan bahwa WebGLM dapat mencapai performa lebih tinggi dengan biaya lebih rendah.
Penerapan dan Pelatihan
WebGLM dirilis sebagai open source.
Untuk menyebarkannya, Anda perlu mendapatkan kunci dari situs web resmi SerpAPI, yang digunakan untuk mendapatkan hasil pencarian selama proses pencarian.
Bobot retriever dapat diunduh dari Tsinghua Cloud.
Ada dua cara untuk menjalankan model: satu adalah antarmuka baris perintah, yang lainnya adalah bentuk layanan Web, dan ada dua model opsional termasuk WebGLM-2B dan WebGLM-10B.
Anda juga dapat melatih WebGLM sendiri, data pelatihan resmi generator dan retriever telah disediakan untuk diunduh~
Alamat kertas:
Beranda GitHub:
Lihat Asli
Konten ini hanya untuk referensi, bukan ajakan atau tawaran. Tidak ada nasihat investasi, pajak, atau hukum yang diberikan. Lihat Penafian untuk pengungkapan risiko lebih lanjut.
Karya baru Tsinghua Tang Jie WebGLM: 10 miliar parameter, terutama pencarian online, kinerja melebihi OpenAI WebGPT
Sumber: Qubit
Karya baru tim Tsinghua Tang Jie ada di sini:
WebGLM, robot obrolan tanya-jawab Internetwork dengan 10 miliar parameter (makalah dipilih untuk KDD2023).
Misalnya:
Itu bisa memberikan jawaban yang masuk akal.
Menurut laporan, dalam uji perbandingan kinerja, level WebGLM lebih tinggi dari 13,5 miliar parameter WebGPT milik OpenAI, dan dalam evaluasi manusia, bahkan sebanding dengan model parameter 175 miliar.
WebGLM Departemen Tsinghua yang dapat mengakses Internet
Menurut laporan, tujuan WebGLM adalah untuk meningkatkan model bahasa besar pra-pelatihan melalui fungsi pencarian dan pengambilan Web, sekaligus mengaktifkan penerapan aktual yang efisien.
Untuk itu, penulis mengembangkan berdasarkan tiga strategi.
Yang pertama adalah Large Model Augmented Retriever.
Ini terutama digunakan untuk meningkatkan kemampuan pengambilan konten jaringan terkait model, dan menemukan referensi yang relevan dalam kasus kueri yang diberikan, sehingga nantinya dapat menjawab pertanyaan dengan lebih akurat.
Ini memiliki dua tahap: pencarian web berbutir kasar dan pengambilan padat yang ditingkatkan LLM berbutir halus.
Diikuti oleh Bootstrap Generator.
Ini menggunakan kemampuan GLM (seperti model pra-pelatihan open source dwibahasa GLM-130B yang dirilis oleh Universitas Tsinghua) untuk menghasilkan respons terhadap pertanyaan dan memberikan jawaban terperinci.
Dengan menggunakan generator ini, penulis memperoleh WebGLM-QA - kutipan bootstrap LLM dan kumpulan data QA jarak jauh.
Itu dibersihkan dan difilter melalui strategi seperti pembelajaran konteks, dan akhirnya mencakup 45k sampel yang difilter berkualitas tinggi dan 83k sampel kebisingan.
Tulang punggung WebGLM adalah model GLM yang dilatih pada kumpulan data ini.
Akhirnya, ada pencetak gol berdasarkan preferensi manusia.
Ini mengevaluasi kualitas respons yang dihasilkan dengan memprioritaskan preferensi manusia daripada umpan balik ahli yang mahal, memastikan sistem menghasilkan konten yang bermanfaat dan menarik.
Tiga komponen di atas akhirnya membentuk alur WebGLM dengan urutan:
Retriever LLM yang disempurnakan akan menggunakan lima teratas halaman paling relevan sebagai sumber referensi, membiarkan generator bootstrap menghasilkan beberapa jawaban, dan terakhir pencetak skor memilih salah satu yang paling mungkin memenuhi preferensi manusia sebagai hasil akhir.
Kinerja melebihi OpenAI WebGPT
Selain WebGLM itu sendiri, tim Tang Jie juga mengusulkan standar evaluasi untuk sistem penjawab pertanyaan yang ditingkatkan jaringan Objek evaluasi mencakup referensi dan jawaban akhir.
Diantaranya, yang pertama mengukur lima dimensi relevansi, kepadatan informasi, keaslian (tidak ada kesalahan faktual), toksisitas (tidak termasuk informasi seperti pornografi kekerasan) dan tingkat prasangka sosial; yang terakhir mengukur kefasihan, kebenaran, akurasi kutipan, dan objektivitas. .dan redundansi.
Mereka menggunakan 272 pertanyaan yang disediakan oleh situs web demo WebGPT (dari OpenAI, disesuaikan berdasarkan GPT-3) untuk evaluasi komparatif, dan merekrut 15 sukarelawan dengan gelar master untuk dinilai.
Hasil akhirnya adalah sebagai berikut:
Dapat dilihat bahwa meskipun hasil pencarian WebGLM sedikit lebih rendah dari WebGPT-175B, mereka jauh lebih baik daripada Perplexity.ai dan WebGPT-13B (evaluasi referensi di sebelah kiri).
Perlu disebutkan bahwa proses pengambilan WebGLM hanya menggunakan beberapa algoritme berbasis kata tradisional dan dua Contriever yang parameter kumulatifnya tidak melebihi 300 juta.
Selain itu, WebGLM juga jauh lebih baik daripada WebGPT-13B dalam hal kinerja komputasi dan konsumsi waktu, dan sebanding dengan 175B.
Dalam hal hasil akhir, WebGLM mencapai skor tertinggi dalam hal kelancaran, keaslian, dan redundansi, dan indeks kebenarannya mendekati WebGPT-175B, jauh lebih tinggi daripada Perplexity.ai dan WebGPT-13B.
Menurut penulis, ini menunjukkan bahwa WebGLM dapat mencapai performa lebih tinggi dengan biaya lebih rendah.
Penerapan dan Pelatihan
WebGLM dirilis sebagai open source.
Bobot retriever dapat diunduh dari Tsinghua Cloud.
Ada dua cara untuk menjalankan model: satu adalah antarmuka baris perintah, yang lainnya adalah bentuk layanan Web, dan ada dua model opsional termasuk WebGLM-2B dan WebGLM-10B.
Anda juga dapat melatih WebGLM sendiri, data pelatihan resmi generator dan retriever telah disediakan untuk diunduh~
Alamat kertas:
Beranda GitHub: