**Dapat mendengar dan melihat, memberi model indra yang berbeda untuk memahami dunia! **
Model bahasa skala besar saat ini, seperti ChatGPT, hanya dapat menerima teks sebagai masukan, bahkan versi GPT-4 yang ditingkatkan hanya menambahkan fungsi input gambar, dan tidak dapat menangani data modal lainnya, seperti video dan audio.
Baru-baru ini, para peneliti dari Cambridge University, Nara Advanced Institute of Science and Technology, dan Tencent bersama-sama mengusulkan dan membuka sumber instruksi umum mengikuti model PandaGPT, yang juga merupakan yang pertama mewujudkan enam modalitas (gambar/video, teks, audio, depth, thermal, dan IMU) menjalankan instruksi mengikuti model data yang mendasarinya.
Tautan kertas:
Tautan kode:
Tanpa pengawasan multimodal yang eksplisit, PandaGPT mendemonstrasikan kemampuan multimodal yang kuat untuk melakukan tugas pemahaman/penalaran yang kompleks, seperti pembuatan deskripsi gambar mendetail, menulis cerita yang terinspirasi video, dan menjawab pertanyaan tentang audio. , atau beberapa putaran dialog, dll.
Singkatnya, inovasi inti PandaGPT adalah dapat menerima beberapa input modal pada saat yang sama, dan secara alami menggabungkan semantik dari berbagai modalitas, melampaui analisis modal tunggal tradisional, memperluas skenario aplikasi hilir, dan semakin dekat dengan implementasi dari AGI.
Contoh
T&J berbasis gambar:
Menjawab pertanyaan multi-putaran berbasis gambar:
T&J berbasis video:
Tulisan kreatif yang terinspirasi dari gambar/video:
Kemampuan Penalaran Visual:
Kemampuan Penalaran Audio:
Kemampuan pemahaman multi-modal gambar + audio:
Kemampuan pemahaman multimodal video + audio:
PandaGPT Multimoda
Dibandingkan dengan model AI yang terperangkap di komputer, manusia memiliki banyak indra untuk memahami dunia. Mereka dapat melihat gambar dan mendengar berbagai suara di alam; jika mesin juga dapat memasukkan informasi multi-modal, itu bisa lebih komprehensif .memecahkan berbagai masalah.
Sebagian besar penelitian multimodal saat ini terbatas pada satu modalitas, atau kombinasi teks dan modalitas lainnya, kurang memiliki integritas dan saling melengkapi dalam memahami dan memahami input multimodal.
Untuk membuat masukan multimodal PandaGPT, para peneliti menggabungkan enkoder multimodal ImageBind dengan model bahasa skala besar Vicuna, keduanya telah mencapai kinerja yang sangat kuat dalam tugas-tugas mengikuti instruksi berbasis visual dan audio.
Pada saat yang sama, untuk membuat ruang fitur dari kedua model konsisten, para peneliti menggunakan 160.000 instruksi bahasa gambar sumber terbuka mengikuti data untuk melatih PandaGPT, di mana setiap contoh pelatihan menyertakan gambar dan satu set dialog multi-putaran data, dan dialog berisi setiap perintah Manusia dan balasan sistem.
Untuk mengurangi jumlah parameter yang dapat dilatih, para peneliti hanya melatih representasi ImageBind yang digunakan untuk menghubungkan Vicuna, dan bobot LoRA tambahan pada modul perhatian Vicuna.
Selama proses pelatihan, berdasarkan perhitungan sumber daya GPU 8×A100 40G, jika panjang urutan maksimum Vicuna-13B diatur ke 400, pelatihan memakan waktu sekitar 7 jam.
Perlu dicatat bahwa versi PandaGPT saat ini dilatih hanya dengan data gambar-teks yang disejajarkan, tetapi dengan memanfaatkan enam modalitas (gambar/video, teks, audio, kedalaman, termal, dan IMU) yang diwariskan dalam pembuat enkode ImageBind beku, PandaGPT muncul. , kapabilitas lintas modal zero-shot.
membatasi
Terlepas dari kemampuan PandaGPT yang luar biasa untuk menangani banyak modalitas dan kombinasi modalitas, ada beberapa cara agar PandaGPT dapat lebih ditingkatkan:
Proses pelatihan PandaGPT dapat diperkaya dengan memperkenalkan lebih banyak data penyelarasan, seperti modalitas lain (audio-teks) yang cocok dengan teks
Peneliti hanya menggunakan satu vektor embedding untuk mewakili konten modal selain teks, dan penelitian lebih lanjut diperlukan pada cacat ekstraksi fitur berbutir halus.Misalnya, mekanisme perhatian lintas modal mungkin bermanfaat untuk peningkatan kinerja
PandaGPT saat ini hanya menggunakan informasi multimodal sebagai input, dan di masa mendatang, mungkin akan memperkenalkan konten multimedia yang lebih kaya di sisi generasi, seperti menghasilkan gambar dan respons teks dalam audio.
Tolok ukur baru juga diperlukan untuk mengevaluasi kemampuan menggabungkan input multimoda
PandaGPT juga dapat menunjukkan beberapa jebakan umum dari model bahasa yang ada, termasuk halusinasi, toksisitas, dan stereotip.
Para peneliti juga menunjukkan bahwa PandaGPT saat ini hanya merupakan prototipe penelitian dan tidak dapat langsung digunakan untuk aplikasi dunia nyata.
Bahan referensi:
Lihat Asli
Konten ini hanya untuk referensi, bukan ajakan atau tawaran. Tidak ada nasihat investasi, pajak, atau hukum yang diberikan. Lihat Penafian untuk pengungkapan risiko lebih lanjut.
Tim Cambridge China membuka sumber PandaGPT: model dasar skala besar pertama yang menyapu "enam mode"
Sumber: Xinzhiyuan
Model bahasa skala besar saat ini, seperti ChatGPT, hanya dapat menerima teks sebagai masukan, bahkan versi GPT-4 yang ditingkatkan hanya menambahkan fungsi input gambar, dan tidak dapat menangani data modal lainnya, seperti video dan audio.
Baru-baru ini, para peneliti dari Cambridge University, Nara Advanced Institute of Science and Technology, dan Tencent bersama-sama mengusulkan dan membuka sumber instruksi umum mengikuti model PandaGPT, yang juga merupakan yang pertama mewujudkan enam modalitas (gambar/video, teks, audio, depth, thermal, dan IMU) menjalankan instruksi mengikuti model data yang mendasarinya.
Tautan kode:
Tanpa pengawasan multimodal yang eksplisit, PandaGPT mendemonstrasikan kemampuan multimodal yang kuat untuk melakukan tugas pemahaman/penalaran yang kompleks, seperti pembuatan deskripsi gambar mendetail, menulis cerita yang terinspirasi video, dan menjawab pertanyaan tentang audio. , atau beberapa putaran dialog, dll.
Contoh
T&J berbasis gambar:
PandaGPT Multimoda
Dibandingkan dengan model AI yang terperangkap di komputer, manusia memiliki banyak indra untuk memahami dunia. Mereka dapat melihat gambar dan mendengar berbagai suara di alam; jika mesin juga dapat memasukkan informasi multi-modal, itu bisa lebih komprehensif .memecahkan berbagai masalah.
Sebagian besar penelitian multimodal saat ini terbatas pada satu modalitas, atau kombinasi teks dan modalitas lainnya, kurang memiliki integritas dan saling melengkapi dalam memahami dan memahami input multimodal.
Untuk membuat masukan multimodal PandaGPT, para peneliti menggabungkan enkoder multimodal ImageBind dengan model bahasa skala besar Vicuna, keduanya telah mencapai kinerja yang sangat kuat dalam tugas-tugas mengikuti instruksi berbasis visual dan audio.
Pada saat yang sama, untuk membuat ruang fitur dari kedua model konsisten, para peneliti menggunakan 160.000 instruksi bahasa gambar sumber terbuka mengikuti data untuk melatih PandaGPT, di mana setiap contoh pelatihan menyertakan gambar dan satu set dialog multi-putaran data, dan dialog berisi setiap perintah Manusia dan balasan sistem.
Untuk mengurangi jumlah parameter yang dapat dilatih, para peneliti hanya melatih representasi ImageBind yang digunakan untuk menghubungkan Vicuna, dan bobot LoRA tambahan pada modul perhatian Vicuna.
Perlu dicatat bahwa versi PandaGPT saat ini dilatih hanya dengan data gambar-teks yang disejajarkan, tetapi dengan memanfaatkan enam modalitas (gambar/video, teks, audio, kedalaman, termal, dan IMU) yang diwariskan dalam pembuat enkode ImageBind beku, PandaGPT muncul. , kapabilitas lintas modal zero-shot.
membatasi
Terlepas dari kemampuan PandaGPT yang luar biasa untuk menangani banyak modalitas dan kombinasi modalitas, ada beberapa cara agar PandaGPT dapat lebih ditingkatkan:
Proses pelatihan PandaGPT dapat diperkaya dengan memperkenalkan lebih banyak data penyelarasan, seperti modalitas lain (audio-teks) yang cocok dengan teks
Peneliti hanya menggunakan satu vektor embedding untuk mewakili konten modal selain teks, dan penelitian lebih lanjut diperlukan pada cacat ekstraksi fitur berbutir halus.Misalnya, mekanisme perhatian lintas modal mungkin bermanfaat untuk peningkatan kinerja
PandaGPT saat ini hanya menggunakan informasi multimodal sebagai input, dan di masa mendatang, mungkin akan memperkenalkan konten multimedia yang lebih kaya di sisi generasi, seperti menghasilkan gambar dan respons teks dalam audio.
Tolok ukur baru juga diperlukan untuk mengevaluasi kemampuan menggabungkan input multimoda
PandaGPT juga dapat menunjukkan beberapa jebakan umum dari model bahasa yang ada, termasuk halusinasi, toksisitas, dan stereotip.
Para peneliti juga menunjukkan bahwa PandaGPT saat ini hanya merupakan prototipe penelitian dan tidak dapat langsung digunakan untuk aplikasi dunia nyata.
Bahan referensi: