Cambridge Çin ekibi açık kaynaklı PandaGPT: "altı modu" tarayan ilk büyük ölçekli temel model

Kaynak: Xinzhiyuan

**Duyabiliyor ve görebiliyor, modele dünyayı anlaması için farklı duyular veriyor! **

ChatGPT gibi mevcut büyük ölçekli dil modelleri yalnızca metni giriş olarak kabul edebilir. GPT-4'ün yükseltilmiş sürümü bile yalnızca görüntü girişi işlevi ekler ve video ve ses gibi diğer modal verileri işleyemez.

Son zamanlarda, Cambridge Üniversitesi, Nara İleri Bilim ve Teknoloji Enstitüsü ve Tencent'ten araştırmacılar, aynı zamanda altı çapraz modaliteyi (resim/video, metin, ses, görüntü/video, metin, ses, derinlik, termal ve IMU) verinin altında yatan modeli izleyerek talimatları yürütür.

Kağıt bağlantısı:

Kod bağlantısı:

PandaGPT, açık çok modlu denetim olmaksızın, ayrıntılı görüntü açıklaması oluşturma, videodan ilham alan öyküler yazma ve sesle ilgili soruları yanıtlama veya birden çok diyalog turu vb. gibi karmaşık anlama/akıl yürütme görevlerini gerçekleştirmek için güçlü çok modlu yetenekler gösterir.

Kısacası, PandaGPT'nin temel yeniliği, aynı anda birden çok kipsel girdiyi kabul edebilmesi ve geleneksel tek kipli analizi aşarak, alt uygulama senaryolarını genişleterek ve uygulamaya daha yakınlaşarak farklı modalitelerin semantiğini doğal olarak birleştirebilmesidir. AGI'nın.

Örnek

Resim tabanlı Soru-Cevap:

Görüntü tabanlı çok yönlü soru yanıtlama:

Video tabanlı Soru-Cevap:

Resimlerden/videolardan ilham alan yaratıcı yazı:

Görsel Akıl Yürütme Yeteneği:

Sesli Akıl Yürütme Yetenekleri:

Görüntü + sesin çok modlu anlama yeteneği:

Video + sesin çok modlu anlama yeteneği:

Çok modlu PandaGPT

Bilgisayara hapsolmuş AI modeline kıyasla insanoğlunun dünyayı anlamak için birden çok duyusu vardır.Doğadaki bir resmi görebilir ve çeşitli sesleri duyabilirler; eğer makine multimodal bilgi girişi de yapabilirse daha kapsamlı olabilir. .çeşitli problemleri çözün.

Mevcut multimodal araştırmaların çoğu tek bir modalite veya metin ve diğer modalitelerin bir kombinasyonu ile sınırlıdır ve multimodal girdiyi algılama ve anlama bütünlüğü ve tamamlayıcılığından yoksundur.

Araştırmacılar, PandaGPT'yi çok modlu girişi yetenekli kılmak için ImageBind'in çok modlu kodlayıcısını büyük ölçekli bir dil modeli olan Vicuna ile birleştirdi; bunların her ikisi de görsel ve işitsel tabanlı talimat takip görevlerinde çok güçlü performans elde etti.

Aynı zamanda, iki modelin özellik alanlarını tutarlı hale getirmek için araştırmacılar, PandaGPT'yi eğitmek için 160.000 açık kaynaklı görüntü-dil talimatı takip verisi kullandılar; burada her eğitim örneği bir görüntü ve bir dizi çok yönlü diyalog içerir. verileri ve diyalog her İnsan komutlarını ve sistem yanıtlarını içerir.

Eğitilebilir parametrelerin sayısını azaltmak için, araştırmacılar yalnızca Vicuna'yı bağlamak için kullanılan ImageBind temsilini ve Vicuna'nın dikkat modülündeki ek LoRA ağırlıklarını eğitti.

Eğitim sürecinde 8×A100 40G GPU'nun hesaplama kaynaklarına göre Vicuna-13B'nin maksimum dizi uzunluğu 400 olarak ayarlanırsa eğitim yaklaşık 7 saat sürer.

PandaGPT'nin mevcut sürümünün yalnızca hizalanmış görüntü-metin verileriyle eğitildiğini, ancak donmuş ImageBind kodlayıcı PandaGPT'den miras alınan altı modaliteyi (görüntü/video, metin, ses, derinlik, termal ve IMU) kullanarak eğitildiğini belirtmek gerekir. , sıfır vuruşlu modlar arası yetenekler.

sınır

PandaGPT'nin birden fazla modaliteyi ve modalite kombinasyonunu idare etme konusundaki inanılmaz becerisine rağmen, PandaGPT'nin daha da geliştirilebileceği birkaç yol vardır:

  1. PandaGPT'nin eğitim süreci, metinle eşleşen diğer modaliteler (sesli metin) gibi daha fazla hizalama verisi eklenerek zenginleştirilebilir.

  2. Araştırmacılar, metin dışındaki modal içeriği temsil etmek için yalnızca bir yerleştirme vektörü kullanır ve ince taneli özellik çıkarma deformiteleri hakkında daha fazla araştırmaya ihtiyaç vardır. Örneğin, modlar arası dikkat mekanizmaları performansı iyileştirmede faydalı olabilir

  3. PandaGPT şu anda girdi olarak yalnızca çok modlu bilgileri kullanır ve gelecekte, görüntü oluşturma ve sesli metin yanıtları gibi, üretim tarafında daha zengin multimedya içeriği sunabilir.

  4. Çok modlu girdileri birleştirme yeteneğini değerlendirmek için yeni ölçütlere de ihtiyaç vardır.

  5. PandaGPT ayrıca halüsinasyonlar, toksisite ve klişeleştirme dahil olmak üzere mevcut dil modellerinin birkaç yaygın tuzağını sergileyebilir.

Araştırmacılar ayrıca PandaGPT'nin şu anda yalnızca bir araştırma prototipi olduğunu ve doğrudan gerçek dünya uygulamaları için kullanılamayacağını belirtti.

Referans malzemeleri:

View Original
The content is for reference only, not a solicitation or offer. No investment, tax, or legal advice provided. See Disclaimer for more risks disclosure.
  • Reward
  • Comment
  • Share
Comment
0/400
No comments
  • Pin