L'équipe chinoise de Cambridge a ouvert PandaGPT : le premier modèle de base à grande échelle qui a balayé les "six modes"

Source : Xinzhiyuan

**Peut entendre et voir, donnant au modèle différents sens pour comprendre le monde ! **

Les modèles de langage à grande échelle actuels, tels que ChatGPT, ne peuvent accepter que du texte en entrée. Même la version mise à niveau de GPT-4 n'ajoute que la fonction d'entrée d'image et ne peut pas gérer d'autres données modales, telles que la vidéo et l'audio.

Récemment, des chercheurs de l'Université de Cambridge, du Nara Advanced Institute of Science and Technology et de Tencent ont proposé conjointement et ouvert l'instruction générale suivant le modèle PandaGPT, qui est également le premier à réaliser des modalités croisées (image/vidéo, texte, audio, profondeur, thermique et IMU) exécutent des instructions en suivant le modèle sous-jacent des données.

Lien papier :

Lien codé :

Sans supervision multimodale explicite, PandaGPT démontre de fortes capacités multimodales pour effectuer des tâches de compréhension/raisonnement complexes, telles que la génération de descriptions d'images détaillées, l'écriture d'histoires inspirées par la vidéo et la réponse à des questions sur l'audio, ou plusieurs cycles de dialogue, etc.

En bref, l'innovation principale de PandaGPT est qu'il peut accepter plusieurs entrées modales en même temps et combiner naturellement la sémantique de différentes modalités, dépassant l'analyse monomodale traditionnelle, élargissant les scénarios d'application en aval et se rapprochant de la mise en œuvre. de l'AGI.

Exemple

Questions-réponses basées sur l'image :

Question à plusieurs tours basée sur l'image répondant :

Questions-réponses vidéo :

Écriture créative inspirée d'images/vidéos :

Capacité de raisonnement visuel :

Capacités de raisonnement audio :

Capacité de compréhension multimodale image + audio :

Capacité de compréhension multimodale vidéo + audio :

PandaGPT multimodal

Par rapport au modèle d'IA piégé dans l'ordinateur, l'être humain a plusieurs sens pour comprendre le monde.Il peut voir une image et entendre divers sons dans la nature ; si la machine peut également saisir des informations multimodales, elle peut être plus complète. .résoudre divers problèmes.

La plupart des recherches multimodales actuelles se limitent à une seule modalité, ou à une combinaison de texte et d'autres modalités, manquant de l'intégrité et de la complémentarité de la perception et de la compréhension des entrées multimodales.

Pour rendre l'entrée multimodale PandaGPT capable, les chercheurs ont combiné l'encodeur multimodal d'ImageBind avec un modèle de langage à grande échelle Vicuna, qui ont tous deux atteint de très bonnes performances dans les tâches de suivi d'instructions visuelles et audio.

Dans le même temps, afin de rendre cohérents les espaces de fonctionnalités des deux modèles, les chercheurs ont utilisé 160 000 données de suivi d'instructions en langage image open source pour former PandaGPT, où chaque instance de formation comprend une image et un ensemble de multi- autour des données de dialogue, et le dialogue contient chacune des commandes humaines et des réponses du système.

Pour réduire le nombre de paramètres pouvant être formés, les chercheurs n'ont formé que la représentation ImageBind utilisée pour connecter Vicuna et des poids LoRA supplémentaires sur le module d'attention de Vicuna.

Pendant le processus de formation, basé sur les ressources de calcul du GPU 8 × A100 40G, si la longueur de séquence maximale de Vicuna-13B est définie sur 400, la formation prend environ 7 heures.

Il convient de noter que la version actuelle de PandaGPT n'est entraînée qu'avec des données image-texte alignées, mais en utilisant les six modalités (image/vidéo, texte, audio, profondeur, thermique et IMU) héritées de l'encodeur gelé ImageBind, PandaGPT présente des , capacités intermodales sans prise de vue.

limite

Malgré l'étonnante capacité de PandaGPT à gérer plusieurs modalités et combinaisons de modalités, il existe plusieurs façons d'améliorer encore PandaGPT :

  1. Le processus de formation de PandaGPT peut être enrichi en introduisant davantage de données d'alignement, telles que d'autres modalités (audio-texte) correspondant au texte

  2. Les chercheurs n'utilisent qu'un seul vecteur d'intégration pour représenter le contenu modal autre que le texte, et des recherches supplémentaires sont nécessaires sur les déformations d'extraction de caractéristiques à grain fin. Par exemple, les mécanismes d'attention intermodaux peuvent être bénéfiques pour l'amélioration des performances

  3. PandaGPT n'utilise actuellement que des informations multimodales en entrée, et à l'avenir, il pourrait introduire un contenu multimédia plus riche du côté de la génération, comme la génération d'images et de réponses textuelles en audio.

  4. De nouveaux critères de référence sont également nécessaires pour évaluer la capacité à combiner des apports multimodaux

  5. PandaGPT peut également présenter plusieurs pièges courants des modèles de langage existants, notamment les hallucinations, la toxicité et les stéréotypes.

Les chercheurs ont également souligné que PandaGPT n'est actuellement qu'un prototype de recherche et ne peut pas être directement utilisé pour des applications réelles.

Matériel de référence:

Voir l'original
Le contenu est fourni à titre de référence uniquement, il ne s'agit pas d'une sollicitation ou d'une offre. Aucun conseil en investissement, fiscalité ou juridique n'est fourni. Consultez l'Avertissement pour plus de détails sur les risques.
  • Récompense
  • Commentaire
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate.io app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)