De la théorie à la pratique, à quoi ressemble la forme complète du grand modèle de langage LLM ?
Beaucoup de gens diraient que cela repose sur une compréhension approfondie du langage naturel, mais la série GPT d'OpenAI a déjà fait du bon travail à cet égard. Certaines personnes discutent également des possibilités pratiques de l'AI Agent, mais pour l'instant, cette discussion ne s'éloigne pas du cadre du traitement du langage naturel.
L'IA générative comprend en fait deux aspects. Le grand modèle de langage est l'un d'entre eux, qui se concentre sur la compréhension du langage humain. L'application plus large dite AIGC fait en fait référence à la capacité de conversion intermodale représentée par le modèle de diffusion. , également connu sous le nom de Vincent photos, vidéos de Vincent, etc.
Alors pourquoi ne pas combiner les deux ? Aux yeux de nombreuses personnes, il s’agit en fait de la prochaine génération de GPT, ou de ce à quoi ressemblera GPT dans son intégralité. Un article de la School of Computing de l'Université nationale de Singapour récemment paru sur le site Web de prépublication arxiv a attiré l'attention des gens car le modèle NExT-GPT conçu dans cet article tente d'effectuer une conversion modale complète.
D'après la figure ci-dessus, nous pouvons voir que les extrémités d'entrée et de sortie du modèle NExT-GPT peuvent générer une variété de formes modales, notamment du texte, des images, de l'audio et de la vidéo. L'extrémité de sortie utilise des modèles de diffusion correspondant à différents modes sauf le texte. La conversion multimédia entre l'entrée et la sortie repose sur de grands modèles.
Le style du modèle NExT-GPT n'est pas seulement conforme à la tendance actuelle des personnes essayant de combiner les deux forces de l'IA générative : les grands modèles de langage et les modèles de diffusion, mais il se conforme même dans une certaine mesure à l'intuition humaine : le cerveau humain s'appuie sur sur Comprendre le monde grâce à une conversion libre et à une compréhension interactive de multiples modalités.
Il convient particulièrement de souligner que la soi-disant combinaison de conversion multimodale et de grandes capacités de modèle de langage n'est pas un moyen simple de « construire un pont » entre eux, mais de véritablement combiner des données multimodales (vecteurs) avec le langage. Une fois ce processus véritablement lissé, cela signifie que les grands modèles peuvent non seulement apprendre et comprendre le langage humain, mais également étendre cette capacité à davantage de modalités. Une fois cette combinaison réussie, elle entraînera un saut qualitatif dans les capacités de l'IA.
Aperçu de la structure NExT-GPT :
Deux points de rupture
On dit que Google et GPT5 d’OpenAI mènent des recherches similaires. Avant cela, voyons d’abord comment le modèle NExT-GPT le fait.
En général, le modèle NExT-GPT connecte un grand modèle avec un adaptateur multimodal et un décodeur de modèle de diffusion, avec seulement 1 % d'ajustement des paramètres dans la couche de projection. L'innovation de l'article réside dans la création d'une instruction d'ajustement de la commutation modale appelée MosIT et d'un ensemble de données spécifiquement pour la commutation intermodale.
Plus précisément, NExT-GPT se compose de trois couches. La première couche est que divers encodeurs matures codent diverses entrées modales, puis mappent à travers la couche de projection vers une forme qui peut être comprise par un grand modèle de langage. La deuxième couche est un grand modèle de langage open source utilisé pour le raisonnement. Il convient de mentionner que le grand modèle de langage génère non seulement du texte, mais génère également une balise unique pour demander à la couche de décodage de générer un contenu modal spécifique. La troisième couche projette ces signaux de commande et génère le contenu correspondant correspondant à différents encodeurs.
Afin de réduire les coûts, NExT-GPT utilise des encodeurs et décodeurs disponibles dans le commerce. Afin de minimiser le « bruit » qui se produit lors de la conversion de contenu dans différentes modalités, NExT-GPT utilise ImageBind, qui est un encodage unifié multimodal. .encodeur, de sorte que NExT-GPT n'a pas besoin de gérer de nombreux encodeurs modaux hétérogènes, mais peut projeter uniformément différentes modalités dans un grand modèle de langage.
En ce qui concerne l'étage de sortie, NExT-GPT utilise largement divers modèles matures, notamment la diffusion stable pour la génération d'images, Zeroscope pour la génération vidéo et AudioLDM pour la synthèse audio. La figure ci-dessous fait partie du processus de raisonnement dans l'article. Vous pouvez voir que les modèles de texte et les marqueurs de signal déterminent la manière dont les modalités sont reconnues, déclenchées et générées. Les parties grises sont des options modales qui ne sont pas déclenchées.
Cela implique un problème de compréhension sémantique entre les différentes modalités, l’alignement est donc essentiel. Cependant, en raison de la structure relativement claire, l’alignement de NExT-GPT est en réalité très simple à mettre en œuvre. L'auteur a conçu une structure de couplage à trois couches : l'extrémité d'encodage est alignée avec le grand modèle comme centre et l'extrémité de décodage est alignée avec les instructions. Cet alignement renonce à effectuer un processus d'alignement à grande échelle entre le modèle de diffusion et le modèle de langage étendu, et utilise à la place uniquement un encodeur conditionnel de texte, qui s'aligne uniquement. Basé sur du texte pur, cet alignement est très léger, avec seulement environ 1 % de la valeur d'alignement. paramètres nécessitant un ajustement.
Compte tenu de la nécessité pour NExT-GPT d'avoir la capacité de générer et de raisonner avec précision entre les modalités, l'article présente également MosIT, qui signifie Modality-switching Instruction Tuning. Sa formation est basée sur un ensemble de données composé de 5 000 échantillons de haute qualité.
Le processus de formation spécifique est un peu compliqué, je n'entrerai donc pas dans les détails. D'une manière générale, MosIT peut reconstruire le contenu du texte d'entrée et de sortie, de sorte que NExT-GPT puisse bien comprendre diverses combinaisons de modes de texte, d'images, de vidéos et d'audios. ... des instructions complexes, très proches du mode de compréhension et de raisonnement humain.
**La perfection arrive-t-elle ? **
À l'heure actuelle, NExT-GPT présente encore de nombreuses faiblesses. L'auteur en a également mentionné beaucoup dans l'article. Par exemple, il est très facile de penser que les quatre modalités sont encore un peu trop peu nombreuses pour un véritable grand projet multimodal complet. Modèle Formation MosIT Le nombre d'ensembles de données est également limité.
De plus, l'auteur travaille également dur pour adapter NExT-GPT à davantage de scénarios grâce à de grands modèles linguistiques de différentes tailles.
Une autre question épineuse est plus pratique que la taille. Bien que NExT-GPT présente de fortes perspectives en matière de capacités multimodales, le niveau actuel de capacités AIGC représenté par le modèle de diffusion est encore limité, ce qui affecte les performances de l'ensemble du NExT-GPT.
En général, l'IA multimodale a des perspectives très attrayantes, car elle est plus étroitement intégrée aux scénarios d'application et aux besoins des utilisateurs. Alors que la popularité actuelle des pistes de grands modèles diminue légèrement, l'IA multimodale offre aux gens dotés d'un immense espace d'imagination. En tant que grand modèle multimodal de bout en bout, NExT-GPT possède en fait le prototype de l'IA multimodale. Les idées contenues dans l'article sur l'alignement des paramètres et l'utilisation de MosIT pour améliorer les capacités de raisonnement du modèle sont impressionnantes, nous pouvons donc on peut même dire que quelqu’un a déjà fait le premier pas vers une IA complète.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Quelqu'un a-t-il déjà construit GPT-5 pour OpenAI ?
Source originale : GenAI Nouveau Monde
Auteur|Xue LiangNeil
De la théorie à la pratique, à quoi ressemble la forme complète du grand modèle de langage LLM ?
Beaucoup de gens diraient que cela repose sur une compréhension approfondie du langage naturel, mais la série GPT d'OpenAI a déjà fait du bon travail à cet égard. Certaines personnes discutent également des possibilités pratiques de l'AI Agent, mais pour l'instant, cette discussion ne s'éloigne pas du cadre du traitement du langage naturel.
L'IA générative comprend en fait deux aspects. Le grand modèle de langage est l'un d'entre eux, qui se concentre sur la compréhension du langage humain. L'application plus large dite AIGC fait en fait référence à la capacité de conversion intermodale représentée par le modèle de diffusion. , également connu sous le nom de Vincent photos, vidéos de Vincent, etc.
Alors pourquoi ne pas combiner les deux ? Aux yeux de nombreuses personnes, il s’agit en fait de la prochaine génération de GPT, ou de ce à quoi ressemblera GPT dans son intégralité. Un article de la School of Computing de l'Université nationale de Singapour récemment paru sur le site Web de prépublication arxiv a attiré l'attention des gens car le modèle NExT-GPT conçu dans cet article tente d'effectuer une conversion modale complète.
Le style du modèle NExT-GPT n'est pas seulement conforme à la tendance actuelle des personnes essayant de combiner les deux forces de l'IA générative : les grands modèles de langage et les modèles de diffusion, mais il se conforme même dans une certaine mesure à l'intuition humaine : le cerveau humain s'appuie sur sur Comprendre le monde grâce à une conversion libre et à une compréhension interactive de multiples modalités.
Il convient particulièrement de souligner que la soi-disant combinaison de conversion multimodale et de grandes capacités de modèle de langage n'est pas un moyen simple de « construire un pont » entre eux, mais de véritablement combiner des données multimodales (vecteurs) avec le langage. Une fois ce processus véritablement lissé, cela signifie que les grands modèles peuvent non seulement apprendre et comprendre le langage humain, mais également étendre cette capacité à davantage de modalités. Une fois cette combinaison réussie, elle entraînera un saut qualitatif dans les capacités de l'IA.
Aperçu de la structure NExT-GPT :
Deux points de rupture
On dit que Google et GPT5 d’OpenAI mènent des recherches similaires. Avant cela, voyons d’abord comment le modèle NExT-GPT le fait.
En général, le modèle NExT-GPT connecte un grand modèle avec un adaptateur multimodal et un décodeur de modèle de diffusion, avec seulement 1 % d'ajustement des paramètres dans la couche de projection. L'innovation de l'article réside dans la création d'une instruction d'ajustement de la commutation modale appelée MosIT et d'un ensemble de données spécifiquement pour la commutation intermodale.
Plus précisément, NExT-GPT se compose de trois couches. La première couche est que divers encodeurs matures codent diverses entrées modales, puis mappent à travers la couche de projection vers une forme qui peut être comprise par un grand modèle de langage. La deuxième couche est un grand modèle de langage open source utilisé pour le raisonnement. Il convient de mentionner que le grand modèle de langage génère non seulement du texte, mais génère également une balise unique pour demander à la couche de décodage de générer un contenu modal spécifique. La troisième couche projette ces signaux de commande et génère le contenu correspondant correspondant à différents encodeurs.
Afin de réduire les coûts, NExT-GPT utilise des encodeurs et décodeurs disponibles dans le commerce. Afin de minimiser le « bruit » qui se produit lors de la conversion de contenu dans différentes modalités, NExT-GPT utilise ImageBind, qui est un encodage unifié multimodal. .encodeur, de sorte que NExT-GPT n'a pas besoin de gérer de nombreux encodeurs modaux hétérogènes, mais peut projeter uniformément différentes modalités dans un grand modèle de langage.
En ce qui concerne l'étage de sortie, NExT-GPT utilise largement divers modèles matures, notamment la diffusion stable pour la génération d'images, Zeroscope pour la génération vidéo et AudioLDM pour la synthèse audio. La figure ci-dessous fait partie du processus de raisonnement dans l'article. Vous pouvez voir que les modèles de texte et les marqueurs de signal déterminent la manière dont les modalités sont reconnues, déclenchées et générées. Les parties grises sont des options modales qui ne sont pas déclenchées.
Compte tenu de la nécessité pour NExT-GPT d'avoir la capacité de générer et de raisonner avec précision entre les modalités, l'article présente également MosIT, qui signifie Modality-switching Instruction Tuning. Sa formation est basée sur un ensemble de données composé de 5 000 échantillons de haute qualité.
**La perfection arrive-t-elle ? **
À l'heure actuelle, NExT-GPT présente encore de nombreuses faiblesses. L'auteur en a également mentionné beaucoup dans l'article. Par exemple, il est très facile de penser que les quatre modalités sont encore un peu trop peu nombreuses pour un véritable grand projet multimodal complet. Modèle Formation MosIT Le nombre d'ensembles de données est également limité.
De plus, l'auteur travaille également dur pour adapter NExT-GPT à davantage de scénarios grâce à de grands modèles linguistiques de différentes tailles.
Une autre question épineuse est plus pratique que la taille. Bien que NExT-GPT présente de fortes perspectives en matière de capacités multimodales, le niveau actuel de capacités AIGC représenté par le modèle de diffusion est encore limité, ce qui affecte les performances de l'ensemble du NExT-GPT.
En général, l'IA multimodale a des perspectives très attrayantes, car elle est plus étroitement intégrée aux scénarios d'application et aux besoins des utilisateurs. Alors que la popularité actuelle des pistes de grands modèles diminue légèrement, l'IA multimodale offre aux gens dotés d'un immense espace d'imagination. En tant que grand modèle multimodal de bout en bout, NExT-GPT possède en fait le prototype de l'IA multimodale. Les idées contenues dans l'article sur l'alignement des paramètres et l'utilisation de MosIT pour améliorer les capacités de raisonnement du modèle sont impressionnantes, nous pouvons donc on peut même dire que quelqu’un a déjà fait le premier pas vers une IA complète.