Le nouveau travail de Tsinghua Tang Jie WebGLM : 10 milliards de paramètres, principalement de recherche en ligne, les performances dépassent OpenAI WebGPT
Le nouveau travail de l'équipe de Tsinghua Tang Jie est ici :
WebGLM, un robot de chat Internetwork avec 10 milliards de paramètres (l'article a été sélectionné pour KDD2023).
Vous pouvez lui poser n'importe quelle question, et il listera les liens vers des articles pertinents sur Internet (tels que Wikipedia, les sites Web officiels connexes) et triera les réponses.
Par exemple:
Quelle est la technologie de base de ChatGPT ?
ou:
Qui a proposé Music Transformer ? Quel est son principe ?
ou:
Qu'en est-il de Genshin Impact 3.5 ?
Comment vivre dans une ville de premier rang sans emploi bien rémunéré ? (tête de chien manuelle)
……
Il peut donner des réponses raisonnables.
Selon les rapports, dans le test de comparaison des performances, le niveau de WebGLM a été ** supérieur au WebGPT à 13,5 milliards de paramètres d'OpenAI **, et dans l'évaluation humaine, il est même comparable au modèle à 175 milliards de paramètres.
Alors, comment est-il formé?
WebGLM du département de Tsinghua pouvant accéder à Internet
Selon les rapports, l'objectif de WebGLM est d'améliorer le grand modèle de langage pré-formé grâce à des fonctions de recherche et de récupération Web, tout en permettant un déploiement réel efficace.
Pour cela, l'auteur développe en fonction de trois stratégies.
Le premier est le Large Model Augmented Retriever.
Il est principalement utilisé pour améliorer la capacité de récupération du contenu réseau lié au modèle, et trouver des références pertinentes dans le cas d'une requête donnée, afin de mieux répondre aux questions avec précision ultérieurement.
Il comporte deux étapes : une recherche Web à grain grossier et une récupération dense améliorée par LLM.
Suivi de Générateur de bootstrap.
Il utilise la capacité de GLM (comme le modèle de pré-formation open source bilingue GLM-130B publié par l'Université Tsinghua) pour générer des réponses aux questions et fournir des réponses détaillées.
À l'aide de ce générateur, les auteurs obtiennent WebGLM-QA - une citation bootstrap LLM et un ensemble de données QA à longue portée.
Il est nettoyé et filtré grâce à des stratégies telles que l'apprentissage du contexte, et comprend enfin 45 000 échantillons filtrés de haute qualité et 83 000 échantillons de bruit.
L'épine dorsale de WebGLM est un modèle GLM formé sur cet ensemble de données.
Enfin, il existe un scoreur basé sur les préférences humaines.
Il évalue la qualité des réponses générées en donnant la priorité aux préférences humaines par rapport aux commentaires d'experts coûteux, garantissant que le système produit un contenu utile et engageant.
Les trois composants ci-dessus forment finalement le pipeline de WebGLM dans l'ordre :
On voit qu'il y a exactement trois modules, correspondant aux trois parties introduites ci-dessus, parmi lesquelles :
Le récupérateur amélioré LLM utilisera les ** cinq pages ** les plus pertinentes comme source de référence, laissera le générateur de bootstrap générer plusieurs réponses, et enfin le correcteur sélectionnera celle qui est la plus susceptible de répondre aux préférences humaines comme sortie finale.
Les performances dépassent OpenAI WebGPT
En plus de WebGLM lui-même, l'équipe de Tang Jie a également proposé une norme d'évaluation pour un système de questions-réponses amélioré par le réseau.Les objets d'évaluation comprennent à la fois des références et des réponses finales.
Parmi eux, le premier mesure les cinq dimensions de la pertinence, de la densité de l'information, de l'authenticité (pas d'erreurs factuelles), de la toxicité (à l'exclusion des informations telles que la pornographie violente) et du degré de préjugé social ; le second mesure la fluidité, l'exactitude, l'exactitude des citations et l'objectivité. et la redondance.
Ils ont utilisé les 272 questions fournies par le site Web de démonstration WebGPT (de OpenAI, affiné sur la base de GPT-3) pour une évaluation comparative, et ont recruté 15 volontaires titulaires d'une maîtrise pour marquer.
Le résultat final est le suivant :
("Rel.", "Den."... correspondent respectivement aux 10 indicateurs cités ci-dessus.)
On peut voir que bien que les résultats de recherche de WebGLM soient légèrement inférieurs à WebGPT-175B, ils sont bien meilleurs que Perplexity.ai et WebGPT-13B (évaluation de référence à gauche).
Il convient de mentionner que le processus de récupération WebGLM n'utilise que certains algorithmes traditionnels basés sur des mots et deux Contrievers dont les paramètres cumulés ne dépassent pas 300M.
De plus, WebGLM est également nettement meilleur que WebGPT-13B en termes de performances de calcul et de consommation de temps, et est comparable à 175B.
En termes de résultats finaux, WebGLM a obtenu les scores les plus élevés en termes de fluidité, d'authenticité et de redondance, et son indice d'exactitude était proche de WebGPT-175B, bien supérieur à Perplexity.ai et WebGPT-13B.
Selon les auteurs, cela montre que WebGLM peut atteindre des performances supérieures à moindre coût.
Déploiement et formation
WebGLM est publié en open source.
Pour le déployer, vous devez obtenir une clé sur le site Web officiel de SerpAPI, qui est utilisée pour obtenir des résultats de recherche pendant le processus de recherche.
Les poids du retriever peuvent être téléchargés depuis Tsinghua Cloud.
Il existe deux façons d'exécuter le modèle : l'une est l'interface de ligne de commande, l'autre est la forme d'un service Web, et il existe deux modèles facultatifs, dont WebGLM-2B et WebGLM-10B.
Vous pouvez également former WebGLM vous-même, les données de formation officielles du générateur et du récupérateur sont fournies en téléchargement ~
Adresse papier :
Page d'accueil GitHub :
Voir l'original
Le contenu est fourni à titre de référence uniquement, il ne s'agit pas d'une sollicitation ou d'une offre. Aucun conseil en investissement, fiscalité ou juridique n'est fourni. Consultez l'Avertissement pour plus de détails sur les risques.
Le nouveau travail de Tsinghua Tang Jie WebGLM : 10 milliards de paramètres, principalement de recherche en ligne, les performances dépassent OpenAI WebGPT
Source : Qubit
Le nouveau travail de l'équipe de Tsinghua Tang Jie est ici :
WebGLM, un robot de chat Internetwork avec 10 milliards de paramètres (l'article a été sélectionné pour KDD2023).
Par exemple:
Il peut donner des réponses raisonnables.
Selon les rapports, dans le test de comparaison des performances, le niveau de WebGLM a été ** supérieur au WebGPT à 13,5 milliards de paramètres d'OpenAI **, et dans l'évaluation humaine, il est même comparable au modèle à 175 milliards de paramètres.
WebGLM du département de Tsinghua pouvant accéder à Internet
Selon les rapports, l'objectif de WebGLM est d'améliorer le grand modèle de langage pré-formé grâce à des fonctions de recherche et de récupération Web, tout en permettant un déploiement réel efficace.
Pour cela, l'auteur développe en fonction de trois stratégies.
Le premier est le Large Model Augmented Retriever.
Il est principalement utilisé pour améliorer la capacité de récupération du contenu réseau lié au modèle, et trouver des références pertinentes dans le cas d'une requête donnée, afin de mieux répondre aux questions avec précision ultérieurement.
Il comporte deux étapes : une recherche Web à grain grossier et une récupération dense améliorée par LLM.
Suivi de Générateur de bootstrap.
Il utilise la capacité de GLM (comme le modèle de pré-formation open source bilingue GLM-130B publié par l'Université Tsinghua) pour générer des réponses aux questions et fournir des réponses détaillées.
À l'aide de ce générateur, les auteurs obtiennent WebGLM-QA - une citation bootstrap LLM et un ensemble de données QA à longue portée.
Il est nettoyé et filtré grâce à des stratégies telles que l'apprentissage du contexte, et comprend enfin 45 000 échantillons filtrés de haute qualité et 83 000 échantillons de bruit.
L'épine dorsale de WebGLM est un modèle GLM formé sur cet ensemble de données.
Enfin, il existe un scoreur basé sur les préférences humaines.
Il évalue la qualité des réponses générées en donnant la priorité aux préférences humaines par rapport aux commentaires d'experts coûteux, garantissant que le système produit un contenu utile et engageant.
Les trois composants ci-dessus forment finalement le pipeline de WebGLM dans l'ordre :
Le récupérateur amélioré LLM utilisera les ** cinq pages ** les plus pertinentes comme source de référence, laissera le générateur de bootstrap générer plusieurs réponses, et enfin le correcteur sélectionnera celle qui est la plus susceptible de répondre aux préférences humaines comme sortie finale.
Les performances dépassent OpenAI WebGPT
En plus de WebGLM lui-même, l'équipe de Tang Jie a également proposé une norme d'évaluation pour un système de questions-réponses amélioré par le réseau.Les objets d'évaluation comprennent à la fois des références et des réponses finales.
Parmi eux, le premier mesure les cinq dimensions de la pertinence, de la densité de l'information, de l'authenticité (pas d'erreurs factuelles), de la toxicité (à l'exclusion des informations telles que la pornographie violente) et du degré de préjugé social ; le second mesure la fluidité, l'exactitude, l'exactitude des citations et l'objectivité. et la redondance.
Ils ont utilisé les 272 questions fournies par le site Web de démonstration WebGPT (de OpenAI, affiné sur la base de GPT-3) pour une évaluation comparative, et ont recruté 15 volontaires titulaires d'une maîtrise pour marquer.
Le résultat final est le suivant :
On peut voir que bien que les résultats de recherche de WebGLM soient légèrement inférieurs à WebGPT-175B, ils sont bien meilleurs que Perplexity.ai et WebGPT-13B (évaluation de référence à gauche).
Il convient de mentionner que le processus de récupération WebGLM n'utilise que certains algorithmes traditionnels basés sur des mots et deux Contrievers dont les paramètres cumulés ne dépassent pas 300M.
De plus, WebGLM est également nettement meilleur que WebGPT-13B en termes de performances de calcul et de consommation de temps, et est comparable à 175B.
En termes de résultats finaux, WebGLM a obtenu les scores les plus élevés en termes de fluidité, d'authenticité et de redondance, et son indice d'exactitude était proche de WebGPT-175B, bien supérieur à Perplexity.ai et WebGPT-13B.
Selon les auteurs, cela montre que WebGLM peut atteindre des performances supérieures à moindre coût.
Déploiement et formation
WebGLM est publié en open source.
Les poids du retriever peuvent être téléchargés depuis Tsinghua Cloud.
Il existe deux façons d'exécuter le modèle : l'une est l'interface de ligne de commande, l'autre est la forme d'un service Web, et il existe deux modèles facultatifs, dont WebGLM-2B et WebGLM-10B.
Vous pouvez également former WebGLM vous-même, les données de formation officielles du générateur et du récupérateur sont fournies en téléchargement ~
Adresse papier :
Page d'accueil GitHub :