Démystifier le grand modèle chinois Llama2 le plus avancé en Chine

2023-09-05 02:48:20

Auteur : FlagAlpha

Source : Communauté chinoise de lamas

Source de l'image : générée par Unbounded AI

Introduction

Le 31 juillet, la communauté chinoise Llama a pris les devants en achevant la première version véritablement chinoise du grand modèle Llama2-13B en Chine, qui a considérablement optimisé et amélioré les capacités chinoises de Llama2 depuis le bas du modèle. Sans aucun doute, une fois la version chinoise de Llama2 sortie, elle ouvrira une nouvelle ère de modèles à grande échelle en Chine !

| Le plus fort du monde, mais faible en chinois

Llama2 est actuellement le grand modèle open source le plus puissant au monde, mais ses capacités chinoises doivent être améliorées de toute urgence.

En tant que grand modèle open source le plus puissant dans le domaine de l'IA, Llama2 est pré-entraîné sur la base de 2 000 milliards de données de jetons et affiné sur 1 million de données étiquetées humaines pour obtenir un modèle de dialogue. Dans de nombreux tests de référence, notamment les tests de raisonnement, de programmation, de dialogue et de connaissances, les performances sont nettement meilleures que celles des grands modèles de langage open source tels que MPT, Falcon et le LLaMA de première génération. Elles sont également comparables pour la première fois au GPT-3.5 commercial. , parmi de nombreux modèles open source. Unique.

Bien que les données de pré-entraînement de Llama2 aient doublé par rapport à la première génération, la proportion de données de pré-entraînement chinoises est encore très faible, ne représentant que 0,13 %, ce qui conduit également à la faible capacité chinoise du Llama2 d'origine.

Nous avons posé quelques questions en chinois et avons constaté que dans la plupart des cas, Llama2 ne pouvait pas répondre en chinois, ou répondait aux questions dans une forme mixte de chinois et d'anglais. Par conséquent, Llama2 doit être optimisé sur la base de données chinoises à grande échelle afin que Llama2 dispose de meilleures capacités chinoises.

À cette fin, la grande équipe doctorale modèle des meilleures universités nationales a fondé la communauté chinoise Llama et a lancé le parcours de formation du grand modèle chinois Llama2.

| La principale communauté chinoise de lamas

La communauté chinoise Llama est la principale communauté chinoise de modèles open source à grande échelle en Chine. Github a atteint 4,7 000 étoiles. Elle est dirigée par des équipes doctorales de l'Université Tsinghua, de l'Université Jiaotong et de l'Université du Zhejiang. Elle a rassemblé plus de 60 ingénieurs seniors. dans le domaine de l'IA et plus de 2000 meilleurs talents dans divers secteurs.

Lien de la communauté :

Histoire de la communauté :

| Le premier grand modèle chinois Llama2 pré-entraîné !

Pas une modification ! Au lieu de cela, il est formé à partir de zéro sur la base d'un corpus chinois de 200 milliards !

La communauté chinoise Llama est la première en Chine à compléter la véritable version chinoise du modèle 13B Llama2 : Llama2-Chinese-13B, qui optimise et améliore considérablement la capacité chinoise de Llama2 depuis le bas du modèle.

La culture chinoise de Llama2 peut emprunter environ deux voies :

Sur la base de l'ensemble de données d'instructions chinoises existant, affinez les instructions du modèle de pré-formation, afin que le modèle de base puisse s'aligner sur la capacité de questions-réponses chinoises. L'avantage de cette voie est que le coût est faible, la quantité de données de réglage fin des instructions est faible et les ressources de puissance de calcul requises sont faibles, et elle peut rapidement réaliser le prototype d'un lama chinois.

Mais les inconvénients sont également évidents. Un réglage fin ne peut que stimuler la capacité chinoise existante du modèle de base. Cependant, comme Llama2 dispose de moins de données d'entraînement chinoises, la capacité qui peut être stimulée est également limitée. Il traite les symptômes mais pas la racine. cause, et améliore fondamentalement la capacité chinoise du modèle Llama2. Vous devez toujours commencer par la pré-entraînement.

Pré-formation basée sur un corpus chinois à grande échelle. L’inconvénient de cet itinéraire est son coût élevé ! Non seulement des données chinoises à grande échelle et de haute qualité sont nécessaires, mais également des ressources informatiques à grande échelle sont nécessaires. Mais les avantages sont également évidents, c'est-à-dire qu'il peut optimiser la capacité chinoise à partir de la couche inférieure du modèle et obtenir véritablement l'effet de guérir la cause profonde, en injectant une puissante capacité chinoise dans le grand modèle à partir du noyau !

Afin de réaliser un grand modèle chinois complet à partir du noyau, nous avons choisi la deuxième voie ! Nous avons collecté un lot d'ensembles de données de corpus chinois de haute qualité et optimisé le grand modèle Llama2 à partir de la pré-formation. Une partie des données de pré-entraînement est la suivante :

Les données de pré-entraînement du premier modèle Llama2-Chinese-13B contiennent des jetons 200 B. À l'avenir, nous continuerons à mettre à jour de manière itérative Llama2-Chinese et augmenterons progressivement les données de pré-entraînement jusqu'à 1T de jetons. De plus, nous ouvrirons progressivement la version chinoise de pré-entraînement du modèle 70B, alors restez connectés !

Nous avons interrogé le grand modèle sous différents aspects tels que les connaissances générales, la compréhension du langage, la capacité créative, le raisonnement logique, la programmation de code, les compétences professionnelles, etc., et avons obtenu des résultats satisfaisants !

Une partie des effets est présentée ci-dessous :

culture générale

compréhension du langage

Capacité créative

Raisonnement logique

programmation de codes

capacité de travail

🏅Plan pilote de la communauté chinoise des lamas🏅

En se concentrant sur le développement à long terme et l'itération rapide de la communauté, d'une part, il fournit des services techniques professionnels à tous les passionnés d'IA enthousiastes et aspirant à investir dans la vague de modèles à grande échelle ; Prendre les devants dans le À l'ère du développement de l'IA, et pour obtenir des ressources sous tous les aspects, nous lancerons la première phase du plan pilote de la communauté chinoise Llama pour une durée limitée ! Chaque membre du programme Espier bénéficiera des avantages « 7TOP » suivants :

Modèle HAUT

Rejoignez-nous pour obtenir le droit d'utiliser la première version chinoise pré-entraînée du modèle Llama2-Chinese-13B en Chine (version non affinée). À l'avenir, nous continuerons à améliorer les capacités chinoises du noyau du modèle basé sur des données à plus grande échelle, et donnera également la priorité à chaque membre du programme pilote fournit la version du modèle la plus avancée.

Technologie HAUT

Dirigée par une équipe doctorale issue des meilleures universités nationales, il s’agit de l’équipe technologique de grands modèles la plus professionnelle. Qu’il s’agisse de problématiques techniques les plus pointues ou d’analyses théoriques approfondies, nous vous proposerons les solutions les plus avant-gardistes.

Service HAUT

Dans le plan pilote, vous recevrez des conseils personnalisés 1 contre 1. Chaque fois que vous avez des questions, où que vous soyez, nous y répondrons rapidement. Nous nous engageons à fournir une assistance complète pour vous aider à mettre en œuvre rapidement les applications grand modèle Llama2 et à garantir que vous réussissez à réaliser des percées technologiques. Si votre entreprise rencontre des problèmes liés aux grands modèles, nous vous aiderons également à les analyser et à les résoudre.

Enseignement HAUT

Le mode d'enseignement qui allie théorie et pratique vous amènera à apprécier les mystères des grands modèles. De l'analyse technique des grands modèles aux algorithmes clés et explications de thèse, en passant par la construction de grands modèles privatisés à partir de zéro, puis à la formation des grands modèles industriels, nous vous apprendrons étape par étape à réaliser des progrès technologiques. Le plan du cours est le suivant :

image

Principales ressources

Nous avons la plus grande communauté chinoise de lamas en Chine, avec Github atteignant 4,7 000 étoiles, réunissant plus de 2 000 meilleurs talents. Ici, vous interagirez avec des investisseurs en IA, des PDG entrepreneurs et des dirigeants de divers secteurs, et rechercherez des services à guichet unique tels que la coopération, l'investissement, la promotion et le recrutement. Trouver un emploi/un partenaire/un investissement/vendre des produits peuvent tous répondre à vos besoins. Il s'agit d'une plateforme en or permettant aux talents techniques de communiquer entre eux. Vous pouvez trouver les meilleurs experts de tous horizons pour communiquer et discuter ensemble.

Activités HAUT

Nous organisons non seulement des événements en ligne réguliers, mais proposons également des présentations techniques et des échanges lors d'événements hors ligne, visant à responsabiliser diverses industries sur la base du modèle Llama2. Vous offrir la possibilité d'interagir directement avec les meilleurs experts, vous permettant ainsi d'avancer aux côtés des leaders de l'industrie. Que vous soyez un débutant technique ou un expert expérimenté, nous vous offrirons une excellente opportunité d'explorer l'avenir avec les meilleurs talents techniques du monde !

Hashrate TOP

La communauté propose aux étudiants des canaux de ressources en puissance de calcul, vous permettant de les utiliser à un prix inférieur à celui du marché. Nous comprenons l'importance de la puissance de calcul pour le développement technologique et vous fournissons un support de puissance de calcul efficace et stable pour vous aider à montrer votre style dans le domaine technique.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

0/400

Aucun commentaire

Rubrique
#Crypto Market Pullback
263k Popularité
#Jackson Hole Meeting
9k Popularité
#Gate Alpha ESPORTS Points Airdrop
9k Popularité
#Institutions Hold 10M+ ETH
22k Popularité
#MicroStrategy Loosens Stock Rules
19k Popularité

Épingler