Revelando o modelo chinês Llama2 mais avançado da China

Autor: FlagAlpha

Fonte: Comunidade Chinesa Llama

Fonte da imagem: gerada por Unbounded AI

Introdução

Em 31 de julho, a comunidade chinesa Llama assumiu a liderança na conclusão da primeira versão verdadeiramente chinesa do grande modelo Llama2-13B na China, o que otimizou e melhorou significativamente as capacidades chinesas do Llama2 desde a parte inferior do modelo. Sem dúvida, assim que a versão chinesa do Llama2 for lançada, abrirá uma nova era de modelos em grande escala na China!

| O mais forte do mundo, mas fraco em chinês

Llama2 é atualmente o grande modelo de código aberto mais poderoso do mundo, mas suas capacidades chinesas precisam ser melhoradas urgentemente.

Como o grande modelo de código aberto mais poderoso no campo da IA, o Llama2 é pré-treinado em 2 trilhões de dados de token e ajustado em 1 milhão de dados rotulados por humanos para obter um modelo de diálogo. Em muitos testes de benchmark, incluindo testes de raciocínio, programação, diálogo e conhecimento, os resultados são significativamente melhores do que modelos de linguagem grande de código aberto, como MPT, Falcon e a primeira geração do LLaMA. Também é comparável ao GPT-3.5 comercial para o primeiro tempo. Entre os modelos de código aberto Seja único.

Embora os dados de pré-treinamento do Llama2 tenham duplicado em comparação com a primeira geração, a proporção de dados de pré-treinamento chineses ainda é muito pequena, representando apenas 0,13%, o que também leva à fraca capacidade chinesa do Llama2 original.

Fizemos algumas perguntas em chinês e descobrimos que na maioria dos casos o Llama2 não conseguia responder às perguntas em chinês ou respondia de uma forma mista de chinês e inglês. Portanto, o Llama2 precisa ser otimizado com base em dados chineses em grande escala para que o Llama2 tenha melhores capacidades chinesas.

Por esta razão, a equipe de doutorado em modelo em grande escala das principais universidades da China fundou a comunidade chinesa Llama e iniciou a jornada de treinamento do modelo chinês em grande escala Llama2.

| A principal comunidade chinesa de lhamas

A comunidade chinesa Llama é a principal comunidade chinesa de grande modelo de código aberto na China, com o Github alcançando 4,7 mil estrelas. É liderada por equipes de doutorado da Universidade Tsinghua, Universidade Jiaotong e Universidade Zhejiang, e reúne mais de 60 engenheiros seniores na área de IA. campo e mais de 2.000 talentos em vários setores.

Link da comunidade:

História da comunidade:

| O primeiro modelo grande chinês Llama2 pré-treinado!

Não é um girador! Em vez disso, ele é treinado do zero com base no corpus chinês 200B!

A comunidade chinesa Llama é a primeira na China a completar a versão chinesa real do modelo 13B Llama2: Llama2-Chinese-13B, que otimiza e melhora muito a capacidade chinesa do Llama2 na parte inferior do modelo.

A cultura chinesa do Llama2 pode seguir aproximadamente dois caminhos:

  1. Com base no conjunto de dados de instrução chinês existente, ajuste as instruções do modelo de pré-treinamento, para que o modelo básico possa se alinhar com a capacidade de perguntas e respostas chinesa. A vantagem dessa rota é que o custo é baixo, a quantidade de dados de ajuste fino de instruções é pequena e os recursos de poder de computação necessários são pequenos, e ela pode realizar rapidamente o protótipo de uma lhama chinesa.

Mas as deficiências também são óbvias. O ajuste fino só pode estimular a capacidade chinesa existente do modelo básico. No entanto, como o Llama2 tem menos dados de treinamento chinês, a capacidade que pode ser estimulada também é limitada. Ele trata os sintomas, mas não a raiz causa e melhora fundamentalmente a capacidade chinesa do modelo Llama2. Você ainda precisa começar com o pré-treinamento.

  1. Pré-treinamento baseado em corpus chinês de grande escala. A desvantagem desta rota é o alto custo! Não são necessários apenas dados chineses de alta qualidade em grande escala, mas também recursos de computação em grande escala. Mas a vantagem também é óbvia, ou seja, pode otimizar as capacidades chinesas a partir da base do modelo, realmente atingir a causa raiz do problema e injetar poderosas capacidades chinesas em grandes modelos a partir do núcleo!

Para implementar um grande modelo chinês completo a partir do kernel, escolhemos o segundo caminho! Reunimos um lote de conjuntos de dados de corpus chineses de alta qualidade e otimizamos o grande modelo Llama2 a partir do pré-treinamento. Alguns dos dados de pré-treinamento são os seguintes:

Os dados de pré-treinamento do primeiro modelo Llama2-Chinese-13B contêm tokens de 200 B. No futuro, continuaremos a atualizar iterativamente o Llama2-Chinese e aumentar gradualmente os dados de pré-treinamento para tokens de 1T. Além disso, abriremos gradativamente a versão chinesa de pré-treinamento do modelo 70B, fique ligado!

Questionamos o grande modelo sob diversos aspectos como conhecimentos gerais, compreensão da linguagem, capacidade criativa, raciocínio lógico, programação de códigos, habilidades de trabalho, etc., e obtivemos resultados satisfatórios!

Parte dos efeitos são mostrados abaixo:

conhecimento geral

Compreensão do idioma

Capacidade criativa

Raciocínio lógico

Programação de código

capacidade de trabalho

🏅Plano Piloto da Comunidade Chinesa Llama🏅

Concentrando-se no desenvolvimento a longo prazo e na rápida iteração da comunidade, por um lado, fornece serviços técnicos profissionais a todos os entusiastas da IA que estão entusiasmados e ambiciosos em investir na onda de grandes modelos; por outro lado, permite que cada participante da comunidade para assumir rapidamente a liderança na era do desenvolvimento da IA e obter recursos em todos os aspectos, lançaremos a primeira fase do Plano Piloto da Comunidade Chinesa Llama por tempo limitado! Cada membro do programa Espier receberá os seguintes benefícios "7TOP":

  1. Modelo TOPO

Ao aderir, você pode obter o direito de usar a primeira versão chinesa pré-treinada do modelo Llama2-Chinese-13B na China (versão não ajustada) e, no futuro, continuaremos a aprimorar a capacidade chinesa de o núcleo do modelo baseado em dados de maior escala, e também dará prioridade a Cada membro do Programa Piloto fornece a versão mais avançada do modelo.

  1. Tecnologia TOPO

Liderada por uma equipe de doutorado das melhores universidades nacionais, é a equipe de tecnologia de grandes modelos mais profissional. Quer se trate de questões técnicas mais avançadas ou de análises teóricas aprofundadas, iremos fornecer-lhe as soluções mais avançadas.

  1. Serviço superior

No programa Espier, você receberá orientações 1V1 personalizadas, não importa quando e onde, desde que tenha dúvidas, responderemos a tempo. Estamos empenhados em fornecer suporte completo para ajudá-lo a realizar rapidamente a aplicação dos grandes modelos Llama2 e garantir a realização tranquila de avanços tecnológicos. Caso sua empresa encontre problemas relacionados a modelos de grande porte, também ajudaremos você a analisá-los e resolvê-los.

  1. Ensino TOP

A modalidade de ensino que combina teoria e prática o levará a apreciar os mistérios dos grandes modelos. Da análise técnica de grandes modelos às explicações dos principais algoritmos e artigos, construção de grandes modelos privatizados a partir do zero e treinamento em modelos de grandes indústrias, ensinaremos você passo a passo para alcançar o avanço tecnológico. O esquema do curso é o seguinte:

foto

  1. Recurso TOPO

Temos a maior comunidade chinesa de lhamas na China, com o Github alcançando 4,7 mil estrelas, reunindo mais de 2.000 talentos de ponta. Aqui, você interagirá com investidores em IA, CEOs empreendedores e líderes de vários setores, e buscará serviços completos, como cooperação, investimento, promoção e recrutamento. Encontrar um emprego/parceiro/investimento/vender produtos pode atender às suas necessidades. Esta é uma plataforma de ouro para talentos técnicos se comunicarem entre si. Você pode encontrar os melhores especialistas de todas as esferas da vida para se comunicarem e discutirem juntos.

  1. Atividades TOPO

Não apenas realizamos eventos online regulares, mas também realizamos apresentações técnicas e intercâmbios em eventos offline, com o objetivo de capacitar diversos setores com base no modelo Llama2. Oferece a você a oportunidade de interagir diretamente com os principais especialistas, permitindo que você avance lado a lado com os líderes do setor. Quer você seja um novato técnico ou um especialista experiente, ofereceremos uma excelente oportunidade para explorar o futuro com os maiores talentos técnicos do mundo!

  1. Hashrate TOPO

A comunidade fornece canais de recursos de poder computacional para os alunos, permitindo que você os utilize a um preço inferior ao de mercado. Compreendemos a importância do poder computacional para o desenvolvimento tecnológico e fornecemos suporte de poder computacional eficiente e estável para ajudá-lo a mostrar seu estilo no campo técnico.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
0/400
Sem comentários
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)