Revelando el modelo chino Llama2 más avanzado en China

2023-09-05 02:48:20

Autor: FlagAlpha

Fuente: Comunidad China Llama

Fuente de la imagen: Generada por IA ilimitada

Introducción

El 31 de julio, la comunidad china de Llama tomó la iniciativa de completar la primera versión verdaderamente china del modelo grande Llama2-13B en China, que optimizó y mejoró significativamente las capacidades chinas de Llama2 desde la parte inferior del modelo. ¡No hay duda de que la versión china de Llama2 abrirá una nueva era de modelos grandes nacionales una vez que se lance!

| El más fuerte del mundo, pero débil en chino

Llama2 es actualmente el modelo grande de código abierto más poderoso del mundo, pero sus capacidades chinas deben mejorarse con urgencia.

Como el modelo grande de código abierto más poderoso en el campo de la IA, Llama2 está previamente entrenado con 2 billones de datos de tokens y ajustado con 1 millón de datos etiquetados por humanos para obtener un modelo de diálogo. En muchas pruebas de referencia, incluidas pruebas de razonamiento, programación, diálogo y conocimientos, los resultados son significativamente mejores que los modelos de lenguajes grandes de código abierto como MPT, Falcon y la primera generación de LLaMA. También es comparable al GPT-3.5 comercial por primera vez. tiempo Entre los modelos de código abierto Sea único.

Aunque los datos previos al entrenamiento de Llama2 se han duplicado en comparación con la primera generación, la proporción de datos chinos previos al entrenamiento sigue siendo muy pequeña, representando solo el 0,13%, lo que también conduce a la débil capacidad china del Llama2 original.

Hicimos algunas preguntas en chino y descubrimos que en la mayoría de los casos Llama2 no podía responder las preguntas en chino o las respondía en una forma mixta de chino e inglés. Por lo tanto, Llama2 debe optimizarse en función de datos chinos a gran escala para que Llama2 tenga mejores capacidades chinas.

Por esta razón, el equipo de doctorado modelo a gran escala de las mejores universidades de China fundó la comunidad china Llama y comenzó el viaje de formación del modelo chino a gran escala Llama2.

| La principal comunidad china de llamas

La comunidad china Llama es la comunidad china de modelos grandes de código abierto líder en China, con Github alcanzando las 4,7 mil estrellas, está dirigida por equipos doctorales de la Universidad de Tsinghua, la Universidad de Jiaotong y la Universidad de Zhejiang, y reúne a más de 60 ingenieros senior en IA. campo y más de 2000 talentos destacados en diversas industrias.

Enlaces de la comunidad:

Historia de la comunidad:

| ¡El primer modelo grande chino Llama2 preentrenado!

¡No es una ruleta! En cambio, ¡se entrena desde cero basándose en 200 mil millones de corpus chinos!

La comunidad china de Llama es la primera en China en completar la verdadera versión china del modelo 13B Llama2: Llama2-Chinese-13B, que ha optimizado y mejorado en gran medida las capacidades chinas de Llama2 desde la parte inferior del modelo.

La cultura china de Llama2 puede tomar aproximadamente dos rutas:

Con base en el conjunto de datos de instrucciones en chino existente, ajuste las instrucciones del modelo de preentrenamiento para que el modelo base pueda alinearse con la capacidad de preguntas y respuestas en chino. La ventaja de esta ruta es que el costo es bajo, la cantidad de datos de ajuste fino de instrucciones es pequeña y los recursos de potencia de cálculo necesarios son pequeños, y puede realizar rápidamente el prototipo de una Llama china.

Pero las deficiencias también son obvias: el ajuste fino solo puede estimular la capacidad china existente del modelo base, pero debido a que Llama2 tiene menos datos de entrenamiento chino, la capacidad de estimulación también es limitada. Aún es necesario comenzar con el entrenamiento previo. .

Entrenamiento previo basado en corpus chino a gran escala. ¡La desventaja de esta ruta es el alto coste! No solo se requieren datos chinos a gran escala y de alta calidad, sino también recursos informáticos a gran escala. Pero las ventajas también son obvias, es decir, puede optimizar la capacidad china desde la capa inferior del modelo y realmente lograr el efecto de curar la causa raíz, inyectando poderosas habilidades chinas en el modelo grande desde el núcleo.

Para implementar un modelo grande chino completo desde el kernel, ¡elegimos la segunda ruta! Hemos reunido un lote de conjuntos de datos de corpus chinos de alta calidad y optimizamos el modelo grande Llama2 desde el entrenamiento previo. Algunos de los datos previos al entrenamiento son los siguientes:

Los datos de preentrenamiento del primer modelo Llama2-Chinese-13B contienen 200 mil millones de tokens. En el futuro, continuaremos actualizando Llama2-Chinese de forma iterativa y aumentaremos gradualmente los datos de preentrenamiento a 1T de tokens. Además, abriremos gradualmente la versión china de preentrenamiento del modelo 70B, ¡así que estad atentos!

Le preguntamos al modelo grande desde diferentes aspectos, como conocimiento general, comprensión del lenguaje, capacidad creativa, razonamiento lógico, programación de códigos, habilidades laborales, etc., ¡y obtuvimos resultados satisfactorios!

Algunos efectos se muestran a continuación:

conocimientos generales

Comprensión del lenguaje

Habilidad creativa

Razonamiento logico

programación de código

capacidad de trabajo

🏅Plan piloto de la comunidad china Llama🏅

Centrándose en el desarrollo a largo plazo y la rápida iteración de la comunidad, por un lado, proporciona servicios técnicos profesionales a todos los entusiastas de la IA que estén entusiasmados y ambiciosos en invertir en la ola de modelos grandes; por otro lado, permite que todos participante de la comunidad para tomar rápidamente la delantera en la era de desarrollo de la IA y obtener recursos de todos los aspectos, ¡lanzaremos la primera fase del Plan Piloto de la Comunidad China Llama por tiempo limitado! Cada miembro del programa Espier recibirá los siguientes beneficios "7TOP":

Modelo ARRIBA

Únase para obtener el derecho a utilizar la primera versión china previamente entrenada del modelo Llama2-Chinese-13B en China (versión no ajustada). En el futuro, continuaremos mejorando las capacidades chinas del núcleo del modelo basado en datos a mayor escala, y también dará prioridad a Cada miembro del Programa Piloto proporciona la versión del modelo más avanzada.

Tecnología ARRIBA

Dirigido por un equipo de doctorado de las mejores universidades nacionales, es el equipo de tecnología de modelos grandes más profesional. Ya sean los problemas técnicos más vanguardistas o un análisis teórico en profundidad, le proporcionaremos las soluciones más vanguardistas.

Servicio superior

En el Plan Piloto recibirás orientación personalizada 1V1. Cuando y donde tengas dudas, te las responderemos a la brevedad. Estamos comprometidos a brindar soporte integral para ayudarlo a implementar rápidamente las aplicaciones de modelos grandes de Llama2 y garantizar que logre avances tecnológicos con éxito. Si su empresa encuentra problemas relacionados con modelos grandes, también le ayudaremos a analizarlos y solucionarlos.

Enseñanza superior

La modalidad de enseñanza que combina teoría y práctica te llevará a apreciar los misterios de los grandes modelos. Desde el análisis técnico de modelos grandes hasta explicaciones de algoritmos y artículos clave, la construcción de grandes modelos privatizados desde cero y la capacitación sobre grandes modelos industriales, le enseñaremos paso a paso cómo lograr avances tecnológicos. El esquema del curso es el siguiente:

imagen

Principales recursos

Tenemos la comunidad china de Llama más grande de China, con Github que alcanza 4,7 mil estrellas y reúne a más de 2000 talentos destacados. Aquí, se comunicará con inversores de IA, directores ejecutivos empresariales y líderes de la industria para buscar servicios integrales como cooperación, inversión, promoción y contratación. Encuentre trabajo/socio/invierta/venda productos, podemos satisfacer sus necesidades. Esta es una plataforma dorada para que los talentos técnicos intercambien conocimientos y habilidades. Puede encontrar los mejores expertos de todos los ámbitos de la vida para comunicarse y discutir juntos.

Actividades ARRIBA

No solo realizamos eventos en línea con regularidad, sino que también brindamos presentaciones técnicas e intercambios en eventos fuera de línea, con el objetivo de potenciar diversas industrias basadas en el modelo Llama2. Brindarle la oportunidad de interactuar directamente con los mejores expertos, lo que le permitirá avanzar codo a codo con los líderes de la industria. Ya sea que sea un novato técnico o un experto experimentado, le brindaremos una excelente oportunidad para explorar el futuro con los mejores talentos técnicos del mundo.

Máxima potencia informática

La comunidad proporciona canales de recursos de potencia informática para los estudiantes, lo que les permite utilizarlos a un precio más bajo que el del mercado. Entendemos la importancia de la potencia informática para el desarrollo tecnológico y le brindamos soporte de potencia informática eficiente y estable para ayudarlo a mostrar su estilo en el campo técnico.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

0/400

Sin comentarios

Tema
#Crypto Market Pullback
263k Popularidad
#Jackson Hole Meeting
9k Popularidad
#Gate Alpha ESPORTS Points Airdrop
9k Popularidad
#Institutions Hold 10M+ ETH
22k Popularidad
#MicroStrategy Loosens Stock Rules
19k Popularidad

Anclado