¡Se necesitaron 10 personas durante dos meses para construir un modelo grande! Bendecido por 16 artículos de conferencias importantes en un año: ninguno de los mejores del mercado es de código abierto

Autor: Hengyu

**Fuente: **Qubis

Una empresa fundada en Shenzhen en mayo de este año cuenta con un equipo de menos de 10 personas.

Lo que tienen que hacer no es poca cosa: desafiar a AGI.

¿Dónde está la confianza? Primero, mire el currículum anterior y, segundo, mire los resultados de la pista actual.

El año pasado, estas personas publicaron un total de 16 artículos importantes relacionados con modelos en conferencias importantes como CVPR, ICML y ECCV, y uno de ellos fue nominado como mejor artículo en la conferencia principal ACL 2023.

¿Cuáles fueron tus resultados después de iniciar tu negocio? Dos meses después de su establecimiento, el modelo entrenado se ubicó entre los tres primeros en la lista C y su capacidad china derrotó a ChatGPT y Claude-v1.3.

Este es el resultado de la matriz simbiótica.

Y su modelo GS-LLM figura en la lista por primera vez desde finales de julio, ocupando el primer escalón entre los 65 jugadores de la lista C.

Entonces, ¿quién es la Matriz Simbiótica?

10 personas desafían a AGI

Symbiotic Matrix tiene como objetivo construir una fábrica de refinación de datos industriales basada en tecnología AGI de desarrollo propio.

El equipo confía principalmente en el modelo grande GS-LLM de desarrollo propio.

La escala de parámetros del modelo varía de 7B a 130B y se puede adaptar según las necesidades reales de los usuarios.

Hay dos versiones basadas en GS-LLM que ocupan un lugar en C-, una es la versión GS-LLM-Beta de 10 mil millones de parámetros y la otra es la versión mini GS-LLM-Beta-Mini con menos de 10 mil millones de parámetros. .

El motivo para lanzar la versión mini es que muchos usuarios descubrieron que el entorno operativo original (incluso el entorno de nube) no era suficiente para soportar la implementación local a gran escala.

Los resultados de las pruebas encontraron que la versión multimillonaria de GS-LLM-Beta puede funcionar bien, con una mejor clasificación del sexto lugar en C-.

Una de las razones por las que puede permanecer en la cima de la lista C es que la matriz simbiótica ha creado un marco de capacitación completamente independiente, que proporciona soporte técnico relativamente completo para toda la capacitación.

El segundo punto son los datos, a los que esta empresa concede gran importancia.

El director ejecutivo de Symbiotic Matrix, Zhang Lin, dio un ejemplo sencillo:

Compare el entrenamiento modelo con el proceso de crecimiento humano. Si todo lo que ha leído desde la infancia son novelas nutritivas, la capacidad general de esta persona no será muy fuerte.

El año pasado, el equipo descubrió en un experimento que cuando los datos del modelo alcanzan un cierto orden de magnitud, el salto en la calidad de los datos puede causar algunos cambios cualitativos.

"En otras palabras, si tiene un modelo de escala relativamente pequeña (como decenas de miles de millones) y le proporciona datos de alta calidad, los resultados del entrenamiento serán muy cercanos a los resultados de cientos de miles de millones de niveles", dijo Zhang Lin. .

Este experimento también hizo que el equipo prestara más atención a la calidad de los datos y a las formas sistemáticas de obtener datos de alta calidad.

De hecho, este punto ha atraído cada vez más atención de todos los ámbitos de la vida últimamente. Microsoft tiene un nuevo estudio "Los libros de texto son todo lo que necesitas", que muestra que crecer no es la única salida, pero los datos de alta calidad sí lo son. crucial.

Como resultado, el equipo de Symbiosis construyó un sistema de ingeniería para limpiar datos continuamente las 24 horas del día.

Actualmente, el equipo ha limpiado alrededor de 20 toneladas de datos de texto que se pueden utilizar para el entrenamiento: "Este nivel de datos puede respaldar el entrenamiento de modelos de un sistema muy grande".

Sin embargo, Zhang Lin también reveló que Symbiotic Matrix no divulgará al público los datos limpiados por el equipo en el corto plazo.

Entonces, ¿cuál es el concepto de fábrica de refinamiento de datos que el equipo quiere construir?

Zhang Lin explicó que si un modelo grande se entiende como "compresión de información", entonces en sí mismo es una gran base de datos de parámetros.

Lo que tiene que hacer la fábrica de refinación de datos es compartir e intercambiar los datos de los parámetros una vez que se ha entrenado el modelo.

Debe saber que las funciones de los modelos grandes se llevan a cabo a través de parámetros. Los parámetros de transacción son en realidad funciones de conmutación. Necesitamos la diversidad de funciones de los modelos grandes. "El comercio de parámetros es el camino más eficiente".

Los datos a los que se hace referencia aquí no son el tipo de datos que todos pueden ver, sino datos de parámetros. Los datos de los que hablamos a menudo son un fragmento de texto o una imagen, y los datos que posee la fábrica son los parámetros del modelo entrenado, y estos parámetros se comercializan.

"Los datos brutos se comercializan directamente, lo que está limitado por grandes cantidades y problemas de privacidad". Zhang Lin explicó que el concepto de comercio de datos se ha propuesto durante muchos años, pero no ha sido completamente aceptado por el mercado. El equipo cree que Si los datos realmente circulan, deben ser más razonables, seguros y efectivos, por lo que finalmente se determinaron las transacciones de datos a nivel de parámetros.

Según la visión del equipo, una vez finalizada la fábrica de refinamiento de datos, no será necesario entrenar repetidamente algunos datos, se mejorará la eficiencia y se reducirán los costos.

Utilice menos personas y recursos para completar el sistema modelo grande

En la locura por los modelos grandes, cómo evaluarlos se ha convertido en una cuestión importante, razón por la cual han surgido varias listas.

Después de que Symbiotic Matrix fuera catalogada como C-, el mundo exterior se centró en dos puntos principales:

Además de sus buenos resultados, otro punto interesante es que es un equipo pequeño y poco común en la lista.

El equipo dijo que la lista no es la única ni la más autorizada del mundo, pero comenzó a aparecer en la lista un mes después de su creación, y una vez alcanzó los tres primeros, lo que puede reflejar que "utilizamos menos personas y recursos para hacer un buen trabajo en sistemas modelo a gran escala".

Así es, el equipo de Symbiosis Matrix tiene menos de 10 personas.

No hay mucha gente, pero todos son bastante buenos peleando——

El CEO Zhang Lin, el CTO Wang Junjie y otros miembros principales del equipo son todos del Instituto de Investigación IDEA y tienen una rica experiencia práctica en el sistema de código abierto de los modelos nacionales de preentrenamiento de Fengshenbang (se informa que Fengshenbang tiene actualmente más de 98 abiertos). fuente de modelos de preentrenamiento)

Zhang Lin se graduó con un doctorado en la Universidad Estatal de Nueva York y ha publicado más de 30 artículos en las principales conferencias informáticas. Anteriormente fue investigador principal en el Instituto de Economía Digital del Área de la Gran Bahía de Guangdong-Hong Kong-Macao (IDEA ).

Wang Junjie tiene un doctorado en informática de la Universidad de Waseda y anteriormente fue miembro principal del equipo de modelos grandes de Fengshenbang.

△Zhang Lin

Si observamos el mercado actual de la IA, no hay precedentes de que un equipo pequeño haga un buen trabajo en IA. Solo hay 11 miembros detrás del modelo de diagrama de Vincent más famoso, Midjourney, que se considera el punto de referencia de las organizaciones de la nueva era. En la era de la IA 2.0, han surgido en el país y en el extranjero muchos equipos empresariales de gran modelo que enfatizan lo "pequeño pero hermoso".

Por supuesto, Zhang Lin dijo que la razón más profunda es que los modelos grandes no son simplemente proyectos que acumulan mano de obra y requieren una pequeña cantidad de equipos de élite para garantizar la eficiencia.

Dijo que al entrenar el modelo, los aspectos técnicos como la optimización del operador, la precisión mixta, etc., así como los problemas de comunicación al admitir cientos de tarjetas al mismo tiempo, prueban las capacidades de ingeniería. Si un equipo pequeño puede resolver los problemas de ingeniería encontrados y mejorar la eficiencia, no es necesario depender de un equipo grande para resolverlos.

Además, un equipo central técnico pequeño es más propicio para mantener la independencia ideológica y explorar más posibilidades al no apegarse a las reglas, pero acumular mano de obra reducirá fácilmente la eficiencia general.

Según su estimación, los mejores talentos en el campo de los modelos a gran escala en el país "pueden sumar sólo unas 100 personas", y hay poco espacio para formar un equipo grande.

Por lo tanto, el equipo permanecerá en el tamaño de "menos de diez personas" durante un cierto período de tiempo.

En última instancia, se trata de una comprensión diferente de los paradigmas y conceptos detrás de la era AI 2.0 y la era AI 1.0.

Durante el proceso de comunicación, Zhang Lin también expresó directamente la comprensión diferente del equipo de las voces principales en otro nivel, lo que se refleja en el concepto de código abierto y cerrado.

Hace algún tiempo, cuando se lanzó LLaMA-2, gratuito y disponible comercialmente, mucha gente dijo que sería un gran golpe para las nuevas empresas en el mercado, porque LLaMA-2 puede satisfacer las necesidades de la mayoría de las empresas en cuanto a menor costo y personalización.

"LLaMA-2 no ha cambiado la estructura del mercado." A los ojos del equipo de Symbiosis, los equipos verdaderamente líderes no abren tecnologías centrales de código abierto.

Zhang Lin también añadió que en la etapa actual, la importancia del código abierto radica más en educar al mercado que en promover la comercialización.

Así como Raspberry Pi es importante para los entusiastas de la electrónica, pero no cambiará el mercado de las computadoras móviles, LLAMA 2 es más valioso para los usuarios principiantes, pero tendrá poco impacto en los usuarios que desean volverse comerciales.

Todavía hay muchas matrices simbióticas con puntos de vista y entendimientos "no convencionales" como este.

Por ejemplo, no creemos que los modelos grandes sean el punto final de la IA general, ni creemos que ChatGPT represente la dirección final.

También son cautelosos con respecto a la rápida expansión al estilo unicornio y prestan más atención a la cohesión del equipo y la acumulación de tecnología.

……

Con respecto a la ruta de desarrollo futura, Symbiosis Matrix elige ser de código cerrado en el corto plazo y, si se presentan oportunidades adecuadas, puede ser de código abierto de manera adecuada en el futuro.

El código abierto debe tener objetivos claros impulsados por el negocio. Actualmente, la tecnología de modelos grandes todavía se encuentra en la etapa de iteración y competencia rápidas, y la tecnología central de código abierto corre el riesgo de perder su ventaja de ser la primera en actuar.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
0/400
Sin comentarios
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)