El punto de vista "grande es mejor" del modelo de IA ya no funciona

Autor |The Economist Traductor |

Editor a cargo | Xia Meng

Listado | CSDN (ID: CSDNnews)

Fuente de la imagen: Generada por Unbounded AI

Para que la IA mejore, tendrá que hacer más con menos recursos.

Hablando de "modelos de lenguaje grande" (LLM), como el GPT (Transformador preentrenado generativo) de OpenAI, la fuerza central que impulsa los chatbots populares en los Estados Unidos, el nombre lo dice todo. Estos modernos sistemas de IA están alimentados por vastas redes neuronales artificiales que imitan el funcionamiento de los cerebros biológicos de una manera amplia. GPT-3, lanzado en 2020, es un gran modelo de lenguaje gigante con 175 mil millones de "parámetros", que es el nombre de las conexiones simuladas entre neuronas. GPT-3 se entrena procesando billones de palabras de texto en unas pocas semanas utilizando miles de GPU con inteligencia artificial, a un costo estimado de más de $ 4.6 millones.

Sin embargo, el consenso en la investigación moderna de IA es: "más grande es mejor y más grande es mejor". Por lo tanto, la tasa de crecimiento de escala del modelo se ha desarrollado rápidamente. Lanzado en marzo, se estima que GPT-4 tiene alrededor de 1 billón de parámetros, casi seis veces más que la generación anterior. El CEO de OpenAI, Sam Altman, estima que su desarrollo costó más de 100 millones de dólares. Y la industria en su conjunto está mostrando la misma tendencia. La firma de investigación Epoch AI predice que en 2022 la potencia de cómputo requerida para entrenar a los mejores modelos se duplicará cada seis a diez meses (ver el gráfico a continuación).

El tamaño cada vez mayor de los parámetros del modelo de IA plantea algunos problemas. Si las predicciones de Epoch AI son correctas y los costos de capacitación se duplican cada diez meses, los costos de capacitación podrían superar los mil millones de dólares para 2026, y eso solo suponiendo que los datos no se agoten primero. Un análisis realizado en octubre de 2022 predijo que el texto de alta calidad utilizado para la capacitación podría agotarse en la misma cantidad de tiempo. Además, incluso después de completar la capacitación del modelo, el costo real de ejecutar un modelo grande puede ser prohibitivamente costoso.

A principios de este año, Morgan Stanley estimó que si la mitad de las búsquedas de Google fueran manejadas por programas actuales de tipo GPT, podría costarle a la compañía $6 mil millones adicionales al año. Es probable que este número continúe aumentando a medida que crece el tamaño del modelo.

Como resultado, la opinión de muchas personas de que los modelos de IA son "grandes, mejores" ya no es válida. Si van a continuar mejorando los modelos de IA (y mucho menos hacer realidad esos sueños de IA más grandiosos), los desarrolladores deben descubrir cómo obtener un mejor rendimiento con recursos limitados. Como dijo el Sr. Altman este abril al mirar hacia atrás en la historia de la IA a gran escala: "Creo que hemos llegado al final de una era".

Crujido cuantitativo

En cambio, los investigadores comenzaron a centrarse en cómo mejorar la eficiencia del modelo, no solo en la búsqueda de escala. Una forma es lograr una compensación reduciendo la cantidad de parámetros pero utilizando más datos para entrenar el modelo. En 2022, la división DeepMind de Google entrenó un LLM de 70 mil millones de parámetros llamado Chinchilla en un corpus de 1,4 billones de palabras. A pesar de tener menos parámetros que los 175 000 millones de GPT-3 y datos de entrenamiento de solo 300 000 millones de palabras, este modelo supera a GPT-3. Alimentar un LLM más pequeño con más datos significa que lleva más tiempo entrenarlo, pero el resultado es un modelo más pequeño, más rápido y más económico.

Otra opción es permitir que se reduzca la precisión de los números de coma flotante. Reducir el número de dígitos de precisión en cada número del modelo, es decir, redondear, puede reducir drásticamente los requisitos de hardware. Investigadores del Instituto Austriaco de Ciencia y Tecnología demostraron en marzo que el redondeo puede reducir drásticamente el consumo de memoria de un modelo similar a GPT-3, lo que permite que el modelo se ejecute en una GPU de gama alta en lugar de cinco con una "pérdida insignificante de precisión". " ".

Algunos usuarios perfeccionan un LLM de propósito general para centrarse en tareas específicas, como generar documentos legales o detectar noticias falsas. Si bien esto no es tan complejo como capacitar a un LLM por primera vez, aún puede ser costoso y llevar mucho tiempo. El ajuste fino del modelo LLaMA de 65 000 millones de parámetros de código abierto de Meta (la empresa matriz de Facebook) requirió varias GPU y llevó de horas a días.

Investigadores de la Universidad de Washington han inventado una forma más eficiente de crear un nuevo modelo Guanaco de LLaMA en una sola GPU en un día con una pérdida de rendimiento insignificante. Parte del truco es una técnica de redondeo similar a la utilizada por los investigadores austriacos. Pero también utilizaron una técnica llamada Adaptación de bajo rango (LoRA), que consiste en corregir los parámetros existentes del modelo y luego agregarle un nuevo conjunto de parámetros más pequeño. El ajuste fino se realiza cambiando solo estas nuevas variables. Esto simplifica las cosas hasta el punto de que incluso una computadora relativamente débil, como un teléfono inteligente, está a la altura. Si LLM se puede ejecutar en el dispositivo del usuario en lugar del centro de datos gigante actual, puede brindar una mayor personalización y una mejor protección de la privacidad.

Mientras tanto, un equipo de Google ofrece nuevas opciones para aquellos que pueden vivir con modelos más pequeños. Este enfoque se centra en extraer conocimiento específico de un gran modelo general y transformarlo en un modelo más pequeño y especializado. El modelo grande actúa como maestro y el modelo pequeño actúa como alumno. Los investigadores hicieron que los maestros respondieran preguntas y demostraran su razonamiento. Tanto las respuestas como las inferencias del modelo del maestro (modelo grande) se utilizan para entrenar el modelo del estudiante (modelo pequeño). El equipo entrenó con éxito un modelo de estudiante con solo 7700 millones de parámetros (el modelo pequeño) para superar a su modelo docente con 540 mil millones de parámetros (el modelo grande) en tareas de inferencia específicas.

Otro enfoque es cambiar la forma en que se construye el modelo en lugar de centrarse en lo que está haciendo el modelo. La mayoría de los modelos de IA se desarrollan en el lenguaje Python. Está diseñado para ser fácil de usar, liberando al programador de tener que pensar en cómo el programa opera el chip mientras se ejecuta. El precio de enmascarar estos detalles es que el código se ejecuta más lento. Prestar más atención a estos detalles de implementación puede generar grandes dividendos. Como dice Thomas Wolf, director científico de la empresa de inteligencia artificial de código abierto Hugging Face, este es "un aspecto importante de la investigación actual en inteligencia artificial".

código optimizado

Por ejemplo, en 2022, los investigadores de la Universidad de Stanford lanzaron una versión mejorada del "algoritmo de atención" que permite que los modelos de lenguaje grandes (LLM) aprendan las conexiones entre palabras y conceptos. La idea es modificar el código para tener en cuenta lo que sucede en el chip en el que se ejecuta, en particular para realizar un seguimiento de cuándo se debe recuperar o almacenar información específica. Su algoritmo logró triplicar la velocidad de entrenamiento de GPT-2, uno de los primeros modelos de lenguaje grande, y también mejoró su capacidad para manejar consultas más largas.

El código más limpio también se puede lograr con mejores herramientas. A principios de este año, Meta lanzó una nueva versión de su marco de programación de IA, PyTorch. Al hacer que los programadores piensen más en cómo organizar los cálculos en chips reales, se puede duplicar la velocidad a la que se pueden entrenar los modelos al agregar una sola línea de código. Modular, una startup fundada por exingenieros de Apple y Google, lanzó el mes pasado un nuevo lenguaje de programación centrado en IA llamado Mojo, basado en Python. Mojo brinda a los programadores control sobre todos los detalles que solían estar protegidos y, en algunos casos, el código escrito con Mojo puede ejecutarse miles de veces más rápido que un bloque de código equivalente escrito en Python.

La última opción es mejorar el chip que ejecuta el código. Aunque originalmente se diseñaron para manejar los gráficos complejos que se encuentran en los videojuegos modernos, las GPU son sorprendentemente buenas para ejecutar modelos de IA. Un investigador de hardware de Meta dijo que para la "inferencia" (es decir, la ejecución real de un modelo después de haberlo entrenado), las GPU no están diseñadas a la perfección. Como resultado, algunas empresas están diseñando su propio hardware más especializado. Google ya ejecuta la mayoría de sus proyectos de inteligencia artificial en sus chips "TPU" internos. Meta, con su chip MTIA, y Amazon, con su chip Inferentia, están intentando algo similar.

Puede ser sorprendente que, a veces, cambios simples como redondear números o cambiar de lenguaje de programación puedan generar grandes ganancias de rendimiento. Pero esto refleja el rápido desarrollo de los modelos de lenguaje grande (LLM). Durante muchos años, los modelos de lenguajes grandes fueron principalmente un proyecto de investigación, y el enfoque se centró principalmente en lograr que funcionaran y produjeran resultados válidos, en lugar de la elegancia de su diseño. Solo recientemente se han convertido en productos comerciales para el mercado masivo. La mayoría de los expertos están de acuerdo en que hay mucho margen de mejora. Como dijo Chris Manning, científico informático de la Universidad de Stanford: “No hay razón para creer que la arquitectura neuronal utilizada actualmente (refiriéndose a la estructura de la red neuronal actual) es óptima, y no se descarta que aparezcan arquitecturas más avanzadas. en el futuro."

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)