Yang Likun: Depender solo de LLM para lograr AGI es una tontería, el futuro de la IA necesita un modelo mundial JEPA (entrevista de diez mil palabras en la conferencia GTC)
Este artículo recopila una transcripción literal de una conversación pública entre Yann LeCun, científico jefe de IA de Meta y ganador del Premio Turing, y el científico jefe de NVIDIA, Bill Dally. LeCun explica por qué cree que los grandes modelos de lenguaje (LLM) nunca pueden implementar realmente AGI. (Sinopsis: OpenAI lanza o3 y o4-mini Los modelos de inferencia más sólidos: puede pensar en imágenes, seleccionar herramientas automáticamente y hacer avances en matemáticas y rendimiento de codificación) (Suplemento de antecedentes: OpenAI crea en secreto su propia "propia plataforma comunitaria", apuntando a la X de Musk) Cuando los grandes modelos de lenguaje (LLM) están acelerando la adopción de la IA en el mundo, Yann LeCun, conocido como el padre de las redes neuronales convolucionales y ahora científico jefe de IA en Meta, dijo recientemente sorprendentemente que su interés en LLM ha disminuido, e incluso cree que está cerca del cuello de botella del desarrollo de LLM. En una conversación en profundidad con el científico jefe de NVIDIA, Bill Dally, el mes pasado, LeCun detalló sus conocimientos únicos sobre la dirección futura de la IA, enfatizando que comprender el mundo físico, la memoria duradera, las capacidades de razonamiento y planificación, y la importancia del ecosistema de código abierto es la clave para liderar la próxima ola de revolución de la IA. Bill Dally: Yann, han sucedido muchas cosas interesantes en el espacio de la IA durante el último año. En su opinión, ¿cuál ha sido el desarrollo más emocionante del año pasado? Yann LeCun: Demasiados para contarlos, pero déjenme decirles una cosa que podría sorprender a algunos de ustedes. Ya no estoy tan interesado en los modelos de lenguaje grandes (LLM). Los LLM ya están en la cola, están en manos de la gente de producto de la industria, pero están mejorando a nivel marginal, tratando de obtener más datos, más poder de cómputo, generar datos sintéticos. Creo que hay problemas más interesantes en cuatro áreas: cómo hacer que las máquinas entiendan el mundo físico, cómo hacer que tengan una memoria duradera, de la que no se habla mucho, y los dos últimos son cómo hacer que razonen y planifiquen. Por supuesto, ha habido algunos esfuerzos para que LLM haga razonamiento, pero en mi opinión esta es una forma muy simplificada de ver el razonamiento. Creo que podría haber una mejor manera de hacerlo. Por lo tanto, estoy entusiasmado con cosas que a mucha gente de la comunidad tecnológica no le entusiasmarán hasta dentro de cinco años. Pero ahora, parecen menos emocionantes porque son algunos artículos académicos oscuros. Entendiendo el Modelo del Mundo y el Mundo Físico Bill Dally: Pero, ¿qué sería si LLM no estuviera razonando sobre el mundo físico, teniendo una memoria persistente y planificando? ¿Cuál será el modelo subyacente? Yann LeCun: Mucha gente está trabajando en el modelo del mundo. ¿Qué es un modelo mundial? Todos tenemos modelos del mundo en nuestras cabezas. Es básicamente algo que nos permite manipular nuestras mentes. Tenemos un modelo del mundo actual. Sabes que si empujo esta botella desde arriba, es probable que se vuelque, pero si la empujo desde abajo, se desliza. Si presiono demasiado, puede reventar. Captura de pantalla de la entrevista a Yann LeCun Tenemos modelos del mundo físico, que adquirimos en los primeros meses de nuestras vidas, lo que nos permite hacer frente al mundo real. Lidiar con el mundo real es mucho más difícil que lidiar con el lenguaje. Necesitamos una arquitectura de sistema que realmente pueda manejar sistemas del mundo real que son completamente diferentes de los que manejamos actualmente. El LLM predice tokens, pero los tokens pueden ser cualquier cosa. Nuestro modelo de coche autónomo utiliza tokens de sensores y genera tokens que impulsan el vehículo. En cierto sentido, es un razonamiento sobre el mundo físico, al menos sobre dónde es seguro conducir y dónde no chocar contra un pilar. Bill Dally: ¿Por qué el token no es la forma correcta de representar el mundo físico? Yann LeCun: Los tokens son discretos. Cuando hablamos de tokens, generalmente nos referimos a un conjunto finito de posibilidades. En un LLM típico, el número de tokens posibles es de alrededor de 100.000. Cuando se entrena un sistema para predecir tokens, nunca se puede entrenar para predecir exactamente los siguientes tokens en una secuencia de texto. Puedes generar una distribución de probabilidad sobre todos los tokens posibles en tu diccionario, que no es más que un vector largo de 100.000 números entre cero y uno con una suma de uno. Sabemos cómo hacerlo, pero no sabemos qué hacer con la película, con esos datos orgánicos continuos y de alta dimensión. Todos los intentos de conseguir que un sistema entienda el mundo o construya un modelo mental del mundo, entrenándolo para predecir películas a nivel de píxel, ha fracasado en gran medida. Incluso entrenar un sistema que se asemeja a algún tipo de red neuronal para aprender una buena representación de una imagen falla al reconstruir la imagen a partir de una versión dañada o convertida. Funcionan un poco, pero no tan bien como las arquitecturas alternativas que llamamos joint embedding, que básicamente no intenta reconstruir a nivel de píxel. Intentan aprender una representación abstracta de una imagen, película o señal natural que se está entrenando para que pueda hacer predicciones en ese espacio de representación abstracta. Yann LeCun: El ejemplo que utilizo mucho es que si grabo un video de esta habitación, muevo la cámara y me detengo aquí, y luego le pido al sistema que prediga lo que sigue a esa película, podría predecir que esta es una habitación con personas sentadas en ella y así sucesivamente. No puede predecir cómo se verá cada uno de ustedes. Esto es completamente impredecible desde el metraje inicial de la película. Hay muchas cosas en el mundo que son simplemente impredecibles. Si entrenas a un sistema para que haga predicciones a nivel de píxel, gastará todos sus recursos tratando de averiguar detalles que simplemente no puede inventar. Esto es un completo desperdicio de recursos. Cada vez que lo hemos intentado, y he estado trabajando en esto durante 20 años, usar un sistema de entrenamiento de aprendizaje autosupervisado mediante la predicción de videos no funciona. Solo es válido si se hace a nivel de presentación. Esto significa que esos esquemas no son generativos. Bill Dally: Si básicamente estás diciendo que los transformadores no tienen esa capacidad, pero la gente tiene transformadores de visión y obtiene excelentes resultados. Yann LeCun: No quise decir eso, porque puedes usar un transformador para eso. Puedes poner transformadores en esas arquitecturas. Es solo que el tipo de arquitectura de la que estoy hablando se llama arquitectura predictiva de incrustación conjunta. Entonces, toma una película o una imagen o lo que sea, pásala a través de un codificador, obtienes una representación, y luego toma las partes subsiguientes de esa versión convertida de ese texto, película o imagen, y también pásala a través de un codificador, y ahora trata de hacer predicciones en ese espacio de representación, no en el espacio de entrada. Puedes usar el mismo método de entrenamiento, que es rellenar los espacios en blanco, pero lo haces en este espacio latente en lugar de en la representación original. Yann LeCun: Lo difícil es que si no tienes cuidado y no usas tecnología inteligente, el sistema se bloqueará. Ignora la entrada por completo, produciendo solo una cantidad constante e inexistente de información de entrada.
El contenido es solo de referencia, no una solicitud u oferta. No se proporciona asesoramiento fiscal, legal ni de inversión. Consulte el Descargo de responsabilidad para obtener más información sobre los riesgos.
Yang Likun: Depender solo de LLM para lograr AGI es una tontería, el futuro de la IA necesita un modelo mundial JEPA (entrevista de diez mil palabras en la conferencia GTC)
Este artículo recopila una transcripción literal de una conversación pública entre Yann LeCun, científico jefe de IA de Meta y ganador del Premio Turing, y el científico jefe de NVIDIA, Bill Dally. LeCun explica por qué cree que los grandes modelos de lenguaje (LLM) nunca pueden implementar realmente AGI. (Sinopsis: OpenAI lanza o3 y o4-mini Los modelos de inferencia más sólidos: puede pensar en imágenes, seleccionar herramientas automáticamente y hacer avances en matemáticas y rendimiento de codificación) (Suplemento de antecedentes: OpenAI crea en secreto su propia "propia plataforma comunitaria", apuntando a la X de Musk) Cuando los grandes modelos de lenguaje (LLM) están acelerando la adopción de la IA en el mundo, Yann LeCun, conocido como el padre de las redes neuronales convolucionales y ahora científico jefe de IA en Meta, dijo recientemente sorprendentemente que su interés en LLM ha disminuido, e incluso cree que está cerca del cuello de botella del desarrollo de LLM. En una conversación en profundidad con el científico jefe de NVIDIA, Bill Dally, el mes pasado, LeCun detalló sus conocimientos únicos sobre la dirección futura de la IA, enfatizando que comprender el mundo físico, la memoria duradera, las capacidades de razonamiento y planificación, y la importancia del ecosistema de código abierto es la clave para liderar la próxima ola de revolución de la IA. Bill Dally: Yann, han sucedido muchas cosas interesantes en el espacio de la IA durante el último año. En su opinión, ¿cuál ha sido el desarrollo más emocionante del año pasado? Yann LeCun: Demasiados para contarlos, pero déjenme decirles una cosa que podría sorprender a algunos de ustedes. Ya no estoy tan interesado en los modelos de lenguaje grandes (LLM). Los LLM ya están en la cola, están en manos de la gente de producto de la industria, pero están mejorando a nivel marginal, tratando de obtener más datos, más poder de cómputo, generar datos sintéticos. Creo que hay problemas más interesantes en cuatro áreas: cómo hacer que las máquinas entiendan el mundo físico, cómo hacer que tengan una memoria duradera, de la que no se habla mucho, y los dos últimos son cómo hacer que razonen y planifiquen. Por supuesto, ha habido algunos esfuerzos para que LLM haga razonamiento, pero en mi opinión esta es una forma muy simplificada de ver el razonamiento. Creo que podría haber una mejor manera de hacerlo. Por lo tanto, estoy entusiasmado con cosas que a mucha gente de la comunidad tecnológica no le entusiasmarán hasta dentro de cinco años. Pero ahora, parecen menos emocionantes porque son algunos artículos académicos oscuros. Entendiendo el Modelo del Mundo y el Mundo Físico Bill Dally: Pero, ¿qué sería si LLM no estuviera razonando sobre el mundo físico, teniendo una memoria persistente y planificando? ¿Cuál será el modelo subyacente? Yann LeCun: Mucha gente está trabajando en el modelo del mundo. ¿Qué es un modelo mundial? Todos tenemos modelos del mundo en nuestras cabezas. Es básicamente algo que nos permite manipular nuestras mentes. Tenemos un modelo del mundo actual. Sabes que si empujo esta botella desde arriba, es probable que se vuelque, pero si la empujo desde abajo, se desliza. Si presiono demasiado, puede reventar. Captura de pantalla de la entrevista a Yann LeCun Tenemos modelos del mundo físico, que adquirimos en los primeros meses de nuestras vidas, lo que nos permite hacer frente al mundo real. Lidiar con el mundo real es mucho más difícil que lidiar con el lenguaje. Necesitamos una arquitectura de sistema que realmente pueda manejar sistemas del mundo real que son completamente diferentes de los que manejamos actualmente. El LLM predice tokens, pero los tokens pueden ser cualquier cosa. Nuestro modelo de coche autónomo utiliza tokens de sensores y genera tokens que impulsan el vehículo. En cierto sentido, es un razonamiento sobre el mundo físico, al menos sobre dónde es seguro conducir y dónde no chocar contra un pilar. Bill Dally: ¿Por qué el token no es la forma correcta de representar el mundo físico? Yann LeCun: Los tokens son discretos. Cuando hablamos de tokens, generalmente nos referimos a un conjunto finito de posibilidades. En un LLM típico, el número de tokens posibles es de alrededor de 100.000. Cuando se entrena un sistema para predecir tokens, nunca se puede entrenar para predecir exactamente los siguientes tokens en una secuencia de texto. Puedes generar una distribución de probabilidad sobre todos los tokens posibles en tu diccionario, que no es más que un vector largo de 100.000 números entre cero y uno con una suma de uno. Sabemos cómo hacerlo, pero no sabemos qué hacer con la película, con esos datos orgánicos continuos y de alta dimensión. Todos los intentos de conseguir que un sistema entienda el mundo o construya un modelo mental del mundo, entrenándolo para predecir películas a nivel de píxel, ha fracasado en gran medida. Incluso entrenar un sistema que se asemeja a algún tipo de red neuronal para aprender una buena representación de una imagen falla al reconstruir la imagen a partir de una versión dañada o convertida. Funcionan un poco, pero no tan bien como las arquitecturas alternativas que llamamos joint embedding, que básicamente no intenta reconstruir a nivel de píxel. Intentan aprender una representación abstracta de una imagen, película o señal natural que se está entrenando para que pueda hacer predicciones en ese espacio de representación abstracta. Yann LeCun: El ejemplo que utilizo mucho es que si grabo un video de esta habitación, muevo la cámara y me detengo aquí, y luego le pido al sistema que prediga lo que sigue a esa película, podría predecir que esta es una habitación con personas sentadas en ella y así sucesivamente. No puede predecir cómo se verá cada uno de ustedes. Esto es completamente impredecible desde el metraje inicial de la película. Hay muchas cosas en el mundo que son simplemente impredecibles. Si entrenas a un sistema para que haga predicciones a nivel de píxel, gastará todos sus recursos tratando de averiguar detalles que simplemente no puede inventar. Esto es un completo desperdicio de recursos. Cada vez que lo hemos intentado, y he estado trabajando en esto durante 20 años, usar un sistema de entrenamiento de aprendizaje autosupervisado mediante la predicción de videos no funciona. Solo es válido si se hace a nivel de presentación. Esto significa que esos esquemas no son generativos. Bill Dally: Si básicamente estás diciendo que los transformadores no tienen esa capacidad, pero la gente tiene transformadores de visión y obtiene excelentes resultados. Yann LeCun: No quise decir eso, porque puedes usar un transformador para eso. Puedes poner transformadores en esas arquitecturas. Es solo que el tipo de arquitectura de la que estoy hablando se llama arquitectura predictiva de incrustación conjunta. Entonces, toma una película o una imagen o lo que sea, pásala a través de un codificador, obtienes una representación, y luego toma las partes subsiguientes de esa versión convertida de ese texto, película o imagen, y también pásala a través de un codificador, y ahora trata de hacer predicciones en ese espacio de representación, no en el espacio de entrada. Puedes usar el mismo método de entrenamiento, que es rellenar los espacios en blanco, pero lo haces en este espacio latente en lugar de en la representación original. Yann LeCun: Lo difícil es que si no tienes cuidado y no usas tecnología inteligente, el sistema se bloqueará. Ignora la entrada por completo, produciendo solo una cantidad constante e inexistente de información de entrada.