Ян Лікунь: покладатися лише на LLM для досягнення AGI — це нонсенс, у майбутньому AI потрібна світова модель JEPA (тисячослівне інтерв'ю на GTC конференції)

2025-04-19 06:02:58

У цій статті зібрано дослівну стенограму публічної розмови між Янном Лекуном, головним науковим співробітником Meta зі штучного інтелекту та лауреатом премії Тюрінга, та головним науковим співробітником NVIDIA Біллом Даллі. Лекун пояснює, чому, на його думку, великі мовні моделі (LLM) ніколи не зможуть по-справжньому реалізувати AGI. (Синопсис: OpenAI випускає o3 і o4-mini Найсильніші моделі висновків: можуть думати про картинки, автоматично вибирати інструменти та робити прориви в математиці та продуктивності кодування) (Довідкове доповнення: OpenAI таємно створює власну «власну платформу спільноти», вказуючи на X Маска) Коли великі мовні моделі (LLM) прискорюють сприйняття штучного інтелекту у світі, Янн ЛеКун, відомий як батько згорткових нейронних мереж, а нині головний науковий співробітник зі штучного інтелекту в Meta, нещодавно несподівано сказав, що його інтерес до LLM згас, і він навіть вважає, що він близький до вузького місця розробки LLM. У поглибленій бесіді з головним науковим співробітником NVIDIA Біллом Даллі минулого місяця Лекун докладно розповів про своє унікальне розуміння майбутнього напрямку штучного інтелекту, підкресливши, що розуміння фізичного світу, тривала пам'ять, можливості міркувань і планування, а також важливість екосистеми з відкритим вихідним кодом є ключем до лідерства в наступній хвилі революції штучного інтелекту. Білл Даллі: Янн, за останній рік у сфері штучного інтелекту сталося багато цікавого. Що, на вашу думку, було найцікавішим за минулий рік? Янн Лекун: Занадто багато, щоб порахувати, але дозвольте мені сказати вам одну річ, яка може здивувати декого з вас. Мене більше не цікавлять великі мовні моделі (LLM). LLM вже знаходяться в хвості, вони знаходяться в руках людей з продукту в галузі, але вони вдосконалюються на маргінальному рівні, намагаючись отримати більше даних, більше обчислювальної потужності, генерувати синтетичні дані. Я думаю, що є більш цікаві проблеми в чотирьох областях: як змусити машини розуміти фізичний світ, як зробити так, щоб у них була тривала пам'ять, про яку мало говорять, і останні дві - як змусити їх міркувати і планувати. Звичайно, були зроблені певні зусилля, щоб змусити LLM робити міркування, але, на мою думку, це дуже спрощений погляд на міркування. Я думаю, що для цього може бути кращий спосіб. Отже, я в захваті від речей, які можуть бути в захваті від багатьох людей у технічній спільноті лише через п'ять років. Але зараз вони виглядають менш захоплююче, тому що це якісь незрозумілі наукові роботи. Розуміння моделі світу та фізичного світу Білл Даллі: Але що було б, якби LLM не міркував про фізичний світ, не мав постійної пам'яті та планування? Якою буде базова модель? Янн Лекун: Отже, багато людей працюють над світовою моделлю. Що таке модель світу? У кожного з нас в голові є моделі світу. По суті, це те, що дозволяє нам маніпулювати своєю свідомістю. У нас є модель сучасного світу. Ви знаєте, якщо я штовхну цю пляшку зверху, вона, швидше за все, перекинеться, але якщо я штовхну її знизу, вона ковзає. Якщо натиснути занадто сильно, він може лопнути. Скріншот інтерв'ю Янна Лекуна У нас є моделі фізичного світу, які ми набуваємо в перші місяці нашого життя, що дозволяє нам справлятися з реальним світом. Впоратися з реальним світом набагато складніше, ніж з мовою. Нам потрібна системна архітектура, яка дійсно може працювати з реальними системами, які повністю відрізняються від того, з чим ми маємо справу зараз. LLM прогнозує токени, але токени можуть бути будь-якими. Наша модель безпілотного автомобіля використовує жетони датчиків і генерує токени, які керують автомобілем. У певному сенсі це міркування про фізичний світ, принаймні про те, де безпечно їздити і де ви не вдаряєтеся об стовп. Білл Даллі: Чому токен не є правильним способом представлення фізичного світу? Янн Лекун: Токени дискретні. Коли ми говоримо про токени, ми зазвичай маємо на увазі кінцевий набір можливостей. У типовому LLM кількість можливих токенів становить близько 100 000. Коли ви навчаєте систему передбачати токени, ви ніколи не зможете навчити її точно передбачати наступні токени в послідовності тексту. Ви можете згенерувати розподіл ймовірностей для всіх можливих лексем у своєму словнику, який є просто довгим вектором зі 100 000 чисел від нуля до одиниці з сумою одиниці. Ми знаємо, як це зробити, але ми не знаємо, що робити з плівкою, з цими високовимірними, безперервними органічними даними. Будь-яка спроба змусити систему зрозуміти світ або побудувати ментальну модель світу, навчаючи її передбачати фільми піксельного рівня, в основному зазнавала невдачі. Навіть навчити систему, що нагадує якусь нейронну мережу, навчитися хорошому представленню зображення, не вдається реконструювати зображення з пошкодженої або перетвореної версії. Вони трохи працюють, але не так добре, як альтернативні архітектури, які ми називаємо спільним вбудовуванням, яке в основному не намагається перебудуватися на піксельному рівні. Вони намагаються навчитися навчати абстрактне представлення зображення, фільму або природного сигналу, щоб ви могли робити прогнози в цьому абстрактному просторі представлення. Янн Лекун: Я часто використовую приклад: якщо я знімаю відео цієї кімнати, переміщую камеру і зупиняюся тут, а потім прошу систему передбачити, що буде далі в цьому фільмі, вона може передбачити, що це кімната, в якій сидять люди, і так далі. Він не може передбачити, як буде виглядати кожен з вас. Це абсолютно непередбачувано з початкових кадрів фільму. У світі є багато речей, які просто непередбачувані. Якщо ви навчите систему робити прогнози на рівні пікселів, вона витратить усі свої ресурси, намагаючись з'ясувати деталі, які вона просто не може вигадати. Це повна трата ресурсів. Щоразу, коли ми намагалися, а я працюю над цим протягом 20 років, використання системи навчання з самоконтролем шляхом прогнозування відео не працює. Він дійсний лише в тому випадку, якщо це зроблено на рівні презентації. Це означає, що ці схеми не є генеративними. Білл Даллі: Якщо ви кажете, що трансформатори не мають такої здатності, але люди мають трансформатори зору і отримують чудові результати. Янн Лекун: Я не мав на увазі цього, тому що для цього можна використовувати трансформатор. У ці архітектури можна поставити трансформери. Просто така архітектура, про яку я говорю, називається спільне вбудовування предиктивної архітектури. Отже, візьміть фільм, зображення або щось інше, пропустіть його через кодувальник, ви отримаєте представлення, а потім візьміть наступні частини цієї перетвореної версії цього тексту, фільму або зображення, а також пропустіть його через кодувальник, а тепер спробуйте зробити передбачення в цьому просторі представлення, а не у просторі введення. Ви можете використовувати той самий метод навчання, який полягає у заповненні пропусків, але ви робите це в цьому латентному просторі, а не у вихідному представленні. Янн ЛеКун: Складність полягає в тому, що якщо ви не будете обережні і не використовуєте розумні технології, система вийде з ладу. Він повністю ігнорує вхідні дані, виробляючи лише постійну, неіснуючу кількість вхідної інформації.

AGI0.26%

GTC-13.89%

O3-3.27%

Переглянути оригінал

Контент має виключно довідковий характер і не є запрошенням до участі або пропозицією. Інвестиційні, податкові чи юридичні консультації не надаються. Перегляньте Відмову від відповідальності , щоб дізнатися більше про ризики.

1 лайків