Якщо ШІ хоче стати кращим, йому доведеться робити більше з меншими ресурсами.
Говорячи про «великі мовні моделі» (LLM), такі як GPT (Generative Pre-trained Transformer) від OpenAI — основну силу популярних чат-ботів у Сполучених Штатах — назва говорить сама за себе. Такі сучасні системи штучного інтелекту базуються на величезних штучних нейронних мережах, які багато в чому імітують роботу біологічного мозку. GPT-3, випущений у 2020 році, є великою мовною моделлю гіганта зі 175 мільярдами «параметрів», що є назвою для змодельованих зв’язків між нейронами. GPT-3 навчається шляхом обробки трильйонів слів тексту за кілька тижнів за допомогою тисяч графічних процесорів, що підтримують штучний інтелект, за оціночною вартістю понад 4,6 мільйона доларів.
Однак у сучасних дослідженнях штучного інтелекту консенсус такий: «що більше, то краще, а що більше, то краще». Таким чином, швидкість зростання масштабу моделі була в швидкому розвитку. Випущений у березні GPT-4, за оцінками, має близько 1 трильйона параметрів — майже в шість разів більше, ніж у попереднього покоління. За оцінками генерального директора OpenAI Сема Альтмана, його розробка коштувала понад 100 мільйонів доларів. І в галузі в цілому спостерігається така ж тенденція. Дослідницька компанія Epoch AI прогнозує, що у 2022 році обчислювальна потужність, необхідна для навчання топ-моделей, подвоюватиметься кожні шість-десять місяців (див. графік нижче).
Постійно зростаючий розмір параметрів моделі ШІ створює деякі проблеми. Якщо прогнози Epoch AI правильні, а витрати на навчання подвоюються кожні десять місяців, витрати на навчання можуть перевищити мільярд доларів до 2026 року — і це лише за умови, що дані не будуть вичерпані спочатку. Аналіз у жовтні 2022 року передбачив, що високоякісний текст, який використовується для навчання, може бути вичерпаний за той самий проміжок часу. Крім того, навіть після завершення підготовки моделі фактична вартість експлуатації великої моделі може бути непомірно високою.
Раніше цього року Morgan Stanley підрахував, що якби половина пошукових запитів Google оброблялася поточними програмами типу GPT, це могло б коштувати компанії додаткових 6 мільярдів доларів на рік. Це число, ймовірно, продовжуватиме зростати зі збільшенням розміру моделі.
Як наслідок, думка багатьох людей про те, що моделі штучного інтелекту «великі, тим краще», більше не є актуальною. Якщо вони збираються продовжувати вдосконалювати моделі штучного інтелекту (не кажучи вже про реалізацію цих грандіозних мрій штучного інтелекту), розробникам потрібно з’ясувати, як отримати кращу продуктивність з обмеженими ресурсами. Як сказав пан Альтман у квітні цього року, оглядаючись на історію великомасштабного штучного інтелекту: «Я думаю, що ми досягли кінця цілої ери».
Кількісний хрускіт
Натомість дослідники почали зосереджуватися на тому, як підвищити ефективність моделі, а не просто на гонитві за масштабом. Одним із способів є досягнення компромісу шляхом зменшення кількості параметрів, але використання більшої кількості даних для навчання моделі. У 2022 році підрозділ Google DeepMind навчив LLM із 70 мільярдами параметрів під назвою Chinchilla на корпусі з 1,4 трильйона слів. Незважаючи на те, що вона має менше параметрів, ніж 175 мільярдів GPT-3, і навчальні дані лише 300 мільярдів слів, ця модель перевершує GPT-3. Наповнення меншого LLM більшою кількістю даних означає, що навчання займає більше часу, але результатом є менша, швидша та дешевша модель.
Інший варіант — дозволити зменшити точність чисел з плаваючою комою. Зменшення кількості цифр точності в кожному числі в моделі, тобто округлення, може різко знизити вимоги до апаратного забезпечення. У березні дослідники з Австрійського науково-технічного інституту продемонстрували, що округлення може значно зменшити споживання пам’яті моделлю, схожою на GPT-3, дозволяючи моделі працювати на одному графічному процесорі високого класу замість п’яти з «незначною втратою точності». " ".
Деякі користувачі налаштовують LLM загального призначення, щоб зосередитися на конкретних завданнях, таких як створення юридичних документів або виявлення фейкових новин. Хоча це не так складно, як підготовка LLM вперше, це все одно може бути дорогим і трудомістким. Для точного налаштування моделі LLaMA з відкритим вихідним кодом і 65 мільярдами параметрів Meta (материнської компанії Facebook) були потрібні кілька графічних процесорів і це тривало від годин до днів.
Дослідники з Університету Вашингтона винайшли більш ефективний спосіб створити нову модель Guanaco від LLaMA на одному GPU за день із незначною втратою продуктивності. Частиною трюку є техніка округлення, подібна до тієї, яку використовували австрійські дослідники. Але вони також використовували техніку під назвою Low-Rank Adaptation (LoRA), яка передбачає фіксацію існуючих параметрів моделі, а потім додавання до неї нового, меншого набору параметрів. Точне налаштування виконується шляхом зміни лише цих нових змінних. Це настільки спрощує роботу, що навіть порівняно слабкий комп’ютер, наприклад смартфон, справляється із завданням. Якщо LLM можна запустити на пристрої користувача замість поточного гігантського центру обробки даних, це може принести більшу персоналізацію та кращий захист конфіденційності.
Тим часом команда Google пропонує нові варіанти для тих, хто може жити з меншими моделями. Цей підхід зосереджений на видобутку конкретних знань із великої загальної моделі та перетворенні її в меншу спеціалізовану модель. Велика модель виступає в ролі вчителя, а маленька модель виступає в ролі учня. Дослідники мали вчителів відповісти на запитання та продемонструвати свої міркування. Як відповіді, так і умовиводи з моделі вчителя (велика модель) використовуються для навчання моделі учня (мала модель). Команда успішно навчила модель учня лише з 7,7 мільярда параметрів (мала модель), щоб перевершити свою модель вчителя з 540 мільярдами параметрів (велика модель) у конкретних завданнях логічного висновку.
Інший підхід полягає в тому, щоб змінити спосіб побудови моделі замість того, щоб зосереджуватися на тому, що робить модель. Більшість моделей ШІ розроблено на мові Python. Він розроблений таким чином, щоб бути простим у використанні, звільняючи програміста від необхідності думати про те, як програма працює з мікросхемою під час її роботи. Ціна маскування цих деталей полягає в тому, що код працює повільніше. Більша увага до цих деталей впровадження може принести величезні дивіденди. За словами Томаса Вольфа, головного наукового співробітника компанії Hugging Face з відкритим вихідним кодом, це «важливий аспект поточних досліджень штучного інтелекту».
оптимізований код
Наприклад, у 2022 році дослідники Стенфордського університету випустили вдосконалену версію «алгоритму уваги», який дозволяє великим мовним моделям (LLM) вивчати зв’язки між словами та поняттями. Ідея полягає в тому, щоб змінити код, щоб врахувати те, що відбувається на чіпі, на якому він працює, зокрема, щоб відстежувати, коли певну інформацію потрібно отримати або зберегти. Їхньому алгоритму вдалося потроїти швидкість навчання GPT-2, ранньої моделі великої мови, а також розширити її здатність обробляти довші запити.
Чистіший код також можна досягти за допомогою кращих інструментів. На початку цього року Meta випустила нову версію своєї системи програмування ШІ PyTorch. Змусивши програмістів більше думати про те, як організувати обчислення на реальних мікросхемах, це може подвоїти швидкість, з якою можна навчати моделі, додавши один рядок коду. Modular, стартап, заснований колишніми інженерами Apple і Google, минулого місяця випустив нову орієнтовану на ШІ мову програмування під назвою Mojo, засновану на Python. Mojo дає програмістам контроль над усіма деталями, які раніше були захищеними, і в деяких випадках код, написаний за допомогою Mojo, може працювати в тисячі разів швидше, ніж еквівалентний блок коду, написаний на Python.
Останній варіант — покращити мікросхему, яка запускає код. Незважаючи на те, що вони спочатку були розроблені для роботи зі складною графікою, яку можна знайти в сучасних відеоіграх, графічні процесори напрочуд добре справляються з моделями ШІ. Дослідник апаратного забезпечення в Meta сказав, що для «виводу» (тобто фактичного виконання моделі після її навчання) графічні процесори розроблені не ідеально. У результаті деякі компанії розробляють власне більш спеціалізоване обладнання. Google вже запускає більшість своїх проектів штучного інтелекту на власних мікросхемах TPU. Meta з чіпом MTIA і Amazon з чіпом Inferentia намагаються щось подібне.
Може бути дивно, що іноді такі прості зміни, як округлення чисел або перемикання мов програмування, можуть дати величезний приріст продуктивності. Але це відображає швидкий розвиток великих мовних моделей (LLM). Протягом багатьох років великі мовні моделі були в першу чергу дослідницьким проектом, і основна увага зосереджувалася на тому, щоб змусити їх працювати та отримувати достовірні результати, а не на елегантності їх дизайну. Лише нещодавно їх перетворили на комерційні, масові продукти. Більшість експертів погоджуються, що є багато можливостей для вдосконалення. Як сказав Кріс Меннінг, комп’ютерний вчений зі Стенфордського університету: «Немає жодних підстав вважати, що використовувана зараз нейронна архітектура (мається на увазі поточна структура нейронної мережі) є оптимальною, і не виключено, що з’являться більш просунуті архітектури. в майбутньому."
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Точка зору моделі штучного інтелекту «велике — краще» більше не працює
Автор | Перекладач The Economist |
Відповідальний редактор | Ся Мен
Список | CSDN (ID: CSDNnews)
Якщо ШІ хоче стати кращим, йому доведеться робити більше з меншими ресурсами.
Говорячи про «великі мовні моделі» (LLM), такі як GPT (Generative Pre-trained Transformer) від OpenAI — основну силу популярних чат-ботів у Сполучених Штатах — назва говорить сама за себе. Такі сучасні системи штучного інтелекту базуються на величезних штучних нейронних мережах, які багато в чому імітують роботу біологічного мозку. GPT-3, випущений у 2020 році, є великою мовною моделлю гіганта зі 175 мільярдами «параметрів», що є назвою для змодельованих зв’язків між нейронами. GPT-3 навчається шляхом обробки трильйонів слів тексту за кілька тижнів за допомогою тисяч графічних процесорів, що підтримують штучний інтелект, за оціночною вартістю понад 4,6 мільйона доларів.
Однак у сучасних дослідженнях штучного інтелекту консенсус такий: «що більше, то краще, а що більше, то краще». Таким чином, швидкість зростання масштабу моделі була в швидкому розвитку. Випущений у березні GPT-4, за оцінками, має близько 1 трильйона параметрів — майже в шість разів більше, ніж у попереднього покоління. За оцінками генерального директора OpenAI Сема Альтмана, його розробка коштувала понад 100 мільйонів доларів. І в галузі в цілому спостерігається така ж тенденція. Дослідницька компанія Epoch AI прогнозує, що у 2022 році обчислювальна потужність, необхідна для навчання топ-моделей, подвоюватиметься кожні шість-десять місяців (див. графік нижче).
Раніше цього року Morgan Stanley підрахував, що якби половина пошукових запитів Google оброблялася поточними програмами типу GPT, це могло б коштувати компанії додаткових 6 мільярдів доларів на рік. Це число, ймовірно, продовжуватиме зростати зі збільшенням розміру моделі.
Як наслідок, думка багатьох людей про те, що моделі штучного інтелекту «великі, тим краще», більше не є актуальною. Якщо вони збираються продовжувати вдосконалювати моделі штучного інтелекту (не кажучи вже про реалізацію цих грандіозних мрій штучного інтелекту), розробникам потрібно з’ясувати, як отримати кращу продуктивність з обмеженими ресурсами. Як сказав пан Альтман у квітні цього року, оглядаючись на історію великомасштабного штучного інтелекту: «Я думаю, що ми досягли кінця цілої ери».
Кількісний хрускіт
Натомість дослідники почали зосереджуватися на тому, як підвищити ефективність моделі, а не просто на гонитві за масштабом. Одним із способів є досягнення компромісу шляхом зменшення кількості параметрів, але використання більшої кількості даних для навчання моделі. У 2022 році підрозділ Google DeepMind навчив LLM із 70 мільярдами параметрів під назвою Chinchilla на корпусі з 1,4 трильйона слів. Незважаючи на те, що вона має менше параметрів, ніж 175 мільярдів GPT-3, і навчальні дані лише 300 мільярдів слів, ця модель перевершує GPT-3. Наповнення меншого LLM більшою кількістю даних означає, що навчання займає більше часу, але результатом є менша, швидша та дешевша модель.
Інший варіант — дозволити зменшити точність чисел з плаваючою комою. Зменшення кількості цифр точності в кожному числі в моделі, тобто округлення, може різко знизити вимоги до апаратного забезпечення. У березні дослідники з Австрійського науково-технічного інституту продемонстрували, що округлення може значно зменшити споживання пам’яті моделлю, схожою на GPT-3, дозволяючи моделі працювати на одному графічному процесорі високого класу замість п’яти з «незначною втратою точності». " ".
Деякі користувачі налаштовують LLM загального призначення, щоб зосередитися на конкретних завданнях, таких як створення юридичних документів або виявлення фейкових новин. Хоча це не так складно, як підготовка LLM вперше, це все одно може бути дорогим і трудомістким. Для точного налаштування моделі LLaMA з відкритим вихідним кодом і 65 мільярдами параметрів Meta (материнської компанії Facebook) були потрібні кілька графічних процесорів і це тривало від годин до днів.
Дослідники з Університету Вашингтона винайшли більш ефективний спосіб створити нову модель Guanaco від LLaMA на одному GPU за день із незначною втратою продуктивності. Частиною трюку є техніка округлення, подібна до тієї, яку використовували австрійські дослідники. Але вони також використовували техніку під назвою Low-Rank Adaptation (LoRA), яка передбачає фіксацію існуючих параметрів моделі, а потім додавання до неї нового, меншого набору параметрів. Точне налаштування виконується шляхом зміни лише цих нових змінних. Це настільки спрощує роботу, що навіть порівняно слабкий комп’ютер, наприклад смартфон, справляється із завданням. Якщо LLM можна запустити на пристрої користувача замість поточного гігантського центру обробки даних, це може принести більшу персоналізацію та кращий захист конфіденційності.
Тим часом команда Google пропонує нові варіанти для тих, хто може жити з меншими моделями. Цей підхід зосереджений на видобутку конкретних знань із великої загальної моделі та перетворенні її в меншу спеціалізовану модель. Велика модель виступає в ролі вчителя, а маленька модель виступає в ролі учня. Дослідники мали вчителів відповісти на запитання та продемонструвати свої міркування. Як відповіді, так і умовиводи з моделі вчителя (велика модель) використовуються для навчання моделі учня (мала модель). Команда успішно навчила модель учня лише з 7,7 мільярда параметрів (мала модель), щоб перевершити свою модель вчителя з 540 мільярдами параметрів (велика модель) у конкретних завданнях логічного висновку.
Інший підхід полягає в тому, щоб змінити спосіб побудови моделі замість того, щоб зосереджуватися на тому, що робить модель. Більшість моделей ШІ розроблено на мові Python. Він розроблений таким чином, щоб бути простим у використанні, звільняючи програміста від необхідності думати про те, як програма працює з мікросхемою під час її роботи. Ціна маскування цих деталей полягає в тому, що код працює повільніше. Більша увага до цих деталей впровадження може принести величезні дивіденди. За словами Томаса Вольфа, головного наукового співробітника компанії Hugging Face з відкритим вихідним кодом, це «важливий аспект поточних досліджень штучного інтелекту».
оптимізований код
Наприклад, у 2022 році дослідники Стенфордського університету випустили вдосконалену версію «алгоритму уваги», який дозволяє великим мовним моделям (LLM) вивчати зв’язки між словами та поняттями. Ідея полягає в тому, щоб змінити код, щоб врахувати те, що відбувається на чіпі, на якому він працює, зокрема, щоб відстежувати, коли певну інформацію потрібно отримати або зберегти. Їхньому алгоритму вдалося потроїти швидкість навчання GPT-2, ранньої моделі великої мови, а також розширити її здатність обробляти довші запити.
Чистіший код також можна досягти за допомогою кращих інструментів. На початку цього року Meta випустила нову версію своєї системи програмування ШІ PyTorch. Змусивши програмістів більше думати про те, як організувати обчислення на реальних мікросхемах, це може подвоїти швидкість, з якою можна навчати моделі, додавши один рядок коду. Modular, стартап, заснований колишніми інженерами Apple і Google, минулого місяця випустив нову орієнтовану на ШІ мову програмування під назвою Mojo, засновану на Python. Mojo дає програмістам контроль над усіма деталями, які раніше були захищеними, і в деяких випадках код, написаний за допомогою Mojo, може працювати в тисячі разів швидше, ніж еквівалентний блок коду, написаний на Python.
Останній варіант — покращити мікросхему, яка запускає код. Незважаючи на те, що вони спочатку були розроблені для роботи зі складною графікою, яку можна знайти в сучасних відеоіграх, графічні процесори напрочуд добре справляються з моделями ШІ. Дослідник апаратного забезпечення в Meta сказав, що для «виводу» (тобто фактичного виконання моделі після її навчання) графічні процесори розроблені не ідеально. У результаті деякі компанії розробляють власне більш спеціалізоване обладнання. Google вже запускає більшість своїх проектів штучного інтелекту на власних мікросхемах TPU. Meta з чіпом MTIA і Amazon з чіпом Inferentia намагаються щось подібне.
Може бути дивно, що іноді такі прості зміни, як округлення чисел або перемикання мов програмування, можуть дати величезний приріст продуктивності. Але це відображає швидкий розвиток великих мовних моделей (LLM). Протягом багатьох років великі мовні моделі були в першу чергу дослідницьким проектом, і основна увага зосереджувалася на тому, щоб змусити їх працювати та отримувати достовірні результати, а не на елегантності їх дизайну. Лише нещодавно їх перетворили на комерційні, масові продукти. Більшість експертів погоджуються, що є багато можливостей для вдосконалення. Як сказав Кріс Меннінг, комп’ютерний вчений зі Стенфордського університету: «Немає жодних підстав вважати, що використовувана зараз нейронна архітектура (мається на увазі поточна структура нейронної мережі) є оптимальною, і не виключено, що з’являться більш просунуті архітектури. в майбутньому."