**Може чути і бачити, надаючи моделі різні органи чуття для розуміння світу! **
Поточні великомасштабні мовні моделі, такі як ChatGPT, можуть приймати лише текст як вхідні дані.Навіть оновлена версія GPT-4 додає лише функцію введення зображень і не може обробляти інші модальні дані, такі як відео та аудіо.
Нещодавно дослідники з Кембриджського університету, Нарського передового науково-технічного інституту та Tencent спільно запропонували та розмістили відкриті вихідні коди загальних інструкцій, що йдуть за моделлю PandaGPT, яка також є першою, яка досягла шести модальностей (зображення/відео, текст, аудіо, глибина, термічне та IMU) виконують інструкції відповідно до основної моделі даних.
Папір посилання:
Код посилання:
Без явного мультимодального нагляду PandaGPT демонструє сильні мультимодальні можливості для виконання складних завдань розуміння/міркування, таких як генерація детального опису зображення, написання історій, натхненних відео, і відповідей на запитання про аудіо, або кілька раундів діалогу тощо.
Коротше кажучи, основна інновація PandaGPT полягає в тому, що він може приймати декілька модальних вхідних даних одночасно та природним чином поєднувати семантику різних модальностей, перевершуючи традиційний одномодальний аналіз, розширюючи сценарії застосування нижче за течією та наближаючись до реалізації з AGI.
Приклад
Запитання та відповіді на основі зображень:
Багатораундові відповіді на запитання на основі зображень:
Питання та відповіді на основі відео:
Творче написання на основі зображень/відео:
Візуальне мислення:
Можливості аудіороздумів:
Здатність мультимодального розуміння зображення + аудіо:
Здатність мультимодального розуміння відео + аудіо:
Мультимодальний PandaGPT
У порівнянні з моделлю штучного інтелекту, яка знаходиться в пастці комп’ютера, люди мають кілька органів чуття, щоб розуміти світ. Вони можуть бачити зображення та чути різні звуки природи; якщо машина також може вводити мультимодальну інформацію, вона може бути більш повною. .вирішувати різні проблеми.
Більшість поточних мультимодальних досліджень обмежуються однією модальністю або комбінацією тексту та інших модальностей, не маючи цілісності та взаємодоповнюваності сприйняття та розуміння мультимодального введення.
Щоб забезпечити можливість мультимодального введення PandaGPT, дослідники об’єднали мультимодальний кодер ImageBind із широкомасштабною мовною моделлю Vicuna, обидва з яких досягли дуже високої продуктивності у завданнях виконання інструкцій на основі візуальних та звукових інструкцій.
У той же час, щоб зробити простори функцій двох моделей узгодженими, дослідники використали 160 000 даних інструкцій на мові зображень із відкритим кодом для навчання PandaGPT, де кожен екземпляр навчання включає зображення та набір мульти- круглі дані діалогу, і діалог містить команди кожного користувача та відповіді системи.
Щоб зменшити кількість параметрів, які можна навчити, дослідники навчили лише представлення ImageBind, яке використовується для підключення Vicuna, і додаткові ваги LoRA на модулі уваги Vicuna.
Під час процесу навчання, виходячи з розрахункових ресурсів графічного процесора 8×A100 40G, якщо максимальна довжина послідовності Vicuna-13B встановлена на 400, навчання займає близько 7 годин.
Варто зазначити, що поточна версія PandaGPT навчається лише з вирівняними даними зображення та тексту, але використовуючи шість модальностей (зображення/відео, текст, аудіо, глибина, тепло та IMU), успадкованих у замороженому кодері ImageBind PandaGPT, демонструє нові , крос-модальні можливості нульового удару.
ліміт
Незважаючи на дивовижну здатність PandaGPT працювати з кількома модальностями та комбінаціями модальностей, є кілька способів подальшого вдосконалення PandaGPT:
Процес навчання PandaGPT може бути збагачений введенням більше даних про вирівнювання, таких як інші модальності (аудіо-текст) зіставлення з текстом
Дослідники використовують лише один вектор вбудовування для представлення модального вмісту, відмінного від тексту, і необхідні додаткові дослідження деформацій виділення дрібних ознак. Наприклад, крос-модальні механізми уваги можуть бути корисними для покращення продуктивності
PandaGPT наразі використовує лише мультимодальну інформацію як вхідні дані, а в майбутньому він може представити багатший мультимедійний вміст на стороні генерації, наприклад, генерувати зображення та текстові відповіді в аудіо.
Нові тести також необхідні для оцінки здатності комбінувати мультимодальні входи
PandaGPT також може демонструвати кілька поширених пасток існуючих мовних моделей, включаючи галюцинації, токсичність і стереотипи.
Дослідники також відзначили, що PandaGPT наразі є лише дослідницьким прототипом і не може використовуватися безпосередньо для реальних додатків.
Довідкові матеріали:
Переглянути оригінал
Контент має виключно довідковий характер і не є запрошенням до участі або пропозицією. Інвестиційні, податкові чи юридичні консультації не надаються. Перегляньте Відмову від відповідальності , щоб дізнатися більше про ризики.
Китайська команда Кембриджу розробила PandaGPT з відкритим кодом: перша масштабна базова модель, яка охопила «шість режимів»
Джерело: Xinzhiyuan
Поточні великомасштабні мовні моделі, такі як ChatGPT, можуть приймати лише текст як вхідні дані.Навіть оновлена версія GPT-4 додає лише функцію введення зображень і не може обробляти інші модальні дані, такі як відео та аудіо.
Нещодавно дослідники з Кембриджського університету, Нарського передового науково-технічного інституту та Tencent спільно запропонували та розмістили відкриті вихідні коди загальних інструкцій, що йдуть за моделлю PandaGPT, яка також є першою, яка досягла шести модальностей (зображення/відео, текст, аудіо, глибина, термічне та IMU) виконують інструкції відповідно до основної моделі даних.
Код посилання:
Без явного мультимодального нагляду PandaGPT демонструє сильні мультимодальні можливості для виконання складних завдань розуміння/міркування, таких як генерація детального опису зображення, написання історій, натхненних відео, і відповідей на запитання про аудіо, або кілька раундів діалогу тощо.
Приклад
Запитання та відповіді на основі зображень:
Мультимодальний PandaGPT
У порівнянні з моделлю штучного інтелекту, яка знаходиться в пастці комп’ютера, люди мають кілька органів чуття, щоб розуміти світ. Вони можуть бачити зображення та чути різні звуки природи; якщо машина також може вводити мультимодальну інформацію, вона може бути більш повною. .вирішувати різні проблеми.
Більшість поточних мультимодальних досліджень обмежуються однією модальністю або комбінацією тексту та інших модальностей, не маючи цілісності та взаємодоповнюваності сприйняття та розуміння мультимодального введення.
Щоб забезпечити можливість мультимодального введення PandaGPT, дослідники об’єднали мультимодальний кодер ImageBind із широкомасштабною мовною моделлю Vicuna, обидва з яких досягли дуже високої продуктивності у завданнях виконання інструкцій на основі візуальних та звукових інструкцій.
У той же час, щоб зробити простори функцій двох моделей узгодженими, дослідники використали 160 000 даних інструкцій на мові зображень із відкритим кодом для навчання PandaGPT, де кожен екземпляр навчання включає зображення та набір мульти- круглі дані діалогу, і діалог містить команди кожного користувача та відповіді системи.
Щоб зменшити кількість параметрів, які можна навчити, дослідники навчили лише представлення ImageBind, яке використовується для підключення Vicuna, і додаткові ваги LoRA на модулі уваги Vicuna.
Варто зазначити, що поточна версія PandaGPT навчається лише з вирівняними даними зображення та тексту, але використовуючи шість модальностей (зображення/відео, текст, аудіо, глибина, тепло та IMU), успадкованих у замороженому кодері ImageBind PandaGPT, демонструє нові , крос-модальні можливості нульового удару.
ліміт
Незважаючи на дивовижну здатність PandaGPT працювати з кількома модальностями та комбінаціями модальностей, є кілька способів подальшого вдосконалення PandaGPT:
Процес навчання PandaGPT може бути збагачений введенням більше даних про вирівнювання, таких як інші модальності (аудіо-текст) зіставлення з текстом
Дослідники використовують лише один вектор вбудовування для представлення модального вмісту, відмінного від тексту, і необхідні додаткові дослідження деформацій виділення дрібних ознак. Наприклад, крос-модальні механізми уваги можуть бути корисними для покращення продуктивності
PandaGPT наразі використовує лише мультимодальну інформацію як вхідні дані, а в майбутньому він може представити багатший мультимедійний вміст на стороні генерації, наприклад, генерувати зображення та текстові відповіді в аудіо.
Нові тести також необхідні для оцінки здатності комбінувати мультимодальні входи
PandaGPT також може демонструвати кілька поширених пасток існуючих мовних моделей, включаючи галюцинації, токсичність і стереотипи.
Дослідники також відзначили, що PandaGPT наразі є лише дослідницьким прототипом і не може використовуватися безпосередньо для реальних додатків.
Довідкові матеріали: