**Может слышать и видеть, наделяя модель различными чувствами для понимания мира! **
Текущие крупномасштабные языковые модели, такие как ChatGPT, могут принимать на вход только текст, даже обновленная версия GPT-4 добавляет только функцию ввода изображений и не может обрабатывать другие модальные данные, такие как видео и аудио.
Недавно исследователи из Кембриджского университета, Передового института науки и технологий Нара и Tencent совместно предложили и открыли исходный код общей инструкции по модели PandaGPT, которая также первой реализует шесть модальностей (изображение/видео, текст, аудио, глубины, температуры и IMU) выполняют инструкции в соответствии с базовой моделью данных.
Ссылка на бумагу:
Ссылка на код:
Без явного мультимодального контроля PandaGPT демонстрирует сильные мультимодальные возможности для выполнения сложных задач понимания/рассуждения, таких как создание подробного описания изображения, написание историй, вдохновленных видео, и ответы на вопросы об аудио, или несколько раундов диалога и т. д.
Короче говоря, основная инновация PandaGPT заключается в том, что он может одновременно принимать несколько модальных входных данных и естественным образом комбинировать семантику различных модальностей, превосходя традиционный одномодальный анализ, расширяя сценарии последующих приложений и приближаясь к реализации. АГИ.
Пример
Вопросы и ответы на основе изображений:
Ответ на многоэтапный вопрос на основе изображения:
Возможность мультимодального понимания изображения + аудио:
Способность к мультимодальному пониманию видео + аудио:
Мультимодальный PandaGPT
По сравнению с моделью искусственного интеллекта, запертой в компьютере, у людей есть несколько органов чувств для понимания мира: они могут видеть картинку и слышать различные звуки природы, а если машина может также вводить мультимодальную информацию, она может быть более полной. , решить различные проблемы.
Большая часть текущих мультимодальных исследований ограничивается одной модальностью или комбинацией текста и других модальностей, не обладая целостностью и взаимодополняемостью восприятия и понимания мультимодального ввода.
Чтобы сделать PandaGPT мультимодальным вводом, исследователи объединили мультимодальный кодировщик ImageBind с крупномасштабной языковой моделью Vicuna, обе из которых достигли очень высокой производительности в визуальных и звуковых задачах выполнения инструкций.
В то же время, чтобы сделать пространства признаков двух моделей согласованными, исследователи использовали 160 000 данных о последующих инструкциях на языке изображений с открытым исходным кодом для обучения PandaGPT, где каждый обучающий экземпляр включает изображение и набор мульти- круглые данные диалога, и диалог содержит все человеческие команды и ответы системы.
Чтобы уменьшить количество обучаемых параметров, исследователи обучили только представление ImageBind, используемое для подключения Vicuna, и дополнительные веса LoRA в модуле внимания Vicuna.
В процессе обучения, исходя из вычислительных ресурсов 8×A100 40G GPU, если максимальная длина последовательности Vicuna-13B установлена равной 400, обучение занимает около 7 часов.
Стоит отметить, что текущая версия PandaGPT обучается только с выровненными данными изображения и текста, но с использованием шести модальностей (изображение/видео, текст, аудио, глубина, тепловое и IMU), унаследованных от замороженного кодировщика ImageBind, PandaGPT демонстрирует возникающие , нулевые кросс-модальные возможности.
лимит
Несмотря на потрясающую способность PandaGPT обрабатывать несколько модальностей и комбинаций модальностей, есть несколько способов дальнейшего улучшения PandaGPT:
Процесс обучения PandaGPT можно обогатить, введя больше данных выравнивания, таких как другие модальности (аудио-текст), совпадающие с текстом.
Исследователи используют только один вектор встраивания для представления модального контента, отличного от текста, и необходимы дополнительные исследования деформаций извлечения мелких деталей. Например, механизмы кросс-модального внимания могут быть полезны для повышения производительности.
В настоящее время PandaGPT использует в качестве входных данных только мультимодальную информацию, а в будущем он может представить более богатый мультимедийный контент на стороне генерации, например, генерировать изображения и текстовые ответы в аудио.
Также необходимы новые ориентиры для оценки способности комбинировать мультимодальные входные данные.
PandaGPT также может демонстрировать несколько общих ловушек существующих языковых моделей, включая галлюцинации, токсичность и стереотипность.
Исследователи также отметили, что PandaGPT в настоящее время является лишь исследовательским прототипом и не может быть напрямую использована для реальных приложений.
Справочные материалы:
Посмотреть Оригинал
Содержание носит исключительно справочный характер и не является предложением или офертой. Консультации по инвестициям, налогообложению или юридическим вопросам не предоставляются. Более подробную информацию о рисках см. в разделе «Дисклеймер».
Кембриджская китайская команда открыла исходный код PandaGPT: первая крупномасштабная базовая модель, охватившая «шесть режимов».
Источник: Синьчжиюань
Текущие крупномасштабные языковые модели, такие как ChatGPT, могут принимать на вход только текст, даже обновленная версия GPT-4 добавляет только функцию ввода изображений и не может обрабатывать другие модальные данные, такие как видео и аудио.
Недавно исследователи из Кембриджского университета, Передового института науки и технологий Нара и Tencent совместно предложили и открыли исходный код общей инструкции по модели PandaGPT, которая также первой реализует шесть модальностей (изображение/видео, текст, аудио, глубины, температуры и IMU) выполняют инструкции в соответствии с базовой моделью данных.
Ссылка на код:
Без явного мультимодального контроля PandaGPT демонстрирует сильные мультимодальные возможности для выполнения сложных задач понимания/рассуждения, таких как создание подробного описания изображения, написание историй, вдохновленных видео, и ответы на вопросы об аудио, или несколько раундов диалога и т. д.
Пример
Вопросы и ответы на основе изображений:
Мультимодальный PandaGPT
По сравнению с моделью искусственного интеллекта, запертой в компьютере, у людей есть несколько органов чувств для понимания мира: они могут видеть картинку и слышать различные звуки природы, а если машина может также вводить мультимодальную информацию, она может быть более полной. , решить различные проблемы.
Большая часть текущих мультимодальных исследований ограничивается одной модальностью или комбинацией текста и других модальностей, не обладая целостностью и взаимодополняемостью восприятия и понимания мультимодального ввода.
Чтобы сделать PandaGPT мультимодальным вводом, исследователи объединили мультимодальный кодировщик ImageBind с крупномасштабной языковой моделью Vicuna, обе из которых достигли очень высокой производительности в визуальных и звуковых задачах выполнения инструкций.
В то же время, чтобы сделать пространства признаков двух моделей согласованными, исследователи использовали 160 000 данных о последующих инструкциях на языке изображений с открытым исходным кодом для обучения PandaGPT, где каждый обучающий экземпляр включает изображение и набор мульти- круглые данные диалога, и диалог содержит все человеческие команды и ответы системы.
Чтобы уменьшить количество обучаемых параметров, исследователи обучили только представление ImageBind, используемое для подключения Vicuna, и дополнительные веса LoRA в модуле внимания Vicuna.
Стоит отметить, что текущая версия PandaGPT обучается только с выровненными данными изображения и текста, но с использованием шести модальностей (изображение/видео, текст, аудио, глубина, тепловое и IMU), унаследованных от замороженного кодировщика ImageBind, PandaGPT демонстрирует возникающие , нулевые кросс-модальные возможности.
лимит
Несмотря на потрясающую способность PandaGPT обрабатывать несколько модальностей и комбинаций модальностей, есть несколько способов дальнейшего улучшения PandaGPT:
Процесс обучения PandaGPT можно обогатить, введя больше данных выравнивания, таких как другие модальности (аудио-текст), совпадающие с текстом.
Исследователи используют только один вектор встраивания для представления модального контента, отличного от текста, и необходимы дополнительные исследования деформаций извлечения мелких деталей. Например, механизмы кросс-модального внимания могут быть полезны для повышения производительности.
В настоящее время PandaGPT использует в качестве входных данных только мультимодальную информацию, а в будущем он может представить более богатый мультимедийный контент на стороне генерации, например, генерировать изображения и текстовые ответы в аудио.
Также необходимы новые ориентиры для оценки способности комбинировать мультимодальные входные данные.
PandaGPT также может демонстрировать несколько общих ловушек существующих языковых моделей, включая галлюцинации, токсичность и стереотипность.
Исследователи также отметили, что PandaGPT в настоящее время является лишь исследовательским прототипом и не может быть напрямую использована для реальных приложений.
Справочные материалы: