Кто-нибудь уже построил GPT-5 для OpenAI?

Первоисточник: GenAI New World

Автор|Сюэ ЛянНил

Источник изображения: Создано Unbounded AI‌

От теории к практике: как выглядит полная модель большой языковой модели LLM?

Многие сказали бы, что он основан на глубоком понимании естественного языка, но серия GPT от OpenAI уже проделала хорошую работу в этом отношении. Некоторые люди также обсуждают практическую возможность AI Agent, но в настоящее время это обсуждение не выходит за рамки обработки естественного языка.

Генеративный ИИ на самом деле включает в себя два аспекта. Одним из них является большая языковая модель, которая фокусируется на понимании человеческого языка. Более широкое, так называемое, применение AIGC на самом деле относится к возможности кросс-модального преобразования, представленной моделью диффузии. фотографии, видео Винсента и т. д.

А как насчет объединения этих двух вещей? По мнению многих людей, это на самом деле следующее поколение GPT или то, как будет выглядеть GPT в целом. Статья Школы вычислительной техники Национального университета Сингапура, недавно появившаяся на веб-сайте препринтов arxiv, привлекла внимание людей, поскольку модель NExT-GPT, разработанная в этой статье, пытается выполнить комплексное модальное преобразование.

На рисунке выше мы видим, что входные и выходные концы модели NExT-GPT могут генерировать различные модальные формы, включая текст, изображения, аудио и видео. На выходе используются модели диффузии, соответствующие различным режимам, кроме текста. Преобразование мультимедиа между вводом и выводом основано на больших моделях.

Стиль модели NExT-GPT на самом деле не только соответствует нынешней тенденции людей, пытающихся объединить две силы генеративного ИИ: модели большого языка и модели диффузии, но даже в определенной степени соответствует человеческой интуиции: человеческий мозг полагается на по пониманию мира посредством свободного преобразования и интерактивного понимания множества модальностей.

Особо стоит отметить, что так называемое сочетание мультимодального преобразования и возможностей большой языковой модели — это не простой способ «построить мост» между собой, а по-настоящему объединить мультимодальные данные (векторы) с языком. Как только эта комбинация станет успешной, это приведет к качественному скачку в возможностях ИИ.

Обзор структуры NExT-GPT:

Два переломных момента

Говорят, что Google и GPT5 компании OpenAI проводят аналогичные исследования. Перед этим давайте сначала посмотрим, как это делает модель NExT-GPT.

В общем, модель NExT-GPT соединяет большую модель с мультимодальным адаптером и декодером диффузионной модели с корректировкой параметров всего 1% в слое проекции. Новшеством статьи является создание инструкции по настройке модального переключения под названием MosIT и набора данных специально для кросс-модального переключения.

В частности, NExT-GPT состоит из трех уровней: первый уровень заключается в том, что различные зрелые кодеры кодируют различные модальные входные данные, а затем преобразуют через уровень проекции в форму, которую может понять большая языковая модель. Второй уровень — это модель большого языка с открытым исходным кодом, используемая для рассуждений. Стоит отметить, что большая языковая модель не только генерирует текст, но и уникальный тег, который дает указание слою декодирования выводить определенное модальное содержимое. Третий уровень проецирует эти командные сигналы и генерирует соответствующий контент, соответствующий различным кодерам.

Чтобы снизить затраты, NExT-GPT использует готовые кодеры и декодеры. Чтобы минимизировать «шум», возникающий при преобразовании контента в различных модальностях, NExT-GPT использует ImageBind, который представляет собой кросс-модальное унифицированное кодирование. .encoder, так что NExT-GPT не нужно управлять множеством разнородных модальных кодировщиков, но он может единообразно проецировать различные модальности в большую языковую модель.

Что касается выходного каскада, NExT-GPT широко использует различные зрелые модели, включая стабильную диффузию для генерации изображений, Zeroscope для генерации видео и AudioLDM для синтеза звука. Рисунок ниже представляет собой часть процесса рассуждений в статье. Вы можете видеть, что текстовые шаблоны и маркеры сигналов определяют, как модальности распознаются, запускаются и генерируются. Серые части – это модальные параметры, которые не запускаются.

Это включает в себя проблему семантического понимания между различными модальностями, поэтому согласование имеет важное значение. Однако благодаря относительно четкой структуре выравнивание NExT-GPT на самом деле очень просто в эксплуатации. Автор разработал трехслойную структуру связи: конец кодирования совмещен с большой моделью в центре, а конец декодирования совмещен с инструкциями. При таком выравнивании не выполняется полномасштабный процесс выравнивания между моделью распространения и большой языковой моделью, а вместо этого используется только условный кодировщик текста, который выравнивает только текст. На основе чистого текста это выравнивание очень легкое, составляя всего около 1% параметры, требующие корректировки.

Учитывая необходимость того, чтобы NExT-GPT имел возможность точно генерировать и анализировать модальности, в документе также представлен MosIT, то есть настройка инструкций по переключению модальности. Его обучение основано на наборе данных, состоящем из 5000 высококачественных образцов.

Конкретный процесс обучения немного сложен, поэтому я не буду вдаваться в подробности. Вообще говоря, МосИТ может реконструировать входной и выходной текстовый контент, так что NExT-GPT может хорошо понимать различные комбинации режимов текста, изображений, видео и аудио. ...сложные инструкции, очень близкие к способу человеческого понимания и рассуждения.

**Приближается ли совершенство? **

В настоящее время NExT-GPT все еще имеет много недостатков. Автор также упомянул многие из них в статье. Например, очень легко подумать, что четырех модальностей все еще слишком мало для настоящего мультимодального полного большого проекта. Модель Обучение МосИТ Количество наборов данных также ограничено.

Кроме того, автор также усердно работает над адаптацией NExT-GPT к большему количеству сценариев с помощью больших языковых моделей разных размеров.

Еще один щекотливый вопрос – более практичный, чем размер. Хотя NExT-GPT демонстрирует большие перспективы для мультимодальных возможностей, текущий уровень возможностей AIGC, представленный моделью диффузии, по-прежнему ограничен, что влияет на производительность всего NExT-GPT.

В целом, мультимодальный ИИ имеет очень привлекательные перспективы, поскольку он более тесно интегрирован со сценариями приложений и потребностями пользователей. Являясь сквозной мультимодальной большой моделью, NExT-GPT на самом деле представляет собой прототип мультимодального искусственного интеллекта. Можно даже сказать, что кто-то уже сделал первый шаг к полному ИИ.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить