A equipe chinesa de Cambridge criou o PandaGPT de código aberto: o primeiro modelo básico em grande escala que varreu os "seis modos"

Fonte: Xinzhiyuan

**Pode ouvir e ver, dando ao modelo diferentes sentidos para entender o mundo! **

Os atuais modelos de linguagem de grande escala, como o ChatGPT, aceitam apenas texto como entrada. Mesmo a versão atualizada do GPT-4 adiciona apenas a função de entrada de imagem e não pode lidar com outros dados modais, como vídeo e áudio.

Recentemente, pesquisadores da Universidade de Cambridge, do Nara Advanced Institute of Science and Technology e da Tencent propuseram e abriram o código da instrução geral seguindo o modelo PandaGPT, que também é o primeiro a realizar seis modalidades cruzadas (imagem/vídeo, texto, áudio, profundidade, térmica e IMU) executam instruções seguindo o modelo subjacente dos dados.

Link do papel:

Link do código:

Sem supervisão multimodal explícita, o PandaGPT demonstra fortes capacidades multimodais para executar tarefas complexas de entendimento/raciocínio, como geração de descrição detalhada de imagem, escrita de histórias inspiradas em vídeo e resposta a perguntas sobre áudio. , ou várias rodadas de diálogo, etc.

Em suma, a principal inovação do PandaGPT é que ele pode aceitar várias entradas modais ao mesmo tempo e combinar naturalmente a semântica de diferentes modalidades, superando a análise tradicional de um único modal, expandindo os cenários de aplicativos downstream e aproximando-se da implementação da AGI.

Exemplo

Perguntas e respostas baseadas em imagens:

Resposta a perguntas de várias rodadas baseadas em imagem:

Perguntas e respostas baseadas em vídeo:

Escrita criativa inspirada em imagens/vídeos:

Capacidade de raciocínio visual:

Recursos de raciocínio de áudio:

Capacidade de compreensão multimodal de imagem + áudio:

Capacidade de compreensão multimodal de vídeo + áudio:

PandaGPT Multimodal

Comparado com o modelo AI preso no computador, os seres humanos têm múltiplos sentidos para entender o mundo. Eles podem ver uma imagem e ouvir vários sons da natureza; se a máquina também puder inserir informações multimodais, pode ser mais abrangente .resolver vários problemas.

A maior parte da pesquisa multimodal atual é limitada a uma única modalidade, ou uma combinação de texto e outras modalidades, faltando a integridade e a complementaridade de perceber e compreender a entrada multimodal.

Para tornar a entrada multimodal do PandaGPT capaz, os pesquisadores combinaram o codificador multimodal do ImageBind com um modelo de linguagem em larga escala Vicuna, ambos os quais alcançaram um desempenho muito forte em tarefas de acompanhamento de instruções baseadas em áudio e visual.

Ao mesmo tempo, a fim de tornar os espaços de recursos dos dois modelos consistentes, os pesquisadores usaram 160.000 dados de acompanhamento de instrução de linguagem de imagem de código aberto para treinar o PandaGPT, onde cada instância de treinamento inclui uma imagem e um conjunto de vários dados de diálogo redondos, e o diálogo contém cada comando humano e respostas do sistema.

Para reduzir o número de parâmetros treináveis, os pesquisadores treinaram apenas a representação ImageBind usada para conectar o Vicuna e pesos LoRA adicionais no módulo de atenção do Vicuna.

Durante o processo de treinamento, com base nos recursos de cálculo de 8 × A100 40G GPU, se o comprimento máximo da sequência do Vicuna-13B for definido como 400, o treinamento levará cerca de 7 horas.

Vale a pena notar que a versão atual do PandaGPT é treinada apenas com dados de imagem-texto alinhados, mas utilizando as seis modalidades (imagem/vídeo, texto, áudio, profundidade, térmica e IMU) herdadas no codificador ImageBind congelado PandaGPT exibe , capacidades cross-modal zero-shot.

limite

Apesar da incrível capacidade do PandaGPT de lidar com várias modalidades e combinações de modalidades, existem várias maneiras pelas quais o PandaGPT pode ser melhorado:

  1. O processo de treinamento do PandaGPT pode ser enriquecido com a introdução de mais dados de alinhamento, como outras modalidades (áudio-texto) correspondentes ao texto

  2. Os pesquisadores usam apenas um vetor de incorporação para representar o conteúdo modal diferente do texto, e mais pesquisas são necessárias sobre deformidades de extração de características refinadas. Por exemplo, mecanismos de atenção cross-modal podem ser benéficos para a melhoria do desempenho

  3. Atualmente, o PandaGPT usa apenas informações multimodais como entrada e, no futuro, pode introduzir conteúdo multimídia mais rico do lado da geração, como gerar imagens e respostas de texto em áudio.

  4. Novos benchmarks também são necessários para avaliar a capacidade de combinar entradas multimodais

  5. O PandaGPT também pode exibir várias armadilhas comuns dos modelos de linguagem existentes, incluindo alucinações, toxicidade e estereótipos.

Os pesquisadores também apontaram que o PandaGPT é atualmente apenas um protótipo de pesquisa e não pode ser usado diretamente para aplicativos do mundo real.

Materiais de referência:

Ver original
O conteúdo serve apenas de referência e não constitui uma solicitação ou oferta. Não é prestado qualquer aconselhamento em matéria de investimento, fiscal ou jurídica. Consulte a Declaração de exoneração de responsabilidade para obter mais informações sobre os riscos.
  • Recompensa
  • Comentar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Pino
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate.io
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)