**Pode ouvir e ver, dando ao modelo diferentes sentidos para entender o mundo! **
Os atuais modelos de linguagem de grande escala, como o ChatGPT, aceitam apenas texto como entrada. Mesmo a versão atualizada do GPT-4 adiciona apenas a função de entrada de imagem e não pode lidar com outros dados modais, como vídeo e áudio.
Recentemente, pesquisadores da Universidade de Cambridge, do Nara Advanced Institute of Science and Technology e da Tencent propuseram e abriram o código da instrução geral seguindo o modelo PandaGPT, que também é o primeiro a realizar seis modalidades cruzadas (imagem/vídeo, texto, áudio, profundidade, térmica e IMU) executam instruções seguindo o modelo subjacente dos dados.
Link do papel:
Link do código:
Sem supervisão multimodal explícita, o PandaGPT demonstra fortes capacidades multimodais para executar tarefas complexas de entendimento/raciocínio, como geração de descrição detalhada de imagem, escrita de histórias inspiradas em vídeo e resposta a perguntas sobre áudio. , ou várias rodadas de diálogo, etc.
Em suma, a principal inovação do PandaGPT é que ele pode aceitar várias entradas modais ao mesmo tempo e combinar naturalmente a semântica de diferentes modalidades, superando a análise tradicional de um único modal, expandindo os cenários de aplicativos downstream e aproximando-se da implementação da AGI.
Exemplo
Perguntas e respostas baseadas em imagens:
Resposta a perguntas de várias rodadas baseadas em imagem:
Perguntas e respostas baseadas em vídeo:
Escrita criativa inspirada em imagens/vídeos:
Capacidade de raciocínio visual:
Recursos de raciocínio de áudio:
Capacidade de compreensão multimodal de imagem + áudio:
Capacidade de compreensão multimodal de vídeo + áudio:
PandaGPT Multimodal
Comparado com o modelo AI preso no computador, os seres humanos têm múltiplos sentidos para entender o mundo. Eles podem ver uma imagem e ouvir vários sons da natureza; se a máquina também puder inserir informações multimodais, pode ser mais abrangente .resolver vários problemas.
A maior parte da pesquisa multimodal atual é limitada a uma única modalidade, ou uma combinação de texto e outras modalidades, faltando a integridade e a complementaridade de perceber e compreender a entrada multimodal.
Para tornar a entrada multimodal do PandaGPT capaz, os pesquisadores combinaram o codificador multimodal do ImageBind com um modelo de linguagem em larga escala Vicuna, ambos os quais alcançaram um desempenho muito forte em tarefas de acompanhamento de instruções baseadas em áudio e visual.
Ao mesmo tempo, a fim de tornar os espaços de recursos dos dois modelos consistentes, os pesquisadores usaram 160.000 dados de acompanhamento de instrução de linguagem de imagem de código aberto para treinar o PandaGPT, onde cada instância de treinamento inclui uma imagem e um conjunto de vários dados de diálogo redondos, e o diálogo contém cada comando humano e respostas do sistema.
Para reduzir o número de parâmetros treináveis, os pesquisadores treinaram apenas a representação ImageBind usada para conectar o Vicuna e pesos LoRA adicionais no módulo de atenção do Vicuna.
Durante o processo de treinamento, com base nos recursos de cálculo de 8 × A100 40G GPU, se o comprimento máximo da sequência do Vicuna-13B for definido como 400, o treinamento levará cerca de 7 horas.
Vale a pena notar que a versão atual do PandaGPT é treinada apenas com dados de imagem-texto alinhados, mas utilizando as seis modalidades (imagem/vídeo, texto, áudio, profundidade, térmica e IMU) herdadas no codificador ImageBind congelado PandaGPT exibe , capacidades cross-modal zero-shot.
limite
Apesar da incrível capacidade do PandaGPT de lidar com várias modalidades e combinações de modalidades, existem várias maneiras pelas quais o PandaGPT pode ser melhorado:
O processo de treinamento do PandaGPT pode ser enriquecido com a introdução de mais dados de alinhamento, como outras modalidades (áudio-texto) correspondentes ao texto
Os pesquisadores usam apenas um vetor de incorporação para representar o conteúdo modal diferente do texto, e mais pesquisas são necessárias sobre deformidades de extração de características refinadas. Por exemplo, mecanismos de atenção cross-modal podem ser benéficos para a melhoria do desempenho
Atualmente, o PandaGPT usa apenas informações multimodais como entrada e, no futuro, pode introduzir conteúdo multimídia mais rico do lado da geração, como gerar imagens e respostas de texto em áudio.
Novos benchmarks também são necessários para avaliar a capacidade de combinar entradas multimodais
O PandaGPT também pode exibir várias armadilhas comuns dos modelos de linguagem existentes, incluindo alucinações, toxicidade e estereótipos.
Os pesquisadores também apontaram que o PandaGPT é atualmente apenas um protótipo de pesquisa e não pode ser usado diretamente para aplicativos do mundo real.
Materiais de referência:
Ver original
O conteúdo serve apenas de referência e não constitui uma solicitação ou oferta. Não é prestado qualquer aconselhamento em matéria de investimento, fiscal ou jurídica. Consulte a Declaração de exoneração de responsabilidade para obter mais informações sobre os riscos.
A equipe chinesa de Cambridge criou o PandaGPT de código aberto: o primeiro modelo básico em grande escala que varreu os "seis modos"
Fonte: Xinzhiyuan
Os atuais modelos de linguagem de grande escala, como o ChatGPT, aceitam apenas texto como entrada. Mesmo a versão atualizada do GPT-4 adiciona apenas a função de entrada de imagem e não pode lidar com outros dados modais, como vídeo e áudio.
Recentemente, pesquisadores da Universidade de Cambridge, do Nara Advanced Institute of Science and Technology e da Tencent propuseram e abriram o código da instrução geral seguindo o modelo PandaGPT, que também é o primeiro a realizar seis modalidades cruzadas (imagem/vídeo, texto, áudio, profundidade, térmica e IMU) executam instruções seguindo o modelo subjacente dos dados.
Link do código:
Sem supervisão multimodal explícita, o PandaGPT demonstra fortes capacidades multimodais para executar tarefas complexas de entendimento/raciocínio, como geração de descrição detalhada de imagem, escrita de histórias inspiradas em vídeo e resposta a perguntas sobre áudio. , ou várias rodadas de diálogo, etc.
Exemplo
Perguntas e respostas baseadas em imagens:
PandaGPT Multimodal
Comparado com o modelo AI preso no computador, os seres humanos têm múltiplos sentidos para entender o mundo. Eles podem ver uma imagem e ouvir vários sons da natureza; se a máquina também puder inserir informações multimodais, pode ser mais abrangente .resolver vários problemas.
A maior parte da pesquisa multimodal atual é limitada a uma única modalidade, ou uma combinação de texto e outras modalidades, faltando a integridade e a complementaridade de perceber e compreender a entrada multimodal.
Para tornar a entrada multimodal do PandaGPT capaz, os pesquisadores combinaram o codificador multimodal do ImageBind com um modelo de linguagem em larga escala Vicuna, ambos os quais alcançaram um desempenho muito forte em tarefas de acompanhamento de instruções baseadas em áudio e visual.
Ao mesmo tempo, a fim de tornar os espaços de recursos dos dois modelos consistentes, os pesquisadores usaram 160.000 dados de acompanhamento de instrução de linguagem de imagem de código aberto para treinar o PandaGPT, onde cada instância de treinamento inclui uma imagem e um conjunto de vários dados de diálogo redondos, e o diálogo contém cada comando humano e respostas do sistema.
Para reduzir o número de parâmetros treináveis, os pesquisadores treinaram apenas a representação ImageBind usada para conectar o Vicuna e pesos LoRA adicionais no módulo de atenção do Vicuna.
Vale a pena notar que a versão atual do PandaGPT é treinada apenas com dados de imagem-texto alinhados, mas utilizando as seis modalidades (imagem/vídeo, texto, áudio, profundidade, térmica e IMU) herdadas no codificador ImageBind congelado PandaGPT exibe , capacidades cross-modal zero-shot.
limite
Apesar da incrível capacidade do PandaGPT de lidar com várias modalidades e combinações de modalidades, existem várias maneiras pelas quais o PandaGPT pode ser melhorado:
O processo de treinamento do PandaGPT pode ser enriquecido com a introdução de mais dados de alinhamento, como outras modalidades (áudio-texto) correspondentes ao texto
Os pesquisadores usam apenas um vetor de incorporação para representar o conteúdo modal diferente do texto, e mais pesquisas são necessárias sobre deformidades de extração de características refinadas. Por exemplo, mecanismos de atenção cross-modal podem ser benéficos para a melhoria do desempenho
Atualmente, o PandaGPT usa apenas informações multimodais como entrada e, no futuro, pode introduzir conteúdo multimídia mais rico do lado da geração, como gerar imagens e respostas de texto em áudio.
Novos benchmarks também são necessários para avaliar a capacidade de combinar entradas multimodais
O PandaGPT também pode exibir várias armadilhas comuns dos modelos de linguagem existentes, incluindo alucinações, toxicidade e estereótipos.
Os pesquisadores também apontaram que o PandaGPT é atualmente apenas um protótipo de pesquisa e não pode ser usado diretamente para aplicativos do mundo real.
Materiais de referência: