Novo trabalho de Tsinghua Tang Jie WebGLM: 10 bilhões de parâmetros, principalmente pesquisa online, desempenho superior ao OpenAI WebGPT

Fonte: Qubit See More

O novo trabalho da equipe Tsinghua Tang Jie está aqui:

WebGLM, um robô de bate-papo de perguntas e respostas da Internetwork com 10 bilhões de parâmetros (o artigo foi selecionado para KDD2023).

Você pode fazer qualquer pergunta e ele listará links para artigos relevantes na Internet (como Wikipedia, sites oficiais relacionados) e classificará as respostas.

por exemplo:

Qual é a tecnologia principal do ChatGPT?

ou:

Quem propôs o Music Transformer? Qual é o seu princípio?

ou:

Que tal Genshin Impact 3.5?

Como você pode viver em uma cidade de primeira linha sem um emprego bem remunerado? (cabeça de cachorro manual)

……

Pode dar respostas razoáveis.

Segundo relatos, no teste de comparação de desempenho, o nível de WebGLM foi maior que o WebGPT de 13,5 bilhões de parâmetros da OpenAI e, na avaliação humana, é até comparável ao modelo de 175 bilhões de parâmetros.

Então, como é treinado?

Tsinghua Department WebGLM que pode acessar a Internet

De acordo com relatórios, o objetivo do WebGLM é aprimorar o modelo de linguagem grande pré-treinado por meio de funções de pesquisa e recuperação na Web, ao mesmo tempo em que permite uma implantação real eficiente.

Para tanto, o autor desenvolve com base em três estratégias.

O primeiro é o Large Model Augmented Retriever.

É usado principalmente para melhorar a capacidade de recuperação de conteúdo de rede relacionado ao modelo e encontrar referências relevantes no caso de uma determinada consulta, de modo a responder melhor às perguntas com precisão posteriormente.

Ele tem dois estágios: pesquisa na web de granularidade grossa e recuperação densa aprimorada por LLM de granularidade fina.

Seguido por Bootstrap Generator.

Ele usa a capacidade do GLM (como o modelo de pré-treinamento de código aberto bilíngue GLM-130B lançado pela Universidade de Tsinghua) para gerar respostas a perguntas e fornecer respostas detalhadas.

Usando este gerador, os autores obtêm WebGLM-QA - uma citação de bootstrap LLM e um conjunto de dados QA de longo alcance.

Ele é limpo e filtrado por meio de estratégias como aprendizado de contexto e, finalmente, inclui 45 mil amostras filtradas de alta qualidade e 83 mil amostras de ruído.

A espinha dorsal do WebGLM é um modelo GLM treinado neste conjunto de dados.

Finalmente, há um marcador baseado na preferência humana.

Ele avalia a qualidade das respostas geradas priorizando as preferências humanas sobre o caro feedback de especialistas, garantindo que o sistema produza conteúdo útil e envolvente.

Os três componentes acima finalmente formam o pipeline do WebGLM na ordem:

Vê-se que são exactamente três módulos, correspondentes às três partes acima apresentadas, entre as quais:

O recuperador aprimorado do LLM usará as cinco principais páginas mais relevantes como uma fonte de referência, permitirá que o gerador de bootstrap gere várias respostas e, finalmente, o avaliador selecionará aquela com maior probabilidade de atender às preferências humanas como resultado final.

O desempenho excede o OpenAI WebGPT

Além do próprio WebGLM, a equipe de Tang Jie também propôs um padrão de avaliação para um sistema de resposta a perguntas aprimorado pela rede.Os objetos de avaliação incluem referências e respostas finais.

Entre eles, o primeiro mede as cinco dimensões de relevância, densidade da informação, autenticidade (sem erros factuais), toxicidade (excluindo informações como pornografia violenta) e o grau de preconceito social; o último mede fluência, correção, precisão de citação e objetividade .e redundância.

Eles usaram as 272 perguntas fornecidas pelo site de demonstração WebGPT (do OpenAI, ajustado com base no GPT-3) para avaliação comparativa e recrutaram 15 voluntários com mestrado para pontuar.

O resultado final é o seguinte:

("Rel.", "Den."... correspondem respectivamente aos 10 indicadores mencionados acima.)

Pode-se ver que, embora os resultados da pesquisa do WebGLM sejam um pouco inferiores aos do WebGPT-175B, eles são muito melhores do que os do Perplexity.ai e do WebGPT-13B (avaliação de referência à esquerda).

Vale a pena mencionar que o processo de recuperação do WebGLM usa apenas alguns algoritmos tradicionais baseados em palavras e dois Contrievers cujos parâmetros cumulativos não excedem 300M.

Além disso, o WebGLM também é significativamente melhor do que o WebGPT-13B em termos de desempenho de computação e consumo de tempo, e é comparável ao 175B.

Em termos de resultados finais, o WebGLM alcançou as pontuações mais altas em termos de fluência, autenticidade e redundância, e seu índice de correção foi próximo ao WebGPT-175B, muito superior ao Perplexity.ai e WebGPT-13B.

Segundo os autores, isso mostra que o WebGLM pode alcançar maior desempenho a um custo menor.

Implantação e Treinamento

WebGLM é lançado como código aberto.

Para implantá-lo, é necessário obter uma chave no site oficial da SerpAPI, que é usada para obter os resultados da pesquisa durante o processo de pesquisa.

Os pesos do retriever podem ser baixados do Tsinghua Cloud.

Há duas maneiras de executar o modelo: uma é a interface de linha de comando, a outra é a forma de serviço da Web e há dois modelos opcionais, incluindo WebGLM-2B e WebGLM-10B.

Você também pode treinar o WebGLM sozinho, os dados oficiais de treinamento do gerador e recuperador foram fornecidos para download ~

Endereço de papel:

Página inicial do GitHub:

Ver original
O conteúdo é apenas para referência, não uma solicitação ou oferta. Nenhum aconselhamento fiscal, de investimento ou jurídico é fornecido. Consulte a isenção de responsabilidade para obter mais informações sobre riscos.
  • Recompensa
  • Comentário
  • Compartilhar
Comentário
0/400
Sem comentários
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate.io
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)