Se a IA melhorar, ela terá que fazer mais com menos recursos.
Falando em "Large Language Models" (LLMs), como o GPT (Transformador pré-treinado generativo) da OpenAI - a força central que impulsiona os populares chatbots nos Estados Unidos - o nome diz tudo. Esses sistemas modernos de IA são alimentados por vastas redes neurais artificiais que imitam o funcionamento de cérebros biológicos de maneira ampla. O GPT-3, lançado em 2020, é um grande gigante do modelo de linguagem com 175 bilhões de "parâmetros", que é o nome das conexões simuladas entre os neurônios. O GPT-3 é treinado processando trilhões de palavras de texto em poucas semanas usando milhares de GPUs com inteligência artificial, a um custo estimado de mais de US$ 4,6 milhões.
No entanto, o consenso na pesquisa moderna de IA é: "maior é melhor e maior é melhor". Portanto, a taxa de crescimento de escala do modelo está em rápido desenvolvimento. Lançado em março, estima-se que o GPT-4 tenha cerca de 1 trilhão de parâmetros - um aumento de quase seis vezes em relação à geração anterior. O CEO da OpenAI, Sam Altman, estima que custou mais de US$ 100 milhões para ser desenvolvido. E a indústria como um todo está mostrando a mesma tendência. A empresa de pesquisa Epoch AI prevê em 2022 que o poder de computação necessário para treinar os melhores modelos dobrará a cada seis a dez meses (veja o gráfico abaixo).
O tamanho cada vez maior dos parâmetros do modelo de IA apresenta alguns problemas. Se as previsões da Epoch AI estiverem corretas e os custos de treinamento dobrarem a cada dez meses, os custos de treinamento poderão exceder um bilhão de dólares até 2026 - e isso apenas assumindo que os dados não sejam esgotados primeiro. Uma análise em outubro de 2022 previu que o texto de alta qualidade usado para treinamento poderia se esgotar na mesma quantidade de tempo. Além disso, mesmo após a conclusão do treinamento do modelo, o custo real da execução de um modelo grande pode ser proibitivo.
No início deste ano, o Morgan Stanley estimou que, se metade das buscas do Google fossem tratadas por programas atuais do tipo GPT, isso poderia custar à empresa US$ 6 bilhões extras por ano. Esse número provavelmente continuará a aumentar à medida que o tamanho do modelo cresce.
Como resultado, a visão de muitas pessoas de que os modelos de IA são "grandes, melhores" não é mais válida. Se eles continuarem a melhorar os modelos de IA (e muito menos realizar esses sonhos grandiosos de IA), os desenvolvedores precisam descobrir como obter melhor desempenho com recursos limitados. Como Altman disse em abril, ao olhar para trás na história da IA em larga escala: "Acho que chegamos ao fim de uma era".
Trituração Quantitativa
Em vez disso, os pesquisadores começaram a se concentrar em como melhorar a eficiência do modelo, não apenas na busca de escala. Uma maneira é obter uma compensação reduzindo o número de parâmetros, mas usando mais dados para treinar o modelo. Em 2022, a divisão DeepMind do Google treinou um LLM de 70 bilhões de parâmetros chamado Chinchilla em um corpus de 1,4 trilhão de palavras. Apesar de ter menos parâmetros do que os 175 bilhões do GPT-3 e dados de treinamento de apenas 300 bilhões de palavras, esse modelo superou o GPT-3. Alimentar um LLM menor com mais dados significa que leva mais tempo para treinar, mas o resultado é um modelo menor, mais rápido e mais barato.
Outra opção é deixar reduzir a precisão dos números de ponto flutuante. Reduzir o número de dígitos de precisão em cada número no modelo, ou seja, arredondar, pode reduzir drasticamente os requisitos de hardware. Pesquisadores do Instituto Austríaco de Ciência e Tecnologia demonstraram em março que o arredondamento pode reduzir drasticamente o consumo de memória de um modelo semelhante ao GPT-3, permitindo que o modelo seja executado em uma GPU de ponta em vez de cinco com "perda insignificante de precisão. " ".
Alguns usuários ajustam um LLM de uso geral para se concentrar em tarefas específicas, como gerar documentos legais ou detectar notícias falsas. Embora isso não seja tão complexo quanto treinar um LLM pela primeira vez, ainda pode ser caro e demorado. O ajuste fino do modelo LLaMA de 65 bilhões de parâmetros de código aberto da Meta (empresa controladora do Facebook) exigiu várias GPUs e levou de horas a dias.
Pesquisadores da Universidade de Washington inventaram uma maneira mais eficiente de criar um novo modelo Guanaco de LLaMA em uma única GPU em um dia com perda de desempenho insignificante. Parte do truque é uma técnica de arredondamento semelhante à usada pelos pesquisadores austríacos. Mas eles também usaram uma técnica chamada Low-Rank Adaptation (LoRA), que envolve a fixação dos parâmetros existentes do modelo e a adição de um novo conjunto menor de parâmetros a ele. O ajuste fino é feito alterando apenas essas novas variáveis. Isso simplifica as coisas a ponto de até mesmo um computador relativamente fraco, como um smartphone, estar à altura da tarefa. Se o LLM puder ser executado no dispositivo do usuário em vez do atual data center gigante, isso poderá trazer maior personalização e melhor proteção da privacidade.
Enquanto isso, uma equipe do Google oferece novas opções para quem pode conviver com modelos menores. Essa abordagem concentra-se em extrair conhecimento específico de um grande modelo geral e transformá-lo em um modelo menor e especializado. O modelo grande atua como professor e o modelo pequeno atua como aluno. Os pesquisadores pediram aos professores que respondessem a perguntas e demonstrassem seu raciocínio. Tanto as respostas quanto as inferências do modelo do professor (modelo grande) são usadas para treinar o modelo do aluno (modelo pequeno). A equipe treinou com sucesso um modelo de aluno com apenas 7,7 bilhões de parâmetros (o modelo pequeno) para superar seu modelo de professor com 540 bilhões de parâmetros (o modelo grande) em tarefas de inferência específicas.
Outra abordagem é mudar a forma como o modelo é construído, em vez de focar no que o modelo está fazendo. A maioria dos modelos de IA são desenvolvidos na linguagem Python. Ele foi projetado para ser fácil de usar, liberando o programador de ter que pensar em como o programa opera o chip enquanto ele está em execução. O preço de mascarar esses detalhes é que o código é executado mais lentamente. Prestar mais atenção a esses detalhes de implementação pode render grandes dividendos. Como disse Thomas Wolf, diretor científico da empresa de IA de código aberto Hugging Face, esse é "um aspecto importante da pesquisa atual em inteligência artificial".
código otimizado
Por exemplo, em 2022, pesquisadores da Universidade de Stanford lançaram uma versão aprimorada do "algoritmo de atenção" que permite que grandes modelos de linguagem (LLMs) aprendam as conexões entre palavras e conceitos. A ideia é modificar o código para levar em consideração o que está acontecendo no chip em que está sendo executado, em particular para acompanhar quando informações específicas precisam ser recuperadas ou armazenadas. Seu algoritmo conseguiu triplicar a velocidade de treinamento do GPT-2, um modelo antigo de linguagem grande, e também aprimorou sua capacidade de lidar com consultas mais longas.
Código mais limpo também pode ser obtido com ferramentas melhores. No início deste ano, a Meta lançou uma nova versão de sua estrutura de programação de IA, PyTorch. Fazendo com que os programadores pensem mais sobre como organizar computações em chips reais, pode-se dobrar a velocidade na qual os modelos podem ser treinados adicionando uma única linha de código. A Modular, uma startup fundada por ex-engenheiros da Apple e do Google, lançou no mês passado uma nova linguagem de programação focada em IA chamada Mojo, baseada em Python. O Mojo dá aos programadores controle sobre todos os detalhes que costumavam ser protegidos e, em alguns casos, o código escrito usando o Mojo pode ser executado milhares de vezes mais rápido do que um bloco de código equivalente escrito em Python.
A última opção é melhorar o chip que executa o código. Embora originalmente projetadas para lidar com os gráficos complexos encontrados nos videogames modernos, as GPUs são surpreendentemente boas para executar modelos de IA. Um pesquisador de hardware da Meta disse que para "inferência" (ou seja, a execução real de um modelo depois de treinado), as GPUs não são projetadas perfeitamente. Como resultado, algumas empresas estão projetando seu próprio hardware mais especializado. O Google já executa a maioria de seus projetos de IA em seus chips "TPU" internos. A Meta, com seu chip MTIA, e a Amazon, com seu chip Inferentia, estão tentando algo semelhante.
Pode ser surpreendente que, às vezes, mudanças simples como arredondamento de números ou troca de linguagens de programação possam gerar grandes ganhos de desempenho. Mas isso reflete o rápido desenvolvimento de grandes modelos de linguagem (LLM). Por muitos anos, grandes modelos de linguagem foram principalmente um projeto de pesquisa, e o foco estava principalmente em fazê-los funcionar e produzir resultados válidos, e não na elegância de seu design. Só recentemente eles foram transformados em produtos comerciais para o mercado de massa. A maioria dos especialistas concorda que há muito espaço para melhorias. Como Chris Manning, cientista da computação da Universidade de Stanford, disse: "Não há razão para acreditar que a arquitetura neural usada atualmente (referindo-se à estrutura da rede neural atual) seja ideal e não está descartada a possibilidade de arquiteturas mais avançadas aparecerem. no futuro."
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
O ponto de vista "grande é melhor" do modelo de IA não funciona mais
Autor |The Economist Tradutor |
Editor responsável | Xia Meng
Listagem | CSDN (ID: CSDNnews)
Se a IA melhorar, ela terá que fazer mais com menos recursos.
Falando em "Large Language Models" (LLMs), como o GPT (Transformador pré-treinado generativo) da OpenAI - a força central que impulsiona os populares chatbots nos Estados Unidos - o nome diz tudo. Esses sistemas modernos de IA são alimentados por vastas redes neurais artificiais que imitam o funcionamento de cérebros biológicos de maneira ampla. O GPT-3, lançado em 2020, é um grande gigante do modelo de linguagem com 175 bilhões de "parâmetros", que é o nome das conexões simuladas entre os neurônios. O GPT-3 é treinado processando trilhões de palavras de texto em poucas semanas usando milhares de GPUs com inteligência artificial, a um custo estimado de mais de US$ 4,6 milhões.
No entanto, o consenso na pesquisa moderna de IA é: "maior é melhor e maior é melhor". Portanto, a taxa de crescimento de escala do modelo está em rápido desenvolvimento. Lançado em março, estima-se que o GPT-4 tenha cerca de 1 trilhão de parâmetros - um aumento de quase seis vezes em relação à geração anterior. O CEO da OpenAI, Sam Altman, estima que custou mais de US$ 100 milhões para ser desenvolvido. E a indústria como um todo está mostrando a mesma tendência. A empresa de pesquisa Epoch AI prevê em 2022 que o poder de computação necessário para treinar os melhores modelos dobrará a cada seis a dez meses (veja o gráfico abaixo).
No início deste ano, o Morgan Stanley estimou que, se metade das buscas do Google fossem tratadas por programas atuais do tipo GPT, isso poderia custar à empresa US$ 6 bilhões extras por ano. Esse número provavelmente continuará a aumentar à medida que o tamanho do modelo cresce.
Como resultado, a visão de muitas pessoas de que os modelos de IA são "grandes, melhores" não é mais válida. Se eles continuarem a melhorar os modelos de IA (e muito menos realizar esses sonhos grandiosos de IA), os desenvolvedores precisam descobrir como obter melhor desempenho com recursos limitados. Como Altman disse em abril, ao olhar para trás na história da IA em larga escala: "Acho que chegamos ao fim de uma era".
Trituração Quantitativa
Em vez disso, os pesquisadores começaram a se concentrar em como melhorar a eficiência do modelo, não apenas na busca de escala. Uma maneira é obter uma compensação reduzindo o número de parâmetros, mas usando mais dados para treinar o modelo. Em 2022, a divisão DeepMind do Google treinou um LLM de 70 bilhões de parâmetros chamado Chinchilla em um corpus de 1,4 trilhão de palavras. Apesar de ter menos parâmetros do que os 175 bilhões do GPT-3 e dados de treinamento de apenas 300 bilhões de palavras, esse modelo superou o GPT-3. Alimentar um LLM menor com mais dados significa que leva mais tempo para treinar, mas o resultado é um modelo menor, mais rápido e mais barato.
Outra opção é deixar reduzir a precisão dos números de ponto flutuante. Reduzir o número de dígitos de precisão em cada número no modelo, ou seja, arredondar, pode reduzir drasticamente os requisitos de hardware. Pesquisadores do Instituto Austríaco de Ciência e Tecnologia demonstraram em março que o arredondamento pode reduzir drasticamente o consumo de memória de um modelo semelhante ao GPT-3, permitindo que o modelo seja executado em uma GPU de ponta em vez de cinco com "perda insignificante de precisão. " ".
Alguns usuários ajustam um LLM de uso geral para se concentrar em tarefas específicas, como gerar documentos legais ou detectar notícias falsas. Embora isso não seja tão complexo quanto treinar um LLM pela primeira vez, ainda pode ser caro e demorado. O ajuste fino do modelo LLaMA de 65 bilhões de parâmetros de código aberto da Meta (empresa controladora do Facebook) exigiu várias GPUs e levou de horas a dias.
Pesquisadores da Universidade de Washington inventaram uma maneira mais eficiente de criar um novo modelo Guanaco de LLaMA em uma única GPU em um dia com perda de desempenho insignificante. Parte do truque é uma técnica de arredondamento semelhante à usada pelos pesquisadores austríacos. Mas eles também usaram uma técnica chamada Low-Rank Adaptation (LoRA), que envolve a fixação dos parâmetros existentes do modelo e a adição de um novo conjunto menor de parâmetros a ele. O ajuste fino é feito alterando apenas essas novas variáveis. Isso simplifica as coisas a ponto de até mesmo um computador relativamente fraco, como um smartphone, estar à altura da tarefa. Se o LLM puder ser executado no dispositivo do usuário em vez do atual data center gigante, isso poderá trazer maior personalização e melhor proteção da privacidade.
Enquanto isso, uma equipe do Google oferece novas opções para quem pode conviver com modelos menores. Essa abordagem concentra-se em extrair conhecimento específico de um grande modelo geral e transformá-lo em um modelo menor e especializado. O modelo grande atua como professor e o modelo pequeno atua como aluno. Os pesquisadores pediram aos professores que respondessem a perguntas e demonstrassem seu raciocínio. Tanto as respostas quanto as inferências do modelo do professor (modelo grande) são usadas para treinar o modelo do aluno (modelo pequeno). A equipe treinou com sucesso um modelo de aluno com apenas 7,7 bilhões de parâmetros (o modelo pequeno) para superar seu modelo de professor com 540 bilhões de parâmetros (o modelo grande) em tarefas de inferência específicas.
Outra abordagem é mudar a forma como o modelo é construído, em vez de focar no que o modelo está fazendo. A maioria dos modelos de IA são desenvolvidos na linguagem Python. Ele foi projetado para ser fácil de usar, liberando o programador de ter que pensar em como o programa opera o chip enquanto ele está em execução. O preço de mascarar esses detalhes é que o código é executado mais lentamente. Prestar mais atenção a esses detalhes de implementação pode render grandes dividendos. Como disse Thomas Wolf, diretor científico da empresa de IA de código aberto Hugging Face, esse é "um aspecto importante da pesquisa atual em inteligência artificial".
código otimizado
Por exemplo, em 2022, pesquisadores da Universidade de Stanford lançaram uma versão aprimorada do "algoritmo de atenção" que permite que grandes modelos de linguagem (LLMs) aprendam as conexões entre palavras e conceitos. A ideia é modificar o código para levar em consideração o que está acontecendo no chip em que está sendo executado, em particular para acompanhar quando informações específicas precisam ser recuperadas ou armazenadas. Seu algoritmo conseguiu triplicar a velocidade de treinamento do GPT-2, um modelo antigo de linguagem grande, e também aprimorou sua capacidade de lidar com consultas mais longas.
Código mais limpo também pode ser obtido com ferramentas melhores. No início deste ano, a Meta lançou uma nova versão de sua estrutura de programação de IA, PyTorch. Fazendo com que os programadores pensem mais sobre como organizar computações em chips reais, pode-se dobrar a velocidade na qual os modelos podem ser treinados adicionando uma única linha de código. A Modular, uma startup fundada por ex-engenheiros da Apple e do Google, lançou no mês passado uma nova linguagem de programação focada em IA chamada Mojo, baseada em Python. O Mojo dá aos programadores controle sobre todos os detalhes que costumavam ser protegidos e, em alguns casos, o código escrito usando o Mojo pode ser executado milhares de vezes mais rápido do que um bloco de código equivalente escrito em Python.
A última opção é melhorar o chip que executa o código. Embora originalmente projetadas para lidar com os gráficos complexos encontrados nos videogames modernos, as GPUs são surpreendentemente boas para executar modelos de IA. Um pesquisador de hardware da Meta disse que para "inferência" (ou seja, a execução real de um modelo depois de treinado), as GPUs não são projetadas perfeitamente. Como resultado, algumas empresas estão projetando seu próprio hardware mais especializado. O Google já executa a maioria de seus projetos de IA em seus chips "TPU" internos. A Meta, com seu chip MTIA, e a Amazon, com seu chip Inferentia, estão tentando algo semelhante.
Pode ser surpreendente que, às vezes, mudanças simples como arredondamento de números ou troca de linguagens de programação possam gerar grandes ganhos de desempenho. Mas isso reflete o rápido desenvolvimento de grandes modelos de linguagem (LLM). Por muitos anos, grandes modelos de linguagem foram principalmente um projeto de pesquisa, e o foco estava principalmente em fazê-los funcionar e produzir resultados válidos, e não na elegância de seu design. Só recentemente eles foram transformados em produtos comerciais para o mercado de massa. A maioria dos especialistas concorda que há muito espaço para melhorias. Como Chris Manning, cientista da computação da Universidade de Stanford, disse: "Não há razão para acreditar que a arquitetura neural usada atualmente (referindo-se à estrutura da rede neural atual) seja ideal e não está descartada a possibilidade de arquiteturas mais avançadas aparecerem. no futuro."