Desde o advento do chatGPT, a IA tem evoluído rapidamente mensalmente. Com tantos modelos e iterações rápidas, muitas pessoas não podem deixar de perceber que os humanos parecem estar realmente à beira do portão AGI.
Recentemente, um documento divulgado pelo Escritório de Marcas e Patentes dos Estados Unidos (USPTO) mostra que a OpenAI apresentou um pedido de marca registrada para "GPT-5" em 18 de julho. e foi aceito.
Captura de tela do arquivo USPTO
Embora no primeiro semestre deste ano, vários especialistas e acadêmicos de IA tenham emitido várias cartas abertas em conjunto, pedindo às pessoas que prestem atenção aos riscos potenciais da IA generativa, e a OpenAI também anunciou na época que não teria um plano para treinar GPT-5 no curto prazo.
No entanto, a tentação da ciência e da tecnologia finalmente permitiu que os seres humanos rompessem os limites do tabu.
No aplicativo divulgado desta vez, a OpenAI mencionou que o inédito GPT-5 terá muitos recursos que o GPT-4 não possui, e quase todos os itens se referem ao AGI.
Captura de tela do arquivo USPTO
Então, o que essa mudança significa para a IA e os humanos?
Hoje, este artigo tentará conduzir uma análise simples das possíveis funções, mudanças e impacto do GPT-5 a partir das informações limitadas divulgadas nos documentos de aplicação da OpenAI.
01 O caminho para a AGI
No documento desta vez divulgado, uma das primeiras mudanças apontadas pela OpenAI é o aprimoramento das funções multimodais.
Especificamente, as funções do GPT-5 incluem tradução de texto ou fala de um idioma para outro, reconhecimento de fala, geração de texto e fala e muito mais.
Embora no GPT-4 atual, os usuários também possam obter tradução entre diferentes idiomas, mas como a função de tradução é destacada aqui, ela deve ter sido otimizada novamente.
Por que o OpenAI destaca tanto a capacidade de tradução do GPT-5?
Isso pode ocorrer porque um dos pré-requisitos para que o GPT se torne universal é minimizar a diferença de custo do uso de modelos grandes em diferentes idiomas.
Anteriormente, os resultados da pesquisa da Universidade de Oxford mostraram que, devido à medição do custo do servidor e aos métodos de cobrança adotados por serviços como o OpenAI, o custo de entrada e saída em inglês é muito menor do que em outros idiomas.
Entre eles, o custo do chinês simplificado é cerca de duas vezes maior que o do inglês, o espanhol é 1,5 vezes maior do que o inglês e a língua shan em Mianmar é 15 vezes maior do que o inglês.
Como idiomas como o chinês têm estruturas diferentes e mais complexas, eles exigem uma taxa de lematização mais alta.
Por exemplo, de acordo com o tokenizador GPT3 da OpenAI, o token para "sua afeição" requer apenas dois tokens em inglês, mas oito tokens em chinês simplificado.
Isso significa que, para outros idiomas além do inglês, é muito mais caro usar e treinar modelos.
E assim que o limiar da "barreira do idioma" for ultrapassado, essa barreira universal diante da GPT será, sem dúvida, eliminada diretamente.
Além disso, a proeminente função de reconhecimento de fala no documento parece ser apenas uma mudança discreta, mas até certo ponto, esta é outra parte da pavimentação do GPT-5 da OpenAI no caminho para o tijolo AGI.
Como todos sabemos, na direção do desenvolvimento futuro de modelos grandes, tornou-se uma tendência cada vez mais óbvia que os modelos se tornem marginalizados e terminalizados.
Desde que a Qualcomm lançou um modelo grande com 1 bilhão de parâmetros que pode ser executado em telefones celulares em julho deste ano, fabricantes como Honor e Apple também anunciaram que lançarão seus próprios telefones celulares de "modelo grande".
A partir de telefones celulares, os dados de IA no futuro serão cada vez mais processados no lado do terminal, como câmeras, sensores e direção autônoma.
Em tal cenário de aplicação, o reconhecimento de fala é, sem dúvida, mais conveniente e eficiente.
Por exemplo, o modelo de linguagem AI permite que o motorista controle o veículo por voz. Converta os comandos de voz do motorista em comandos executáveis, como iniciar, parar, acelerar, frear e outras operações.
Os assistentes inteligentes que existem no sistema de telefonia móvel, como o SIri, também darão prioridade ao controle por meio de comandos de voz.
Pode-se ver que o reconhecimento de fala não é apenas a cereja do bolo, mas uma "configuração padrão" quando o GPT-5 entra no lado do terminal.
E através do afundamento de cada dispositivo terminal, o GPT-5 também obterá estruturas de dados mais marginalizadas e não linguísticas.
Afinal, desde o desenvolvimento do modelo grande, os dados de texto que podem ser absorvidos são quase os mesmos.Se quisermos dar mais um passo no caminho da AGI, esse tipo de dado "não textual" é muito importante.
02 Modelo Especialista em Desafio
Além das características acima, o documento apresentado pela OpenAI também mencionou: “O GPT-5 também pode ter a capacidade de aprender, analisar, classificar e responder aos dados”.
A julgar pela tendência atual de desenvolvimento da inteligência artificial, isso provavelmente significa que o GPT-5 tem a capacidade de aprendizado ativo semelhante à de um corpo inteligente.
E essa capacidade tornará o GPT-5 fundamentalmente diferente dos modelos anteriores, que só podem aprender novos conhecimentos passivamente por meio de dados de alimentação humana.
Especificamente, a capacidade de aprendizado ativo significa que o modelo pode selecionar, adquirir e processar dados de forma independente de acordo com seus próprios objetivos e necessidades, em vez de depender apenas dos dados fornecidos por humanos.
Isso permite que o modelo utilize as informações e o conhecimento dos dados com mais eficiência e se adapte com mais flexibilidade a diferentes ambientes de dados e cenários de tarefas, em vez de apenas receber e enviar dados passivamente.
E tal habilidade é particularmente importante quando o GPT-5 enfrenta alguns campos relativamente desconhecidos e verticais.
Alguns campos específicos, como medicina, direito, finanças, etc., geralmente têm seus próprios termos, regras e sistemas de conhecimento específicos, que podem ser difíceis de entender e processar para modelos de linguagem comum.
Se o GPT-5 tiver a capacidade de aprendizado ativo, ele pode coletar e atualizar automaticamente dados relevantes nesses campos da Internet, analisar e classificar os conceitos básicos, princípios importantes e desenvolvimentos mais recentes nesses campos e responder a problemas comuns nesses campos. , Casos típicos e aplicações práticas.
Dessa forma, o GPT-5 pode dominar os conhecimentos nesses campos mais rapidamente e concluir as tarefas correspondentes nesses campos com mais precisão e eficiência.
E tudo isso é a chave para o modelo geral real.
Porque se o GPT sempre precisa estar conectado a um "modelo especialista" específico para resolver tarefas profissionais, não se pode dizer que seja verdadeiramente "universal".
Porque isso levará a GPT a diferenças e dependência das capacidades de inteligência de diferentes campos e cenários, e também aumentará os custos de comunicação e coordenação entre GPT e o "modelo especialista", e não pode garantir que serviços de alta qualidade possam ser alcançados sob qualquer circunstâncias.
Anteriormente, a mídia estrangeira Semianalysis revelou os segredos do GPT-4 lançado em março deste ano, expondo que o OpenAI usa um modelo especializado misto para construir o GPT-4.
Segundo a notícia, o GPT-4 usa 16 modelos especialistas mistos (mistura de especialistas), cada um com 111 bilhões de parâmetros, e cada rota de passagem direta passa por dois modelos especialistas.
No entanto, modelos mais especializados significam que é mais difícil generalizar e alcançar a convergência.
Isso ocorre porque cada modelo especialista tem seus próprios parâmetros e estratégias, muitas vezes difíceis de coordenar, o que torna difícil para o GPT equilibrar e "levar em consideração a situação geral".
Depois de ter a capacidade de aprendizado ativo, o GPT-5 será capaz de usar recursos de compreensão e raciocínio multimodais, bem como mapas e bancos de dados de conhecimento, para analisar e entender os dados adquiridos e, por meio de algoritmos e classificadores de agrupamento, vincular e resumir dados relacionados .
Dessa forma, o GPT-5 pode efetivamente usar as informações e o conhecimento nos dados de acordo com diferentes ambientes de dados e cenários de tarefas.
03 substituir mais trabalho
Como mencionado acima, depois de superar a barreira do idioma e entrar no lado do terminal com uma função conveniente de reconhecimento de fala, o GPT-5 continuará a absorver conhecimento em diferentes cenários, campos e modos por meio de recursos de aprendizado ativo contínuo e, em seguida, seguirá em direção ao caminho para AGI está se movendo em alta velocidade.
É previsível que quando o GPT-5 com tão forte "universalidade" começar a se espalhar para vários campos, exceto para alguns setores com barreiras de dados (como assistência médica), grandes modelos na maioria dos campos verticais serão gradualmente eclipsados.
Porque, em última análise, muitos especialistas ou modelos verticais de grande escala são essencialmente produtos de algumas empresas com poder de computação e dados insuficientes, incapazes de escalar o "modelo geral de grande escala" e precisam se contentar com o próximo melhor (isso é especialmente óbvio na China).
Se um grande modelo de uso geral pode ser proficiente na maioria dos setores em virtude de sua forte capacidade de aprendizado, quem estaria disposto a alternar entre diferentes modelos de maneira tediosa e arcar com vários custos de treinamento e uso para diferentes modelos?
Deste ponto de vista, o modelo especialista é gradualmente substituído pelo modelo geral, que é um processo histórico inevitável para os seres humanos no caminho da AGI.
Outro fenômeno que acompanha isso é que tarefas mais subdivididas e triviais são substituídas.
Porque com um modelo geral mais poderoso, as pessoas descobrirão que, de fato, o conteúdo do trabalho de muitos cargos pode ser mesclado e integrado.
Gerentes de produto e analistas de dados são um exemplo possível.
Por exemplo, em um projeto de desenvolvimento de um novo produto, o GPT-5 pode pesquisar pesquisas de mercado relevantes, análises de produtos competitivos, retratos de usuários e outros dados da Internet de acordo com um determinado conceito ou demanda de produto e baixá-los em sua própria memória.
Depois disso, ele irá analisar e entender os dados adquiridos por meio de sua própria compreensão multimodal e capacidades de raciocínio lógico, bem como gráficos de conhecimento e bancos de dados.
Depois de obter os dados correspondentes, classificá-los e organizá-los, o GPT-5 aprenderá estratégias de marketing relevantes, feedback do usuário e outras informações do feedback do sistema de diálogo por meio da capacidade de compreensão da linguagem e as comparará com os conceitos ou necessidades do produto fornecidos. e avaliado.
Desta forma, os dois cargos de gerente de produto e analista de dados são efetivamente "fundidos".
No caminho inacabado para a AGI, existem inúmeros trabalhos que são mesclados e substituídos.
Portanto, um GPT-5 mais versátil não é apenas um benefício para o progresso da produtividade, mas também um prelúdio para um grande terremoto na indústria.
Nessa época, muitas empresas que ainda não têm a capacidade de usar modelos em grande escala e carecem de barreiras da indústria, desmoronarão fragilmente como castelos construídos na areia.
E os indivíduos mais comuns, diante dos cargos que vão sendo constantemente substituídos, sentirão mais profundamente a incerteza dos tempos...
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
GPT-5 está chegando? Que mudanças drásticas acontecerão na indústria de IA
Desde o advento do chatGPT, a IA tem evoluído rapidamente mensalmente. Com tantos modelos e iterações rápidas, muitas pessoas não podem deixar de perceber que os humanos parecem estar realmente à beira do portão AGI.
Recentemente, um documento divulgado pelo Escritório de Marcas e Patentes dos Estados Unidos (USPTO) mostra que a OpenAI apresentou um pedido de marca registrada para "GPT-5" em 18 de julho. e foi aceito.
Captura de tela do arquivo USPTO
Embora no primeiro semestre deste ano, vários especialistas e acadêmicos de IA tenham emitido várias cartas abertas em conjunto, pedindo às pessoas que prestem atenção aos riscos potenciais da IA generativa, e a OpenAI também anunciou na época que não teria um plano para treinar GPT-5 no curto prazo.
No entanto, a tentação da ciência e da tecnologia finalmente permitiu que os seres humanos rompessem os limites do tabu.
No aplicativo divulgado desta vez, a OpenAI mencionou que o inédito GPT-5 terá muitos recursos que o GPT-4 não possui, e quase todos os itens se referem ao AGI.
Captura de tela do arquivo USPTO
Então, o que essa mudança significa para a IA e os humanos?
Hoje, este artigo tentará conduzir uma análise simples das possíveis funções, mudanças e impacto do GPT-5 a partir das informações limitadas divulgadas nos documentos de aplicação da OpenAI.
01 O caminho para a AGI
No documento desta vez divulgado, uma das primeiras mudanças apontadas pela OpenAI é o aprimoramento das funções multimodais.
Especificamente, as funções do GPT-5 incluem tradução de texto ou fala de um idioma para outro, reconhecimento de fala, geração de texto e fala e muito mais.
Embora no GPT-4 atual, os usuários também possam obter tradução entre diferentes idiomas, mas como a função de tradução é destacada aqui, ela deve ter sido otimizada novamente.
Por que o OpenAI destaca tanto a capacidade de tradução do GPT-5?
Isso pode ocorrer porque um dos pré-requisitos para que o GPT se torne universal é minimizar a diferença de custo do uso de modelos grandes em diferentes idiomas.
Anteriormente, os resultados da pesquisa da Universidade de Oxford mostraram que, devido à medição do custo do servidor e aos métodos de cobrança adotados por serviços como o OpenAI, o custo de entrada e saída em inglês é muito menor do que em outros idiomas.
Entre eles, o custo do chinês simplificado é cerca de duas vezes maior que o do inglês, o espanhol é 1,5 vezes maior do que o inglês e a língua shan em Mianmar é 15 vezes maior do que o inglês.
Como idiomas como o chinês têm estruturas diferentes e mais complexas, eles exigem uma taxa de lematização mais alta.
Por exemplo, de acordo com o tokenizador GPT3 da OpenAI, o token para "sua afeição" requer apenas dois tokens em inglês, mas oito tokens em chinês simplificado.
Isso significa que, para outros idiomas além do inglês, é muito mais caro usar e treinar modelos.
E assim que o limiar da "barreira do idioma" for ultrapassado, essa barreira universal diante da GPT será, sem dúvida, eliminada diretamente.
Além disso, a proeminente função de reconhecimento de fala no documento parece ser apenas uma mudança discreta, mas até certo ponto, esta é outra parte da pavimentação do GPT-5 da OpenAI no caminho para o tijolo AGI.
Como todos sabemos, na direção do desenvolvimento futuro de modelos grandes, tornou-se uma tendência cada vez mais óbvia que os modelos se tornem marginalizados e terminalizados.
Desde que a Qualcomm lançou um modelo grande com 1 bilhão de parâmetros que pode ser executado em telefones celulares em julho deste ano, fabricantes como Honor e Apple também anunciaram que lançarão seus próprios telefones celulares de "modelo grande".
A partir de telefones celulares, os dados de IA no futuro serão cada vez mais processados no lado do terminal, como câmeras, sensores e direção autônoma.
Em tal cenário de aplicação, o reconhecimento de fala é, sem dúvida, mais conveniente e eficiente.
Por exemplo, o modelo de linguagem AI permite que o motorista controle o veículo por voz. Converta os comandos de voz do motorista em comandos executáveis, como iniciar, parar, acelerar, frear e outras operações.
Os assistentes inteligentes que existem no sistema de telefonia móvel, como o SIri, também darão prioridade ao controle por meio de comandos de voz.
Pode-se ver que o reconhecimento de fala não é apenas a cereja do bolo, mas uma "configuração padrão" quando o GPT-5 entra no lado do terminal.
E através do afundamento de cada dispositivo terminal, o GPT-5 também obterá estruturas de dados mais marginalizadas e não linguísticas.
Afinal, desde o desenvolvimento do modelo grande, os dados de texto que podem ser absorvidos são quase os mesmos.Se quisermos dar mais um passo no caminho da AGI, esse tipo de dado "não textual" é muito importante.
02 Modelo Especialista em Desafio
Além das características acima, o documento apresentado pela OpenAI também mencionou: “O GPT-5 também pode ter a capacidade de aprender, analisar, classificar e responder aos dados”.
A julgar pela tendência atual de desenvolvimento da inteligência artificial, isso provavelmente significa que o GPT-5 tem a capacidade de aprendizado ativo semelhante à de um corpo inteligente.
E essa capacidade tornará o GPT-5 fundamentalmente diferente dos modelos anteriores, que só podem aprender novos conhecimentos passivamente por meio de dados de alimentação humana.
Especificamente, a capacidade de aprendizado ativo significa que o modelo pode selecionar, adquirir e processar dados de forma independente de acordo com seus próprios objetivos e necessidades, em vez de depender apenas dos dados fornecidos por humanos.
Isso permite que o modelo utilize as informações e o conhecimento dos dados com mais eficiência e se adapte com mais flexibilidade a diferentes ambientes de dados e cenários de tarefas, em vez de apenas receber e enviar dados passivamente.
E tal habilidade é particularmente importante quando o GPT-5 enfrenta alguns campos relativamente desconhecidos e verticais.
Alguns campos específicos, como medicina, direito, finanças, etc., geralmente têm seus próprios termos, regras e sistemas de conhecimento específicos, que podem ser difíceis de entender e processar para modelos de linguagem comum.
Se o GPT-5 tiver a capacidade de aprendizado ativo, ele pode coletar e atualizar automaticamente dados relevantes nesses campos da Internet, analisar e classificar os conceitos básicos, princípios importantes e desenvolvimentos mais recentes nesses campos e responder a problemas comuns nesses campos. , Casos típicos e aplicações práticas.
Dessa forma, o GPT-5 pode dominar os conhecimentos nesses campos mais rapidamente e concluir as tarefas correspondentes nesses campos com mais precisão e eficiência.
E tudo isso é a chave para o modelo geral real.
Porque se o GPT sempre precisa estar conectado a um "modelo especialista" específico para resolver tarefas profissionais, não se pode dizer que seja verdadeiramente "universal".
Porque isso levará a GPT a diferenças e dependência das capacidades de inteligência de diferentes campos e cenários, e também aumentará os custos de comunicação e coordenação entre GPT e o "modelo especialista", e não pode garantir que serviços de alta qualidade possam ser alcançados sob qualquer circunstâncias.
Anteriormente, a mídia estrangeira Semianalysis revelou os segredos do GPT-4 lançado em março deste ano, expondo que o OpenAI usa um modelo especializado misto para construir o GPT-4.
Segundo a notícia, o GPT-4 usa 16 modelos especialistas mistos (mistura de especialistas), cada um com 111 bilhões de parâmetros, e cada rota de passagem direta passa por dois modelos especialistas.
No entanto, modelos mais especializados significam que é mais difícil generalizar e alcançar a convergência.
Isso ocorre porque cada modelo especialista tem seus próprios parâmetros e estratégias, muitas vezes difíceis de coordenar, o que torna difícil para o GPT equilibrar e "levar em consideração a situação geral".
Depois de ter a capacidade de aprendizado ativo, o GPT-5 será capaz de usar recursos de compreensão e raciocínio multimodais, bem como mapas e bancos de dados de conhecimento, para analisar e entender os dados adquiridos e, por meio de algoritmos e classificadores de agrupamento, vincular e resumir dados relacionados .
Dessa forma, o GPT-5 pode efetivamente usar as informações e o conhecimento nos dados de acordo com diferentes ambientes de dados e cenários de tarefas.
03 substituir mais trabalho
Como mencionado acima, depois de superar a barreira do idioma e entrar no lado do terminal com uma função conveniente de reconhecimento de fala, o GPT-5 continuará a absorver conhecimento em diferentes cenários, campos e modos por meio de recursos de aprendizado ativo contínuo e, em seguida, seguirá em direção ao caminho para AGI está se movendo em alta velocidade.
É previsível que quando o GPT-5 com tão forte "universalidade" começar a se espalhar para vários campos, exceto para alguns setores com barreiras de dados (como assistência médica), grandes modelos na maioria dos campos verticais serão gradualmente eclipsados.
Porque, em última análise, muitos especialistas ou modelos verticais de grande escala são essencialmente produtos de algumas empresas com poder de computação e dados insuficientes, incapazes de escalar o "modelo geral de grande escala" e precisam se contentar com o próximo melhor (isso é especialmente óbvio na China).
Se um grande modelo de uso geral pode ser proficiente na maioria dos setores em virtude de sua forte capacidade de aprendizado, quem estaria disposto a alternar entre diferentes modelos de maneira tediosa e arcar com vários custos de treinamento e uso para diferentes modelos?
Deste ponto de vista, o modelo especialista é gradualmente substituído pelo modelo geral, que é um processo histórico inevitável para os seres humanos no caminho da AGI.
Outro fenômeno que acompanha isso é que tarefas mais subdivididas e triviais são substituídas.
Porque com um modelo geral mais poderoso, as pessoas descobrirão que, de fato, o conteúdo do trabalho de muitos cargos pode ser mesclado e integrado.
Gerentes de produto e analistas de dados são um exemplo possível.
Por exemplo, em um projeto de desenvolvimento de um novo produto, o GPT-5 pode pesquisar pesquisas de mercado relevantes, análises de produtos competitivos, retratos de usuários e outros dados da Internet de acordo com um determinado conceito ou demanda de produto e baixá-los em sua própria memória.
Depois disso, ele irá analisar e entender os dados adquiridos por meio de sua própria compreensão multimodal e capacidades de raciocínio lógico, bem como gráficos de conhecimento e bancos de dados.
Depois de obter os dados correspondentes, classificá-los e organizá-los, o GPT-5 aprenderá estratégias de marketing relevantes, feedback do usuário e outras informações do feedback do sistema de diálogo por meio da capacidade de compreensão da linguagem e as comparará com os conceitos ou necessidades do produto fornecidos. e avaliado.
Desta forma, os dois cargos de gerente de produto e analista de dados são efetivamente "fundidos".
No caminho inacabado para a AGI, existem inúmeros trabalhos que são mesclados e substituídos.
Portanto, um GPT-5 mais versátil não é apenas um benefício para o progresso da produtividade, mas também um prelúdio para um grande terremoto na indústria.
Nessa época, muitas empresas que ainda não têm a capacidade de usar modelos em grande escala e carecem de barreiras da indústria, desmoronarão fragilmente como castelos construídos na areia.
E os indivíduos mais comuns, diante dos cargos que vão sendo constantemente substituídos, sentirão mais profundamente a incerteza dos tempos...