Foram necessárias 10 pessoas e dois meses para construir um modelo grande! Abençoado por 16 artigos de conferências importantes em um ano: nenhum dos melhores do mercado é de código aberto
Uma empresa fundada em Shenzhen em maio deste ano conta com uma equipe de menos de 10 pessoas.
O que eles têm que fazer não é pouca coisa: desafiar a AGI.
Onde está a confiança? Primeiro, observe o currículo anterior e, em segundo lugar, observe os resultados atuais do curso.
No ano passado, essas pessoas publicaram um total de 16 grandes artigos relacionados a modelos em conferências importantes, como CVPR, ICML e ECCV, e um deles foi indicado para o melhor artigo na conferência principal ACL 2023.
Quais foram seus resultados após iniciar seu negócio? Dois meses após a sua criação, o modelo treinado classificou-se entre os três primeiros na lista C, e sua habilidade chinesa derrotou ChatGPT e Claude-v1.3.
Este é o resultado da matriz simbiótica.
E seu modelo GS-LLM está na lista pela primeira vez desde o final de julho, ficando no primeiro escalão entre os 65 players da lista C.
Então, quem é a Matriz Simbiótica?
10 pessoas desafiam AGI
A Symbiotic Matrix visa construir uma fábrica de refinamento de dados industriais baseada na tecnologia AGI autodesenvolvida.
A equipe conta principalmente com o grande modelo GS-LLM desenvolvido pela própria empresa.
A escala de parâmetros do modelo varia de 7B-130B e pode ser adaptada de acordo com as necessidades reais dos usuários.
Existem duas versões baseadas em GS-LLM que ocupam um lugar em C-, uma é a versão GS-LLM-Beta de 10 bilhões de parâmetros e a outra é a versão mini GS-LLM-Beta-Mini com menos de 10 bilhões de parâmetros .
A razão para lançar a versão mini é que muitos usuários descobriram que o ambiente operacional original (mesmo o ambiente em nuvem) não era suficiente para suportar a implantação local em grande escala.
Os resultados do teste descobriram que a versão multibilionária do GS-LLM-Beta pode ter um bom desempenho, com uma melhor classificação em 6º lugar em C-.
Uma das razões pelas quais pode permanecer no topo da lista C é que a matriz simbiótica construiu uma estrutura de formação completamente independente, que fornece suporte técnico relativamente completo para toda a formação.
O segundo ponto são os dados, aos quais esta empresa atribui grande importância.
O CEO da Symbiotic Matrix, Zhang Lin, deu um exemplo simples:
Compare o treinamento do modelo com o processo de crescimento humano. Se tudo o que ela leu desde a infância foram romances nutritivos, a habilidade geral dessa pessoa não será muito forte.
No ano passado, a equipe descobriu em um experimento que quando os dados do modelo atingem uma certa ordem de magnitude, o salto na qualidade dos dados pode, na verdade, causar algumas mudanças qualitativas.
"Em outras palavras, se você tiver um modelo de escala relativamente pequena (como dezenas de bilhões) e alimentá-lo com dados de alta qualidade, os resultados do treinamento serão muito próximos dos resultados de centenas de bilhões de níveis", disse Zhang Lin. .
Esse experimento também fez com que a equipe prestasse mais atenção à qualidade dos dados e às formas sistemáticas de obter dados de alta qualidade.
Na verdade, este ponto tem atraído cada vez mais atenção de todas as esferas da vida recentemente. A Microsoft tem um novo estudo "Os livros didáticos são tudo que você precisa". O trabalho mostra que crescer não é a única saída, mas dados de alta qualidade são crucial.
Como resultado, a equipe da Symbiosis construiu um sistema de engenharia para limpeza de dados para limpá-los continuamente, 24 horas por dia.
A equipe limpou atualmente cerca de 20T de dados de texto que podem ser usados para treinamento: “Este nível de dados pode suportar o treinamento de modelo de um sistema muito grande”.
No entanto, Zhang Lin também revelou que a Symbiotic Matrix não divulgará ao público os dados limpos pela equipe no curto prazo.
Então, qual é o conceito de fábrica de refinamento de dados que a equipe deseja construir?
Zhang Lin explicou que se um modelo grande é entendido como “compressão de informações”, então ele próprio é um grande banco de dados de parâmetros.
O que a fábrica de refinamento de dados precisa fazer é compartilhar e negociar os dados dos parâmetros após o treinamento do modelo.
Você deve saber que as funções de modelos grandes são realizadas por meio de parâmetros. Os parâmetros de transação são, na verdade, funções de comutação. Precisamos da diversidade de funções de modelos grandes. "A negociação de parâmetros é o caminho mais eficiente."
Os dados mencionados aqui não são o tipo de dados que todos podem ver, mas sim dados de parâmetros. Os dados sobre os quais falamos frequentemente são um pedaço de texto ou uma imagem, e os dados de propriedade da fábrica são os parâmetros do modelo treinado, e os parâmetros são comercializados comercialmente.
"Os dados brutos são negociados diretamente, o que é limitado por grandes quantidades e questões de privacidade." Zhang Lin explicou que o conceito de comércio de dados foi proposto há muitos anos, mas não foi totalmente aceito pelo mercado. A equipe acredita que para que os dados possam realmente circular, eles precisam ser mais razoáveis, seguros e eficazes, de modo que as transações de dados em nível de parâmetro foram finalmente determinadas.
Na visão da equipe, após a conclusão da fábrica de refinamento de dados, alguns dados não precisarão ser treinados repetidamente, a eficiência será melhorada e os custos serão reduzidos.
Use menos pessoas e recursos para completar o sistema de modelo grande
Na mania dos grandes modelos, como avaliar modelos grandes tornou-se uma questão importante, razão pela qual surgiram várias listas.
Depois que a Matriz Simbiótica foi listada como C-, o mundo exterior se concentrou em dois pontos principais:
Além dos bons resultados, outro ponto interessante é que é uma equipe pequena e rara na lista.
A equipe disse que a lista não é a única e mais confiável do mundo, mas começou a aparecer na lista um mês após a sua criação, e uma vez alcançou os três primeiros, o que pode refletir que “usamos menos pessoas e recursos para fazer um bom trabalho em sistemas modelo de grande escala."
Isso mesmo, a equipe Symbiosis Matrix tem menos de 10 pessoas.
Não há muitas pessoas, mas todos são muito bons em lutar——
O CEO Zhang Lin, o CTO Wang Junjie e outros membros principais da equipe são todos do IDEA Research Institute e têm rica experiência prática no sistema de código aberto de modelos domésticos de pré-treinamento Fengshenbang (é relatado que Fengshenbang atualmente tem mais de 98 abertos modelos de pré-treinamento de origem)
Zhang Lin formou-se na Universidade Estatal de Nova Iorque com um doutoramento e publicou mais de 30 artigos em conferências de informática de topo. Anteriormente, foi investigador sénior no Instituto de Economia Digital da Grande Baía Guangdong-Hong Kong-Macau (IDEA ).
Wang Junjie possui doutorado em ciência da computação pela Universidade Waseda e anteriormente foi membro principal da grande equipe de modelos Fengshenbang.
△Zhang Lin
Olhando para o mercado atual de IA, não há precedentes para uma pequena equipe fazer um bom trabalho em IA. Há apenas 11 membros por trás do mais famoso modelo de diagrama Vincent Midjourney, conhecido como referência para organizações da nova era. Na era da IA 2.0, muitas equipes empreendedoras de grande porte que enfatizam "pequenas, mas bonitas" surgiram no país e no exterior.
Claro, Zhang Lin disse que a razão mais profunda é que os grandes modelos não são simplesmente projetos que acumulam mão de obra e exigem um pequeno número de equipes de elite para garantir a eficiência.
Ele disse que ao treinar o modelo, aspectos técnicos como otimização do operador, precisão mista, etc., bem como problemas de comunicação ao suportar centenas de cartões ao mesmo tempo, todos testam capacidades de engenharia. Se uma equipe pequena pode resolver os problemas de engenharia encontrados e melhorar a eficiência, não há necessidade de contar com uma equipe grande para resolvê-los.
Além disso, uma pequena equipa técnica central é mais propícia à manutenção da independência ideológica e à exploração de mais possibilidades, não aderindo às regras.No entanto, o acúmulo de mão de obra reduzirá facilmente a eficiência geral.
Segundo sua estimativa, os maiores talentos na área de maquetes de grande porte no país “podem somar apenas cerca de 100 pessoas”, e há pouco espaço para formar uma grande equipe.
Portanto, a equipe permanecerá no tamanho “menos de dez pessoas” por um determinado período de tempo.
Em última análise, esta é uma compreensão diferente dos paradigmas e conceitos por trás da era AI 2.0 e da era AI 1.0.
Durante o processo de comunicação, Zhang Lin também expressou diretamente a compreensão diferente da equipe das vozes convencionais em outro nível, o que se reflete no conceito de código aberto e fechado.
Há algum tempo, quando o LLaMA-2 gratuito e disponível comercialmente foi lançado, muitas pessoas disseram que seria um grande golpe para as startups do mercado, pois o LLaMA-2 pode atender às necessidades da maioria das empresas por menor custo e personalização.
“O LLaMA-2 não mudou a estrutura do mercado.” Aos olhos da equipe da Symbiosis, equipes verdadeiramente líderes não abrem tecnologias essenciais de código-fonte.
Zhang Lin também acrescentou que, no estágio atual, a importância do código aberto reside mais na educação do mercado do que na promoção da comercialização.
Assim como o Raspberry Pi é significativo para os entusiastas da eletrônica, mas não mudará o mercado de computadores móveis, o LLAMA 2 é mais valioso para usuários iniciantes, mas terá pouco impacto nos usuários que desejam se tornar comerciais.
Ainda existem muitas matrizes simbióticas com visões e entendimentos “não convencionais” como este.
Por exemplo, não acreditamos que os grandes modelos sejam o ponto final da IA geral, nem acreditamos que o ChatGPT represente a direção final.
Eles também são cautelosos quanto à rápida expansão do estilo unicórnio e prestam mais atenção à coesão da equipe e ao acúmulo de tecnologia.
……
Em relação à rota de desenvolvimento futuro, a Symbiosis Matrix opta por ser de código fechado no curto prazo e pode ser de código aberto de forma adequada no futuro, sob oportunidades adequadas.
O código aberto precisa ter objetivos claros orientados para os negócios. Atualmente, a tecnologia de grande modelo ainda está no estágio de rápida iteração e competição, e a tecnologia central de código aberto corre o risco de perder sua vantagem de ser pioneira.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
Foram necessárias 10 pessoas e dois meses para construir um modelo grande! Abençoado por 16 artigos de conferências importantes em um ano: nenhum dos melhores do mercado é de código aberto
Autor: Hengyu
**Fonte: **Qubits
Uma empresa fundada em Shenzhen em maio deste ano conta com uma equipe de menos de 10 pessoas.
O que eles têm que fazer não é pouca coisa: desafiar a AGI.
Onde está a confiança? Primeiro, observe o currículo anterior e, em segundo lugar, observe os resultados atuais do curso.
No ano passado, essas pessoas publicaram um total de 16 grandes artigos relacionados a modelos em conferências importantes, como CVPR, ICML e ECCV, e um deles foi indicado para o melhor artigo na conferência principal ACL 2023.
Quais foram seus resultados após iniciar seu negócio? Dois meses após a sua criação, o modelo treinado classificou-se entre os três primeiros na lista C, e sua habilidade chinesa derrotou ChatGPT e Claude-v1.3.
Este é o resultado da matriz simbiótica.
E seu modelo GS-LLM está na lista pela primeira vez desde o final de julho, ficando no primeiro escalão entre os 65 players da lista C.
Então, quem é a Matriz Simbiótica?
10 pessoas desafiam AGI
A Symbiotic Matrix visa construir uma fábrica de refinamento de dados industriais baseada na tecnologia AGI autodesenvolvida.
A equipe conta principalmente com o grande modelo GS-LLM desenvolvido pela própria empresa.
A escala de parâmetros do modelo varia de 7B-130B e pode ser adaptada de acordo com as necessidades reais dos usuários.
Existem duas versões baseadas em GS-LLM que ocupam um lugar em C-, uma é a versão GS-LLM-Beta de 10 bilhões de parâmetros e a outra é a versão mini GS-LLM-Beta-Mini com menos de 10 bilhões de parâmetros .
A razão para lançar a versão mini é que muitos usuários descobriram que o ambiente operacional original (mesmo o ambiente em nuvem) não era suficiente para suportar a implantação local em grande escala.
Os resultados do teste descobriram que a versão multibilionária do GS-LLM-Beta pode ter um bom desempenho, com uma melhor classificação em 6º lugar em C-.
Uma das razões pelas quais pode permanecer no topo da lista C é que a matriz simbiótica construiu uma estrutura de formação completamente independente, que fornece suporte técnico relativamente completo para toda a formação.
O segundo ponto são os dados, aos quais esta empresa atribui grande importância.
O CEO da Symbiotic Matrix, Zhang Lin, deu um exemplo simples:
Compare o treinamento do modelo com o processo de crescimento humano. Se tudo o que ela leu desde a infância foram romances nutritivos, a habilidade geral dessa pessoa não será muito forte.
No ano passado, a equipe descobriu em um experimento que quando os dados do modelo atingem uma certa ordem de magnitude, o salto na qualidade dos dados pode, na verdade, causar algumas mudanças qualitativas.
"Em outras palavras, se você tiver um modelo de escala relativamente pequena (como dezenas de bilhões) e alimentá-lo com dados de alta qualidade, os resultados do treinamento serão muito próximos dos resultados de centenas de bilhões de níveis", disse Zhang Lin. .
Esse experimento também fez com que a equipe prestasse mais atenção à qualidade dos dados e às formas sistemáticas de obter dados de alta qualidade.
Na verdade, este ponto tem atraído cada vez mais atenção de todas as esferas da vida recentemente. A Microsoft tem um novo estudo "Os livros didáticos são tudo que você precisa". O trabalho mostra que crescer não é a única saída, mas dados de alta qualidade são crucial.
Como resultado, a equipe da Symbiosis construiu um sistema de engenharia para limpeza de dados para limpá-los continuamente, 24 horas por dia.
A equipe limpou atualmente cerca de 20T de dados de texto que podem ser usados para treinamento: “Este nível de dados pode suportar o treinamento de modelo de um sistema muito grande”.
No entanto, Zhang Lin também revelou que a Symbiotic Matrix não divulgará ao público os dados limpos pela equipe no curto prazo.
Então, qual é o conceito de fábrica de refinamento de dados que a equipe deseja construir?
Zhang Lin explicou que se um modelo grande é entendido como “compressão de informações”, então ele próprio é um grande banco de dados de parâmetros.
O que a fábrica de refinamento de dados precisa fazer é compartilhar e negociar os dados dos parâmetros após o treinamento do modelo.
Você deve saber que as funções de modelos grandes são realizadas por meio de parâmetros. Os parâmetros de transação são, na verdade, funções de comutação. Precisamos da diversidade de funções de modelos grandes. "A negociação de parâmetros é o caminho mais eficiente."
Os dados mencionados aqui não são o tipo de dados que todos podem ver, mas sim dados de parâmetros. Os dados sobre os quais falamos frequentemente são um pedaço de texto ou uma imagem, e os dados de propriedade da fábrica são os parâmetros do modelo treinado, e os parâmetros são comercializados comercialmente.
"Os dados brutos são negociados diretamente, o que é limitado por grandes quantidades e questões de privacidade." Zhang Lin explicou que o conceito de comércio de dados foi proposto há muitos anos, mas não foi totalmente aceito pelo mercado. A equipe acredita que para que os dados possam realmente circular, eles precisam ser mais razoáveis, seguros e eficazes, de modo que as transações de dados em nível de parâmetro foram finalmente determinadas.
Na visão da equipe, após a conclusão da fábrica de refinamento de dados, alguns dados não precisarão ser treinados repetidamente, a eficiência será melhorada e os custos serão reduzidos.
Use menos pessoas e recursos para completar o sistema de modelo grande
Na mania dos grandes modelos, como avaliar modelos grandes tornou-se uma questão importante, razão pela qual surgiram várias listas.
Depois que a Matriz Simbiótica foi listada como C-, o mundo exterior se concentrou em dois pontos principais:
Além dos bons resultados, outro ponto interessante é que é uma equipe pequena e rara na lista.
A equipe disse que a lista não é a única e mais confiável do mundo, mas começou a aparecer na lista um mês após a sua criação, e uma vez alcançou os três primeiros, o que pode refletir que “usamos menos pessoas e recursos para fazer um bom trabalho em sistemas modelo de grande escala."
Isso mesmo, a equipe Symbiosis Matrix tem menos de 10 pessoas.
Não há muitas pessoas, mas todos são muito bons em lutar——
O CEO Zhang Lin, o CTO Wang Junjie e outros membros principais da equipe são todos do IDEA Research Institute e têm rica experiência prática no sistema de código aberto de modelos domésticos de pré-treinamento Fengshenbang (é relatado que Fengshenbang atualmente tem mais de 98 abertos modelos de pré-treinamento de origem)
Zhang Lin formou-se na Universidade Estatal de Nova Iorque com um doutoramento e publicou mais de 30 artigos em conferências de informática de topo. Anteriormente, foi investigador sénior no Instituto de Economia Digital da Grande Baía Guangdong-Hong Kong-Macau (IDEA ).
Wang Junjie possui doutorado em ciência da computação pela Universidade Waseda e anteriormente foi membro principal da grande equipe de modelos Fengshenbang.
Olhando para o mercado atual de IA, não há precedentes para uma pequena equipe fazer um bom trabalho em IA. Há apenas 11 membros por trás do mais famoso modelo de diagrama Vincent Midjourney, conhecido como referência para organizações da nova era. Na era da IA 2.0, muitas equipes empreendedoras de grande porte que enfatizam "pequenas, mas bonitas" surgiram no país e no exterior.
Claro, Zhang Lin disse que a razão mais profunda é que os grandes modelos não são simplesmente projetos que acumulam mão de obra e exigem um pequeno número de equipes de elite para garantir a eficiência.
Ele disse que ao treinar o modelo, aspectos técnicos como otimização do operador, precisão mista, etc., bem como problemas de comunicação ao suportar centenas de cartões ao mesmo tempo, todos testam capacidades de engenharia. Se uma equipe pequena pode resolver os problemas de engenharia encontrados e melhorar a eficiência, não há necessidade de contar com uma equipe grande para resolvê-los.
Além disso, uma pequena equipa técnica central é mais propícia à manutenção da independência ideológica e à exploração de mais possibilidades, não aderindo às regras.No entanto, o acúmulo de mão de obra reduzirá facilmente a eficiência geral.
Segundo sua estimativa, os maiores talentos na área de maquetes de grande porte no país “podem somar apenas cerca de 100 pessoas”, e há pouco espaço para formar uma grande equipe.
Portanto, a equipe permanecerá no tamanho “menos de dez pessoas” por um determinado período de tempo.
Em última análise, esta é uma compreensão diferente dos paradigmas e conceitos por trás da era AI 2.0 e da era AI 1.0.
Durante o processo de comunicação, Zhang Lin também expressou diretamente a compreensão diferente da equipe das vozes convencionais em outro nível, o que se reflete no conceito de código aberto e fechado.
Há algum tempo, quando o LLaMA-2 gratuito e disponível comercialmente foi lançado, muitas pessoas disseram que seria um grande golpe para as startups do mercado, pois o LLaMA-2 pode atender às necessidades da maioria das empresas por menor custo e personalização.
“O LLaMA-2 não mudou a estrutura do mercado.” Aos olhos da equipe da Symbiosis, equipes verdadeiramente líderes não abrem tecnologias essenciais de código-fonte.
Zhang Lin também acrescentou que, no estágio atual, a importância do código aberto reside mais na educação do mercado do que na promoção da comercialização.
Assim como o Raspberry Pi é significativo para os entusiastas da eletrônica, mas não mudará o mercado de computadores móveis, o LLAMA 2 é mais valioso para usuários iniciantes, mas terá pouco impacto nos usuários que desejam se tornar comerciais.
Ainda existem muitas matrizes simbióticas com visões e entendimentos “não convencionais” como este.
Por exemplo, não acreditamos que os grandes modelos sejam o ponto final da IA geral, nem acreditamos que o ChatGPT represente a direção final.
Eles também são cautelosos quanto à rápida expansão do estilo unicórnio e prestam mais atenção à coesão da equipe e ao acúmulo de tecnologia.
……
Em relação à rota de desenvolvimento futuro, a Symbiosis Matrix opta por ser de código fechado no curto prazo e pode ser de código aberto de forma adequada no futuro, sob oportunidades adequadas.
O código aberto precisa ter objetivos claros orientados para os negócios. Atualmente, a tecnologia de grande modelo ainda está no estágio de rápida iteração e competição, e a tecnologia central de código aberto corre o risco de perder sua vantagem de ser pioneira.