A MLPerf divulgou a classificação e as empresas chinesas de chips de IA ficaram em primeiro lugar no mundo novamente! Três campeões de inferência de modelos grandes, desempenho superando o H100
À medida que as aplicações AIGC, como o ChatGPT, desencadearam uma onda de grandes modelos, a camada de poder computacional, como infraestrutura, tornou-se a primeira indústria a beneficiar.
No entanto, problemas como a elevada procura de poder de computação e o elevado custo tornaram-se pontos problemáticos comuns para as empresas implementarem grandes modelos e são mais propensos a restringir o desenvolvimento da IA: os parâmetros dos grandes modelos estão a aumentar dia a dia, e a computação o gargalo no fornecimento de energia é iminente, criando uma enorme contradição entre os dois.
Como explorar melhores soluções de poder de computação para modelos grandes é um foco comum na indústria.
Recentemente, a avaliação oficial mundial MLPerf anunciou os mais recentes resultados de avaliação de inferência. Esta é a primeira vez que MLPerf introduziu o teste de inferência de modelo grande GPT. A taxa de participação atingiu um novo recorde, com mais de 13.500 resultados de desempenho enviados pela NVIDIA, Intel , Google, Qualcomm e outras empresas.
No MLPerf Inference 3.1, a placa de computação Moffet AI S30 ficou em primeiro lugar no poder de computação de uma única placa, 4 placas e 8 placas no modelo grande GPT-J (6 bilhões de parâmetros).
Esta é a terceira defesa de título consecutiva de Mo Xin no MLPerf.
O núcleo de tinta já conquistou o primeiro lugar no MLPerf Inference 2.0 e 2.1 por dois anos consecutivos.
Placa de computação Ink core S30
As conquistas do núcleo de tinta trouxeram direções de inovação viáveis para soluções de poder de computação de modelos em grande escala.
Os factos provaram que a inovação colaborativa de hardware e software que combina modelos de IA com plataformas informáticas pode libertar um maior potencial de poder computacional. Isto também prova mais uma vez que as tecnologias inovadoras representadas pela computação esparsa serão a chave para o desenvolvimento do poder computacional na era dos grandes modelos.
A Ink Core participa da divisão aberta MLPerf, que, segundo a organizadora MLCommons, tem como objetivo incentivar a inovação. Portanto, os concorrentes podem explorar maneiras de melhorar o poder computacional por meio da colaboração de software e hardware.
No modelo grande GPT-J no MLPerf, em comparação com a solução de aceleração de hardware pura H100 do processo de 4 nm, a placa de computação Ink Core S30 do processo de 12 nm alcançou até 1,8 vezes a velocidade por meio do "algoritmo esparso duplo original + colaboração de hardware "método. Vantagem.
O modelo GPT-J para esta avaliação é um modelo de IA generativo. Nos modos de 8 placas, 4 placas e placa única, o desempenho da placa de computação Ink Core S30 é 170,59, 91,57 e 23,28 (amostra/s). respectivamente, atingindo o desempenho da NVIDIA H100 1,6 vezes, 1,8 vezes e 1,8 vezes, demonstrando as capacidades dos produtos principais de tinta em tarefas AIGC.
Vencendo o campeonato três vezes, o grande poder de computação do modelo foi o primeiro a "entregar no teste", e a colaboração de software e hardware continuou a inovar - a força do produto do Ink Core foi rigorosamente testada várias vezes pelo MLPerf, e também explorou novos caminhos para o desenvolvimento do poder de computação de grandes modelos.
Computação esparsa —— "ações potenciais" de grandes modelos ganham reconhecimento do mercado
Os excelentes resultados contínuos do núcleo de tinta devem-se principalmente ao design colaborativo de software e hardware baseado no algoritmo de esparsificação.
Na era dos grandes modelos, a importância da computação esparsa é evidente: o tamanho de um modelo de IA é diretamente proporcional ao seu potencial de esparsidade.
Ou seja, quando o modelo é maior, há maior possibilidade de dispersão no algoritmo, e o grau de aceleração dos cálculos esparsos também é maior. Para modelos gerais de linguagem grande, a computação esparsa pode trazer uma aceleração dezenas de vezes.
O algoritmo duplo esparso original do Inkcore, combinado com o design colaborativo de software e hardware, torna o chip Antoum® da Inkcore o primeiro chip AI de alta ampliação esparsa do mundo, suportando esparsidade de até 32 vezes - que é o que o Inkcore estabeleceu um novo recorde nesta chave MLPerf.
Quanto maior o modelo, mais óbvia será a vantagem da computação esparsa - especialmente na situação atual, onde os parâmetros de modelos grandes como o GPT costumam atingir dezenas de bilhões ou centenas de bilhões, o que torna o fosso do núcleo de tinta mais estável.
A força do produto Ink Core e a tendência geral de computação esparsa também foram reconhecidas pela indústria: o processo de comercialização do Ink Core fez avanços importantes, um após o outro, ajudando as empresas a acelerar os aplicativos de IA.
Recentemente, a Ink Core tornou-se oficialmente um dos fornecedores que apoiam o Byte MLPerf.
Fonte: site Byte MLPerf
endereço do projeto:
Atualmente, a plataforma de computação Ink Core AI pode suportar grandes modelos de diferentes níveis de parâmetros, incluindo BLOOM, OPT, GPT-J, LLaMA, StableDiffusion, etc.
Ao mesmo tempo, possui características de alto rendimento, baixa latência e baixo consumo de energia, o que alivia a dificuldade do poder de computação e realmente traz soluções de poder de computação de grande modelo "fáceis de usar" e "acessíveis" para empresas .
Trazendo mudanças fundamentais no poder da computação, a computação esparsa ajuda no desenvolvimento de grandes modelos
A solução de computação esparsa do Ink Core pode não apenas aliviar o atual problema de poder de computação, mas também abrir um novo espaço para o desenvolvimento contínuo da IA.
A computação esparsa reduz a quantidade de cálculo dos modelos de IA, o que significa que os modelos grandes podem aumentar o número de parâmetros em várias ordens de grandeza sem gerar muita quantidade de cálculo. Espera-se que a contradição entre o crescimento dos parâmetros e os gargalos do poder de computação dos modelos grandes seja eliminada ... fundamentalmente resolvido.
Ao mesmo tempo, devido à redução na quantidade de cálculos, os pontos problemáticos dos grandes modelos, como altos requisitos de poder de computação, alto consumo de energia e altos custos, também são resolvidos, alcançando um efeito "ganha-ganha".
Chip Antoum: o primeiro chip AI de alta taxa esparsa do mundo, suportando até 32 vezes esparso
Os excelentes resultados de três MLPerfs consecutivos não apenas comprovam a força dos produtos de núcleo de tinta, mas também trazem novas revelações para a indústria: com a ajuda de tecnologias como a computação esparsa, espera-se que o desenvolvimento e a aplicação de grandes modelos inaugurem um ambiente mais amplo espaço para o desenvolvimento. Aplicações como o AIGC acelerado estão florescendo em todas as esferas da vida.
Sobre MLPerf
O MLPerf foi estabelecido pelo vencedor do Prêmio Turing, David Patterson, em conjunto com as principais instituições acadêmicas, como Google, Stanford e Universidade de Harvard. É o teste de benchmark internacional de desempenho de IA mais confiável e influente para medir o rápido crescimento Conduta, rastreamento e avaliação oportuna de IA. requisitos e desempenho de computação.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
A MLPerf divulgou a classificação e as empresas chinesas de chips de IA ficaram em primeiro lugar no mundo novamente! Três campeões de inferência de modelos grandes, desempenho superando o H100
À medida que as aplicações AIGC, como o ChatGPT, desencadearam uma onda de grandes modelos, a camada de poder computacional, como infraestrutura, tornou-se a primeira indústria a beneficiar.
No entanto, problemas como a elevada procura de poder de computação e o elevado custo tornaram-se pontos problemáticos comuns para as empresas implementarem grandes modelos e são mais propensos a restringir o desenvolvimento da IA: os parâmetros dos grandes modelos estão a aumentar dia a dia, e a computação o gargalo no fornecimento de energia é iminente, criando uma enorme contradição entre os dois.
Como explorar melhores soluções de poder de computação para modelos grandes é um foco comum na indústria.
Recentemente, a avaliação oficial mundial MLPerf anunciou os mais recentes resultados de avaliação de inferência. Esta é a primeira vez que MLPerf introduziu o teste de inferência de modelo grande GPT. A taxa de participação atingiu um novo recorde, com mais de 13.500 resultados de desempenho enviados pela NVIDIA, Intel , Google, Qualcomm e outras empresas.
No MLPerf Inference 3.1, a placa de computação Moffet AI S30 ficou em primeiro lugar no poder de computação de uma única placa, 4 placas e 8 placas no modelo grande GPT-J (6 bilhões de parâmetros).
O núcleo de tinta já conquistou o primeiro lugar no MLPerf Inference 2.0 e 2.1 por dois anos consecutivos.
As conquistas do núcleo de tinta trouxeram direções de inovação viáveis para soluções de poder de computação de modelos em grande escala.
Os factos provaram que a inovação colaborativa de hardware e software que combina modelos de IA com plataformas informáticas pode libertar um maior potencial de poder computacional. Isto também prova mais uma vez que as tecnologias inovadoras representadas pela computação esparsa serão a chave para o desenvolvimento do poder computacional na era dos grandes modelos.
A Ink Core participa da divisão aberta MLPerf, que, segundo a organizadora MLCommons, tem como objetivo incentivar a inovação. Portanto, os concorrentes podem explorar maneiras de melhorar o poder computacional por meio da colaboração de software e hardware.
No modelo grande GPT-J no MLPerf, em comparação com a solução de aceleração de hardware pura H100 do processo de 4 nm, a placa de computação Ink Core S30 do processo de 12 nm alcançou até 1,8 vezes a velocidade por meio do "algoritmo esparso duplo original + colaboração de hardware "método. Vantagem.
O modelo GPT-J para esta avaliação é um modelo de IA generativo. Nos modos de 8 placas, 4 placas e placa única, o desempenho da placa de computação Ink Core S30 é 170,59, 91,57 e 23,28 (amostra/s). respectivamente, atingindo o desempenho da NVIDIA H100 1,6 vezes, 1,8 vezes e 1,8 vezes, demonstrando as capacidades dos produtos principais de tinta em tarefas AIGC.
Computação esparsa —— "ações potenciais" de grandes modelos ganham reconhecimento do mercado
Os excelentes resultados contínuos do núcleo de tinta devem-se principalmente ao design colaborativo de software e hardware baseado no algoritmo de esparsificação.
Na era dos grandes modelos, a importância da computação esparsa é evidente: o tamanho de um modelo de IA é diretamente proporcional ao seu potencial de esparsidade.
Ou seja, quando o modelo é maior, há maior possibilidade de dispersão no algoritmo, e o grau de aceleração dos cálculos esparsos também é maior. Para modelos gerais de linguagem grande, a computação esparsa pode trazer uma aceleração dezenas de vezes.
O algoritmo duplo esparso original do Inkcore, combinado com o design colaborativo de software e hardware, torna o chip Antoum® da Inkcore o primeiro chip AI de alta ampliação esparsa do mundo, suportando esparsidade de até 32 vezes - que é o que o Inkcore estabeleceu um novo recorde nesta chave MLPerf.
Quanto maior o modelo, mais óbvia será a vantagem da computação esparsa - especialmente na situação atual, onde os parâmetros de modelos grandes como o GPT costumam atingir dezenas de bilhões ou centenas de bilhões, o que torna o fosso do núcleo de tinta mais estável.
A força do produto Ink Core e a tendência geral de computação esparsa também foram reconhecidas pela indústria: o processo de comercialização do Ink Core fez avanços importantes, um após o outro, ajudando as empresas a acelerar os aplicativos de IA.
Recentemente, a Ink Core tornou-se oficialmente um dos fornecedores que apoiam o Byte MLPerf.
endereço do projeto:
Atualmente, a plataforma de computação Ink Core AI pode suportar grandes modelos de diferentes níveis de parâmetros, incluindo BLOOM, OPT, GPT-J, LLaMA, StableDiffusion, etc.
Ao mesmo tempo, possui características de alto rendimento, baixa latência e baixo consumo de energia, o que alivia a dificuldade do poder de computação e realmente traz soluções de poder de computação de grande modelo "fáceis de usar" e "acessíveis" para empresas .
Trazendo mudanças fundamentais no poder da computação, a computação esparsa ajuda no desenvolvimento de grandes modelos
A solução de computação esparsa do Ink Core pode não apenas aliviar o atual problema de poder de computação, mas também abrir um novo espaço para o desenvolvimento contínuo da IA.
A computação esparsa reduz a quantidade de cálculo dos modelos de IA, o que significa que os modelos grandes podem aumentar o número de parâmetros em várias ordens de grandeza sem gerar muita quantidade de cálculo. Espera-se que a contradição entre o crescimento dos parâmetros e os gargalos do poder de computação dos modelos grandes seja eliminada ... fundamentalmente resolvido.
Ao mesmo tempo, devido à redução na quantidade de cálculos, os pontos problemáticos dos grandes modelos, como altos requisitos de poder de computação, alto consumo de energia e altos custos, também são resolvidos, alcançando um efeito "ganha-ganha".
Os excelentes resultados de três MLPerfs consecutivos não apenas comprovam a força dos produtos de núcleo de tinta, mas também trazem novas revelações para a indústria: com a ajuda de tecnologias como a computação esparsa, espera-se que o desenvolvimento e a aplicação de grandes modelos inaugurem um ambiente mais amplo espaço para o desenvolvimento. Aplicações como o AIGC acelerado estão florescendo em todas as esferas da vida.
Sobre MLPerf
O MLPerf foi estabelecido pelo vencedor do Prêmio Turing, David Patterson, em conjunto com as principais instituições acadêmicas, como Google, Stanford e Universidade de Harvard. É o teste de benchmark internacional de desempenho de IA mais confiável e influente para medir o rápido crescimento Conduta, rastreamento e avaliação oportuna de IA. requisitos e desempenho de computação.