Компания MLPerf опубликовала рейтинг, и китайские компании, производящие чипы искусственного интеллекта, снова заняли первое место в мире! Три чемпиона в области вывода больших моделей, производительность превосходит H100

Поскольку приложения AIGC, такие как ChatGPT, вызвали волну крупных моделей, уровень вычислительной мощности, как и инфраструктура, стал первой отраслью, которая получила выгоду.

Однако такие проблемы, как высокий спрос на вычислительную мощность и высокая стоимость, стали общими болевыми точками предприятий при внедрении больших моделей и, скорее всего, ограничивают развитие ИИ: параметры больших моделей растут с каждым днем, а вычислительные мощности Узкое место в электроснабжении неизбежно, создавая огромное противоречие между ними.

Поиск лучших решений по вычислительной мощности для больших моделей является общей темой в отрасли.

Недавно авторитетный в мире оценщик MLPerf объявил о последних результатах оценки вывода. Впервые MLPerf представил тест вывода большой модели GPT. Уровень участия достиг нового рекорда: более 13 500 результатов производительности, представленных NVIDIA, Intel , Google, Qualcomm и другие компании.

В MLPerf Inference 3.1 вычислительная карта Moffet AI S30 заняла первое место по вычислительной мощности одной карты, 4 карт и 8 карт у большой модели GPT-J (6 миллиардов параметров).

Это третья подряд защита титула Мо Синя на MLPerf.

Ранее Ink Core два года подряд занимал первое место в MLPerf Inference 2.0 и 2.1.

Вычислительная карта Ink Core S30

Достижения ink core открыли реальные инновационные направления для крупномасштабных моделей вычислительной мощности.

Факты доказали, что совместные инновации в аппаратном и программном обеспечении, сочетающие модели искусственного интеллекта с вычислительными платформами, могут раскрыть больший потенциал вычислительной мощности. Это также еще раз доказывает, что инновационные технологии, представленные разреженными вычислениями, станут ключом к развитию вычислительных мощностей в эпоху больших моделей.

Ink Core участвует в открытом подразделении MLPerf, которое, по словам организатора MLCommons, направлено на поощрение инноваций. Таким образом, участники могут изучить способы повышения вычислительной мощности за счет совместной работы программного и аппаратного обеспечения.

На большой модели GPT-J в MLPerf по сравнению с решением чисто аппаратного ускорения H100, выполненным по 4-нм техпроцессу, вычислительная карта Ink Core S30, выполненная по 12-нм техпроцессу, достигла скорости до 1,8 раз выше благодаря «оригинальному алгоритму двойного разрежения + аппаратному сотрудничеству». «Метод. Преимущество.

Модель GPT-J для этой оценки представляет собой генеративную модель искусственного интеллекта.В режимах с 8, 4 картами и одной картой производительность вычислительной карты Ink Core S30 составляет 170,59, 91,57 и 23,28 (выборок/с). соответственно, достигая производительности NVIDIA H100 в 1,6 раза, 1,8 раза и 1,8 раза, демонстрируя возможности продуктов ядра чернил в задачах AIGC.

Выиграв чемпионат трижды, вычислительная мощность большой модели первой «сдала испытания», а сотрудничество программного и аппаратного обеспечения продолжало внедрять инновации — надежность продукта Ink Core несколько раз тщательно проверялась MLPerf, а также исследовалась новые пути развития вычислительной мощности больших моделей.

Разреженные вычисления — крупные модели «потенциальных акций» получают признание на рынке.

Постоянные отличные результаты работы ink core обусловлены, главным образом, совместной разработкой программного и аппаратного обеспечения на основе алгоритма разрежения.

В эпоху больших моделей важность разреженных вычислений очевидна: размер модели ИИ прямо пропорционален ее потенциалу разреженности.

Другими словами, чем больше модель, тем больше вероятность разреженности алгоритма, а также выше степень ускорения разреженных вычислений. Для общих моделей больших языков разреженные вычисления могут привести к ускорению в десятки раз.

Оригинальный алгоритм двойного разрежения Inkcore в сочетании с совместным программным и аппаратным обеспечением делает чип Antoum® от Inkcore первым в мире чипом искусственного интеллекта с высоким разрежением, поддерживающим разреженность до 32 раз — именно это Inkcore установила новый рекорд в этом ключе MLPerf.

Чем больше модель, тем очевиднее преимущество разреженных вычислений — особенно в текущей ситуации, когда параметры больших моделей, таких как GPT, часто достигают десятков миллиардов или сотен миллиардов, что делает ров чернильного ядра более стабильным.

Сила продукта Ink Core и общая тенденция к разрежению вычислений также были признаны в отрасли: в процессе коммерциализации Ink Core один за другим были сделаны важные прорывы, помогающие предприятиям ускорить приложения искусственного интеллекта.

Совсем недавно Ink Core официально стала одним из поставщиков, поддерживающих Byte MLPerf.

Источник: сайт Byte MLPerf

адрес проекта:

В настоящее время вычислительная платформа Ink Core AI может поддерживать большие модели с разными уровнями параметров, включая BLOOM, OPT, GPT-J, LLaMA, StableDiffusion и т. д.

В то же время он обладает характеристиками высокой пропускной способности, низкой задержки и низкого энергопотребления, что снижает сложность вычислительной мощности и действительно предлагает предприятиям «простые в использовании» и «доступные» решения для крупномасштабных вычислительных мощностей. .

Принося фундаментальные изменения в вычислительной мощности, разреженные вычисления помогают разрабатывать большие модели.

Решение Ink Core для разреженных вычислений может не только решить текущую проблему вычислительной мощности, но и открыть новое пространство для дальнейшего развития искусственного интеллекта.

Разреженные вычисления уменьшают объем вычислений моделей ИИ, а это означает, что большие модели могут увеличивать количество параметров на несколько порядков, не генерируя слишком большого объема вычислений. Ожидается, что противоречие между ростом параметров и узкими местами вычислительной мощности больших моделей будет устранено. , принципиально решено.

В то же время, за счет сокращения объема вычислений, также решаются болевые точки больших моделей, такие как высокие требования к вычислительной мощности, высокое энергопотребление и высокие затраты, достигая «беспроигрышного» эффекта.

Чип Antoum: первый в мире AI-чип с высокой разреженностью, поддерживающий до 32 раз разреженность

Превосходные результаты трех последовательных MLPerfs не только доказывают силу основных продуктов чернил, но и приносят в отрасль новые открытия: ожидается, что с помощью таких технологий, как разреженные вычисления, разработка и применение больших моделей положат начало более широкому пространство для развития. Такие приложения, как ускоренное AIGC, процветают во всех сферах жизни.

О MLPerf

MLPerf был основан лауреатом премии Тьюринга Дэвидом Паттерсоном совместно с ведущими академическими учреждениями, такими как Google, Стэнфорд и Гарвардский университет. Требования к вычислительным ресурсам и производительность.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить