Meta представляет DINOv3: Продвинутая самонаблюдаемая модель зрения для масштабного, высокоточного визуального анализа

Кратко

DINOv3 — это современная модель компьютерного зрения с самонаблюдением, чья единственная замороженная основа обеспечивает высококачественные характеристики изображений и превосходит специализированные решения в рамках нескольких устоявшихся задач плотного прогнозирования.

Meta представляет DINOv3: Продвинутая самообучающаяся модель зрения, превосходящая специализированные решения в задачах плотного прогнозирования

Исследовательское подразделение технологической компании Meta, которое разрабатывает технологии ИИ и дополненной реальности, Meta AI представило DINOv3, современную универсальную модель компьютерного зрения, обученную с использованием самообучения (SSL) для генерации высококачественных визуальных признаков. Впервые одна замороженная основа зрения превосходит специализированные модели по нескольким установленным задачам плотного предсказания, включая обнаружение объектов и семантическую сегментацию.

DINOv3 достигает таких результатов благодаря современным методам SSL, которые устраняют необходимость в размеченных данных, сокращая время обучения и требования к ресурсам, при этом позволяя модели масштабироваться до 1,7 миллиарда изображений и 7 миллиардов параметров. Этот подход без меток делает модель подходящей для приложений, где аннотации ограничены, дороги или недоступны. Например, основные модели DINOv3, предварительно обученные на спутниковых изображениях, продемонстрировали хорошие результаты в последующих задачах, таких как оценка высоты кроны.

Ожидается, что модель улучшит текущие приложения и позволит создать новые в таких секторах, как здравоохранение, мониторинг окружающей среды, автономные транспортные средства, розничная торговля и производство, предлагая повышенную точность и эффективность в крупномасштабном визуальном понимании.

DINOv3 выпускается с полным набором открытых основ под коммерческой лицензией, включая основу, сосредоточенную на спутниках, обученную на изображениях MAXAR. Также делится подмножество downstream-оценочных голов, чтобы позволить исследователям воспроизводить и расширять результаты. Предоставляются образцы блокнотов и подробная документация, чтобы помочь сообществу сразу начать работу с DINOv3.

DINOv3: Открытие высокоэффективных приложений через самонаблюдаемое обучение

Согласно Meta AI, DINOv3 представляет собой значительное достижение в области самообучающегося обучения (SSL), впервые показывая, что модели SSL могут превзойти производительность моделей с слабым контролем по широкому спектру задач. В то время как предыдущие версии DINO продемонстрировали сильные результаты в задачах плотного предсказания, таких как сегментация и оценка глубины по одному изображению, DINOv3 основывается на этой основе и достигает еще более высоких уровней производительности.

DINOv3: Разблокировка высокоэффективных приложений с помощью самообучающегося обучения

DINOv3 продвигает оригинальный алгоритм DINO, устраняя необходимость в вводе метаданных, используя меньше вычислительных ресурсов для обучения по сравнению с предыдущими методами, при этом обеспечивая высокопроизводительные модели визуального фундамента. Улучшения в DINOv3 обеспечивают передовые результаты в downstream-задачах, таких как обнаружение объектов, даже когда веса модели остаются замороженными, устраняя необходимость в тонкой настройке под конкретные задачи и позволяя более универсальное и эффективное применение.

Поскольку методология DINO не привязана к какому-либо конкретному типу изображения, ее можно применять в различных областях, где маркировка затратна или непрактична. Ранее версии, такие как DINOv2, использовали большие объемы немаркированных данных для медицинских приложений, включая гистологию, эндоскопию и визуализацию. Для спутниковых и воздушных изображений, где объем и сложность данных делают ручную маркировку невозможной, DINOv3 позволяет обучать единую модель, применимую к нескольким спутниковым источникам, поддерживая более широкие сценарии использования в мониторинге окружающей среды, городском планировании и реагировании на бедствия.

DINOv3 уже демонстрирует практическое влияние. Всемирный ресурсный институт (WRI) использует модель для мониторинга вырубки лесов и руководства усилиями по восстановлению, позволяя местным группам лучше защищать экосистемы. Анализируя спутниковые снимки для обнаружения потерь деревьев и изменений в использовании земли, DINOv3 улучшает точность проверки климатического финансирования, снижая транзакционные затраты и ускоряя финансирование небольших местных проектов. В одном случае использование DINOv3, обученного на спутниковых и аэрофотоснимках, уменьшило среднюю ошибку в измерении высоты крон деревьев в регионе Кении с 4,1 метра до 1,2 метра, что позволило WRI более эффективно масштабировать поддержку тысячам фермеров и инициатив по охране окружающей среды.

VSN-4.25%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить