«Новий майстер керування деталями малювання AI» ControlNet-XS тут!
Важливо те, що для параметрів потрібен лише 1% вихідної мережі ControlNet.
Ви можете змінювати смак торта за бажанням:
** **###### △Зображення ліворуч перед зміною
Змінити гардероб легко:
Той самий стиль, що й на зображенні вище, форма тіла залишається незмінною, а мистецька атмосфера повна:
Ви також можете насолоджуватися природними пейзажами та перемикатися між сезонами протягом року:
А ця сова, перетворена прямо з живої істоти в скульптуру:
При дуже малих параметрах можна досягти такого ефекту. Користувачі мережі також назвали його Juezi і не терпілися прочитати статтю.
ControlNet-XS розроблено Лабораторією комп’ютерного зору Гейдельберзького університету. Наразі відповідні документи та моделі попереднього навчання не опубліковано.
Але дослідники сказали, що показник FID ControlNet-XS** значно кращий, ніж ControlNet**.
А код, який керує Stable Diffusion-XL і Stable Diffusion 2.1, найближчим часом буде відкритим.
Майстер керування новим поколінням
Почнемо з керування StableDiffusion-XL від Kangkang.
Після оцінки контрольних моделей різних розмірів дослідники виявили, що контрольна модель навіть не повинна бути такого ж розміру, як базова мережа StableDiffusion-XL параметра 2,6B.
Контроль ControlNet-XS параметрів 400M, 104M і 48M також очевидний.
Карта глибини забезпечує більш інтуїтивно зрозуміле відображення. Відповідно до відстані та глибини вмісту зображення карта глибини представляє точні відтінки кольорів:
Слід зазначити, що початкові значення, встановлені тут дослідниками, різні для кожного рядка та однакові для кожного стовпця.
Крім того, є також карта виявлення країв Canny, де чітко відображаються межі та контури об’єктів:
Для керування StableDiffusion дослідники оцінили три версії ControlNet-XS з параметрами 491M, 55M та 14M.
Результати показують, що 1,6% параметрів (865M) також можуть надійно контролювати процес генерації.
Отже, як це робиться?
Навчання з нуля
Оригінальний ControlNet є копією кодувальника U-Net у базовій моделі StableDiffusion, тому він отримує ті самі вхідні дані, що й базова модель, із додатковими навігаційними сигналами, такими як карти країв.
Потім проміжний вихід навченої ControlNet додається до входу рівня декодера базової моделі. Протягом усього процесу навчання ControlNet ваги базової моделі залишаються замороженими.
Дослідники ControlNet-XS вважають, що з цим підходом є проблеми, і що ControlNet не має бути настільки великим.
Перше — кінцеве вихідне зображення Stable Diffusion, яке генерується ітераційно в кілька кроків. Кожен крок буде виконано в частинах кодера (Encoder) і декодера (Decoder) структури мережі U-Net.
Вхідними даними для базової моделі та контрольної моделі на кожній ітерації є зображення, створене на попередньому кроці. Контрольна модель також отримує контрольне зображення.
Проблема полягає в тому, що обидві моделі працюють незалежно на етапі кодування, тоді як зворотний зв’язок від контрольної моделі надходить лише на етапі декодування базової моделі.
Загалом, результатом є відстрочений механізм корекції/контролю.
Іншими словами, ControlNet має виконувати дві задачі: з одного боку, корекцію/контроль, а з іншого — заздалегідь передбачити, які «помилки» буде робити кодер базової моделі.
Маючи на увазі, що генерація зображень і керування вимагають подібної ємності моделі, природно ініціалізувати вагові коефіцієнти ControlNet вагами базової моделі, а потім точно їх налаштувати.
Що стосується ControlNet-XS, дослідники кажуть, що дизайн відрізняється від базової моделі, він навчає ваги ControlNet-XS з нуля, що вирішує проблему затримки зворотного зв’язку.
Як показано на малюнку вище, метод полягає в додаванні з’єднання від кодера базової моделі до кодера керування (A), щоб процес корекції міг швидше адаптуватися до процесу генерації базової моделі. Але це не повністю усуває затримку, оскільки кодер базової моделі все ще не завантажується.
Тому дослідники додали додаткові підключення від ControlNet-XS до базової моделі кодера, що безпосередньо впливає на весь процес генерації (B).
Крім того, вони оцінили, чи буде використання дзеркальної архітектури декодування корисним у налаштуваннях ControlNet (C).
Нарешті, дослідники провели оцінку показників FID на тестовому наборі COCO2017 для трьох різних варіантів навігації Canny edge (A, B, C) і оригінального ControlNet.
Усі варіанти призводять до значних покращень, використовуючи лише частину початкових параметрів ControlNet.
Дослідники запропонували варіант B, використовуючи карту країв Canny і карту глибини відповідно, і навчили три моделі різних розмірів для StableDiffusion2.1 і StableDiffusion-XL.
Тож наступним кроком буде дочекатися випуску відповідних документів, кодів і попередньо навчених моделей~
адреса проекту:
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Потрібен лише 1% параметрів, ефект перевершує ControlNet, приходить новий майстер керування малюванням AI
Оригінальне джерело: Qubits
«Новий майстер керування деталями малювання AI» ControlNet-XS тут!
Важливо те, що для параметрів потрібен лише 1% вихідної мережі ControlNet.
Ви можете змінювати смак торта за бажанням:
**
**###### △Зображення ліворуч перед зміною
Змінити гардероб легко:
Але дослідники сказали, що показник FID ControlNet-XS** значно кращий, ніж ControlNet**.
А код, який керує Stable Diffusion-XL і Stable Diffusion 2.1, найближчим часом буде відкритим.
Майстер керування новим поколінням
Після оцінки контрольних моделей різних розмірів дослідники виявили, що контрольна модель навіть не повинна бути такого ж розміру, як базова мережа StableDiffusion-XL параметра 2,6B.
Контроль ControlNet-XS параметрів 400M, 104M і 48M також очевидний.
Карта глибини забезпечує більш інтуїтивно зрозуміле відображення. Відповідно до відстані та глибини вмісту зображення карта глибини представляє точні відтінки кольорів:
Крім того, є також карта виявлення країв Canny, де чітко відображаються межі та контури об’єктів:
Результати показують, що 1,6% параметрів (865M) також можуть надійно контролювати процес генерації.
Навчання з нуля
Оригінальний ControlNet є копією кодувальника U-Net у базовій моделі StableDiffusion, тому він отримує ті самі вхідні дані, що й базова модель, із додатковими навігаційними сигналами, такими як карти країв.
Потім проміжний вихід навченої ControlNet додається до входу рівня декодера базової моделі. Протягом усього процесу навчання ControlNet ваги базової моделі залишаються замороженими.
Дослідники ControlNet-XS вважають, що з цим підходом є проблеми, і що ControlNet не має бути настільки великим.
Перше — кінцеве вихідне зображення Stable Diffusion, яке генерується ітераційно в кілька кроків. Кожен крок буде виконано в частинах кодера (Encoder) і декодера (Decoder) структури мережі U-Net.
Вхідними даними для базової моделі та контрольної моделі на кожній ітерації є зображення, створене на попередньому кроці. Контрольна модель також отримує контрольне зображення.
Проблема полягає в тому, що обидві моделі працюють незалежно на етапі кодування, тоді як зворотний зв’язок від контрольної моделі надходить лише на етапі декодування базової моделі.
Загалом, результатом є відстрочений механізм корекції/контролю.
Іншими словами, ControlNet має виконувати дві задачі: з одного боку, корекцію/контроль, а з іншого — заздалегідь передбачити, які «помилки» буде робити кодер базової моделі.
Маючи на увазі, що генерація зображень і керування вимагають подібної ємності моделі, природно ініціалізувати вагові коефіцієнти ControlNet вагами базової моделі, а потім точно їх налаштувати.
Як показано на малюнку вище, метод полягає в додаванні з’єднання від кодера базової моделі до кодера керування (A), щоб процес корекції міг швидше адаптуватися до процесу генерації базової моделі. Але це не повністю усуває затримку, оскільки кодер базової моделі все ще не завантажується.
Тому дослідники додали додаткові підключення від ControlNet-XS до базової моделі кодера, що безпосередньо впливає на весь процес генерації (B).
Крім того, вони оцінили, чи буде використання дзеркальної архітектури декодування корисним у налаштуваннях ControlNet (C).
Нарешті, дослідники провели оцінку показників FID на тестовому наборі COCO2017 для трьох різних варіантів навігації Canny edge (A, B, C) і оригінального ControlNet.
Усі варіанти призводять до значних покращень, використовуючи лише частину початкових параметрів ControlNet.