Solo se necesita el 1% de los parámetros, el efecto supera a ControlNet, viene un nuevo maestro de control de pintura con IA

Fuente original: Qubits

Fuente de la imagen: Generada por Unbounded AI‌

"Nuevo maestro de control de detalles de pintura con IA" ControlNet-XS ¡ya está aquí!

Lo importante es que los parámetros solo necesitan 1% del ControlNet original.

Puedes cambiar los sabores de pastel a voluntad:

** **###### La imagen de la izquierda es antes del cambio.

Es fácil cambiar de guardarropa:

El mismo estilo que la imagen de arriba, la forma del cuerpo permanece sin cambios y la atmósfera artística está llena:

También podrás disfrutar del paisaje natural y cambiar de estación durante todo el año:

Y este búho, transformado directamente de ser viviente en escultura:

Cuando los parámetros son muy pequeños, se puede lograr tal efecto. Los internautas también lo llamaron Juezi y no podían esperar a leer el artículo.

ControlNet-XS fue desarrollado por el Laboratorio de Visión por Computadora de la Universidad de Heidelberg y actualmente no se han publicado artículos relevantes ni modelos de capacitación previa.

Pero los investigadores dijeron que la puntuación FID de ControlNet-XS** es significativamente mejor que la de ControlNet**.

Y el código que controla Stable Diffusion-XL y Stable Diffusion 2.1 será de código abierto en un futuro próximo.

Maestro de control de nueva generación

Comencemos con el control de Kangkang de StableDiffusion-XL.

Después de evaluar modelos de control de diferentes tamaños, los investigadores descubrieron que el modelo de control ni siquiera tiene que ser del mismo tamaño que la red base StableDiffusion-XL de parámetros 2.6B.

El control ControlNet-XS de los parámetros 400M, 104M y 48M también es evidente.

El mapa de profundidad ofrece una visualización más intuitiva. Según la distancia y la profundidad del contenido de la imagen, el mapa de profundidad presenta tonos de color precisos:

Cabe señalar que los valores iniciales establecidos por los investigadores aquí son diferentes para cada fila e iguales para cada columna.

Además, también hay un mapa de detección de bordes de Canny, donde se pueden mostrar claramente los límites y contornos de los objetos:

Para el control de StableDiffusion, los investigadores evaluaron tres versiones de ControlNet-XS con parámetros 491M, 55M y 14M.

Los resultados muestran que el 1,6% de los parámetros (865M) también pueden controlar de forma fiable el proceso de generación.

Entonces, ¿cómo se hace esto?

Entrenamiento desde cero

El ControlNet original es una copia del codificador U-Net en el modelo base StableDiffusion, por lo que recibe la misma entrada que el modelo base, con señales de guía adicionales, como mapas de bordes.

Luego, la salida intermedia del ControlNet entrenado se agrega a la entrada de la capa decodificadora del modelo base. Durante todo el proceso de entrenamiento de ControlNet, los pesos del modelo base permanecen congelados.

Los investigadores de ControlNet-XS creen que existen problemas con este enfoque y que ControlNet no necesita ser tan grande.

La primera es la imagen de salida final de Difusión Estable, que se genera de forma iterativa en una serie de pasos. Cada paso se ejecutará en las partes codificador (Codificador) y decodificador (Decodificador) de la estructura de red U-Net.

La entrada al modelo base y al modelo de control en cada iteración es la imagen generada en el paso anterior. El modelo de control también recibe una imagen de control.

El problema es que ambos modelos se ejecutan de forma independiente durante la etapa del codificador, mientras que la retroalimentación del modelo de control solo se ingresa durante la etapa de decodificación del modelo base.

En definitiva, el resultado es un mecanismo de corrección/control retrasado.

En otras palabras, ControlNet debe realizar dos tareas: por un lado, corrección/control, y por otro lado, debe predecir de antemano qué "errores" cometerá el codificador del modelo básico.

Al implicar que la generación y el control de imágenes requieren una capacidad de modelo similar, es natural inicializar los pesos de ControlNet con los pesos del modelo base y luego ajustarlos.

En cuanto a ControlNet-XS, los investigadores dijeron que el diseño es diferente del modelo básico: entrena pesos ControlNet-XS desde cero, lo que resuelve el problema de la retroalimentación retardada.

Como se muestra en la figura anterior, el método consiste en agregar una conexión desde el codificador del modelo base al codificador de control (A) para que el proceso de corrección pueda adaptarse más rápido al proceso de generación del modelo base. Pero esto no elimina por completo la latencia, ya que el codificador del modelo base aún no está arrancado.

Por lo tanto, los investigadores agregaron conexiones adicionales desde ControlNet-XS al codificador del modelo base, afectando directamente todo el proceso de generación (B).

Además, evaluaron si el uso de una arquitectura de decodificación reflejada sería útil en una configuración ControlNet (C).

Finalmente, los investigadores realizaron una evaluación del desempeño de la puntuación FID en el conjunto de validación COCO2017 para tres variantes diferentes de la guía Canny Edge (A, B, C) y el ControlNet original.

Todas las variantes dan como resultado mejoras significativas al utilizar solo una fracción de los parámetros ControlNet originales.

Los investigadores idearon la variante B, utilizando el mapa de bordes de Canny y la guía del mapa de profundidad respectivamente, y entrenaron tres modelos de diferentes tamaños para StableDiffusion2.1 y StableDiffusion-XL.

Entonces, el siguiente paso es esperar la publicación de artículos, códigos y modelos previamente entrenados relevantes ~

dirección del proyecto:

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
0/400
Sin comentarios
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)