"Novo mestre de controle de detalhes de pintura AI" ControlNet-XS está aqui!
O importante é que os parâmetros precisem apenas de 1% do ControlNet original.
Você pode trocar os sabores do bolo à vontade:
** **###### △A imagem à esquerda é antes da alteração
É fácil mudar o guarda-roupa:
No mesmo estilo da imagem acima, o formato do corpo permanece inalterado e a atmosfera artística está repleta:
Você também pode desfrutar da paisagem natural e alternar entre as estações do ano:
E esta coruja, transformada diretamente de criatura viva em escultura:
Quando os parâmetros são muito pequenos, tal efeito pode ser alcançado. Os internautas também o chamaram de Juezi e mal podiam esperar para ler o jornal.
ControlNet-XS foi desenvolvido pelo Laboratório de Visão Computacional da Universidade de Heidelberg.Atualmente, artigos relevantes e modelos de pré-treinamento não foram divulgados.
Mas os pesquisadores disseram que a pontuação do ControlNet-XS** FID é significativamente melhor que a do ControlNet**.
E o código que controla o Stable Diffusion-XL e o Stable Diffusion 2.1 será de código aberto em um futuro próximo.
Mestre de Controle de Nova Geração
Vamos começar com o controle do StableDiffusion-XL por Kangkang.
Depois de avaliar modelos de controle de tamanhos diferentes, os pesquisadores descobriram que o modelo de controle nem precisa ter o mesmo tamanho da rede base StableDiffusion-XL de parâmetro 2,6B.
O controle ControlNet-XS dos parâmetros 400M, 104M e 48M também é evidente.
O mapa de profundidade oferece uma exibição mais intuitiva. De acordo com a distância e profundidade do conteúdo da imagem, o mapa de profundidade apresenta tons de cores precisos:
Deve-se observar que os valores iniciais definidos pelos pesquisadores aqui são diferentes para cada linha e iguais para cada coluna.
Além disso, há também um mapa de detecção de bordas Canny, onde os limites e contornos dos objetos podem ser exibidos claramente:
Para o controle do StableDiffusion, os pesquisadores avaliaram três versões do ControlNet-XS com parâmetros 491M, 55M e 14M.
Os resultados mostram que 1,6% dos parâmetros (865M) também podem controlar de forma confiável o processo de geração.
Então, como isso é feito?
Treinamento do zero
O ControlNet original é uma cópia do codificador U-Net no modelo base StableDiffusion, portanto recebe a mesma entrada que o modelo base, com sinais de orientação adicionais, como mapas de bordas.
Em seguida, a saída intermediária do ControlNet treinado é adicionada à entrada da camada decodificadora do modelo base. Durante todo o processo de treinamento do ControlNet, os pesos do modelo base permanecem congelados.
Os pesquisadores do ControlNet-XS acreditam que há problemas com essa abordagem e que o ControlNet não precisa ser tão grande.
A primeira é a imagem de saída final da Difusão Estável, que é gerada iterativamente em uma série de etapas. Cada etapa será executada nas partes codificador (Encoder) e decodificador (Decoder) da estrutura da rede U-Net.
A entrada para o modelo base e modelo de controle em cada iteração é a imagem gerada na etapa anterior. O modelo de controle também recebe uma imagem de controle.
O problema é que ambos os modelos funcionam de forma independente durante o estágio do codificador, enquanto o feedback do modelo de controle só é inserido durante o estágio do decodificador do modelo base.
Em suma, o resultado é um mecanismo de correção/controle retardado.
Em outras palavras, o ControlNet deve realizar duas tarefas: por um lado, correção/controle, e por outro lado, deve prever antecipadamente quais “erros” o codificador do modelo básico cometerá.
Ao implicar que a geração e o controle de imagens requerem capacidade de modelo semelhante, é natural inicializar os pesos do ControlNet com os pesos do modelo base e depois ajustá-los.
Quanto ao ControlNet-XS, os pesquisadores disseram que o design é diferente do modelo básico: ele treina os pesos do ControlNet-XS do zero, o que resolve o problema de feedback atrasado.
Conforme mostrado na figura acima, o método consiste em adicionar uma conexão do codificador do modelo base ao codificador de controle (A) para que o processo de correção possa se adaptar mais rapidamente ao processo de geração do modelo base. Mas isso não elimina completamente a latência, já que o codificador do modelo básico ainda não foi inicializado.
Portanto, os pesquisadores adicionaram conexões adicionais do ControlNet-XS ao codificador do modelo base, afetando diretamente todo o processo de geração (B).
Além disso, avaliaram se o uso de uma arquitetura de decodificação espelhada seria útil em uma configuração ControlNet (C).
Finalmente, os pesquisadores conduziram uma avaliação de desempenho da pontuação FID no conjunto de validação COCO2017 para três variantes diferentes do Canny Edge Guidance (A, B, C) e do ControlNet original.
Todas as variantes resultam em melhorias significativas ao usar apenas uma fração dos parâmetros ControlNet originais.
Os pesquisadores criaram a variante B, usando o mapa de borda Canny e a orientação do mapa de profundidade, respectivamente, e treinaram três modelos de tamanhos diferentes para StableDiffusion2.1 e StableDiffusion-XL.
Portanto, o próximo passo é aguardar o lançamento de artigos, códigos e modelos pré-treinados relevantes ~
endereço do projeto:
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
Apenas 1% dos parâmetros são necessários, o efeito ultrapassa o ControlNet, um novo mestre de controle de pintura AI está chegando
Fonte original: Qubits
"Novo mestre de controle de detalhes de pintura AI" ControlNet-XS está aqui!
O importante é que os parâmetros precisem apenas de 1% do ControlNet original.
Você pode trocar os sabores do bolo à vontade:
**
**###### △A imagem à esquerda é antes da alteração
É fácil mudar o guarda-roupa:
Mas os pesquisadores disseram que a pontuação do ControlNet-XS** FID é significativamente melhor que a do ControlNet**.
E o código que controla o Stable Diffusion-XL e o Stable Diffusion 2.1 será de código aberto em um futuro próximo.
Mestre de Controle de Nova Geração
Depois de avaliar modelos de controle de tamanhos diferentes, os pesquisadores descobriram que o modelo de controle nem precisa ter o mesmo tamanho da rede base StableDiffusion-XL de parâmetro 2,6B.
O controle ControlNet-XS dos parâmetros 400M, 104M e 48M também é evidente.
O mapa de profundidade oferece uma exibição mais intuitiva. De acordo com a distância e profundidade do conteúdo da imagem, o mapa de profundidade apresenta tons de cores precisos:
Além disso, há também um mapa de detecção de bordas Canny, onde os limites e contornos dos objetos podem ser exibidos claramente:
Os resultados mostram que 1,6% dos parâmetros (865M) também podem controlar de forma confiável o processo de geração.
Treinamento do zero
O ControlNet original é uma cópia do codificador U-Net no modelo base StableDiffusion, portanto recebe a mesma entrada que o modelo base, com sinais de orientação adicionais, como mapas de bordas.
Em seguida, a saída intermediária do ControlNet treinado é adicionada à entrada da camada decodificadora do modelo base. Durante todo o processo de treinamento do ControlNet, os pesos do modelo base permanecem congelados.
Os pesquisadores do ControlNet-XS acreditam que há problemas com essa abordagem e que o ControlNet não precisa ser tão grande.
A primeira é a imagem de saída final da Difusão Estável, que é gerada iterativamente em uma série de etapas. Cada etapa será executada nas partes codificador (Encoder) e decodificador (Decoder) da estrutura da rede U-Net.
A entrada para o modelo base e modelo de controle em cada iteração é a imagem gerada na etapa anterior. O modelo de controle também recebe uma imagem de controle.
O problema é que ambos os modelos funcionam de forma independente durante o estágio do codificador, enquanto o feedback do modelo de controle só é inserido durante o estágio do decodificador do modelo base.
Em suma, o resultado é um mecanismo de correção/controle retardado.
Em outras palavras, o ControlNet deve realizar duas tarefas: por um lado, correção/controle, e por outro lado, deve prever antecipadamente quais “erros” o codificador do modelo básico cometerá.
Ao implicar que a geração e o controle de imagens requerem capacidade de modelo semelhante, é natural inicializar os pesos do ControlNet com os pesos do modelo base e depois ajustá-los.
Conforme mostrado na figura acima, o método consiste em adicionar uma conexão do codificador do modelo base ao codificador de controle (A) para que o processo de correção possa se adaptar mais rapidamente ao processo de geração do modelo base. Mas isso não elimina completamente a latência, já que o codificador do modelo básico ainda não foi inicializado.
Portanto, os pesquisadores adicionaram conexões adicionais do ControlNet-XS ao codificador do modelo base, afetando diretamente todo o processo de geração (B).
Além disso, avaliaram se o uso de uma arquitetura de decodificação espelhada seria útil em uma configuração ControlNet (C).
Finalmente, os pesquisadores conduziram uma avaliação de desempenho da pontuação FID no conjunto de validação COCO2017 para três variantes diferentes do Canny Edge Guidance (A, B, C) e do ControlNet original.
Todas as variantes resultam em melhorias significativas ao usar apenas uma fração dos parâmetros ControlNet originais.