Resim kaynağı: Sınırsız Yapay Zeka tarafından oluşturulmuştur
"Yeni AI boyama detay kontrol uzmanı" ControlNet-XS burada!
Önemli olan, parametrelerin orijinal ControlNet'in yalnızca %1'ine ihtiyaç duymasıdır.
Kek lezzetlerini istediğiniz zaman değiştirebilirsiniz:
** **###### △Soldaki resim değişiklikten önceki halidir
Birinin gardırobunu değiştirmek kolaydır:
Yukarıdaki resimle aynı stilde, vücut şekli değişmeden kalıyor ve sanatsal atmosfer dolu:
Ayrıca yıl boyunca doğal manzaranın keyfini çıkarabilir ve mevsimler arasında geçiş yapabilirsiniz:
Ve bir canlıdan doğrudan heykele dönüşen bu baykuş:
Parametreler çok küçük olduğunda böyle bir etki elde edilebilir.Netizenler buna Juezi de adını verdi ve makaleyi okumak için sabırsızlanıyordu.
ControlNet-XS, Heidelberg Üniversitesi Bilgisayarlı Görme Laboratuvarı tarafından geliştirilmiştir. Şu anda ilgili makaleler ve ön eğitim modelleri yayınlanmamıştır.
Ancak araştırmacılar ControlNet-XS** FID puanının ControlNet**'ten önemli ölçüde daha iyi olduğunu söyledi.
Stable Diffusion-XL ve Stable Diffusion 2.1'i kontrol eden kod da yakın gelecekte açık kaynak olacak.
Farklı boyutlardaki kontrol modellerini değerlendirdikten sonra araştırmacılar, kontrol modelinin 2.6B parametreli StableDiffusion-XL temel ağıyla aynı boyutta olmasına bile gerek olmadığını buldu.
400M, 104M ve 48M parametrelerinin ControlNet-XS kontrolü de açıkça görülmektedir.
Derinlik haritası daha sezgisel bir görüntü sağlar.Görüntü içeriğinin uzaklığına ve derinliğine göre derinlik haritası doğru renk tonlarını sunar:
Burada araştırmacıların belirlediği tohum değerlerinin her satır için farklı, her sütun için aynı olduğunu belirtelim.
Ayrıca nesnelerin sınırlarının ve konturlarının açıkça görüntülenebildiği bir Canny kenar algılama haritası da bulunmaktadır:
StableDiffusion'ın kontrolü için araştırmacılar, ControlNet-XS'in üç versiyonunu 491M, 55M ve 14M parametreleriyle değerlendirdiler.
Sonuçlar, parametrelerin %1,6'sının (865M) üretim sürecini de güvenilir bir şekilde kontrol edebildiğini göstermektedir.
Peki bu nasıl yapılıyor?
Sıfırdan Eğitim
Orijinal ControlNet, StableDiffusion temel modelindeki U-Net kodlayıcının bir kopyasıdır, dolayısıyla kenar haritaları gibi ek yönlendirme sinyalleriyle birlikte temel modelle aynı girişi alır.
Daha sonra eğitilen ControlNet'in ara çıkışı, temel modelin kod çözücü katmanının girişine eklenir. ControlNet'in eğitim süreci boyunca temel modelin ağırlıkları donmuş halde kalır.
ControlNet-XS araştırmacıları bu yaklaşımla ilgili sorunlar olduğuna ve ControlNet'in bu kadar büyük olmasının gerekmediğine inanıyor.
Birincisi, bir dizi adımda tekrarlanarak oluşturulan Kararlı Difüzyon nihai çıktı görüntüsüdür. Her adım, U-Net ağ yapısının kodlayıcı (Kodlayıcı) ve Kod Çözücü (Kod Çözücü) kısımlarında yürütülecektir.
Her yinelemede temel modele ve kontrol modeline girdi, önceki adımda oluşturulan görüntüdür. Kontrol modeli ayrıca bir kontrol görüntüsü alır.
Sorun, her iki modelin de kodlayıcı aşamasında bağımsız olarak çalışması, kontrol modelinden gelen geri bildirimin ise yalnızca temel modelin kod çözücü aşamasında girilmesidir.
Sonuç olarak, sonuç gecikmiş bir düzeltme/kontrol mekanizmasıdır.
Başka bir deyişle, ControlNet iki görevi yerine getirmelidir: bir tarafta düzeltme/kontrol, diğer tarafta ise temel modelin kodlayıcısının ne tür "hatalar" yapacağını önceden tahmin etmelidir.
Görüntü oluşturma ve kontrolün benzer model kapasitesi gerektirdiğini ima ederek, ControlNet ağırlıklarını temel modelin ağırlıklarıyla başlatmak ve ardından bunlara ince ayar yapmak doğaldır.
ControlNet-XS'e gelince, araştırmacılar tasarımın temel modelden farklı olduğunu, ControlNet-XS ağırlıklarını sıfırdan eğiterek gecikmeli geri bildirim sorununu çözdüğünü söyledi.
Yukarıdaki şekilde gösterildiği gibi yöntem, temel modelin kodlayıcısından kontrol kodlayıcısına (A) bir bağlantı eklemek, böylece düzeltme işleminin temel modelin üretim sürecine daha hızlı uyum sağlayabilmesini sağlamaktır. Ancak temel modelin kodlayıcısı hâlâ önyüklemeli olmadığından bu, gecikmeyi tamamen ortadan kaldırmaz.
Bu nedenle araştırmacılar, ControlNet-XS'den temel model kodlayıcıya ek bağlantılar ekleyerek tüm üretim sürecini doğrudan etkiledi (B).
Ek olarak, yansıtılmış kod çözme mimarisi kullanmanın ControlNet ayarında (C) faydalı olup olmayacağını değerlendirdiler.
Son olarak araştırmacılar, Canny kenar kılavuzunun (A, B, C) ve orijinal ControlNet'in üç farklı çeşidi için COCO2017 doğrulama seti üzerinde bir FID puanı performans değerlendirmesi gerçekleştirdi.
Tüm değişkenler, orijinal ControlNet parametrelerinin yalnızca bir kısmını kullanırken önemli iyileştirmeler sağlar.
Araştırmacılar sırasıyla Canny kenar haritasını ve derinlik haritası rehberliğini kullanarak B varyantını buldular ve StableDiffusion2.1 ve StableDiffusion-XL için farklı boyutlarda üç model eğittiler.
Dolayısıyla bir sonraki adım ilgili belgelerin, kodların ve önceden eğitilmiş modellerin yayınlanmasını beklemektir~
proje adresi:
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Parametrelerin yalnızca %1'i gerekli, efekt ControlNet'i aşıyor, yeni bir AI boyama kontrol uzmanı geliyor
Orijinal kaynak: Qubits
"Yeni AI boyama detay kontrol uzmanı" ControlNet-XS burada!
Önemli olan, parametrelerin orijinal ControlNet'in yalnızca %1'ine ihtiyaç duymasıdır.
Kek lezzetlerini istediğiniz zaman değiştirebilirsiniz:
**
**###### △Soldaki resim değişiklikten önceki halidir
Birinin gardırobunu değiştirmek kolaydır:
Ancak araştırmacılar ControlNet-XS** FID puanının ControlNet**'ten önemli ölçüde daha iyi olduğunu söyledi.
Stable Diffusion-XL ve Stable Diffusion 2.1'i kontrol eden kod da yakın gelecekte açık kaynak olacak.
Yeni Nesil Kontrol Master
Farklı boyutlardaki kontrol modellerini değerlendirdikten sonra araştırmacılar, kontrol modelinin 2.6B parametreli StableDiffusion-XL temel ağıyla aynı boyutta olmasına bile gerek olmadığını buldu.
400M, 104M ve 48M parametrelerinin ControlNet-XS kontrolü de açıkça görülmektedir.
Derinlik haritası daha sezgisel bir görüntü sağlar.Görüntü içeriğinin uzaklığına ve derinliğine göre derinlik haritası doğru renk tonlarını sunar:
Ayrıca nesnelerin sınırlarının ve konturlarının açıkça görüntülenebildiği bir Canny kenar algılama haritası da bulunmaktadır:
Sonuçlar, parametrelerin %1,6'sının (865M) üretim sürecini de güvenilir bir şekilde kontrol edebildiğini göstermektedir.
Sıfırdan Eğitim
Orijinal ControlNet, StableDiffusion temel modelindeki U-Net kodlayıcının bir kopyasıdır, dolayısıyla kenar haritaları gibi ek yönlendirme sinyalleriyle birlikte temel modelle aynı girişi alır.
Daha sonra eğitilen ControlNet'in ara çıkışı, temel modelin kod çözücü katmanının girişine eklenir. ControlNet'in eğitim süreci boyunca temel modelin ağırlıkları donmuş halde kalır.
ControlNet-XS araştırmacıları bu yaklaşımla ilgili sorunlar olduğuna ve ControlNet'in bu kadar büyük olmasının gerekmediğine inanıyor.
Birincisi, bir dizi adımda tekrarlanarak oluşturulan Kararlı Difüzyon nihai çıktı görüntüsüdür. Her adım, U-Net ağ yapısının kodlayıcı (Kodlayıcı) ve Kod Çözücü (Kod Çözücü) kısımlarında yürütülecektir.
Her yinelemede temel modele ve kontrol modeline girdi, önceki adımda oluşturulan görüntüdür. Kontrol modeli ayrıca bir kontrol görüntüsü alır.
Sorun, her iki modelin de kodlayıcı aşamasında bağımsız olarak çalışması, kontrol modelinden gelen geri bildirimin ise yalnızca temel modelin kod çözücü aşamasında girilmesidir.
Sonuç olarak, sonuç gecikmiş bir düzeltme/kontrol mekanizmasıdır.
Başka bir deyişle, ControlNet iki görevi yerine getirmelidir: bir tarafta düzeltme/kontrol, diğer tarafta ise temel modelin kodlayıcısının ne tür "hatalar" yapacağını önceden tahmin etmelidir.
Görüntü oluşturma ve kontrolün benzer model kapasitesi gerektirdiğini ima ederek, ControlNet ağırlıklarını temel modelin ağırlıklarıyla başlatmak ve ardından bunlara ince ayar yapmak doğaldır.
Yukarıdaki şekilde gösterildiği gibi yöntem, temel modelin kodlayıcısından kontrol kodlayıcısına (A) bir bağlantı eklemek, böylece düzeltme işleminin temel modelin üretim sürecine daha hızlı uyum sağlayabilmesini sağlamaktır. Ancak temel modelin kodlayıcısı hâlâ önyüklemeli olmadığından bu, gecikmeyi tamamen ortadan kaldırmaz.
Bu nedenle araştırmacılar, ControlNet-XS'den temel model kodlayıcıya ek bağlantılar ekleyerek tüm üretim sürecini doğrudan etkiledi (B).
Ek olarak, yansıtılmış kod çözme mimarisi kullanmanın ControlNet ayarında (C) faydalı olup olmayacağını değerlendirdiler.
Son olarak araştırmacılar, Canny kenar kılavuzunun (A, B, C) ve orijinal ControlNet'in üç farklı çeşidi için COCO2017 doğrulama seti üzerinde bir FID puanı performans değerlendirmesi gerçekleştirdi.
Tüm değişkenler, orijinal ControlNet parametrelerinin yalnızca bir kısmını kullanırken önemli iyileştirmeler sağlar.