Hanya 1% parameter yang diperlukan, efeknya melampaui ControlNet, master kontrol pengecatan AI baru akan hadir

Sumber asli: Qubit

Sumber gambar: Dihasilkan oleh AI Tanpa Batas‌

"Master kontrol detail lukisan AI baru" ControlNet-XS telah hadir!

Yang penting parameternya hanya membutuhkan 1% dari ControlNet asli.

Anda dapat mengganti rasa kue sesuka hati:

** **###### Gambar sebelah kiri sebelum diubah

Sangat mudah untuk mengganti lemari pakaian:

Coraknya sama seperti gambar di atas, bentuk badan tetap tidak berubah dan suasana artistik penuh:

Anda juga dapat menikmati pemandangan alam dan berganti musim sepanjang tahun:

Dan burung hantu ini, diubah langsung dari makhluk hidup menjadi patung:

Jika parameternya sangat kecil, efek seperti itu bisa dicapai, Netizen pun menyebutnya Juezi dan tidak sabar untuk membaca korannya.

ControlNet-XS dikembangkan oleh Computer Vision Laboratory Universitas Heidelberg. Saat ini, makalah yang relevan dan model pra-pelatihan belum dirilis.

Namun para peneliti mengatakan bahwa skor FID ControlNet-XS** secara signifikan lebih baik daripada ControlNet**.

Dan kode yang mengontrol Stable Diffusion-XL dan Stable Diffusion 2.1 akan menjadi open source dalam waktu dekat.

Master Kontrol Generasi Baru

Mari kita mulai dengan kendali Kangkang atas StableDiffusion-XL.

Setelah mengevaluasi model kontrol dengan ukuran yang berbeda, para peneliti menemukan bahwa model kontrol bahkan tidak harus berukuran sama dengan jaringan dasar StableDiffusion-XL parameter 2,6B.

Kontrol ControlNet-XS pada parameter 400M, 104M dan 48M juga terlihat jelas.

Peta kedalaman memberikan tampilan yang lebih intuitif. Sesuai dengan jarak dan kedalaman konten gambar, peta kedalaman menyajikan corak warna yang akurat:

Perlu diperhatikan bahwa nilai benih yang ditetapkan peneliti di sini berbeda-beda untuk setiap baris dan sama untuk setiap kolom.

Selain itu, terdapat juga peta deteksi tepi Canny, yang dapat menampilkan batas dan kontur objek dengan jelas:

Untuk kontrol StableDiffusion, para peneliti mengevaluasi tiga versi ControlNet-XS dengan parameter 491M, 55M dan 14M.

Hasilnya menunjukkan bahwa 1,6% parameter (865M) juga dapat mengontrol proses pembangkitan dengan andal.

Jadi bagaimana hal ini dilakukan?

Pelatihan dari Awal

ControlNet asli adalah salinan encoder U-Net dalam model dasar StableDiffusion, sehingga menerima masukan yang sama dengan model dasar, dengan sinyal panduan tambahan, seperti peta tepi.

Kemudian, keluaran perantara dari ControlNet yang dilatih ditambahkan ke masukan lapisan dekoder model dasar. Sepanjang proses pelatihan ControlNet, bobot model dasar tetap dibekukan.

Peneliti ControlNet-XS percaya bahwa ada masalah dengan pendekatan ini dan ControlNet tidak perlu berukuran terlalu besar.

Yang pertama adalah gambar keluaran akhir Difusi Stabil, yang dihasilkan secara berulang dalam serangkaian langkah. Setiap langkah akan dieksekusi di bagian encoder (Encoder) dan decoder (Decoder) pada struktur jaringan U-Net.

Masukan pada model dasar dan model kontrol pada setiap iterasi adalah citra yang dihasilkan pada langkah sebelumnya. Model kontrol juga menerima gambar kontrol.

Permasalahannya adalah kedua model berjalan secara independen pada tahap encoder, sedangkan umpan balik dari model kontrol hanya dimasukkan pada tahap decoder pada model dasar.

Secara keseluruhan, hasilnya adalah mekanisme koreksi/kontrol yang tertunda.

Dengan kata lain, ControlNet harus melakukan dua tugas: di satu sisi, koreksi/kontrol, dan di sisi lain, ia harus memprediksi terlebih dahulu "kesalahan" apa yang akan dibuat oleh encoder model dasar.

Dengan menyiratkan bahwa pembuatan gambar dan kontrol memerlukan kapasitas model yang serupa, wajar untuk menginisialisasi bobot ControlNet dengan bobot model dasar dan kemudian menyempurnakannya.

Sedangkan untuk ControlNet-XS, para peneliti mengatakan bahwa desainnya berbeda dari model dasar karena melatih bobot ControlNet-XS dari awal, yang memecahkan masalah umpan balik yang tertunda.

Seperti terlihat pada gambar di atas, caranya adalah dengan menambahkan koneksi dari encoder model dasar ke encoder kontrol (A) sehingga proses koreksi dapat beradaptasi lebih cepat dengan proses pembangkitan model dasar. Namun hal ini tidak sepenuhnya menghilangkan latensi, karena encoder model dasar masih belum di-bootstrap.

Oleh karena itu, para peneliti menambahkan koneksi tambahan dari ControlNet-XS ke encoder model dasar, yang secara langsung memengaruhi seluruh proses pembangkitan (B).

Selain itu, mereka mengevaluasi apakah penggunaan arsitektur decoding cermin akan berguna dalam pengaturan ControlNet (C).

Terakhir, para peneliti melakukan evaluasi kinerja skor FID pada set validasi COCO2017 untuk tiga varian berbeda dari panduan Canny edge (A, B, C) dan ControlNet asli.

Semua varian menghasilkan peningkatan yang signifikan dengan hanya menggunakan sebagian kecil dari parameter ControlNet asli.

Para peneliti menghasilkan varian B, masing-masing menggunakan panduan peta tepi Canny dan peta kedalaman, dan melatih tiga model dengan ukuran berbeda untuk StableDiffusion2.1 dan StableDiffusion-XL.

Jadi langkah selanjutnya adalah menunggu rilis makalah, kode, dan model terlatih yang relevan~

alamat proyek:

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
0/400
Tidak ada komentar
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)