"Bậc thầy kiểm soát chi tiết bức tranh AI mới" ControlNet-XS đã có mặt!
Điều quan trọng là các tham số chỉ cần 1% của ControlNet gốc.
Bạn có thể thay đổi hương vị bánh theo ý muốn:
** **###### △Hình bên trái là trước khi thay đổi
Thật dễ dàng để thay đổi tủ quần áo của một người:
Phong cách giống như hình trên, hình dáng cơ thể không thay đổi và không khí nghệ thuật tràn đầy:
Bạn còn có thể tận hưởng khung cảnh thiên nhiên và chuyển đổi giữa các mùa trong năm:
Và con cú này, được biến đổi trực tiếp từ một sinh vật sống thành một tác phẩm điêu khắc:
Khi các thông số rất nhỏ thì có thể đạt được hiệu quả như vậy, cư dân mạng còn gọi nó là Juezi và nóng lòng muốn đọc bài báo.
ControlNet-XS được phát triển bởi Phòng thí nghiệm Thị giác Máy tính của Đại học Heidelberg, hiện tại các tài liệu liên quan và mô hình đào tạo trước vẫn chưa được phát hành.
Nhưng các nhà nghiên cứu cho biết điểm FID của ControlNet-XS** tốt hơn đáng kể so với ControlNet**.
Và mã điều khiển Stable Diffusion-XL và Stable Diffusion 2.1 sẽ là mã nguồn mở trong thời gian tới.
Bậc thầy điều khiển thế hệ mới
Hãy bắt đầu với việc kiểm soát StableDiffusion-XL của Kangkang.
Sau khi đánh giá các mô hình điều khiển có kích thước khác nhau, các nhà nghiên cứu nhận thấy rằng mô hình điều khiển thậm chí không cần phải có cùng kích thước với mạng cơ sở StableDiffusion-XL tham số 2.6B.
Việc kiểm soát ControlNet-XS đối với các tham số 400M, 104M và 48M cũng được thể hiện rõ ràng.
Bản đồ độ sâu giúp hiển thị trực quan hơn.Theo khoảng cách và độ sâu của nội dung hình ảnh, bản đồ độ sâu thể hiện các sắc thái màu chính xác:
Cần lưu ý rằng các giá trị hạt giống do các nhà nghiên cứu đặt ra ở đây là khác nhau cho mỗi hàng và giống nhau cho mỗi cột.
Ngoài ra, còn có bản đồ phát hiện cạnh Canny, nơi có thể hiển thị rõ ràng ranh giới và đường viền của các đối tượng:
Để kiểm soát StableDiffusion, các nhà nghiên cứu đã đánh giá ba phiên bản ControlNet-XS với các thông số 491M, 55M và 14M.
Kết quả cho thấy 1,6% tham số (865M) cũng có thể kiểm soát quá trình phát điện một cách đáng tin cậy.
Vậy phải hoàn thành nó như thế nào?
Đào tạo từ đầu
ControlNet ban đầu là bản sao của bộ mã hóa U-Net trong mô hình cơ sở StableDiffusion, do đó, nó nhận được đầu vào giống như mô hình cơ sở, với các tín hiệu hướng dẫn bổ sung, chẳng hạn như bản đồ biên.
Sau đó, đầu ra trung gian của ControlNet đã huấn luyện sẽ được thêm vào đầu vào của lớp giải mã của mô hình cơ sở. Trong suốt quá trình đào tạo của ControlNet, các trọng số của mô hình cơ sở vẫn không thay đổi.
Các nhà nghiên cứu của ControlNet-XS tin rằng có vấn đề với cách tiếp cận này và ControlNet không cần phải lớn như vậy.
Đầu tiên là hình ảnh đầu ra cuối cùng của Khuếch tán ổn định, được tạo lặp đi lặp lại theo một loạt các bước. Mỗi bước sẽ được thực thi ở phần bộ mã hóa (Encode) và bộ giải mã (Decoding) của cấu trúc mạng U-Net.
Đầu vào của mô hình cơ sở và mô hình điều khiển trong mỗi lần lặp là hình ảnh được tạo ở bước trước. Mô hình điều khiển cũng nhận được một hình ảnh điều khiển.
Vấn đề là cả hai mô hình đều chạy độc lập trong giai đoạn mã hóa, trong khi phản hồi từ mô hình điều khiển chỉ được đưa vào trong giai đoạn giải mã của mô hình cơ sở.
Nói chung, kết quả là cơ chế điều chỉnh/kiểm soát bị trì hoãn.
Nói cách khác, ControlNet phải thực hiện hai nhiệm vụ: một mặt là hiệu chỉnh/điều khiển và mặt khác, nó phải dự đoán trước những "lỗi" mà bộ mã hóa của mô hình cơ bản sẽ mắc phải.
Bằng cách ngụ ý rằng việc tạo và kiểm soát hình ảnh yêu cầu dung lượng mô hình tương tự, việc khởi tạo các trọng số của ControlNet với các trọng số của mô hình cơ sở là điều đương nhiên và sau đó tinh chỉnh chúng.
Đối với ControlNet-XS, các nhà nghiên cứu cho biết thiết kế này khác với mô hình cơ bản, nó huấn luyện các trọng số ControlNet-XS ngay từ đầu, giúp giải quyết vấn đề phản hồi chậm trễ.
Như thể hiện trong hình trên, phương pháp này là thêm kết nối từ bộ mã hóa của mô hình cơ sở đến bộ mã hóa điều khiển (A) để quá trình hiệu chỉnh có thể thích ứng nhanh hơn với quá trình tạo của mô hình cơ sở. Nhưng điều này không loại bỏ hoàn toàn độ trễ vì bộ mã hóa của mô hình cơ sở vẫn chưa được khởi động.
Do đó, các nhà nghiên cứu đã bổ sung thêm các kết nối từ ControlNet-XS vào bộ mã hóa mô hình cơ sở, ảnh hưởng trực tiếp đến toàn bộ quá trình tạo (B).
Ngoài ra, họ còn đánh giá xem liệu việc sử dụng kiến trúc giải mã được phản chiếu có hữu ích trong cài đặt ControlNet (C) hay không.
Cuối cùng, các nhà nghiên cứu đã tiến hành đánh giá hiệu suất điểm FID trên bộ xác thực COCO2017 cho ba biến thể khác nhau của hướng dẫn biên Canny (A, B, C) và ControlNet ban đầu.
Tất cả các biến thể đều mang lại những cải tiến đáng kể trong khi chỉ sử dụng một phần tham số ControlNet ban đầu.
Các nhà nghiên cứu đã đưa ra biến thể B, sử dụng hướng dẫn bản đồ biên và bản đồ độ sâu tương ứng, đồng thời huấn luyện ba mô hình có kích thước khác nhau cho StableDiffusion2.1 và StableDiffusion-XL.
Vì vậy, bước tiếp theo là chờ phát hành các giấy tờ, mã và mô hình được đào tạo trước có liên quan~
địa chỉ dự án:
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Chỉ cần 1% thông số, hiệu ứng vượt mặt ControlNet, bậc thầy điều khiển tranh AI mới sắp ra mắt
Nguồn gốc: Qubits
"Bậc thầy kiểm soát chi tiết bức tranh AI mới" ControlNet-XS đã có mặt!
Điều quan trọng là các tham số chỉ cần 1% của ControlNet gốc.
Bạn có thể thay đổi hương vị bánh theo ý muốn:
**
**###### △Hình bên trái là trước khi thay đổi
Thật dễ dàng để thay đổi tủ quần áo của một người:
Nhưng các nhà nghiên cứu cho biết điểm FID của ControlNet-XS** tốt hơn đáng kể so với ControlNet**.
Và mã điều khiển Stable Diffusion-XL và Stable Diffusion 2.1 sẽ là mã nguồn mở trong thời gian tới.
Bậc thầy điều khiển thế hệ mới
Sau khi đánh giá các mô hình điều khiển có kích thước khác nhau, các nhà nghiên cứu nhận thấy rằng mô hình điều khiển thậm chí không cần phải có cùng kích thước với mạng cơ sở StableDiffusion-XL tham số 2.6B.
Việc kiểm soát ControlNet-XS đối với các tham số 400M, 104M và 48M cũng được thể hiện rõ ràng.
Bản đồ độ sâu giúp hiển thị trực quan hơn.Theo khoảng cách và độ sâu của nội dung hình ảnh, bản đồ độ sâu thể hiện các sắc thái màu chính xác:
Ngoài ra, còn có bản đồ phát hiện cạnh Canny, nơi có thể hiển thị rõ ràng ranh giới và đường viền của các đối tượng:
Kết quả cho thấy 1,6% tham số (865M) cũng có thể kiểm soát quá trình phát điện một cách đáng tin cậy.
Đào tạo từ đầu
ControlNet ban đầu là bản sao của bộ mã hóa U-Net trong mô hình cơ sở StableDiffusion, do đó, nó nhận được đầu vào giống như mô hình cơ sở, với các tín hiệu hướng dẫn bổ sung, chẳng hạn như bản đồ biên.
Sau đó, đầu ra trung gian của ControlNet đã huấn luyện sẽ được thêm vào đầu vào của lớp giải mã của mô hình cơ sở. Trong suốt quá trình đào tạo của ControlNet, các trọng số của mô hình cơ sở vẫn không thay đổi.
Các nhà nghiên cứu của ControlNet-XS tin rằng có vấn đề với cách tiếp cận này và ControlNet không cần phải lớn như vậy.
Đầu tiên là hình ảnh đầu ra cuối cùng của Khuếch tán ổn định, được tạo lặp đi lặp lại theo một loạt các bước. Mỗi bước sẽ được thực thi ở phần bộ mã hóa (Encode) và bộ giải mã (Decoding) của cấu trúc mạng U-Net.
Đầu vào của mô hình cơ sở và mô hình điều khiển trong mỗi lần lặp là hình ảnh được tạo ở bước trước. Mô hình điều khiển cũng nhận được một hình ảnh điều khiển.
Vấn đề là cả hai mô hình đều chạy độc lập trong giai đoạn mã hóa, trong khi phản hồi từ mô hình điều khiển chỉ được đưa vào trong giai đoạn giải mã của mô hình cơ sở.
Nói chung, kết quả là cơ chế điều chỉnh/kiểm soát bị trì hoãn.
Nói cách khác, ControlNet phải thực hiện hai nhiệm vụ: một mặt là hiệu chỉnh/điều khiển và mặt khác, nó phải dự đoán trước những "lỗi" mà bộ mã hóa của mô hình cơ bản sẽ mắc phải.
Bằng cách ngụ ý rằng việc tạo và kiểm soát hình ảnh yêu cầu dung lượng mô hình tương tự, việc khởi tạo các trọng số của ControlNet với các trọng số của mô hình cơ sở là điều đương nhiên và sau đó tinh chỉnh chúng.
Như thể hiện trong hình trên, phương pháp này là thêm kết nối từ bộ mã hóa của mô hình cơ sở đến bộ mã hóa điều khiển (A) để quá trình hiệu chỉnh có thể thích ứng nhanh hơn với quá trình tạo của mô hình cơ sở. Nhưng điều này không loại bỏ hoàn toàn độ trễ vì bộ mã hóa của mô hình cơ sở vẫn chưa được khởi động.
Do đó, các nhà nghiên cứu đã bổ sung thêm các kết nối từ ControlNet-XS vào bộ mã hóa mô hình cơ sở, ảnh hưởng trực tiếp đến toàn bộ quá trình tạo (B).
Ngoài ra, họ còn đánh giá xem liệu việc sử dụng kiến trúc giải mã được phản chiếu có hữu ích trong cài đặt ControlNet (C) hay không.
Cuối cùng, các nhà nghiên cứu đã tiến hành đánh giá hiệu suất điểm FID trên bộ xác thực COCO2017 cho ba biến thể khác nhau của hướng dẫn biên Canny (A, B, C) và ControlNet ban đầu.
Tất cả các biến thể đều mang lại những cải tiến đáng kể trong khi chỉ sử dụng một phần tham số ControlNet ban đầu.