"التحكم الرئيسي الجديد في تفاصيل الرسم بالذكاء الاصطناعي" ControlNet-XS موجود هنا!
الشيء المهم هو أن المعلمات تحتاج فقط إلى 1% من ControlNet الأصلي.
يمكنك تبديل نكهات الكيك حسب الرغبة:
** **###### △الصورة على اليسار قبل التغيير
من السهل تغيير خزانة الملابس:
نفس ستايل الصورة أعلاه، شكل الجسم يبقى دون تغيير والجو الفني ممتلئ:
كما يمكنك الاستمتاع بالمناظر الطبيعية والتبديل بين الفصول على مدار العام:
وهذه البومة تحولت مباشرة من كائن حي إلى تمثال:
عندما تكون المعلمات صغيرة جدًا، يمكن تحقيق مثل هذا التأثير، كما أطلق عليه مستخدمو الإنترنت اسم Juezi ولم يتمكنوا من الانتظار لقراءة الورقة.
تم تطوير ControlNet-XS بواسطة مختبر الرؤية الحاسوبية بجامعة هايدلبرغ، ولم يتم حاليًا إصدار الأوراق ذات الصلة ونماذج التدريب المسبق.
لكن الباحثين قالوا إن نتيجة ControlNet-XS** FID أفضل بكثير من ControlNet**.
والكود الذي يتحكم في Stable Diffusion-XL وStable Diffusion 2.1 سيكون مفتوح المصدر في المستقبل القريب.
الجيل الجديد من التحكم الرئيسي
لنبدأ بتحكم Kangkang في StableDiffusion-XL.
بعد تقييم نماذج التحكم ذات الأحجام المختلفة، وجد الباحثون أن نموذج التحكم لا يجب أن يكون بنفس حجم الشبكة الأساسية StableDiffusion-XL ذات المعلمة 2.6B.
كما أن التحكم ControlNet-XS في معلمات 400M و104M و48M واضح أيضًا.
توفر خريطة العمق عرضًا أكثر سهولة، ووفقًا للمسافة وعمق محتوى الصورة، تقدم خريطة العمق ظلال ألوان دقيقة:
وتجدر الإشارة إلى أن القيم الأولية التي حددها الباحثون هنا تختلف لكل صف ونفس الشيء لكل عمود.
بالإضافة إلى ذلك، هناك أيضًا خريطة Canny Edge للكشف عن الحواف، حيث يمكن عرض حدود الكائنات وملامحها بوضوح:
للتحكم في StableDiffusion، قام الباحثون بتقييم ثلاثة إصدارات من ControlNet-XS بمعلمات 491M و55M و14M.
أظهرت النتائج أن 1.6% من المعلمات (865M) يمكنها أيضًا التحكم بشكل موثوق في عملية التوليد.
اذن، كيف تم عمل هذا؟
التدريب من الصفر
تعد شبكة ControlNet الأصلية نسخة من برنامج تشفير U-Net في النموذج الأساسي StableDiffusion، لذا فهي تتلقى نفس المدخلات مثل النموذج الأساسي، مع إشارات توجيه إضافية، مثل خرائط الحافة.
بعد ذلك، تتم إضافة الإخراج الوسيط لشبكة ControlNet المدربة إلى مدخلات طبقة وحدة فك التشفير للنموذج الأساسي. طوال عملية التدريب على ControlNet، تظل أوزان النموذج الأساسي مجمدة.
يعتقد باحثو ControlNet-XS أن هناك مشاكل في هذا الأسلوب وأن ControlNet لا يلزم أن تكون كبيرة جدًا.
الأول هو صورة الإخراج النهائية للنشر المستقر، والتي يتم إنشاؤها بشكل متكرر في سلسلة من الخطوات. سيتم تنفيذ كل خطوة في أجزاء التشفير (Encoder) ووحدة فك التشفير (Decoder) في بنية شبكة U-Net.
الإدخال إلى النموذج الأساسي ونموذج التحكم في كل تكرار هو الصورة التي تم إنشاؤها في الخطوة السابقة. يتلقى نموذج التحكم أيضًا صورة تحكم.
المشكلة هي أن كلا النموذجين يعملان بشكل مستقل أثناء مرحلة التشفير، في حين أن التغذية الراجعة من نموذج التحكم يتم إدخالها فقط خلال مرحلة فك التشفير للنموذج الأساسي.
وبشكل عام، النتيجة هي آلية تصحيح/تحكم متأخرة.
بمعنى آخر، يجب أن تؤدي ControlNet مهمتين: من ناحية، التصحيح/التحكم، ومن ناحية أخرى، يجب أن تتنبأ مسبقًا بـ "الأخطاء" التي سيرتكبها مشفر النموذج الأساسي.
من خلال الإشارة إلى أن توليد الصور والتحكم فيها يتطلبان سعة نموذجية مماثلة، فمن الطبيعي تهيئة أوزان ControlNet مع أوزان النموذج الأساسي ثم ضبطها بشكل دقيق.
أما بالنسبة لـ ControlNet-XS، فقال الباحثون إن التصميم يختلف عن النموذج الأساسي، فهو يدرب أوزان ControlNet-XS من الصفر، مما يحل مشكلة تأخر التغذية الراجعة.
كما هو موضح في الشكل أعلاه، تتمثل الطريقة في إضافة اتصال من برنامج تشفير النموذج الأساسي إلى برنامج تشفير التحكم (A) حتى تتمكن عملية التصحيح من التكيف بشكل أسرع مع عملية إنشاء النموذج الأساسي. لكن هذا لا يلغي زمن الوصول تمامًا، نظرًا لأن برنامج تشفير النموذج الأساسي لم يتم تشغيله بعد.
ولذلك، أضاف الباحثون اتصالات إضافية من ControlNet-XS إلى مشفر النموذج الأساسي، مما يؤثر بشكل مباشر على عملية التوليد بأكملها (B).
بالإضافة إلى ذلك، قاموا بتقييم ما إذا كان استخدام بنية فك التشفير المتطابقة سيكون مفيدًا في إعداد ControlNet (C).
أخيرًا، أجرى الباحثون تقييمًا لأداء درجة FID في مجموعة التحقق من صحة COCO2017 لثلاثة أنواع مختلفة من توجيهات Canny edge (A، B، C) وControlNet الأصلية.
تؤدي جميع المتغيرات إلى تحسينات كبيرة أثناء استخدام جزء صغير فقط من معلمات ControlNet الأصلية.
توصل الباحثون إلى البديل B، باستخدام خريطة Canny edge وإرشادات خريطة العمق على التوالي، وقاموا بتدريب ثلاثة نماذج بأحجام مختلفة لـ StableDiffusion2.1 وStableDiffusion-XL.
لذا فإن الخطوة التالية هي انتظار إصدار الأوراق والرموز والنماذج المدربة مسبقًا ذات الصلة~
عنوان المشروع:
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
هناك حاجة إلى 1% فقط من المعلمات، ويتجاوز التأثير ControlNet، وسيأتي سيد جديد للتحكم في الرسم بالذكاء الاصطناعي
المصدر الأصلي: Qubits
"التحكم الرئيسي الجديد في تفاصيل الرسم بالذكاء الاصطناعي" ControlNet-XS موجود هنا!
الشيء المهم هو أن المعلمات تحتاج فقط إلى 1% من ControlNet الأصلي.
يمكنك تبديل نكهات الكيك حسب الرغبة:
**
**###### △الصورة على اليسار قبل التغيير
من السهل تغيير خزانة الملابس:
لكن الباحثين قالوا إن نتيجة ControlNet-XS** FID أفضل بكثير من ControlNet**.
والكود الذي يتحكم في Stable Diffusion-XL وStable Diffusion 2.1 سيكون مفتوح المصدر في المستقبل القريب.
الجيل الجديد من التحكم الرئيسي
بعد تقييم نماذج التحكم ذات الأحجام المختلفة، وجد الباحثون أن نموذج التحكم لا يجب أن يكون بنفس حجم الشبكة الأساسية StableDiffusion-XL ذات المعلمة 2.6B.
كما أن التحكم ControlNet-XS في معلمات 400M و104M و48M واضح أيضًا.
توفر خريطة العمق عرضًا أكثر سهولة، ووفقًا للمسافة وعمق محتوى الصورة، تقدم خريطة العمق ظلال ألوان دقيقة:
بالإضافة إلى ذلك، هناك أيضًا خريطة Canny Edge للكشف عن الحواف، حيث يمكن عرض حدود الكائنات وملامحها بوضوح:
أظهرت النتائج أن 1.6% من المعلمات (865M) يمكنها أيضًا التحكم بشكل موثوق في عملية التوليد.
التدريب من الصفر
تعد شبكة ControlNet الأصلية نسخة من برنامج تشفير U-Net في النموذج الأساسي StableDiffusion، لذا فهي تتلقى نفس المدخلات مثل النموذج الأساسي، مع إشارات توجيه إضافية، مثل خرائط الحافة.
بعد ذلك، تتم إضافة الإخراج الوسيط لشبكة ControlNet المدربة إلى مدخلات طبقة وحدة فك التشفير للنموذج الأساسي. طوال عملية التدريب على ControlNet، تظل أوزان النموذج الأساسي مجمدة.
يعتقد باحثو ControlNet-XS أن هناك مشاكل في هذا الأسلوب وأن ControlNet لا يلزم أن تكون كبيرة جدًا.
الأول هو صورة الإخراج النهائية للنشر المستقر، والتي يتم إنشاؤها بشكل متكرر في سلسلة من الخطوات. سيتم تنفيذ كل خطوة في أجزاء التشفير (Encoder) ووحدة فك التشفير (Decoder) في بنية شبكة U-Net.
الإدخال إلى النموذج الأساسي ونموذج التحكم في كل تكرار هو الصورة التي تم إنشاؤها في الخطوة السابقة. يتلقى نموذج التحكم أيضًا صورة تحكم.
المشكلة هي أن كلا النموذجين يعملان بشكل مستقل أثناء مرحلة التشفير، في حين أن التغذية الراجعة من نموذج التحكم يتم إدخالها فقط خلال مرحلة فك التشفير للنموذج الأساسي.
وبشكل عام، النتيجة هي آلية تصحيح/تحكم متأخرة.
بمعنى آخر، يجب أن تؤدي ControlNet مهمتين: من ناحية، التصحيح/التحكم، ومن ناحية أخرى، يجب أن تتنبأ مسبقًا بـ "الأخطاء" التي سيرتكبها مشفر النموذج الأساسي.
من خلال الإشارة إلى أن توليد الصور والتحكم فيها يتطلبان سعة نموذجية مماثلة، فمن الطبيعي تهيئة أوزان ControlNet مع أوزان النموذج الأساسي ثم ضبطها بشكل دقيق.
كما هو موضح في الشكل أعلاه، تتمثل الطريقة في إضافة اتصال من برنامج تشفير النموذج الأساسي إلى برنامج تشفير التحكم (A) حتى تتمكن عملية التصحيح من التكيف بشكل أسرع مع عملية إنشاء النموذج الأساسي. لكن هذا لا يلغي زمن الوصول تمامًا، نظرًا لأن برنامج تشفير النموذج الأساسي لم يتم تشغيله بعد.
ولذلك، أضاف الباحثون اتصالات إضافية من ControlNet-XS إلى مشفر النموذج الأساسي، مما يؤثر بشكل مباشر على عملية التوليد بأكملها (B).
بالإضافة إلى ذلك، قاموا بتقييم ما إذا كان استخدام بنية فك التشفير المتطابقة سيكون مفيدًا في إعداد ControlNet (C).
أخيرًا، أجرى الباحثون تقييمًا لأداء درجة FID في مجموعة التحقق من صحة COCO2017 لثلاثة أنواع مختلفة من توجيهات Canny edge (A، B، C) وControlNet الأصلية.
تؤدي جميع المتغيرات إلى تحسينات كبيرة أثناء استخدام جزء صغير فقط من معلمات ControlNet الأصلية.