يمكن للنص إنشاء أكثر من 20 نوعًا من الموسيقى الخلفية مباشرةً. الإصدار المجاني من Stable Audio موجود هنا!

** المصدر: ** مجتمع AIGC المفتوح

في 14 سبتمبر، أصدرت منصة Stability AI الشهيرة مفتوحة المصدر منتج الصوت المولد بالذكاء الاصطناعي Stable Audio على موقعها الرسمي على الإنترنت. (عنوان الاستخدام المجاني:

يمكن للمستخدمين إنشاء أكثر من 20 نوعًا من موسيقى الخلفية مباشرة مثل موسيقى الروك والجاز والإلكترونية والهيب هوب وهيفي ميتال والفولك والبوب والبانك والريف من خلال المطالبات النصية.

على سبيل المثال، أدخل كلمات رئيسية مثل ديسكو، آلة الطبل، آلة النطق، الجهير، البيانو، الجيتار، البهجة، 115 نبضة في الدقيقة، وما إلى ذلك لإنشاء موسيقى خلفية.

حاليًا، يحتوي Stable Audio على نسختين مجانية ومدفوعة: الإصدار المجاني، الذي يمكنه إنشاء 20 مقطوعة موسيقية شهريًا، بمدة أقصاها 45 ثانية، ولا يمكن استخدامها لأغراض تجارية؛ الإصدار المدفوع، الذي يكلف 11.99 دولارًا شهريًا ( (حوالي 87 يوانًا)، يمكنه إنتاج 500 قطعة موسيقية. ويمكن استخدام الموسيقى، التي تبلغ مدتها القصوى 90 ثانية، تجاريًا.

إذا كنت لا ترغب في الدفع، يمكنك تسجيل عدد قليل من الحسابات الإضافية، ويمكنك لصق الموسيقى التي تم إنشاؤها من خلال AU (محرر الصوت) أو العلاقات العامة لتحقيق نفس التأثير.

مقدمة موجزة للصوت المستقر

في السنوات القليلة الماضية، حققت نماذج الانتشار تطورًا سريعًا في مجالات الصور والفيديو والصوت وغيرها، مما يمكن أن يحسن بشكل كبير التدريب وكفاءة الاستدلال. ولكن هناك مشكلة في نماذج الانتشار في المجال الصوتي، والتي تنتج عادةً محتوى ذي حجم ثابت.

على سبيل المثال، يمكن تدريب نموذج نشر الصوت على مقاطع صوتية مدتها 30 ثانية وإنشاء مقاطع صوتية مدتها 30 ثانية فقط. من أجل كسر هذا الاختناق الفني، يستخدم Stable Audio نموذجًا أكثر تقدمًا.

هذا هو نموذج نشر صوتي كامن يعتمد على البيانات الوصفية النصية ومدة الملف الصوتي وتعديلات وقت البدء، مما يسمح بالتحكم في محتوى وطول الصوت الذي تم إنشاؤه. يمكّن شرط الوقت الإضافي هذا المستخدم من إنشاء صوت بطول محدد.

يمكن أن يؤدي استخدام تمثيل كامن مخفض بشكل كبير للصوت إلى تحقيق كفاءة استدلال أسرع مقارنة بالصوت الأصلي. مع أحدث طراز صوتي مستقر، يمكن لـ Stable Audio تقديم 95 ثانية من صوت ستيريو باستخدام وحدة معالجة الرسومات NVIDIA A100 في أقل من ثانية واحدة، مع معدل أخذ عينات يبلغ 44.1 كيلو هرتز.

فيما يتعلق ببيانات التدريب، يستخدم Stable Audio مجموعة بيانات تتكون من أكثر من 800000 ملف صوتي، بما في ذلك الموسيقى والمؤثرات الصوتية والآلات الموسيقية المختلفة.

يبلغ إجمالي مجموعة البيانات أكثر من 19500 ساعة من الصوت، كما أنها تتعاون مع مزود خدمة الموسيقى AudioSparx، بحيث يمكن استخدام الموسيقى التي تم إنشاؤها للتسويق.

نموذج الانتشار الكامن

تعد نماذج الانتشار الكامن التي يستخدمها Stable Audio نموذجًا توليديًا قائمًا على الانتشار يستخدم بشكل أساسي في مساحة التشفير الكامن لأجهزة التشفير التلقائي المدربة مسبقًا. هذا هو النهج الذي يجمع بين أجهزة التشفير التلقائي ونماذج الانتشار.

تُستخدم أجهزة التشفير التلقائي أولاً للتعرف على التمثيلات الكامنة منخفضة الأبعاد لبيانات الإدخال (مثل الصور أو الصوت). يلتقط هذا التمثيل الكامن ميزات مهمة لبيانات الإدخال ويمكن استخدامه لإعادة بناء البيانات الأصلية.

يتم بعد ذلك تدريب نماذج الانتشار في هذا الفضاء الكامن، وتغيير المتغيرات الكامنة تدريجيًا لتوليد بيانات جديدة.

الميزة الرئيسية لهذا النهج هو أنه يمكن أن يحسن بشكل كبير سرعة التدريب والاستدلال لنماذج الانتشار. ونظرًا لأن عملية الانتشار تحدث في مساحة كامنة صغيرة نسبيًا بدلاً من مساحة البيانات الأصلية، فيمكن إنشاء بيانات جديدة بشكل أكثر كفاءة.

بالإضافة إلى ذلك، من خلال العمل في الفضاء الكامن، يمكن لهذه النماذج أيضًا توفير تحكم أفضل في البيانات التي تم إنشاؤها. على سبيل المثال، يمكن معالجة المتغيرات الكامنة لتغيير خصائص معينة للبيانات التي تم إنشاؤها، أو يمكن توجيه عملية توليد البيانات من خلال فرض قيود على المتغيرات الكامنة.

استخدام الصوت المستقر وعرض الحالة

جرب "AIGC Open Community" الإصدار المجاني من Stable Audio. طريقة الاستخدام مشابهة لطريقة ChatGPT. ما عليك سوى إدخال المطالبة النصية. يتضمن المحتوى الفوري أربع فئات: التفاصيل والعقلية والآلات والإيقاعات.

تجدر الإشارة إلى أنه إذا كنت تريد أن تكون الموسيقى التي تم إنشاؤها أكثر دقة وإيقاعًا وإيقاعًا، فيجب أيضًا أن يكون نص الإدخال أكثر تفصيلاً. بمعنى آخر، كلما زاد عدد النصوص التي تطالبك بإدخالها، كان التأثير الناتج أفضل.

واجهة مستخدم صوتية مستقرة

وفيما يلي عرض حالة لتوليد الصوت.

نشوة، جزيرة، شاطئ، شمس، 4 صباحًا، تقدمي، موالفة، 909، أوتار درامية، جوقة، متفائل، حنين، ديناميكي.

عناق ناعم، راحة، توليف منخفض، وميض، ريح وأوراق الشجر، محيط، سلمي، مريح، ماء.

البوب الإلكتروني، موالفة الصدى الكبيرة، آلة الطبول، الغلاف الجوي، المزاجي، الحنين، الرائع، موسيقى البوب، 100 نبضة في الدقيقة.

3/4، 3 نبضات، جيتار، طبول، مشرق، سعيد، تصفيق

مادة هذه المقالة مأخوذة من الموقع الرسمي لـ Stability AI. إذا كان هناك أي انتهاك، يرجى الاتصال بنا لحذفه.

نهاية

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت