Teks dapat langsung menghasilkan lebih dari 20 jenis musik latar. Versi gratis dari Stable Audio telah hadir!

**Sumber: **Komunitas Terbuka AIGC

Pada tanggal 14 September, platform sumber terbuka terkenal Stability AI merilis produk AI audio generatif Stable Audio di situs resminya. (Alamat penggunaan gratis:

Pengguna dapat langsung menghasilkan lebih dari 20 jenis musik latar seperti rock, jazz, elektronik, hip-hop, heavy metal, folk, pop, punk, dan country melalui perintah teks.

Misalnya, masukkan kata kunci seperti disko, mesin drum, synthesizer, bass, piano, gitar, ceria, 115 BPM, dll. untuk menghasilkan musik latar.

Saat ini, Stable Audio memiliki dua versi gratis dan berbayar: versi gratis, yang dapat menghasilkan 20 karya musik per bulan, dengan durasi maksimum 45 detik, dan tidak dapat digunakan untuk tujuan komersial; versi berbayar, dengan biaya $11,99 per bulan ( sekitar 87 yuan), dapat menghasilkan 500 buah musik.Musik, durasi maksimum 90 detik, dapat digunakan secara komersial.

Jika Anda tidak ingin membayar, Anda dapat mendaftarkan beberapa akun lagi, dan Anda dapat menggabungkan musik yang dihasilkan melalui AU (editor audio) atau PR untuk mendapatkan efek yang sama.

Pengantar singkat tentang Audio Stabil

Dalam beberapa tahun terakhir, model difusi telah mencapai perkembangan pesat di bidang gambar, video, audio, dan bidang lainnya, yang secara signifikan dapat meningkatkan efisiensi pelatihan dan inferensi. Namun ada masalah dengan model difusi dalam domain audio, yang biasanya menghasilkan konten berukuran tetap.

Misalnya, model difusi audio mungkin dilatih pada klip audio berdurasi 30 detik dan hanya menghasilkan klip audio berdurasi 30 detik. Untuk mengatasi hambatan teknis ini, Stable Audio menggunakan model yang lebih canggih.

Ini adalah model difusi laten audio berdasarkan metadata teks dan durasi file audio serta penyesuaian waktu mulai, memungkinkan kontrol atas konten dan panjang audio yang dihasilkan. Kondisi waktu tambahan ini memungkinkan pengguna untuk menghasilkan audio dengan panjang tertentu.

Menggunakan representasi laten audio yang banyak didownsampling dapat mencapai efisiensi inferensi yang lebih cepat dibandingkan dengan audio asli. Dengan model audio stabil terbaru, Stable Audio dapat merender audio stereo berdurasi 95 detik menggunakan GPU NVIDIA A100 dalam waktu kurang dari satu detik, dengan sampling rate 44,1 kHz.

Dalam hal data pelatihan, Stable Audio menggunakan kumpulan data yang terdiri dari lebih dari 800.000 file audio, termasuk musik, efek suara, dan berbagai alat musik.

Kumpulan data tersebut berjumlah lebih dari 19.500 jam audio, dan juga bekerja sama dengan penyedia layanan musik AudioSparx, sehingga musik yang dihasilkan dapat digunakan untuk komersialisasi.

Model difusi laten

Model Difusi Laten yang digunakan oleh Stable Audio adalah model generatif berbasis difusi yang terutama digunakan dalam ruang pengkodean laten dari autoencoder terlatih. Ini adalah pendekatan yang menggabungkan autoencoder dan model difusi.

Autoencoder pertama kali digunakan untuk mempelajari representasi laten dimensi rendah dari data masukan (seperti gambar atau audio). Representasi laten ini menangkap fitur-fitur penting dari data masukan dan dapat digunakan untuk merekonstruksi data asli.

Model difusi kemudian dilatih dalam ruang laten ini, secara bertahap mengubah variabel laten untuk menghasilkan data baru.

Keuntungan utama dari pendekatan ini adalah dapat meningkatkan kecepatan pelatihan dan inferensi model difusi secara signifikan. Karena proses difusi terjadi dalam ruang laten yang relatif kecil dibandingkan ruang data asli, data baru dapat dihasilkan dengan lebih efisien.

Selain itu, dengan beroperasi di ruang laten, model tersebut juga dapat memberikan kontrol yang lebih baik atas data yang dihasilkan. Misalnya, variabel laten dapat dimanipulasi untuk mengubah karakteristik tertentu dari data yang dihasilkan, atau proses pembuatan data dapat dipandu dengan menerapkan batasan pada variabel laten.

Penggunaan Audio yang stabil dan tampilan case

"Komunitas Terbuka AIGC" mencoba versi gratis dari Stable Audio. Metode penggunaannya mirip dengan ChatGPT. Cukup masukkan teks prompt. Konten cepat mencakup empat kategori: detail, mentalitas, instrumen, dan ketukan.

Perlu diperhatikan bahwa jika ingin musik yang dihasilkan lebih halus, ritmis dan berirama, teks masukannya juga perlu lebih detail. Dengan kata lain, semakin banyak teks yang diminta Anda masukkan, semakin baik efek yang dihasilkan.

Antarmuka pengguna Audio yang stabil

Berikut ini adalah contoh kasus pembuatan audio.

Trance, pulau, pantai, matahari, jam 4 pagi, progresif, synth, 909, akord dramatis, chorus, upbeat, nostalgia, dinamis.

Pelukan lembut, kenyamanan, synth rendah, kilau, angin dan dedaunan, ambient, damai, santai, air.

Pop elektronik, synth reverb besar, mesin drum, atmosfer, murung, nostalgia, keren, instrumental pop, 100 BPM.

3/4, 3 ketukan, gitar, drum, ceria, gembira, tepuk tangan

Materi artikel ini berasal dari situs resmi Stability AI, jika ada pelanggaran silahkan hubungi kami untuk menghapusnya.

AKHIR

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)