Stability AI, l'azienda nota per la tecnologia di Stable Diffusion, ha lanciato una nuova famiglia di modelli audio, denominata Stability Audio 3.0. Questa innovazione mira a ridefinire la creazione musicale attraverso l'intelligenza artificiale. Il modello di punta di questa serie è in grado di generare musica di qualità professionale per durate superiori ai sei minuti, segnando un notevole progresso rispetto alle versioni precedenti.
I modelli di Stability Audio 3.0: funzionalità e capacità
La gamma Stability Audio 3.0 comprende quattro nuovi modelli: Small SFX, Small, Medium e Large.
I modelli Small e Small SFX, entrambi con 459 milioni di parametri, sono ottimizzati per la generazione di suoni e musica fino a due minuti, rendendoli adatti per dispositivi portatili. I modelli Medium e Large, invece, sono capaci di produrre composizioni complete della durata di 6 minuti e 20 secondi. Questi ultimi mantengono una struttura musicale coerente e un tono melodico stabile, raddoppiando la capacità di generazione offerta da Stable Audio 2.0, rilasciato nel 2024.
Accessibilità e strategia di licenza
Stability AI ha reso disponibili con pesi aperti i modelli Small SFX, Small e Medium, permettendo a chiunque di utilizzarli e modificarli liberamente. Il modello Large, tuttavia, è accessibile esclusivamente tramite servizi a pagamento API e auto-hosting.
Le aziende con un fatturato annuo superiore a un milione di dollari dovranno acquisire una licenza enterprise. Questa politica di licenza evidenzia la crescente importanza delle partnership e del rispetto delle normative sui diritti musicali nel settore.
Collaborazioni strategiche e il panorama delle licenze
Nell'ultimo anno, Stability AI ha siglato accordi con importanti attori dell'industria musicale come Warner Music Group e Universal Music Group. Queste collaborazioni mirano allo sviluppo di strumenti avanzati per la creazione musicale. Tale approccio posiziona Stability AI in una situazione vantaggiosa rispetto a concorrenti come Google ed ElevenLabs, che affrontano ancora contenziosi legali legati al licensing dei dati e alle alleanze con le etichette discografiche.
Stability AI ha dichiarato che i suoi più recenti modelli audio sono stati addestrati su dati completamente licenziati, un fattore cruciale per la sostenibilità a lungo termine di questi servizi nel mercato musicale.
Innovazione nell'editing e nella generazione audio
I modelli di Stability Audio 3 introducono nuove funzionalità per la generazione audio a lunghezza variabile e per l'editing. Tra queste spicca l'inpainting, una tecnica che consente la modifica mirata di sezioni audio e la continuazione di registrazioni brevi. Questi modelli sono progettati per operare con bassa latenza su diverse piattaforme hardware, inclusa una GPU H200 o un MacBook Pro di ultima generazione, assicurando una generazione rapida senza compromettere la fedeltà audio.
Attraverso questi sviluppi, Stability AI non solo espande la sua offerta di prodotti per i musicisti professionisti, ma ridefinisce anche il potenziale dell'intelligenza artificiale nella produzione musicale. A tal fine, Ethan Kaplan, ex Chief Digital Officer di Universal Audio e Fender, si è unito all'azienda per guidare l'offerta musicale professionale di Stability, rafforzando la sua leadership nel settore.