Stability AI представила новую аудиомодель для создания шестиминутных песен

Компания Stability AI, известная по модели Stable Diffusion, анонсировала новую линейку аудиомоделей под названием Stability Audio 3.0. По утверждению разработчиков, самая мощная из них способна генерировать профессиональное музыкальное произведение длиной более шести минут.

Четыре модели для разных задач

В линейку вошли четыре модели: small SFX (459 млн параметров), small (459 млн), medium (1,4 млрд) и large (2,7 млрд). Две малые версии подходят для генерации звуковых эффектов и короткой музыки до двух минут — например, прямо на устройстве пользователя.

Средняя и крупная модели могут создавать полноценные композиции длиной до 6 минут 20 секунд, сохраняя музыкальную структуру и мелодическую целостность. Это более чем вдвое превосходит возможности Stability Audio 2.0, выпущенной в 2024 году.

Открытые и закрытые версии

Модели small SFX, small и medium доступны с открытыми весами — любой желающий может их использовать и модифицировать. В 2024 году компания представила Stable Audio Open, которая позволяла создавать фрагменты до 47 секунд. Новые модели — это серьёзный шаг вперёд по сравнению с предыдущими открытыми версиями.

Модель large доступна только через API и платные сервисы для самостоятельного размещения. Кроме того, компаниям с годовым доходом выше 1 миллиона долларов потребуется приобрести корпоративную лицензию.

Лицензирование и партнёрства

Сейчас многие компании, включая Google и ElevenLabs, развивают инструменты для генерации музыки. Однако, как показывают судебные дела Суно (Suno) и Удио (Udio), вопросы лицензирования данных и сотрудничество с лейблами могут стать ключевыми для выживания таких сервисов.

Stability AI уже заключила сделки с Warner Music Group и Universal Music Group, чтобы разрабатывать модели и инструменты для создания музыки. В компании подчёркивают: новые аудиомодели построены исключительно на полностью лицензированных данных.

Новые лица в команде

Стартап работает над новым набором продуктов для профессиональных музыкантов, хотя подробности о функциях пока не раскрываются. Возглавить направление профессиональной музыки будет Этан Каплан (Ethan Kaplan), бывший главный цифровой директор в Universal Audio и Fender.

Ранее другие ИИ-компании тоже начали привлекать музыкальных менеджеров. Так, Суно (Suno) наняла бывшего гендиректора Merlin Джереми Сироту (Jeremy Sirota) на пост коммерческого директора. В ElevenLabs на стратегическую роль в музыкальном направлении пришёл Дерек Курнуайер (Derek Cournoyer) из независимого издателя Kobalt.

Читать оригинал