Бесплатная нейросеть для генерации музыки локально: ACE-Step 1.5 обходит Suno на бенчмарках

2 апреля вышла ACE-Step 1.5 XL — open source модель для генерации музыки с 4-миллиардным DiT-декодером. Она распространяется по MIT-лицензии, работает локально и требует от 4 ГБ VRAM для базовой версии. По бенчмарку SongEval модель превосходит Suno v5.

Почему это важно

До сих пор генерация музыки делилась на два лагеря: закрытые коммерческие сервисы вроде Suno, Udio и ElevenLabs Music с хорошим качеством, но за подписку — и open source-решения с посредственным результатом.

ACE-Step 1.5 — первая open source модель, которая по стандартным бенчмаркам обгоняет коммерческих конкурентов. Её называют «моментом Stable Diffusion для музыки» — точкой, когда технология перестала быть закрытой и стала доступна всем.

Разработкой занимали ACE Studio и StepFun. Подробности опубликованы в научной статье на arXiv (2602.00744), что для музыкальных AI-моделей — большая редкость.

Архитектура: LM + DiT

Ключевая особенность — двухстадийная архитектура. Вместо одного большого трансформера модель использует два этапа.

Стадия 1: Language Model (LM) как планировщик. Модель от 0,6 до 4 миллиардов параметров получает текстовый промт и генерирует «чертёж» песни: структуру, стиль, аранжировку, текст. Используется Chain-of-Thought — модель пошагово разбивает задачу на компоненты.

Это не генерация звука, а планирование. LM решает, какие инструменты использовать, как устроены куплеты и припевы, какой темп. Результат — промежуточное представление, которое передаётся дальше.

Стадия 2: Diffusion Transformer (DiT) как генератор аудио. DiT (2B для базовой версии, 4B для XL) принимает план и генерирует аудио. Для сжатия используется DCAE (Deep Compression AutoEncoder) от Sana — это позволяет работать с малым объёмом VRAM.

Разделение планирования и синтеза — ключевое преимущество. LM хорошо справляется с логикой композиции, но плохо генерирует звук. DiT отлично создаёт аудио, но нуждается в чётком плане. Вместе они работают эффективнее.

Основные характеристики:

  • SongEval: 8,09 (у Suno v5 — ниже, точное значение не раскрывается)
  • Lyric Alignment: 8,35 — хорошая синхронизация вокала с текстом
  • Скорость: полный трек за ~2 секунды на A100, ~10 секунд на RTX 3090
  • VRAM: от 4 ГБ (базовая), от 12 ГБ (XL с offload)
  • Длительность: от 10 секунд до 10 минут

Turbo-версия работает за 4–8 шагов диффузии — значительно меньше, чем у обычных моделей (50–100 шагов). Дистилляция позволяет сократить шаги без сильной потери качества.

Дополнительные функции

Кроме text-to-music модель поддерживает:

  • Cover generation — переаранжировка трека в другом стиле
  • Audio repainting — перегенерация отдельных тактов без изменения остального
  • Vocal-to-BGM — генерация аккомпанемента по вокальному треку
  • LoRA fine-tuning — адаптация под стиль на основе нескольких треков

Repainting — интересная возможность. Можно сгенерировать трек, а затем заменить только неудачный фрагмент. На практике переходы между частями пока звучат неестественно. Авторы честно указывают на это.

Ограничения модели

Разработчики открыто сообщают о слабых местах — что редко встречается в промо-материале.

Непостоянство результата. Качество сильно зависит от random seed и длительности. Один и тот же промт может дать шедевр или полную ерунду. Авторы называют это «gacha-style results» — как в играх с рандомным лутом.

Вокал. «Грубая синтезация без нюансов» — так описывают вокал разработчики. Для фоновой музыки и инструментала — приемлемо. Для вокальных композиций, где голос в центре, — пока недостаточно.

Жанры. Китайский рэп, по признанию авторов, генерируется плохо. Вероятно, другие нишевые стили тоже будут проблемными — модель обучена в основном на мейнстримных жанрах.

Контроль. «Требуется более точное управление параметрами» — нельзя задать BPM, тональность или аккордовую прогрессию. Описание стиля остаётся на усмотрение модели.

Как попробовать

Самый простой способ — демо на Hugging Face: huggingface.co/spaces/ACE-Step/Ace-Step-v1.5.

Достаточно ввести описание стиля и (опционально) текст песни — через несколько секунд будет готов результат. Без регистрации и установки.

Для локального запуска:

Скрипт автоматически скачает модели и запустит интерфейс Gradio. Базовой версии хватит RTX 3060 (12 ГБ). Для XL требуется 20 ГБ и выше (RTX 3090, 4090, A100).

Поддерживается Mac на Apple Silicon, AMD с ROCm и другие платформы — не только NVIDIA.

Также доступен нод для ComfyUI — подойдёт тем, кто уже работает в этой экосистеме.

Suno умерла?

Нет. Заголовки вроде «Suno убили» — кликбейт.

Suno — это сервис: вводишь промт вроде «весёлый поп-рок про кота» — и через минуту получаешь трек. Без установки, GPU и настроек.

ACE-Step — это модель, которую нужно скачать, установить и настроить. Результат зависит от промта и случайного seed. Для музыкантов и разработчиков, готовых экспериментировать, — отличный инструмент. Для обычного пользователя, который хочет «нажал — получил» — Suno остаётся проще.

Но для тех, кому важны приватность (данные не в облаке), кастомизация (LoRA под свой стиль) и отсутствие подписки — ACE-Step 1.5 меняет правила игры. Впервые можно получить качество уровня коммерческих сервисов полностью локально и бесплатно.

Читать оригинал