2 апреля вышла ACE-Step 1.5 XL — open source модель для генерации музыки с 4-миллиардным DiT-декодером. Она распространяется по MIT-лицензии, работает локально и требует от 4 ГБ VRAM для базовой версии. По бенчмарку SongEval модель превосходит Suno v5.
Почему это важно
До сих пор генерация музыки делилась на два лагеря: закрытые коммерческие сервисы вроде Suno, Udio и ElevenLabs Music с хорошим качеством, но за подписку — и open source-решения с посредственным результатом.
ACE-Step 1.5 — первая open source модель, которая по стандартным бенчмаркам обгоняет коммерческих конкурентов. Её называют «моментом Stable Diffusion для музыки» — точкой, когда технология перестала быть закрытой и стала доступна всем.
Разработкой занимали ACE Studio и StepFun. Подробности опубликованы в научной статье на arXiv (2602.00744), что для музыкальных AI-моделей — большая редкость.
Архитектура: LM + DiT
Ключевая особенность — двухстадийная архитектура. Вместо одного большого трансформера модель использует два этапа.
Стадия 1: Language Model (LM) как планировщик. Модель от 0,6 до 4 миллиардов параметров получает текстовый промт и генерирует «чертёж» песни: структуру, стиль, аранжировку, текст. Используется Chain-of-Thought — модель пошагово разбивает задачу на компоненты.
Это не генерация звука, а планирование. LM решает, какие инструменты использовать, как устроены куплеты и припевы, какой темп. Результат — промежуточное представление, которое передаётся дальше.
Стадия 2: Diffusion Transformer (DiT) как генератор аудио. DiT (2B для базовой версии, 4B для XL) принимает план и генерирует аудио. Для сжатия используется DCAE (Deep Compression AutoEncoder) от Sana — это позволяет работать с малым объёмом VRAM.
Разделение планирования и синтеза — ключевое преимущество. LM хорошо справляется с логикой композиции, но плохо генерирует звук. DiT отлично создаёт аудио, но нуждается в чётком плане. Вместе они работают эффективнее.
Основные характеристики:
- SongEval: 8,09 (у Suno v5 — ниже, точное значение не раскрывается)
- Lyric Alignment: 8,35 — хорошая синхронизация вокала с текстом
- Скорость: полный трек за ~2 секунды на A100, ~10 секунд на RTX 3090
- VRAM: от 4 ГБ (базовая), от 12 ГБ (XL с offload)
- Длительность: от 10 секунд до 10 минут
Turbo-версия работает за 4–8 шагов диффузии — значительно меньше, чем у обычных моделей (50–100 шагов). Дистилляция позволяет сократить шаги без сильной потери качества.
Дополнительные функции
Кроме text-to-music модель поддерживает:
- Cover generation — переаранжировка трека в другом стиле
- Audio repainting — перегенерация отдельных тактов без изменения остального
- Vocal-to-BGM — генерация аккомпанемента по вокальному треку
- LoRA fine-tuning — адаптация под стиль на основе нескольких треков
Repainting — интересная возможность. Можно сгенерировать трек, а затем заменить только неудачный фрагмент. На практике переходы между частями пока звучат неестественно. Авторы честно указывают на это.
Ограничения модели
Разработчики открыто сообщают о слабых местах — что редко встречается в промо-материале.
Непостоянство результата. Качество сильно зависит от random seed и длительности. Один и тот же промт может дать шедевр или полную ерунду. Авторы называют это «gacha-style results» — как в играх с рандомным лутом.
Вокал. «Грубая синтезация без нюансов» — так описывают вокал разработчики. Для фоновой музыки и инструментала — приемлемо. Для вокальных композиций, где голос в центре, — пока недостаточно.
Жанры. Китайский рэп, по признанию авторов, генерируется плохо. Вероятно, другие нишевые стили тоже будут проблемными — модель обучена в основном на мейнстримных жанрах.
Контроль. «Требуется более точное управление параметрами» — нельзя задать BPM, тональность или аккордовую прогрессию. Описание стиля остаётся на усмотрение модели.
Как попробовать
Самый простой способ — демо на Hugging Face: huggingface.co/spaces/ACE-Step/Ace-Step-v1.5.
Достаточно ввести описание стиля и (опционально) текст песни — через несколько секунд будет готов результат. Без регистрации и установки.
Для локального запуска:
Скрипт автоматически скачает модели и запустит интерфейс Gradio. Базовой версии хватит RTX 3060 (12 ГБ). Для XL требуется 20 ГБ и выше (RTX 3090, 4090, A100).
Поддерживается Mac на Apple Silicon, AMD с ROCm и другие платформы — не только NVIDIA.
Также доступен нод для ComfyUI — подойдёт тем, кто уже работает в этой экосистеме.
Suno умерла?
Нет. Заголовки вроде «Suno убили» — кликбейт.
Suno — это сервис: вводишь промт вроде «весёлый поп-рок про кота» — и через минуту получаешь трек. Без установки, GPU и настроек.
ACE-Step — это модель, которую нужно скачать, установить и настроить. Результат зависит от промта и случайного seed. Для музыкантов и разработчиков, готовых экспериментировать, — отличный инструмент. Для обычного пользователя, который хочет «нажал — получил» — Suno остаётся проще.
Но для тех, кому важны приватность (данные не в облаке), кастомизация (LoRA под свой стиль) и отсутствие подписки — ACE-Step 1.5 меняет правила игры. Впервые можно получить качество уровня коммерческих сервисов полностью локально и бесплатно.