Как мы превратили ИИ в аналоговый синтезатор через PyTorch Hooks

Мы перестали использовать стандартные API для генерации звука и начали напрямую работать с внутренними механизмами нейросетей, чтобы получить уникальные звуковые текстуры.

Вместо банальных оберток, где текст конвертируется в звук через API, мы применили хардкорную хирургию нейросетей и кросс-модальные мосты. Наша цель — понять, как звучит чистая мысль нейросети, минуя текстовое представление, и как звучит математическая геометрия природных текстур.

Эксперимент 1: PaleoSonic Engine (Слушаем голую математику)

Задача: Заставить нейросеть сгенерировать звук макро-текстуры (например, куска янтаря) напрямую, без текстового описания. Обычно пайплайн выглядит так: Image -> Text (LLM) -> Audio. Мы создали прямой мост: Vision Latent -> Audio Latent.

Мы использовали зрительную кору от google/siglip-base-patch16-224 и генератор звука от facebook/musicgen-small. Обе модели были переведены в формат bfloat16 для экономии памяти.

Для соединения моделей мы создали кастомный слой nn.Linear, переводящий визуальные патчи картинки в звуковые векторы. Поскольку функция generate() в MusicGen защищена от чужих тензоров, мы применили Monkey Patching. На лету мы подменили оригинальный текстовый энкодер MusicGen нашей функцией-трояном. Модель думала, что обрабатывает текст, а на самом деле поглощала геометрию пикселей.

Получившийся звук — резкий, скрежещущий шум, похожий на модем из 90-х. Это необработанный математический звук, так как тензорный мост был заполнен случайными весами и не дообучался. Мы слышим физическое столкновение двух архитектур: сырую трансляцию геометрии картинки в акустические волны без фильтров.

Эксперимент 2: Neural-Analog Engine (Эмбиент из мыслей ИИ)

После первого эксперимента мы решили добавить звуку изящества, не теряя связи с ИИ. Мы полностью отказались от нейросетей, генерирующих аудио, и превратили LLM в музыканта, управляющего аналоговым синтезатором (DSP).

Мы взяли модель Qwen/Qwen2.5-1.5B-Instruct. Пока модель генерирует текст по промпту, мы с помощью PyTorch Forward Hooks вклиниваемся в ее 15-й слой и извлекаем значения активаций нейронов в реальном времени. Затем эти сырые векторы пропускаются через математический осциллятор.

В отличие от первого проекта, здесь звук генерируется законами физики: чистыми синусоидами, плавным затуханием и точными фильтрами. Нейросеть выступает как дирижер: изменение тональности, частоты нот и сдвиги фаз модулируются пульсацией нейронов Qwen 2.5. Получился кристально чистый, кинематографичный Dark Ambient, где музыка — это процесс вычисления графов внимания.

Зачем это все?

Эти архитектурные эксперименты созданы как baseline-инструментарий для виртуального артиста Livadies. Мы исследуем, как звучит машинное подсознание, и как слияние старого (аналоговый синтез, палео-текстуры) и нового (Latent Space) рождает искусство.

Мы приглашаем вас послушать разницу между сырой математикой тензоров и кинематографичным DSP, управляемым мыслями LLM.

Читать оригинал