Мы перестали использовать стандартные API для генерации звука и начали напрямую работать с внутренними механизмами нейросетей, чтобы получить уникальные звуковые текстуры.
Вместо банальных оберток, где текст конвертируется в звук через API, мы применили хардкорную хирургию нейросетей и кросс-модальные мосты. Наша цель — понять, как звучит чистая мысль нейросети, минуя текстовое представление, и как звучит математическая геометрия природных текстур.
Эксперимент 1: PaleoSonic Engine (Слушаем голую математику)
Задача: Заставить нейросеть сгенерировать звук макро-текстуры (например, куска янтаря) напрямую, без текстового описания. Обычно пайплайн выглядит так: Image -> Text (LLM) -> Audio. Мы создали прямой мост: Vision Latent -> Audio Latent.
Мы использовали зрительную кору от google/siglip-base-patch16-224 и генератор звука от facebook/musicgen-small. Обе модели были переведены в формат bfloat16 для экономии памяти.
Для соединения моделей мы создали кастомный слой nn.Linear, переводящий визуальные патчи картинки в звуковые векторы. Поскольку функция generate() в MusicGen защищена от чужих тензоров, мы применили Monkey Patching. На лету мы подменили оригинальный текстовый энкодер MusicGen нашей функцией-трояном. Модель думала, что обрабатывает текст, а на самом деле поглощала геометрию пикселей.
Получившийся звук — резкий, скрежещущий шум, похожий на модем из 90-х. Это необработанный математический звук, так как тензорный мост был заполнен случайными весами и не дообучался. Мы слышим физическое столкновение двух архитектур: сырую трансляцию геометрии картинки в акустические волны без фильтров.
Эксперимент 2: Neural-Analog Engine (Эмбиент из мыслей ИИ)
После первого эксперимента мы решили добавить звуку изящества, не теряя связи с ИИ. Мы полностью отказались от нейросетей, генерирующих аудио, и превратили LLM в музыканта, управляющего аналоговым синтезатором (DSP).
Мы взяли модель Qwen/Qwen2.5-1.5B-Instruct. Пока модель генерирует текст по промпту, мы с помощью PyTorch Forward Hooks вклиниваемся в ее 15-й слой и извлекаем значения активаций нейронов в реальном времени. Затем эти сырые векторы пропускаются через математический осциллятор.
В отличие от первого проекта, здесь звук генерируется законами физики: чистыми синусоидами, плавным затуханием и точными фильтрами. Нейросеть выступает как дирижер: изменение тональности, частоты нот и сдвиги фаз модулируются пульсацией нейронов Qwen 2.5. Получился кристально чистый, кинематографичный Dark Ambient, где музыка — это процесс вычисления графов внимания.
Зачем это все?
Эти архитектурные эксперименты созданы как baseline-инструментарий для виртуального артиста Livadies. Мы исследуем, как звучит машинное подсознание, и как слияние старого (аналоговый синтез, палео-текстуры) и нового (Latent Space) рождает искусство.
Мы приглашаем вас послушать разницу между сырой математикой тензоров и кинематографичным DSP, управляемым мыслями LLM.