От больших языковых моделей до галлюцинаций: простой гид по ключевым терминам ИИ

Искусственный интеллект — это сложный и запутанный мир. Учёные, работающие в этой области, часто используют специальную терминологию, чтобы объяснить, над чем они трудятся. Поэтому в новостях об ИИ мы тоже вынуждены применять технические термины. Чтобы вам было проще ориентироваться, мы собрали краткий глоссарий с пояснениями самых важных понятий, которые встречаются в наших материалах.

Мы будем регулярно обновлять этот справочник, добавляя новые термины по мере того, как исследователи открывают новые методы развития ИИ и выявляют риски для безопасности.

Общественный искусственный интеллект (AGI)

Термин общественный искусственный интеллект (AGI, artificial general intelligence) звучит расплывчато, но в целом обозначает ИИ, который превосходит среднего человека по большинству задач. Гендиректор ОпенЭйАй (OpenAI) Сэм Алтман недавно описал AGI как «человека среднего уровня, которого можно взять в команду». В уставе ОпенЭйАй говорится, что это «высокоавтономные системы, превосходящие людей по большинству экономически ценных видов работы». Подход Google DeepMind немного отличается: там считают, что AGI — это ИИ, не уступающий человеку по когнитивным способностям. Запутались? Не переживайте — сами эксперты до сих пор спорят о точном определении.

Агент ИИ

Агент ИИ — это инструмент, использующий технологии искусственного интеллекта, чтобы выполнять за вас целые цепочки задач, а не просто отвечать на вопросы, как обычный чат-бот. Например, он может сдавать отчётность, бронировать билеты или столик в ресторане, писать и поддерживать код. Пока что эта сфера активно развивается, и понятие «агент ИИ» может означать разное для разных людей. Инфраструктура ещё строится, но в основе лежит идея автономной системы, которая использует несколько моделей ИИ для выполнения сложных многоступенчатых задач.

Цепочка рассуждений

Человек может мгновенно ответить на простой вопрос: «Кто выше — жираф или кошка?» Но в более сложных случаях, например, при решении задачи про фермера с курами и коровами (всего 40 голов и 120 ног), нужно записать уравнение и пройти несколько шагов, чтобы получить правильный ответ.

В контексте ИИ цепочка рассуждений (chain of thought) — это подход, при котором большая языковая модель разбивает задачу на промежуточные шаги, чтобы повысить точность результата. Ответ приходит дольше, но он чаще оказывается верным — особенно в логических или программистских задачах. Такие модели создаются на основе обычных языковых моделей, но дообучаются с помощью усиленного обучения (reinforcement learning) именно для цепочек рассуждений.

Вычислительные мощности (compute)

Слово вычислительные мощности (compute) часто используется как сокращение для обозначения критически важной вычислительной силы, необходимой для работы моделей ИИ. Именно она позволяет обучать и запускать мощные системы. Термин обычно относится к «железу» — видеокартам (GPU), процессорам (CPU), тензорным процессорам (TPU) и другой инфраструктуре, на которой держится современный ИИ.

Глубокое обучение

Глубокое обучение (deep learning) — это разновидность машинного обучения, в котором алгоритмы строятся на основе многослойных искусственных нейронных сетей (ANN). Такие системы способны выявлять сложные связи в данных, в отличие от простых моделей вроде линейных уравнений или деревьев решений. Архитектура вдохновлена нейронными связями в человеческом мозге.

Модели глубокого обучения сами определяют важные признаки в данных, без участия инженеров. Они учатся на ошибках и, повторяя процесс, улучшают свои результаты. Однако им нужно огромное количество данных — миллионы примеров и больше. Обучение занимает много времени, а разработка обходится дорого.

Диффузия

Диффузия (diffusion) — технология, лежащая в основе многих генеративных моделей ИИ, создающих изображения, музыку или текст. Идея пришла из физики: сначала система постепенно «разрушает» данные (например, фото), добавляя шум, пока не останется хаос. В реальности такой процесс необратим — как сахар в кофе. Но в ИИ модели учатся «обратной диффузии»: восстанавливать изображение из шума, научившись воссоздавать данные.

Дистилляция

Дистилляция (distillation) — метод, при котором знания большой модели ИИ «переливаются» в более компактную. Крупная модель выступает «учителем»: ей задают вопросы, а её ответы используются для обучения «ученика». Цель — создать более быструю и эффективную версию, почти не теряя в качестве.

Так, вероятно, ОпенЭйАй создала GPT-4 Turbo — ускоренную копию GPT-4. Хотя все компании используют дистилляцию внутри, некоторые могут применять её, чтобы скопировать чужие модели. Это, как правило, нарушает правила использования API и чат-помощников.

Дообучение

Дообучение (fine-tuning) — это дополнительное обучение модели под конкретную задачу или сферу. Для этого в неё загружают специализированные данные. Многие стартапы берут большие языковые модели как основу, а затем дообучают их на своей отраслевой информации, чтобы повысить полезность продукта.

GAN (генеративно-состязательная сеть)

GAN (Generative Adversarial Network) — это архитектура машинного обучения, лежащая в основе многих генеративных ИИ, включая инструменты для создания дипфейков. В ней участвуют две нейросети: одна генерирует данные, другая — проверяет, настоящие они или сгенерированные.

Это соревнование: генератор пытается обмануть проверяющую сеть, а та — выявить подделку. Такой конфликт помогает улучшать качество вывода без участия человека. GAN лучше всего работают в узких задачах — например, создании реалистичных фото или видео, а не в универсальных ИИ.

Галлюцинации

Галлюцинации — это когда ИИ выдумывает информацию. Проще говоря, модель генерирует ложные факты. Это серьёзная проблема: такие ответы могут вводить в заблуждение и даже нести реальную опасность — например, если ИИ посоветует вредное лечение при медицинском запросе.

Галлюцинации возникают из-за пробелов в обучающих данных. Для универсальных моделей (их ещё называют фундаментальными) это почти неизбежно: просто не существует достаточного количества данных, чтобы обучить ИИ на все возможные вопросы. Коротко: Бога мы пока не создали.

Из-за галлюцинаций растёт интерес к узкоспециализированным моделям — тем, что работают в одной области. Это снижает риски ошибок и распространения дезинформации.

Инференс

Инференс (inference) — это запуск модели ИИ для получения ответа. Модель делает предсказания или выводы на основе уже изученных данных. Но инференс невозможен без предыдущего обучения: модель должна сначала усвоить закономерности.

Инференс может выполняться на разных устройствах — от смартфонов до мощных GPU и специализированных чипов. Однако большие модели на обычном ноутбуке будут работать медленно. Гораздо быстрее они работают на серверах с топовыми ИИ-ускорителями.

Большая языковая модель (LLM)

Большие языковые модели (LLM, large language model) — это движки популярных ИИ-ассистентов, таких как ЧатГПТ (ChatGPT), Клод (Claude), Gemini от Google, ИИ Ллама (Llama) от Meta, Copilot от Microsoft или Le Chat от Mistral. Когда вы общаетесь с таким помощником, вы на самом деле взаимодействуете с LLM.

LLM — это глубокие нейросети с миллиардами параметров (весов), которые учатся связям между словами и фразами, создавая многомерную «карту языка». Они обучаются на миллиардах страниц текстов: книг, статей, транскриптов. Когда вы задаёте запрос, модель подбирает наиболее вероятную последовательность слов, шаг за шагом предсказывая следующее слово на основе предыдущего.

Кэш памяти

Кэш памяти (memory cache) — это способ ускорить инференс. Каждый расчёт в ИИ требует энергии и времени. Кэширование позволяет сохранять результаты вычислений, чтобы не пересчитывать их при следующих запросах.

Один из известных методов — KV-кэширование (key value caching). Оно работает в трансформерных моделях и ускоряет генерацию ответов, сокращая объём вычислений.

Нейронная сеть

Нейронная сеть — это многослойная структура алгоритмов, лежащая в основе глубокого обучения и всего бума генеративного ИИ после появления LLM.

Идея вдохновлена нейронными связями в мозге. Хотя концепция появилась ещё в 1940-х, настоящий прорыв случился с развитием графических процессоров (GPU) благодаря игровой индустрии. Эти чипы позволили обучать гораздо более сложные сети, что резко повысило эффективность ИИ в распознавании речи, автономном вождении и поиске лекарств.

RAMageddon

RAMageddon — шутливое название серьёзной проблемы: глобального дефицита оперативной памяти (RAM). По мере роста индустрии ИИ крупные компании и лаборатории скупают огромные объёмы RAM для своих дата-центров, оставляя мало чипов для других отраслей.

Из-за этого растут цены и возникают перебои. Это затрагивает игровую индустрию (цены на консоли растут), производство смартфонов (возможен самый сильный спад поставок за десятилетие) и корпоративные дата-центры. Конца дефициту пока не видно.

Обучение

Обучение (training) — это процесс, при котором модель ИИ учится на данных, выявляя закономерности и формируя полезные ответы. До обучения модель — просто набор слоёв с случайными числами. Только через обучение она приобретает форму.

Система адаптируется, чтобы достигать цели — например, распознавать котов или писать хайку. Однако не весь ИИ требует обучения: например, простые чат-боты на жёстких правилах обходятся без него, но и возможности у них гораздо уже.

Обучение дорогое: нужно много данных, вычислительных мощностей и энергии. Чтобы сэкономить, иногда используют гибридные подходы — например, дообучают правил-based системы на небольшом объёме данных, сокращая затраты.

Токены

Токены — это базовые единицы общения между человеком и ИИ. Это отдельные фрагменты данных, которые модель обрабатывает или генерирует.

Процесс токенизации разбивает текст на части, понятные модели. Как компилятор переводит код в двоичный вид, так токенизация превращает человеческий язык в формат, пригодный для ИИ.

Бывают разные токены: входные (на основе запроса пользователя), выходные (ответ модели) и токены рассуждений (для сложных задач).

В корпоративном ИИ количество токенов определяет стоимость. Чем больше данных обрабатывает модель, тем больше токенов она «сжигает». Поэтому большинство компаний, включая ОпенЭйАй, тарифицируют использование своих моделей именно по количеству токенов.

Трансферное обучение

Трансферное обучение (transfer learning) — это когда уже обученную модель используют как основу для новой, но связанной задачи. Это позволяет сэкономить время и ресурсы, используя уже накопленные знания.

Метод особенно полезен, когда данных для новой задачи мало. Но у него есть ограничения: модель всё равно может потребовать дополнительного обучения, чтобы хорошо работать в новой области.

Веса

Веса (weights) — ключевой элемент обучения ИИ. Они определяют, насколько важны те или иные признаки в данных. Проще говоря, веса — это числовые параметры, которые показывают, что в наборе данных наиболее значимо для конкретной задачи.

Обучение начинается со случайных весов. По мере тренировки модель корректирует их, чтобы результат всё ближе подходил к правильному.

Например, модель для оценки стоимости жилья может учитывать количество комнат, наличие парковки, гаража и т.д. Веса покажут, насколько каждый из этих факторов влияет на цену, исходя из обучающих данных.

Мы регулярно обновляем этот материал, добавляя новые объяснения.

Читать оригинал