Как свёрточные нейронные сети видят мир

Как свёрточные нейронные сети видят мир

Компьютерное зрение — это любое автоматическое распознавание образов на изображениях и видео. Человеку это делать легко, но компьютеру нужно научиться видеть и осмысливать то, что на изображении перед ним.

Свёрточные нейронные сети — это способ автоматизировать процессы подбора подходящих фильтров и комбинации найденных простых признаков в более сложные.

В первом слое свёрточной сети выделяются простейшие признаки, например, вертикальные и горизонтальные линии. Второй слой анализирует уже не исходное изображение, а карты местонахождения более простых признаков.

Свёрточные нейросети

Свёрточные сети — это многоуровневые структуры, которые анализируют сначала базовые признаки, потом их сочетания, и так далее. В итоге они постепенно подбираются к настолько общим комбинациям признаков, что они способны сигнализировать о наличии на фото конкретных предметов.

Примеры из реальных архитектур

Используемая до этого VGG16 — это одна из первых свёрточных архитектур. Её точность довольно ограничена, при том, что параметров в ней сравнительно много.

Новые архитектуры отличаются не только количеством слоёв, но и их механизмами, что позволяет более качественно обучать сети.

Заключение

Сегодня мы посмотрели, как нейросети представляют признаки на разных слоях. Соотношение точности, количества параметров и визуального представления карт признаков показывает, что лучшая точность не напрямую связана с размером нейронной сети или её глубиной.

  • Если задача простая, если признак очевидный — нескольких слоёв будет достаточно.
  • Для создания универсальных моделей нужна большая глубина, чтобы отразить большее возможное разнообразие комбинаций признаков.
  • Чем больше фильтров в слое, тем больше признаков он способен извлечь.
  • Чем больше размер фильтра, тем более сложные признаки он способен извлечь, но это вычислительно дороже.
  • Чем больше слоёв — тем больше возможностей у компьютера обобщить сложные и абстрактные признаки.
Читать оригинал