Недавно Beeline Cloud писали о том, как гонка за «общим ИИ» вывела дата-сайентистов и специалистов по машинному обучению в топ самых высокооплачиваемых профессий. Не отстают от них и инженеры данных. Рассказываем, за что компании так ценят этих специалистов, и делимся подборкой открытых ресурсов — для начинающих и продвинутых дата-инженеров.
Инженеры данных в тренде
В прошлом году журнал MIT Technological Review провел опрос среди 400 руководителей компаний с годовым доходом более 500 млн долларов. В опросе участвовали ИТ-директора, старшие аналитики и другие технические специалисты. Более 70% из них заявили, что инженеры данных «жизненно необходимы» для нормальной работы их организаций.
Именно эти специалисты создают инфраструктуру для сбора, хранения и обработки «сырых» данных, приводя их в структурированный вид для аналитиков. Их работа напрямую влияет на ключевые бизнес-показатели. Такой вывод подтвердили британские исследователи, изучившие процессы 500 предприятий среднего бизнеса в Великобритании. Компании, активно использующие данные при принятии решений (первый квартиль), оказались на 13% продуктивнее и прибыльнее, чем компании из нижнего квартиля.
В 2022 году специалисты из Гарвардской школы бизнеса и Google опросили более 300 руководителей из технологической, финансовой, медицинской и производственной сфер. Организации, которые принимают решения на основе данных и ИИ-инструментов, демонстрируют более высокую прибыльность, уровень удовлетворенности клиентов и сотрудников, а также занимают большую долю рынка по сравнению с теми, кто полагается на личный опыт и интуицию.
Согласно отчету MIT Technological Review, доля времени, которое специалисты по данным тратят на работу с ИИ-системами — включая подготовку данных для обучения моделей — практически удвоилась за последние годы: с 19% в 2023 году до 37% в 2025-м. Аналитики прогнозируют рост этого показателя до 61% в ближайшие два года. Значимость инженеров данных продолжает расти: их всё чаще вовлекают в принятие стратегических бизнес-решений.
Рост ценности профессии отражается и на зарплатах. В США на позициях senior-уровня инженеры данных могут получать около 10 тыс. долларов в месяц. В России эта цифра достигает 450 тыс. рублей — что также является высоким уровнем по местным меркам.
Открытая литература
Руководство для инженера данных (The Data Engineering Cookbook) — открытая книга под лицензией Apache 2.0, созданная Андреасом Кретцем, разработчиком платформы для обучения дата-инженеров. Это не традиционная книга, а мультимедийный сборник: статьи, ссылки на видео, подборки сайтов, интервью с практиками, разборы кейсов и полезные материалы в разных форматах.
Автор сам отмечает, что читать книгу «от корки до корки» не имеет смысла. Лучше использовать её как электронный справочник — выбирать темы по интересу и потребности.
Материал разделён на два блока: базовый и продвинутый. В первом — основы Linux, работа с контейнерами, гибридное облако, культура программирования. Во втором — аналитические платформы, хранилища данных, визуализация, машинное обучение. Автор сравнивает архитектуры Lambda и Kappa, а также приводит чек-лист из 81 вопроса для выбора подходящей платформы и конвейера.
Среди видеоруководств — разбор мониторинга данных с помощью dbt и управление Apache Airflow. Материалы помогут как новичкам, так и опытным специалистам.
Инженерия данных для больших языковых моделей: архитектура, алгоритмы и практика реализации проектов (Data Engineering for Large Models: Architecture, Algorithms, and Project Practice) — онлайн-справочник, подготовленный студентами магистратуры Научно-технического университета Китая. Он посвящён построению конвейеров обработки данных для работы с LLM.
Авторы отмечают, что информация по этой теме разрознена и плохо структурирована. Поэтому они собрали свои заметки в единую цифровую книгу. В ней — всё от выбора стека до продвинутых техник: сбор данных с помощью краулеров, обработка неструктурированных данных (видео, аудио), настройка векторных хранилищ, предобучение, работа с синтетическими и мультимодальными данными, выравнивание LLM.
Материалы сопровождаются примерами кода, диаграммами и практическими заданиями. Например, настроить конвейер для данных из C4 (Colossal Clean Crawled Corpus) или реализовать метод Program-of-Thoughts для решения математических и программистских задач.
Справочник ориентирован на начинающих, но может быть полезен и исследователям, и менеджерам ИИ-проектов. Первоначально текст был написан на китайском, затем переведён нейросетью на английский. Несмотря на возможные неточности, сообщество на GitHub помогает их исправлять. Проект распространяется под лицензией MIT.
Базы знаний
Аналитические и технические отчеты по инженерии данных (Data Engineering Whitepapers) — подборка научных публикаций от Саймона Шпэти, инженера данных с 20-летним стажем и автора блога SSP Data. Ресурс полезен как новичкам, так и опытным специалистам, помогая следить за актуальными тенденциями.
Репозиторий создан в январе 2024 года. В нём уже более 50 материалов: о хранении «сырых» данных, распределённых системах, OLAP, data lakes и других темах. Есть статьи о работе с аналитической СУБД DuckDB.
Среди примеров — исследование от Google о системе Dremel для анализа вложенных данных, работа учёных из Калифорнийского университета о фреймворке Spark. Также в подборке — анализ архитектуры Lakehouse от исследователей из Стэнфорда и Калифорнии, и отдельный раздел о RAG-системах: как сократить галлюцинации и внедрить графы знаний.
Инструментарий для инженерии данных (The Data Engineering Toolkit) — ещё одна подборка от Саймона Шпэти. В ней — технологии, утилиты и около 70 полезных консольных команд для Linux, которые помогают в работе дата-инженера.
Материалы сгруппированы: среды разработки, инструменты из экосистем Python и SQL, решения для бизнес-аналитики и построения конвейеров для ИИ-систем. Автор объясняет, что такое MCP-протокол, в чём суть эмбеддингов и какие векторные СУБД сейчас популярны.
На сайте также доступно хранилище дата-инженера — интерактивная «сеть знаний» с графом, объединяющим более 1000 терминов. Это удобный инструмент для углублённого изучения концепций инженерии данных.