[Дмитрий Кузьмин] Практикум по Data Engineering: сквозной ETL на Spark + Postgres + Airflow + BI [Дмитрий Кузьмин]

  • Автор темы SlivInfoKurs
  • Дата начала
S

SlivInfoKurs

Модератор
Регистрация
31.03.2020
Сообщения
149 217
Реакции
366
Онлайн
6дн 5ч 38м 52с
чина:

Соберёшь полноценный DE-пайплайн на своём ноутбуке:
S3-lake → Spark → DWH → Airflow → BI
Один проект, который можно показать на собеседовании.

Для тех, кто сильный в SQL, но на собесах упирается в “где пайплайны, инкременты, оркестрация и качество”.

Программа:
0. Окружение: Docker-стенд, проверка сервисов
  • поднимаем стенд docker compose up и проверяем сервисы (Spark UI, Airflow, Postgres, MinIO)
  • учимся читать логи контейнеров и находить причину “не стартует”
  • базовая настройка .env и проверка доступа по портам
  • быстрый чек-лист “диагностика стенда” (типовые поломки)
  • Артефакт: рабочий docker-compose.yml + инструкции + скрины UI сервисов
1. RAW → STG: загрузка датасетов, идемпотентность
  • раываем исходные CSV по ingest_date в S3 (MinIO)
  • делаем replace-pattern/идемпотентную загрузку в STG
  • вводим контракт: схема, типы, обязательные поля
  • sanity-check запросы и первые проверки качества
  • Артефакт: структура RAW/STG + скрипты загрузки + набор sanity-check
2. CORE: факты/измерения, event-даты, инкременты
  • проектируем CORE: факт + измерения, ключи, связи
  • event-time vs ingest-time: где что использовать и почему
  • инкрементальные обновления (SCD/апдейты по ключам где уместно)
  • базовые индексы/ограничения в Postgres под CORE
  • Артефакт: DWH-слой CORE (DDL + инкрементальные загрузки)
3. Spark. Основы
  • первая Spark-сессия: чтение/запись, DataFrame API
  • базовые трансформации + агрегаты
  • работа через pyspark.sql и Spark SQL
  • чтение данных из S3 (MinIO) и запись parquet
  • Артефакт: первый рабочий ноутбук + mini-job чтение - трансформация - запись
4. Витрины: денормализация, партиционирование
  • собираем marts под типовые бизнес-вопросы (продажи/заказы/доставка)
  • денормализация: что тащим в витрину и почему
  • партиционирование/кластеризация (на уровне хранения и запросов)
  • контроль “small files” и базовые правила хранения
  • Артефакт: marts-таблицы + объяснение решений (почему такой grain/партиции)
5. Качество и SLA: дубликаты, пропуски, аномалии
  • проверки на дубликаты/пропуски/аномалии (простые, но рабочие)
  • таблица результатов DQ-check’ов (история прогонов)
  • SLA пайплайна: что меряем и как объяснять “почему отчёт не обновился”
  • стоп-кран: когда пайплайн должен падать, а когда просто предупреждать
  • Артефакт: DQ-схема + набор проверок + лог результатов
6. Spark Batch: трансформации, партиционирование, оптимизация
  • перенос логики из ноутбука в spark-submit job (шаблон джобы)
  • explain(True): читаем план и видим узкие места
  • cache/persist, shuffle partitions, контроль skew на базовом уровне
  • запись parquet “правильно”: партиции, режимы записи, контроль файлов
  • Артефакт: 1–2 production-style Spark jobs + чек-лист оптимизаций
7. Оркестрация (Airflow): DAG's
  • собираем DAG: зависимости, ретраи, расписание, параметры
  • разделяем задачи по слоям, делаем понятный граф
  • алерты/уведомления на падения (база)
  • дебаг Airflow: логи тасок, где ломается, как чинить
  • Артефакт: рабочий DAG + скрины графа/ранов + описание пайплайна
8. Observability: метрики пайплайнов, алерты
  • какие метрики реально нужны (время прогонов, лаг, объёмы, ошибки)
  • как “считать здоровье”: success-rate, latency, freshness
  • алерты: когда будить, а когда не спамить
  • “почему отчёт не обновился” как диагностировать по сигналам
  • Артефакт: набор метрик + правила алертов + описание мониторинга

9. Построение отчётов в BI
  • подключение BI к витрине, один понятный дашборд
  • 5–7 метрик + фильтры/срезы (не цирк, а реально для интервью)
  • как рассказывать историю проекта: данные → слой → витрина → графики
  • Артефакт: дашборд + “история проекта” (готовый текст для резюме/собеса)

Скрытая ссылка

Этот курс появится в скором времени на форуме kursstore.com Проверьте по поиску форума, возможно данный курс уже слит.
 

О нас

  • - Наш форум был создан с одной целью, помогать другим! На нашем форуме, Вы можете скачать самые свежие и популярные курсы, книги, тренинги и вебинары, схемы по заработку, различные мануалы и готовые кейсы, а так же слитые складчины с торрент ресурсов, по самым разным направлениям бесплатно!

    Слив курсов

    Ищете возможность расширить знания бесплатно, скачать курсы, вебинары и марафоны в видео формате, получить бесплатно практически любой инфопродукт? Посетите наш сайт, где вы можете выбрать интересующего вас автора и направление, а также скачать материалы для обучения на любой устройство в формате торрент.

    Слив онлайн курсов

    На нашем формуе вы легко сможете найти и скачать курсы по интересующей вас теме. Просто выберите автора или направление, загрузите материалы на свое устройство и начните обучение в удобное для вас время. Мы предлагаем возможность скачивания курсов бесплатно, а также доступ к премиум подписке.

    На нашем сайте вы найдёте курсы следующих тематик:
    • Курсы и лекции от известных школ и авторов;
    • Уроки по дизайну, графике, программированию и бизнесу
    • Тренинги по саморазвитию, психологии и эзотерике;
    • Материалы по отношениям, пикапу и соблазнению;
    • Нейросети и Маркетплейсы;
    • Онлайн-обучение по шитью, строительству, рукоделию и работе по дому;

    Слив Курсов Бесплатно

    К скачиванию доступны сотни материалов и складчин, со всех известных сайтов, таких как складчик или складчина. Все курсы доступны в одной подписке. Больше не нужно покупать курсы по одному!

    Онлайн курсы форум

    Обошли многие форумы и не нашли подходящий курс? Скачивайте любой из сотни тысяч курсов на нашем форуме. Инфопродукты и новые сливы курсов пополняются ежедневно! Если вы не нашли нужный курс на других форумах, у нас вы сможете скачать любой из сотен тысяч доступных инфопродуктов. Ежедневно мы пополняем базу новыми сливами курсов, чтобы вы всегда могли найти актуальные материалы для обучения.