[devhands, Алексей Белозерский] Lakehouse для аналитиков и инженеров данных [devhands, Алексей Белозерский]

  • Автор темы SlivInfoKurs
  • Дата начала
S

SlivInfoKurs

Модератор
Регистрация
31.03.2020
Сообщения
149 124
Реакции
366
Онлайн
6дн 5ч 16м 0с


Описание:
Практический курс по современной архитектуре аналитических систем — Data Lakehouse. Вы научитесь работать с разделёнными слоями хранения и вычислений, используя стек Iceberg + Trino + S3 + Kubernetes.

Спойлер: Учебная программа:
Живые лекции с экспертом, Алексеем Белозерским. Ведется запись, ссылка выкладывается в чат. Все встречи начинаются в 18-00 МСК, проходят в Zoom. Ссылка на Zoom-митинг «запинена» в чате.

Занятие 1. Lakehouse, Iceberg, разделение Compute и Storage
Краткая история развития аналитических систем. Корпоративное хранилище данных (DWH) и Озеро данных (Data Lake). Истоки и концепция. Преимущества и недостатки каждого подхода. Развитие и коммодитизация технологий масштабируемого хранения на S3 и запуска приложений на Kubernetes. Lakehouse: концепция и преимущества. Формат Iceberg: Предпосылки возникновения, ограничения S3, S3-native формат для больших данных, транзакции поверх неатомарного S3. Сохраняем данные в Iceberg + S3 и изучаем формат данных. Разделение Compute - Storage. Как работает разделенный движок. Какие проблемы могут быть и как их решать.

Занятие 2. Структура формата Iceberg. Формат Parquet
Как управлять большим объемом данных. Что будет если накопить 100K и больше файлов за много лет? Что если со временем схема данных меняется, а часть строк вдруг надо удалить? Под капотом у формата Iceberg: Delta, Manifest, Snapshot, метаданные. Iceberg Catalog. Для чего нужен отдельный сервер метаданных. Какие реализации каталога бывают: HMS, JDBC, REST.
Практика. Выгрузить из S3 таблицу в формате Iceberg. Изучить данные и метаданные.

Занятие 3. Практика
Поднимаем Iceberg Catalog JDBC, настраиваем хранение данных в S3. Поднимаем кластер Trino. Настраиваем на работу с Iceberg Catalog. Подключаемся к Trino как к БД с помощью DBeaver. Делаем первыве датасеты. Читаем данные записанные из Trino с помощью Python с библиотекой PyIceberg. Изменяем данные с помощью PyIceberg, читаем результаты из Trino.

Занятие 4. Метрики запросов в Trino
Работаем с Trino + Iceberg как с БД. Пример датасета TPC-DS, пишем сложные ad- hoc запросы. Изучаем метрики тяжелых запросов с помощью Trino UI. Подключаем DBT для работы над пайплайнами. Краткий обзор фреймворка DBT. Подключение к работе с Trino. Настройка коннекта к Трино, старт проекта. DBT Models, Tests, Snapshots, Docs. DBT Selectors - для управления задачами в проекте. Подключаем Airflow для работы над пайплайнами. Знакомство
с инструментом AIrflow. Airflow DAG + DBT - совместный репо.

Занятие 5. Еще раз о формате Iceberg
Что происходит в S3-Iceberg, когда мы добавляем, удаляем и меняем данные. Транзакции, ACID, MVCC, поддержка датасетов. Снапшоты Iceberg, как именно мы получаем атомарность и транзакции. Изоляция транзакций в Iceberg. Оптимистичная модель конкуренции. MVCC. Какую "уборку" требует датасет Iceberg. Виды операций по поддержке датасетов. Как получить статистику датасета в Iceberg. SQL, Trino. Python, PyIceberg.

Занятие 6. Пайплайны и финальная Q&A-сессия
Pipeline 1 - Airflow + DBT + PyIceberg over S3+Iceberg. Моделирование данных в SQL на DBT. Добавляем Pytnon - предикты ML. Pipeline 2 - Поддержка Iceberg Table. Собираем информацию для мониторинга. Запускаем процедуры поддержки по триггеру или порогу.Q&A. Вопросы и ответы по курсу и кейсам участников. Возможные дополнительные темы: другие реализации Lakehouse -- Duck Lake, Paimon, Apache Doris, движки DLH Compute: StarRocks, Clickhouse 25.x Iceberg Engine. Публичные примеры построения крупных Лейкхаусов в российских компаниях. Стриминг данных в Iceberg - Kafka. Spark, Spark Streaming. Формат Paimon - оптимизированный для стриминга. Time Travel в Iceberg. Какие бывают каталоги Iceberg и какой функционал они добавляют.

Цена: 50000 рублей.
Скрытая ссылка

Этот курс появится в скором времени на форуме kursstore.com Проверьте по поиску форума, возможно данный курс уже слит.
 

О нас

  • - Наш форум был создан с одной целью, помогать другим! На нашем форуме, Вы можете скачать самые свежие и популярные курсы, книги, тренинги и вебинары, схемы по заработку, различные мануалы и готовые кейсы, а так же слитые складчины с торрент ресурсов, по самым разным направлениям бесплатно!

    Слив курсов

    Ищете возможность расширить знания бесплатно, скачать курсы, вебинары и марафоны в видео формате, получить бесплатно практически любой инфопродукт? Посетите наш сайт, где вы можете выбрать интересующего вас автора и направление, а также скачать материалы для обучения на любой устройство в формате торрент.

    Слив онлайн курсов

    На нашем формуе вы легко сможете найти и скачать курсы по интересующей вас теме. Просто выберите автора или направление, загрузите материалы на свое устройство и начните обучение в удобное для вас время. Мы предлагаем возможность скачивания курсов бесплатно, а также доступ к премиум подписке.

    На нашем сайте вы найдёте курсы следующих тематик:
    • Курсы и лекции от известных школ и авторов;
    • Уроки по дизайну, графике, программированию и бизнесу
    • Тренинги по саморазвитию, психологии и эзотерике;
    • Материалы по отношениям, пикапу и соблазнению;
    • Нейросети и Маркетплейсы;
    • Онлайн-обучение по шитью, строительству, рукоделию и работе по дому;

    Слив Курсов Бесплатно

    К скачиванию доступны сотни материалов и складчин, со всех известных сайтов, таких как складчик или складчина. Все курсы доступны в одной подписке. Больше не нужно покупать курсы по одному!

    Онлайн курсы форум

    Обошли многие форумы и не нашли подходящий курс? Скачивайте любой из сотни тысяч курсов на нашем форуме. Инфопродукты и новые сливы курсов пополняются ежедневно! Если вы не нашли нужный курс на других форумах, у нас вы сможете скачать любой из сотен тысяч доступных инфопродуктов. Ежедневно мы пополняем базу новыми сливами курсов, чтобы вы всегда могли найти актуальные материалы для обучения.