[Stepik] [Александр Озерцов]

  • Автор темы SlivInfoKurs
  • Дата начала
S

SlivInfoKurs

Модератор
Регистрация
31.03.2020
Сообщения
149 097
Реакции
366
Онлайн
6дн 5ч 3м 11с
чина:


Описание:
Данный курс — погружение в технологию, которая изменила правила игры в мире Big Data. Если раньше работа с данными в Data Lake напоминала хаос из тысяч файлов и непредсказуемых схем, то с Iceberg мы строим полноценное хранилище с надежностью классических баз данных прямо поверх вашего S3 или HDFS. Забудьте про битые файлы в S3 и медленные запросы в Hive. Пришло время строить архитектуру Lakehouse, которая сочетает в себе гибкость Data Lake и мощь классических SQL-баз.

Чему вы научитесь
  • Развертывать и настраивать среду: Вы научитесь поднимать инфраструктуру для работы с Iceberg, настраивать каталоги и интегрировать их с вычислительными движками.
  • Проектировать архитектуру таблиц: Вы поймете внутреннее устройство формата (Metadata, Snapshots, Manifests) и сможете объяснять, как Iceberg обеспечивает атомарность и изоляцию транзакций.
  • Управлять транзакциями и версиями: Вы научитесь использовать Time Travel для запросов к историческим данным и выполнять Rollback, чтобы мгновенно восстанавливать таблицы после ошибок в коде.
  • Эволюционировать схемы без боли: Вы освоите Schema Evolution (добавление/удаление колонок по ID) и Partition Evolution, научившись менять логику партиционирования данных без полной перезаписи таблиц.
  • Применять стратегии обновления данных: Вы разберетесь в разнице между Copy-on-Write и Merge-on-Read и сможете выбирать оптимальный режим под конкретные бизнес-задачи.
  • Работать с данными как с кодом (Branching): Вы освоите продвинутую модель веток (Branching & Tagging), научитесь реализовывать паттерн WAP (Write-Audit-Publish) для проверки качества данных перед их публикацией в продакшен.
  • Снижать стоимость хранения: Вы научитесь управлять жизненным циклом данных, настраивать очистку старых снимков и манифестов, оптимизируя расходы на облачное хранилище (S3/GCS).
О курсе
Всем привет! Меня зовут Александр Озерцов, и я рад приветствовать вас на курсе «Apache Iceberg для Data Engineer».

Этот курс — погружение в технологию, которая изменила правила игры в мире Big Data. Если раньше работа с данными в Data Lake напоминала хаос из тысяч файлов и непредсказуемых схем, то с Iceberg мы строим полноценное Lakehouse хранилище с надежностью классических баз данных прямо поверх вашего S3 или HDFS.

В рамках курса мы не просто разберем теорию, а пройдем путь от настройки окружения до продвинутого управления данными. Мы изучим:

  • Архитектуру и транзакции: поймем, как работают манифесты и почему ваши данные больше никогда не «развалятся» при одновременной записи.
  • Гибкие схемы: научимся менять структуру таблиц и партиционирование без перезаписи петабайт данных.
  • Оптимизации: разберем стратегии удаления старых данных, различные подходы к ведению таблиц, а также Deletion Vectors.
  • Branch model: освоим работу с ветками данных (WAP — Write-Audit-Publish), чтобы тестировать изменения в изоляции, как в Git.
Для кого этот курс
Этот курс идеально подойдет специалистам, которые устали от ограничений классического Hive-подхода и готовы перевести свои данные на новый уровень управления. Несмотря на то, что в курсе практика ведется на Apache Spark, я намеренно использовал преимущественно SQL синтаксис, чтобы курс был понятен как Data engineer, так и Data аналитикам.

Начальные требования
Что нужно знать и иметь перед стартом:

  • SQL (базовый/средний уровень): свободное владение SELECT, JOIN, GROUP BY и понимание DDL-операций.
  • Основы Spark или Python: умение прочитать данные и запустить простой скрипт/нотбук.
  • Базовое понимание Data Lake: если вы знаете, чем папка в S3/HDFS отличается от таблицы в базе данных, вам будет проще.
  • Docker: умение запустить контейнер через docker-compose.
Как проходит обучение
Курс разбит на несколько тематических глав, каждая из которых построена по принципу «от боли к решению»:

  1. Разбор проблемы: Мы начинаем с изучения реальных сценариев, где классические подходы (вроде Hive) дают сбой. Будь то конфликты при записи, медленный поиск данных или «рассыпающаяся» схема таблицы.
  2. Теоретический блок: Разбираем внутреннюю механику Iceberg — как именно он спроектирован, чтобы этих проблем не возникало.
  3. Практический практикум: Переходим в консоль и на реальных примерах в Spark смотрим, как Iceberg элегантно решает задачу в коде.
Программа курса
1. Введение
От DWH до LakeHouse pt1
От DWH до LakeHouse pt2
Принципы Iceberg​
2. Настройка окружения

Minio
PySpark notebook
Rest Catalog​
3. Архитектура Apashe Iceberg

Общее устройство таблицы
Time travel​
4. Транзакции

Транзакции Iceberg​
5. Схема данных

Схема таблицы
Партиции​
6. Оптимизация таблиц

CoW vs MoR
Слой данных
Слой метаданных​
7. Branch model

Основы
WAP pattern​
Цена 4980 руб.
Скрытая ссылка

Этот курс появится в скором времени на форуме kursstore.com Проверьте по поиску форума, возможно данный курс уже слит.
 

О нас

  • - Наш форум был создан с одной целью, помогать другим! На нашем форуме, Вы можете скачать самые свежие и популярные курсы, книги, тренинги и вебинары, схемы по заработку, различные мануалы и готовые кейсы, а так же слитые складчины с торрент ресурсов, по самым разным направлениям бесплатно!

    Слив курсов

    Ищете возможность расширить знания бесплатно, скачать курсы, вебинары и марафоны в видео формате, получить бесплатно практически любой инфопродукт? Посетите наш сайт, где вы можете выбрать интересующего вас автора и направление, а также скачать материалы для обучения на любой устройство в формате торрент.

    Слив онлайн курсов

    На нашем формуе вы легко сможете найти и скачать курсы по интересующей вас теме. Просто выберите автора или направление, загрузите материалы на свое устройство и начните обучение в удобное для вас время. Мы предлагаем возможность скачивания курсов бесплатно, а также доступ к премиум подписке.

    На нашем сайте вы найдёте курсы следующих тематик:
    • Курсы и лекции от известных школ и авторов;
    • Уроки по дизайну, графике, программированию и бизнесу
    • Тренинги по саморазвитию, психологии и эзотерике;
    • Материалы по отношениям, пикапу и соблазнению;
    • Нейросети и Маркетплейсы;
    • Онлайн-обучение по шитью, строительству, рукоделию и работе по дому;

    Слив Курсов Бесплатно

    К скачиванию доступны сотни материалов и складчин, со всех известных сайтов, таких как складчик или складчина. Все курсы доступны в одной подписке. Больше не нужно покупать курсы по одному!

    Онлайн курсы форум

    Обошли многие форумы и не нашли подходящий курс? Скачивайте любой из сотни тысяч курсов на нашем форуме. Инфопродукты и новые сливы курсов пополняются ежедневно! Если вы не нашли нужный курс на других форумах, у нас вы сможете скачать любой из сотен тысяч доступных инфопродуктов. Ежедневно мы пополняем базу новыми сливами курсов, чтобы вы всегда могли найти актуальные материалы для обучения.