Основы Apache Spark
Пока неизвестно
26 ак.ч.
онлайн
удостоверение о повышении квалификации государственного образца
45 000 ₽
Подробнее о курсе
Документ после выпуска
удостоверение о повышении квалификации государственного образца
Программа курса
1. Концепции и архитектура Spark (теория – 2 ч., практика – 1 ч.)
Map/Reduce и Spark в Hadoop. Примеры Spark в Lambda-архитектуре Кластеры для распределенной обработки данных Как запустить Spark Исполнители, задания, задачи в Spark
2. Программирование с помощью RDD: трансформации и действия (теория – 2 ч., практика – 2 ч.)
В чем разница между SparkSession и SparkContext Как создавать и распараллеливать RDD Как трансформировать RDD Как анализировать и управлять обработкой RDD (план и DAG) Как сохранять и хранить RDD в HDFS Как группировать и соединять RDD
3. Программирование с помощью DataFrame (теория – 2 ч., практика – 2 ч.)
В чем разница между RDD и DataFrame Как создавать и распараллеливать DataFrame Как анализировать и управлять выполнением DataFrame (план и DAG) Как сохранять DataFrame в HDFS
4. Загрузка данных с внешних хранилищ и во внешние хранилища (теория – 1 ч., практика – 2 ч.)
Как читать/писать данные с файлового хранилища (HDFS, S3, FTP, локальной файловой системы) Какой формат данных выбрать Как распараллеливать чтение/запись в JDBC Как создать DataFrame из MPP (Cassandra, Vertica, Greenplum) Как работать с Kafka
5. Написание логики с использованием Spark DSL (теория – 1 ч., практика – 1 ч.)
Как считать строки Как обрабатывать математические агрегации Как группировать строки Как правильное соединять DataFrames
6. Написание логики с использованием Spark SQL (теория – 1 ч., практика – 1 ч.)
Как и зачем переключаться на Spark SQL Как работать с таблицей EXTERNAL Как работать с таблицей MANAGED
7. Использование функций Window и UDF (теория – 1 ч., практика – 1 ч.)
Какие оконные функции существуют и как их использовать в Spark Когда не следует использовать оконные функции Что такое UDF, UDAF и как их использовать Как оптимизировать UDFs в PySpark
8. Типы Spark (теория – 1 ч., практика – 1 ч.)
Логические: как добавить фильтр Численные: как подсчитать сумму, произведение, статистику Строковый: как использовать регулярные выражения Комплексные: как работать со структурами, массивами Как работать с данными
9. Примеры оптимизации Spark (теория – 1 ч., практика – 1 ч.)
Недостаточно памяти Маленькие файлы в HDFS Асимметричные данные Медленные соединения Трансляция больших таблиц Совместное использование ресурсов Новые механизмы оптимизации: AQE и DPP
10.Запуск Spark в Airflow (теория – 1 ч., демонстрация – 1 ч.)
Оркестраторы Устройство Airflow Встроенные операторы Airflow SparkSubmitOperator
Оставьте отзыв
Похожие курсы
Оставьте заявку
Наши консультанты ответят на все вопросы
И помогут в выборе
Нажимая кнопку, вы даете согласие на обработку персональных данных