Основы Hadoop
Основы Hadoop
Пока неизвестно
24 ак.ч.
онлайн
удостоверение о повышении квалификации государственного образца
Подробнее о курсе
Документ после выпуска
удостоверение о повышении квалификации государственного образца
Программа курса
1. Основные концепции современной архитектуры данных (теория – 1 ч.).
⠀
2. HDFS: Hadoop Distributed File System (теория – 2 ч., практика – 1 ч.)
Архитектура, репликация, чтение и запись данных, команды HDFS. Практика: подключение к кластеру, работа с файловой системой из shell и Hue.
3. Парадигма MapReduce и ее реализация на Java и в Hadoop Streaming (теория – 2 ч., практика – 1 ч.).
Практика: запуск приложений.
4. YARN: управление распределенным выполнением приложений (теория – 1 ч., практика – 1 ч.)
Архитектура YARN, запуск приложений в YARN. Практика: запуск приложений и наблюдение за кластером через UI.
5. Введение в Hive (теория – 2 ч., практика – 3 ч.).
Архитектура, метаданные таблиц, форматы файлов, язык запросов HiveQL. Практика (Hue, hive, beeline, Tez UI): создание таблиц, чтение и запись CSV, Parquet, ORC, партиционирование, SQL-запросы с агрегацией и соединениями.
6. Введение в Spark (теория – 2 ч., практика – 3 ч.).
DataFrame/SQL, метаданные, форматы файлов, источники данных, RDD. Практика (Zeppelin, Spark UI): чтение и запись из БД (JDBC), CSV, Parquet, партиционирование, SQL-запросы с агрегацией и соединениями, планы выполнения запросов, мониторинг.
7. Введение в потоковую обработку данных (теория – 2 ч., практика – 1 ч.).
Spark Streaming, Spark Structured Streaming, Flink. Практика: чтение/обработка/запись потоков между Kafka, реляционной БД и файловой системой.
8. Введение в HBase (теория – 1 ч., практика – 1 ч.).
Архитектура, язык запросов. Практика (HBase shell): запись и чтение данных.
Всего: теория – 13 ч. (54%), практика – 11 ч. (46%)
Оставьте отзыв
Похожие курсы
Бесплатные курсы
Оставьте заявку
Наши консультанты ответят на все вопросы
И помогут в выборе
Нажимая кнопку, вы даете согласие на обработку персональных данных