Основы Hadoop

Основы Hadoop

  Сложность

Пока неизвестно

  Длительность

24 ак.ч.

  Формат

онлайн

  Документ

удостоверение о повышении квалификации государственного образца

Стоимость курса
41 900

Подробнее о курсе

Описание Этот тренинг дает представление об устройстве Apache Hadoop и методах разработки приложений, обрабатывающих данные на его основе. Участники познакомятся с HDFS – стандартом де-факто для долговременного надежного хранения больших объемов данных фреймворком YARN, управляющим параллельным выполнением приложений на кластерети сопутствующими проектами, составляющими экосистему Hadoop: Hive, Spark, HBase.

Документ после выпуска

удостоверение о повышении квалификации государственного образца

Автор курса

Оценка и обучение ИТ-специалистов по ключевым направлениям разработки программного обеспечения. Курсы от экспертов-практиков по языкам программирования, системному и бизнес-анализу, архитектуре ПО, ручному и автоматизированному тестированию ПО, Big Data и машинному обучению, управлению проектами и Agile. Действует скидка 10% на обучение физических лиц.

Программа курса

  1. Основные концепции современной архитектуры данных (теория – 1 ч.).

  2. HDFS: Hadoop Distributed File System (теория – 2 ч., практика – 1 ч.)

Архитектура, репликация, чтение и запись данных, команды HDFS. Практика: подключение к кластеру, работа с файловой системой из shell и Hue.

  3. Парадигма MapReduce и ее реализация на Java и в Hadoop Streaming (теория – 2 ч., практика – 1 ч.).

Практика: запуск приложений.

  4. YARN: управление распределенным выполнением приложений (теория – 1 ч., практика – 1 ч.)

Архитектура YARN, запуск приложений в YARN. Практика: запуск приложений и наблюдение за кластером через UI.

  5. Введение в Hive (теория – 2 ч., практика – 3 ч.).

Архитектура, метаданные таблиц, форматы файлов, язык запросов HiveQL. Практика (Hue, hive, beeline, Tez UI): создание таблиц, чтение и запись CSV, Parquet, ORC, партиционирование, SQL-запросы с агрегацией и соединениями.

  6. Введение в Spark (теория – 2 ч., практика – 3 ч.).

DataFrame/SQL, метаданные, форматы файлов, источники данных, RDD. Практика (Zeppelin, Spark UI): чтение и запись из БД (JDBC), CSV, Parquet, партиционирование, SQL-запросы с агрегацией и соединениями, планы выполнения запросов, мониторинг.

  7. Введение в потоковую обработку данных (теория – 2 ч., практика – 1 ч.).

Spark Streaming, Spark Structured Streaming, Flink. Практика: чтение/обработка/запись потоков между Kafka, реляционной БД и файловой системой.

  8. Введение в HBase (теория – 1 ч., практика – 1 ч.).

Архитектура, язык запросов. Практика (HBase shell): запись и чтение данных.

  Всего: теория – 13 ч. (54%), практика – 11 ч. (46%)

Оставьте отзыв

Напишите ваш коментарий, не менее 30 символов

Нажимая кнопку, вы даете согласие на обработку персональных данных

обновлено: 05.04.2025

Похожие курсы

М20762С: Разработка баз данных на платформе Microsoft SQL Server

М20762С: Разработка баз данных на платформе Microsoft SQL Server

DP - 050: Перенос рабочих нагрузок SQL в Azure

DP - 050: Перенос рабочих нагрузок SQL в Azure

DP - 080: Запрос данных с помощью Microsoft Transact - SQL

DP - 080: Запрос данных с помощью Microsoft Transact - SQL

Фреймворк Apache Spark для разработчиков: продвинутый уровень

Фреймворк Apache Spark для разработчиков: продвинутый уровень

Продвинутый SQL

Продвинутый SQL

Базы данных

Базы данных

Otus
 онлайн
 6 часов
  Перейти к курсу
Управление данными

Управление данными

ЛЭТИ
 онлайн
 24 ак. час.
  Перейти к курсу
SQL для работы с данными

SQL для работы с данными

Бесплатные курсы

Симулятор SQL

Симулятор SQL

Основы работы с базами данных и SQL

Основы работы с базами данных и SQL

Оставьте заявку

Наши консультанты ответят на все вопросы
И помогут в выборе

Комментарий ...

Нажимая кнопку, вы даете согласие на обработку персональных данных