Практический проект с использованием Hadoop

Рассматриваются основы Apache Hadoop и методы разработки приложений, обрабатывающих данные на его основе.
Курс: EAS-023
Длительность: 8 ч.

Описание

Рассматриваются основы Apache Hadoop и методы разработки приложений, обрабатывающих данные на его основе.

Участники познакомятся с проектами, составляющими экосистему Hadoop: HDFS, Hive, Spark, Sqoop, Flume, Druid, Kafka. Основное соедержание курса – разработка проекта, включающего загрузку, подготовку и извлечение данных.

Разбираемые темы

1. Data storage and processing provisioning:
  • HDFS Cluster;
  • YARN Cluster;
  • YARN-based Spark Cluster;
  • Druid Cluster;
  • Hive, Metastore, HCatalog;
  • Sqoop;
  • Flume.
2. Data ingestion:
  • Model and create Hive data warehouse;
  • Acquire user accounts data (source: Oracle or other RDBMS): Sqoop;
  • Continuously acquire user activity streams (sources: log files in CSV, Kafka topics): Flume.
3. Data cleaning and transformation:
  • Develop ETL in Hive;
  • Develop ETL in Spark SQL.
4. Alerting: Develop near-real time outlier detection in Spark Streaming.
5. Analytics: Discover user segmentation model using Spark ML.
6. Real-time analytics: Design Druid-based OLAP cube for pre-defined reports.
7. Data storage and processing provisioning:
  • HDFS Cluster;
  • YARN Cluster;
  • YARN-based Spark Cluster;
  • Druid Cluster;
  • Hive, Metastore, HCatalog;
  • Sqoop;
  • Flume.
8. Data ingestion: 
  • Model and create Hive data warehouse;
  • Acquire user accounts data (source: Oracle or other RDBMS): Sqoop;
  • Continuously acquire user activity streams (sources: log files in CSV, Kafka topics): Flume.
9. Data cleaning and transformation:
  • Develop ETL in Hive;
  • Develop ETL in Spark SQL.
10. Alerting: Develop near-real time outlier detection in Spark Streaming.
11. Analytics: Discover user segmentation model using Spark ML.
12. Real-time analytics: Design Druid-based OLAP cube for pre-defined reports.

Цели

  • понимать ключевые концепции и архитектуру Hadoop;
  • получить представление об экосистеме, сложившейся вокруг Hadoop, и ее ключевых компонентах;
  • уметь записывать и читать данные в/из HDFS, готовить файлы данных в HDFS для использования в SQL-запросах;
  • уметь использовать Hive и  Spark  SQL для SQL-запросов
  • уметь использовать Sqoop и Flume для загрузки данных.

Целевая аудитория

Разработчики, архитекторы, разработчики баз данных.

Предварительная подготовка

  • Базовые навыки программирования на Java.
  • Умение работать в командной оболочке Unix/Linux (bash).
  • Опыт работы с базами данных желателен, но не обязателен.
После окончания курса выдаётся сертификат на бланке Luxoft Training
-10% ФИЗИЧЕСКИМ ЛИЦАМ
Не подходят даты, время или хотите заказать корпоративное обучение для команды?
+
Предложите свой вариант
Москва 11 800 1
Санкт-Петербург 10 620 1
Омск 8 850 1
Киев 2 640 грн.
Одесса 2 400 грн.
Днепр 2 400 грн.

Примечание:

Материалы курса представлены на английском языке.

Записаться на курс

Выбрать дату
Если Вам не подходят дата и место проведения тренинга, Вы можете оставить заявку на участие в нем в любом из городов, где представлены филиалы Luxoft Training. Для этого выберите вариант "Открытая дата" и укажите желаемое место проведения курса.
Желаемое место проведения курса
Вы можете оставить заявку на корпоративное обучение сотрудников Вашей компании в любом городе России или Украины, выбрав вариант "Другой город"
Фамилия *

Имя *

Отчество

Контактный E-mail *

Компания *

Телефон *

Город *

Комментарий
По запросу на education@luxoft.com мы ответим на любые дополнительные вопросы касательно обучения в нашем Luxoft Training.
   Подпишись на ежемесячный DigestLT
Успешная форма подписки.
Спасибо!
Форма отправлена успешно.