Длительность: 24 ч.
Описание
Начало длинного и интересного пути по изучению машинного обучения. Вместо классического академического подхода «матстат – теория – дальше как-нибудь сами», с самого начала очень сильно ориентируемся на практику. Изучать, как именно работают алгоритмы, а тем более почему они работают вообще – здорово и полезно, но по мнению автора курса, делать это надо несколько позже. Когда дойдём до вопроса «круто, но давайте ещё лучше, что тут можно ещё подкрутить под капотом» -- обязательно к этому вернёмся.
А пока попробуем начать с самой жизненной постановки вопроса, когда есть кучи экселек вокруг и никакого понимания, что вообще можно делать и где тут волшебная Big Data, с которой так модно работать. Будем смотреть на данные, разбираться, что в них происходит, даже научимся объяснять это другим (графики и таблички!). Потом возьмём базовые классы задач, которые машинное обучение умеет решать, и собственно порешаем. Тоже с обязательным условием, что мы не просто хотим применить какую-то программу, а ещё и понять результат. И опять-таки объяснить его другим.
Тут скорее всего время курса и закончится, но если вдруг нет, то обсудим ваши максимально жизненные задачи и попробуем их формализовать до опробованных базовых задач. Потом будет крайне точное предсказание, какие технические грабли вы найдёте первыми (даже первую тройку), что с ними делать и как пытаться избежать.
И в конце всего сделаем маленький обзор, как много всего ещё можно попробовать, поделать и выучить на этом огромном поле машинного обучения.
Разбираемые темы
1. Обзор задачи (1 час – теория).- Какие вещи хорошо решаются машинным обучением, какие им пытаются решать.
- Что происходит, когда вместо Data Scientist ставят разработчика/аналитика/менеджера с ожиданием, что в процессе научится.
2. Подготовка, очистка, исследование данных (1 час – теория, 1 час – практика).
- Как пережить состояние, в котором обычно приходят данные.
- Порядок, в котором надо делать вещи из заголовка.
- Что можно переложить на аналитиков, а что лучше копать самому.
- Великое искусство не отвлекаться на гигантские проблемы со сбором и поставкой данных.
3. Классификаторы и Регрессоры (2 часа – теория, 2 часа – практика).
- Много практики, решаем хорошо формализованные задачи с подготовленными данными.
- Разница между задачами (бинарная/небинарная/вероятностная классификация, регрессии), перекидываем задачи в соседние формулировки.
- Примеры, как более живые задачи вгоняются в обозначенные рамки.
4. Кластеризация (1 час – теория, 2 часа – практика).
- Чуть меньше практики, зато намного больше красивых картинок.
- Огромное количество мест, где кластеризацию надо делать: исследование данных, проверка постановки задачи, проверки результатов.
- Ещё больше мест, где её делать можно.
5. Что такое хорошо (1 час – теория, 1 час – практика).
- Как оценивать результаты, как привыкли это делать клиенты.
- Варианты объяснить непривычные оценки, варианты свести их к привычным.
- Частные бессмысленные вопросы и что на них ответить.
- Кросс-валидация и как её делать не надо; удивительные примеры оверфита и как он проникает в даже чуть небрежную архитектуру.
6. Куда можно улучшать модель (5 часов – теория, 3 часа – практика).
- Что делает одну модель лучше другой: параметры, признаки, ансамбли.
- Чуть-чуть про параметры, очень много про признаки, с практикой построения и соревнованиями.
- Что делать, когда с признаками всё же переборщили (тоже с практикой, конечно же).
- Взгляд в бездну инструментария для поиска лучших параметров/признаков/методов.
7. Графики, отчеты, работа с живыми задачами (2 часа – теория, 2 часа – практика).
- Объясняем происходящее на пальцах: сначала себе, потом команде, потом клиенту.
- Более красивые ответы на бессмысленные вопросы.
- Как презентовать три терабайта результатов на одном слайде.
- Полуавтоматические тесты, какие точки контроля процесса действительно нужны.
- Распиливаем живые задачи в полный R&D процесс, крайне приветствуются варианты задач от аудитории.
Цели
- Понять, какие задачи можно решать машинным обучением (и узнать, что Big Data это всего лишь подраздел, а не обязательное требование).
- Научиться применять начальные методы машинного обучения и с помощью быстрого прототипирования научиться отвечать на вопрос «оценить реальную прибыль от возможного внедрения».
- Подсветить, какие данные необходимо собирать и что может потребоваться от них в ближайшем будущем. Почему «хотим хранить петабайты» это не всегда просто прихоть.
- Подготовится к более сложным темам, в частности – к полным решениям реальных сложных бизнес-задач.
- Посмотреть, как именно машинное обучение стыкуется с классической аналитикой. В частности, убедиться, что не обязательно (и даже вредно) увольнять всех существующих аналитиков для внедрения концепции.
Целевая аудитория
Основная:- Аналитики
- Менеджеры проектов, связанных с данными
- Технические лидеры / ведущие разработчики в любых проектах, связанных с данными
- Бизнес-аналитики
- Разработчики
- Инженеры данных (Data Engineer)
- Архитекторы, системные проектировщики