Курс по ML System Design

22.01.2023
03.10.2025
обучение
#mlsystemdesign

Осенью 2022 года прочитал курс по дизайну систем машинного обучения (ML System Design).

Курс читался двум потокам:

очно 4-му курса бакалавриата НГУ
открытый видео-курс на площадке ods.ai

Очные лекции не записывались, но по содержанию были максимально близки к лекциям открытого курса.

Требования к предварительной подготовке:

Основы статистики https://stepik.org/course/76/info или любой курс по статистике ВУЗа.
Python - основы и применение https://stepik.org/course/512/promo или любой курс по программированию ВУЗа, включающий python.
Введение в машинное обучение - серия статей на Habr https://habr.com/ru/company/ods/blog/322626/ или любой курс ВУЗа по машинному обучению.
The Missing Semester of Your CS Education https://missing.csail.mit.edu/ или практический опыт промышленной разработки программного обеспечения на python под Linux.

В лекции открытого курса вошли две лекции Ирины Голощаповой про интеграцию систем машинного обучения в бизнес-процессы большой компании и составление ML System Design документа. В открытый доступ на GitHub был выложен шаблон дизайн документа по проектированию ML-систем.

В рамках курса студенты строили системы машинного обучения. Проекты студентов курировал Артем Карасюк.

Съемку и обработку видео делал Михаил Симков. Коммуникация с университетом легла на плечи Евгении Сотниковой. Татьяна Архипова и Любовь Бабушкина размещали курс на площадке ods.ai. Слайды вычитывали всем миром, но большую часть правок по слайдам и текстовой расшифровке сделала Екатерина Колодезева. Все это стало возможным благодаря поддержке Алексея Окунева (НГУ) и Алексея Натекина (ODS.AI).

О курсе мы рассказывали в телеграм-канале #Reliable ML.

У меня ушло чуть больше 200 часов на создание этого курса. Учитывая количество участников проекта, общие трудозатраты на курс можно оценить снизу как 400 часов. Мы выложили все, что можно, в открытый доступ.

Материалы курса устарели сразу как только мы их опубликовали - такая у нас отрасль. Мы планируем переработать материалы в серию статей на habr, все анонсы будут в канале #Reliable ML

В сентябре 2023 года будет новый запуск курса, с переработанным материалом.

Лекции:

1. Машинное обучение на практике.

Делать ML-модели легко, трудно делать полезные ML-модели. В первой лекции дается определение “дизайна систем машинного обучения”, разбираются предположения ML-систем, их традиционные области применения и отличия академического и промышленного машинного обучения.

Курс по ML System Design

1. Машинное обучение на практике.

2. Основы проектирования ML-систем.

3. Обучающие данные.

4. Подготовка и отбор признаков.

5. Выбор и обучение ML-модели.

6. Оценка качества модели.

7. Развертывание.

8. Диагностика ошибок и отказов.

9. Потоковые данные.

10. Жизненный цикл модели.

11. Эксперименты и версионирование.

12. Временные ряды и графы.

13. Непредвзятость. Безопасность. Карточки моделей.

14. ML инфраструктура и платформы.

15. Интеграция в бизнес-процессы.

16. Reliable ML - Интеграция в бизнес-процессы

17. Reliable ML - Интеграция в бизнес-процессы