Это старая версия документа!
Содержание
622 гр., все. Научная и компьютерная коммуникация в современных условиях - I
Место и время проведения: понедельник, 15:00, дистанционно.
Преподаватели: Голяндина Нина Эдуардовна, Коробейников Антон Иванович
Выступления и темы
Семинар будет состоять из двух частей -
примерно через неделю студенты выступают с докладами, а еще в этом году между докладами несколько лекций по big data прочитает наш выпускник Роман Гученко.
Даты занятий (Скайп):
07.09.2020, 15:00 - Вводное занятие
18.09.2020, 17:00 - Big data
21.09.2020, 15:00 - Женя Соколиков, доклад N1
Общая информация по докладам
Базовые материалы –
- видеолекции К. Воронцова (у него есть также конспект для части материалов и слайды)
- лекции предыдущего семестра А. Коробейникова по statistical learning.
- лекции ВШЭ на гитхабе
- Материалы к докладам 2017 года на гитхабе с кодом на R.
- Материалы к докладам 2019 года на гитхабе с кодом на Python.
Можно пользоваться любыми источниками, но важно, чтобы понимание и изложение темы было в том стиле, как написано ниже. Очень часто в machine learning изложение техническое и вытащить оттуда суть непросто. Лекции Воронцова, в целом, в нужном нам стиле. И давайте договоримся: у нас n - число наблюдений, а не число признаков. Число признаков у нас, например, k.
Предлагаемые темы (по две на человека, порядок докладов важен):
- Обучение с учителем. Регрессия. Регуляризация в регрессии – зачем, почему. Разные подходы. Feature extraction and Feature selection. (Женя, 21.09)
- Обучение с учителем. Классификация. Дискриминантный анализ. Логистическая регрессия. Метод опорных векторов. Выбор модели с помощью кросс-валидации. Метод стохастического градиента (Алексей, 05.10, 12.10)
- Neural Nets (NN), с элементами Deep Learning (Женя, 26.10)
- Решающие деревья. Random Forest. Композиция методов. Бустинг. (Алексей, 02.11)
- Обучение без учителя. Разделение смеси распределений. Кластеризация. Тематическое обучение (Probabilistic LSA). (Норжин, 16.11)
- Deep learning, Neural Nets for images (NN) (Норжин, 30.11)
Темы со ссылками на слайды:
- Обучение без учителя. Разделение смеси распределений. Кластеризация. PDF
- Вычислительные аспекты оптимизации. Гладкие функционалы и пр. Метод стохастического градиента как метод оптимизации. Примеры на основе одного из предыдущих методов.
- Решающие деревья. Random Forest. PDF
- Композиция методов. Бустинг. PDF
- Нейронные сети. Общая структура (особый класс функций для оптимизации). Back propagation как вычислительный подход.
- Нейронные сети для изображений.
- Активное обучение.
- Тематическое моделирование (это обучение без учителя).
- Глубокое обучение
Давайте сделаем так, чтобы семинар был более-менее комфортен всем и обойдемся без штрафов. Для этого, как минимум, нужно, чтобы доклады были подготовлены и проходили в срок. По результатам доклада, с учетом замечаний, готовится конспект, дедлайн для которого - две недели после доклада. В конспект входит как теория, так и практика, но можно делать две отдельные части. Постарайтесь, чтобы они были согласованы, в том числе, по обозначениям.
Доклады в понедельник. Мне не позднее ночи с пятницы на субботу (а лучше - в четверг) нужно присылать предварительную версию презентации для возможных комментариев.
Понятно (надеюсь), что нужно приходить на все занятия, чтобы учитывать замечания, комментарии, …. Очень часто следующая тема основана на предыдущих.
Структура рассказа о методе ML
- Какая практическая задача решается. Пример данных, на основе которых предполагается ее решать.
- Если обучение без учителя, то используется базовая модель данных. В этом случае, скорее всего, будет максимизироваться функция правдоподобия. Если с учителем, то используется модель (алгоритм) предсказания и мера для ошибки предсказания, которая будет минимизироваться.
- Дальше, теоретически, просто оптимизационная задача и обсуждение метода ее решения. Например, в случае без учителя это м.б. EM-алгоритм. В случае с учителем – метод стохастического градиента. При этом, если исходно в задаче были условия, при сведении задачи к безусловной оптимизации используются теорема Лагранжа или теорема Куна-Такера.
- Обсуждение свойств метода оптимизации. Улучшение алгоритма за счет специфики задачи, эвристических приемов.
- Возможная регуляризация, которую можно рассматривать как просто изменение оптимизационной задачи в той же модели с целью получать оценки параметров с лучшими свойствами; в частности, для получения нулевых оценок в случае добавления модуля параметра.
- Изменение (усложнение или упрощение) рассматриваемой модели данных или предсказывающего алгоритма и переход к пункту 3.
- Примеры (могут перемежаться с теорией).
Важно: не надо включать много разных модификаций, слишком вдаваться в подробности. Главное - четко и логично рассказать и отвечать на вопросы на понимание.
Критерии оценивания
Требования к докладу/конспекта (теория)
- Внятно рассказана математическая постановка задачи.
- Описан бэкграунд задачи (частным случаем чего является, в чем особенность и пр.)
- Приведены и формализованы примеры, соответствующие этой постановке задачи.
- Описан и объяснен метод решения задачи.
- Приведено математическое обоснование метода (привести теор.результат и объяснить).
- Приведен (с объяснением) алгоритм решения задачи.
- Объяснены особенности реализации алгоритма.
- При рассказе понятно, что в данный момент обсуждается, постановка задачи, алгоритм решения, проблемы реализации алгоритма, …
- Рассказано, какие проблемы существуют в данном методе/алгоритме и какие есть пути их разрешения.
Требования к докладу/конспекта (практические примеры)
- Проведено сравнение методов/моделей.
- Понятно, почему выбраны такие метод/параметры.
- Понятно, как идет контроль за отсутствием переподгонки и как оценивается точность.
- Понятно, как интерпретируются результаты.
- Объяснен код/функции, которые используются в примере.