622 гр., все. Научная и компьютерная коммуникация в современных условиях - I

Место и время проведения: понедельник, 15:00, дистанционно.

Преподаватели: Голяндина Нина Эдуардовна, Коробейников Антон Иванович

Выступления и темы

Семинар будет состоять из двух частей -
примерно через неделю студенты выступают с докладами, а еще в этом году между докладами несколько лекций по big data прочитает наш выпускник Роман Гученко.

Даты занятий (Скайп):

07.09.2020, 15:00 - Вводное занятие

18.09.2020, 17:00 - Big data

21.09.2020, 15:00 - Женя Соколиков, доклад N1

02.10.2020, 17:00 - Big data

05.10.2020, 15:00 - Алексей Приньков, доклад N2

12.10.2020, 15:00 - Алексей Приньков, доклад N2, еще раз

16.10.2020, 17:00 - Big data (перенос, TBA)

26.10.2020, 15:00 - Женя Соколиков, доклад N3

30.10.2020, 17:00 - Big data

02.11.2020, 15:00 - Алексей Приньков, доклад N4

06.11.2020, 17:00 - Big data

20.11.2020, 17:00 - Big data

27.11.2020, 17:00 - Big data

14.12.2020, 15:00 - Норжин, доклад N 6 по Deep Learning.

Общая информация по докладам

Базовые материалы –

Можно пользоваться любыми источниками, но важно, чтобы понимание и изложение темы было в том стиле, как написано ниже. Очень часто в machine learning изложение техническое и вытащить оттуда суть непросто. Лекции Воронцова, в целом, в нужном нам стиле. И давайте договоримся: у нас n - число наблюдений, а не число признаков. Число признаков у нас, например, k.

Предлагаемые темы (по две на человека, порядок докладов важен):

  1. Обучение с учителем. Регрессия. Регуляризация в регрессии – зачем, почему. Разные подходы. Feature extraction and Feature selection. (Женя, 21.09)
  2. Обучение с учителем. Классификация. Дискриминантный анализ. Логистическая регрессия. Метод опорных векторов. Выбор модели с помощью кросс-валидации. Метод стохастического градиента (Алексей, 05.10, 12.10)
  3. Neural Nets (NN), с элементами Deep Learning (Женя, 26.10)
  4. Решающие деревья. Random Forest. Композиция методов. Бустинг. (Алексей, 02.11)
  5. Обучение без учителя. Разделение смеси распределений. Кластеризация. Тематическое обучение (Probabilistic LSA). (Норжин)
  6. Deep learning, Neural Nets for images (NN) (Норжин, 14.12)

Темы со ссылками на слайды:

  1. Обучение с учителем. Регрессия. Регуляризация в регрессии – зачем, почему. Разные подходы. PDF1, PDF2 PDF3
  2. Обучение с учителем. Дискриминантный анализ. Логистическая регрессия. Feature selection и extraction. PDF PDF2
  3. Обучение с учителем. Метод опорных векторов. Выбор модели с помощью кросс-валидации. PDF PDF
  4. Обучение без учителя. Разделение смеси распределений. Кластеризация. PDF
  5. Вычислительные аспекты оптимизации. Гладкие функционалы и пр. Метод стохастического градиента как метод оптимизации. Примеры на основе одного из предыдущих методов.
  6. Решающие деревья. Random Forest. PDF
  7. Композиция методов. Бустинг. PDF
  8. Нейронные сети. Общая структура (особый класс функций для оптимизации). Back propagation как вычислительный подход.
  9. Нейронные сети для изображений.
  10. Активное обучение.
  11. Тематическое моделирование (это обучение без учителя).
  12. Глубокое обучение

Давайте сделаем так, чтобы семинар был более-менее комфортен всем и обойдемся без штрафов. Для этого, как минимум, нужно, чтобы доклады были подготовлены и проходили в срок. По результатам доклада, с учетом замечаний, готовится конспект, дедлайн для которого - две недели после доклада. В конспект входит как теория, так и практика, но можно делать две отдельные части. Постарайтесь, чтобы они были согласованы, в том числе, по обозначениям.

Доклады в понедельник. Мне не позднее ночи с пятницы на субботу (а лучше - в четверг) нужно присылать предварительную версию презентации для возможных комментариев.

Понятно (надеюсь), что нужно приходить на все занятия, чтобы учитывать замечания, комментарии, …. Очень часто следующая тема основана на предыдущих. 

Структура рассказа о методе ML

  1. Какая практическая задача решается. Пример данных, на основе которых предполагается ее решать.
  2. Если обучение без учителя, то используется базовая модель данных. В этом случае, скорее всего, будет максимизироваться функция правдоподобия. Если с учителем, то используется модель (алгоритм) предсказания и мера для ошибки предсказания, которая будет минимизироваться.
  3. Дальше, теоретически, просто оптимизационная задача и обсуждение метода ее решения. Например, в случае без учителя это м.б. EM-алгоритм. В случае с учителем – метод стохастического градиента. При этом, если исходно в задаче были условия, при сведении задачи к безусловной оптимизации используются теорема Лагранжа или теорема Куна-Такера.
  4. Обсуждение свойств метода оптимизации. Улучшение алгоритма за счет специфики задачи, эвристических приемов.
  5. Возможная регуляризация, которую можно рассматривать как просто изменение оптимизационной задачи в той же модели с целью получать оценки параметров с лучшими свойствами; в частности, для получения нулевых оценок в случае добавления модуля параметра.
  6. Изменение (усложнение или упрощение) рассматриваемой модели данных или предсказывающего алгоритма и переход к пункту 3.
  7. Примеры (могут перемежаться с теорией).

Важно: не надо включать много разных модификаций, слишком вдаваться в подробности. Главное - четко и логично рассказать и отвечать на вопросы на понимание.

Критерии оценивания

Требования к докладу/конспекта (теория)

  1. Внятно рассказана математическая постановка задачи.
  2. Описан бэкграунд задачи (частным случаем чего является, в чем особенность и пр.)
  3. Приведены и формализованы примеры, соответствующие этой постановке задачи.
  4. Описан и объяснен метод решения задачи.
  5. Приведено математическое обоснование метода (привести теор.результат и объяснить).
  6. Приведен (с объяснением) алгоритм решения задачи.
  7. Объяснены особенности реализации алгоритма.
  8. При рассказе понятно, что в данный момент обсуждается, постановка задачи, алгоритм решения, проблемы реализации алгоритма, …
  9. Рассказано, какие проблемы существуют в данном методе/алгоритме и какие есть пути их разрешения.

Требования к докладу/конспекта (практические примеры)

  1. Проведено сравнение методов/моделей.
  2. Понятно, почему выбраны такие метод/параметры.
  3. Понятно, как идет контроль за отсутствием переподгонки и как оценивается точность.
  4. Понятно, как интерпретируются результаты.
  5. Объяснен код/функции, которые используются в примере.
study/fall2020/ml_theory.txt · Последнее изменение: 2020/11/27 19:26 — nina
Наверх
CC Attribution-Noncommercial-Share Alike 4.0 International
Driven by DokuWiki Recent changes RSS feed Valid CSS Valid XHTML 1.0