622 гр., все. Научная и компьютерная коммуникация в современных условиях - I

Место и время проведения: вторник, четвертая (ауд. 4399) пара.

Преподаватели: Голяндина Нина Эдуардовна, Коробейников Антон Иванович

План занятий

04.09.2018 - Вводное занятие. Обсудим план курса/семинара и общую структуру методов ML.

Software

Machine learning

На каждую тему два человека – один ответственен за теорию, другой – за практические примеры. То и другое должно войти в доклад и конспект. Каждый должен по двум темам отвечать за теорию, а по двум другим – за примеры.

Базовые материалы – видеолекции К. Воронцова https://yandexdataschool.ru/edu-process/courses/machine-learning (у него есть также конспект для части материалов и слайды), а также лекции предыдущего семестра А. Коробейникова по statistical learning. Можно пользоваться любыми источниками, но важно, чтобы понимание и изложение темы было в том стиле, как написано ниже на следующей странице. Очень часто в machine learning изложение техническое и вытащить оттуда суть непросто. Лекции Воронцова, в целом, в нужном нам стиле.

Для вашего удобства, вам предоставляется доступ к материалам прошлого года https://github.com/statmod-masters-2018/ml-seminar-2017 . Поэтому ваша работа – их переработать, улучшить, расширить примеры. Сделайте свой репозиторий и выкладывайте туда результаты своей переработки.

Всего формально 5 человек, но у одного много долгов. Поэтому сначала рассчитываем на 4 человека. Первые 8 тем обязательно должны быть ими выбраны. Доклады будут в том порядке, как в списке. Слайды должны быть присланы не позднее субботы перед докладом. Чем раньше пришлете слайды, тем больше будет времени, чтобы заранее улучшить стиль доклада.

  1. Обучение с учителем. Регрессия. Регуляризация в регрессии – зачем, почему. Разные подходы. PDF1, PDF2 PDF3
  2. Обучение с учителем. Дискриминантный анализ. Логистическая регрессия. Feature selection и extraction. PDF PDF2
  3. Обучение с учителем. Метод опорных векторов. Выбор модели с помощью кросс-валидации. PDF PDF
  4. Обучение без учителя. Разделение смеси распределений. Кластеризация. PDF
  5. Вычислительные аспекты оптимизации. Гладкие функционалы и пр. Метод стохастического градиента как метод оптимизации. Примеры на основе одного из предыдущих методов.
  6. Решающие деревья. Random Forest. PDF
  7. Композиция методов. Бустинг. PDF
  8. Нейронные сети. Общая структура (особый класс функций для оптимизации). Back propagation как вычислительный подход.
  9. Нейронные сети для изображений.
  10. Активное обучение.
  11. Тематическое моделирование (это обучение без учителя).

Оценка за экзамен состоит из

  • оценки за доклад согласно перечисленным критериям,
  • оценка за подготовленные примеры,
  • оценки за конспект с разобранными примерами, сданный не позднее, чем через две недели после доклада; согласно тем же критериям.
  • оценки за решенную на экзамене практическую задачу с объяснениями, основанными на теории (классификация или регрессия предоставленных данных заданным методом).
  • может быть, будут еще какие-то бонусные баллы за участие в семинаре и прочее, посмотрим.

Давайте сделаем так, чтобы семинар был более-менее комфортен всем и обойдемся без штрафов. Для этого, как минимум, нужно, чтобы доклады были подготовлены и проходили в срок. После того как доклады пройдут, обсудим, чем занять оставшееся время. Понятно (надеюсь), что нужно приходить на все занятия, чтобы учитывать замечания, комментарии, …. Очень часто следующая тема основана на предыдущих. 

Структура рассказа о методе ML

  1. Какая практическая задача решается. Пример данных, на основе которых предполагается ее решать.
  2. Если обучение без учителя, то используется базовая модель данных. В этом случае, скорее всего, будет максимизироваться функция правдоподобия. Если с учителем, то используется модель (алгоритм) предсказания и мера для ошибки предсказания, которая будет минимизироваться.
  3. Дальше, теоретически, просто оптимизационная задача и обсуждение метода ее решения. Например, в случае без учителя это м.б. EM-алгоритм. В случае с учителем – метод стохастического градиента. При этом, если исходно в задаче были условия, при сведении задачи к безусловной оптимизации используются теорема Лагранжа или теорема Куна-Такера.
  4. Обсуждение свойств метода оптимизации. Улучшение алгоритма за счет специфики задачи, эвристических приемов.
  5. Возможная регуляризация, которую можно рассматривать как просто изменение оптимизационной задачи в той же модели с целью получать оценки параметров с лучшими свойствами; в частности, для получения нулевых оценок в случае добавления модуля параметра. Также, регуляризацию можно рассматривать как изменение модели данных, когда параметр рандомизируется и рассматривается совместная функция правдоподобия.
  6. Изменение (усложнение или упрощение) рассматриваемой модели данных или предсказывающего алгоритма и переход к пункту 3.
  7. Примеры (могут перемежаться с теорией).

Критерии оценивания

Критерии оценивания доклада/конспекта (теория)

  1. Внятно рассказана математическая постановка задачи.
  2. Описан бэкграунд задачи (частным случаем чего является, в чем особенность и пр.)
  3. Приведены и формализованы примеры, соответствующие этой постановке задачи.
  4. Описан и объяснен метод решения задачи.
  5. Приведено математическое обоснование метода.
  6. Приведен (и объяснен) теоретический результат, относящийся к свойствам метода.
  7. Приведен (с объяснением) алгоритм решения задачи.
  8. Объяснены особенности реализации алгоритма.
  9. При рассказе понятно, что в данный момент обсуждается, постановка задачи, алгоритм решения, проблемы реализации алгоритма, …
  10. Рассказано, какие проблемы существуют в данном методе/алгоритме и какие есть пути их разрешения.

Критерии оценивания доклада/конспекта (практические примеры)

  1. Проведено сравнение методов/моделей.
  2. Понятно, почему выбраны такие метод/параметры.
  3. Понятно, как идет контроль за отсутствием переподгонки и как оценивается точность.
  4. Понятно, как интерпретируются результаты.
  5. Объяснен код/функции, которые используются в примере.
study/fall2018/ml_theory.txt · Последнее изменение: 2019/09/04 23:23 — nina
Наверх
CC Attribution-Noncommercial-Share Alike 4.0 International
Driven by DokuWiki Recent changes RSS feed Valid CSS Valid XHTML 1.0