522 гр., Подготовка к обучению в магистратуре на профиле "Статистическое моделирование"

План занятий на первые недели

Предварительно:

04.09.2018, 3 пара (4399) - общее собрание

06.09.2018, 3 и 4 пара - тест на то, кто что знает (нужно его написать каждому), темы - линейная алгебра, теория вероятностей, программирование, статистика.

11.09.2018, 3 пара (4399) - разбор теста.

Тест

Результаты

Баллы поставлены условно и примерно. Шкала от 0 до 5 (поэтому 3 - это выше среднего, а не самая низкая положительная оценка).

Какие знания нужны для основных курсов магистатуры

Предполагаю и понимаю, что были разные причины того, что вы оказались в магистратуре на статмод. В том, что написано далее, я буду предполагать мотивацию (и готовность тратить силы) учиться полезным вещам, связанным со статистикой, причем не поверхностно на уровне инструкций «делай так», а с пониманием, в том числе на математическом и прикладном уровне.

Так вот, для таких людей очень рекомендуется в оставшееся время до начала занятий время начать подтягивать следующие темы: линейная алгебра, теорию вероятностей, базовая статистика, включая одномерную статистику, меры зависимости, проверку гипотез, а также множественную линейную регрессию. Также нужно будет уметь пользоваться языком R, который частично дополняется и заменяется языком Python.

Конкретнее:

  1. Самое первое - это линейная алгебра. Не должно быть проблем с матрицами, перемножением, транспонированием и пр. Надо знать, что такое собственные числа и собственные вектора, что такое ранг матрицы, что такое вырожденная матрица, матрица полного ранга, обратная матрицы. Нужно знать про векторы, базисы, линейную оболочку векторов, линейную независимость векторов, как размерность пространства (линейной оболочки) связана с рангом матрицы из векторов. Нужно знать, что такое проектор (ортогональный проектор), его свойства. Разложение по базису, скалярное произведение, норма.
  2. Второй блок - это теория вероятностей. Есть хорошие лекции Черновой http://www.nsu.ru/mmf/tvims/chernova/tv/tv_nsu07.pdf
  3. Статистика. У нее же есть лекции по базовой математической статистике http://www.nsu.ru/mmf/tvims/chernova/ms/ms_nsu07.pdf . Но нужна также множественная линейная регрессия.
  4. По R: можно посмотреть здесь http://statmod.ru/wiki/study:fall2016:intror.
  5. TEX: все отчеты по НИР (научно-исследовательская работа) нужно набирать в TEX, причем в хорошем стиле. Можно посмотреть слайды здесь http://statmod.ru/wiki/study:fall2016:tex

Выбор элективных курсов

Общий список курсов здесь.

Аннотации к курсам 1 года обучения (листайте - там на оба семестра).

На первый год обучения курсы должны быть выбраны в первые две недели. В начале следующего семестра можно скорректировать выбор, написав заявление.

На второй год обучения курсы должны быть выбраны в апреле. В начале семестров, опять же, выбор можно поменять.

Выбор темы научной работы

Слайды выпускных работ прошлых лет, которые могут помочь в выборе темы научной работы, см. здесь http://www.statmod.ru/3-5/diploma/index.htm

Примерные темы будут накапливаться здесь


Дополнительная информация

Про проверку гипотез (2017)

Это комментарии для задания, которое надо будете делать позже, по результатам выполнения теста.

Нужно сначала 1) нарисовать плотность статистики критерия, если верна H0, и на ней сделать разметку - где там критическая область, где доверительная для некоторого уровня значимости альфа (альфа = вероятность попасть в критическую область, площадь под соотв.частью графика плотности). Разбиение на доверительную и критическую область обычно делают так, чтобы в критическую область попадали значения, наиболее далекие от того значения статистики критерия, которое соответствует идеальному соотношению выборки и гипотезы.
2) нарисовать еще раз эту плотность и нанести значение статистики критерия.

Глядя на обе каринки, мысленно или рисуя, меняйте альфу и двигайте границу между доверительной и критической областями.
p-value - максимальное значение уровня значимости, при котором гипотеза не отвергается (значение статистики критерия попадает в доверит. область). Или, что эквивалентно, минимальное значение уровня значимости, при котором гипотеза отвергается.
Замечу, что на основе этого определения сразу понятно, как, получив значение p-value, определить, при каких уровнях значимости (можно написать неравенство) гипотеза отвергается, а при каких - нет. Именно в таком виде и надо выдавать ответ.

На основе этих манипуляций должно стать понятно, что нужно для вычисления p-value - считать функцию распределения F(t), считать 1 - F(t), умножать потом на два или нет.
После того как поймете, можно уже находить p-value с помощью R или Python. Например, в R есть pnorm - функция распределения нормального распределения, pt - распределения Стъюдента, pf - распределение Фишера.


На всякий случай, замечание про уровень значимости альфа: уровень значимости задается заранее, еще до проверки гипотезы. Его смысл - максимальная вероятность ошибки (отвергнуть H0 неправильно), на которую согласен тот, кто будет отвечать за последствия ошибки.
Но проблема в том, что те, кто делают обработку данных (в том числе, компьютеры) - это не те, которые отвечают за последствия, т.е. не те, кто устанавливают уровень значимости. Поэтому надо дать ответ в общем виде - в таком диапазоне уровней значимости гипотеза отвергается, а в таком - нет.
Чтобы это сделать, все пакеты выдают p-value. На его основе уже можно сформулировать общий ответ: при таких-то уровнях значимости гипотеза отвергается, при таких-то не отвергается.
Иногда, когда некого спросить об уровне значимости, используются некоторые стандартные значения типа 0.05.

Ошибки I и II рода, мощность

Если появляется альтернативная гипотеза, то сразу возникает понятие ошибки второго рода и мощности. Читайте об этом здесь.
По этому материату надо ответить на следующие вопросы: (1) объяснить, почему последний абзац про поведение ошибки второго рода верен и (2) привести пример альтернативы, против которой рассматриваемый в тексте критерий является состоятельным, и пример альтернативы, против которой критерий не является состоятельным.

Также, нужно правильно сделать задачу 4. Она сводится к тому, что описано выше, следующим образом. Объясню на примере. Если основная гипотеза имеет вид a<c, а альтернатива a>c, то для основной гипотезы выбирается крайний вариант a=c, а для альтернативы - a = a1>c для некоторого a1. Обычно для построения более мощного критерия неважно, какое именно a1, а важно, лежит оно слева или справа.

study/fall2018/intro_mag.txt · Последние изменения: 2018/09/08 01:06 — nina
Наверх
CC Attribution-Noncommercial-Share Alike 4.0 International
Driven by DokuWiki Recent changes RSS feed Valid CSS Valid XHTML 1.0