Это старая версия документа!


422 гр., спец. СМ. Анализ данных на компьютере

Место и время проведения: 1 и 2 пары четверга, ауд. 3522?/4504
Преподаватель: Голяндина Нина Эдуардовна



Спецкурс будет состоять из двух частей, теоретической и практической.
Вопросы к теоретической части. На зачете будет три вопроса, один из 1-5, второй из 6-17, третий с 18-23. Для третьего вопроса можно приготовить листок, на который выписать нужные формулы - им можно будет пользоваться при подготовке ответа (на каждый вопрос по тетрадному листку с одной стороны не слишком мелким почерком).

Примерное содержание
  1. Однофакторный дисперсионный анализ (one-way ANOVA)
  2. Множественные тесты (доказательство для Holm algorithm) и множественные сравнения
  3. Множественная линейная регрессия
  4. AIC/BIC (Черновик короткого описания)

Вебинары

Четверг, 11:15.

Литература к теоретической части

Немного про множественную регрессию (автор - Цыплаков А.А.): файл
Еще про регрессию полезная книга Демиденко. Линейная и нелинейная регрессии. 1981.

Практическая часть

Данные для задания те же, что были в осеннем семестре.

Комментарии к выполнению регрессионного анализа данных (план рассказа)

О регрессии в пакете STATISTICA
  1. Задаете зависимые и независимые переменные, ставите галочку на Advanced options, нажимаете OK. Попадаете в Model Definition. Там пока ничего делать не надо – потом в этой форме будет делаться пошаговая регрессия или убираться/добавляться переменные вручную. ОК. Не забываете обратить внимание на выбор способа обработки пропущенных наблюдений.
  2. Попадаете в результаты регрессии. Нужно уметь объяснять все, что есть в «шапке» формы, а также то, что появляется в таблице при нажатии кнопки Summary: Regression results (в частности, о разнице между b и beta, о значимости и пр.).
  3. Далее есть три проблемы, из-за которых результаты регрессии могут быть неправильными – линейная модель регрессии не соответствует данным, в данных могут быть сильно зависимые «независимые» переменные и также могут быть outliers. Если данные были предварительно хорошо подготовлены, то проблемы с outliers там менее вероятны. Поэтому сначала можно заняться проблемой зависимости. В общем случае, нет строгой рекомендации, в каком порядке нужно решать перечисленные проблемы.
  4. Сначала объясняете, как строятся доверительные интервалы и двумерные доверительные области. На примере пары признаков строите (сами, на листочке) двумерный доверительный интервал для пары значащих коэффициентов регрессии. Используя таблицу с корреляциями (какое полное название того, что изображено в этой таблице?), возникающую по кнопке Covariance of coefficients, интерпретируете: (1) оба признака влияют на результат согласно оценкам коэффициентов регрессии перед ними: или (2) признаки вместе сильно влияют, но не различить, какой из них больше; или (3) непонятно, или оба признака слабо влияют, или оба влияют сильно.
  5. На примере с двумя «независимыми» признаками пишете формулы и показываете, как корреляция между признаками влияет на качество оценок регрессии.
  6. Пусть вы нас убедили, что коррелированность «независимых» признаков – это плохо. Поэтому нужно избавляться от лишних, избыточных, признаков. Сделаем это вручную на основе таблицы Redundancy. Там «независимые переменные» сравниваются по двум критериям - независимость от других «независимых» признаков и зависимость от зависимой переменной. Объясняете, что означают столбцы, что делать, если эти критерии дают противоречивые рекомендации, решаете, какой признак лучше убрать первым.
  7. Убираете вручную на основе Redundancy несколько признаков и смотрите, что меняется (R, значимость регрессии, значимость коэффициентов регрессии, независимость «независимых» переменных). Убирать переменные лучше в блоке Model Definition, попасть в который можно по Cancel из формы с результатами регрессии.
  8. Далее в форме Model Definition переходите к пошаговой регрессии. Устанавливаете F to remove и F to enter так, чтобы пошаговая регрессия дошла до конца, результаты смотрите по кнопке Stepwise regression summary. По результатам определяете, сколько признаков оставить. Сравниваете результаты Forward и Backward вариантов.
  9. Строите обычную регрессию по выбранному числу признаков. Переходите в блок Residual Analysis. Там сначала смотрите на нормальность остатков (зачем нужно на это смотреть?), затем смотрите на странице Scatterplots на график Predicted vs Residuals. Как по нему понять, адекватна ли линейная регрессия? Как будет выглядеть график, если на самом деле была квадратичная зависимость (в случае одной независимой переменной)? Как может повлиять на этот график выбор Pairwise deletion для пропущенных наблюдений?
  10. Далее переходите к поиску outliers. Сначала смотрите на скаттерплот Residuls vs Deleted Residuals. Нужно объяснить, что этот такое, что откладывается по осям, как там найти outliers.
  11. Переходите на вкладку Outliers. Смотрите на outliers по Куку и по Махаланобису. Объясняете, что это такое, по отношению к чему это outliers. Умеете приводить пример, где, в случае одной независимой переменной, находится outliers по Куку, но не по Махаланобису, и наоборот.
  12. Итог: результат линейной регрессии, для которой проверена адекватность модели, значимость, отсутствие outliers, проинтерпретированы коэффициенты регрессии. Спрогнозируйте что-нибудь по построенной регрессиионной модели.

Рассказы об анализе данных

study/spring2020/4stat.1584828252.txt.gz · Последнее изменение: 2020/03/22 01:04 — nina
Наверх
CC Attribution-Noncommercial-Share Alike 4.0 International
Driven by DokuWiki Recent changes RSS feed Valid CSS Valid XHTML 1.0