Анализ данных на компьютере, 422 гр., спец. САПР

Место и время проведения: вторник, первая пара (ауд. ?)
Преподаватель: Голяндина Нина Эдуардовна


Дом.задания

Архив с заданиями

Предварительный порядок сдач (может изменяться, внимательно следите за изменениями):
12/04 - Жукова-1, Портянко-1
19/04 - Сыров-1, Бойченко-1
26/04 - Губанов-1, Жукова-2, Портянко-2
03/05 - Сыров-2, Бойченко-2 (-), Губанов-2
10/05 - сдают все в порядке очереди на 1, 3 и 4 парах
Следующий раз - вторник 17/05, 3 и 4 пары.
19/05 (четверг) с 12:15 до 13:30 - Сыров, Губанов (Бойченко слушает) 26/05 с 10:30

Предварительный анализ данных

Для обсуждения данных нужно сделать следующее (написано много, так как очень подробно):

  1. Включить данные в рабочую книгу, чтобы результаты сохранялись вместе с данными.
  2. Разобраться в том, что означают признаки.
  3. Если признаков очень много, то отобрать признаки (примерно 7-10) из следующих соображений: там должны быть признаки, упоминаемые в задании, и признаки, которые оказывают влияние на зависимую переменную в пункте 4 задания. Также, можно сократить число признаков, выбрав из каждой группы сильно коррелированных и похожих по смыслу признаков по представителю. При выборе представителей можно обращать внимание на число пропусков, на интерпретируемость и пр.
  4. Номера выбранных признаков сохранить в текстовом файле и принести вместе с данными.
  5. Определить вид признаков (колич., порядковые, качеств.). Для количеств. признаков определить, напрерывные они или дискретные (в том числе, дискретными могут стать непрерывные признаки, которые измерены с плохой точностью). Как вариант, это можно увидеть, посмотрев на частоту моды в Descriptive Statistics (модуль Basic Statistics).
  6. Если признак порядковый и для него использованы текстовые метки, то проверить, что кодировка текстовых меток соответствует их естественному порядку.
  7. Построить matrix plot, его долго разглядывать с точки зрения outliers, неоднородностей, вида распределений, вида зависимостей (линейные/нелинейные) и пр.
  8. Если есть сильно несимметричные (с хвостом вправо) распределения на положительной полуоси, то прологарифмировать их и снова построить matrix plot - зависимости должны стать более линейными, а распределения более симметричными.
  9. Если есть ourliers, то попробовать объяснить причину (ошибка в данных, особые индивиды) и удалить их через select cases (или select cond). Если выбросов много, то можно сохранить их через Save as на форме Select cases и принести файл .sel с собой (или можно опять же скопировать номера выбросов в текстовый файл). Чтобы узнать номера индивидов, можно,например, построить отдельно scatterplot, при этом на стр. Option1 выбрать, как подписывать точки с индивидами.
  10. Если есть неоднородности (например, видны два облака точек), то объяснить причину (найти категоризующую переменную, объясняющую эту неоднородность).
  11. В дальнейшем вид matrix plots, распределения признаков и корреляции анализировать отдельно для неоднородных групп. Для этого удобно пользоваться кнопкой By groups.
  12. Можно также посмотреть на descriptive statistics с точки зрения минимумов-максимумов, асимметрии, эксцесса и пр.
  13. Окончательный список признаков (их номера) сохранить в том же текстовом файле.

О виде распределений и о сравнении распределений

  1. Первые два пункта индивидуального задания нужно делать не по указанному порядку, а как того требует логика статистики. Чтобы сравнивать выборки по t-критерию, нужно знать о том, близки ли распределения в сравниваемых группах к нормальным или хотя бы к унимодальным и симметричным. Чтобы проверять распределения признаков на нормальность, нужно знать, что рассматривается однородная выборка.
  2. Так как визуально однородность при предварительном анализе была уже исследована, то можно начинать с анализа вида распределения признаков, возможно, по группам. Сюда входит: normal probability plot (что это такое?), проверка по критериям Лиллиефорса, хи-квадрат, Шапиро-Уилка. По критерию хи-квадрат, а также визуально по PP-plot можно проверить и гипотезы о согласии с другими распределениями, например, логнормальным. Задаваемые вопросы: чем отличается критерия Лиллиефорса от критерия Колмогорова, как выглядит статистика критерия, что такое PP-plot и normal probability plot, почему естественно при рисовании normal probability plot одновременно смотреть на результаты критерия Шапиро-Уилка.
  3. Сначала имеет смысл посмотреть на сравнение сравнение распределений в группах с помощью ящиков с усами. С помощью ящиков с усами там, где групп больше двух, можно выбрать две из них, которые интересно сравнить с помощью критериев.
  4. Если в задании есть сравнение независимых выборок (точнее, распределений независимых случайных величин), то начинать нужно с t-критерия, который мощный против альтернатив, заключающихся в наиболее легко интерпретируемом сдвиге (т.е. разнице средних). Нужно не забыть, что у критерия есть варианты для модели с одинаковыми дисперсиями (получается точное p-value, которое может быть неправильным, если на самом деле дисперсии одинаковые) и с произвольными дисперсиями. Поэтому имеет смысл поставить галочку для того, чтобы считался вариант с произвольными дисперсиями. Также нужно поставить галочки для вычисления двух доп.тестов о равенстве дисперсий. В результате, получатся два критерия для гипотезы о равенстве средних и три критерия о равенстве разбросов. Нужно уметь объяснять, что это за критерии и при каких условиях их можно применять. Не забудьте, что при использовании асимптотических критериев нужно обращать внимание на объемы выборок. Сделайте выводы о том, для каких признаков есть разница в сдвиге.
  5. Далее, объясняете, в каких случаях (распределение далеко от нормального, могут быть выделяющиеся наблюдения) t-критерий не удовлетворителен и нужно переходить к непараметрическим критериям. Рассказываете, какой из непараметрических критериев является аналогом t-критерия, как он строится и против какой альтернативы мощный. Вы уже догадались, что это критерий Манна-Уитни, он же критерий Вилкоксона.
  6. Смотрите на результаты применения критерия Манна-Уитни, сравниваете с результатами применения t-критерия. Проводите сравнительный анализ критериев с теоретической точки зрения (чем один лучше другого и чем хуже).
  7. Далее, переходите к критериям, которые умеют сравнивать не только характеристики положения, но и формы распределений. Для каждого критерия (включая критерий Манна-Уитни), нужно уметь объяснять, что означают столбцы в таблицах результатов критериев. Также, при разных результатах проверки гипотезы о равенстве распределений нужно объяснять, почему один критерий, например, не отверг гипотезу, а другой – отверг.
  8. Если в задании есть сравнение зависимых выборок, то аналогично производится сравнение по t-критерию и по непараметрическим критериям. Нужно уметь объяснять почему одна и та же разница в выборочных средних может оказать значимой в случае зависимых выборок и незначимой в случае независимых выборок.

Об анализе зависимостей

  1. Вспомните, какие бывают виды зависимостей и чем они измеряются, по каким формулам. Посмотрите на основе matrix plot, какие зависимости у вас в данных. Не забудьте, что при неоднородных данных изучать зависимости имеет смысл только внутри групп по-отдельности.
  2. Начинать нужно с анализа линейных зависимостей. На основе коэффициента корреляции Пирсона нужно проинтерпретировать значимые зависимости. При наличие в данных пропусков обратите внимание на выбор между casewise and pairwise MD deletion (в чем разница, какие недостатки и достоинства у этих вариантов?).
  3. Затем можно переходить к ранговым коэффициентам корреляции. Расскажите, при каких условиях коэффициенты корреляции Пирсона и Спирмена примерно равны. Приведите примеры, когда один из них больше другого и наоборот. Сравните результаты на ваших данных. Если при сравнении буду найдены заметные различия в результатах, то попробуйте объяснить причину.

О регрессии

  1. Задаете зависимые и независимые переменные, ставите галочку на Advanced options, нажимаете OK. Попадаете в Model Definition. Там пока ничего делать не надо – потом в этой форме будет делаться пошаговая регрессия или убираться/добавляться переменные вручную. ОК. Не забываете обратить внимание на выбор способа обработки пропущенных наблюдений.
  2. Попадаете в результаты регрессии. Нужно уметь объяснять все, что есть в «шапке» формы, а также то, что появляется в таблице при нажатии кнопки Summary: Regression results (в частности, о разнице между b и beta, о значимости и пр.).
  3. Далее есть три проблемы, из-за которых результаты регрессии могут быть неправильными – линейная модель регрессии не соответствует данным, в данных могут быть сильно зависимые «независимые» переменные и также могут быть outliers. Если данные были предварительно хорошо подготовлены, то проблемы с outliers там менее вероятны. Поэтому сначала можно заняться проблемой зависимости. В общем случае, нет строгой рекомендации, в каком порядке нужно решать перечисленные проблемы.
  4. Сначала объясняете, как строятся доверительные интервалы и двумерные доверительные области. На примере пары признаков строите (сами, на листочке) двумерный доверительный интервал для пары значащих коэффициентов регрессии. Используя таблицу с корреляциями (какое полное название того, что изображено в этой таблице?), возникающую по кнопке Covariance of coefficients, интерпретируете: (1) оба признака влияют на результат согласно оценкам коэффициентов регрессии перед ними: или (2) признаки вместе сильно влияют, но не различить, какой из них больше; или (3) непонятно, или оба признака слабо влияют, или оба влияют сильно.
  5. На примере с двумя «независимыми» признаками пишете формулы и показываете, как корреляция между признаками влияет на качество оценок регрессии.
  6. Пусть вы нас убедили, что коррелированность «независимых» признаков – это плохо. Поэтому нужно избавляться от лишних, избыточных, признаков. Сделаем это вручную на основе таблицы Redundancy. Там «независимые переменные» сравниваются по двум критериям - независимость от других «независимых» признаков и зависимость от зависимой переменной. Объясняете, что означают столбцы, что делать, если эти критерии дают противоречивые рекомендации, решаете, какой признак лучше убрать первым.
  7. Убираете вручную на основе Redundancy несколько признаков и смотрите, что меняется (R, значимость регрессии, значимость коэффициентов регрессии, независимость «независимых» переменных). Убирать переменные лучше в блоке Model Definition, попасть в который можно по Cancel из формы с результатами регрессии.
  8. Далее в форме Model Definition переходите к пошаговой регрессии. Устанавливаете F to remove и F to enter так, чтобы пошаговая регрессия дошла до конца, результаты смотрите по кнопке Stepwise regression summary. По результатам определяете, сколько признаков оставить. Сравниваете результаты Forward и Backward вариантов.
  9. Строите обычную регрессию по выбранному числу признаков. Переходите в блок Residual Analysis. Там сначала смотрите на нормальность остатков (зачем нужно на это смотреть?), затем смотрите на странице Scatterplots на график Predicted vs Residuals. Как по нему понять, адекватна ли линейная регрессия? Как будет выглядеть график, если на самом деле была квадратичная зависимость (в случае одной независимой переменной)? Как может повлиять на этот график выбор Pairwise deletion для пропущенных наблюдений?
  10. Далее переходите к поиску outliers. Сначала смотрите на скаттерплот Residuls vs Deleted Residuals. Нужно объяснить, что этот такое, что откладывается по осям, как там найти outliers.
  11. Переходите на вкладку Outliers. Смотрите на outliers по Куку и по Махаланобису. Объясняете, что это такое, по отношению к чему это outliers. Умеете приводить пример, где, в случае одной независимой переменной, находится outliers по Куку, но не по Махаланобису, и наоборот.
  12. Итог: результат линейной регрессии, для которой проверена адекватность модели, значимость, отсутствие outliers, проинтерпретированы коэффициенты регрессии.
study/spring2011/4stat_sapr.txt · Последнее изменение: 2011/05/23 21:47 — nina
Наверх
CC Attribution-Noncommercial-Share Alike 4.0 International
Driven by DokuWiki Recent changes RSS feed Valid CSS Valid XHTML 1.0