|
Последняя версия
Следующая версия справа и слева
|
study:fall2018:stat_4sm [2018/08/06 02:12] nina создано |
study:fall2018:stat_4sm [2018/09/13 23:20] nina |
====== 422 гр., спец. СМ. Задачи статистического анализа данных ====== | ====== 422 гр., спец. СМ. Задачи статистического анализа данных ====== |
| |
| **Место и время проведения:** четверг, третья пара (ауд. 4399 и 4504).\\ |
| **Преподаватель:** Голяндина Нина Эдуардовна \\ |
| ---- |
| ---- |
| |
| ==== Вопросы к зачету прошлого года: ==== |
| |
| Вот {{study:fall2014:stat_4sm:qtwo2014sm.pdf|они}}. |
| |
| ==== Данные для первого задания: ==== |
| |
| {{study:fall2014:stat_4sm:iqrate1.zip|IQRATE}} |
| В архиве полные данные (my101) и подвыборки из них. |
| Можно выбирать любой вариант. Если у имени файла есть _norm, это |
| означает, что оценки фильмов были стандартизированы по людям (попробуйте понять, |
| для чего это было сделано). |
| |
| Задание: поставить пять вопросов и ответить на них с помощью разнообразных графиков |
| и описательной статистики. |
| |
| ==== Примерные темы занятий: ==== |
| |
| - 09.09.2014 Устройство и графика пакета STATISTICA |
| - 16.09.2014 Графика (SD, SE) |
| - 23.09.2014 Графика и описательная статистика |
| - 30.09.2014 Прием первого задания (картинки по IQRATE) и продолжение про описательную статистику |
| - 07.10.2014 Продолжение приема первого задания. Зависимости, вероятностная зависимость, критерий хи-квадрат независимости, меры зависимости для кач. признаков. |
| - 14.10.2014 Разложение дисперсии (с проектором на лин. подпространство). Меры зависимости: коэффициент корреляции Пирсона, корреляционное отношение. |
| - 21.10.2014 Ранговый коэффициент корреляции Спирмена, соотношение с коэффициентом корреляции Пирсона. |
| - 28.10.2014 Ранговая корреляция Кендалла, ее смысл, и гамма. Парная регрессия, ошибки предсказания (про дов. границы и про опасности регрессии еще не говорила). У компьютера про корреляции, дом. зад. по корреляциям для двоих (cardata). |
| - 11.11.2014 Про дов. границы и про опасности регрессии. Гипотезы согласия с видом распределения (про выбор разбиения в хи-квадрате не успела сказать). Проверка дом.задания по корреляциям. Д.з. по гипотезам согласия. |
| - 18.11.2014 Квадратичные формы от нормально-распределенных случайных величин. Получение распределений статистик критериев - общая схема на примере гипотезы о значении мат.ожидания. Переход к сравнению двух распределений. Общая схема - завис. и независ. выборки, параметрический и непараметрические критерии. t-test для независимых выборок, начало. |
| - 25.11.2014 t-test для независимых выборок в нормальной модели, проверка гипотезы о равенстве дисперсий. Непараметрические критерии для независимых выборок (Манна-Уитни, Колмогорова-Смирнова, критерий серий). |
| - 27.11.2014 Выбор критерия (критерии и альтернативы, пример на сравнение паст). t-test для зависимых выборок. Планирование эксперимента (зависимые и независимые выборки и пр.) Непараметрические критерии для зависимых выборок (критерий знаков, парный критерий Вилкоксона). |
| |
| |
| |
| |
| |
| ==== Данные для задания прошлого года ==== |
| |
| {{study:fall2014:stat_4sm:stat2014sm_autumn2.zip|Архив с данными}} для всех. |
| |
| Уточнения к заданиям находятся в файле .tsk. Пункт про регрессию - на следующий семестр. Если в задании что-то кажется странным или неестественным, можно обсудить и поменять. |
| |
| |
| |
| |
| ==== Задание для данных ==== |
| |
| ===== Предварительный анализ данных ===== |
| |
| Для обсуждения данных нужно сделать следующее (написано много, так как очень подробно): |
| |
| - Включить данные в рабочую книгу, чтобы результаты сохранялись вместе с данными. |
| - Разобраться в том, что означают признаки. |
| - Если признаков очень много, то отобрать признаки (примерно 7-10) из следующих соображений: там должны быть признаки, упоминаемые в задании, и признаки, которые оказывают влияние на зависимую переменную в пункте 4 задания. Также, можно сократить число признаков, выбрав из каждой группы сильно коррелированных и похожих по смыслу признаков по представителю. При выборе представителей можно обращать внимание на число пропусков, на интерпретируемость и пр. |
| - Номера выбранных признаков сохранить в текстовом файле и принести вместе с данными. |
| - Определить вид признаков (колич., порядковые, качеств.). Для количеств. признаков определить, напрерывные они или дискретные (в том числе, дискретными могут стать непрерывные признаки, которые измерены с плохой точностью). Как вариант, это можно увидеть, посмотрев на частоту моды в Descriptive Statistics (модуль Basic Statistics). |
| - Если признак порядковый и для него использованы текстовые метки, то проверить, что кодировка текстовых меток соответствует их естественному порядку. |
| - Построить matrix plot, его долго разглядывать с точки зрения outliers, неоднородностей, вида распределений, вида зависимостей (линейные/нелинейные) и пр. |
| - Если есть сильно несимметричные (с хвостом вправо) распределения на положительной полуоси, то прологарифмировать их и снова построить matrix plot - зависимости должны стать более линейными, а распределения более симметричными. |
| - Если есть ourliers, то попробовать объяснить причину (ошибка в данных, особые индивиды) и удалить их через select cases (или select cond). Если выбросов много, то можно сохранить их через Save as на форме Select cases и принести файл .sel с собой (или можно опять же скопировать номера выбросов в текстовый файл). Чтобы узнать номера индивидов, можно,например, построить отдельно scatterplot, при этом на стр. Option1 выбрать, как подписывать точки с индивидами. |
| - Если есть неоднородности (например, видны два облака точек), то объяснить причину (найти категоризующую переменную, объясняющую эту неоднородность). |
| - В дальнейшем вид matrix plots, распределения признаков и корреляции анализировать отдельно для неоднородных групп. Для этого удобно пользоваться кнопкой By groups. |
| - Можно также посмотреть на descriptive statistics с точки зрения минимумов-максимумов, асимметрии, эксцесса и пр. |
| - Окончательный список признаков (их номера) сохранить в том же текстовом файле. |
| |
| |
| |
| ===== О виде распределений и о сравнении распределений ===== |
| |
| - Первые два пункта индивидуального задания нужно делать не по указанному порядку, а как того требует логика статистики. Чтобы сравнивать выборки по t-критерию, нужно знать о том, близки ли распределения в сравниваемых группах к нормальным или хотя бы к унимодальным и симметричным. Чтобы проверять распределения признаков на нормальность, нужно знать, что рассматривается однородная выборка. |
| - Так как визуально однородность при предварительном анализе была уже исследована, то можно начинать с анализа вида распределения признаков, возможно, по группам. Сюда входит: normal probability plot (что это такое?), проверка по критериям Лиллиефорса, хи-квадрат, Шапиро-Уилка. По критерию хи-квадрат, а также визуально по PP-plot можно проверить и гипотезы о согласии с другими распределениями, например, логнормальным. Задаваемые вопросы: чем отличается критерия Лиллиефорса от критерия Колмогорова, как выглядит статистика критерия, что такое PP-plot и normal probability plot, почему естественно при рисовании normal probability plot одновременно смотреть на результаты критерия Шапиро-Уилка. |
| - Сначала имеет смысл посмотреть на сравнение сравнение распределений в группах с помощью ящиков с усами. С помощью ящиков с усами там, где групп больше двух, можно выбрать две из них, которые интересно сравнить с помощью критериев. |
| - Если в задании есть сравнение независимых выборок (точнее, распределений независимых случайных величин), то начинать нужно с t-критерия, который мощный против альтернатив, заключающихся в наиболее легко интерпретируемом сдвиге (т.е. разнице средних). Нужно не забыть, что у критерия есть варианты для модели с одинаковыми дисперсиями (получается точное p-value, которое может быть неправильным, если на самом деле дисперсии одинаковые) и с произвольными дисперсиями. Поэтому имеет смысл поставить галочку для того, чтобы считался вариант с произвольными дисперсиями. Также нужно поставить галочки для вычисления двух доп.тестов о равенстве дисперсий. В результате, получатся два критерия для гипотезы о равенстве средних и три критерия о равенстве разбросов. Нужно уметь объяснять, что это за критерии и при каких условиях их можно применять. Не забудьте, что при использовании асимптотических критериев нужно обращать внимание на объемы выборок. Сделайте выводы о том, для каких признаков есть разница в сдвиге. |
| - Далее, объясняете, в каких случаях (распределение далеко от нормального, могут быть выделяющиеся наблюдения) t-критерий не удовлетворителен и нужно переходить к непараметрическим критериям. Рассказываете, какой из непараметрических критериев является аналогом t-критерия, как он строится и против какой альтернативы мощный. Вы уже догадались, что это критерий Манна-Уитни, он же критерий Вилкоксона. |
| - Смотрите на результаты применения критерия Манна-Уитни, сравниваете с результатами применения t-критерия. Проводите сравнительный анализ критериев с теоретической точки зрения (чем один лучше другого и чем хуже). |
| - Далее, переходите к критериям, которые умеют сравнивать не только характеристики положения, но и формы распределений. Для каждого критерия (включая критерий Манна-Уитни), нужно уметь объяснять, что означают столбцы в таблицах результатов критериев. Также, при разных результатах проверки гипотезы о равенстве распределений нужно объяснять, почему один критерий, например, не отверг гипотезу, а другой – отверг. |
| - Если в задании есть сравнение зависимых выборок, то аналогично производится сравнение по t-критерию и по непараметрическим критериям. Нужно уметь объяснять почему одна и та же разница в выборочных средних может оказать значимой в случае зависимых выборок и незначимой в случае независимых выборок. |
| |
| |
| |
| |
| ===== Об анализе зависимостей ===== |
| |
| - Вспомните, какие бывают виды зависимостей и чем они измеряются, по каким формулам. Посмотрите на основе matrix plot, какие зависимости у вас в данных. Не забудьте, что при неоднородных данных изучать зависимости имеет смысл только внутри групп по-отдельности. |
| - Начинать нужно с анализа линейных зависимостей. На основе коэффициента корреляции Пирсона нужно проинтерпретировать значимые зависимости. При наличие в данных пропусков обратите внимание на выбор между casewise and pairwise MD deletion (в чем разница, какие недостатки и достоинства у этих вариантов?). |
| - Затем можно переходить к ранговым коэффициентам корреляции. Расскажите, при каких условиях коэффициенты корреляции Пирсона и Спирмена примерно равны. Приведите примеры, когда один из них больше другого и наоборот. Сравните результаты на ваших данных. Если при сравнении буду найдены заметные различия в результатах, то попробуйте объяснить причину. |
| - Проинтерпретируйте найденные корреляции - можно ли сказать, что является причиной, что следствием. Если есть какая-то другая причина, которая влияет одновременно на оба признака (скрытый фактор), то попробуйте убрать его влияние с помощью частных корреляций. |
| |
| |
| |
| |