Различия

Здесь показаны различия между двумя версиями данной страницы.

Ссылка на это сравнение

study:fall2019:stat_4sm [2019/08/22 20:56]
nina создано
study:fall2019:stat_4sm [2019/09/14 22:56] (текущий)
nina
Строка 5: Строка 5:
 ---- ----
 ---- ----
 +
 +==== Вопросы к зачету прошлого года: ====
 +
 +Вот {{study:​fall2014:​stat_4sm:​qtwo2014sm.pdf|они}}.
 +
 +==== Данные для первого задания:​ ====
 +
 +{{study:​fall2014:​stat_4sm:​iqrate1.zip|IQRATE}}
 +В архиве полные данные (my101) и подвыборки из них.
 +Можно выбирать любой вариант. Если у имени файла есть _norm, это
 +означает,​ что оценки фильмов были стандартизированы по людям (попробуйте понять,​
 +для чего это было сделано).
 +
 +Задание:​ поставить пять вопросов и ответить на них с помощью разнообразных графиков ​
 +и описательной статистики.
 +
 +==== Примерные темы занятий:​ ====
 +
 +  - 09.09.2014 Устройство и графика пакета STATISTICA
 +  - 16.09.2014 Графика (SD, SE)
 +  - 23.09.2014 Графика и описательная статистика
 +  - 30.09.2014 Прием первого задания (картинки по IQRATE) и продолжение про описательную статистику
 +  - 07.10.2014 Продолжение приема первого задания. Зависимости,​ вероятностная зависимость,​ критерий хи-квадрат независимости,​ меры зависимости для кач. признаков.
 +  - 14.10.2014 Разложение дисперсии (с проектором на лин. подпространство). Меры зависимости:​ коэффициент корреляции Пирсона,​ корреляционное отношение.  ​
 +  - 21.10.2014 Ранговый коэффициент корреляции Спирмена,​ соотношение с коэффициентом корреляции Пирсона. ​
 +  - 28.10.2014 Ранговая корреляция Кендалла,​ ее смысл, и гамма. Парная регрессия,​ ошибки предсказания (про дов. границы и про опасности регрессии еще не говорила). У компьютера про корреляции,​ дом. зад. по корреляциям для двоих (cardata).
 +  - 11.11.2014 Про дов. границы и про опасности регрессии. Гипотезы согласия с видом распределения ​ (про выбор разбиения в хи-квадрате не успела сказать). Проверка дом.задания по корреляциям. Д.з. по гипотезам согласия. ​
 +  - 18.11.2014 Квадратичные формы от нормально-распределенных случайных величин. Получение распределений статистик критериев - общая схема на примере гипотезы о значении мат.ожидания. Переход к сравнению двух распределений. Общая схема - завис. и независ. выборки,​ параметрический и непараметрические критерии. t-test для независимых выборок,​ начало.
 +  - 25.11.2014 t-test для независимых выборок в нормальной модели,​ проверка гипотезы о равенстве дисперсий. Непараметрические критерии для независимых выборок (Манна-Уитни,​ Колмогорова-Смирнова,​ критерий серий).
 +  - 27.11.2014 Выбор критерия (критерии и альтернативы,​ пример на сравнение паст). t-test для зависимых выборок. Планирование эксперимента (зависимые и независимые выборки и пр.) Непараметрические критерии для зависимых выборок (критерий знаков,​ парный критерий Вилкоксона).
 +
 +
 +
 +
 +
 +==== Данные для задания прошлого года ====
 +
 +{{study:​fall2014:​stat_4sm:​stat2018sm_autumn.zip|Архив с данными}} для всех.
 +
 +Уточнения к заданиям находятся в файле .tsk. Пункт про регрессию - на следующий семестр. Если в задании что-то кажется странным или неестественным,​ можно обсудить и поменять.
 +
 +
 +
 +
 +==== Задание для данных ====
 +
 +===== Предварительный анализ данных =====
 +
 +Для обсуждения данных нужно сделать следующее (написано много, так как очень подробно):​
 +
 +  - Включить данные в рабочую книгу, чтобы результаты сохранялись вместе с данными.
 +  - Разобраться в том, что означают признаки.
 +  - Если признаков очень много, то отобрать признаки (примерно 7-10) из следующих соображений:​ там должны быть признаки,​ упоминаемые в задании,​ и признаки,​ которые оказывают влияние на зависимую переменную в пункте 4 задания. Также, можно сократить число признаков,​ выбрав из каждой группы сильно коррелированных и похожих по смыслу признаков по представителю. При выборе представителей можно обращать внимание на число пропусков,​ на интерпретируемость и пр.
 +  - Номера выбранных признаков сохранить в текстовом файле и принести вместе с данными.
 +  - Определить вид признаков (колич.,​ порядковые,​ качеств.). Для количеств. признаков определить,​ напрерывные они или дискретные (в том числе, дискретными могут стать непрерывные признаки,​ которые измерены с плохой точностью). Как вариант,​ это можно увидеть,​ посмотрев на частоту моды в Descriptive Statistics (модуль Basic Statistics).
 +  -  Если признак порядковый и для него использованы текстовые метки, то проверить,​ что кодировка текстовых меток соответствует их естественному порядку.
 +  - Построить matrix plot, его долго разглядывать с точки зрения outliers, неоднородностей,​ вида распределений,​ вида зависимостей (линейные/​нелинейные) и пр. 
 +  - Если есть сильно несимметричные (с хвостом вправо) распределения на положительной полуоси,​ то прологарифмировать их и снова построить matrix plot - зависимости должны стать более линейными,​ а распределения более симметричными.
 +  - Если есть ourliers, то попробовать объяснить причину (ошибка в данных,​ особые индивиды) и удалить их через select cases (или select cond). Если выбросов много, то можно сохранить их через Save as на форме Select cases и принести файл .sel с собой (или можно опять же скопировать номера выбросов в текстовый файл). Чтобы узнать номера индивидов,​ можно,​например,​ построить отдельно scatterplot,​ при этом на стр. Option1 выбрать,​ как подписывать точки с индивидами.
 +  - Если есть неоднородности (например,​ видны два облака точек),​ то объяснить причину (найти категоризующую переменную,​ объясняющую эту неоднородность). ​
 +  - В дальнейшем вид matrix plots, распределения признаков и корреляции анализировать отдельно для неоднородных групп. Для этого удобно пользоваться кнопкой By groups.
 +  - Можно также посмотреть на descriptive statistics с точки зрения минимумов-максимумов,​ асимметрии,​ эксцесса и пр.
 +  - Окончательный список признаков (их номера) сохранить в том же текстовом файле.
 +
 +
 +
 +===== О виде распределений и о сравнении распределений =====
 +
 +  - Первые два пункта индивидуального задания нужно делать не по указанному порядку,​ а как того требует логика статистики. Чтобы сравнивать выборки по t-критерию,​ нужно знать о том, близки ли распределения в сравниваемых группах к нормальным или хотя бы к унимодальным и симметричным. Чтобы проверять распределения признаков на нормальность,​ нужно знать, что рассматривается однородная выборка.
 +  - Так как визуально однородность при предварительном анализе была уже исследована,​ то можно начинать с анализа вида распределения признаков,​ возможно,​ по группам. Сюда входит:​ normal probability plot (что это такое?​),​ проверка по критериям Лиллиефорса,​ хи-квадрат,​ Шапиро-Уилка. По критерию хи-квадрат,​ а также визуально по PP-plot можно проверить и гипотезы о согласии с другими распределениями,​ например,​ логнормальным. Задаваемые вопросы:​ чем отличается критерия Лиллиефорса от критерия Колмогорова,​ как выглядит статистика критерия,​ что такое PP-plot и normal probability plot, почему естественно при рисовании normal probability plot одновременно смотреть на результаты критерия Шапиро-Уилка.
 +  - Сначала имеет смысл посмотреть на сравнение сравнение распределений в группах с помощью ящиков с усами. С помощью ящиков с усами там, где групп больше двух, можно выбрать две из них, которые интересно сравнить с помощью критериев.
 +  - Если в задании есть сравнение независимых выборок (точнее,​ распределений независимых случайных величин),​ то начинать нужно с t-критерия,​ который мощный против альтернатив,​ заключающихся в наиболее легко интерпретируемом сдвиге (т.е. разнице средних). Нужно не забыть,​ что у критерия есть варианты для модели с одинаковыми дисперсиями (получается точное p-value, которое может быть неправильным,​ если на самом деле дисперсии одинаковые) и с произвольными дисперсиями. Поэтому имеет смысл поставить галочку для того, чтобы считался вариант с произвольными дисперсиями. Также нужно поставить галочки для вычисления двух доп.тестов о равенстве дисперсий. В результате,​ получатся два критерия для гипотезы о равенстве средних и три критерия о равенстве разбросов. Нужно уметь объяснять,​ что это за критерии и при каких условиях их можно применять. Не забудьте,​ что при использовании асимптотических критериев нужно обращать внимание на объемы выборок. Сделайте выводы о том, для каких признаков есть разница в сдвиге.
 +  - Далее, объясняете,​ в каких случаях (распределение далеко от нормального,​ могут быть выделяющиеся наблюдения) t-критерий не удовлетворителен и нужно переходить к непараметрическим критериям. Рассказываете,​ какой из непараметрических критериев является аналогом t-критерия,​ как он строится и против какой альтернативы мощный. Вы уже догадались,​ что это критерий Манна-Уитни,​ он же критерий Вилкоксона.
 +  - Смотрите на результаты применения критерия Манна-Уитни,​ сравниваете с результатами применения t-критерия. Проводите сравнительный анализ критериев с теоретической точки зрения (чем один лучше другого и чем хуже).
 +  - Далее, переходите к критериям,​ которые умеют сравнивать не только характеристики положения,​ но и формы распределений. Для каждого критерия (включая критерий Манна-Уитни),​ нужно уметь объяснять,​ что означают столбцы в таблицах результатов критериев. Также, при разных результатах проверки гипотезы о равенстве распределений нужно объяснять,​ почему один критерий,​ например,​ не отверг гипотезу,​ а другой – отверг.
 +  - Если в задании есть сравнение зависимых выборок,​ то аналогично производится сравнение по t-критерию и по непараметрическим критериям. Нужно уметь объяснять почему одна и та же разница в выборочных средних может оказать значимой в случае зависимых выборок и незначимой в случае независимых выборок.
 +
 +
 +
 +
 +===== Об анализе зависимостей =====
 +
 +  - Вспомните,​ какие бывают виды зависимостей и чем они измеряются,​ по каким формулам. Посмотрите на основе matrix plot, какие зависимости у вас в данных. Не забудьте,​ что при неоднородных данных изучать зависимости имеет смысл только внутри групп по-отдельности.
 +  - Начинать нужно с анализа линейных зависимостей. На основе коэффициента корреляции Пирсона нужно проинтерпретировать значимые зависимости. При наличие в данных пропусков обратите внимание на выбор между casewise and pairwise MD deletion (в чем разница,​ какие недостатки и достоинства у этих вариантов?​).
 +  - Затем можно переходить к ранговым коэффициентам корреляции. Расскажите,​ при каких условиях коэффициенты корреляции Пирсона и Спирмена примерно равны. Приведите примеры,​ когда один из них больше другого и наоборот. Сравните результаты на ваших данных. Если при сравнении буду найдены заметные различия в результатах,​ то попробуйте объяснить причину.
 +  - Проинтерпретируйте найденные корреляции - можно ли сказать,​ что является причиной,​ что следствием. Если есть какая-то другая причина,​ которая влияет одновременно на оба признака (скрытый фактор),​ то попробуйте убрать его влияние с помощью частных корреляций.
  
study/fall2019/stat_4sm.txt · Последние изменения: 2019/09/14 22:56 — nina
Наверх
CC Attribution-Noncommercial-Share Alike 4.0 International
Driven by DokuWiki Recent changes RSS feed Valid CSS Valid XHTML 1.0