Различия

Показаны различия между двумя версиями страницы.

Ссылка на это сравнение

Предыдущая версия справа и слева Предыдущая версия
Следующая версия
Предыдущая версия
study:fall2019:5stat_practice [2019/11/05 23:01]
nina
study:fall2019:5stat_practice [2020/11/25 22:46] (текущий)
nina
Строка 8: Строка 8:
  
 [[https://docs.google.com/spreadsheets/d/1tmCH5Id1ezRQECocoQE3xfxd-8FdF9U-m2oREwrdYpo/edit?usp=sharing|Здесь]] будут отражаться ваши успехи по пути к зачету по анализу данных. [[https://docs.google.com/spreadsheets/d/1tmCH5Id1ezRQECocoQE3xfxd-8FdF9U-m2oREwrdYpo/edit?usp=sharing|Здесь]] будут отражаться ваши успехи по пути к зачету по анализу данных.
 +
 +
 +
 +10.12.2019 и 12.12.2019
 +Коллоквиум и показ заданий по классификации и кластерному анализу (см. страницу предыдущего 
 +года со ссылками и примерами кода http://statmod.ru/wiki/study:fall2018:5stat_practice).
 +
 +03.12.2019
 +Линейная регрессия (дорассказала про ROC-AUC в классификации).
 +
 +26.11.2019
 +Задания по АГК (приоритет больше, чем у регрессии, начинайте делать задание с АГК).\\
 +Варианты пакетов перечислены [[http://www.gastonsanchez.com/visually-enforced/how-to/2012/06/17/PCA-in-R/|здесь]] и более свежий и подробный вариант [[http://www.sthda.com/english/articles/31-principal-component-methods-in-r-practical-guide/112-pca-principal-component-analysis-essentials/|здесь]]. \\
 +Выкладываю архив с {{ :study:fall2018:2018_smallpca.zip |примерами простых данных}}. Можете выбрать любой пакет для АГК (их 5, см. вторую ссылку) и разные данные из архива, согласуйте между собой. Если что-то непонятно, спрашивайте. 
 +Нужно разобраться в пакетах и параметрах функций на том уровне, чтобы повторить то, что было на лекции в распечатке. Также, описание порядка действий приведено в файле PC.TXT в архиве. Про используемую для PCA функцию нужно постараться понять, что означают там параметры, и из чего состоит объект, который они возвращают (в терминах и обозначениях лекций).\\
 +{{ :study:fall2019:5stat_lecture:pca_dgi_r.pdf |Пример}}.
 +
 +19.11.2019 Обсуждаем практические задания про корреляции и про регрессию. Всем будет дано задание по АГК.
  
 12.11.2019 Жду все не сделанные задания (см. ниже). Дедлайн по третьему заданию про корреляции. 12.11.2019 Жду все не сделанные задания (см. ниже). Дедлайн по третьему заданию про корреляции.
-Обсуждаем линейную регрессию. Женя показывает задание 4+Обсуждаем линейную регрессию. 
  
 05.11.2019 Всем нужно приготовить задание "О виде распределений и о сравнении распределений" для показа 05.11.2019 Всем нужно приготовить задание "О виде распределений и о сравнении распределений" для показа
Строка 35: Строка 53:
 01.10.2019  1 пара. Это был дедлайн для того, чтобы прислать задание по первичному анализу данных  по пунктам отсюда http://statmod.ru/wiki/study:fall2019:5stat_practice и также надо было методом подстановки получить оценку для дисперсии для исходных и для сгруппированных данных. 01.10.2019  1 пара. Это был дедлайн для того, чтобы прислать задание по первичному анализу данных  по пунктам отсюда http://statmod.ru/wiki/study:fall2019:5stat_practice и также надо было методом подстановки получить оценку для дисперсии для исходных и для сгруппированных данных.
  
 +===== Про задания =====
  
 ==== Первичный анализ данных ==== ==== Первичный анализ данных ====
Строка 73: Строка 92:
   - Надо учесть проблему, которая возникают, если предикторы сильно зависимы. На примере с двумя «независимыми» признаками пишете формулы и показываете, как корреляция между признаками влияет на качество оценок регрессии.    - Надо учесть проблему, которая возникают, если предикторы сильно зависимы. На примере с двумя «независимыми» признаками пишете формулы и показываете, как корреляция между признаками влияет на качество оценок регрессии. 
   - Пытаетесь уменьшить количество предикторов. Для этого есть информационные критерии AIC, BIC.    - Пытаетесь уменьшить количество предикторов. Для этого есть информационные критерии AIC, BIC. 
-  - Строите обычную регрессию по выбранному числу признаков. Переходите в блок Residual Analysis. Там сначала смотрите на нормальность остатков (зачем нужно на это смотреть?), затем можно посмотреть на зависимость Predicted vs Residuals.  +  - Строите обычную регрессию по выбранному числу признаков. Изучаете остатки (residuals), распределение, Сначала смотрите на нормальность остатков (зачем нужно на это смотреть?), затем можно посмотреть на зависимость Residuals vs Predicted.  
-  - Далее переходите к поиску outliers. Сначала смотрите на скаттерплот Residuls vs Deleted Residuals. Нужно объяснить, что этот такое, что откладывается по осям, как там найти outliers. +  - Далее переходите к поиску outliers. Напоминаю, что выброс по отношению к регрессии - это наблюдение, которое влияет на результат (leverage и Cook distance изменяют тонасколько наблюдение влияет). 
-  - В R есть еще и другие способы посмотреть на признаки Outliers. (расстояние Кука, расстояние Махаланобиса, ...). +
   - Итог:  результат линейной регрессии, для которой проверена адекватность модели, значимость, отсутствие outliers, проинтерпретированы коэффициенты регрессии.    - Итог:  результат линейной регрессии, для которой проверена адекватность модели, значимость, отсутствие outliers, проинтерпретированы коэффициенты регрессии. 
   - Спрогнозируйте что-нибудь по построенной регрессионной модели. Постройте доверительный и предсказательный интервалы для предсказания.   - Спрогнозируйте что-нибудь по построенной регрессионной модели. Постройте доверительный и предсказательный интервалы для предсказания.
 +
 +==== Анализ главных компонент ====
 +
 +Провести анализ главных компонент в данном случае означает следующее:
 +
 +  - Посмотреть график собственных чисел, прокомментировать его.
 +  - Проинтерпретировать главные компоненты (их связь с исходными признаками), используя значения собственные вектора, а также двумерные диаграммы факторных весов (в круге).
 +  - Посмотреть на двумерные графики нормированных значений главных компонент (значений факторов), увидеть, есть ли неоднородность в данных и есть ли выделяющиеся наблюдения.
 +  - Проинтерпретировать, в чем состоит неоднородность (если она есть) и чем выделяются выделяющиеся наблюдения. 
 +  - Убрать выделяющиеся наблюдения, которые проинтерпретированы как выбросы, и неоднородность и затем провести АГК заново.
 +
 +==== Классификация ====
 +
 +  - Разбейте данные на две части, где будете строить классификацию, и где будете ее проверять (train и test). Далее работа идет только на train.
 +  - Посмотрите, как выглядят данные на графике pairs и в плоскости первых двух главных компонент, с раскраской по классам. При необходимости, преобразуйте данные (уберите outliers, прологарифмируйте признаки).
 +  - Проведите классификацию с помощью линейного дискриминантного анализа. Подумайте, какие априорные вероятности вы хотите задать.
 +  - Посмотрите на значимость дискриминации. Посмотрите, как выглядят данные в плоскости первых двух канонических переменных.
 +  - Посмотрите на качество классификации - таблицу ошибок классификации, по данным, по кросс-валидации, по test данным.
 +  - Постройте ROC-кривые, проинтерпретируйте (во множественном числе, так как можно строить на train, а можно - на test). 
 +  - Попробуйте применить какой-нибудь другой метод, например, QDA или еще какой-то другой. Постройте для него ROC-кривую, сравните с ROC-кривой для LDA.
 +
 +==== Кластерный анализ ====
 +
 +  - Посмотрите, как выглядят данные на графике pairs и в плоскости первых двух главных компонент. При необходимости, преобразуйте данные (уберите outliers, прологарифмируйте признаки).  
 +  - Примените метод k-means для разного числа классов. Посмотрите на результат на графике pairs с раскраской.
 +  - Применить метод иерархической кластеризации с разными правилами объединения кластеров. Посмотрите на получившиеся деревья. 
 +  - Примените метод разделения смеси нормальных распределений с разными ограничениями на модель (одинаковые ковариационные матрицы, разные, разные диагональные, ...). Посмотрите на результат на графике pairs с раскраской и в плоскости первых двух главных компонент.
 +
 +
  
study/fall2019/5stat_practice.1572984091.txt.gz · Последнее изменение: 2019/11/05 23:01 — nina
Наверх
CC Attribution-Noncommercial-Share Alike 4.0 International
Driven by DokuWiki Recent changes RSS feed Valid CSS Valid XHTML 1.0