Различия

Здесь показаны различия между двумя версиями данной страницы.

Ссылка на это сравнение

Предыдущая версия справа и слева Предыдущая версия
Следующая версия
Предыдущая версия
study:fall2019:5stat_practice [2019/11/15 01:16]
nina
study:fall2019:5stat_practice [2019/12/04 22:34]
nina
Строка 8: Строка 8:
  
 [[https://​docs.google.com/​spreadsheets/​d/​1tmCH5Id1ezRQECocoQE3xfxd-8FdF9U-m2oREwrdYpo/​edit?​usp=sharing|Здесь]] будут отражаться ваши успехи по пути к зачету по анализу данных. [[https://​docs.google.com/​spreadsheets/​d/​1tmCH5Id1ezRQECocoQE3xfxd-8FdF9U-m2oREwrdYpo/​edit?​usp=sharing|Здесь]] будут отражаться ваши успехи по пути к зачету по анализу данных.
 +
 +
 +
 +10.12.2019 и 12.12.2019
 +Коллоквиум и показ заданий по классификации и кластерному анализу (см. страницу предыдущего ​
 +года со ссылками и примерами кода http://​statmod.ru/​wiki/​study:​fall2019:​5stat_practice).
 +
 +03.12.2019
 +Линейная регрессия (дорассказала про ROC-AUC в классификации).
 +
 +26.11.2019
 +Задания по АГК (приоритет больше,​ чем у регрессии,​ начинайте делать задание с АГК).\\
 +Варианты пакетов перечислены [[http://​www.gastonsanchez.com/​visually-enforced/​how-to/​2012/​06/​17/​PCA-in-R/​|здесь]] и более свежий и подробный вариант [[http://​www.sthda.com/​english/​articles/​31-principal-component-methods-in-r-practical-guide/​112-pca-principal-component-analysis-essentials/​|здесь]]. \\
 +Выкладываю архив с {{ :​study:​fall2018:​2018_smallpca.zip |примерами простых данных}}. Можете выбрать любой пакет для АГК (их 5, см. вторую ссылку) и разные данные из архива,​ согласуйте между собой. Если что-то непонятно,​ спрашивайте. ​
 +Нужно разобраться в пакетах и параметрах функций на том уровне,​ чтобы повторить то, что было на лекции в распечатке. Также, описание порядка действий приведено в файле PC.TXT в архиве. Про используемую для PCA функцию нужно постараться понять,​ что означают там параметры,​ и из чего состоит объект,​ который они возвращают (в терминах и обозначениях лекций).\\
 +{{ :​study:​fall2019:​5stat_lecture:​pca_dgi_r.pdf |Пример}}.
  
 19.11.2019 Обсуждаем практические задания про корреляции и про регрессию. Всем будет дано задание по АГК. 19.11.2019 Обсуждаем практические задания про корреляции и про регрессию. Всем будет дано задание по АГК.
Строка 37: Строка 53:
 01.10.2019 ​ 1 пара. Это был дедлайн для того, чтобы прислать задание по первичному анализу данных ​ по пунктам отсюда http://​statmod.ru/​wiki/​study:​fall2019:​5stat_practice и также надо было методом подстановки получить оценку для дисперсии для исходных и для сгруппированных данных. 01.10.2019 ​ 1 пара. Это был дедлайн для того, чтобы прислать задание по первичному анализу данных ​ по пунктам отсюда http://​statmod.ru/​wiki/​study:​fall2019:​5stat_practice и также надо было методом подстановки получить оценку для дисперсии для исходных и для сгруппированных данных.
  
 +===== Про задания =====
  
 ==== Первичный анализ данных ==== ==== Первичный анализ данных ====
Строка 75: Строка 92:
   - Надо учесть проблему,​ которая возникают,​ если предикторы сильно зависимы. На примере с двумя «независимыми» признаками пишете формулы и показываете,​ как корреляция между признаками влияет на качество оценок регрессии. ​   - Надо учесть проблему,​ которая возникают,​ если предикторы сильно зависимы. На примере с двумя «независимыми» признаками пишете формулы и показываете,​ как корреляция между признаками влияет на качество оценок регрессии. ​
   - Пытаетесь уменьшить количество предикторов. Для этого есть информационные критерии AIC, BIC.    - Пытаетесь уменьшить количество предикторов. Для этого есть информационные критерии AIC, BIC. 
-  - Строите обычную регрессию по выбранному числу признаков. ​Переходите в блок Residual Analysis. Там сначала смотрите на нормальность остатков (зачем нужно на это смотреть?​),​ затем можно посмотреть на зависимость ​Predicted vs Residuals.  +  - Строите обычную регрессию по выбранному числу признаков. ​Изучаете остатки (residuals),​ распределение,​ Сначала смотрите на нормальность остатков (зачем нужно на это смотреть?​),​ затем можно посмотреть на зависимость Residuals ​vs Predicted.  
-  - Далее переходите к поиску outliers. ​Сначала смотрите на скаттерплот Residuls vs Deleted Residuals. Нужно объяснить, что ​этот такое, что откладывается по осям, как там ​найти outliers. +  - Далее переходите к поиску outliers. ​Напоминаю, что выброс по отношению к регрессии - это ​наблюдение, которое влияет на результат (leverage и Cook distance ​изменяют ​тонасколько наблюдение влияет). 
-  - В R есть еще и другие способы посмотреть на признаки Outliers. (расстояние Кука, расстояние Махаланобиса, ...). +
   - Итог: ​ результат линейной регрессии,​ для которой проверена адекватность модели,​ значимость,​ отсутствие outliers, проинтерпретированы коэффициенты регрессии. ​   - Итог: ​ результат линейной регрессии,​ для которой проверена адекватность модели,​ значимость,​ отсутствие outliers, проинтерпретированы коэффициенты регрессии. ​
   - Спрогнозируйте что-нибудь по построенной регрессионной модели. Постройте доверительный и предсказательный интервалы для предсказания.   - Спрогнозируйте что-нибудь по построенной регрессионной модели. Постройте доверительный и предсказательный интервалы для предсказания.
 +
 +==== Анализ главных компонент ====
 +
 +Провести анализ главных компонент в данном случае означает следующее:​
 +
 +  - Посмотреть график собственных чисел, прокомментировать его.
 +  - Проинтерпретировать главные компоненты (их связь с исходными признаками),​ используя значения собственные вектора,​ а также двумерные диаграммы факторных весов (в круге).
 +  - Посмотреть на двумерные графики нормированных значений главных компонент (значений факторов),​ увидеть,​ есть ли неоднородность в данных и есть ли выделяющиеся наблюдения.
 +  - Проинтерпретировать,​ в чем состоит неоднородность (если она есть) и чем выделяются выделяющиеся наблюдения. ​
 +  - Убрать выделяющиеся наблюдения,​ которые проинтерпретированы как выбросы,​ и неоднородность и затем провести АГК заново.
 +
 +==== Классификация ====
 +
 +  - Разбейте данные на две части, где будете строить классификацию,​ и где будете ее проверять (train и test). Далее работа идет только на train.
 +  - Посмотрите,​ как выглядят данные на графике pairs и в плоскости первых двух главных компонент,​ с раскраской по классам. При необходимости,​ преобразуйте данные (уберите outliers, прологарифмируйте признаки).
 +  - Проведите классификацию с помощью линейного дискриминантного анализа. Подумайте,​ какие априорные вероятности вы хотите задать.
 +  - Посмотрите на значимость дискриминации. Посмотрите,​ как выглядят данные в плоскости первых двух канонических переменных.
 +  - Посмотрите на качество классификации - таблицу ошибок классификации,​ по данным,​ по кросс-валидации,​ по test данным.
 +  - Постройте ROC-кривые,​ проинтерпретируйте (во множественном числе, так как можно строить на train, а можно - на test). ​
 +  - Попробуйте применить какой-нибудь другой метод, например,​ QDA или еще какой-то другой. Постройте для него ROC-кривую,​ сравните с ROC-кривой для LDA.
 +
 +==== Кластерный анализ ====
 +
 +  - Посмотрите,​ как выглядят данные на графике pairs и в плоскости первых двух главных компонент. При необходимости,​ преобразуйте данные (уберите outliers, прологарифмируйте признаки).  ​
 +  - Примените метод k-means для разного числа классов. Посмотрите на результат на графике pairs с раскраской.
 +  - Применить метод иерархической кластеризации с разными правилами объединения кластеров. Посмотрите на получившиеся деревья. ​
 +  - Примените метод разделения смеси нормальных распределений с разными ограничениями на модель (одинаковые ковариационные матрицы,​ разные,​ разные диагональные,​ ...). Посмотрите на результат на графике pairs с раскраской и в плоскости первых двух главных компонент.
 +
 +
  
study/fall2019/5stat_practice.txt · Последние изменения: 2019/12/04 22:34 — nina
Наверх
CC Attribution-Noncommercial-Share Alike 4.0 International
Driven by DokuWiki Recent changes RSS feed Valid CSS Valid XHTML 1.0