Различия

Показаны различия между двумя версиями страницы.

Ссылка на это сравнение

Предыдущая версия справа и слева Предыдущая версия
Следующая версия
Предыдущая версия
Следующая версия Следующая версия справа и слева
study:fall2019:5stat_practice [2019/11/15 01:16]
nina
study:fall2019:5stat_practice [2019/12/04 22:33]
nina
Строка 8: Строка 8:
  
 [[https://docs.google.com/spreadsheets/d/1tmCH5Id1ezRQECocoQE3xfxd-8FdF9U-m2oREwrdYpo/edit?usp=sharing|Здесь]] будут отражаться ваши успехи по пути к зачету по анализу данных. [[https://docs.google.com/spreadsheets/d/1tmCH5Id1ezRQECocoQE3xfxd-8FdF9U-m2oREwrdYpo/edit?usp=sharing|Здесь]] будут отражаться ваши успехи по пути к зачету по анализу данных.
 +
 +10.12.2019 и 12.12.2019
 +Коллоквиум и показ заданий по классификации и кластерному анализу (см. страницу предыдущего 
 +года со ссылками и примерами кода http://statmod.ru/wiki/study:fall2019:5stat_practice).
 +
 +03.12.2019
 +Линейная регрессия (дорассказала про ROC-AUC в классификации).
 +
 +26.11.2019
 +Задания по АГК (приоритет больше, чем у регрессии, начинайте делать задание с АГК).\\
 +Варианты пакетов перечислены [[http://www.gastonsanchez.com/visually-enforced/how-to/2012/06/17/PCA-in-R/|здесь]] и более свежий и подробный вариант [[http://www.sthda.com/english/articles/31-principal-component-methods-in-r-practical-guide/112-pca-principal-component-analysis-essentials/|здесь]]. \\
 +Выкладываю архив с {{ :study:fall2018:2018_smallpca.zip |примерами простых данных}}. Можете выбрать любой пакет для АГК (их 5, см. вторую ссылку) и разные данные из архива, согласуйте между собой. Если что-то непонятно, спрашивайте. 
 +Нужно разобраться в пакетах и параметрах функций на том уровне, чтобы повторить то, что было на лекции в распечатке. Также, описание порядка действий приведено в файле PC.TXT в архиве. Про используемую для PCA функцию нужно постараться понять, что означают там параметры, и из чего состоит объект, который они возвращают (в терминах и обозначениях лекций).\\
 +{{ :study:fall2019:5stat_lecture:pca_dgi_r.pdf |Пример}}.
  
 19.11.2019 Обсуждаем практические задания про корреляции и про регрессию. Всем будет дано задание по АГК. 19.11.2019 Обсуждаем практические задания про корреляции и про регрессию. Всем будет дано задание по АГК.
Строка 37: Строка 51:
 01.10.2019  1 пара. Это был дедлайн для того, чтобы прислать задание по первичному анализу данных  по пунктам отсюда http://statmod.ru/wiki/study:fall2019:5stat_practice и также надо было методом подстановки получить оценку для дисперсии для исходных и для сгруппированных данных. 01.10.2019  1 пара. Это был дедлайн для того, чтобы прислать задание по первичному анализу данных  по пунктам отсюда http://statmod.ru/wiki/study:fall2019:5stat_practice и также надо было методом подстановки получить оценку для дисперсии для исходных и для сгруппированных данных.
  
 +===== Про задания =====
  
 ==== Первичный анализ данных ==== ==== Первичный анализ данных ====
Строка 75: Строка 90:
   - Надо учесть проблему, которая возникают, если предикторы сильно зависимы. На примере с двумя «независимыми» признаками пишете формулы и показываете, как корреляция между признаками влияет на качество оценок регрессии.    - Надо учесть проблему, которая возникают, если предикторы сильно зависимы. На примере с двумя «независимыми» признаками пишете формулы и показываете, как корреляция между признаками влияет на качество оценок регрессии. 
   - Пытаетесь уменьшить количество предикторов. Для этого есть информационные критерии AIC, BIC.    - Пытаетесь уменьшить количество предикторов. Для этого есть информационные критерии AIC, BIC. 
-  - Строите обычную регрессию по выбранному числу признаков. Переходите в блок Residual Analysis. Там сначала смотрите на нормальность остатков (зачем нужно на это смотреть?), затем можно посмотреть на зависимость Predicted vs Residuals.  +  - Строите обычную регрессию по выбранному числу признаков. Изучаете остатки (residuals), распределение, Сначала смотрите на нормальность остатков (зачем нужно на это смотреть?), затем можно посмотреть на зависимость Residuals vs Predicted.  
-  - Далее переходите к поиску outliers. Сначала смотрите на скаттерплот Residuls vs Deleted Residuals. Нужно объяснить, что этот такое, что откладывается по осям, как там найти outliers. +  - Далее переходите к поиску outliers. Напоминаю, что выброс по отношению к регрессии - это наблюдение, которое влияет на результат (leverage и Cook distance изменяют тонасколько наблюдение влияет). 
-  - В R есть еще и другие способы посмотреть на признаки Outliers. (расстояние Кука, расстояние Махаланобиса, ...). +
   - Итог:  результат линейной регрессии, для которой проверена адекватность модели, значимость, отсутствие outliers, проинтерпретированы коэффициенты регрессии.    - Итог:  результат линейной регрессии, для которой проверена адекватность модели, значимость, отсутствие outliers, проинтерпретированы коэффициенты регрессии. 
   - Спрогнозируйте что-нибудь по построенной регрессионной модели. Постройте доверительный и предсказательный интервалы для предсказания.   - Спрогнозируйте что-нибудь по построенной регрессионной модели. Постройте доверительный и предсказательный интервалы для предсказания.
 +
 +==== Анализ главных компонент ====
 +
 +Провести анализ главных компонент в данном случае означает следующее:
 +
 +  - Посмотреть график собственных чисел, прокомментировать его.
 +  - Проинтерпретировать главные компоненты (их связь с исходными признаками), используя значения собственные вектора, а также двумерные диаграммы факторных весов (в круге).
 +  - Посмотреть на двумерные графики нормированных значений главных компонент (значений факторов), увидеть, есть ли неоднородность в данных и есть ли выделяющиеся наблюдения.
 +  - Проинтерпретировать, в чем состоит неоднородность (если она есть) и чем выделяются выделяющиеся наблюдения. 
 +  - Убрать выделяющиеся наблюдения, которые проинтерпретированы как выбросы, и неоднородность и затем провести АГК заново.
 +
 +==== Классификация ====
 +
 +  - Разбейте данные на две части, где будете строить классификацию, и где будете ее проверять (train и test). Далее работа идет только на train.
 +  - Посмотрите, как выглядят данные на графике pairs и в плоскости первых двух главных компонент, с раскраской по классам. При необходимости, преобразуйте данные (уберите outliers, прологарифмируйте признаки).
 +  - Проведите классификацию с помощью линейного дискриминантного анализа. Подумайте, какие априорные вероятности вы хотите задать.
 +  - Посмотрите на значимость дискриминации. Посмотрите, как выглядят данные в плоскости первых двух канонических переменных.
 +  - Посмотрите на качество классификации - таблицу ошибок классификации, по данным, по кросс-валидации, по test данным.
 +  - Постройте ROC-кривые, проинтерпретируйте (во множественном числе, так как можно строить на train, а можно - на test). 
 +  - Попробуйте применить какой-нибудь другой метод, например, QDA или еще какой-то другой. Постройте для него ROC-кривую, сравните с ROC-кривой для LDA.
 +
 +==== Кластерный анализ ====
 +
 +  - Посмотрите, как выглядят данные на графике pairs и в плоскости первых двух главных компонент. При необходимости, преобразуйте данные (уберите outliers, прологарифмируйте признаки).  
 +  - Примените метод k-means для разного числа классов. Посмотрите на результат на графике pairs с раскраской.
 +  - Применить метод иерархической кластеризации с разными правилами объединения кластеров. Посмотрите на получившиеся деревья. 
 +  - Примените метод разделения смеси нормальных распределений с разными ограничениями на модель (одинаковые ковариационные матрицы, разные, разные диагональные, ...). Посмотрите на результат на графике pairs с раскраской и в плоскости первых двух главных компонент.
 +
 +
  
study/fall2019/5stat_practice.txt · Последнее изменение: 2020/11/25 22:46 — nina
Наверх
CC Attribution-Noncommercial-Share Alike 4.0 International
Driven by DokuWiki Recent changes RSS feed Valid CSS Valid XHTML 1.0