Различия

Показаны различия между двумя версиями страницы.

--- study:fall2019:5stat_practice [2019/11/15 01:16]
nina
+++ study:fall2019:5stat_practice [2019/12/04 22:33]
nina
@@ Строка 8: / Строка 8: @@
 [[https://docs.google.com/spreadsheets/d/1tmCH5Id1ezRQECocoQE3xfxd-8FdF9U-m2oREwrdYpo/edit?usp=sharing|Здесь]] будут отражаться ваши успехи по пути к зачету по анализу данных.
+.12.2019 и 12.12.2019
+Коллоквиум и показ заданий по классификации и кластерному анализу (см. страницу предыдущего
+года со ссылками и примерами кода http://statmod.ru/wiki/study:fall2019:5stat_practice).
+.12.2019
+Линейная регрессия (дорассказала про ROC-AUC в классификации).
+.11.2019
+Задания по АГК (приоритет больше, чем у регрессии, начинайте делать задание с АГК).\\
+Варианты пакетов перечислены [[http://www.gastonsanchez.com/visually-enforced/how-to/2012/06/17/PCA-in-R/|здесь]] и более свежий и подробный вариант [[http://www.sthda.com/english/articles/31-principal-component-methods-in-r-practical-guide/112-pca-principal-component-analysis-essentials/|здесь]]. \\
+Выкладываю архив с {{ :study:fall2018:2018_smallpca.zip |примерами простых данных}}. Можете выбрать любой пакет для АГК (их 5, см. вторую ссылку) и разные данные из архива, согласуйте между собой. Если что-то непонятно, спрашивайте.
+Нужно разобраться в пакетах и параметрах функций на том уровне, чтобы повторить то, что было на лекции в распечатке. Также, описание порядка действий приведено в файле PC.TXT в архиве. Про используемую для PCA функцию нужно постараться понять, что означают там параметры, и из чего состоит объект, который они возвращают (в терминах и обозначениях лекций).\\
+{{ :study:fall2019:5stat_lecture:pca_dgi_r.pdf |Пример}}.
 .11.2019 Обсуждаем практические задания про корреляции и про регрессию. Всем будет дано задание по АГК.
@@ Строка 37: / Строка 51: @@
 .10.2019  1 пара. Это был дедлайн для того, чтобы прислать задание по первичному анализу данных  по пунктам отсюда http://statmod.ru/wiki/study:fall2019:5stat_practice и также надо было методом подстановки получить оценку для дисперсии для исходных и для сгруппированных данных.
+===== Про задания =====
 ==== Первичный анализ данных ====
@@ Строка 75: / Строка 90: @@
   - Надо учесть проблему, которая возникают, если предикторы сильно зависимы. На примере с двумя «независимыми» признаками пишете формулы и показываете, как корреляция между признаками влияет на качество оценок регрессии.
   - Пытаетесь уменьшить количество предикторов. Для этого есть информационные критерии AIC, BIC.
-  - Строите обычную регрессию по выбранному числу признаков. Переходите в блок Residual Analysis. Там сначала смотрите на нормальность остатков (зачем нужно на это смотреть?), затем можно посмотреть на зависимость Predicted vs Residuals.
+  - Строите обычную регрессию по выбранному числу признаков. Изучаете остатки (residuals), распределение, Сначала смотрите на нормальность остатков (зачем нужно на это смотреть?), затем можно посмотреть на зависимость Residuals vs Predicted.
-  - Далее переходите к поиску outliers. Сначала смотрите на скаттерплот Residuls vs Deleted Residuals. Нужно объяснить, что этот такое, что откладывается по осям, как там найти outliers.
+  - Далее переходите к поиску outliers. Напоминаю, что выброс по отношению к регрессии - это наблюдение, которое влияет на результат (leverage и Cook distance изменяют то, насколько наблюдение влияет).
-  - В R есть еще и другие способы посмотреть на признаки Outliers. (расстояние Кука, расстояние Махаланобиса, ...).
   - Итог:  результат линейной регрессии, для которой проверена адекватность модели, значимость, отсутствие outliers, проинтерпретированы коэффициенты регрессии.
   - Спрогнозируйте что-нибудь по построенной регрессионной модели. Постройте доверительный и предсказательный интервалы для предсказания.
+==== Анализ главных компонент ====
+Провести анализ главных компонент в данном случае означает следующее:
+  - Посмотреть график собственных чисел, прокомментировать его.
+  - Проинтерпретировать главные компоненты (их связь с исходными признаками), используя значения собственные вектора, а также двумерные диаграммы факторных весов (в круге).
+  - Посмотреть на двумерные графики нормированных значений главных компонент (значений факторов), увидеть, есть ли неоднородность в данных и есть ли выделяющиеся наблюдения.
+  - Проинтерпретировать, в чем состоит неоднородность (если она есть) и чем выделяются выделяющиеся наблюдения.
+  - Убрать выделяющиеся наблюдения, которые проинтерпретированы как выбросы, и неоднородность и затем провести АГК заново.
+==== Классификация ====
+  - Разбейте данные на две части, где будете строить классификацию, и где будете ее проверять (train и test). Далее работа идет только на train.
+  - Посмотрите, как выглядят данные на графике pairs и в плоскости первых двух главных компонент, с раскраской по классам. При необходимости, преобразуйте данные (уберите outliers, прологарифмируйте признаки).
+  - Проведите классификацию с помощью линейного дискриминантного анализа. Подумайте, какие априорные вероятности вы хотите задать.
+  - Посмотрите на значимость дискриминации. Посмотрите, как выглядят данные в плоскости первых двух канонических переменных.
+  - Посмотрите на качество классификации - таблицу ошибок классификации, по данным, по кросс-валидации, по test данным.
+  - Постройте ROC-кривые, проинтерпретируйте (во множественном числе, так как можно строить на train, а можно - на test).
+  - Попробуйте применить какой-нибудь другой метод, например, QDA или еще какой-то другой. Постройте для него ROC-кривую, сравните с ROC-кривой для LDA.
+==== Кластерный анализ ====
+  - Посмотрите, как выглядят данные на графике pairs и в плоскости первых двух главных компонент. При необходимости, преобразуйте данные (уберите outliers, прологарифмируйте признаки).
+  - Примените метод k-means для разного числа классов. Посмотрите на результат на графике pairs с раскраской.
+  - Применить метод иерархической кластеризации с разными правилами объединения кластеров. Посмотрите на получившиеся деревья.
+  - Примените метод разделения смеси нормальных распределений с разными ограничениями на модель (одинаковые ковариационные матрицы, разные, разные диагональные, ...). Посмотрите на результат на графике pairs с раскраской и в плоскости первых двух главных компонент.

study/fall2019/5stat_practice.txt · Последнее изменение: 2020/11/25 22:46 — nina

Наверх