Предыдущая версия справа и слева
Предыдущая версия
Следующая версия
|
Предыдущая версия
Последняя версия
Следующая версия справа и слева
|
study:fall2019:5stat_practice [2019/11/05 23:01] nina |
study:fall2019:5stat_practice [2019/12/04 22:34] nina |
| |
[[https://docs.google.com/spreadsheets/d/1tmCH5Id1ezRQECocoQE3xfxd-8FdF9U-m2oREwrdYpo/edit?usp=sharing|Здесь]] будут отражаться ваши успехи по пути к зачету по анализу данных. | [[https://docs.google.com/spreadsheets/d/1tmCH5Id1ezRQECocoQE3xfxd-8FdF9U-m2oREwrdYpo/edit?usp=sharing|Здесь]] будут отражаться ваши успехи по пути к зачету по анализу данных. |
| |
| |
| |
| 10.12.2019 и 12.12.2019 |
| Коллоквиум и показ заданий по классификации и кластерному анализу (см. страницу предыдущего |
| года со ссылками и примерами кода http://statmod.ru/wiki/study:fall2019:5stat_practice). |
| |
| 03.12.2019 |
| Линейная регрессия (дорассказала про ROC-AUC в классификации). |
| |
| 26.11.2019 |
| Задания по АГК (приоритет больше, чем у регрессии, начинайте делать задание с АГК).\\ |
| Варианты пакетов перечислены [[http://www.gastonsanchez.com/visually-enforced/how-to/2012/06/17/PCA-in-R/|здесь]] и более свежий и подробный вариант [[http://www.sthda.com/english/articles/31-principal-component-methods-in-r-practical-guide/112-pca-principal-component-analysis-essentials/|здесь]]. \\ |
| Выкладываю архив с {{ :study:fall2018:2018_smallpca.zip |примерами простых данных}}. Можете выбрать любой пакет для АГК (их 5, см. вторую ссылку) и разные данные из архива, согласуйте между собой. Если что-то непонятно, спрашивайте. |
| Нужно разобраться в пакетах и параметрах функций на том уровне, чтобы повторить то, что было на лекции в распечатке. Также, описание порядка действий приведено в файле PC.TXT в архиве. Про используемую для PCA функцию нужно постараться понять, что означают там параметры, и из чего состоит объект, который они возвращают (в терминах и обозначениях лекций).\\ |
| {{ :study:fall2019:5stat_lecture:pca_dgi_r.pdf |Пример}}. |
| |
| 19.11.2019 Обсуждаем практические задания про корреляции и про регрессию. Всем будет дано задание по АГК. |
| |
12.11.2019 Жду все не сделанные задания (см. ниже). Дедлайн по третьему заданию про корреляции. | 12.11.2019 Жду все не сделанные задания (см. ниже). Дедлайн по третьему заданию про корреляции. |
Обсуждаем линейную регрессию. Женя показывает задание 4. | Обсуждаем линейную регрессию. |
| |
05.11.2019 Всем нужно приготовить задание "О виде распределений и о сравнении распределений" для показа | 05.11.2019 Всем нужно приготовить задание "О виде распределений и о сравнении распределений" для показа |
01.10.2019 1 пара. Это был дедлайн для того, чтобы прислать задание по первичному анализу данных по пунктам отсюда http://statmod.ru/wiki/study:fall2019:5stat_practice и также надо было методом подстановки получить оценку для дисперсии для исходных и для сгруппированных данных. | 01.10.2019 1 пара. Это был дедлайн для того, чтобы прислать задание по первичному анализу данных по пунктам отсюда http://statmod.ru/wiki/study:fall2019:5stat_practice и также надо было методом подстановки получить оценку для дисперсии для исходных и для сгруппированных данных. |
| |
| ===== Про задания ===== |
| |
==== Первичный анализ данных ==== | ==== Первичный анализ данных ==== |
- Надо учесть проблему, которая возникают, если предикторы сильно зависимы. На примере с двумя «независимыми» признаками пишете формулы и показываете, как корреляция между признаками влияет на качество оценок регрессии. | - Надо учесть проблему, которая возникают, если предикторы сильно зависимы. На примере с двумя «независимыми» признаками пишете формулы и показываете, как корреляция между признаками влияет на качество оценок регрессии. |
- Пытаетесь уменьшить количество предикторов. Для этого есть информационные критерии AIC, BIC. | - Пытаетесь уменьшить количество предикторов. Для этого есть информационные критерии AIC, BIC. |
- Строите обычную регрессию по выбранному числу признаков. Переходите в блок Residual Analysis. Там сначала смотрите на нормальность остатков (зачем нужно на это смотреть?), затем можно посмотреть на зависимость Predicted vs Residuals. | - Строите обычную регрессию по выбранному числу признаков. Изучаете остатки (residuals), распределение, Сначала смотрите на нормальность остатков (зачем нужно на это смотреть?), затем можно посмотреть на зависимость Residuals vs Predicted. |
- Далее переходите к поиску outliers. Сначала смотрите на скаттерплот Residuls vs Deleted Residuals. Нужно объяснить, что этот такое, что откладывается по осям, как там найти outliers. | - Далее переходите к поиску outliers. Напоминаю, что выброс по отношению к регрессии - это наблюдение, которое влияет на результат (leverage и Cook distance изменяют то, насколько наблюдение влияет). |
- В R есть еще и другие способы посмотреть на признаки Outliers. (расстояние Кука, расстояние Махаланобиса, ...). | |
- Итог: результат линейной регрессии, для которой проверена адекватность модели, значимость, отсутствие outliers, проинтерпретированы коэффициенты регрессии. | - Итог: результат линейной регрессии, для которой проверена адекватность модели, значимость, отсутствие outliers, проинтерпретированы коэффициенты регрессии. |
- Спрогнозируйте что-нибудь по построенной регрессионной модели. Постройте доверительный и предсказательный интервалы для предсказания. | - Спрогнозируйте что-нибудь по построенной регрессионной модели. Постройте доверительный и предсказательный интервалы для предсказания. |
| |
| ==== Анализ главных компонент ==== |
| |
| Провести анализ главных компонент в данном случае означает следующее: |
| |
| - Посмотреть график собственных чисел, прокомментировать его. |
| - Проинтерпретировать главные компоненты (их связь с исходными признаками), используя значения собственные вектора, а также двумерные диаграммы факторных весов (в круге). |
| - Посмотреть на двумерные графики нормированных значений главных компонент (значений факторов), увидеть, есть ли неоднородность в данных и есть ли выделяющиеся наблюдения. |
| - Проинтерпретировать, в чем состоит неоднородность (если она есть) и чем выделяются выделяющиеся наблюдения. |
| - Убрать выделяющиеся наблюдения, которые проинтерпретированы как выбросы, и неоднородность и затем провести АГК заново. |
| |
| ==== Классификация ==== |
| |
| - Разбейте данные на две части, где будете строить классификацию, и где будете ее проверять (train и test). Далее работа идет только на train. |
| - Посмотрите, как выглядят данные на графике pairs и в плоскости первых двух главных компонент, с раскраской по классам. При необходимости, преобразуйте данные (уберите outliers, прологарифмируйте признаки). |
| - Проведите классификацию с помощью линейного дискриминантного анализа. Подумайте, какие априорные вероятности вы хотите задать. |
| - Посмотрите на значимость дискриминации. Посмотрите, как выглядят данные в плоскости первых двух канонических переменных. |
| - Посмотрите на качество классификации - таблицу ошибок классификации, по данным, по кросс-валидации, по test данным. |
| - Постройте ROC-кривые, проинтерпретируйте (во множественном числе, так как можно строить на train, а можно - на test). |
| - Попробуйте применить какой-нибудь другой метод, например, QDA или еще какой-то другой. Постройте для него ROC-кривую, сравните с ROC-кривой для LDA. |
| |
| ==== Кластерный анализ ==== |
| |
| - Посмотрите, как выглядят данные на графике pairs и в плоскости первых двух главных компонент. При необходимости, преобразуйте данные (уберите outliers, прологарифмируйте признаки). |
| - Примените метод k-means для разного числа классов. Посмотрите на результат на графике pairs с раскраской. |
| - Применить метод иерархической кластеризации с разными правилами объединения кластеров. Посмотрите на получившиеся деревья. |
| - Примените метод разделения смеси нормальных распределений с разными ограничениями на модель (одинаковые ковариационные матрицы, разные, разные диагональные, ...). Посмотрите на результат на графике pairs с раскраской и в плоскости первых двух главных компонент. |
| |
| |
| |