Содержание
Анализ многомерных данных на компьютере, 522 гр., семинар (по выбору)
Место и время проведения: вторник, 3 пара (4399)
Преподаватель: Голяндина Нина Эдуардовна
13.12.2016 Последнее занятие - кластерный анализ (плюс некоторые рассказы про ДА).
Вот обзор функций и пакетов https://cran.r-project.org/web/views/Cluster.html
Каждый может взять что-то стандартное (типа kmeans и hclust) и что-то еще дополнительное.
Кто-то вместо дополнительного должен проверить, если ли разница между центрами кластеров и результатом кластеризации в случае kmeans, примененного к исходным данным, и kmeans, примененного к первым k-1 главным компонентам.
06.12.2016 Все готовят как предыдущее задание (канонический ДА), так и классификацию.
Задание - классификация, lda, qda, cross-validation. (Можете посмотреть на другие методы классификации, которые частично будут в след. семестре, здесь https://github.com/kabacoff/RiA2/blob/master/Ch17%20Classification.R)
#LDA
iris.train ← iris
iris.lda ← lda(iris.train[,1:4], iris.train[,5])
iris.ldap ← predict(iris.lda, iris.train[,1:4])$class
table(iris.ldap, iris.train[,5]) #classification quality
ris.lda ← lda(iris.train[,1:4], iris.train[,5], CV = TRUE)
table(iris.lda$class, iris.train[,5]) #leave-one-out cross-validation
#LDA, out-of-sample
iris.train ← iris[seq(1,nrow(iris),5),]
iris.unknown ← iris[-seq(1,nrow(iris),5),]
iris.lda ← lda(iris.train[,1:4], iris.train[,5])
iris.ldap ← predict(iris.lda, iris.unknown[,1:4])$class
ct ← table(iris.ldap, iris.unknown[,5])
diag(prop.table(ct, 1))
# Exploratory Graph for LDA or QDA for each pair of variables
library(klaR)
partimat(Sp ~ ., Iris, method=«lda»)
29.11.2016 Егор про ФА, остальные про канонический ДА
Задание - канонический дискриминантный анализ. Включает в себя:
- Дима - Проверка модели (гомоскедастичность, нормальность).
- Катя - Значимость различия групп.
- Даша - Интерпретация отличия на основе стандартизованных дискриминантных функций и факторной структуры.
- Владимир А. - Значимое число дискриминантных функций.
- Кирилл - Уменьшение числа признаков вручную.
- Егор - Пошаговый дискриминантный анализ.
- Значения новых признаков (канонических переменных)
- Графическое изображение результатов дискр. анализа.
Функции в R - lda, candisc, manova (можно поискать другие пакеты). Для проверки на нормальность - пакеты nortest, mvnormtest, на равенство ковариационных матриц biotools (там есть Box M). Каждый делает весь анализ, но акцент на одном из пунктов
22.11.2016 Полина про ДА, Даша и Катя про ФА
15.11.2016 Все кроме Полины про ФА
08.11.2016
Полина про факторный анализ, Катя про АГК, потом остальные про ФА.
Задание всем - сделать факторный анализ. Функции factanal, fa (psych). GPArotation и пр.
Данные можно взять свои, можно найти что-нибудь другое.
Индивидуальные вопросы (частично выходят за рамки лекций, поэтому надо разобраться самим):
- как устроены методы oblique вращений, например, oblimin (Дмитрий),
- способы получения факторных значений, проверить численно, для каких методов они ортогональны (Владимир А.),
- определение числа факторов, крит.хи-квадрат, BIC и пр. (Кирилл),
- ортогональность теоретических факторных значений в зависимости от способа вращения, уметь считать их ворреляц.матрицу (Даша),
- метод FA и остаточные корреляции (Полина),
- результаты разных методов FA (Катя, сравнить результаты),
- результаты разных вращений (Егор, сравнить результаты),
- factor structure и factor pattern ().
01.11.2016 Егор и Дима про АГК. Полина про факторный анализ (не успела).
25.10.2016 Сначала коротко выступают Кирилл и Полина. Потом все остальные. Напоминаю, что нужно заранее согласовать данные для анализа и функцию, с помощью которой будете делать АГК.
18.10.2016
Сначала выступает команда Димы (+Егор, +Катя) про непараметрическую регрессию.
Потом начинаем разбираться с АГК с помощью Даши, Кирилла, Полины. Все остальным рекомендуется
тоже попробовать провести АГК, чтобы лучше воспринимать то, что будет на занятии.
Задание по АГК:
данные, оставшиеся после нашего сотрудничества с P&G, с комментариями см. здесь
Нужно взять какой-то набор данных (Даша bpli4, Кирилл dgi, Полина first) и выбрать, с помощью каких средств в R
будет выполняться АГК, см., например http://gastonsanchez.com/how-to/2012/06/17/PCA-in-R/
Там их перечислено 5, Даша, возьмите первую функцию, Кирилл - вторую, Полина, выберите из
3 и 4. В функции нужно полностью разобраться, а также найти всякие наглядные и полезные способы изображения результатов.
11.10.2016 Материалы для рассказа есть здесь https://socserv.socsci.mcmaster.ca/jfox/Books/Companion/appendix.html (первые три темы).
Нелинейная регрессия - Кирилл и Владимир А.
Робастная регрессия - Полина и Даша
Непараметрическая регрессия - Дима, Егор и Катя.
(Егор и Катя еще улучшают свои отчеты по лин. регрессии.)
04.10.2016 Продолжаются рассказы про регрессионный анализ. Слушаем рассказы Егора и Кати о регрессии. Дорассказывает Владимир А. А придет ли Владимир Б.?
27.09.2016
Продолжаются рассказы про регрессионный анализ.
Слушаем оставшийся кусочек (Даша), рассказ Владимира А. про регрессию,
а также рассказы Егора и Кати о предварительном анализе данных,
однородности, outliers, преобразования, распределения (если нет своих данных,
то пришлите запрос). Владимир Б. приходит вовремя, слушает и, если останется время,
то начинает рассказывать.
В результате, Даша рассказала, Владимир А. рассказал половину, Владимир Б. вообще не пришел.
20.09.2016
Образуются три пары, Полина-Даша, Кирилл-Владимир А, Дима-Владимир Б.
Соответственно, СМ-СМ рассказывает второму человеку, что подразумевается
под проведением регрессионного анализа, дает конспект с теорией.
Здесь было написано, как это делать в STATISTICA http://statmod.ru/wiki/study:spring2016:4stat
Вы же делаете все в R. В vk группе выложен документ с некоторым примером в R,
но он не полный.
UPDATE: конечно, надо сделать и предварительную обработку данных перед тем, как строить
линейную регрессию, и это тоже продемонстрировать в R.
Во вторник 20 сентября второй человек (не СМ-СМ) рассказывает про сделанное вместе задание. При этом Катя и Егор внимательно слушают (им тоже имеет смысл взять конспект). 27 сентября будет выступать тот, кто не успеет 20-го (если такое будет), Катя и Егор, по-отдельности.
Данные можно взять те, что были у СМ-СМ в прошлом семестре, а Кате и Егору я могу выдать отдельно. Также, каждый может взять любые данные, которые найдет-захочет. Егору и Кате имеет смысл подготовиться ко вторнику 20 сентября по теории и задавать побольше вопросов 20-го, чтобы было проще самостоятельно рассказывать 27-го.
Приходите со своим ноутбуком, показывать будете все с помощью проектора на экране в 4399
Примерная программа
- Линейная регрессия в R.
- Анализ главных компонент (PCA в STATISTICA).
- Факторный анализ.
- Дискриминантный анализ
- Канонический анализ (канонические корреляции).
- Кластерный анализ.
Семинар будет состоять в обсуждении анализа реальных данных.