Анализ многомерных данных на компьютере, 522 гр., семинар (по выбору)

Место и время проведения: вторник, 3 пара (4399)
Преподаватель: Голяндина Нина Эдуардовна




13.12.2016 Последнее занятие - кластерный анализ (плюс некоторые рассказы про ДА).
Вот обзор функций и пакетов https://cran.r-project.org/web/views/Cluster.html
Каждый может взять что-то стандартное (типа kmeans и hclust) и что-то еще дополнительное.
Кто-то вместо дополнительного должен проверить, если ли разница между центрами кластеров и результатом кластеризации в случае kmeans, примененного к исходным данным, и kmeans, примененного к первым k-1 главным компонентам.

06.12.2016 Все готовят как предыдущее задание (канонический ДА), так и классификацию.

Задание - классификация, lda, qda, cross-validation. (Можете посмотреть на другие методы классификации, которые частично будут в след. семестре, здесь https://github.com/kabacoff/RiA2/blob/master/Ch17%20Classification.R)

#LDA
iris.train ← iris
iris.lda ← lda(iris.train[,1:4], iris.train[,5])
iris.ldap ← predict(iris.lda, iris.train[,1:4])$class
table(iris.ldap, iris.train[,5]) #classification quality
ris.lda ← lda(iris.train[,1:4], iris.train[,5], CV = TRUE)
table(iris.lda$class, iris.train[,5]) #leave-one-out cross-validation
#LDA, out-of-sample
iris.train ← iris[seq(1,nrow(iris),5),]
iris.unknown ← iris[-seq(1,nrow(iris),5),]
iris.lda ← lda(iris.train[,1:4], iris.train[,5])
iris.ldap ← predict(iris.lda, iris.unknown[,1:4])$class
ct ← table(iris.ldap, iris.unknown[,5])
diag(prop.table(ct, 1))
# Exploratory Graph for LDA or QDA for each pair of variables
library(klaR)
partimat(Sp ~ ., Iris, method=«lda»)

29.11.2016 Егор про ФА, остальные про канонический ДА

Задание - канонический дискриминантный анализ. Включает в себя:

  • Дима - Проверка модели (гомоскедастичность, нормальность).
  • Катя - Значимость различия групп.
  • Даша - Интерпретация отличия на основе стандартизованных дискриминантных функций и факторной структуры.
  • Владимир А. - Значимое число дискриминантных функций.
  • Кирилл - Уменьшение числа признаков вручную.
  • Егор - Пошаговый дискриминантный анализ.
  • Значения новых признаков (канонических переменных)
  • Графическое изображение результатов дискр. анализа.

Функции в R - lda, candisc, manova (можно поискать другие пакеты). Для проверки на нормальность - пакеты nortest, mvnormtest, на равенство ковариационных матриц biotools (там есть Box M). Каждый делает весь анализ, но акцент на одном из пунктов

22.11.2016 Полина про ДА, Даша и Катя про ФА

15.11.2016 Все кроме Полины про ФА

08.11.2016 Полина про факторный анализ, Катя про АГК, потом остальные про ФА.
Задание всем - сделать факторный анализ. Функции factanal, fa (psych). GPArotation и пр. Данные можно взять свои, можно найти что-нибудь другое.

Индивидуальные вопросы (частично выходят за рамки лекций, поэтому надо разобраться самим):

  • как устроены методы oblique вращений, например, oblimin (Дмитрий),
  • способы получения факторных значений, проверить численно, для каких методов они ортогональны (Владимир А.),
  • определение числа факторов, крит.хи-квадрат, BIC и пр. (Кирилл),
  • ортогональность теоретических факторных значений в зависимости от способа вращения, уметь считать их ворреляц.матрицу (Даша),
  • метод FA и остаточные корреляции (Полина),
  • результаты разных методов FA (Катя, сравнить результаты),
  • результаты разных вращений (Егор, сравнить результаты),
  • factor structure и factor pattern ().

01.11.2016 Егор и Дима про АГК. Полина про факторный анализ (не успела).

25.10.2016 Сначала коротко выступают Кирилл и Полина. Потом все остальные. Напоминаю, что нужно заранее согласовать данные для анализа и функцию, с помощью которой будете делать АГК.

18.10.2016 Сначала выступает команда Димы (+Егор, +Катя) про непараметрическую регрессию.
Потом начинаем разбираться с АГК с помощью Даши, Кирилла, Полины. Все остальным рекомендуется тоже попробовать провести АГК, чтобы лучше воспринимать то, что будет на занятии.
Задание по АГК:
данные, оставшиеся после нашего сотрудничества с P&G, с комментариями см. здесь
Нужно взять какой-то набор данных (Даша bpli4, Кирилл dgi, Полина first) и выбрать, с помощью каких средств в R будет выполняться АГК, см., например http://gastonsanchez.com/how-to/2012/06/17/PCA-in-R/ Там их перечислено 5, Даша, возьмите первую функцию, Кирилл - вторую, Полина, выберите из 3 и 4. В функции нужно полностью разобраться, а также найти всякие наглядные и полезные способы изображения результатов.

11.10.2016 Материалы для рассказа есть здесь https://socserv.socsci.mcmaster.ca/jfox/Books/Companion/appendix.html (первые три темы).

Нелинейная регрессия - Кирилл и Владимир А.
Робастная регрессия - Полина и Даша
Непараметрическая регрессия - Дима, Егор и Катя.
(Егор и Катя еще улучшают свои отчеты по лин. регрессии.)

04.10.2016 Продолжаются рассказы про регрессионный анализ. Слушаем рассказы Егора и Кати о регрессии. Дорассказывает Владимир А. А придет ли Владимир Б.?

27.09.2016 Продолжаются рассказы про регрессионный анализ. Слушаем оставшийся кусочек (Даша), рассказ Владимира А. про регрессию, а также рассказы Егора и Кати о предварительном анализе данных, однородности, outliers, преобразования, распределения (если нет своих данных, то пришлите запрос). Владимир Б. приходит вовремя, слушает и, если останется время, то начинает рассказывать.
В результате, Даша рассказала, Владимир А. рассказал половину, Владимир Б. вообще не пришел.

20.09.2016 Образуются три пары, Полина-Даша, Кирилл-Владимир А, Дима-Владимир Б. Соответственно, СМ-СМ рассказывает второму человеку, что подразумевается под проведением регрессионного анализа, дает конспект с теорией.
Здесь было написано, как это делать в STATISTICA http://statmod.ru/wiki/study:spring2016:4stat Вы же делаете все в R. В vk группе выложен документ с некоторым примером в R, но он не полный.
UPDATE: конечно, надо сделать и предварительную обработку данных перед тем, как строить линейную регрессию, и это тоже продемонстрировать в R.

Во вторник 20 сентября второй человек (не СМ-СМ) рассказывает про сделанное вместе задание. При этом Катя и Егор внимательно слушают (им тоже имеет смысл взять конспект). 27 сентября будет выступать тот, кто не успеет 20-го (если такое будет), Катя и Егор, по-отдельности.

Данные можно взять те, что были у СМ-СМ в прошлом семестре, а Кате и Егору я могу выдать отдельно. Также, каждый может взять любые данные, которые найдет-захочет. Егору и Кате имеет смысл подготовиться ко вторнику 20 сентября по теории и задавать побольше вопросов 20-го, чтобы было проще самостоятельно рассказывать 27-го.

Приходите со своим ноутбуком, показывать будете все с помощью проектора на экране в 4399

Примерная программа

  1. Линейная регрессия в R.
  2. Анализ главных компонент (PCA в STATISTICA).
  3. Факторный анализ.
  4. Дискриминантный анализ
  5. Канонический анализ (канонические корреляции).
  6. Кластерный анализ.

Семинар будет состоять в обсуждении анализа реальных данных.

Материалы по линейной регрессии в R

study/fall2016/5stat_practice.txt · Последнее изменение: 2016/12/09 00:00 — nina
Наверх
CC Attribution-Noncommercial-Share Alike 4.0 International
Driven by DokuWiki Recent changes RSS feed Valid CSS Valid XHTML 1.0