Анализ многомерных данных на компьютере, 522 гр., семинар (по выбору)

Место и время проведения: …
Преподаватель: Голяндина Нина Эдуардовна




А потом - зачет (24 декабря)!
К зачету нужно оформить-доделать все задания, начиная с инд. задания 24 сентября, с кодом и комментариями, прислать мне заранее, потом, возможно, доделать-переделать.
Можно присылать по частям - первые части жду уже в ближайшее время, начиная с 10 декабря. Заодно пораньше определимся, какой формат и уровень подробности подходят. Нужно описать логику каждого вида анализа на примере, комментируя выбранные параметры в функциях и интерпретируя результаты (плюс не забыть про тот инд. кусочек, который каждый брал себе).

Всего частей 6, все задания нужно прислать к 19 декабря:

  1. инд. задание
  2. АГК
  3. Факторный Анализ
  4. Дискриминантный Анализ
  5. Канонические Корреляции
  6. Кластерный Анализ.


Следующие (и последние) занятия состоятся 8 и 15 декабря (вторник), 3 пара, 4399.
Кроме канонического анализа, про который еще не все рассказали, осталось разобраться с кластерным анализом.

Пока я только начала рассказывать про метод k-means, на след. лекции расскажу еще про него дальше и про иерархический кластерный анализ.

Вот обзор функций и пакетов https://cran.r-project.org/web/views/Cluster.html
Каждый может взять что-то стандартное (типа kmeans и hclust) и что-то еще дополнительное.
Кто-то вместо дополнительного должен проверить, если ли разница между центрами кластеров и результатом кластеризации в случае kmeans, примененного к исходным данным, и kmeans, примененного к первым k-1 главным компонентам.




Следующее занятие состоится 3 декабря (четверг), 1 пара, 4399.
Задание - канонический корреляционный анализ.
Примеры пакетов - CCA (+CCP), candisc

Можно посмотреть на:
1. Значимость зависимости между множествами признаков
2. Канонические переменные
3. Канонические коэффициенты
4. Канонические корреляции
5. Объясненная дисперсия
6. Избыточность
7. Факторная структура
8. Графические представления.



UPD. По просьбе группы, занятие перенесено на 3 пару 24 ноября (вторник),
Также состоится занятие на 1 паре 26 ноября (четверг).

Следующее занятие состоится 19 ноября (четверг), 1 пара, 4399.
Задание - канонический дискриминантный анализ. Включает в себя:

  • Проверка модели (гомоскедастичность, нормальность).
  • Значимость различия групп.
  • Интерпретация отличия на основе стандартизованных дискриминантных функций и факторной структуры.
  • Значимое число дискриминантных функций.
  • Уменьшение числа признаков вручную.
  • Пошаговый дискриминантный анализ.
  • Значения новых признаков (канонических переменных)
  • Графическое изображение результатов дискр. анализа.

Функции в R - lda, candisc (можно поискать другие пакеты).
Каждый делает весь анализ, но акцент на одном из пунктов (разделите их между собой)



Следующее занятие состоится 10 ноября (вторник), 3 пара, 4399.



Следующее занятие состоится 5 ноября (четверг), 1 пара, 4399.



Следующее занятие состоится 29 октября (четверг), 1 пара, 4399.



Следующее занятие состоится 22 октября (четверг), 1 пара, 4399.
Задание - сделать факторный анализ. Функции factanal, fa (psych). GPArotation и пр.
Данные можно взять свои, можно найти что-нибудь другое.

Индивидуальные вопросы (частично выходят за рамки лекций, поэтому надо разобраться самим):

  1. как устроены методы oblique вращений, например, oblimin (Андрей),
  2. способы получения факторных значений и их ортогональность (Василий),
  3. определение числа факторов, крит.хи-квадрат, BIC и пр. (Дмитрий),
  4. ортогональность факторных значений в зависимости от способа вращения, как определить степень коррелированности (Настя),
  5. метод FA и остаточные корреляции (Юля),
  6. результаты разных методов FA (Дарина),
  7. результаты разных вращений (Ася),
  8. factor structure и factor pattern (Лиза; этого не было в лекциях).

Если кто-то сможет найти пример Confirmatory FA, разобраться в нем и рассказать, то будет интересно послушать.


Следующее занятие состоится 15 октября (четверг), 1 пара, 4399.


Следующее занятие состоится 6 октября (вторник), 3 пара, 4399.


Следующее занятие состоится 1 октября (четверг), 1 пара, 4399.


Задание:
данные, оставшиеся после нашего сотрудничества с P&G, с комментариями см. здесь
Нужно каждому взять какой-то набор данных (разные) и выбрать, с помощью каких средств в R будет выполняться АГК, см., например http://gastonsanchez.com/blog/how-to/2012/06/17/PCA-in-R.html Там их перечислено 5, каждый из первых четырех вариантов должен кто-то выбрать. В нем нужно полностью разобраться, а также найти всякие наглядные и полезные способы изображения результатов.
Предполагаю, что успеют выступить 4-5 человек. Но подготовиться нужно всем.


Следующее занятие состоится 24 сентября (четверг), 1 пара, 4399.


План на 24-е с числом минут на выступление, включая техническую подготовку:
Дарина про лин. регр. – рассказать про lm.influence на примере своих данных 8.
Юля про лин. регрессию – показать, какой получился результат, объяснив, как к нему пришли 10.
Настя – всю линию с самого начала, обращая внимание на R-код 15.
Далее
Дарина + Ася – про множ.сравнения – пример, суть и код 15.
Настя + Дима про logit/probit – пример, суть и код 15.
Юля + Лиза про logit/probit – пример, суть и код 15.
Вася + Андрей про нелин.МНК. Обзор того, что есть в R, с примерами 12.

Следующее занятие состоится 15 сентября (вторник), 3 пара, 4399.
Следующее занятие состоится 10 сентября (четверг), 1 пара, 4399.

Примерная программа

  1. Линейная регрессия в R.
  2. Анализ главных компонент (PCA в STATISTICA).
  3. Факторный анализ.
  4. Дискриминантный анализ
  5. Канонический анализ (канонические корреляции).
  6. Кластерный анализ.

Семинар будет состоять в обсуждении анализа реальных данных.

Материалы по линейной регрессии в R

study/fall2015/5stat_practice.txt · Последнее изменение: 2015/12/23 14:41 — nina
Наверх
CC Attribution-Noncommercial-Share Alike 4.0 International
Driven by DokuWiki Recent changes RSS feed Valid CSS Valid XHTML 1.0