Содержание
Многомерный анализ данных, 522 гр., лекции
Место и время проведения: 3 пара четверга, ауд. 2508
Преподаватель: Голяндина Нина Эдуардовна
Вопросы к коллоквиуму.
Письменный ответ на билет из 3 вопросов, короткая беседа
после моей проверки с возможностью доделать, и устный ответ на четвертый вопрос.
(1) вопросов много, но они, в основном, предполагают короткие ответы; (2) никто не списывает.
Коллоквиум состоится 20 ноября с 11:00, 4399.
Вопросы ко второй части экзамена (то, что не вошло в коллоквиум).
Примеры анализа данных для экзамена.
Формат экзамена
Полный экзамен:
1. 4 теор.вопроса, два по первой части, два по второй – ответы написать на листках. На подготовку не более 40 + 40 минут.
2. 2 примера анализа данных (дается распечатка), один по первой части, второй по второй. По ним можно подготовиться некоторое время при мне и потом рассказать устно о том, что там есть, с формулами и объясняя смысл. На подготовку 10+10 минут.
По порядку сдавать так: сначала первая часть, теория+анализ данных, потом вторая часть.
*Тем, кто сдал коллоквиум, не надо сдавать два теор.вопроса по первой части.*
При подготовке можно иметь с собой одинарный тетрадный листок с формулами на одной стороне без нумерации и текста.
Примерная программа
- Обзор того, что нужно уже знать.
- Факты из линейной алгебры. Разложения матриц. Сингулярное разложение.
- Анализ главных компонент. Оптимизационная задача. Интерпретация главных компонент. Факторный анализ, модель, оптимизационная задача, интерпретация. Сравнение АГК и факторного анализа.
- Многомерные распределения. Расстояние Махаланобиса. Доверительные области.
- Параметрические многомерные гипотезы. Гипотеза о значении многомерного среднего (статистика Хотеллинга). Доверительные области для параметров с использование нормально-распределенных несмещенных оценок на основе расстояния Махаланобиса, поиск outliers. Гипотеза о равенстве многомерных средних (независимые выборки). Гипотеза о равенстве средних зависимых признаков (repeated measures), контрасты. Гипотеза о равенстве ковариационных матриц, M-статистика Бокса
- Многомерный дисперсионный анализ (MANOVA). Критерии лямбда Уилкса, Пиллая, обобщенный Хотеллинга, критерий максимального корня Роя.
- Дискриминантный анализ. Общий подход к решению задачи классификации. Классифицирующие функции, априорные и апостериорные вероятности. Матрица классификации, cross-validation. Нормальная модель, одинаковые и различные ковариационные матрицы. Линейный дискриминантный анализ. Значимость дискриминации, связь с MANOVA. Канонические переменные. Значимость канонических переменных. Факторные веса. Пошаговый дискриминантный анализ.
- Канонические корреляции. Canonical roots. Извлеченная дисперсия.
- Разложение дисперсии (ковариационной матрицы). Связь между дискриминантным анализом, многомерной множественной регрессией, корреляционным анализом и MANOVA.
- Кластерный анализ. Расстояния. Меры связи. Иерархическое дерево. Метод K-средних
Литература к теоретической части
По многомерному анализу:
Rencher A., Methods of multivariate analysis. A Wiley-Interscience publication, 2002.
Доп. сведения про Generalized eigenvalue problem.
Про распределения Уилкса и Хотеллинга.
Про анализ соответствий (дипломная работа студента ВШЭ, связь с SVD - стр.37).