Это старая версия документа!
Содержание
Спецкурс «Введение в обработку данных» (3 курс)
Место и время проведения: четверг, вторая пара (11:15-12:50), ауд. 2444-II (дальняя), 2408
Преподаватель: Голяндина Нина Эдуардовна 1)
Преподаватель: Коробейников Антон Иванович 2)
Программа курса
Темы состоявшихся занятий
- Введение. Краткий обзор. Базовые операции: понятие «workspace», присваивание, просмотр списка переменных, удаление переменных из workspace'а. Функции c() и seq(). Использование встроенной справки. (23.09.2010)
- Объекты R. Общие свойства (mode, length). Основные типы объектов: vector, factor, matrix, data frame, list, ts (time series), expression. Конверсия объектов друг в друга. (23.09.2010, 7.10.2010)
- Основные операции (арифметика, логические операции). Проверка равенства (==, identical, all.equal). Индексирование «векторных» переменных (включая именованные индексы). (7.10.2010)
- Вызов функций. Правила передачи аргументов. Аргументы по умолчанию. Ellipsis (…) operator. (7.10.2010)
- Чтение данных из файла и с клавиатуры: функции read.table, scan. Запись данных в файл: функции write, write.table. (14.10.2010)
- Основные встроенные «скалярные» функции: sum, prod, max, min, which.max, which.min, range, length (14.10.2010)
- Основные встроенные «векторные» функции: round, rev, sort, rank, scale, pmin, pmax, cum{sum, prod, min, max}, diff, match, which (14.10.2010)
- Группировка, категоризующие переменные, функции над блоками данных: rowsum, aggregate, subset, lapply, sapply, replicate (21.10.2010)
- Операции с матрицами: cbind, rbind, t, diag, solve, qr, eigen, svd (14.10.2010)
- Графические устройства (функции dev.*). Разбиение устройства на блоки. Понятие о графических параметрах (21.10.2010)
- Высокоуровневые графические функции: plot, curve, coplot, pairs, density (21.10.2010)
- Высокоуровневые графические функции: barplot, hist, boxplot (21.10.2010)
- Низкоуровневые графические функции: points, line, abline, axis, legend (28.10.2010)
- Отладка. Функции debug, browser, traceback (28.10.2010)
- Распределения. Функции распределения, плотности. Моделирование. Функции “d”, “p”, “q”, “r”. Функция sample. (28.10.2010)
- Метод наименьших квадратов. Линейная регрессия. (28.10.2010, 11.11.2010)
- Пакет lattice. Введение. intro.R (11.11.2010)
- Пакет lattice. Изображение одномерных данных. univariate.R (18.11.2010)
- Пакет lattice. Функции типа identify(). Пакеты playwith и latticist. (25.11.2010)
- Пакет lattice. Изображение двумерных данных и данных большей размерности. Разное. (25.11.2010)
Темы будущих занятий
Prerequisites
Дистрибутив R:
Редакторы и оболочки:
'Must-have' пакеты:
Рекомендуемая литература
Книги
- Peter Dalgaard. Introductory Statistics with R. Springer, 2002.
- John Maindonald and John Braun. Data Analysis and Graphics Using R. Cambridge University Press, Cambridge, 2003.
- John Verzani. Using R for Introductory Statistics. Chapman & Hall/CRC, Boca Raton, FL, 2005.
- Paul Murrell. R Graphics. Chapman & Hall/CRC, Boca Raton, FL, 2005.
Статьи
- John Maindonald. Using R for Data Analysis and Graphics - Introduction, Examples and Commentary. PDF
- John Verzani. Simple R. PDF
- Petra Kuhnert and Bill Venables. An Introduction to R: Software for Statistical Modelling & Computing. ZIP
- David Rossiter. Introduction to the R Project for Statistical Computing for Use at the ITC. PDF
- Е.М. Балдин, А.И. Коробейников, А.Б. Шипунов Анализ данных с R www
Задачи
Условные обозначения:
- Цифра в клетке - порядковый номер «подхода». Наличие цифры означает, что решение было получено, проверено, и результат отослан обратно.
- Решетка - задание запрошено и выдано, плюс - зачтено, звездочка - штраф, минус - хм, незачет
Кроме того, пишется дата и время.
3 курс:
Task 1 | Task 2 | Task 3 | |
---|---|---|---|
Ломтев | + | + | m300.txt |
Одинцова | + | 3 (26.12.2010, 01:02) | middle.txt |
Плотников | + | 3 (20.12.2010, 23:58) | middle_norm.txt |
Раевская | + | 2 (20.12.2010, 23:54) | w300.txt |
Романов | + | 2 (21.12.2010, 02:22) | star.zip |
Скурат | + | + | young.txt |
Советкин | + | + | egsingle.zip |
Уфлянд | + | + | middle2.txt |
Федоренко | + | 3* (26.12.2010, 01:10) | w300-2.txt |
Шабанов | + | + | m300-2.txt |
Названия переменных (для Task 3)
Полные расшифровки названий (для Task 3)
Жанры фильмов (исходно прилагалось к данным) (для Task 3)
магистры:
Task 1 | Task 2 | Task 3 | |
---|---|---|---|
Бикбулатова | 1 (10.11.2010, 22:55) | Task 2 | + |
Заграничная | +* | + | |
Зыков | *2 (10.12.2010, 12:14) | Task 2 | |
Юрасов | + | 1* (16.12.2010, 01:11) | |
Соболевский | *theoph.txt | Task 2 |
Возможные темы третьего задания для магистров:
Разное
— Anton Korobeynikov 2010/09/22 23:41