Содержание
322 гр., спец. СМ. Спецкурс «Введение в обработку данных»
Место и время проведения: вторник, первая пара (09:30-11:05), ауд. 2406
Преподаватель: Голяндина Нина Эдуардовна 1)
Преподаватель: Коробейников Антон Иванович 2)
Программа курса
Темы состоявшихся занятий
- Введение. Краткий обзор. Базовые операции: понятие «workspace», присваивание, просмотр списка переменных, удаление переменных из workspace'а. Функции c() и seq(). Использование встроенной справки.
- Объекты R. Общие свойства (mode, length). Основные типы объектов: vector, factor, matrix, data frame, list, ts (time series), expression. Конверсия объектов друг в друга.
- Основные операции (арифметика, логические операции). Проверка равенства (==, identical, all.equal). Индексирование «векторных» переменных (включая именованные индексы).
- Вызов функций. Правила передачи аргументов. Аргументы по умолчанию. Ellipsis (…) operator.
- Основные встроенные «скалярные» функции: sum, prod, max, min, which.max, which.min, range, length.
- Основные встроенные «векторные» функции: round, rev, sort, rank, scale, pmin, pmax, cum{sum, prod, min, max}, diff, match, which
- Чтение данных из файла и с клавиатуры: функции read.table, scan. Запись данных в файл: функции write, write.table.
- Группировка, категоризующие переменные, функции над блоками данных: rowsum, aggregate, subset, lapply, sapply, replicate
- Операции с матрицами: cbind, rbind, t, diag, solve, qr, eigen, svd
- Графические устройства (функции dev.*). Разбиение устройства на блоки. Понятие о графических параметрах
- Высокоуровневые графические функции: plot, curve, coplot, pairs, density
- Низкоуровневые графические функции: points, line, abline, axis, legend
- Высокоуровневые графические функции: barplot, hist, boxplot
- Распределения. Функции распределения, плотности. Моделирование. Функции “d”, “p”, “q”, “r”.
- Функция sample
- Отладка. Функции debug, browser, traceback, recover
- Пакет lattice. Введение. intro.R
- Пакет lattice. Изображение одномерных данных. univariate.R
- Пакет lattice. Изображение двумерных данных: скаттерплоты, матрицы скаттерплотов, parallel plot'ы. Стили линий и т.п.xyplot.R, splom.R, parallel.R
- Пакет lattice. Функции типа identify(). lattice.identify.R
Темы будущих занятий
- Преобразование данных. Пакеты tidyr и plyr. tidyr.pdf
- Системы рисования. Пакет ggplot ggplot.zip.
- Преобразование данных. Пакет plyr
- Метод наименьших квадратов. Линейная регрессия
Prerequisites
Рекомендуемая литература
Книги
- Peter Dalgaard. Introductory Statistics with R. Springer, 2002.
- John Maindonald and John Braun. Data Analysis and Graphics Using R. Cambridge University Press, Cambridge, 2003.
- John Verzani. Using R for Introductory Statistics. Chapman & Hall/CRC, Boca Raton, FL, 2005.
- Paul Murrell. R Graphics. Chapman & Hall/CRC, Boca Raton, FL, 2005.
- Шипунов А.Б., Балдин Е.М., Волкова П.А., Коробейников А.И., Назарова С.А., Петров С.В., Суфиянов В.Г. Наглядная статистика. Используем R! – М.: ДМК Пресс, 2012. – 298 с. PDF
- Роберт И. Кабаков R в действии. Анализ и визуализация данных в R. – М.: ДМК Пресс, 2013. – 280 с.
Статьи
- John Maindonald. Using R for Data Analysis and Graphics - Introduction, Examples and Commentary. PDF
- John Verzani. Simple R. PDF
- Petra Kuhnert and Bill Venables. An Introduction to R: Software for Statistical Modelling & Computing. ZIP
- David Rossiter. Introduction to the R Project for Statistical Computing for Use at the ITC. PDF
- Е.М. Балдин, А.И. Коробейников, А.Б. Шипунов Анализ данных с R www
Задачи
Условные обозначения:
- Цифра в клетке - порядковый номер «подхода». Наличие цифры означает, что решение было получено, проверено, и результат отослан обратно.
- Решетка - задание запрошено и выдано, плюс - зачтено, звездочка - штраф, минус - хм, незачет
Кроме того, пишется дата и время.
Task 1 | Task 2 | Data | |
---|---|---|---|
Абильдаев Темирлан | *+ | *+ | Izbirkom |
Капаца Дейвид | + | + | Airlines |
Полшков Виталий | *+ | *+ | ATUS |
Горшечникова Владлена | + | + | IMDB |
Магдич Елизавета | + | + | UFO |