Это старая версия документа!


Спецкурс «Введение в обработку данных» (3 курс)

Место и время проведения: четверг, вторая пара (11:15-12:50), ауд. 2444-II (дальняя), 2408
Преподаватель: Голяндина Нина Эдуардовна 1)
Преподаватель: Коробейников Антон Иванович 2)


Программа курса

Темы состоявшихся занятий

  1. Введение. Краткий обзор. Базовые операции: понятие «workspace», присваивание, просмотр списка переменных, удаление переменных из workspace'а. Функции c() и seq(). Использование встроенной справки. (23.09.2010)
  2. Объекты R. Общие свойства (mode, length). Основные типы объектов: vector, factor, matrix, data frame, list, ts (time series), expression. Конверсия объектов друг в друга. (23.09.2010, 7.10.2010)
  3. Основные операции (арифметика, логические операции). Проверка равенства (==, identical, all.equal). Индексирование «векторных» переменных (включая именованные индексы). (7.10.2010)
  4. Вызов функций. Правила передачи аргументов. Аргументы по умолчанию. Ellipsis (…) operator. (7.10.2010)
  5. Чтение данных из файла и с клавиатуры: функции read.table, scan. Запись данных в файл: функции write, write.table. (14.10.2010)
  6. Основные встроенные «скалярные» функции: sum, prod, max, min, which.max, which.min, range, length (14.10.2010)
  7. Основные встроенные «векторные» функции: round, rev, sort, rank, scale, pmin, pmax, cum{sum, prod, min, max}, diff, match, which (14.10.2010)
  8. Группировка, категоризующие переменные, функции над блоками данных: rowsum, aggregate, subset, lapply, sapply, replicate (21.10.2010)
  9. Операции с матрицами: cbind, rbind, t, diag, solve, qr, eigen, svd (14.10.2010)
  10. Графические устройства (функции dev.*). Разбиение устройства на блоки. Понятие о графических параметрах (21.10.2010)
  11. Высокоуровневые графические функции: plot, curve, coplot, pairs, density (21.10.2010)
  12. Высокоуровневые графические функции: barplot, hist, boxplot (21.10.2010)
  13. Низкоуровневые графические функции: points, line, abline, axis, legend (28.10.2010)
  14. Отладка. Функции debug, browser, traceback (28.10.2010)
  15. Распределения. Функции распределения, плотности. Моделирование. Функции “d”, “p”, “q”, “r”. Функция sample. (28.10.2010)
  16. Метод наименьших квадратов. Линейная регрессия. (28.10.2010, 11.11.2010)
  17. Пакет lattice. Введение. intro.R (11.11.2010)
  18. Пакет lattice. Изображение одномерных данных. univariate.R (18.11.2010)
  19. Пакет lattice. Изображение двумерных данных: скаттерплоты, матрицы скаттерплотов, parallel plot'ы. Стили линий и т.п.xyplot.R, splom.R (25.11.2010)
  20. Пакет lattice. Функции типа identify(). Пакеты playwith и latticist. (25.11.2010)
  21. Пакет lattice. Изображение двумерных данных и данных большей размерности. Разное. (25.11.2010)

Темы будущих занятий

Prerequisites

Дистрибутив R:

Редакторы и оболочки:

'Must-have' пакеты:

Рекомендуемая литература

Книги

  1. Peter Dalgaard. Introductory Statistics with R. Springer, 2002.
  2. John Maindonald and John Braun. Data Analysis and Graphics Using R. Cambridge University Press, Cambridge, 2003.
  3. John Verzani. Using R for Introductory Statistics. Chapman & Hall/CRC, Boca Raton, FL, 2005.
  4. Paul Murrell. R Graphics. Chapman & Hall/CRC, Boca Raton, FL, 2005.

Статьи

  1. John Maindonald. Using R for Data Analysis and Graphics - Introduction, Examples and Commentary. PDF
  2. John Verzani. Simple R. PDF
  3. Petra Kuhnert and Bill Venables. An Introduction to R: Software for Statistical Modelling & Computing. ZIP
  4. David Rossiter. Introduction to the R Project for Statistical Computing for Use at the ITC. PDF
  5. Е.М. Балдин, А.И. Коробейников, А.Б. Шипунов Анализ данных с R www

Задачи

Условные обозначения:

  1. Цифра в клетке - порядковый номер «подхода». Наличие цифры означает, что решение было получено, проверено, и результат отослан обратно.
  2. Решетка - задание запрошено и выдано, плюс - зачтено, звездочка - штраф, минус - хм, незачет ;-)

Кроме того, пишется дата и время.

3 курс:

Task 1 Task 2 Task 3
Ломтев + + m300.txt
Одинцова + + middle.txt
Плотников + + middle_norm.txt
Раевская + 2 (20.12.2010, 23:54) w300.txt
Романов + 3 (26.12.2010, 01:16) star.zip
Скурат + + young.txt
Советкин + + egsingle.zip
Уфлянд + + middle2.txt
Федоренко + 3* (26.12.2010, 01:10) w300-2.txt
Шабанов + + m300-2.txt

Названия переменных (для Task 3)

Полные расшифровки названий (для Task 3)

Жанры фильмов (исходно прилагалось к данным) (для Task 3)

магистры:

Task 1 Task 2 Task 3
Бикбулатова + 1 (26.12.2010, 18:09) +
Заграничная +* + +
Зыков *3 (26.12.2010, 18:17) Task 2 +
Юрасов + *+ egsingle.zip
Соболевский *theoph.txt*Task 2

Возможные темы третьего задания для магистров:

Разное

FIXME

Anton Korobeynikov 2010/09/22 23:41

1)
в сентябре
2)
октябрь-декабрь
study/fall2010/intror.1293376921.txt.gz · Последнее изменение: 2010/12/26 18:22 — asl
Наверх
CC Attribution-Noncommercial-Share Alike 4.0 International
Driven by DokuWiki Recent changes RSS feed Valid CSS Valid XHTML 1.0