Statmod.Ru
НовостиНовости
ФорумФорум
МатМех СпбГУWiki-страницы
О кафедреСтудентам I-IIБакалавры и магистрыСтудентам III-VВыпускникам
Главная -> О кафедре -> Специализации -> СМ

О специализации "Статистическое Моделирование" (В.В.Некруткин)

Образование или специальность?

В свое время в Ленинграде был один единственный университет – Ленинградский государственный, ЛГУ. Все остальные ВУЗы назывались по-другому, в основном институтами (Политехнический, ЛЭТИ, ЛИТМО, Герценовский, ВОЕНМЕХ...). И это воспринималось как должное, название "университет" свидетельствовало об особенности учебного заведения, об его отличии от остальных. Формальная разница состояла в "универсальности" самого университета, в широком спектре факультетов – от физического до филологического. В названиях институтов отражалась их узкая направленность – электротехническая, оптическая, педагогическая, военная, а университет, как учебное заведение, вообще не имел никакой направленности.

Но неформально слово "университет" содержало и другой смысл. Оно подразумевало широкое и глубокое образование, которое мог (если хотел) получить его выпускник.

Есть коренные отличия между образованием и специальностью. Специальность – это набор навыков, это что-то узкое, любое ПТУ дает специальность. Но как трудно потом сменить эту специальность, выйти за ее рамки! Образование (если оно действительно хорошее) "универсально", оно делает человека свободным, потому что это образование его головы, его мозгов.

Навыки тоже необходимы (в частности, как технический элемент образования), но образованный человек достаточно легко приобретет нужные ему навыки, обратный же путь – от узкой специализации к глубокому образованию – очень труден.

Конечно, не все факультеты ЛГУ были в равной степени нацелены на образование (похоже, юристы получали и получают все-таки специальность), да и в других ВУЗах были в этом смысле отдельные светлые пятна-факультеты, но самые лучшие в старые времена факультеты ЛГУ – физфак и матмех – были почти идеальны в этом смысле. (Кстати, поэтому и учиться на этих факультетах было гораздо труднее, чем на других.)

Хорошее образование создавало ощущение элитарности, оно в значительной степени снижало напряженность у студентов, размышляющих над местом своей будущей работы: "Я математик или кто? У меня нормальная голова или как? Что, я не разберусь в ИХ задачах? Что, я не научусь тому, что ИМ надо? Что, я, в конце концов, не напишу нужные ИМ программы? Да быть такого не может!.."

Дать студентам целостное прикладное математическое образование тяжелая задача, если это не лозунг и не фраза в отчетном докладе. Нужно выработать образовательную систему, состоящую из взаимодействующих частей, составляющих единое целое; систему, сочетающую высокую математику с приложениями.

И у такой образовательной системы должен быть центр, база, главный предмет. На матмехе (если его рассматривать в целом), это математический анализ с его продолжением – функциональным анализом. Базой (конечно, более узкой) образовательной системы на специализации Статистическое Моделирование одноименной кафедры является Теория Вероятностей (сокращенно – ТВ).

Вернуться в начало

Теория вероятностей – язык и мир

Одна из известных математических шуток гласит, что вся математика является частным случаем теории вероятностей, поскольку любое детерминированное утверждение можно рассматривать как случайное, выполняющееся с вероятностью 1.

Как и во всякой хорошей шутке, здесь можно найти некоторую долю истины. Дело в том, что ТВ (если понимать этот термин достаточно широко) представляет собой в некотором смысле целый мир, отдельный, но не изолированный от других математических и нематематических дисциплин. Можно сказать и по-иному: ТВ – это особый язык, чрезвычайно удобный для описания весьма широкого класса различных явлений (как правило, массовых).

Конечно, ТВ – не исключение. Таким же особым "миром-языком" со своей системой образов и системой связей между этими образами является, скажем, классический математический анализ (или функциональный анализ – список можно расширить, но опять же не слишком).

Человек не может взять и заговорить на новом для себя языке, будь то суахили или теория групп, для этого нужны время, подготовка, усилия и способности. Ясно, что знания языка на уровне "мама мыла раму" или "P(A) = k/n" недостаточно для содержательной беседы. ТВ – объективно трудная для понимания наука, заниматься ею нужно долго и упорно, иначе ничего не получится.

Этим, в частности, и объясняются не слишком удачные попытки обучения студентов теоретико-вероятностным дисциплинам в технических (и не только) ВУЗах, – как правило, там просто не созданы условия для овладения понятийным языком ТВ. И даже у профессиональных "детерминированных" математиков бывают сложности в разговорах со своими "стохастическими" коллегами: обсуждаемый объект один и тот же, а языки, на которых они разговаривают – разные.

Будучи "миром-языком", ТВ просто обязана быть обширной наукой. Это так и есть, причем и по вертикали – от самых низменных приложений до высоких чисто теоретических результатов, и по горизонтали, где ТВ граничит с массой других математических и нематематических дисциплин. И не просто граничит – она беспрерывно подпитывается задачами из других областей знаний – из физики, химии, биологии, экономики и так далее. Значит, эта наука – живая. Кроме того, она очень красивая. Несмотря на всю свою абстрактность, подобные рассуждения легли в основу системы обучения студентов на специализации Статистическое Моделирование. (Или наоборот – практика обучения студентов на этой специализации привела к формулировке соответствующих положений; скорее всего, оба процесса шли параллельно.) Речь идет, конечно, о прикладной теории вероятностей, причем термин "прикладная" по отношению к математике используется для идентификации ее положения относительно "чистой" ("теоретической", "фундаментальной") науки, а не оттого, что прикладные дисциплины должны немедленно к чему-то или к кому-то прикладываться.

Если иметь в виду сколько-либо высокий уровень поставленных целей, то обучение студентов прикладной математике должно сочетать широту охвата различных областей знания с глубиной понимания понятийного и технического формализма используемого математического аппарата.

Широты достичь легко (по крайней мере, формально): достаточно читать студентам побольше различных курсов, не особо заботясь об их связях и месте в получившейся образовательной картине. Если приходится обосновывать такую эклектическую систему, то обычно говорят, что та или иная читаемая дисциплина является "полезной". Не удивительно, что в этих случаях часто наблюдается формальный подход к изложению материала и контролю знаний студентов.

Что касается глубины, то она нужна не сама по себе, а для того, чтобы сформировать в головах студентов единую картину, куда различные курсы вписывались бы как элементы общей мозаики. Ясно, что для этого нужно иметь достаточно глубоко проработанную теоретическую базу. Это сложно по многим причинам и требует специальных усилий. Оказывается (это опытный факт), ТВ является в этом смысле отличной базой, эстетически прекрасной и позволяющей более или менее успешно решать все общие задачи, стоящие перед прикладным математическим образованием.

Вернуться в начало

Общая структура образования

Если коротко обозначать образовательную направленность специализации "Статистическое моделирование", то лучше всего для этого подойдут слова "Прикладная теория вероятностей". Грубо говоря, структура специализации включает в себя три образовательных цикла, каждый из которых охватывает, как минимум, 2 года обучения. Один из них можно условно назвать «ТВ и случайные процессы», другой – «Математическая статистика и обработка данных» и третий –«Программирование прикладных задач».

Теория вероятностей– это математическая дисциплина, изучающая случайные явления. Самые первые, элементарные, минимальные и абсолютно недостаточные понятия о ней излагаются в курсе "Дискретная математика", читаемом на 1-м курсе отделения прикладной математики и информатики. Глубокое изложение Дискретной теории вероятностей, по уровню используемой математики доступное второкурснику, можно найти в первой главе учебника А.Н. Ширяева Вероятность (вышло уже три издания этой книги, третье – наиболее полное, но и первые два вполне годятся для чтения).

На самом деле, развитый математический аппарат теории вероятности основывается на теории меры – разделе математического анализа. Поэтому годовой курс ТВ читается всему отделению прикладной математики и информатики только в пятом и шестом семестрах, а не раньше.

Конечно, этот курс формально не является дисциплиной кафедры Статистического Моделирования (он относится к ведению кафедры Теории Вероятностей и Математической Статистики), но для студентов нашей кафедры (и особенно – для специализации Статистическое Моделирование) он является базой всего дальнейшего. Поэтому у нас уделяется особое внимание хорошему освоению студентами непростых понятийно-технических основ ТВ. Это происходит в основном в рамках практических занятий, которые по историческим причинам проводятся силами нашей кафедры.

Система проведения этих занятий такова, что студенты просто вынуждены решать большое количество задач по ТВ, в том числе и не слишком простых. Итог системы общепризнан: при прочих равных условиях наши студенты гораздо лучше знают и понимают ТВ, чем студенты других кафедр отделения.

На базе общего курса ТВ строятся другие части цикла ТВ и случайные процессы. Не вдаваясь в подробности, отметим, что спецкурсы "Статистическое моделирование" и "Теория метода Монте-Карло" посвящены теории и алгоритмам моделирования случайных явлений, а также использованию результатов этого моделирования для решения прикладных задач.

Несколько специальных курсов относятся к тематике случайных процессов. Этот вполне самостоятельный раздел ТВ огромен (почти неисчерпаем) и беспрерывно пополняется новыми результатами, в том числе и в связи с потребностями практики. Очень кратко и приблизительно его можно охарактеризовать как изучение случайных явлений в динамике, то есть с течением времени. Обычные марковские цепи (см. курс дискретной математики) являются простейшим примером временных рядов – случайных процессов с дискретным временем (процессы с непрерывным временем, конечно, являются гораздо более сложными объектами).

Модели случайных процессов возникают в самых различных отраслях знаний. В физике – это броуновское движение, модель теплового движения молекул (и еще добрая сотня других процессов). Есть специальные процессы популяционной генетики, ветвящиеся процессы применяются как модели ядерных реакций и развития эпидемий, гидрологи описывают случайными процессами колебания уровня воды в реках и озерах, военные – ошибки наведения зенитных ракет на самолеты; там, где есть развитие и случайность, там появляются случайные процессы.

Область применения теории случайных процессов необычайно широка. Поэтому кроме лекций, в основном посвященных теории, в образовательную систему специализации Статистическое Моделирование включены несколько курсов, относящихся к приложениям. Студентам рассказывают о процессах страховой математики, процессах, встречающихся в моделях покупательского поведения (такие модели широко используют специалисты по маркетингу на Западе), а также о так называемых процессах массового обслуживания. (Когда Вы сидите в очереди в парикмахерской или стоите в очереди за пивом, Вы, сами того не зная, являетесь частью системы массового обслуживания. Существует развитая теория таких систем.)

Вернуться в начало

Статистический образовательный цикл на специализации занимает целых 2.5 года обучения из трех. Почему так много?

В математике есть понятия прямой и обратной задачи. Решая любое уравнение, Вы имеете дело с прямой задачей. А вот если, зная решение, Вы пытаетесь восстановить вид самого уравнения – это обратная задача. (Конечно, для решения этой обратной задачи нужно заранее что-то знать о структуре уравнения, иначе ничего не получится).

Можно сказать, что по отношению к задачам теории вероятностей статистика решает обратные задачи. Приведем простой пример. Если рассматривать случайный эксперимент, в котором 1000 раз подбрасывают правильную (с равными вероятностями выпадения всех граней) игральную кость, то задачи типа "Найти вероятность того, что единица выпадет ровно 100 раз" легко решаются методами элементарной теории вероятностей. По существу, это чисто комбинаторные задачи.

А теперь представим себе, что мы не знаем, правильная ли кость у нас в руках, или шулерская. Иначе говоря, мы заранее не знаем, с одинаковыми ли вероятностями выпадают все 6 граней этой игральной кости, или нет. Зато у нас есть результаты 1000 ее подбрасываний. Как разобраться, шулерская это кость или правильная?

В принципе, идея очень проста. Конечно, нужно подсчитать частоты выпадения чисел 1,...,6 среди 1000 бросаний кости, и, если все эти частоты близки к 1/6, то, скорее всего, кость правильная. А если какие-то частоты сильно отличаются от 1/6, то, по всей видимости, кость шулерская.

Но все это просто только на словах. Что означает, что "частоты близки к 1/6" или "сильно отличаются от 1/6"? А можем ли мы вообще, имея 1000 подбрасываний, отличить вероятности, равные 1/6, от, скажем, 1/6 ± 10-3? А что делать, если игральная кость на самом деле правильная, но нам так не повезло, что случайно в большинстве из 1000 бросаниях выпала единица (это крайне маловероятно, но все-таки может случиться)? И так далее.

Вот здесь-то и начинается наука, называемая Математической Статистикой. Она использует технику ТВ, но решает свои собственные задачи. Кроме того, по своей сути она направлена на практику.

Пример с подбрасыванием кости и сравнением правильной и шулерской кости – простой и искусственный. А на самом деле сравнение нужно, например, если врач испытывает два метода лечения на двух группах больных. Он в течение нескольких недель собирает информацию (измеряет у больных температуру, давление, характеристики крови и дыхания и пр.) и хочет знать, действительно ли новый метод лечения лучше старого.

И гидролог годами измеряет уровень озера в районе атомной электростанции, чтобы понять, хватит ли воды для охлаждения реактора в засушливые годы. И металлург пытается спланировать серию плавок так, чтобы выяснить, какое сочетание легирующих добавок действительно приводят к сплаву нужного качества. И маркетолог проводит опросы населения, чтобы определить оптимальную цену новой зубной пасты. И федерация фигурного катания хочет выработать наиболее устойчивый способ подсчета числа баллов, проставляемых спортсмену. И нейрофизиолог мучает лягушек, чтобы построить адекватную модель межнейронного взаимодействия (здесь мы уже затрагиваем вопросы так называемой биометрии). И фирмы, играющие на рынке ценных бумаг, пытаются понять закономерности изменения их цен, чтобы предсказывать их подъемы и падения.

И все они собирают данные. И все они пытаются решать (в том числе) статистические задачи. И у всех у них ничего не получается, если они не имеют глубокого статистического образования.

Статистика как прикладная дисциплина сложна для восприятия (и для преподавания). Прежде всего, это связано с тем, что она базируется на понятиях теории вероятностей, и поэтому требует от слушателя двойной "перестройки головы" – сначала от понятий детерминированной математики к образам ТВ, а потом – к совершенно новым статистическим образам. Если студент не чувствует теорию вероятностей, учить его математической статистике бесполезно.

Вторая сложность связана с прикладными аспектами статистики. В прикладном смысле статистика – это работа с данными (в этом смысле лучше употреблять несколько более широкий термин "обработка данных"), и традиционного лекционно-семинарского стиля обучения здесь явно не достаточно. На специализации Статистическое Моделирование эта проблема частично решается в рамках двух спецсеминаров, посвященных статистическим пакетам, где студенты не только "отрабатывают" полученные ранее теоретические знания, но и решают модельные исследовательские задачи на учебных (но реальных) массивах данных. Такую же поддержку получает и специальный курс (9-й семестр), посвященный одному из современных методов анализа временных рядов.

Существует огромное количество статистических моделей и статистических методов анализа данных, в учебном процессе их всех охватить невозможно. Но общая структура статистического образования на специализации – базовый курс математической статистики, многомерная статистика и статистика случайных процессов – достаточна для относительно быстрого перехода к освоению более специальных методов.

Вернуться в начало

С самого начала существования специализации (то есть еще тогда, когда программирование не было столь популярным, престижным и хорошо оплачиваемым занятием) цикл Программирование прикладных задач воспринимался как неотъемлемая и очень важная составляющая прикладного математического образования.

При этом имелось в виду, что выпускник, придя на работу и разобравшись в поставленной ему прикладной задаче, сможет (один или в коллективе) идентифицировать адекватный этой задаче раздел математики, сформулировать задачу на математическом языке и описать ее решение, создать алгоритм решения задачи, грамотно написать соответствующую программу, протестировать ее и выдать результаты в форме, удобной для интерпретации и последующего использования.

Собственно говоря, эта схема более или менее годится для описания действий любого математика, занимающегося прикладными исследованиями. Далее весь вопрос в акцентах. В каких-то задачах самое важное – построить модель, адекватную исследуемому явлению. В других случаях приоритетным является чисто математическая деятельность – доказательство существования решения полученного уравнения, исследование скорости сходимости применяемого итеративного процесса и так далее. Где-то самым главным является разработка и реализация эффективного алгоритма. И, наконец, бывает так, что целью всей работы является программный продукт, предназначенный для широкого использования. (Очень часто "чистые" программисты задействованы именно в этой части деятельности большого коллектива. Хорошо, если при этом они достаточно образованы, чтобы понять особенности предыдущих этапов работы.) Так или иначе, без программирования здесь не обойтись.

Менялись языки программирования, операционные системы, вычислительная техника, появилось объектно-ориентированное программирование, колоссально возросли возможности создания удобного интерфейса и интерактивного взаимодействия с программой, но основная образовательная цель программистского цикла оставалась неизменной – с помощью жесткого контроля добиться того, чтобы студенты (независимо от их исходного к началу 3-го курса уровня) овладели культурой программирования, чтобы они могли к концу обучения на современном уровне писать, отлаживать и тестировать достаточно сложные прикладные программы.

Опыт показывает, что эта система работает – по отзывам наших выпускников, они либо не испытывают сложностей с программированием при поступлении на работу, либо достаточно быстро восполняют имеющиеся в этом смысле пробелы.

В настоящее время студенты специализации обучаются объектно-ориентированному программированию на языке C++, а также разработке приложений под Windows в среде Visual C++. Цикл охватывает 4 семестра, что позволяет студентам добраться до относительно непростых задач и использовать свои навыки при написании дипломных работ. Следует подчеркнуть, что возможности современной вычислительной техники и математического обеспечения резко повысили уровень прикладных задач, доступных (в смысле программирования) среднему студенту.

Вне этой основной линии обучения студенты на занятиях знакомятся с HTML и TEX, а также с технологией работы в системах Excel и Word. Кроме этого, на программистский цикл возлагается непростая задача поддержки двух других циклов. В качестве упражнений по программированию студенты занимаются моделированием распределений, проверкой статистических гипотез, случайным поиском экстремума функций многих переменных и т.п. Некоторые из этих задач решаются также и в математическом пакете MATLAB.

В последнем семестре обучения программированию для получения зачета студентам необходимо реализовать проект, посвященный построению стратегий покупки/продажи акций и их тестированию при заданной модели поведения цен акций.

Вернуться в начало

Научная деятельность студентов

Формально она целиком регламентирована общими правилами: курсовые работы на 3-м и 4-м курсах, производственная практика и защита дипломных работ на 5-м курсе. Есть, однако, несколько особенностей этой деятельности, характерных для нашей специализации.

Во-первых, это непрерывность: считается хорошим тоном заниматься одной и той же тематикой в течение всех трех лет с одним и тем же руководителем. Тем самым фактически оказывается, что студент все три года занимается своей дипломной работой, которая из-за этого, как правило, получается достаточно высокого уровня. (А еще лучше, когда все это начинается с первого семестра 2-го курса, благо повод – официальная курсовая работа в 4-м семестре, имеется.)

Конечно, это не безусловный закон: и тематика может измениться ("не пошла"), и никто не будет препятствовать студенту сменить научного руководителя, если что-то не сложилось. Но, как показывает опыт, последнее бывает достаточно редко.

Более важна вторая особенность: работа студентов над курсовыми и дипломными работами идет под жестким внешним контролем. Чтобы получить зачет по курсовой работе в конце 3-го или 4-го курса, студенту мало уговорить своего научного руководителя. Текст работы должен быть написан (на 4-м курсе набран в TEXе), одобрен руководителем и прочитан рецензентом. А после этого работа должна пройти публичную защиту (с выступлением защищающегося у доски), в результате которой и ставится отметка.

Такая процедура с непривычки может оказаться нервирующей, но студент должен научится и внятно писать, и правильно выражать свои мысли, и адекватно представлять свои результаты, и уметь защищаться от возможных нападок, и т.д., и т.п. К тому же, если работа над курсовой работой идет в спокойном темпе весь год (это тоже контролируется!), то больших проблем не возникает. А публичность защиты автоматически предполагает и публичное одобрение любых студенческих достижений, здесь исключений не бывает.

Что касается дипломной работы, то перед ее защитой студенты дважды по 1.5 часа рассказывают про свои достижения на специальном семинаре.

Такова вкратце сложившаяся структура образования студентов на специализации Статистическое Моделирование одноименной кафедры. Она не идеальна и не только требует больших усилий от преподавателей, но и рассчитана на заинтересованных студентов не слишком низкого уровня. До сих пор система показывала себя достаточно работоспособной. Что будет дальше – покажет время.

Вернуться в начало