Различия
Показаны различия между двумя версиями страницы.
Предыдущая версия справа и слева Предыдущая версия | Следующая версия Следующая версия справа и слева | ||
research:prob_spark [2018/09/03 23:32] dzotikov Add a GD presentation, change links |
research:prob_spark [2018/09/03 23:34] dzotikov Change document structure |
||
---|---|---|---|
Строка 11: | Строка 11: | ||
Предлагаемое задание является вполне реальным примером того, что могут попросить реализовать при трудоустройстве в крупную технологическую компанию ;) | Предлагаемое задание является вполне реальным примером того, что могут попросить реализовать при трудоустройстве в крупную технологическую компанию ;) | ||
- | ===== Задание | + | ===== Задание ===== |
Оценить параметры линейной регрессии для миллиона точек, используя фреймворк для распределенных вычислений Spark. | Оценить параметры линейной регрессии для миллиона точек, используя фреймворк для распределенных вычислений Spark. | ||
- | ==== Баллы ==== | + | ===== Баллы |
2 курс – 30 баллов, | 2 курс – 30 баллов, | ||
- | ==== Необходимые навыки и подготовка ==== | + | ===== Необходимые навыки и подготовка |
* Способность читать большие объемы текстов на техническом английском. | * Способность читать большие объемы текстов на техническом английском. | ||
Строка 25: | Строка 25: | ||
Математическая часть задания относительно простая. | Математическая часть задания относительно простая. | ||
- | ==== Часть 1 ==== | + | ===== Часть 1 ===== |
- Познакомиться с линейной регрессией и методом градиентого спуска по {{ : | - Познакомиться с линейной регрессией и методом градиентого спуска по {{ : | ||
Строка 31: | Строка 31: | ||
- В качестве демонстрации предъявить оценку коэффициентов в сравнении с оригинальными коэффициентов, | - В качестве демонстрации предъявить оценку коэффициентов в сравнении с оригинальными коэффициентов, | ||
- | === Замечания === | + | ==== Замечания |
* Синтетические данные либо сделать самостоятельно (задать уравнение гиперплоскости в R^d и посчитать значения на сетке в R^{d-1}, после чего зашумить), | * Синтетические данные либо сделать самостоятельно (задать уравнение гиперплоскости в R^d и посчитать значения на сетке в R^{d-1}, после чего зашумить), | ||
- | ==== Часть 2 ==== | + | ===== Часть 2 ===== |
- Разобраться с общей идеей реализации параллельной версии алгоритма по {{ : | - Разобраться с общей идеей реализации параллельной версии алгоритма по {{ : | ||
Строка 41: | Строка 41: | ||
- Продемострировать вертикальную и горизонтальную масштабируемость (или отсутствие их и объяснить причину) на синтетических данных. | - Продемострировать вертикальную и горизонтальную масштабируемость (или отсутствие их и объяснить причину) на синтетических данных. | ||
- | === Замечания === | + | ==== Замечания |
* Spark лучше всего скачать непосредственно с [[https:// | * Spark лучше всего скачать непосредственно с [[https:// |