Различия

Показаны различия между двумя версиями страницы.

Ссылка на это сравнение

Предыдущая версия справа и слева Предыдущая версия
Следующая версия Следующая версия справа и слева
research:prob_spark [2018/09/03 23:32]
dzotikov Add a GD presentation, change links
research:prob_spark [2018/09/03 23:34]
dzotikov Change document structure
Строка 11: Строка 11:
 Предлагаемое задание является вполне реальным примером того, что могут попросить реализовать при трудоустройстве в крупную технологическую компанию ;) Предлагаемое задание является вполне реальным примером того, что могут попросить реализовать при трудоустройстве в крупную технологическую компанию ;)
  
-===== Задание =====+===== Задание =====
 Оценить параметры линейной регрессии для миллиона точек, используя фреймворк для распределенных вычислений Spark. Оценить параметры линейной регрессии для миллиона точек, используя фреймворк для распределенных вычислений Spark.
  
-==== Баллы ====+===== Баллы =====
 2 курс – 30 баллов, 1 курс – 60 баллов. 2 курс – 30 баллов, 1 курс – 60 баллов.
  
-==== Необходимые навыки и подготовка ====+===== Необходимые навыки и подготовка =====
  
   * Способность читать большие объемы текстов на техническом английском.  Можно открыть [[https://spark.apache.org/docs/latest/quick-start.html|эту страничку]] и проверить, насколько её чтение дается комфортно.   * Способность читать большие объемы текстов на техническом английском.  Можно открыть [[https://spark.apache.org/docs/latest/quick-start.html|эту страничку]] и проверить, насколько её чтение дается комфортно.
Строка 25: Строка 25:
 Математическая часть задания относительно простая.  Детали реализации могут быть чуть более сложные.  При любых затруднениях, да и просто так, можно обращаться за помощью к автору задания за напутственной подсказкой. Математическая часть задания относительно простая.  Детали реализации могут быть чуть более сложные.  При любых затруднениях, да и просто так, можно обращаться за помощью к автору задания за напутственной подсказкой.
  
-==== Часть 1 ====+===== Часть 1 =====
  
   - Познакомиться с линейной регрессией и методом градиентого спуска по {{ :research:cs229-lr-gd.pdf |конспекту}}.   - Познакомиться с линейной регрессией и методом градиентого спуска по {{ :research:cs229-lr-gd.pdf |конспекту}}.
Строка 31: Строка 31:
   - В качестве демонстрации предъявить оценку коэффициентов в сравнении с оригинальными коэффициентов, по которым сгенерированы синтетические данные.  Также здорово будет показать график функции ошибки.   - В качестве демонстрации предъявить оценку коэффициентов в сравнении с оригинальными коэффициентов, по которым сгенерированы синтетические данные.  Также здорово будет показать график функции ошибки.
  
-=== Замечания ===+==== Замечания ====
  
   * Синтетические данные либо сделать самостоятельно (задать уравнение гиперплоскости в R^d и посчитать значения на сетке в R^{d-1}, после чего зашумить), либо попросить у автора задания.   * Синтетические данные либо сделать самостоятельно (задать уравнение гиперплоскости в R^d и посчитать значения на сетке в R^{d-1}, после чего зашумить), либо попросить у автора задания.
  
-==== Часть 2 ====+===== Часть 2 =====
  
   - Разобраться с общей идеей реализации параллельной версии алгоритма по {{ :research:li-hui-fall-2012-cse633.pdf |презентации}}.   - Разобраться с общей идеей реализации параллельной версии алгоритма по {{ :research:li-hui-fall-2012-cse633.pdf |презентации}}.
Строка 41: Строка 41:
   - Продемострировать вертикальную и горизонтальную масштабируемость (или отсутствие их и объяснить причину) на синтетических данных.  Сравнить скорость выполнения с первоначальным прототипом.   - Продемострировать вертикальную и горизонтальную масштабируемость (или отсутствие их и объяснить причину) на синтетических данных.  Сравнить скорость выполнения с первоначальным прототипом.
  
-=== Замечания ===+==== Замечания ====
  
   * Spark лучше всего скачать непосредственно с [[https://spark.apache.org/|сайта проекта]].  Там же находится [[https://spark.apache.org/docs/latest/|раздел с документацией]], с которой придется ознакомиться.   * Spark лучше всего скачать непосредственно с [[https://spark.apache.org/|сайта проекта]].  Там же находится [[https://spark.apache.org/docs/latest/|раздел с документацией]], с которой придется ознакомиться.
research/prob_spark.txt · Последнее изменение: 2022/10/02 22:02 — nina
Наверх
CC Attribution-Noncommercial-Share Alike 4.0 International
Driven by DokuWiki Recent changes RSS feed Valid CSS Valid XHTML 1.0