Различия
Показаны различия между двумя версиями страницы.
Предыдущая версия справа и слева Предыдущая версия Следующая версия | Предыдущая версия | ||
study:fall2020:big_data [2020/09/29 20:30] rguchenko |
study:fall2020:big_data [2020/09/29 22:12] (текущий) rguchenko |
||
---|---|---|---|
Строка 7: | Строка 7: | ||
==== Устанавливаем ПО ==== | ==== Устанавливаем ПО ==== | ||
- | Для занятий нам понадобятся Hadoop и Hive. | + | Для занятий нам понадобятся Hadoop и Hive.\\ |
+ | |||
+ | Согласно опросу, | ||
=== Hadoop === | === Hadoop === | ||
Строка 32: | Строка 34: | ||
== Linux == | == Linux == | ||
- | Официальная инструкция: | + | Официальная инструкция |
https:// | https:// | ||
Строка 41: | Строка 43: | ||
Проще всего ставить через brew install.\\ | Проще всего ставить через brew install.\\ | ||
- | Например: | + | Например |
https:// | https:// | ||
Строка 56: | Строка 58: | ||
Запустятся четыре других окошка консоли и в них побегут буковки.\\ | Запустятся четыре других окошка консоли и в них побегут буковки.\\ | ||
- | {{: | + | {{: |
+ | |||
+ | Нужно подождать, | ||
+ | |||
+ | Nodemanager может выдавать что-то типа: | ||
+ | 2020-09-28 00: | ||
+ | Это значит, | ||
+ | |||
+ | Теперь попробуйте запустить пример по вычислению пи командой: | ||
+ | yarn jar G: | ||
+ | (Не забудьте поменять путь до jar' | ||
+ | |||
+ | Консоль должна прийти в движение.\\ | ||
+ | Если через некоторое время вы увидели на экране " | ||
+ | |||
+ | {{: | ||
+ | |||
+ | Можете также зайти через браузер в jobtracker на \\ | ||
+ | http:// | ||
+ | и проследить за процессом вычисления пи с точки зрения созданного вами one-node кластера. | ||
=== Hive === | === Hive === | ||
+ | == Windows 10 == | ||
+ | |||
+ | Еще одна хорошая инструкция: | ||
+ | https:// | ||
+ | |||
+ | Тут, вроде как, особых подводных камней быть не должно.\\ | ||
+ | |||
+ | Если вы не умеете пользоваться vi (как я), то отредактируйте .bashrc в пункте "Setup environment variables" | ||
+ | У меня этот файл лежит в папке G: | ||
+ | Чтобы explorer его видел, не забудьте включить показ скрытых файлов.\\ | ||
+ | |||
+ | Пропустите пункт " | ||
+ | |||
+ | В пункте "Run CLI directly" | ||
+ | Собственно, | ||
+ | Дальше проверьте его по инструкции, | ||
+ | Если все в порядке, | ||
+ | |||
+ | == Linux == | ||
+ | |||
+ | Не пробовал: | ||
+ | https:// | ||
+ | |||
+ | == Mac == | ||
+ | |||
+ | https:// | ||
+ | |||
+ | В качестве базы для метаданных предлагаю использовать derby (как и в других инструкциях). | ||
+ | |||
+ | === Cloudera Quickstart VM === | ||
+ | |||
+ | Если все тщетно и установить Hadoop с Hive' | ||
+ | |||
+ | Вот ссылка на образ для VirtualBox: | ||
+ | https:// | ||
+ | |||
+ | И ссылка на сам VirtualBox: | ||
+ | https:// | ||
+ | |||
+ | Кластер, | ||
+ | |||
+ | Проблема в том, что Cloudera Quickstart VM уже не поддерживается и ссылка на официальный сайт уже не очень официальная... | ||
+ | |||
+ | === Google Cloud === | ||
+ | |||
+ | Здесь, возможно, | ||
+ | |||
+ | === glogg === | ||
+ | |||
+ | Как бонус, можно установить glogg - программу для чтения больших файлов. | ||
+ | |||
+ | Ссылка: | ||
+ | https:// | ||
+ | |||
+ | Обычно текстовые редакторы (скажем, | ||
+ | |||
+ | Если файл весит хотябы несколько гигабайт, | ||
+ | |||
+ | glogg же индексирует файл при открытии и загружает в память по кусочкам. | ||
+ | |||
+ | Правда редактировать их он не позволяет. | ||
==== Темы занятий ==== | ==== Темы занятий ==== |