Различия
Показаны различия между двумя версиями страницы.
Следующая версия | Предыдущая версия | ||
study:fall2020:big_data [2020/09/29 18:39] nina создано |
study:fall2020:big_data [2020/09/29 22:12] (текущий) rguchenko |
||
---|---|---|---|
Строка 5: | Строка 5: | ||
**Преподаватели: | **Преподаватели: | ||
+ | ==== Устанавливаем ПО ==== | ||
+ | |||
+ | Для занятий нам понадобятся Hadoop и Hive.\\ | ||
+ | |||
+ | Согласно опросу, | ||
+ | |||
+ | === Hadoop === | ||
+ | |||
+ | == Windows 10 == | ||
+ | Вот неплохая инструкция (сам воспользовался именно ей):\\ | ||
+ | https:// | ||
+ | |||
+ | Установка Hadoop на Windows сопряжена с некоторыми нюансами.\\ | ||
+ | |||
+ | Обратите внимание, | ||
+ | Лучше скачать их напрямую с github' | ||
+ | |||
+ | Для работы winutils может потребоваться обновление visual c++ redistributable: | ||
+ | https:// | ||
+ | Для 64-битной операционки нужно будет поставить сразу vc_redist.x86.exe и vc_redist.x64.exe (а не только x64). | ||
+ | |||
+ | Есть более экзотический вариант с Windows Subsystem for Linux (для Windows 10 2004 есть WSL2, который должен работать быстро): | ||
+ | https:// | ||
+ | Его я не пробовал. | ||
+ | |||
+ | Можно также попробовать через docker, но с ним на Windows сложности. | ||
+ | |||
+ | == Linux == | ||
+ | |||
+ | Официальная инструкция (не пробовал): | ||
+ | https:// | ||
+ | |||
+ | == Mac == | ||
+ | |||
+ | Не сильно отличается от варианта на Linux.\\ | ||
+ | |||
+ | Проще всего ставить через brew install.\\ | ||
+ | |||
+ | Например (пробовал): | ||
+ | https:// | ||
+ | |||
+ | Настройки (core-site.xml, | ||
+ | |||
+ | == Проверка установки == | ||
+ | |||
+ | Пример для Windows.\\ | ||
+ | |||
+ | Запустите консоль (cmd в поиске " | ||
+ | |||
+ | Введите start-all и нажмите Enter.\\ | ||
+ | |||
+ | Запустятся четыре других окошка консоли и в них побегут буковки.\\ | ||
+ | |||
+ | {{: | ||
+ | |||
+ | Нужно подождать, | ||
+ | |||
+ | Nodemanager может выдавать что-то типа:\\ | ||
+ | 2020-09-28 00: | ||
+ | Это значит, | ||
+ | |||
+ | Теперь попробуйте запустить пример по вычислению пи командой: | ||
+ | yarn jar G: | ||
+ | (Не забудьте поменять путь до jar' | ||
+ | |||
+ | Консоль должна прийти в движение.\\ | ||
+ | Если через некоторое время вы увидели на экране " | ||
+ | |||
+ | {{: | ||
+ | |||
+ | Можете также зайти через браузер в jobtracker на \\ | ||
+ | http:// | ||
+ | и проследить за процессом вычисления пи с точки зрения созданного вами one-node кластера. | ||
+ | |||
+ | === Hive === | ||
+ | |||
+ | == Windows 10 == | ||
+ | |||
+ | Еще одна хорошая инструкция: | ||
+ | https:// | ||
+ | |||
+ | Тут, вроде как, особых подводных камней быть не должно.\\ | ||
+ | |||
+ | Если вы не умеете пользоваться vi (как я), то отредактируйте .bashrc в пункте "Setup environment variables" | ||
+ | У меня этот файл лежит в папке G: | ||
+ | Чтобы explorer его видел, не забудьте включить показ скрытых файлов.\\ | ||
+ | |||
+ | Пропустите пункт " | ||
+ | |||
+ | В пункте "Run CLI directly" | ||
+ | Собственно, | ||
+ | Дальше проверьте его по инструкции, | ||
+ | Если все в порядке, | ||
+ | |||
+ | == Linux == | ||
+ | |||
+ | Не пробовал: | ||
+ | https:// | ||
+ | |||
+ | == Mac == | ||
+ | |||
+ | https:// | ||
+ | |||
+ | В качестве базы для метаданных предлагаю использовать derby (как и в других инструкциях). | ||
+ | |||
+ | === Cloudera Quickstart VM === | ||
+ | |||
+ | Если все тщетно и установить Hadoop с Hive' | ||
+ | |||
+ | Вот ссылка на образ для VirtualBox: | ||
+ | https:// | ||
+ | |||
+ | И ссылка на сам VirtualBox: | ||
+ | https:// | ||
+ | |||
+ | Кластер, | ||
+ | |||
+ | Проблема в том, что Cloudera Quickstart VM уже не поддерживается и ссылка на официальный сайт уже не очень официальная... | ||
+ | |||
+ | === Google Cloud === | ||
+ | |||
+ | Здесь, возможно, | ||
+ | |||
+ | === glogg === | ||
+ | |||
+ | Как бонус, можно установить glogg - программу для чтения больших файлов. | ||
+ | |||
+ | Ссылка: | ||
+ | https:// | ||
+ | |||
+ | Обычно текстовые редакторы (скажем, | ||
+ | |||
+ | Если файл весит хотябы несколько гигабайт, | ||
+ | |||
+ | glogg же индексирует файл при открытии и загружает в память по кусочкам. | ||
+ | |||
+ | Правда редактировать их он не позволяет. | ||
+ | |||
+ | ==== Темы занятий ==== |