Различия

Показаны различия между двумя версиями страницы.

Ссылка на это сравнение

Предыдущая версия справа и слева Предыдущая версия
Следующая версия
Предыдущая версия
study:fall2020:big_data [2020/09/29 21:15]
rguchenko
study:fall2020:big_data [2020/09/29 22:12] (текущий)
rguchenko
Строка 7: Строка 7:
 ==== Устанавливаем ПО ==== ==== Устанавливаем ПО ====
  
-Для занятий нам понадобятся Hadoop и Hive.+Для занятий нам понадобятся Hadoop и Hive.\\ 
 + 
 +Согласно опросу, Windows 10 - это выбор большинства, так что инструкция писалась с акцентом на Windows.
  
 === Hadoop === === Hadoop ===
Строка 32: Строка 34:
 == Linux == == Linux ==
  
-Официальная инструкция:\\+Официальная инструкция (не пробовал):\\
 https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html
  
Строка 41: Строка 43:
 Проще всего ставить через brew install.\\ Проще всего ставить через brew install.\\
  
-Например:\\+Например (пробовал):\\
 https://medium.com/beeranddiapers/installing-hadoop-on-mac-a9a3649dbc4d\\ https://medium.com/beeranddiapers/installing-hadoop-on-mac-a9a3649dbc4d\\
  
Строка 96: Строка 98:
 Дальше проверьте его по инструкции, создав тестовую таблицу.\\ Дальше проверьте его по инструкции, создав тестовую таблицу.\\
 Если все в порядке, этот процесс создания таблицы должен отобразиться в jobtracker'е. Если все в порядке, этот процесс создания таблицы должен отобразиться в jobtracker'е.
 +
 +== Linux ==
 +
 +Не пробовал:\\
 +https://www.edureka.co/blog/apache-hive-installation-on-ubuntu
 +
 +== Mac == 
 +
 +https://dbmstutorials.com/hive/hive-setup-on-mac.html
 +
 +В качестве базы для метаданных предлагаю использовать derby (как и в других инструкциях).
 +
 +=== Cloudera Quickstart VM ===
 +
 +Если все тщетно и установить Hadoop с Hive'ом не получается (или если просто лень), то на помощь придет Cloudera Quickstart VM.
 +
 +Вот ссылка на образ для VirtualBox:\\
 +https://downloads.cloudera.com/demo_vm/virtualbox/cloudera-quickstart-vm-5.13.0-0-virtualbox.zip
 +
 +И ссылка на сам VirtualBox:\\
 +https://www.virtualbox.org/wiki/Downloads
 +
 +Кластер, конечно, получится довольно немощным (с ограничением в 1 поток и 4gb оперативной памяти по умолчанию), но зато не нужно будет ничего настраивать.
 +
 +Проблема в том, что Cloudera Quickstart VM уже не поддерживается и ссылка на официальный сайт уже не очень официальная...
 +
 +=== Google Cloud ===
 +
 +Здесь, возможно, появится инструкция по пользованию пробной версией dataproc на Google Cloud.
 +
 +=== glogg ===
 +
 +Как бонус, можно установить glogg - программу для чтения больших файлов.
 +
 +Ссылка:\\
 +https://glogg.bonnefon.org/download.html
 +
 +Обычно текстовые редакторы (скажем, notepad++ или sublime) загружают файлы в оперативную память целиком.
 +
 +Если файл весит хотябы несколько гигабайт, то это для них уже проблема.
 +
 +glogg же индексирует файл при открытии и загружает в память по кусочкам.
 +
 +Правда редактировать их он не позволяет.
  
 ==== Темы занятий ==== ==== Темы занятий ====
study/fall2020/big_data.1601403311.txt.gz · Последнее изменение: 2020/09/29 21:15 — rguchenko
Наверх
CC Attribution-Noncommercial-Share Alike 4.0 International
Driven by DokuWiki Recent changes RSS feed Valid CSS Valid XHTML 1.0