Различия

Показаны различия между двумя версиями страницы.

Ссылка на это сравнение

Предыдущая версия справа и слева Предыдущая версия
study:fall2020:big_data [2020/09/29 21:43]
rguchenko
study:fall2020:big_data [2020/09/29 22:12] (текущий)
rguchenko
Строка 109: Строка 109:
  
 В качестве базы для метаданных предлагаю использовать derby (как и в других инструкциях). В качестве базы для метаданных предлагаю использовать derby (как и в других инструкциях).
 +
 +=== Cloudera Quickstart VM ===
 +
 +Если все тщетно и установить Hadoop с Hive'ом не получается (или если просто лень), то на помощь придет Cloudera Quickstart VM.
 +
 +Вот ссылка на образ для VirtualBox:\\
 +https://downloads.cloudera.com/demo_vm/virtualbox/cloudera-quickstart-vm-5.13.0-0-virtualbox.zip
 +
 +И ссылка на сам VirtualBox:\\
 +https://www.virtualbox.org/wiki/Downloads
 +
 +Кластер, конечно, получится довольно немощным (с ограничением в 1 поток и 4gb оперативной памяти по умолчанию), но зато не нужно будет ничего настраивать.
 +
 +Проблема в том, что Cloudera Quickstart VM уже не поддерживается и ссылка на официальный сайт уже не очень официальная...
 +
 +=== Google Cloud ===
 +
 +Здесь, возможно, появится инструкция по пользованию пробной версией dataproc на Google Cloud.
 +
 +=== glogg ===
 +
 +Как бонус, можно установить glogg - программу для чтения больших файлов.
 +
 +Ссылка:\\
 +https://glogg.bonnefon.org/download.html
 +
 +Обычно текстовые редакторы (скажем, notepad++ или sublime) загружают файлы в оперативную память целиком.
 +
 +Если файл весит хотябы несколько гигабайт, то это для них уже проблема.
 +
 +glogg же индексирует файл при открытии и загружает в память по кусочкам.
 +
 +Правда редактировать их он не позволяет.
  
 ==== Темы занятий ==== ==== Темы занятий ====
study/fall2020/big_data.1601405007.txt.gz · Последнее изменение: 2020/09/29 21:43 — rguchenko
Наверх
CC Attribution-Noncommercial-Share Alike 4.0 International
Driven by DokuWiki Recent changes RSS feed Valid CSS Valid XHTML 1.0