Это старая версия документа!
Содержание
622 гр., все. Big data (в рамках курса Научная и компьютерная коммуникация в современных условиях - I)
Место и время проведения: пятница, 17:00, дистанционно.
Преподаватели: Гученко Роман Александрович
Устанавливаем ПО
Для занятий нам понадобятся Hadoop и Hive.
Hadoop
Windows 10
Вот неплохая инструкция (сам воспользовался именно ей):
https://kontext.tech/column/hadoop/447/install-hadoop-330-on-windows-10-step-by-step-guide
Установка Hadoop на Windows сопряжена с некоторыми нюансами.
Обратите внимание, что нужно будет поставить native IO binary, которые не включены в комплект (шаг 3 в инструкции).
Лучше скачать их напрямую с github'а по ссылке, а не через powershell как в инструкции (у меня он как-то умудрился их попортить при скачивании).
Для работы winutils может потребоваться обновление visual c++ redistributable:
https://support.microsoft.com/ru-ru/help/2977003/the-latest-supported-visual-c-downloads
Для 64-битной операционки нужно будет поставить сразу vc_redist.x86.exe и vc_redist.x64.exe (а не только x64).
Есть более экзотический вариант с Windows Subsystem for Linux (для Windows 10 2004 есть WSL2, который должен работать быстро):
https://kontext.tech/column/hadoop/307/install-hadoop-320-on-windows-10-using-windows-subsystem-for-linux-wsl
Его я не пробовал.
Можно также попробовать через docker, но с ним на Windows сложности.
Linux
Официальная инструкция:
https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html
Mac
Не сильно отличается от варианта на Linux.
Проще всего ставить через brew install.
Например:
https://medium.com/beeranddiapers/installing-hadoop-on-mac-a9a3649dbc4d
Настройки (core-site.xml, hdfs-site.xml, mapred-site.xml, yarn-site.xml) лучше взять из официальной инструкции для Linux.