Instale Apache Hadoop en Ubuntu 17.10!

Apache Hadoop es una solución de big data para almacenar y analizar grandes cantidades de datos. En este artículo, detallaremos los complejos pasos de configuración de Apache Hadoop para que pueda comenzar a usarlo en Ubuntu lo más rápido posible. En esta publicación, instalaremos Apache Hadoop en Ubuntu 17.10 máquina.

Versión de Ubuntu

Para esta guía, usaremos la versión 17 de Ubuntu.10 (GNU / Linux 4.13.0-38-genérico x86_64).

Actualizar paquetes existentes

Para iniciar la instalación de Hadoop, es necesario que actualicemos nuestra máquina con los últimos paquetes de software disponibles. Podemos hacer esto con:

sudo apt-get update && sudo apt-get -y dist-upgrade

Como Hadoop está basado en Java, necesitamos instalarlo en nuestra máquina. Podemos usar cualquier versión de Java por encima de Java 6. Aquí, usaremos Java 8:

sudo apt-get -y instalar openjdk-8-jdk-headless

Descarga de archivos Hadoop

Todos los paquetes necesarios ahora existen en nuestra máquina. Estamos listos para descargar los archivos TAR de Hadoop necesarios para que podamos comenzar a configurarlos y ejecutar un programa de muestra con Hadoop también.

En esta guía, instalaremos Hadoop v3.0.1. Descarga los archivos correspondientes con este comando:

wget http: // espejo.cc.Columbia.edu / pub / software / apache / hadoop / common / hadoop-3.0.1 / hadoop-3.0.1.alquitrán.gz

Dependiendo de la velocidad de la red, esto puede tardar unos minutos ya que el archivo es de gran tamaño:

Descargando Hadoop

Encuentre los últimos binarios de Hadoop aquí. Ahora que tenemos el archivo TAR descargado, podemos extraerlo en el directorio actual:

alquitrán xvzf hadoop-3.0.1.alquitrán.gz

Esto tardará unos segundos en completarse debido al gran tamaño de archivo del archivo:

Hadoop sin archivar

Se agregó un nuevo grupo de usuarios de Hadoop

Como Hadoop opera sobre HDFS, un nuevo sistema de archivos también puede alterar nuestro propio sistema de archivos en la máquina Ubuntu. Para evitar esta colisión, crearemos un grupo de usuarios completamente separado y lo asignaremos a Hadoop para que contenga sus propios permisos. Podemos agregar un nuevo grupo de usuarios con este comando:

addgroup hadoop

Veremos algo como:

Agregar un grupo de usuarios de Hadoop

Estamos listos para agregar un nuevo usuario a este grupo:

useradd -G hadoop hadoopuser

Tenga en cuenta que todos los comandos que ejecutamos son como usuario root. Con el comando aove, pudimos agregar un nuevo usuario al grupo que creamos.

Para permitir que el usuario de Hadoop realice operaciones, también debemos proporcionarle acceso de root. Abre el / etc / sudoers archivo con este comando:

sudo visudo

Antes de agregar algo, el archivo se verá así:

Archivo Sudoers antes de agregar nada

Agregue la siguiente línea al final del archivo:

hadoopuser TODOS = (TODOS) TODOS

Ahora el archivo se verá así:

Archivo Sudoers después de agregar un usuario de Hadoop

Esta fue la configuración principal para proporcionar a Hadoop una plataforma para realizar acciones. Estamos listos para configurar un clúster Hadoop de un solo nodo ahora.

Configuración de nodo único de Hadoop: modo independiente

Cuando se trata del poder real de Hadoop, generalmente se configura en varios servidores para que pueda escalar sobre una gran cantidad de conjuntos de datos presentes en Sistema de archivos distribuido Hadoop (HDFS). Esto generalmente está bien con entornos de depuración y no se usa para uso de producción. Para mantener el proceso simple, explicaremos cómo podemos hacer una configuración de nodo único para Hadoop aquí.

Una vez que hayamos terminado de instalar Hadoop, también ejecutaremos una aplicación de muestra en Hadoop. A partir de ahora, el archivo Hadoop se denomina hadoop-3.0.1. cambiemos el nombre a hadoop para un uso más simple:

mv hadoop-3.0.1 hadoop

El archivo ahora se ve así:

Mover Hadoop

Es hora de hacer uso del usuario hadoop que creamos anteriormente y asignar la propiedad de este archivo a ese usuario:

chown -R hadoopuser: hadoop / root / hadoop

Una mejor ubicación para Hadoop será el directorio / usr / local /, así que vamos a moverlo allí:

mv hadoop / usr / local /
cd / usr / local /

Agregar Hadoop a la ruta

Para ejecutar scripts de Hadoop, lo agregaremos a la ruta ahora. Para hacer esto, abra el archivo bashrc:

vi ~ /.bashrc

Agregue estas líneas al final del .bashrc para que la ruta pueda contener la ruta del archivo ejecutable de Hadoop:

# Configurar Hadoop y Java Home
exportar HADOOP_HOME = / usr / local / hadoop
exportar JAVA_HOME = / usr / lib / jvm / java-8-openjdk-amd64
export PATH = $ PATH: $ HADOOP_HOME / bin

El archivo se parece a:

Agregar Hadoop a la ruta

Como Hadoop hace uso de Java, debemos indicarle al archivo de entorno de Hadoop hadoop-env.sh donde esta ubicado. La ubicación de este archivo puede variar según las versiones de Hadoop. Para encontrar fácilmente dónde se encuentra este archivo, ejecute el siguiente comando justo fuera del directorio de Hadoop:

encontrar hadoop / -name hadoop-env.sh

Obtendremos la salida para la ubicación del archivo:

Ubicación del archivo de entorno

Editemos este archivo para informar a Hadoop sobre la ubicación del JDK de Java e inserte esto en la última línea del archivo y guárdelo:

exportar JAVA_HOME = / usr / lib / jvm / java-8-openjdk-amd64

La instalación y configuración de Hadoop ahora está completa. Estamos listos para ejecutar nuestra aplicación de muestra ahora. Pero espere, nunca hicimos una aplicación de muestra!

Ejecución de la aplicación de muestra con Hadoop

En realidad, la instalación de Hadoop viene con una aplicación de muestra incorporada que está lista para ejecutarse una vez que hayamos terminado con la instalación de Hadoop. Suena bien, verdad?

Ejecute el siguiente comando para ejecutar el ejemplo de JAR:

hadoop jar / root / hadoop / share / hadoop / mapreduce / hadoop-mapreduce-examples-3.0.1.jar wordcount / root / hadoop / README.txt / root / Salida

Hadoop mostrará cuánto procesamiento hizo en el nodo:

Estadísticas de procesamiento de Hadoop

Una vez que ejecuta el siguiente comando, vemos el archivo part-r-00000 como salida. Continúe y observe el contenido de la salida:

gato parte-r-00000

Obtendrá algo como:

Salida de recuento de palabras de Hadoop

Conclusión

En esta lección, vimos cómo podemos instalar y comenzar a usar Apache Hadoop en Ubuntu 17.10 máquina. Hadoop es excelente para almacenar y analizar una gran cantidad de datos y espero que este artículo lo ayude a comenzar a usarlo en Ubuntu rápidamente.