Instalación de Apache Spark en Ubuntu 17.10

Apache Spark es una herramienta de análisis de datos que se puede utilizar para procesar datos de HDFS, S3 u otras fuentes de datos en la memoria. En esta publicación, instalaremos Apache Spark en Ubuntu 17.10 máquina.

Versión de Ubuntu

Para esta guía, usaremos la versión 17 de Ubuntu.10 (GNU / Linux 4.13.0-38-genérico x86_64).

Apache Spark es parte del ecosistema de Hadoop para Big Data. Intente instalar Apache Hadoop y cree una aplicación de muestra con él.

Actualizar paquetes existentes

Para iniciar la instalación de Spark, es necesario que actualicemos nuestra máquina con los últimos paquetes de software disponibles. Podemos hacer esto con:

sudo apt-get update && sudo apt-get -y dist-upgrade

Como Spark está basado en Java, necesitamos instalarlo en nuestra máquina. Podemos usar cualquier versión de Java por encima de Java 6. Aquí, usaremos Java 8:

sudo apt-get -y instalar openjdk-8-jdk-headless

Descarga de archivos Spark

Todos los paquetes necesarios ahora existen en nuestra máquina. Estamos listos para descargar los archivos TAR de Spark necesarios para que podamos comenzar a configurarlos y ejecutar un programa de muestra con Spark también.

En esta guía, instalaremos Spark v2.3.0 disponible aquí:

Página de descarga de Spark

Descarga los archivos correspondientes con este comando:

wget http: // www-us.apache.org / dist / spark / spark-2.3.0 / chispa-2.3.0-bin-hadoop2.7.tgz

Dependiendo de la velocidad de la red, esto puede tardar unos minutos ya que el archivo es de gran tamaño:

Descargando Apache Spark

Ahora que tenemos el archivo TAR descargado, podemos extraerlo en el directorio actual:

alquitrán xvzf chispa-2.3.0-bin-hadoop2.7.tgz

Esto tardará unos segundos en completarse debido al gran tamaño de archivo del archivo:

Archivos no archivados en Spark

Cuando se trata de actualizar Apache Spark en el futuro, puede crear problemas debido a las actualizaciones de Path. Estos problemas se pueden evitar creando un enlace suave a Spark. Ejecute este comando para crear un enlace suave:

ln -s chispa-2.3.0-bin-hadoop2.7 chispa

Añadiendo chispa a la ruta

Para ejecutar scripts de Spark, lo agregaremos a la ruta ahora. Para hacer esto, abra el archivo bashrc:

vi ~ /.bashrc

Agregue estas líneas al final del .bashrc para que la ruta pueda contener la ruta del archivo ejecutable de Spark:

SPARK_HOME = / LinuxHint / chispa
export PATH = $ SPARK_HOME / bin: $ PATH

Ahora, el archivo se ve así:

Añadiendo Spark a PATH

Para activar estos cambios, ejecute el siguiente comando para el archivo bashrc:

fuente ~ /.bashrc

Lanzamiento de Spark Shell

Ahora, cuando estemos justo fuera del directorio Spark, ejecute el siguiente comando para abrir el shell apark:

./ chispa / bin / chispa-shell

Veremos que Spark shell está abierto ahora:

Lanzamiento de Spark shell

Podemos ver en la consola que Spark también ha abierto una Consola Web en el puerto 404. Démosle una visita:

Consola web Apache Spark

Aunque operaremos en la propia consola, el entorno web es un lugar importante a tener en cuenta cuando ejecuta trabajos Spark pesados para que sepa lo que está sucediendo en cada trabajo Spark que ejecuta.

Verifique la versión de Spark shell con un comando simple:

Carolina del Sur.versión

Recibiremos algo como:

res0: String = 2.3.0

Hacer una aplicación Spark de muestra con Scala

Ahora, crearemos una aplicación de muestra de Word Counter con Apache Spark. Para hacer esto, primero cargue un archivo de texto en Spark Context en Spark shell:

scala> var Data = sc.textFile ("/ root / LinuxHint / spark / README.Maryland")
Datos: org.apache.Chispa - chispear.rdd.RDD [Cadena] = / root / LinuxHint / spark / README.md MapPartitionsRDD [1] en textFile en: 24
scala>

Ahora, el texto presente en el archivo debe dividirse en tokens que Spark pueda administrar:

scala> var tokens = Datos.flatMap (s => s.separar(" "))
tokens: org.apache.Chispa - chispear.rdd.RDD [String] = MapPartitionsRDD [2] en flatMap en: 25
scala>

Ahora, inicialice el recuento de cada palabra en 1:

scala> var tokens_1 = tokens.mapa (s => (s, 1))
tokens_1: org.apache.Chispa - chispear.rdd.RDD [(String, Int)] = MapPartitionsRDD [3] en el mapa en: 25
scala>

Finalmente, calcule la frecuencia de cada palabra del archivo:

var sum_each = tokens_1.reduceByKey ((a, b) => a + b)

Es hora de mirar la salida del programa. Recoge las fichas y sus respectivos recuentos:

scala> sum_each.recoger()
res1: Array [(String, Int)] = Array ((paquete, 1), (For, 3), (Programas, 1), (procesando.,1), (Porque, 1), (El, 1), (página] (http: // spark.apache.org / documentación.html).,1), (grupo.,1), (su, 1), ([ejecutar, 1), (que, 1), (API, 1), (tener, 1), (Probar, 1), (cálculo, 1), (hasta, 1 ), (varios, 1), (Este, 2), (gráfico, 1), (Colmena, 2), (almacenamiento, 1), (["Especificando, 1), (Para, 2), (" hilo " , 1), (Una vez, 1), (["Útil, 1), (preferir, 1), (SparkPi, 2), (motor, 1), (versión, 1), (archivo, 1), (documentación ,, 1), (procesando ,, 1), (el, 24), (son, 1), (sistemas.,1), (params, 1), (no, 1), (diferente, 1), (referirse, 2), (Interactivo, 2), (R ,, 1), (dado.,1), (si, 4), (compilar, 4), (cuando, 1), (be, 2), (Pruebas, 1), (Apache, 1), (hilo, 1), (programas ,, 1 ), (incluyendo, 4), (./ bin / run-example, 2), (Spark.,1), (paquete.,1), (1000).count (), 1), (Versions, 1), (HDFS, 1), (D…
scala>

Excelente! Pudimos ejecutar un ejemplo simple de Word Counter utilizando el lenguaje de programación Scala con un archivo de texto ya presente en el sistema.

Conclusión

En esta lección, analizamos cómo podemos instalar y comenzar a usar Apache Spark en Ubuntu 17.10 máquina y ejecute una aplicación de muestra en ella también.

Lea más publicaciones basadas en Ubuntu aquí.