Installation spark sur ubuntu

02 Mai

Installation spark sur ubuntu

Spark peut être déployé de différentes manières.

Il fournit des liaisons natives pour les langages de programmation Java, Scala, Python et R, et prend en charge SQL, le streaming de données, l’apprentissage automatique et le traitement de graphes.

Dès qu’il est prêt, Spark peut s’exécuter dans un mode de cluster autonome qui nécessite simplement le framework Apache Spark et une machine virtuelle Java sur chaque ordinateur du cluster.

Dans ce tutoriel, on va voir comment installer spark sur ubuntu 16.04 en procédant comme suit:

Étape 1: Avant d’installer Spark, vous devez d’abord vous assurer que java 8 est installé:

    sudo add-apt-repository ppa:webupd8team/java
    sudo apt-get update
    sudo apt-get install oracle-java8-installer

sudo add-apt-repository ppa:webupd8team/java

sudo apt-get update

sudo apt-get install oracle-java8-installer

Vérifiez que Java est correctement installé:

    java -version

1	java -version

Configuration de l’environnement Java

    sudo apt-get install oracle-java8-set-default

1	sudo apt-get install oracle-java8-set-default

Étape 2: Vérifiez que vous avez correctement installé hadoop sur votre ordinateur

Cochez ce lien si vous avez besoin de savoir comment l’installer.

Étape 3: Téléchargez Apache Spark

Aller à page de téléchargements

Choisissez une version de Spark: 2.1.1 (2 mai 2017)

Choisissez un type de package: Pré-construit pour Hadoop 2.6

Étape 4: Terminez le processus d’installation

Déplacez le fichier téléchargé «spark-2.1.1-bin-hadoop2.6.tgz» vers votre domicile (~)
Compressez le:

    tar -xf spark-2.1.1-bin-hadoop2.6.tgz

1	tar -xf spark-2.1.1-bin-hadoop2.6.tgz

Créez un lien pour créer une installation:

    sudo ln -s ~/spark-2.1.1-bin-hadoop2.6 /usr/local/spark

1	sudo ln -s ~/spark-2.1.1-bin-hadoop2.6 /usr/local/spark

Éditez bashrc en utilisant cette ligne de commande:

    cd
    sudo gedit .bashrc

1 2	cd sudo gedit .bashrc

Ajoutez ces lignes:

    # - SPARK ENVIRONMENT VARIABLES START -#
    export SPARK_HOME=/usr/local/spark
    export PATH=$SPARK_HOME/bin:$PATH
    # — SPARK ENVIRONMENT VARIABLES END — #

# - SPARK ENVIRONMENT VARIABLES START -#

export SPARK_HOME=/usr/local/spark

export PATH=$SPARK_HOME/bin:$PATH

# — SPARK ENVIRONMENT VARIABLES END — #

Exécuter bashrc:

    . ~/.bashrc

1	. ~/.bashrc

Étape 5: Testez l’installation

Exécutez cette ligne de commande:

    spark-shell

1	spark-shell

La diffusion en continu structurée apporte des améliorations de haut niveau à Spark Streaming, mais elle repose actuellement sur le même schéma de traitement des données par diffusion en continu.

Cependant, l’équipe Apache Spark s’efforce de mettre en place une diffusion continue en continu sans microrepatch sur la plate-forme, ce qui devrait résoudre de nombreux problèmes de gestion des réponses à faible latence