
Installation spark sur ubuntu
Spark peut être déployé de différentes manières.
Il fournit des liaisons natives pour les langages de programmation Java, Scala, Python et R, et prend en charge SQL, le streaming de données, l’apprentissage automatique et le traitement de graphes.
Dès qu’il est prêt, Spark peut s’exécuter dans un mode de cluster autonome qui nécessite simplement le framework Apache Spark et une machine virtuelle Java sur chaque ordinateur du cluster.
Dans ce tutoriel, on va voir comment installer spark sur ubuntu 16.04 en procédant comme suit:
Étape 1: Avant d’installer Spark, vous devez d’abord vous assurer que java 8 est installé:
1 2 3 |
sudo add-apt-repository ppa:webupd8team/java sudo apt-get update sudo apt-get install oracle-java8-installer |
Vérifiez que Java est correctement installé:
1 |
java -version |
Configuration de l’environnement Java
1 |
sudo apt-get install oracle-java8-set-default |
Étape 2: Vérifiez que vous avez correctement installé hadoop sur votre ordinateur
Cochez ce lien si vous avez besoin de savoir comment l’installer.
Étape 3: Téléchargez Apache Spark
Aller à page de téléchargements
Choisissez une version de Spark: 2.1.1 (2 mai 2017)
Choisissez un type de package: Pré-construit pour Hadoop 2.6
Étape 4: Terminez le processus d’installation
Déplacez le fichier téléchargé «spark-2.1.1-bin-hadoop2.6.tgz» vers votre domicile (~)
Compressez le:
1 |
tar -xf spark-2.1.1-bin-hadoop2.6.tgz |
Créez un lien pour créer une installation:
1 |
sudo ln -s ~/spark-2.1.1-bin-hadoop2.6 /usr/local/spark |
Éditez bashrc en utilisant cette ligne de commande:
1 2 |
cd sudo gedit .bashrc |
Ajoutez ces lignes:
1 2 3 4 |
# - SPARK ENVIRONMENT VARIABLES START -# export SPARK_HOME=/usr/local/spark export PATH=$SPARK_HOME/bin:$PATH # — SPARK ENVIRONMENT VARIABLES END — # |
Exécuter bashrc:
1 |
. ~/.bashrc |
Étape 5: Testez l’installation
Exécutez cette ligne de commande:
1 |
spark-shell |
La diffusion en continu structurée apporte des améliorations de haut niveau à Spark Streaming, mais elle repose actuellement sur le même schéma de traitement des données par diffusion en continu.
Cependant, l’équipe Apache Spark s’efforce de mettre en place une diffusion continue en continu sans microrepatch sur la plate-forme, ce qui devrait résoudre de nombreux problèmes de gestion des réponses à faible latence