
Tutoriel installation Hadoop single node
Dans ce tutoriel, on va voir comment installer un Hadoop single node en suivant les étapes suivantes :
Étape 1: Avant d’installer Hadoop, vous devez d’abord vous assurer que java8 est installé
1 2 3 |
sudo add-apt-repository ppa:webupd8team/java sudo apt-get update sudo apt-get install oracle-java8-installer |
Vérifiez que Java est correctement installé
1 |
java -version |
Configurez l’environnement Java
Étape 2: installez le mode Hadoop single node
Ajoutez d’abord un utilisateur Hadoop avec un accès administrateur
1 2 3 |
sudo addgroup hadoop sudo adduser --ingroup hadoop hduser sudo usermod -a -G sudo hduser |
puis connectez-vous avec cet utilisateur
Installez SSH:
1 |
sudo apt-get install openssh-server |
Générez des clés SSH, il n’est donc pas nécessaire de saisir un mot de passe à chaque démarrage du processus Hadoop:
1 |
cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys |
Et puisque Hadoop ne fonctionne pas sur IPv6, on doit alors le désactiver
1 |
sudo gedit /etc/sysctl.conf |
Et ajoutez ces lignes à la fin :
1 2 3 4 |
# disable ipv6 net.ipv6.conf.all.disable_ipv6 = 1 net.ipv6.conf.default.disable_ipv6 = 1 net.ipv6.conf.lo.disable_ipv6 = 1 |
Téléchargez apache hadoop 2.6.0 :
1 2 3 4 5 |
cd Download wget https://archive.apache.org/dist/hadoop/core/hadoop-2.6.0/hadoop-2.6.0.tar.gz sudo tar -xzvf hadoop-2.6.0.tar.gz sudo mv hadoop-2.6.0 /usr/local/hadoop sudo chown hduser:hadoop -R /usr/local/hadoop |
Créez des répertoires Hadoop temp pour Namenode et Datanode
1 2 3 |
sudo mkdir -p /usr/local/hadoop_tmp/hdfs/namenode sudo mkdir -p /usr/local/hadoop_tmp/hdfs/datanode sudo chown hduser:hadoop -R /usr/local/hadoop_tmp/ |
Mettez à jour bashrc
1 2 |
cd sudo gedit .bashrc |
Et ajoutez ces lignes à la fin:
1 2 3 4 5 6 7 8 9 10 11 12 |
# -- HADOOP ENVIRONMENT VARIABLES START -- # export JAVA_HOME=/usr/lib/jvm/java-8-oracle export HADOOP_HOME=/usr/local/hadoop export PATH=$PATH:$HADOOP_HOME/bin export PATH=$PATH:$HADOOP_HOME/sbin export HADOOP_MAPRED_HOME=$HADOOP_HOME export HADOOP_COMMON_HOME=$HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOME export YARN_HOME=$HADOOP_HOME export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib" # -- HADOOP ENVIRONMENT VARIABLES END -- # |
puis exécutez bash:
1 2 |
cd . ~/.bashrc |
Maintenant, configurez Hadoop:
1 2 |
cd /usr/local/hadoop/etc/hadoop sudo gedit hadoop-env.sh |
Mettez à jour de la variable JAVA_HOME,
1 |
JAVA_HOME=/usr/lib/jvm/java-8-oracle |
1 |
sudo gedit core-site.xml |
Collez ces lignes dans la balise <configuration>
1 2 3 4 |
<property> <name>fs.default.name</name> <value>hdfs://localhost:9000</value> </property> |
1 |
sudo gedit hdfs-site.xml |
ainsi collez ces lignes dans la balise <configuration>
1 2 3 4 5 6 7 8 9 10 11 12 13 14 |
<property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>file:/usr/local/hadoop_tmp/hdfs/namenode</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:/usr/local/hadoop_tmp/hdfs/datanode</value> </property> |
1 |
sudo gedit yarn-site.xml |
et colle ces lignes dans la balise <configuration>
1 2 3 4 5 6 7 8 9 |
<property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name> <value>org.apache.hadoop.mapred.ShuffleHandler</value> </property> |
1 2 |
sudo cp mapred-site.xml.template mapred-site.xml sudo gedit mapred-site.xml |
Et finalement colle ces lignes dans la balise <configuration>
1 2 3 4 |
<property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> |
Formons maintenant le nom de code
1 2 |
cd hdfs namenode -format |
Maintenant commençons le processus Hadoop
1 2 |
start-dfs.sh start-yarn.sh |
Au lieu de cela, vous pouvez également utiliser start-all.sh à la fois ci-dessus, mais il est maintenant obsolète. Il n’est donc pas recommandé de l’utiliser pour de meilleures opérations Hadoop.
Vérifiez que le processus Hadoop est en cours d’exécution, tapez jps et vérifiez si tous les services Hadoop sont en cours d’exécution
1 2 |
cd jps |
Vous pouvez également consulter Resource Manager en accédant à ce lien : http: // localhost: 8088/
Pour arrêter tout processus Hadoop, lancez la commande suivante :
1 |
stop-all.sh |