Tutoriel installation Hadoop single node

22 Avr

Tutoriel installation Hadoop single node

Dans ce tutoriel, on va voir comment installer un Hadoop single node en suivant les étapes suivantes :

Étape 1: Avant d’installer Hadoop, vous devez d’abord vous assurer que java8 est installé

    sudo add-apt-repository ppa:webupd8team/java
    sudo apt-get update
    sudo apt-get install oracle-java8-installer

sudo add-apt-repository ppa:webupd8team/java

sudo apt-get update

sudo apt-get install oracle-java8-installer

Vérifiez que Java est correctement installé

    java -version

1	java -version

Configurez l’environnement Java

Étape 2: installez le mode Hadoop single node

Ajoutez d’abord un utilisateur Hadoop avec un accès administrateur

    sudo addgroup hadoop
    sudo adduser --ingroup hadoop hduser
    sudo usermod -a -G sudo hduser

sudo addgroup hadoop

sudo adduser --ingroup hadoop hduser

sudo usermod -a -G sudo hduser

puis connectez-vous avec cet utilisateur

Installez SSH:

    sudo apt-get install openssh-server

1	sudo apt-get install openssh-server

Générez des clés SSH, il n’est donc pas nécessaire de saisir un mot de passe à chaque démarrage du processus Hadoop:

    cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys

1	cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys

Et puisque Hadoop ne fonctionne pas sur IPv6, on doit alors le désactiver

    sudo gedit /etc/sysctl.conf

1	sudo gedit /etc/sysctl.conf

Et ajoutez ces lignes à la fin :

    # disable ipv6
    net.ipv6.conf.all.disable_ipv6 = 1
    net.ipv6.conf.default.disable_ipv6 = 1
    net.ipv6.conf.lo.disable_ipv6 = 1

# disable ipv6

net.ipv6.conf.all.disable_ipv6 = 1

net.ipv6.conf.default.disable_ipv6 = 1

net.ipv6.conf.lo.disable_ipv6 = 1

Téléchargez apache hadoop 2.6.0 :

    cd Download
    wget https://archive.apache.org/dist/hadoop/core/hadoop-2.6.0/hadoop-2.6.0.tar.gz
    sudo tar -xzvf hadoop-2.6.0.tar.gz
    sudo mv hadoop-2.6.0 /usr/local/hadoop
    sudo chown hduser:hadoop -R /usr/local/hadoop

cd Download

wget https://archive.apache.org/dist/hadoop/core/hadoop-2.6.0/hadoop-2.6.0.tar.gz

sudo tar -xzvf hadoop-2.6.0.tar.gz

sudo mv hadoop-2.6.0 /usr/local/hadoop

sudo chown hduser:hadoop -R /usr/local/hadoop

Créez des répertoires Hadoop temp pour Namenode et Datanode

    sudo mkdir -p /usr/local/hadoop_tmp/hdfs/namenode
    sudo mkdir -p /usr/local/hadoop_tmp/hdfs/datanode
    sudo chown hduser:hadoop -R /usr/local/hadoop_tmp/

sudo mkdir -p /usr/local/hadoop_tmp/hdfs/namenode

sudo mkdir -p /usr/local/hadoop_tmp/hdfs/datanode

sudo chown hduser:hadoop -R /usr/local/hadoop_tmp/

Mettez à jour bashrc

    cd
    sudo gedit .bashrc

1 2	cd sudo gedit .bashrc

Et ajoutez ces lignes à la fin:

    # -- HADOOP ENVIRONMENT VARIABLES START -- #
    export JAVA_HOME=/usr/lib/jvm/java-8-oracle
    export HADOOP_HOME=/usr/local/hadoop
    export PATH=$PATH:$HADOOP_HOME/bin
    export PATH=$PATH:$HADOOP_HOME/sbin
    export HADOOP_MAPRED_HOME=$HADOOP_HOME
    export HADOOP_COMMON_HOME=$HADOOP_HOME
    export HADOOP_HDFS_HOME=$HADOOP_HOME
    export YARN_HOME=$HADOOP_HOME
    export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
    export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"
    # -- HADOOP ENVIRONMENT VARIABLES END -- #

# -- HADOOP ENVIRONMENT VARIABLES START -- #

export JAVA_HOME=/usr/lib/jvm/java-8-oracle

export HADOOP_HOME=/usr/local/hadoop

export PATH=$PATH:$HADOOP_HOME/bin

export PATH=$PATH:$HADOOP_HOME/sbin

export HADOOP_MAPRED_HOME=$HADOOP_HOME

export HADOOP_COMMON_HOME=$HADOOP_HOME

export HADOOP_HDFS_HOME=$HADOOP_HOME

export YARN_HOME=$HADOOP_HOME

export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native

export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"

# -- HADOOP ENVIRONMENT VARIABLES END -- #

puis exécutez bash:

    cd
    . ~/.bashrc

1 2	cd . ~/.bashrc

Maintenant, configurez Hadoop:

    cd /usr/local/hadoop/etc/hadoop
    sudo gedit hadoop-env.sh

1 2	cd /usr/local/hadoop/etc/hadoop sudo gedit hadoop-env.sh

Mettez à jour de la variable JAVA_HOME,

    JAVA_HOME=/usr/lib/jvm/java-8-oracle

1	JAVA_HOME=/usr/lib/jvm/java-8-oracle

    sudo gedit core-site.xml

1	sudo gedit core-site.xml

Collez ces lignes dans la balise <configuration>

    <property>
        <name>fs.default.name</name>
        <value>hdfs://localhost:9000</value>
    </property>

<name>fs.default.name</name>

<value>hdfs://localhost:9000</value>

</property>

    sudo gedit hdfs-site.xml

1	sudo gedit hdfs-site.xml

ainsi collez ces lignes dans la balise <configuration>

    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>

    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/usr/local/hadoop_tmp/hdfs/namenode</value>
    </property>

    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:/usr/local/hadoop_tmp/hdfs/datanode</value>
    </property>

<name>dfs.replication</name>

</property>

<name>dfs.namenode.name.dir</name>

<value>file:/usr/local/hadoop_tmp/hdfs/namenode</value>

</property>

<name>dfs.datanode.data.dir</name>

<value>file:/usr/local/hadoop_tmp/hdfs/datanode</value>

</property>

    sudo gedit yarn-site.xml

1	sudo gedit yarn-site.xml

et colle ces lignes dans la balise <configuration>

    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>

    <property>
        <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
        <value>org.apache.hadoop.mapred.ShuffleHandler</value>
    </property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>

<value>org.apache.hadoop.mapred.ShuffleHandler</value>

</property>

    sudo cp mapred-site.xml.template mapred-site.xml
    sudo gedit mapred-site.xml

1 2	sudo cp mapred-site.xml.template mapred-site.xml sudo gedit mapred-site.xml

Et finalement colle ces lignes dans la balise <configuration>

    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>

<name>mapreduce.framework.name</name>

</property>

Formons maintenant le nom de code

    cd
    hdfs namenode -format

1 2	cd hdfs namenode -format

Maintenant commençons le processus Hadoop

    start-dfs.sh
    start-yarn.sh

1 2	start-dfs.sh start-yarn.sh

Au lieu de cela, vous pouvez également utiliser start-all.sh à la fois ci-dessus, mais il est maintenant obsolète. Il n’est donc pas recommandé de l’utiliser pour de meilleures opérations Hadoop.

Vérifiez que le processus Hadoop est en cours d’exécution, tapez jps et vérifiez si tous les services Hadoop sont en cours d’exécution

    cd
    jps

jps

Vous pouvez également consulter Resource Manager en accédant à ce lien : http: // localhost: 8088/

Pour arrêter tout processus Hadoop, lancez la commande suivante :

    stop-all.sh

1	stop-all.sh

Author: Nizar Ellouze

Partagez

Tweetez

Partagez

0 Partages

Tutoriel installation Hadoop single node