Tutoriel 0 : Hadoop Map Reduce Partitionner

Hadoop

Tutoriel 0 : Hadoop Map Reduce Partitionner

Au début, on commence par un simple travail de Hadoop.

 

Supposons qu’on a un gros fichier contenant de nombreux mots séparés par un espace et qu’on souhaite connaître le numéro d’apparition de chaque mot.

 

On a également besoin que les mots de [A-L] soient dans la première partie et les autres dans la deuxième partie.

 

Commençons par l’installation Hadoop en suivant ce lien.

 

Ensuite, vous devriez démarrer le démon Hadoop en appelant ces scripts:

 

 

une dernière étape avant de commencer, vous devez copier les fichiers d’entrée dans votre système de fichiers Hadoop local et créer des répertoires dans hdfs avant de les copier.

 

alors téléchargez les deux fichiers d’entrée (un petit fichier à tester): lien de téléchargement

 

Après cela, créez des chemins dans hdfs en appelant:

 

 

Ensuite, copiez-les sur hdfs en appelant une commande comme celle-ci:

 

 

Par exemple, si vous avez téléchargé les fichiers dans Téléchargements / lab0 / input /, la ligne de commande doit alors être:

 

 

Vous devez d’abord créer une classe de travail qui étend la classe configurée et implémente l’interface de l’outil.

 

En écrivant cette classe, vous donnerez au travail toutes les informations sur le format d’entrée, le format de sortie, le mappeur, le réducteur, le format de sortie clé et valeur du mappeur et du réducteur, etc…

 

 

Voyons comment fonctionne le mappeur.

 

Dans notre cas, le rôle du mappeur est d’écrire 1 en tant que valeur pour chaque mot (en tant que clé).

 

 

Voyons maintenant le partitioner, il devrait étendre le partitioner <MapperOutPutKeyType, MapperOutPutValueType>

 

Dans notre cas, il faut transmettre chaque clé du mappeur à un réducteur spécifique.

 

 

Examinons maintenant le réducteur. KeyInputFormat et FileInputFormat du filtre doivent être égaux à KeyOutputFormat et FileOutputFormat du mappeur.

 

Dans notre cas, le rôle du réducteur consiste à additionner la valeur de chaque mot (clé).

 

 

Exportez le fichier jar en tant que fichier jar exécutable et spécifiez WordCountJob en tant que classe principale, puis ouvrez le terminal et exécutez le travail en appelant:

 

 

Par exemple, si vous attribuez le nom lab0.jar au fichier jar, la ligne de commande est la suivante:

 

 

Vous pouvez consulter le résultat en appelant:

 

 

Avatar for Nizar Ellouze

Author: Nizar Ellouze

No Comments

Post a Comment

Comment
Name
Email
Website