Accueil > Big Data, SGBD, IA, BI, SAP > Hadoop : développer des applications pour le Big Data
Formation #BSI25

Formation Hadoop : développer des applications pour le Big Data

Formation avec Restauration incluse
(Déjeuner, Petit Déjeuner et Pauses Cafés)

Durée : 5 jours

Code : BSI25


Sessions programmées :

Du 18 au 22 Jan. 2021

Du 15 au 19 Mars 2021

Du 17 au 21 Mai 2021

Du 19 au 23 Juil. 2021

Du 18 au 22 Oct. 2021

Du 20 au 24 Déc. 2021

Fin d'Inscription :
Le Bulletin d'Inscription doit être rempli, cacheté, signé et envoyé par email :
  • Pour les entreprises AU MAROC :
    Au minimum 10 JOURS OUVRÉS avant la date de formation
  • Pour les entreprises HORS MAROC :
    Au minimum 15 JOURS OUVRÉS avant la date de formation

Formation dans votre entreprise.

Durée : 5 jours

Code : BSI25


Vous souhaitez réaliser cette formation en vos locaux avec le même programme ?

Vous souhaitez personnaliser le programme de cette formation pour qu'elle réponde aux spécificités de votre entreprise ?

Objectifs

  • Connaître les principes du framework Hadoop
  • Développer des applications MapReduce (Yarn), Hive et Pig efficaces et pertinentes avec Hadoop
  • Charger des données non structurées des systèmes HDFS et HBase
  • Etre en mesure d'exploiter toute la puissance d’Hadoop
Programme
1/ Introduction
  • Les problématiques du Big Data
  • Historique du projet Hadoop
  • Comprendre les spécificités propres aux projets Big Data
  • Présentation du Cloud Computing
  • Clouds publics et privés
  • Les architectures Big Data à base du projet Hadoop
2/ Collecte de données et application de MapReduce
  • Analyse des flux de données dans l'entreprise
  • Données structurées et non structurées
  • Principe et objectifs du modèle de programmation MapReduce
  • La granularité de cohérence des données
  • Principe et objectifs du modèle de programmation MapReduce
  • Fonctions "map" et "reduce"
  • Couples (clés, valeurs)
  • Implémentation par le framework Hadoop
  • Etude de la collection d'exemples
3/ MapReduce / Yarn: principe et développement java
  • Le paradigme MapReduce et l’utilisation à travers Yarn
  • Implémentation de problématiques réelles avec le paradigme MapReduce
  • Implémentation de problématiques plus complexes
  • Utilisation des combinateurs et partitionners
  • Les bonnes pratiques pour le développement des applications MapReduce
  • Rédaction d'un premier programme et exécution avec Hadoop
4/ Programmation
  • Configuration des jobs
  • Notion de configuration
  • Les interfaces principales : Mapper, Reducer
  • La chaîne de production
  • Entrées
  • Input splits
  • Mapper
  • Combiner
  • Shuffle / sort
  • Reducer
  • Sortie
  • Partitioner
  • OutputCollector
  • Codecs
  • Compresseurs
  • Format des entrées et sorties d'un job MapReduce
  • InputFormat
  • OutputFormat
  • Type personnalisé : création d'un Writable spécifique
  • Utilisation
  • Contraintes
5/ Outils complémentaires
  • Introduction à Spring et Spring Data
  • Le namespace Hadoop pour Spring
  • Utiliser Spring pour simplifier la configuration Hadoop
  • Mise en oeuvre du cache distribué
  • Paramétrage d'un job : ToolRunner, transmission de propriétés
  • Accès à des systèmes externes : S3, hdfs, har, ...
6/ Streaming
  • Définition du streaming map/reduce
  • Création d'un job map/reduce en python
  • Répartition sur la ferme
  • Avantage et inconvénients
  • Liaisons avec des systèmes externes
  • Introduction au pont HadoopR
7/ PIG
  • Pattern et best practices MapReduce
  • Introduction à Pig
  • Caractéristiques du langage : latin
  • Installation / lancement
  • Ecriture d'un script Pig
  • Les fonctions de bases
  • Ajouts de fonctions personnalisées
  • Les UDF
  • Mise en oeuvre
8/ HIVE
  • Simplification du requêtage
  • Syntaxe de base
  • Création de tables
  • Ecriture de requêtes
  • Comparaison Pig / Hive
9/ Le stockage des données sur HDFS
  • Patterns d'usages et application au Cloud
  • Architecture et installation d'un système HDFS, journal, NameNode, DataNode
  • Opérations, commandes et gestion des commandes
  • L'API HDFS Java
  • Analyse de données avec Apache Pig
  • Le langage Pig Latin
  • Utiliser Apache Pig avec Java
  • Requêtage avec Apache Hive
  • Réplication de données
  • Partage de données sur une architecture HDFS
10/ Sécurité en environnement Hadoop
  • Configuration des ACLs
  • Gestion de l’authentification
Approche Pédagogique

Approche Pédagogique

  • Pédagogie très opérationnelle fondée sur l'alternance entre théorie et pratique
  • Cas pratiques
  • Remise d’outils
  • Echanges d’expériences
Public cible

Public cible

  • Concepteurs
  • Développeurs
Dates

Dates

  • Du 18 au 22 Jan. 2021
  • Du 15 au 19 Mars 2021
  • Du 17 au 21 Mai 2021
  • Du 19 au 23 Juil. 2021
  • Du 18 au 22 Oct. 2021
  • Du 20 au 24 Déc. 2021
  • Fin d'Inscription :
    Le Bulletin d'Inscription doit être rempli, cacheté, signé et envoyé par email :
    • Pour les entreprises AU MAROC : Au minimum 10 JOURS OUVRÉS avant la date de formation
    • Pour les entreprises HORS MAROC : Au minimum 15 JOURS OUVRÉS avant la date de formation