Accueil > Big Data, IA > Big Data : Pig, Hive et Impala avec Hadoop
Formation #BSI31

Formation Big Data : Pig, Hive et Impala avec Hadoop

Durée : 5 jours

Code : BSI31


Prochaines dates programmées :

Du 22 au 26 Avril 2024

Du 24 au 28 Juin 2024

Du 05 au 09 Août 2024

Du 21 au 25 Oct. 2024

Du 23 au 27 Déc. 2024

Fin d'Inscription :
Le Bulletin d'Inscription doit être rempli, cacheté, signé et envoyé par email : Au minimum 15 JOURS OUVRÉS avant la date de formation.
Si vous avez un besoin URGENT et que vous souhaitez une date de formation plus proche que les sessions programmées (minimum 15 à 20 jours ouvrés à date de votre demande)

Objectifs

  • Utiliser Hive et Impala pour améliorer la productivité sur les tâches d'analyse typiques
  • Automatiser le transfert des données dans le stockage Hadoop avec Flume et Sqoop
  • Stocker et analyser des données à l'aide de Hive et Impala
  • Interroger plusieurs ensembles de données pour une analyse avec Pig et Hive
  • Filtrer les données avec les opérations Extract-Transform-Load (ETL) avec Pig
Programme
1/ L’écosystème Hadoop
  • Big Data : problématiques
  • L’architecture MapReduce
  • Le processus ETL
  • Solutions apportées et manques d'Hadoop
  • L’environnement d’Hadoop
2/ Stocker les données dans HDFS
  • Réaliser un stockage fiable et sécurisé
  • Surveiller les mesures du stockage
  • Contrôler HDFS à partir de la ligne de commande
3/ Traitement parallèle avec MapReduce
  • Détailler l'approche MapReduce
  • Transférer les algorythmes et non les données
  • Décomposer les étapes clés d'une tâche MapReduce
4/ Automatiser le transfert des données
  • Faciliter l'entrée et la sortie des données
  • Agréger les données avec Flume
  • Configurer le fan in et le fan out des données
  • Déplacer les données relationnelles avec Sqoop
5/ Explorer l’outil apache Pig
  • Définition, caractéristiques et rayon d’action
  • Les cas d’utilisation de Pig
  • Le langage Pig Latin : caractéristiques et mise en œuvre
  • Démarrer avec Pig
6/ Traiter des données basiques avec Pig
  • Connaître les types et les caractéristiques de données simples
  • Charger les données et définir les champs
  • Gérer la sortie des données
  • Filtrer les données avec Pig
  • Utiliser les principales fonctions de traitement
7/ Traiter des données complexes avec Pig
  • Les différents formats de stockage
  • Connaître les types et les caractéristiques des données complexes et emboîtées
  • Grouper les données et utiliser la fonction built-in
  • Programmer des itérations de traitement de données groupées
8/ Utilisation avancée de pig
  • Effectuer des combinaisons d’ensembles de données
  • Exécuter des opérations sur des groupes de données
  • Paramètres avancés
  • Utiliser des macros et des fonctions utilisateurs (UDF)
  • Utiliser Pig avec d’autres langages
9/ Résolution de problèmes et optimisation
  • Méthodes de résolution de problèmes
  • Utiliser l’UI web d’Hadoop pour le trouble shooting
  • Méthodes de débogage par échantillonnage de données
  • Monitoring des performances
10/ Explorer l’outil apache Hive
  • Hive : définition, caractéristiques et rayon d’action
  • Le modèle de stockage de données de Hive
  • Hive et Pig : concurrence et complémentarités
  • Le langage de requête HiveQL
  • Démarrer avec Hive
11/ Analyse de données relationnelles avec Hive
  • Les bases et tableaux de données sous Hive
  • Connaître les types de données et leurs caractéristiques
  • Les formats de données dans Hive
  • Méthodes d’assemblage de données et fonctions de built-in
12/ Gestion des données avec Hive
  • Construire des bases de données et tableaux de gestion Hive
  • Utiliser des tableaux autogérés
  • Stocker le résultat des requêtes
  • Sécuriser l’accès aux données
13/ Repousser les limites de HIVEQL
  • Trier, répartir et regrouper des données
  • Réduire la complexité des requêtes avec les vues
  • Améliorer la performance des requêtes avec les index
14/ Déployer Hive en production
  • Concevoir les schémas de Hive
  • Établir la compression des données
  • Déboguer les scripts de Hive
15/ Rationaliser la gestion du stockage avec HCatalog
  • Unifier la vue des données avec HCatalog
  • Exploiter HCatalog pour accéder au metastore Hive
  • Communiquer via les interfaces HCatalog
  • Remplir une table Hive à partir de Pig
16/ Analyse de données textuelles et études sémantiques
  • Les principes du traitement de données textuelles
  • Utiliser les fonctions String
  • Principes et applications du « Opinion Mining »
17/ Optimisation et utilisation avancée
  • Mettre en œuvre les bonnes pratiques pour la performance des requêtes
  • Paramétrer les requêtes
  • Contrôler l’exécution des tâches
  • Partitionnement des données, bucketing et indexation
  • Utiliser des scripts pour transformer les données
  • Mettre en œuvre des fonctions utilisateurs (UDF)
18/ Explorer le moteur de requêtes Impala
  • Impala : définition, caractéristiques et rayon d’action
  • Impala, Pig et Hive : concurrence et complémentarités
  • Impala dans le monde des bases de données relationnelles
  • Exemples d’utilisations du Shell Impala
19/ Analyse de données avec Impala
  • Utiliser la syntaxe Impala
  • Connaître les types de données et leurs caractéristiques
  • Techniques de tri et de filtrage des données récoltées
  • Méthodes d’assemblage de données
  • Optimiser les performances
20/ Lancer le framework Spark
  • Réduire le temps d'accès aux données avec Shark
  • Interroger les données Hive avec Shark
Approche Pédagogique

Approche Pédagogique

  • Pédagogie très opérationnelle fondée sur l'alternance entre théorie et pratique
  • Cas pratiques
  • Remise d’outils
  • Echanges d’expériences
Public cible

Public cible

  • Architectes techniques
  • Développeurs
  • DSI
Dates

Dates

  • Du 22 au 26 Avril 2024
  • Du 24 au 28 Juin 2024
  • Du 05 au 09 Août 2024
  • Du 21 au 25 Oct. 2024
  • Du 23 au 27 Déc. 2024
  • Fin d'Inscription :
    Le Bulletin d'Inscription doit être rempli, cacheté, signé et envoyé par email : Au minimum 15 JOURS OUVRÉS avant la date de formation.