Fin d'Inscription : Le Bulletin d'Inscription doit être rempli, cacheté, signé et envoyé par email : Au minimum 15 JOURS OUVRÉS avant la date de formation.
Si vous avez un besoin URGENT et que vous souhaitez une date de formation plus proche que les sessions programmées (minimum 15 à 20 jours ouvrés à date de votre demande)
Architecture et composants de la plateforme Hadoop
L’architecture d’HDFS
Prise en main des concepts de base de l’architecture Hadoop (NameNode, DataNode, ResourceManager…)
YARN et MapReduce : comprendre les principes de fonctionnement
2/ Introduction à Spark
Présentation Spark, origine du projet
Apports, principe de fonctionnement (RDD, DataFrames, Data Sets)
Spark vs Mapreduce
Comparaison avec l'environnement Apache Hadoop
Les différents modules de Spark
Comment interagir avec Spark ?
PySpark : programmer avec Spark en Python
3/ Installation de Spark
Sur une infrastructure distribuée
En local
En Cloud (présentation avec Amazon AWS et Microsoft Azure)
4/ Spark pour la manipulation des données - SparkSQL
SparkSQL et DataFrames pour manipuler des données
Charger des données depuis Hadoop, depuis des fichiers CSV, texte, JSON…
Transformer des données (création de DataFrames, ajout de colonnes, filtres…)
5/ L'utilisation de spark.ml pour le machine learning
Apprentissage supervisé
Forêts aléatoires avec Spark
Mise en place d'un outil de recommandation
Traitement de données textuelles
Automatiser vos analyses avec des pipelines
6/ Apache spark streaming
Introduction à Spark Streaming
La notion de "DStream"
Principales sources de données
Utilisation de l'API
Manipulation des données
7/ Dataframe et apache spark sql
Apache Spark SQL et le SQL Context
Création de DataFrames
Transformer et requêter un Dataframe
Dataframes et RDD
Comparaison entre Spark SQL, Impala et Hive On Spark
Chargement et stockage de données (avec Hive, JSON…)
8/ GraphX et graphframes
Présentation de GraphX
Principe de création des graphes
API GraphX
Présentation de GraphFrames
GraphX vs GraphFrames
Approche Pédagogique
Approche Pédagogique
Pédagogie très opérationnelle fondée sur l'alternance entre théorie et pratique
Cas pratiques
Remise d’outils
Echanges d’expériences
Public cible
Public cible
Statisticiens
Consultants Big Data
Data analysts
Data scientists
Dates
Dates
Du 28 au 31 Mai 2024
Du 09 au 12 Juil. 2024
Du 10 au 13 Sept. 2024
Du 12 au 15 Nov. 2024
Fin d'Inscription : Le Bulletin d'Inscription doit être rempli, cacheté, signé et envoyé par email : Au minimum 15 JOURS OUVRÉS avant la date de formation.