Fin d'Inscription : Le Bulletin d'Inscription doit être rempli, cacheté, signé et envoyé par email : Au minimum 15 JOURS OUVRÉS avant la date de formation.
Si vous avez un besoin URGENT et que vous souhaitez une date de formation plus proche que les sessions programmées (minimum 15 à 20 jours ouvrés à date de votre demande)
Soumission de jobs, supervision depuis l'interface web
Configurer un cluster en mode Standalone
Packager une application avec ses dépendances
Déployer des applications avec Spark-submit
Dimensionner un cluster
12/ Partitionnement et programmation parallèle
Localiser les données du HDFS
Partitionner les RDD
Programmer et exécuter les opérations parallèles
Mettre en cache le partitionnement des données
Gérer la persistance des données
13/ Concevoir une application avec Spark
Présentation et configuration des propriétés de Spark
Prototypage d’opérations avec Spark Shell
Compilation et génération d’une application
14/ Traiter les données en temps réel avec Spark streaming
Notion de Streaming
Objectifs , principe de fonctionnement : stream processing
Présentation des Discretized Streams (DStreams)
Source de données : HDFS, Flume, Kafka, …
Manipulation de l'API
Comparaison avec Apache Storm
15/ Manipuler des graphes avec GraphX
Présentation de GraphX
Les différentes opérations
Créer des graphes
Vertex and Edge RDD
Présentation de différents algorithmes
16/ Machine learning et implémentation d’algorithmes
Introduction au Machine Learning
Fonctionnalités : Machine Learning avec Spark, gestion de la persistance
Les fonctionnalités d'extraction et les statistiques basiques
Les différentes classes d'algorithmes
Présentation de SparkML et MLlib
Implémentations des différents algorithmes dans MLlib
Support de RDD
Mise en oeuvre avec les DataFrames
Algorithmes itératifs et résolution de problèmes
Opérations sur les données graphiques
Les terminologies communes au Machine Learning
Applications du Machine Learning
Spark ML API
Transformateurs et estimateurs
Les pipelines
Travailler avec un pipeline
DAG Pipelines
La vérification pendant l'exécution
Passage de paramètres
Sélection de modèles via une validation croisée
Les types de données
Mettre en place le Clustering en utilisant K-Means
Gaussian Mixture
Power Iteration Clustering (PIC)
Latent Dirichlet Allocation (LDA)
Le filtrage collaboratif
Classification
Régression
Exemple de régression
Linéaire
17/ Optimisation de Spark
Gestion des variables partagées
Données broadcastées
Accumulateurs
Méthodes et outils d’optimisation des performances
Approche Pédagogique
Approche Pédagogique
Pédagogie très opérationnelle fondée sur l'alternance entre théorie et pratique
Cas pratiques
Remise d’outils
Echanges d’expériences
Public cible
Public cible
Développeurs
Architectes
Dates
Dates
Du 14 au 17 Mai 2024
Du 16 au 19 Juil. 2024
Du 17 au 20 Sept. 2024
Du 26 au 29 Nov. 2024
Fin d'Inscription : Le Bulletin d'Inscription doit être rempli, cacheté, signé et envoyé par email : Au minimum 15 JOURS OUVRÉS avant la date de formation.