Accueil > Big Data, SGBD, IA, BI, SAP > PySpark : traitement des données
Formation #BSI20

Formation PySpark - Traitement des données

Formation avec Restauration incluse
(Déjeuner, Petit Déjeuner et Pauses Cafés)

Durée : 4 jours

Code : BSI20


Sessions programmées :

Du 19 au 22 Jan. 2021

Du 09 au 12 Mars 2021

Du 11 au 14 Mai 2021

Du 13 au 16 Juil. 2021

Du 12 au 15 Oct. 2021

Du 14 au 17 Déc. 2021

Fin d'Inscription :
Le Bulletin d'Inscription doit être rempli, cacheté, signé et envoyé par email :
  • Pour les entreprises AU MAROC :
    Au minimum 10 JOURS OUVRÉS avant la date de formation
  • Pour les entreprises HORS MAROC :
    Au minimum 15 JOURS OUVRÉS avant la date de formation

Formation dans votre entreprise.

Durée : 4 jours

Code : BSI20


Vous souhaitez réaliser cette formation en vos locaux avec le même programme ?

Vous souhaitez personnaliser le programme de cette formation pour qu'elle réponde aux spécificités de votre entreprise ?

Objectifs

  • Comprendre le principe de fonctionnement de Spark
  • Utiliser l'API PySpark pour interagir avec Spark en Python
  • Utiliser les méthodes de Machine Learning avec la librairie MLlib de Spark
  • Traiter les flux de données avec Spark Streaming
  • Manipuler les données avec Spark SQL
Programme
1/ Introduction à Hadoop
  • Big Data
  • Architecture et composants de la plateforme Hadoop
  • L’architecture d’HDFS
  • Prise en main des concepts de base de l’architecture Hadoop (NameNode, DataNode, ResourceManager…)
  • YARN et MapReduce : comprendre les principes de fonctionnement
2/ Introduction à Spark
  • Présentation Spark, origine du projet
  • Apports, principe de fonctionnement (RDD, DataFrames, Data Sets)
  • Spark vs Mapreduce
  • Comparaison avec l'environnement Apache Hadoop
  • Les différents modules de Spark
  • Comment interagir avec Spark ?
  • PySpark : programmer avec Spark en Python
3/ Installation de Spark
  • Sur une infrastructure distribuée
  • En local
  • En Cloud (présentation avec Amazon AWS et Microsoft Azure)
4/ Spark pour la manipulation des données - SparkSQL
  • SparkSQL et DataFrames pour manipuler des données
  • Charger des données depuis Hadoop, depuis des fichiers CSV, texte, JSON…
  • Transformer des données (création de DataFrames, ajout de colonnes, filtres…)
5/ L'utilisation de spark.ml pour le machine learning
  • Apprentissage supervisé
  • Forêts aléatoires avec Spark
  • Mise en place d'un outil de recommandation
  • Traitement de données textuelles
  • Automatiser vos analyses avec des pipelines
6/ Apache spark streaming
  • Introduction à Spark Streaming
  • La notion de "DStream"
  • Principales sources de données
  • Utilisation de l'API
  • Manipulation des données
7/ Dataframe et apache spark sql
  • Apache Spark SQL et le SQL Context
  • Création de DataFrames
  • Transformer et requêter un Dataframe
  • Dataframes et RDD
  • Comparaison entre Spark SQL, Impala et Hive On Spark
  • Chargement et stockage de données (avec Hive, JSON…)
8/ GraphX et graphframes
  • Présentation de GraphX
  • Principe de création des graphes
  • API GraphX
  • Présentation de GraphFrames
  • GraphX vs GraphFrames
Approche Pédagogique

Approche Pédagogique

  • Pédagogie très opérationnelle fondée sur l'alternance entre théorie et pratique
  • Cas pratiques
  • Remise d’outils
  • Echanges d’expériences
Public cible

Public cible

  • Statisticiens
  • Consultants Big Data
  • Data analysts
  • Data scientists
Dates

Dates

  • Du 19 au 22 Jan. 2021
  • Du 09 au 12 Mars 2021
  • Du 11 au 14 Mai 2021
  • Du 13 au 16 Juil. 2021
  • Du 12 au 15 Oct. 2021
  • Du 14 au 17 Déc. 2021
  • Fin d'Inscription :
    Le Bulletin d'Inscription doit être rempli, cacheté, signé et envoyé par email :
    • Pour les entreprises AU MAROC : Au minimum 10 JOURS OUVRÉS avant la date de formation
    • Pour les entreprises HORS MAROC : Au minimum 15 JOURS OUVRÉS avant la date de formation