Formation #BSI20

Formation PySpark : traitement des données

Durée : 4 jours

Code : BSI20

Prochaines dates programmées :

Du 28 au 31 Mai 2024

Du 09 au 12 Juil. 2024

Du 10 au 13 Sept. 2024

Du 12 au 15 Nov. 2024

Objectifs

Comprendre le principe de fonctionnement de Spark

Utiliser l'API PySpark pour interagir avec Spark en Python

Utiliser les méthodes de Machine Learning avec la librairie MLlib de Spark

Traiter les flux de données avec Spark Streaming

Manipuler les données avec Spark SQL

Programme

1/ Introduction à Hadoop

Big Data

Architecture et composants de la plateforme Hadoop

L’architecture d’HDFS

Prise en main des concepts de base de l’architecture Hadoop (NameNode, DataNode, ResourceManager…)

YARN et MapReduce : comprendre les principes de fonctionnement

2/ Introduction à Spark

Présentation Spark, origine du projet

Apports, principe de fonctionnement (RDD, DataFrames, Data Sets)

Spark vs Mapreduce

Comparaison avec l'environnement Apache Hadoop

Les différents modules de Spark

Comment interagir avec Spark ?

PySpark : programmer avec Spark en Python

3/ Installation de Spark

Sur une infrastructure distribuée

En local

En Cloud (présentation avec Amazon AWS et Microsoft Azure)

4/ Spark pour la manipulation des données - SparkSQL

SparkSQL et DataFrames pour manipuler des données

Charger des données depuis Hadoop, depuis des fichiers CSV, texte, JSON…

Transformer des données (création de DataFrames, ajout de colonnes, filtres…)

5/ L'utilisation de spark.ml pour le machine learning

Apprentissage supervisé

Forêts aléatoires avec Spark

Mise en place d'un outil de recommandation

Traitement de données textuelles

Automatiser vos analyses avec des pipelines

6/ Apache spark streaming

Introduction à Spark Streaming

La notion de "DStream"

Principales sources de données

Utilisation de l'API

Manipulation des données

7/ Dataframe et apache spark sql

Apache Spark SQL et le SQL Context

Création de DataFrames

Transformer et requêter un Dataframe

Dataframes et RDD

Comparaison entre Spark SQL, Impala et Hive On Spark

Chargement et stockage de données (avec Hive, JSON…)

8/ GraphX et graphframes

Présentation de GraphX

Principe de création des graphes

API GraphX

Présentation de GraphFrames

GraphX vs GraphFrames

Approche Pédagogique

Pédagogie très opérationnelle fondée sur l'alternance entre théorie et pratique

Cas pratiques

Remise d’outils

Echanges d’expériences

Public cible

Statisticiens

Consultants Big Data

Data analysts

Data scientists

Dates

Du 28 au 31 Mai 2024
Du 09 au 12 Juil. 2024
Du 10 au 13 Sept. 2024
Du 12 au 15 Nov. 2024