Accueil > Big Data, SGBD, IA, BI, SAP > Spark Scala : traitement des données
Formation #BSI21

Formation Spark Scala : traitement des données

Formation avec Restauration incluse
(Déjeuner, Petit Déjeuner et Pauses Cafés)

Durée : 4 jours

Code : BSI21


Sessions programmées :

Du 09 au 12 Fév. 2021

Du 27 au 30 Avril 2021

Du 29 Juin au 02 Juil. 2021

Du 14 au 17 Sept. 2021

Du 09 au 12 Nov. 2021

Fin d'Inscription :
Le Bulletin d'Inscription doit être rempli, cacheté, signé et envoyé par email :
  • Pour les entreprises AU MAROC :
    Au minimum 10 JOURS OUVRÉS avant la date de formation
  • Pour les entreprises HORS MAROC :
    Au minimum 15 JOURS OUVRÉS avant la date de formation

Formation dans votre entreprise.

Durée : 4 jours

Code : BSI21


Vous souhaitez réaliser cette formation en vos locaux avec le même programme ?

Vous souhaitez personnaliser le programme de cette formation pour qu'elle réponde aux spécificités de votre entreprise ?

Objectifs

  • Développer des applications avec Apache Spark en utilisant Scala comme language de programmation
  • Découvrir MLLib pour du machine learning sur Spark
  • Optimiser une application Spark
Programme
1/ Introduction au Big Data
  • Introduction au Big Data
  • Les challenges du Big Data
  • Batch vs le temps réel dans le Big Data Analytics
  • Vue d'ensemble de l'écosystème
  • Les options de l'analyse en temps réel
  • Les solutions Spark apportées au Big Data
2/ Introduction à Spark
  • Introduction au Big Data
  • Historique du Framework
  • Streaming Data - Spark
  • In-memory Data - Spark
  • Présentation de Spark
  • Origine du projet
  • Principes de base du fonctionnement de Spark
  • Environnement et outils de Spark
  • Comparaison avec l'environnement Apache Hadoop
  • Les différents modules de Spark
  • Langages supportés
  • Ecosystème Spark
  • Les modes de Spark
  • Installation de Spark
  • Vue d'ensemble de Spark en cluster
  • Spark Standalone cluster
  • Spark Web UI
3/ Introduction à Scala pour apache Spark
  • Présentation de Scala
  • Pourquoi Scala avec Spark ?
  • Scala dans les autres framework
  • Introduction à Scala REPL
  • Les opérations basiques sur Scala
  • Les types de variables dans Scala
  • Les structures de contrôles dans Scala (boucles, fonctions, procédures)
  • Les collections dans Scala (Array, ArrayBuffer, Map, Tuples, Lists...)
4/ Les opérations communes sur Spark
  • Utilisation de Spark Shell
  • Création d'un contexte Spark
  • Chargement d'un fichier en Shell
  • Réalisation d'opérations basiques sur un fichier avec Spark Shell
  • Présentation de l'environnement de développement SBT
  • Créer un projet Spark avec SBT
  • Exécuter un projet Spark avec SBT
  • Le mode local
  • Le mode Spark
  • Le caching sur Spark
  • Persistance distribuée
5/ Introduction aux RDD et dataframe
  • Transformations dans le RDD
  • Actions dans le RDD
  • Chargement de données dans RDD
  • Enregistrement des données à travers RDD
  • Paire clé-valeur "RDD MapReduce" et les paires "RDD Operations"
  • Intégration HDFS avec Spark et Hadoop
  • Intégration YARN avec Spark et Hadoop
  • Gestion des fichiers de séquences et les partitionner
6/ Apache spark Mllib
  • Architecture de Spark Streaming
  • Premier programme avec Spark Streaming
  • Les transformations dans Spark Streaming
  • La "fault tolerance" dans Spark Streaming
  • Checkpointing
  • Niveaux de parallélismes
  • Machine Learning avec Spark
  • Types de données
  • Algorithmes et statistiques
  • Classification et régression
  • Clustering
  • Filtrage collaboratif
7/ Manipuler des graphes avec GraphX
  • Analyse de l'architecture de Hive et Spark SQL
  • SQLContext dans Spark SQL
  • Travailler avec les DataFrames
  • Implémentation d'un exemple pour Spark SQL
  • Intégration de Hive et Spark SQL
  • Support pour JSON et les formats des "Parquet File"
  • Implémentation de la Data Visualization avec Spark
  • Chargement de données
  • Les requêtes Hive à travers Spark
  • Les techniques de tests dans Scala
  • Les astuces d'amélioration de performance dans Spark
  • Les variables partagées
  • Diffusion des variables
  • Partage de variables
  • Accumulateurs
8/ Optimisation de Spark
  • Gestion des variables partagées
  • Données broadcastées
  • Accumulateurs
  • Méthodes et outils d’optimisation des performances
Approche Pédagogique

Approche Pédagogique

  • Pédagogie très opérationnelle fondée sur l'alternance entre théorie et pratique
  • Cas pratiques
  • Remise d’outils
  • Echanges d’expériences
Public cible

Public cible

  • Statisticiens
  • Consultants Big Data
  • Data analysts
  • Data scientists
Dates

Dates

  • Du 09 au 12 Fév. 2021
  • Du 27 au 30 Avril 2021
  • Du 29 Juin au 02 Juil. 2021
  • Du 14 au 17 Sept. 2021
  • Du 09 au 12 Nov. 2021
  • Fin d'Inscription :
    Le Bulletin d'Inscription doit être rempli, cacheté, signé et envoyé par email :
    • Pour les entreprises AU MAROC : Au minimum 10 JOURS OUVRÉS avant la date de formation
    • Pour les entreprises HORS MAROC : Au minimum 15 JOURS OUVRÉS avant la date de formation