Accueil > Big Data, IA > Big Data : architecture et infrastructure
Formation #BSI13

Formation Big Data : architecture et infrastructure

Durée : 5 jours

Code : BSI13


Prochaines dates programmées :

Du 13 au 17 Mai 2024

Du 08 au 12 Juil. 2024

Du 16 au 20 Sept. 2024

Du 25 au 29 Nov. 2024

Fin d'Inscription :
Le Bulletin d'Inscription doit être rempli, cacheté, signé et envoyé par email : Au minimum 15 JOURS OUVRÉS avant la date de formation.
Si vous avez un besoin URGENT et que vous souhaitez une date de formation plus proche que les sessions programmées (minimum 15 à 20 jours ouvrés à date de votre demande)

Objectifs

  • Maîtriser les aspects fondamentaux de Big Data
  • Maîtriser des éléments clés liés aux architectures des SI
  • Pouvoir proposer des architectures répondant aux besoins du client
  • Comprendre les différents cas d’usage et les outils correspondants
  • Avoir une vision globale des différents outils et Framework
  • Mettre en pratique les connaissances sur des problématiques réelles
Programme
1/ Comprendre le Big Data
  • Introduction au Big Data
  • Les 5V du Big Data
  • Technologies de référence du Big Data
  • Les technologies concernées
  • Les outils
  • Les langages : Hortonworks, MapR, Cloudera, IBM Watson
  • Démystification du Big Data
  • Les acteurs principaux
  • Les différents métiers du Big Data
  • Différences entre BI, Big Data et Data Science
  • Exemples pratiques
2/ Les questions clés sur l’architecte Big Data
  • Limites des architectures classiques
  • La nouvelles architecture Big Data et son impact sur le SI
  • Cycle de vie de la donnée
  • Par quelles transformations passe-t-elle ? Comment la gouverner ?
  • Les principaux modèles d’architecture d’un SI Big Data
  • Définir le “Data Lake” ?
  • Le data lake : une nouvelle philosophie pour le stockage et le traitement de la donnée
  • Les avantages du data lake et centralisation des données
  • Dimensionner l’infrastructure
  • Mesurer la scalabilité du système ?
  • Cycle de vie d’un projet Big Data
  • Cas d’usage, mise en situation
3/ Solutions Big Data
  • Projets, applications, plateformes
  • Solutions de stockage des données
  • Considérations Hardware
  • Stockage
  • CPU
  • Mémoire
  • Réseau
  • Systèmes distribués
  • La science et l'art de l'analyse prédictive
4/ Architectures distribuées
  • Problématiques et enjeux
  • Des données cohérentes, disponibles et tolérantes aux pannes ?
  • Les architectures massivement parallèles
  • L’ouverture aux traitements complexes (datamining, machine learning, etc.)
  • Paradigmes de calculs distribués
  • Les bases NoSQL et le calcul distribué (exemple avec MongoDB)
5/ Qualité des données (dataquality)
  • Liens entre infrastructure et qualité des données
  • Les 4 V
  • Base à chaud, base à froid
  • Les apports d’un outil de Dataquality
  • L'utilité d'un ETL
  • Illustration via Talend Data Integration
  • Analyser les données en les fusionnant avec les données internes
  • Le Master Data Management (MDM)
6/ Installation d'une plateforme Hadoop
  • Type de déploiement
  • Installation d'Hadoop
  • Installation d'autres composants (Hive, Pig, HBase, Flume…)
  • Différences entre les distributions Cloudera, Hortonworks et MapR
7/ Stockage et traitement de la donnée
  • Le système de fichiers distribué de Hadoop (HDFS)
  • MapReduce
  • YARN
  • Spark
8/ Les bases de données et la gestion des données
  • NoSQL (Cassandra, MongoDB)
  • NoSQL Vs SGBD Relationnels
  • Classification des bases de données NoSQL selon leurs types et leurs cas d'usages
9/ L’analyse et la visualisation des données
  • Spark MLIB
  • Mahout
  • Hadoop Streaming
  • Pig et MapReduce
  • Hadoop Image Processing Interface (HIPI)
10/ Monitoring du cluster Hadoop
  • Suivi de charges
  • Journaux (jConsole)
  • Gestion des nœuds
  • Accès JMX
  • Mise en œuvre d'un client JMX
  • Administration HDFS
  • Stockage des fichiers : fsck, dfsadmin
  • Gestion centralisée de caches avec Cacheadmin
11/ Supervision des plateformes
  • Supervision des éléments par le NodeManager
  • Monitoring graphique avec Ambari, Kibana, Cloudera Manager
  • Visualisation des alertes en cas d'indisponibilité d'un nœud
  • Configuration des logs avec log4j
12/ Traiter les données en temps réel avec spark streaming
  • Notion de Streaming
  • Objectifs, principe de fonctionnement : stream processing
  • Présentation des Discretized Streams (DStreams)
  • Source de données : HDFS, Flume, Kafka, …
  • Manipulation de l'API
  • Comparaison avec Apache Storm
13/ La sécurité et la gouvernance de données
  • Signes d’alerte pour mieux gérer la gouvernance et la sécurité des données
  • Que faire si vous identifiez ces signes d’avertissement
  • La sécurité et le contrôle d’accès Kerberos & Knox
  • Atlas et Ranger pour la sécurité et la gouvernance
Approche Pédagogique

Approche Pédagogique

  • Pédagogie très opérationnelle fondée sur l'alternance entre théorie et pratique
  • Cas pratiques
  • Remise d’outils
  • Echanges d’expériences
Public cible

Public cible

  • Administrateurs de clusters Hadoop
  • DBA
  • Ingénieurs systèmes et réseaux
  • Développeurs
Dates

Dates

  • Du 13 au 17 Mai 2024
  • Du 08 au 12 Juil. 2024
  • Du 16 au 20 Sept. 2024
  • Du 25 au 29 Nov. 2024
  • Fin d'Inscription :
    Le Bulletin d'Inscription doit être rempli, cacheté, signé et envoyé par email : Au minimum 15 JOURS OUVRÉS avant la date de formation.