Fin d'Inscription : Le Bulletin d'Inscription doit être rempli, cacheté, signé et envoyé par email : Au minimum 15 JOURS OUVRÉS avant la date de formation.
Si vous avez un besoin URGENT et que vous souhaitez une date de formation plus proche que les sessions programmées (minimum 15 à 20 jours ouvrés à date de votre demande)
Les langages : Hortonworks, MapR, Cloudera, IBM Watson
Démystification du Big Data
Les acteurs principaux
Les différents métiers du Big Data
Différences entre BI, Big Data et Data Science
Exemples pratiques
2/ Les questions clés sur l’architecte Big Data
Limites des architectures classiques
La nouvelles architecture Big Data et son impact sur le SI
Cycle de vie de la donnée
Par quelles transformations passe-t-elle ? Comment la gouverner ?
Les principaux modèles d’architecture d’un SI Big Data
Définir le “Data Lake” ?
Le data lake : une nouvelle philosophie pour le stockage et le traitement de la donnée
Les avantages du data lake et centralisation des données
Dimensionner l’infrastructure
Mesurer la scalabilité du système ?
Cycle de vie d’un projet Big Data
Cas d’usage, mise en situation
3/ Solutions Big Data
Projets, applications, plateformes
Solutions de stockage des données
Considérations Hardware
Stockage
CPU
Mémoire
Réseau
Systèmes distribués
La science et l'art de l'analyse prédictive
4/ Architectures distribuées
Problématiques et enjeux
Des données cohérentes, disponibles et tolérantes aux pannes ?
Les architectures massivement parallèles
L’ouverture aux traitements complexes (datamining, machine learning, etc.)
Paradigmes de calculs distribués
Les bases NoSQL et le calcul distribué (exemple avec MongoDB)
5/ Qualité des données (dataquality)
Liens entre infrastructure et qualité des données
Les 4 V
Base à chaud, base à froid
Les apports d’un outil de Dataquality
L'utilité d'un ETL
Illustration via Talend Data Integration
Analyser les données en les fusionnant avec les données internes
Le Master Data Management (MDM)
6/ Installation d'une plateforme Hadoop
Type de déploiement
Installation d'Hadoop
Installation d'autres composants (Hive, Pig, HBase, Flume…)
Différences entre les distributions Cloudera, Hortonworks et MapR
7/ Stockage et traitement de la donnée
Le système de fichiers distribué de Hadoop (HDFS)
MapReduce
YARN
Spark
8/ Les bases de données et la gestion des données
NoSQL (Cassandra, MongoDB)
NoSQL Vs SGBD Relationnels
Classification des bases de données NoSQL selon leurs types et leurs cas d'usages
9/ L’analyse et la visualisation des données
Spark MLIB
Mahout
Hadoop Streaming
Pig et MapReduce
Hadoop Image Processing Interface (HIPI)
10/ Monitoring du cluster Hadoop
Suivi de charges
Journaux (jConsole)
Gestion des nœuds
Accès JMX
Mise en œuvre d'un client JMX
Administration HDFS
Stockage des fichiers : fsck, dfsadmin
Gestion centralisée de caches avec Cacheadmin
11/ Supervision des plateformes
Supervision des éléments par le NodeManager
Monitoring graphique avec Ambari, Kibana, Cloudera Manager
Visualisation des alertes en cas d'indisponibilité d'un nœud
Configuration des logs avec log4j
12/ Traiter les données en temps réel avec spark streaming
Notion de Streaming
Objectifs, principe de fonctionnement : stream processing
Présentation des Discretized Streams (DStreams)
Source de données : HDFS, Flume, Kafka, …
Manipulation de l'API
Comparaison avec Apache Storm
13/ La sécurité et la gouvernance de données
Signes d’alerte pour mieux gérer la gouvernance et la sécurité des données
Que faire si vous identifiez ces signes d’avertissement
La sécurité et le contrôle d’accès Kerberos & Knox
Atlas et Ranger pour la sécurité et la gouvernance
Approche Pédagogique
Approche Pédagogique
Pédagogie très opérationnelle fondée sur l'alternance entre théorie et pratique
Cas pratiques
Remise d’outils
Echanges d’expériences
Public cible
Public cible
Administrateurs de clusters Hadoop
DBA
Ingénieurs systèmes et réseaux
Développeurs
Dates
Dates
Du 13 au 17 Mai 2024
Du 08 au 12 Juil. 2024
Du 16 au 20 Sept. 2024
Du 25 au 29 Nov. 2024
Fin d'Inscription : Le Bulletin d'Inscription doit être rempli, cacheté, signé et envoyé par email : Au minimum 15 JOURS OUVRÉS avant la date de formation.