Objectifs pédagogiques de la formation

A travers des discussions interactives dirigé par un formateur, et des pratiques des exercices, les participants pourront naviguer dans l’écosystème Hadoop, et aborder des sujets tels que :

  • Les cas et les contextes d’utilisation pour Hbase, Hadoop, and RDBMS
  • Utilisation de la Hbase shell pour manipuler directement les tables Hbase
  • La conception de schémas Hbase en utilisant Java API pour insérer et récupérer des données en temps réel.
  • Utiliser les meilleurs pratiques pour identifier et résoudre les goulots d’étranglement.

 

Programme de la formation

Introduction à Hadoop et Hbase
  • Qu’est-ce que le Big Data
  • Introduction à Hadoop
  • Les composants Hadoop 
  • Pourquoi HBase ?
  • Les avantages de HBase 
  • HBase en production
  • Les faiblesses de Hbase
Les tables Hbase
  • Les concepts 
  • Les tables HBase
  • La conception des tables
Le Shell Hbase
  • Utilisation 
  • Accès aux données
  • Tâches d’administration avec le Shell d’Hbase
L’architecture de Hbase
  • Composants majeurs de l’architecture 
  • Rôle des différents composants
  • Localité des données au sein d’Hbase
La conception des schémas Hbase
  • Principaux aspects de la conception des schémas 
  • Conception orienté application
  • Bien concevoir sa « Row keys » 
  • Fonctionnalités supplémentaires offertes dans la gestion des données (TTL, version)
Accès aux données au travers de l’API
  • Multitude des possibilités d’accès (Java, Scala, REST, Thrift, …) 
  • Créer et supprimer des tableaux HBase
  • Récupérer des données avec Get 
  • Récupérer une plage de données avec Scan
  • Insert & update 
  • Supprimer des données
Fonctionnalités d’API’s HBase avancées
  • Utiliser les filtres dans un Scan 
  • Les compteurs
  • checkAndPut et checkAndDelete 
  • Les co-processors Hbase
HBase sur un cluster
  • Comment HBase utilise HDFS 
  • Format de stockage des données
  • Scalabilité d’HBase 
  • Compactions et Splits
Hbase - lecture et écriture
  • Processus d’écriture 
  • Processus de lecture
  • Mise en cache des blocks
Optimisation de performance HBase
  • Familles de colonnes 
  • Considération sur la conception des schémas
  • Configuration du cache 
  • Gestion de la mémoire
  • Gérer des séries temporelles et des données séquentielles 
  • Pré-Division des régions
  • Phénomène de HotSpotting 
  • Compression & Bloom Filter
Administration et gestion des clusters Hbase
  • Les Daemons HBase 
  • Zookeeper
  • La haute disponibilité d’HBase 
  • Equilibrage des regions et équilibrage HDFS
  • Réparer des tables avec hbck 
  • La sécurité d’Hbase
La réplication et la sauvegarde d’HBase
  • La réplication 
  • Le backup
  • MapReduce et les clusters HBase 
  • Bulk load
  • Copie de table 
  • Snapshot de table
Utiliser Hive et Impala avec Hbase
Conclusion
Appendix A : Accéder aux données avec Python et Thrift
  • L’utilisation de Thrift 
  • Travailler avec les tables
  • Recevoir et insérer des données 
  • Scan
  • Supprimer des données 
  • Filtres
  • Appendix B : OpenTSDB

 

Profil du formateur

Formateur consultant expert en BIG DATA

 

Modalités d’évaluation

Auto-évaluation des acquis par le stagiaire via un questionnaire en ligne Attestation de fin de stage remise au stagiaire

 

Méthode pédagogique

1 poste et 1 support par stagiaire 8 à 10 stagiaires par salle Remise d’une documentation pédagogique papier ou numérique pendant le stage La formation est constituée d’apports théoriques, d’exercices pratiques, de réflexions et de retours d’expérience