HADOOP, HIVE, Map Reduce avec PHP : part 1

Lorsque l’on commence à débattre sur le «BIG DATA», on finit toujours par discuter du stockage. «Hadoop», de par son architecture et son fonctionnement, n’impose aucune contrainte technique sur le stockage de la donnée. Intégrant nativement le concept de Map & Reduce, «Hadoop» est un candidat sérieux pour les besoins de stockage massif et d’extraction qu’impose le «BIG DATA». Facebook a retenu «Hadoop» comme entrepôt de données pour ses calculs de statistiques marketing. Dans un précédent article consacré à «CASSANDRA», nous avions conclu «qu’une architecture permettant l’extraction, la manipulation et l’interprétation socio-économique de données massives, était composée de plusieurs maillons technologiques». «Hadoop» est l’un de ces chainons.

Architecture technique Hadoop

Architecture technique Hadoop

Le schéma ci-dessus décrit l’architecture technique d’une entreprise de e-commerce vendant des produits alimentaires pour animaux. L’objectif pour la direction opérationnelle est d’extraire des métriques marketing afin d’orienter le catalogue de vente et d’augmenter son CA. Nous allons, avec ce support, découvrir «Hadoop», la manipulation de son système de fichier et par la suite utiliser un outil pour extraire des métriques : «HIVE». Je vous propose d’aborder les points suivants :

  • installation d’«Hadoop»,
  • découverte et manipulation d’«HDFS»,
  • réalisation de Map et de Reduce en PHP avec «Hadoop streaming»,
  • découverte de «HIVE»,

Lire la suite