Le PHP Tour Nantes 2012 c’est bientôt !

le 29 et 30 novembre prochain, se tiendra l’une des conférences majeures du PHP en France et traitera en arrière plan de « l’Open Data ». Comme chaque année, se pose le dilemme du choix des sessions. Il y en aura pour tous les goûts : de l’AOP aux solutions d’intégrations et de déploiements en passant par le réseau puis #phptour nantes du coté des bases de données NoSQL pour repartir sur le test unitaire avec Atoum et bien d’autre encore. Bref comme chaque année : un choix cornélien parfois frustrant car on aimerait assister à toutes les conférences. Je ne peux que vous conseiller de venir à deux collaborateurs !

Pour ma part, ce sera une première et j’aurais l’honneur de présenter « Les technologies du BigData au service de l’OpenData ». Je vous présenterai Hadoop, un framework dédié au stockage de données massives qui implémente le pattern « Map / Reduce ». Nous verrons comment utiliser PHP au travers de la lib « Hadoop-streaming » pour intégrer nos données dans le cluster. Au travers d’une démo, nous verrons également les technologies qui permettent d’extraire et de manipuler ces données structurées.

Je vous recommande de participer aux conférences suivantes qui vous permettront d’avoir une vision technique globale sur la chaine du BigData :
- « Gearman, Les rouages du travail distribué » permettant de jouer le rôle de SCHEDULER !
- « Ciel ! Mes données ne sont plus relationnelles » et « Hybridation de bases de données » qui traiteront des bases de données NoSQL largement employées au sein de plate-forme Analytics.

#phptour nantes 2012 jyserai

Hadoop streaming avec PHP et extraction HIVE – part 2

Dans cette suite de billets consacrés à HADOOP, HIVE et Map Reduce, nous allons présenter «Hadoop streaming» et voir comment il est simple d’utiliser les fonctions natives de Map Reduce du framework «Hadoop» avec PHP.

En reprenant le schéma de la première partie consacré à l’introduction d’«hadoop» et à son installation, nous nous attarderons sur les services de «Logs», «App Engine», «HIVE» et «HDFS» de l’architecture. Pour avoir une idée de comment s’articule l’ensemble de ces services jusqu’à la visualisation des métriques marketing, je vous propose le plan suivant :

  • collecte et centralisation des logs,
  • manipulation des logs et utilisation de Map Reduce,
  • introduction à HIVE,
  • extraction de données.

Lire la suite

HADOOP, HIVE, Map Reduce avec PHP : part 1

Lorsque l’on commence à débattre sur le «BIG DATA», on finit toujours par discuter du stockage. «Hadoop», de par son architecture et son fonctionnement, n’impose aucune contrainte technique sur le stockage de la donnée. Intégrant nativement le concept de Map & Reduce, «Hadoop» est un candidat sérieux pour les besoins de stockage massif et d’extraction qu’impose le «BIG DATA». Facebook a retenu «Hadoop» comme entrepôt de données pour ses calculs de statistiques marketing. Dans un précédent article consacré à «CASSANDRA», nous avions conclu «qu’une architecture permettant l’extraction, la manipulation et l’interprétation socio-économique de données massives, était composée de plusieurs maillons technologiques». «Hadoop» est l’un de ces chainons.

Architecture technique Hadoop

Architecture technique Hadoop

Le schéma ci-dessus décrit l’architecture technique d’une entreprise de e-commerce vendant des produits alimentaires pour animaux. L’objectif pour la direction opérationnelle est d’extraire des métriques marketing afin d’orienter le catalogue de vente et d’augmenter son CA. Nous allons, avec ce support, découvrir «Hadoop», la manipulation de son système de fichier et par la suite utiliser un outil pour extraire des métriques : «HIVE». Je vous propose d’aborder les points suivants :

  • installation d’«Hadoop»,
  • découverte et manipulation d’«HDFS»,
  • réalisation de Map et de Reduce en PHP avec «Hadoop streaming»,
  • découverte de «HIVE»,

Lire la suite