Dans cette suite de billets consacrés à HADOOP, HIVE et Map Reduce, nous allons présenter «Hadoop streaming» et voir comment il est simple d’utiliser les fonctions natives de Map Reduce du framework «Hadoop» avec PHP.
En reprenant le schéma de la première partie consacré à l’introduction d’«hadoop» et à son installation, nous nous attarderons sur les services de «Logs», «App Engine», «HIVE» et «HDFS» de l’architecture. Pour avoir une idée de comment s’articule l’ensemble de ces services jusqu’à la visualisation des métriques marketing, je vous propose le plan suivant :
- collecte et centralisation des logs,
- manipulation des logs et utilisation de Map Reduce,
- introduction à HIVE,
- extraction de données.