Défi
De grandes quantités de données dans divers formats générées quotidiennement devant être monétisées.
Solution
Analyse des Données : Utiliser Spark, Hive et Tez pour traiter des données à l’échelle pétaoctet stockées dans HDFS.
Gestion des Flux de Données : Automatiser les pipelines avec Airflow et NiFi.
Streaming en Temps Réel : Capturer les données avec Kafka et Flume, puis les analyser avec Spark
Streaming.
Science des Données et Intelligence Artificielle : Utiliser Spark (CPU/Nvidia GPU) pour effectuer une analyse exploratoire des données et entraîner des algorithmes de machine learning sur des données à l’échelle pétaoctet.
Recherche et Indexation : Utiliser Solr pour indexer
et rechercher de grands ensembles de données.
Stockage NoSQL : Utiliser HBase et Phoenix pour
des cas d’utilisation transactionnels.
Sécurité et Gouvernance : Appliquer des politiques
Ranger et suivre la lignée des données avec Atlas.
Résultats
Améliorations dans le ciblage des campagnes.
Réduction du taux de désabonnement des clients.
Augmentation des niveaux de satisfaction des clients.
Augmentation de l’efficacité opérationnelle.
Diminution des pertes de revenus dues à des activités frauduleuses.