Traitement, stockage, analyse et visualisation d'un fichier csv volumineux et de données en temps réel de ventes de vélos.
Dataset des ventes de vélos en Europe
Ce dataset offre des données structurées, idéales pour nos besoins en traitement batch et streaming.
Voici une liste de question que nous voulons aborder:
source init.sh #ou ./init.sh
source init-streaming.sh #ou ./init-streaming.sh
# Pour relancer manuellement:
# docker exec hadoop-master /bin/bash -c "spark-submit --jars /opt/spark/jars/postgresql-42.7.3.jar --packages org.apache.spark:spark-sql-kafka-0-10_2.12:3.1.2 /root/sales/spark_listener.py"
Enfin, veuillez vous rendre sur localhost:3000 dans le Dashboard et vous connecter sur Grafana (username: admin, password: admin) afin d'avoir la visualisation des réponses aux objectifs.
# Client homme de 18 ans en Belgique achète un vélo de montagne MTB 1000 pour 250€, profit de 50€
curl --location 'localhost:8000/produce/' \
--header 'Content-Type: application/json' \
--data '{
"Date": "2024-08-02",
"Day": 2,
"Month": 8,
"Year": 2024,
"Customer_Age": 18,
"Age_Group": "Young Adults (25-34)",
"Customer_Gender": "Male",
"Country": "Belgium",
"State": "California",
"Product_Category": "Bikes",
"Sub_Category": "Mountain Bikes",
"Product": "MTB 1000",
"Order_Quantity": 1,
"Unit_Cost": 200.00,
"Unit_Price": 250.00,
"Profit": 50.00,
"Cost": 200.00,
"Revenue": 250.00
}'