Ventes de vélos en Europe

Source de donnée

Dataset des ventes de vélos en Europe

Ce dataset offre des données structurées, idéales pour nos besoins en traitement batch et streaming.

Objectif

Analyser un fichier de ventes

Voici une liste de question que nous voulons aborder:

Quel est le revenu réalisé pour chaque catégorie de produit ?
Quel est le revenu réalise pour chaque sous-catégorie de produit ?
Quel est le top 20 des produits générant le plus de revenu ?
Un top 10 des produits générant le plus de revenu en France ?
Quel tranche d'âge de client réalise le plus d'achats ?
En temps réel, combien de profit a été réalisé les 30 derniers jours ?

Lancement

Mise en place et lancement du projet

1. Lancer le traitement en batch

source init.sh #ou ./init.sh

Détails du script batch

Pull l'image du cluster hadoop
Lancer le docker compose contenant notre base de donnée PostgreSQL et le setup de l'application Grafana
Déplacer les scripts Spark et les fichiers à traiter vers le cluster hadoop
Lancer les scripts et alimenter la base de données

2. Lancer le traitement en temps réel

source init-streaming.sh #ou ./init-streaming.sh

# Pour relancer manuellement:
# docker exec hadoop-master /bin/bash -c "spark-submit --jars /opt/spark/jars/postgresql-42.7.3.jar --packages org.apache.spark:spark-sql-kafka-0-10_2.12:3.1.2 /root/sales/spark_listener.py"

Détails du script streaming

Lancer le docker compose stream contenent notre container pour le serveur fastAPI (port:8000) pour produire des données en temps réel et le broker kafka
Lancer le script d'écoute du producer kafka

Visualiser les données traitées

Enfin, veuillez vous rendre sur localhost:3000 dans le Dashboard et vous connecter sur Grafana (username: admin, password: admin) afin d'avoir la visualisation des réponses aux objectifs.

Comment produire des données en temps réel ?

# Client homme de 18 ans en Belgique achète un vélo de montagne MTB 1000 pour 250€, profit de 50€
curl --location 'localhost:8000/produce/' \
--header 'Content-Type: application/json' \
--data '{
           "Date": "2024-08-02",
           "Day": 2,
           "Month": 8,
           "Year": 2024,
           "Customer_Age": 18,
           "Age_Group": "Young Adults (25-34)",
           "Customer_Gender": "Male",
           "Country": "Belgium",
           "State": "California",
           "Product_Category": "Bikes",
           "Sub_Category": "Mountain Bikes",
           "Product": "MTB 1000",
           "Order_Quantity": 1,
           "Unit_Cost": 200.00,
           "Unit_Price": 250.00,
           "Profit": 50.00,
           "Cost": 200.00,
           "Revenue": 250.00
         }'

Ressources

L'image initial du cluster hadoop vient du TP BigData de l'Ecole Centrale de Lyon proposé par Stéphane DERRODE.
Documentation pySpark
Documentation Grafana

Groupe

Faustine CHARRIER
Mattis ALMEIDA LIMA
Louisan TCHITOULA
Djédjé GBOBLE
Julien HEITZ

Related Projects

opentelemetry-apm

A language-agnostic application performance management(APM) with OpenTelemetry, Grafana, and Prom...

17 Aug 2023 61

databricks-grafana

Grafana Databricks integration allowing direct connection to Databricks to query and visualize Da...

27 Sep 2022 55

mlops-infra-ta

fastapi service observability with Grafana Cloud and OpenTelemetry, gke for infra.

09 Sep 2024 1

hertzbeat

Apache HertzBeat(incubating) is a real-time monitoring system with agentless, performance cluster...

04 Feb 2022 4,952

prometheus-exporter-monitoring

07 Aug 2024 0

full-stack-fastapi-ftgo

Full stack, modern web application template. Using FastAPI, Vuejs, MongoDB, PostgreSQL, Redis, Me...

29 Jun 2024 13

small_data_project

This project illustrates how Small Data is about focusing on specific, smaller sets of data

17 Jun 2024 0

performance-testing-framework

Framework allows to perform load testing with Apache Jmeter, view application/server metrics in r...

05 Dec 2017 384

real-time-data-processing

Real-time financial data processing using Apache Kafka, Spark, MySQL, and Grafana, orchestrated w...

10 Mar 2024 0

MLOps-TeleChurnPredictor

This repo was created for an intermediate project in the MLOPS course of Naya College. The goal o...

02 Aug 2024 2

Log-Analysis-Project

This project builds a scalable log analytics pipeline use Lambda architecture for real-time and b...

10 Aug 2024 5

devtools

Various tools used by the developers of Grafana.

24 Apr 2018 11

luftdatenpumpe

Acquire and process live and historical air quality data without efforts. Filter by station-id, s...

02 Dec 2018 35

stream_processing_website_click_data

Stream Processing of website click data using Kafka and monitored and visualised using Prometheus...

19 Mar 2024 0

analytics

An Open Source, privacy-focused and progressive analytics service.

08 Jan 2024 8

Bike-sales-data-metrics