Accueil | Projet DE1

1. Cas d'Usage et Dataset

Objectif : Aider les autorités (DOT) et les assureurs à identifier les zones à haut risque.

Source : Kaggle - US Accidents (Sobhan Moosavi).
Volumétrie : ~7.7 millions d'enregistrements (3 Go CSV brut).
Problèmes identifiés : Fort taux de valeurs nulles (Météo) et typage "String" intégral nécessitant un casting.

Structure des fichiers du projet final :

Le pipeline suit l'architecture Bronze-Silver-Gold avec Spark.

Ingestion brute CSV. Ajout des colonnes d'audit (ingested_at). Stockage Parquet non partitionné pour la vitesse.

Casting des types (Severity INT, Date Timestamp). Partitionnement initial par State, puis optimisé par Year.

Agrégats métier : Accidents par État et tendances mensuelles pour le reporting.

Comparaison de performance sur la requête : "Compter les accidents en 2021".

Phase	Fichiers Lus	Temps (ms)	Observation
Baseline (Part. par State)	10	400 ms	Lecture lente (Full Scan)
Optimisé (Part. par Year)	7	43 ms	Lecture rapide (Partition Pruning)

L'optimisation par année a permis de réduire drastiquement les I/O grâce au Partition Pruning.