Contexte
Un client dans le secteur de la veille concurrentielle avait besoin d'agréger des données depuis plus de 50 sources web différentes, les nettoyer, les transformer et les charger dans un entrepôt de données pour alimentation de tableaux de bord.
Solution
Architecture ETL complète : scrapers Python robustes avec gestion des rotations de proxy et des anti-bots, jobs Talend pour la transformation et la validation des données, chargement dans PostgreSQL et visualisation Metabase.
Résultats
- 50+ sources agrégées quotidiennement en moins de 2 heures
- Taux de données exploitables : 96% (vs ~40% en manuel)
- Pipeline stable depuis 10+ mois sans intervention manuelle
Stack technique
TalendPythonSQL
Infos projet
Année2024
SecteurData / Tech
StatutLivré