Data / TechLivré2024

Data Pipeline & Web Scraping

Pipelines ETL complets avec Talend et collecte automatisée de données à grande échelle depuis le web.

TalendPythonSQL

Contexte

Un client dans le secteur de la veille concurrentielle avait besoin d'agréger des données depuis plus de 50 sources web différentes, les nettoyer, les transformer et les charger dans un entrepôt de données pour alimentation de tableaux de bord.

Solution

Architecture ETL complète : scrapers Python robustes avec gestion des rotations de proxy et des anti-bots, jobs Talend pour la transformation et la validation des données, chargement dans PostgreSQL et visualisation Metabase.

Résultats

  • 50+ sources agrégées quotidiennement en moins de 2 heures
  • Taux de données exploitables : 96% (vs ~40% en manuel)
  • Pipeline stable depuis 10+ mois sans intervention manuelle

Stack technique

TalendPythonSQL

Infos projet

Année2024
SecteurData / Tech
StatutLivré
Projet similaire ?