Description

Data Engineer / Tech Lead (13 ans), spécialiste des environnements

Cloudera, Spark/Structured Streaming, Databricks (AWS & Azure), Delta

Lake, Kafka et Airflow. Conçoit et opère des plateformes data cloud et

on-prem, industrialise des pipelines batch & streaming et met en place

des pratiques de qualité/observabilité. Expert performance : diagnostic

et tuning bout-en-bout, réduction de la latence et optimisation des coûts

(FinOps). Ex-développeur Java ; pratique quotidienne de Python et Java,

encadrement d'équipe et diffusion des bonnes pratiques.

Langues

Français
Bilingue ou natif
Anglais
Capacité professionnelle complète

Préférences en matière de lieu de travail

Accepte de travailler sur site

Paris (jusqu’à 50 km)

Confidentiel
Tech lead Data Engineer
ENERGIE
juin 2023 - Aujourd'hui (3 ans)
Paris, France
Tech Leadership & Architecture :

Pilotage transverse des équipes Data : diffusion de la culture Software Craftsmanship, des design patterns et des standards d’industrialisation (CI/CD, tests, revues de code, documentation).
Accompagnement méthodologique à la transition vers une organisation Data Mesh (gouvernance par domaine, responsabilisation des équipes et delivery de Data Products).
Conception et delivery d'un framework d'ingestion générique et d'une application transverse dédiée à la qualité de la donnée (data profiling, monitoring et alertes).

Engineering, Migration & Big Data à l'échelle

Conception et optimisation de pipelines de données critiques gérant plusieurs milliards d’enregistrements par jour et plusieurs téraoctets de données (secteurs : valorisation gaz/élec, facturation, mesures).

Migration stratégique & modernisation d’architectures legacy Cloudera (Spark 2.4) vers un écosystème Cloud moderne (AWS S3, Glue Catalog, Delta Lake, Unity Catalog).

Expertise Spark, Databricks & FinOps

Optimisation avancée de la performance Spark/Databricks (tuning de jobs, stratégies de partitionnement, réduction du shuffle, réduction drastique des temps de traitement).

Audits techniques et démarche FinOps : réduction drastique des coûts AWS/Databricks via le monitoring des consommations et le juste dimensionnement des clusters.

Technologies :

Data & Cloud : Databricks, Spark, Delta Lake, AWS (S3, Glue, Lambda, CloudWatch, EventBridge), Unity Catalog, Cloudera (Hadoop).
Streaming & Orchestration : Structured Streaming, Kafka, Airflow, dbt.
Langages & Dev : Python, Java, SQL, GitLab CI/CD, Parquet, Avro.
Databricks AWS S3 Java Python
SGSS
Senior Data Engineer
BANQUE & ASSURANCES
mai 2021 - Aujourd'hui (5 ans)
Paris, France
➢ Projet DataHub Foundation :

Mise en place d'une plateforme Lakehouse from scratch sur Azure, avec
une stratégie data-centric.
Développement d'un outil d'ingestion multi-canaux (batch/SpringBatch, SFTP/Spring Integration, CDC/Informatica, streaming/Kafka).
Développement d'un moteur de processing configurable (batch &streaming) ; vues consolidées et pipelines ELT (Spark/Hive).
Réalisation de POC pour valider les choix techniques.
•Tests unitaires et d'intégration automatisés.
➢ Projet Îlot Reporting:

Migration et refonte de l'application Îlot vers Azure (démantèlement du
datalake on-prem).

Développement d'un outil d'ingestion Oracle → Azure.
Vues consolidées et normalisation via des datasets conformes aumodèle d'entreprise.
Datamarts métiers et exposition via API.
•Tests d'intégration et unitaires automatisés.
➢ Projet CSDR :
Intervention sur la performance des jobs Spark et leur orchestration
Optimisation des traitements Spark (skew, partitionnement, • cache).
Suppression des goulots et démarche FinOps.
•Réduction du workflow d'environ 10 h à ~1 h.

Technologies utilisées:

AKS (Azure Kubernetes Service), Databricks, Azure HDInsight (cluster Spark
managé), ADLS Gen2, Delta Lake, Spark/Structured Streaming, Kafka,
Airflow, Docker, Azure PostgreSQL, Azure Key Vault, Spring (IoC,
Integration, Batch), Scala/Java/Python, PySpark, Pandas, Poetry, pyenv,
Zeppelin, Jupyter/VS Code, Elastic Stack (Elasticsearch, Kibana),
Grafana, Alerta.
Cloud Azure Kubernetes Python Java Kafka
SCOR
Data Engineer
BANQUE & ASSURANCES
février 2019 - juin 2021 (2 ans et 4 mois)
Paris, France
➢ Projet SOLEM :

Mise en place d'une plateforme de traitement temps réel pour générer des recommandations clients.
Construction et normalisation des données pour produire des jeux de données fiables.
Mise en place d'un processus d'intégration et de déploiement (CI/CD).
Développement de tests unitaires et d'intégration.
Réalisation d'audits sur les applications existantes.
Garantie de l'exactitude et de la disponibilité quotidiennes des données.

Technologies utilisées:

Scala, Java, Kafka, Spark Streaming, Tomcat, Git, Oracle, Redis, Docker, Oozie, Azure, Power BI, Jupyter, Avro, Parquet, Jenkins, Python, Kubernetes, Apache Sqoop
Kafka Java