Description

Ingénieur Data senior spécialisé en architectures cloud AWS, avec une forte expertise en conception de plateformes data scalables et event-driven. J’interviens sur la mise en place d’architectures serverless orientées événements (EventBridge, SQS, Lambda) et l’orchestration avancée de workflows via Step Functions (SFN) pour piloter des traitements complexes et distribués.

Expert Databricks, je conçois et industrialise des pipelines batch haute performance en PySpark (ELT/ETL), optimisés pour traiter de très grands volumes de données dans des environnements Lakehouse (Delta Lake). Habitué aux environnements AWS (EMR, S3, DynamoDB, Redshift, MWAA), je construis des solutions data end-to-end robustes, automatisées et multi-environnements, avec une attention particulière portée à la performance, à la fiabilité et à la scalabilité.

Langues

Chinois
Bilingue ou natif
Français
Capacité professionnelle complète
Anglais
Capacité professionnelle complète

Préférences en matière de lieu de travail

Accepte de travailler sur site

Paris (jusqu’à 30 km)

ENGIE
Ingénieur Data
ENERGIE
août 2024 - Aujourd'hui (1 an et 10 mois)
Paris, France
Billing Orchestration du système de facturation pour les offres (BSH+, BSH, BSMA, 100SPOT)

- Conception et implémentation d’une infrastructure complète sur AWS avec Terraform, gérant une architecture multi-services (Databricks Workflows, Lambda, API Gateway, EventBridge, DynamoDB, S3, Step Functions, SQS, KMS, CloudWatch…)
- Construction de pipelines ETL à grande échelle sur Databricks avec PySpark pour le traitement des données de facturation
- Mise en œuvre d'une architecture événementielle (EventBridge + SQS + Lambda) pour le découplage et l’orchestration des composants du système de facturation
- Développement d’une couche de distribution de données Serverless avec DynamoDB pour un accès haute concurrence
- Conception, développement et déploiement d’APIs RESTful via API Gateway et Lambda, exposant des données normalisées aux autres composants du système de facturation
- Mise en place d’un pipeline CI/CD multi-environnements (dev/recette/preprod/prod) avec GitHub Actions, assurant des déploiements fiables et répétables
Spark Python Databricks AWS Event-driven architecture
Dalkia
Architecte Solution Data
ENERGIE
juillet 2023 - juillet 2024 (1 an)
Paris, France
- Conception de l’architecture cible pour les données IoT : Définition d’un Lakehouse sur AWS pour les flux capteurs (température, pression). Spécification de l’ingestion différenciée (init, fil de l’eau, rejeu) via Spark/EMR, stockage structuré dans S3 Standardized, déduplication via offset Kafka, et partitionnement horaire. Rédaction du DAT détaillant les couches (*raw* → *standardized*), les buckets S3, et les rôles IAM.
- Gouvernance et industrialisation de l’entrepôt de données : Réalisation d’un audit comparatif Redshift Provisionné (pour les ETL planifiés) vs Serverless (pour le self-service métier). Rédaction d’un DAT détaillant la stratégie de gouvernance : contrôle d’accès fin (users, rôles, politiques IAM), configuration manuelle du Workload Management (WLM), et mécanisme de *merge* transactionnel pour garantir l’intégrité historique lors des mises à jour incrémentales ou des rejeux.
- Accompagnement projet et alignement technique : Animation d’ateliers avec les équipes Dev, PO, Urbanisation et Métier pour traduire les besoins en spécifications techniques. Validation de la solution via PoCs (PySpark, Airflow) et conception de DAGs Airflow génériques avec verrou anti-concurrence.
Cloud AWS PySpark Python Apache Kafka Amazon Redshift
Education Zhixing
Ingénieur Big Data
EDUCATION & E-LEARNING
février 2022 - mai 2023 (1 an et 3 mois)
Shanghai, Chine
- Conception et déploiement d’un data warehouse from scratch : Modélisation en couches (ODS, DIM, DWD/DWM/DWS) pour centraliser les données métier (visite, intention, inscription, assiduité). Gestion des dimensions à évolution lente (SCD Type 2 via tables « zipper ») pour garantir la cohérence historique. Développement de 30+ tables et 10+ métriques clés (taux de conversion, rétention, assiduité), avec ingestion incrémentale quotidienne (～16 Go/jour) automatisée via Airflow.
- Mise en place d’un système de recommandation en temps réel : Pipeline Kafka → Spark Structured Streaming pour analyser les réponses élèves en micro-batch. Calcul dynamique de métriques (Top questions par matière/niveau) et génération de recommandations personnalisées via un modèle ALS (Collaborative Filtering) de Spark MLlib. Résultats exposés en MySQL pour les équipes web et BI.
- Optimisation de la plateforme Big Data (Cloudera Hadoop) : Tuning avancé de Hive (partitionnement, vectorisation, map joins, gestion du *data skew*) et de Spark (repartition, tuning mémoire) pour traiter 300k enregistrements/jour/table sans OOM. Automatisation des ETL full/incremental (Sqoop, PySpark, Shell) sur un cluster de 10 nœuds (200 TB brut).
Spark Kafka Cloudera Hadoop Airflow Python