You're seeing this page as if you were . The main menu is still yours, though. Exit from immersion
Chen ZangCZ

Chen Zang

Ingénieur Data

650 €/jour
Paris, FR
15 ans et +

Délai de réponse moyen : 1h

À propos de Chen

Ingénieur Data senior spécialisé en architectures cloud AWS, avec une forte expertise en conception de plateformes data scalables et event-driven. J’interviens sur la mise en place d’architectures serverless orientées événements (EventBridge, SQS, Lambda) et l’orchestration avancée de workflows via Step Functions (SFN) pour piloter des traitements complexes et distribués.

Expert Databricks, je conçois et industrialise des pipelines batch haute performance en PySpark (ELT/ETL), optimisés pour traiter de très grands volumes de données dans des environnements Lakehouse (Delta Lake). Habitué aux environnements AWS (EMR, S3, DynamoDB, Redshift, MWAA), je construis des solutions data end-to-end robustes, automatisées et multi-environnements, avec une attention particulière portée à la performance, à la fiabilité et à la scalabilité.
  • Chinois

    Bilingue ou natif

  • Français

    Capacité professionnelle complète

  • Anglais

    Capacité professionnelle complète

Accepte de travailler sur site
Paris (jusqu’à 30 km)

Expériences

  • ENGIE
    Ingénieur Data
    ENERGIE
    août 2024 - Aujourd'hui (1 an et 10 mois)
    Paris, France
    Billing Orchestration du système de facturation pour les offres (BSH+, BSH, BSMA, 100SPOT)

    - Conception et implémentation d’une infrastructure complète sur AWS avec Terraform, gérant une architecture multi-services (Databricks Workflows, Lambda, API Gateway, EventBridge, DynamoDB, S3, Step Functions, SQS, KMS, CloudWatch…)
    - Construction de pipelines ETL à grande échelle sur Databricks avec PySpark pour le traitement des données de facturation
    - Mise en œuvre d'une architecture événementielle (EventBridge + SQS + Lambda) pour le découplage et l’orchestration des composants du système de facturation
    - Développement d’une couche de distribution de données Serverless avec DynamoDB pour un accès haute concurrence
    - Conception, développement et déploiement d’APIs RESTful via API Gateway et Lambda, exposant des données normalisées aux autres composants du système de facturation
    - Mise en place d’un pipeline CI/CD multi-environnements (dev/recette/preprod/prod) avec GitHub Actions, assurant des déploiements fiables et répétables
    Spark Python Databricks AWS Event-driven architecture
  • Dalkia
    Architecte Solution Data
    ENERGIE
    juillet 2023 - juillet 2024 (1 an)
    Paris, France
    - Conception de l’architecture cible pour les données IoT : Définition d’un Lakehouse sur AWS pour les flux capteurs (température, pression). Spécification de l’ingestion différenciée (init, fil de l’eau, rejeu) via Spark/EMR, stockage structuré dans S3 Standardized, déduplication via offset Kafka, et partitionnement horaire. Rédaction du DAT détaillant les couches (*raw* → *standardized*), les buckets S3, et les rôles IAM.
    - Gouvernance et industrialisation de l’entrepôt de données : Réalisation d’un audit comparatif Redshift Provisionné (pour les ETL planifiés) vs Serverless (pour le self-service métier). Rédaction d’un DAT détaillant la stratégie de gouvernance : contrôle d’accès fin (users, rôles, politiques IAM), configuration manuelle du Workload Management (WLM), et mécanisme de *merge* transactionnel pour garantir l’intégrité historique lors des mises à jour incrémentales ou des rejeux.
    - Accompagnement projet et alignement technique : Animation d’ateliers avec les équipes Dev, PO, Urbanisation et Métier pour traduire les besoins en spécifications techniques. Validation de la solution via PoCs (PySpark, Airflow) et conception de DAGs Airflow génériques avec verrou anti-concurrence.
    Cloud AWS PySpark Python Apache Kafka Amazon Redshift
  • Education Zhixing
    Ingénieur Big Data
    EDUCATION & E-LEARNING
    février 2022 - mai 2023 (1 an et 3 mois)
    Shanghai, Chine
    - Conception et déploiement d’un data warehouse from scratch : Modélisation en couches (ODS, DIM, DWD/DWM/DWS) pour centraliser les données métier (visite, intention, inscription, assiduité). Gestion des dimensions à évolution lente (SCD Type 2 via tables « zipper ») pour garantir la cohérence historique. Développement de 30+ tables et 10+ métriques clés (taux de conversion, rétention, assiduité), avec ingestion incrémentale quotidienne (~16 Go/jour) automatisée via Airflow.
    - Mise en place d’un système de recommandation en temps réel : Pipeline Kafka → Spark Structured Streaming pour analyser les réponses élèves en micro-batch. Calcul dynamique de métriques (Top questions par matière/niveau) et génération de recommandations personnalisées via un modèle ALS (Collaborative Filtering) de Spark MLlib. Résultats exposés en MySQL pour les équipes web et BI.
    - Optimisation de la plateforme Big Data (Cloudera Hadoop) : Tuning avancé de Hive (partitionnement, vectorisation, map joins, gestion du *data skew*) et de Spark (repartition, tuning mémoire) pour traiter 300k enregistrements/jour/table sans OOM. Automatisation des ETL full/incremental (Sqoop, PySpark, Shell) sur un cluster de 10 nœuds (200 TB brut).
    Spark Kafka Cloudera Hadoop Airflow Python

Recommandations

Soyez le premier à recommander Chen

Contribuez à la réussite de ce freelance en partageant votre expérience de collaboration avec lui.

Ces profils de freelance correspondent également à vos critères

AgathaA

Agatha Frydrych

Backend Java Software Engineer

4.7

(3)

2

BaptisteB

Baptiste Duhen

Fullstack developer

4.6

(4)

5

AmedA

Amed Hamou

Senior Lead Developer

4

(2)

7

AudreyA

Audrey Champion

Web developer

4.3

(3)

4

Formations

  • Master Informatique spécialité Systèmes et Applications Répartis
    Université de Paris VI
    2008

Compétences

Catégories