Description

Lead Data Engineer with nearly 10 years of experience in Data Management, including managing over 10 data engineers in the past 6 years. I have a strong foundation in data architecture, data warehousing, designing ETL pipelines, data analysis for business requirements, and applying machine learning to drive insights. I'm well-versed in the latest technologies, including the Big Data ecosystem, cloud computing, and advanced machine learning applications. Highly analytical, organized, and equipped with excellent interpersonal skills, I excel at translating complex data needs into actionable solutions.

Domaines d’expertise

Langues

Français
Bilingue ou natif
Anglais
Capacité professionnelle limitée

Préférences en matière de lieu de travail

Accepte de travailler sur site

Paris (jusqu’à 50 km)

Societe Generale Corporate and Investment Banking - SGCIB
Technical Leader Big Data
BANQUE & ASSURANCES
mars 2021 - Aujourd'hui (5 ans et 5 mois)
Paris, France
Lead Big Data Engineer au sein de la DSI CFT. J’ai encadré les data engineers au quotidien et piloté la conception d’une plateforme data industrialisée pour les domaines Finance/Conformité. Réalisations clés :
• Mise en place d’un framework Scala/Spark standardisant les développements et améliorant la performance (tuning, gestion des partitions, Spark UI).
• Migration Talend Big Data → Scala/Spark et Hortonworks → Cloudera CDP, avec chaîne CI/CD (tests, SonarQube, artefacts) et orchestration Control-M.
• Conception de modules de pilotage (monitoring d’exécutions), de Data Quality et d’anonymisation.
• Projets “PRORATA VAT” & “C3S TAX” : architecture data sur Azure (ADF, Databricks, Synapse), couches d’exposition (Trino/Synapse) et intégration Power BI.
• Mise en œuvre des pratiques FinOps pour optimiser coûts cloud et gouvernance.

Environnement : Spark/Scala & PySpark, Hadoop/HDFS, Kafka, Hive/Impala, Trino/Presto, Talend, Azure (ADF, Databricks, Synapse, DevOps), Control-M, Jenkins, SonarQube. Méthodo : Agile/SAFe, TDD/BDD, Databricks, Kubernetes.

• Technologies Big Data: Hadoop, Spark, PySpark, Scala/Spark, Presto, Trino, Livy, Kafka, Flume, Sqoop, Airflow, YARN, Snowflake, Databricks.
• NoSQL DB : Hive, Impala, hbase, MongoDB
• Cloud :
- Azure : Data Factory, Databricks , Event Hub, Functions, Synapse, ASA and ADLS, Devops
- Google Cloud Platform; Bigquery, GCS Bucket, Dataflow, Dataproc, pubSub, Workflows, Cloud Run, Cloud build.
- Amazon Web Services (AWS) : S3 Storage, Databricks and EMR
• Cloudera : HDFS, YARN, Spark, Hive, Impala, HBase, Kafka, Sqoop, Flume, Livy, Cloudera Manager
• ETL: Talend (BigData/ESB/DI), SSIS.
• DBMS: Oracle, Microsoft SQL Server, postgresql, Mysql, SQLite
• Reporting : PowerBI, Cognos, SSRS
• IT automation: Devops, Terraform, Docker, Kubernetes.

FinOps Spark Finance Scala
Bouygues Telecom
Bigdata Tech Lead
TÉLÉCOMMUNICATIONS
mars 2018 - février 2021 (2 ans et 11 mois)
Paris, France
Lead Data Engineer sur deux projets stratégiques : eSIM (activation dématérialisée des cartes SIM) et Asterix (accélération du déploiement FTTH).

• Conception et mise en œuvre d’une infrastructure Data hautement scalable sur AWS pour supporter des volumes massifs (plusieurs milliards d’enregistrements).
• Développement de pipelines de données temps réel et batch (Kinesis, S3, EMR, Athena, Redshift, Spark, Airflow) pour ingestion, transformation et exposition.
• Implémentation de modèles prédictifs Python/ML pour anticiper les besoins clients et automatiser les suggestions de services via Kinesis Firehose et S3 Data Lake.
• Conception et déploiement d’applications conteneurisées sous Docker & Kubernetes (ECS, OpenShift), automatisées avec AWS CodePipeline, Lambda (Boto3) et Terraform.
• Industrialisation des traitements Snowflake : ingestion via Airflow, transformation avec dbt, et structuration analytique pour les équipes BI & Data Science.
• Optimisation des performances de requêtes Snowflake (QUERY_HISTORY, partitionnement, clustering) réduisant les coûts de 30 %.
• Élaboration de tests d’intégration et stratégie QA (automatisation, monitoring CloudWatch/CloudTrail).
• Encadrement et mentoring de développeurs et data engineers, mise en place de bonnes pratiques de revue de code, CI/CD et DataOps.
• Contribution au pilotage des indicateurs métier (churn, taux d’activation, SLA) pour fiabiliser les KPI stratégiques de la DSI.

Environnement technique
AWS (EMR, Redshift, S3, Kinesis, Lambda, ECS, CloudWatch), Snowflake, dbt, Airflow, Spark (Scala/PySpark), Python, Docker, Kubernetes, Terraform, Jenkins, GitHub, SQL.

Compétences pertinentes
AWS, Spark, Snowflake, dbt, Airflow, DataOps, CI/CD, Python, Machine Learning, Cloud Architecture, Big Data Engineering.
Amazon Web Services DBT Spark Scala Snowflake
Veolia
Project Manager
ENERGIE
juillet 2017 - septembre 2018 (1 an et 2 mois)
Île-de-France, France
Lead Data Engineer sur le projet « ESB – Portage », visant à valider et industrialiser les flux d’intégration de données dans le cadre de la nouvelle législation française sur l’aménagement du territoire.
• Pilotage de la phase de validation fonctionnelle et technique du système d’intégration ESB, incluant les tests de composants, d’interfaces, d’intégration système et end-to-end.
• Élaboration de la stratégie de test et des plans d’acceptance, définition des cas de tests, suivi des anomalies et mise en place d’actions correctives et préventives pour garantir la conformité aux standards qualité.
• Conception et industrialisation d’une architecture Data sous Google Cloud Platform (GCP) pour la collecte, la transformation et la mise à disposition des données réglementaires.
• Mise en œuvre d’une orchestration de pipelines de données via dbt + Airflow, assurant la modularité, la traçabilité et la reproductibilité des traitements.
• Développement de modèles dbt (matérialisés, incrémentaux, snapshots) et macros réutilisables pour normaliser les transformations.
• Conception de jobs PySpark sous GCP Dataproc pour le traitement batch de gros volumes, ingestion via GCS, Hive et REST APIs.
• Implémentation de stratégies d’incrémentation et de partitionnement BigQuery optimisant les performances et réduisant le temps de rafraîchissement des données de 40 %.
• Automatisation des tests de qualité et de cohérence des données via dbt et Apache Beam, validation entre zones “raw” et “processed”.
• Sécurisation des expositions de données avec BigQuery Authorized Views et intégration à Power BI pour la restitution.
• Supervision et monitoring des traitements via Stackdriver, industrialisation des déploiements avec Terraform + GitHub.

Compétences pertinentes
GCP, dbt, BigQuery, PySpark, Airflow, DataOps, Data Pipeline Architecture, Data Quality, Cloud Automation, Regulatory Data.
Google Cloud Platform (GCP) BigQuery DataOps FinOps Apache Beam

Consulter toutes les expériences de Mehdi

Soyez le premier à recommander Mehdi

Contribuez à la réussite de ce freelance en partageant votre expérience de collaboration avec lui.

Agatha Frydrych

Backend Java Software Engineer

4.7

(3)

Baptiste Duhen

Fullstack developer

4.6

(4)

Amed Hamou

Senior Lead Developer

(2)

Audrey Champion

Web developer

4.3

(3)

S’inscrire pour les voir

Master of Business
Université de Lorraine
2014
Master 2, Business Intelligence
Master 1, Génie logiciel
Ecole Supérieure ingénierie en Science Appliquées
2013
Master 1, Génie logiciel

Talend DI Basics 5.6 examen de certification
talend
2016
PSM1
Scrum.org
2018
https://drive.google.com/file/d/1P2_2Opz-FhBrW-Vuhks2qrpwxnB6VDLk/view

Mehdi T.

Lead Data Engineer | Data Architect

À propos de Mehdi

Expériences

Recommandations

Ces profils de freelance correspondent également à vos critères

Formations

Certifications

Compétences

Catégories