Description

Bienvenue sur mon profil Malt 👋

J’interviens régulièrement sur les missions de Data Engineer, Data science et développement d'Application et : ✅

📒Data Engineer

Collecte des données via des sources variées (Site Web, API, Database) - Hadoop - Data Ingestion

Stockage des données dans des formats variés

Modélisation des données - Data Modeling

Création d'architectures de données efficaces - Data Architecture

Création et optimisation des performances des pipelines de données - Airflow - Data Pipeline

Développement et l’optimisation des traitements de données - Spark/PySpark/SQL - Data processing

Garantie de la qualité des données avec du suivi adéquat - Data qualité

Data Ops : gît, Gitlab CI/CD, Jenkins

Mise à disposition des données aux équipes de Data Science

📒Data Science

Je peux collecter de la donnée brute, réaliser les analyses statistiques pour identifier les tendances sous-jacentes et les caractéristiques les plus pertinentes. Exposer les résultats des analyses dans des dashboards métiers - Tableau. Modéliser les besoins métiers par des algorithmes de machines learning (prédiction, recommandation, classification, clustering, ...), exposer les modèles trouvés dans des API et mettre en production l'ensemble de la chaîne de prédiction (avec mises à jour en temps réel).

📒Développement d'API

API Django / Flask

📒Moteur de recherche

J'interviens dans toute la chaîne de la mise en place d'un moteur de recherche / De l'extraction de texte (Image, PDF,...), l'indexation, le regroupement en thématiques, jusqu'à la mise en service dans une plateforme Web.

🚀🚀🚀 Cette liste n'est pas exhaustive 🚀🚀🚀

Je propose des solutions utiles aux entreprises.

Domaines d’expertise

Langues

Français
Bilingue ou natif
Anglais
Capacité professionnelle complète

Préférences en matière de lieu de travail

En télétravail uniquement

Travaille majoritairement à distance

TotalEnergies
Senior Data Engineer
ENERGIE
décembre 2025 - Aujourd'hui (8 mois)
Paris, France
Designed and built scalable data pipelines on Databricks (PySpark, Delta Lake, Unity Catalog) for ingestion, normalization, quality control, and monitoring.
Developed a generic ingestion framework (metadata‑driven, multi‑source, multi‑schema) reducing feature delivery time by 40%.
Implemented a full Data Quality framework: business rules, automated profiling, drift detection, alerting, and Lakeview dashboards.
Optimized Delta tables (Z‑Ordering, clustering, compaction) improving query performance by 30–70%.
Contributed to data governance: catalog structure, permissions, documentation, naming conventions.
Collaborated with business teams (energy, pricing, scenarios) to translate complex requirements into reliable, production‑ready pipelines.
Databricks Microsoft Azure MySQL Data Quality GitHub
Vizcab
Data ingénieur / Développeur
EDITION DE LOGICIELS
avril 2024 - novembre 2025 (1 an et 7 mois)
Paris, France
- Conçoit et développe de nouveaux pipelines de données dans Azure Databricks pour l'ingestion de données vers/depuis des applications produits, Azure Data Lake et des bases de données PostgreSQL.
- Met en place des pipelines d'ingestion de métriques Datadog dans Databricks, associe ces données avec d'autres ensembles de données et expose des insights dans des rapports Power BI.
- Crée et optimise des modèles pour organiser et structurer les données issues de diverses applications et sources, afin de les rendre exploitables par les utilisateurs.
- Développe et maintient des tableaux de bord Power BI et Databricks pour visualiser les informations, surveiller les performances des pipelines et garantir la qualité des données.
- Améliore la qualité du code en appliquant les meilleures pratiques et en établissant des pipelines CI/CD robustes grâce à Databricks Bundle Assets, GitLab et SonarQube.
- Implémente des tests unitaires et d'intégration.
- Développe et met en œuvre des contrats de données comme cadre pour surveiller les modèles de données et définir des spécifications claires.
- Collabore avec les équipes métiers pour identifier leurs besoins et fournir des solutions de données sur mesure qui apportent de la valeur.
PySpark Databricks Microsoft PowerBI Microsoft Azure Gitlab CI/CD
Cour des comptes, Paris.
Machine learning ingénieur / Project Lead
SECTEUR PUBLIC & COLLECTIVITÉS
décembre 2017 - août 2022 (4 ans et 8 mois)
● Conçoit et supervise l’architecture et le développement de la plateforme de recherche unifiée de la Cour des comptes basée sur un datalake Hadoop.
● Construit les pipelines de scrapping Python pour collecter des pages HTML des rapports produits par la Cour des comptes de 1870 à 2022 (180 k+).
● Crée et développe les projets Python pour extraire les textes bruts de 250 k+ rapports de types PDF, Word, HTML, Images documents (OCR), etc.
● Implémente des programmes Python pour nettoyer, traiter et structurer les données hétérogènes, et surtout identifier les connexions entre les données pour leur indexation (Elasticsearch) et leur analyse textuelle.
● Dirige et développe les pipelines Spark d’ingestion des contenus en provenance de diverses bases de données (ex: contrôles, référentiel des agents de la Cour, ...).
● Développe collaborativement la plateforme Web du moteur de recherche (React, Django).
● Réalise un POC NER (Reconnaissance d'Entités Nommées) pour extraire automatiquement les noms et expressions pertinentes dans le texte des rapports (Spacy, Deep learning).
● Organise et dirige les workshops d’annotation manuelle (Doccano) des rapports pour constituer une base d’apprentissage du POC NER propre au contexte de la Cour des comptes.
● Organise plusieurs ateliers utilisateurs pour collecter les besoins internes sur la recherche efficace de textes, l’organisation des documents et les liens logiques entre les informations.
● Travaille main à main avec l’UX designer pour la réalisation des mockups de la plateforme de
recherche.
Python Scala SQL PySpark Hadoop Elasticsearch Docker BeautifulSoup Tesseract Spacy Tika Pandas Numpy data ingenieur Modélisation statistique Python (Programming Language) Natural Language Processing (NLP) Python (Programming Language) Analyse des besoins Gestion de projet Project management Management d'équipe