Description

Passionné par les projets data, j'ai pu travailler durant mes 5 ans d'expériences sur différents projets avec différentes technologies et différents secteurs d'activités. Au fur et à mesure des projets j'ai pu appréhender les bonnes pratiques de développement, surtout avec le langage python, qui permet de travailler sur des projets de développement web ou data, ce qui constitue ma force aujourd'hui.

Domaines d’expertise

Langues

Arabe
Bilingue ou natif
Français
Bilingue ou natif
Anglais
Capacité professionnelle complète

Préférences en matière de lieu de travail

Accepte de travailler sur site

Paris (jusqu’à 50 km), Lyon (jusqu’à 20 km), Lille (jusqu’à 20 km)

Safran Nacelles
Cloud Data Engineer
AÉRONAUTIQUE & AÉROSPATIALE
juin 2024 - Aujourd'hui (2 ans et 2 mois)
Le Havre, France
Interlocuteurs : Différents métiers chez SNA
• Développements Talend :
• Ingestion des données SAP en mode RAW vers AWS S3
• Ingestion en masse des tables de petite et moyenne taille avec le module icontrol
• Ingestion de tables très volumineuses en batch
• Data Engineering dans AWS
• Création d’un package python permettant de cataloguer les tables SAP dans une database Glue sous format
iceberg, en intégrant le partitionnement, la mise à jour ou l’écrasement des tables selon les besoins.
• Transformation des données Raw vers des données Curated et Product selon les besoins métiers, cataloguées
dans Glue, pour des fins de requêtage dans Athena ou reporting sur Power BI
• Création d’un système d’industrialisation rapide de requêtes SQL développées par les métiers pour donner
plus d’autonomie aux métiers pour exploiter la donnée RAW en utilisant Lambda
• Orchestration des différents flux de données en utilisant des Step Functions, puis en se basant sur architecure
Event Driven basée sur une base de données DynamoDB et EventBridge.
• Projet Automac :
• Projet de numérisation de la chaine de production nécessitant un rafraichissement de reporting
toutes les 15min
• Développement des différentes briques techniques : Requêtes SQL, Lambdas, Orchestrarion.
• Industrialisation via Terraform.
Environnement technique : Python (3.9 & 3.12), Spark, Iceberg, SQL, AWS (S3, Glue, Lambda, Athena, EventBridge, StepFunction,
DynamoDB), Gitlab, Gitlab CI, Terraform.
Generali France
Data engineer
BANQUE & ASSURANCES
octobre 2023 - Aujourd'hui (2 ans et 9 mois)
Paris, France
Interlocuteurs : Equipe valeur Client – Projet CVM (Client Value Management)
Réalisations :
• Développement Python:
• Suite à l’achat de l’assurance « La Medicale » par Generali, le besoin était d’intégrer les valeurs des clients
Generali au sein de l’application CVM (Client Value Management)
• Enrichissement de CVM en temps réel
• Développement de nouvelles fonctionnalités permettant de recevoir les flux Kafka de type la médicale et de
traiter la donnée et la renvoyer
• Développement des tests unitaires
• Intégration des données la médicale dans MongoDB
• Développement d’une Web App avec Streamlit permettant de faire un monitoring fonctionnel des données
CVM :
• Interface de recherche permettant de trouver toutes les références d’un ID dans les bases
Snowflake (Après les traitements en Batch) MongoDB (Après traitement en temps réel)
• Pour un ID, un reporting sur la valeur du contrat ou du client
• Une timeline permettant d’afficher toutes les références dans un ordre chronologique pour
tracer les mouvements des valeurs client ou contrat
• Data Engineering :
• Développement de batchs de traitements de données avec PySpark pour intégrer les données de la
médicale dans les bases Hadoop de Generali
• Evolution des batchs existants selon la demande de l’équipe client
• Développement de DAGs sur Airflow pour permettre l’exécution des batchs
Environnement technique : Python (3.7 & 3.10), Spark, Hadoop, SQL, Airflow, MongoDB, Streamlit, Snowflake, Snowpark, Jupyter,
,Docker, Kubernetes, Rancher, Cloudera
Python Spark Snowflake Hadoop MongoDB Docker Kubernetes Streamlit Airflow
Cleyrop
Développeur Python & Data Engineer
HIGH TECH
janvier 2023 - septembre 2023 (9 mois)
Paris, France
Interlocuteurs : CPO, PM, Gestionnaire de projets clients
Réalisations :
• Produit :
• Développement d’une librairie Python interne qui permet :
• La lecture de datasets sous format Iceberg
• La mise en disposition des datasets sous forme d’objet PySpark Pandas
• Lister les datasets d’un projet
• Abstraction de ces différentes opérations pour l’utilisateur pour optimiser l’UX
• Développement de tests unitaires pour les fonctionnalités citées
• CI/CD avec Giltab CI et la semantic release
• Création d’une image Docker de Jupyterlab permettant de prendre en compte la librairie
développée tout en ajoutant les services nécessaires pour la couche données, comme
Spark, Iceberg et Nessie
• Service (Client Atout France) :
• Correction des bugs aux niveaux des pipelines existants, développés avec Python
• Optimisation, amélioration et documentation de l’existant
• Refonte des différentes fonctionnalités en utilisant l’API PySpark Pandas
Environnement technique : Python, Spark, Iceberg, Jupyter Notebook,Git, Gitlab CI/CD, Docker, Kubernete
Python Docker PySpark Spark Gitlab Gitlab CI/CD Kubernetes