- CarrefourData & ML EngineerGRANDE DISTRIBUTIONoctobre 2023 - Aujourd'hui (11 mois)Au sein de l’équipe Data, aide à la création et à la maintenance de nouveaux processus automatisés permettant d’alimenter l’outil de travail des category managers visant à optimiser l’assortiment national et européen (France, Italie, Belgique et Espagne).• Optimisation de l’algorithme d’assortiment• Investigation des schémas et structures des différentes tables de données sur Big Query pour établir des relations logiques entre elles, contribuant à une meilleure organisation et compréhension des données du projet• Automatisation des processus de transformation ELT avec Data Build Tool (DBT) afin d’améliorer grandement le processus de cheminement des données et la reproductibilité des résultats• Utilisation de Cloud Composer pour orchestrer les Directed Acyclic Graphs (DAG) via Airflow• Amélioration continue du taux de couverture des codes avec des tests unitaires et d’intégration (pytest, coverage et sonarqube) garantissant ainsi la fiabilité et la robustesse des solutions développées• Factorisation, simplification et amélioration du module d’optimisation de l’assortiment correspondant au backend DATA (environnement python avec fastapi, ortools, etc.)• Backtesting automatisé des modèles d’estimation de chiffre d’affaires (CA) lors du stratage et déstratage des références dans les magasins (en tenant compte du report et de la cannibalisation du produit)• Analyse et reporting sur la répartition des unités de besoins clients (via Looker Studio et Vertex AI)• Travail en mode agile avec les membres des équipes front, QA, etc. via le board JIRA• Documentation de l’ensemble des travaux réalisés sur la plateforme Confluence
- CapfiData Scientist | MLOpsBANQUE & ASSURANCESnovembre 2022 - Aujourd'hui (1 an et 10 mois)Paris, FranceContexte : Au sein du pôle VITADATA de Capfi, refonte de la conception et création de nouveaux outils d’aide à la décision commercialisés par l’entreprise.Réalisations :Projet 1 :○ Développement et déploiement d’une API de prévision de séries temporelles en temps réel afin de mieux prédire les phénomènes à tendance et saisonnalité prononcée (optimisation sous contrainte temporelle avec Optuna)○ Analyse approfondie des outils State of the Art (SOTA) dans le domaine de la prévision de séries temporelles sur Python (comparaison des modèles tels que Prophet, ARIMA, etc.)○ Construction de l’API basée sur la librairie FastAPI et conteneurisation de l’application via Docker○ Implémentation de pipelines de tests automatiques (unitaires et de non-régression) et déploiement des conteneurs construits sur le service Container Registry (GCP)○ Mise en place de la brique IAC (Infrastructure As Code) à travers Pulumi pour le déploiement automatique du service sur Cloud Run avec des paramètres très précis (nombre maximum de conteneurs pour la scalabilité, nombre de requêtes maximal par conteneur, mapping de nom de domaine personnalisé etc.)Projet 2 :○ Création d’un Dashbaoard Flask de gestion et de prédiction des prix de voiture d’occasion○ Web Scraping des informations en temps réel sur le site « La Centrale » avec BeautifulSoup○ Modélisation du prix des voitures à partir de leurs caractéristiques (marque, modèle, kilométrage, etc.) avec scikit-learn (utilisation des transformers).○ Tracking des expérimentations ML avec Mlflow○ Utilisation de Terraform avec Gitlab pour les tests, build et déploiement sur GCR et Cloud Run (services GCP)○ Utilisation de SQlite3 et BigQuery pour le stockage des articlesProjet 3 :○ Génération automatique de contenu éducatif en ligne pour l’apprentissage des bonnes pratiques de python○ Prompt Engineering et utilisation de l’API openAI via python pour générer une nouvelle leçon à apprendre à partir de chatGPT.○ Extraction du fragment de code et mise en place automatique d’image du snippet à travers l’API Carbon et le Webdriver Selenium○ Publication automatique sur une page twitter dédiée avec tweepy (via API Twitter)Environnement technique : Python, Pandas, Plotly, Scikit-learn, Optuna, Prophet, GCP, Git (Gitlab), IAC, Pulumi, Terraform, FastAPI, Docker, MLflow, BeautifulSoup, Selenium, Flask, SQL, SQlite3, HTML, CSS, BigQuery, ChatGPT API, Twitter API(Tweepy), Ubuntu 22.04, Shell
- SOCIETE GENERALEData Scientist | Data EngineerBANQUE & ASSURANCESnovembre 2020 - novembre 2022 (2 ans)Mission 1 :Contexte : Au sein de l'équipe ITIM/DSR (Société Générale), conception, implémentation et mise en production d'un modèle de détection de panne d'un parc de serveurs applicatifs. Réalisations :• Amélioration de la maintenance du parc informatique• Diminution de l'intervention humaine• Diminution du délai de résolution des pannes• Exploration des logs des applications concernées (logs envoyés vers HDFS via Kafka)• Analyses statistiques multivariées, temporelles, etc. des logs• Utilisation quotidienne de PySpark pour le requêtage, l'écriture et l'exploration des données (UDFs, broadcast, etc.)• Mise en place de l'algorithme du z-score via PySpark et exploitation en Spark Streaming (Kafka) afin d'alerter en temps réel les pannes potentielles (optimisation du code sous forte contrainte temporelle)• Génération de mails automatiques pour alerter les bonnes personnes en cas de panne détectée• Déploiement de la solution en mode cluster pour une dizaine d'applicationsEnvironnement technique: Python, Spark (Batch, Streaming, UDFs), PySpark, Kafka, Pandas, Numpy, Scikit-Learn, Plotly,Linux,--Mission 2 :Contexte : Au sein de l’équipe MoSAIC (More Security with Artificial Intelligence) de Société Générale, aide à l’analyse, la conception (R&D) et la mise en place d’algorithmes de Machine Learning pour la lutte contre la fraude.Réalisations :• Mise en place d’un modèle de scoring à l’enrôlement du Pass Sécurité pour une détection préventive des virements classiques et instantanés de nature frauduleuse (scoring sous contrainte temporelle).• Amélioration des modèles ML sur plusieurs périmètres (Paylib, Virements instantanés, etc.)• Analyse statistique et adaptation des différents modèles aux nouvelles tendances de fraude (Phishing, Ingénierie Sociale, etc.)● Analyses statistiques multivariées, temporelles etc. des transactions légitimes ou frauduleuses● Création des profils client basés sur un historique de navigation et de transactions● Requêtage, traitement, feature engineering des données pour élaborer les modèles de scoring très performants via h2o (Logistic Régression, Lasso, GBM, XGBoost, Random Forest, etc.)● Packaging des modèles sous plusieurs formats (h2o, zip, mojo, etc.) réutilisable par l’API de scoring.● Monitoring et Automatisation d’affichage de l’état des applications de scoring des opérations à travers certains KPI (crontab, HTML, CSS, pySpark, etc.)● Interactions avec le métier pour mieux cerner les enjeux business et scénario de fraude, puis analyse et création des variables adaptés à ces besoins● Formalisation du besoin de mise en place de nouvelles variables dans l’écosystème Big Data.● Documentation continue des méthodes testées (Git, JIRA, Powerpoint, Excel)Environnement technique: Python, PySpark, H2O, Scikit-learn HBase, Hive, SQL, Pandas, Plotly, Linux, HTML, CSS, Git (Github), JIRA
- Ingénieur en Data ScienceÉcole Nationale de la Statistique et de l'Analyse de l'Information (ENSAI),2020Ingénieur en Data Science
- Master 2 en informatique/biologieUniversité de Rennes 1,2020Master 2 en informatique/biologie
- Ingénieur en Statistique (année d'échange)École Nationale de la Statistique et de l'Administration Économique (ENSAE2018Ingénieur en Statistique (année d'échange)
- Ingénieur en Statistiques et Analyse de l'InformationÉcole Supérieure de la Statistique et de l'Analyse de l'Information (ESSAI),2017Ingénieur en Statistiques et Analyse de l'Information