Malt welcome

Bienvenue sur le profil Malt de Boubacar !

Malt vous permet d'accéder aux meilleurs consultants freelances pour vos projets. Contactez Boubacar pour échanger sur votre besoin ou recherchez d'autres profils sur Malt.

Boubacar T.

Data Scientist GenAI / Data Engineer / ML Engineer
  • Tarif indicatif
    610 €/ jour
  • Expérience3-7 ans
  • Taux de réponse100%
  • Temps de réponse1h
La mission ne démarrera que si vous acceptez le devis de Boubacar.
Localisation et déplacement
Localisation
Paris, France
Télétravail
Effectue ses missions majoritairement à distance
Vérifications

Charte du freelance Malt signée

Consulter la charte
E-mail vérifié
Influence
359Réputation
16Bronze
4Argent
1Or
Langues
Catégories
Partager son profil
Ensemble de compétences (19)
Boubacar en quelques mots
Je suis Data Engineer et grand passionné de la Data de manière générale (collecte, traitement, analyse, modélisation, packaging, mise en production, etc.). J'ai effectué des missions à fort potentiel Machine Learning et Ingénierie de données. Je suis très à l'aise avec les bonnes pratiques du DevOps et MLops et la construction de pipelines automatisés de bout en bout (notamment à travers Git et sur le Cloud). Je suis prêt à mettre mon expertise au service de vos projets.
Expériences
  • Carrefour
    Data & ML Engineer
    GRANDE DISTRIBUTION
    octobre 2023 - Aujourd'hui (11 mois)
    Au sein de l’équipe Data, aide à la création et à la maintenance de nouveaux processus automatisés permettant d’alimenter l’outil de travail des category managers visant à optimiser l’assortiment national et européen (France, Italie, Belgique et Espagne).

    • Optimisation de l’algorithme d’assortiment
    • Investigation des schémas et structures des différentes tables de données sur Big Query pour établir des relations logiques entre elles, contribuant à une meilleure organisation et compréhension des données du projet
    • Automatisation des processus de transformation ELT avec Data Build Tool (DBT) afin d’améliorer grandement le processus de cheminement des données et la reproductibilité des résultats
    • Utilisation de Cloud Composer pour orchestrer les Directed Acyclic Graphs (DAG) via Airflow
    • Amélioration continue du taux de couverture des codes avec des tests unitaires et d’intégration (pytest, coverage et sonarqube) garantissant ainsi la fiabilité et la robustesse des solutions développées
    • Factorisation, simplification et amélioration du module d’optimisation de l’assortiment correspondant au backend DATA (environnement python avec fastapi, ortools, etc.)
    • Backtesting automatisé des modèles d’estimation de chiffre d’affaires (CA) lors du stratage et déstratage des références dans les magasins (en tenant compte du report et de la cannibalisation du produit)
    • Analyse et reporting sur la répartition des unités de besoins clients (via Looker Studio et Vertex AI)
    • Travail en mode agile avec les membres des équipes front, QA, etc. via le board JIRA
    • Documentation de l’ensemble des travaux réalisés sur la plateforme Confluence
    Python SQL Git DBT Looker Studio
  • Capfi
    Data Scientist | MLOps
    BANQUE & ASSURANCES
    novembre 2022 - Aujourd'hui (1 an et 10 mois)
    Paris, France
    Contexte : Au sein du pôle VITADATA de Capfi, refonte de la conception et création de nouveaux outils d’aide à la décision commercialisés par l’entreprise.

    Réalisations :
    Projet 1 :
    ○ Développement et déploiement d’une API de prévision de séries temporelles en temps réel afin de mieux prédire les phénomènes à tendance et saisonnalité prononcée (optimisation sous contrainte temporelle avec Optuna)
    ○ Analyse approfondie des outils State of the Art (SOTA) dans le domaine de la prévision de séries temporelles sur Python (comparaison des modèles tels que Prophet, ARIMA, etc.)
    ○ Construction de l’API basée sur la librairie FastAPI et conteneurisation de l’application via Docker
    ○ Implémentation de pipelines de tests automatiques (unitaires et de non-régression) et déploiement des conteneurs construits sur le service Container Registry (GCP)
    ○ Mise en place de la brique IAC (Infrastructure As Code) à travers Pulumi pour le déploiement automatique du service sur Cloud Run avec des paramètres très précis (nombre maximum de conteneurs pour la scalabilité, nombre de requêtes maximal par conteneur, mapping de nom de domaine personnalisé etc.)

    Projet 2 :
    ○ Création d’un Dashbaoard Flask de gestion et de prédiction des prix de voiture d’occasion
    ○ Web Scraping des informations en temps réel sur le site « La Centrale » avec BeautifulSoup
    ○ Modélisation du prix des voitures à partir de leurs caractéristiques (marque, modèle, kilométrage, etc.) avec scikit-learn (utilisation des transformers).
    ○ Tracking des expérimentations ML avec Mlflow
    ○ Utilisation de Terraform avec Gitlab pour les tests, build et déploiement sur GCR et Cloud Run (services GCP)
    ○ Utilisation de SQlite3 et BigQuery pour le stockage des articles

    Projet 3 :
    ○ Génération automatique de contenu éducatif en ligne pour l’apprentissage des bonnes pratiques de python
    ○ Prompt Engineering et utilisation de l’API openAI via python pour générer une nouvelle leçon à apprendre à partir de chatGPT.
    ○ Extraction du fragment de code et mise en place automatique d’image du snippet à travers l’API Carbon et le Webdriver Selenium
    ○ Publication automatique sur une page twitter dédiée avec tweepy (via API Twitter)

    Environnement technique : Python, Pandas, Plotly, Scikit-learn, Optuna, Prophet, GCP, Git (Gitlab), IAC, Pulumi, Terraform, FastAPI, Docker, MLflow, BeautifulSoup, Selenium, Flask, SQL, SQlite3, HTML, CSS, BigQuery, ChatGPT API, Twitter API(Tweepy), Ubuntu 22.04, Shell
    Python Git Google Cloud Platform (GCP)
  • SOCIETE GENERALE
    Data Scientist | Data Engineer
    BANQUE & ASSURANCES
    novembre 2020 - novembre 2022 (2 ans)
    Mission 1 :

    Contexte : Au sein de l'équipe ITIM/DSR (Société Générale), conception, implémentation et mise en production d'un modèle de détection de panne d'un parc de serveurs applicatifs. Réalisations :
    • Amélioration de la maintenance du parc informatique
    • Diminution de l'intervention humaine
    • Diminution du délai de résolution des pannes
    • Exploration des logs des applications concernées (logs envoyés vers HDFS via Kafka)
    • Analyses statistiques multivariées, temporelles, etc. des logs
    • Utilisation quotidienne de PySpark pour le requêtage, l'écriture et l'exploration des données (UDFs, broadcast, etc.)
    • Mise en place de l'algorithme du z-score via PySpark et exploitation en Spark Streaming (Kafka) afin d'alerter en temps réel les pannes potentielles (optimisation du code sous forte contrainte temporelle)
    • Génération de mails automatiques pour alerter les bonnes personnes en cas de panne détectée
    • Déploiement de la solution en mode cluster pour une dizaine d'applications

    Environnement technique: Python, Spark (Batch, Streaming, UDFs), PySpark, Kafka, Pandas, Numpy, Scikit-Learn, Plotly,
    Linux,

    --
    Mission 2 :
    Contexte : Au sein de l’équipe MoSAIC (More Security with Artificial Intelligence) de Société Générale, aide à l’analyse, la conception (R&D) et la mise en place d’algorithmes de Machine Learning pour la lutte contre la fraude.

    Réalisations :
    • Mise en place d’un modèle de scoring à l’enrôlement du Pass Sécurité pour une détection préventive des virements classiques et instantanés de nature frauduleuse (scoring sous contrainte temporelle).
    • Amélioration des modèles ML sur plusieurs périmètres (Paylib, Virements instantanés, etc.)
    • Analyse statistique et adaptation des différents modèles aux nouvelles tendances de fraude (Phishing, Ingénierie Sociale, etc.)
    ● Analyses statistiques multivariées, temporelles etc. des transactions légitimes ou frauduleuses
    ● Création des profils client basés sur un historique de navigation et de transactions
    ● Requêtage, traitement, feature engineering des données pour élaborer les modèles de scoring très performants via h2o (Logistic Régression, Lasso, GBM, XGBoost, Random Forest, etc.)
    ● Packaging des modèles sous plusieurs formats (h2o, zip, mojo, etc.) réutilisable par l’API de scoring.
    ● Monitoring et Automatisation d’affichage de l’état des applications de scoring des opérations à travers certains KPI (crontab, HTML, CSS, pySpark, etc.)
    ● Interactions avec le métier pour mieux cerner les enjeux business et scénario de fraude, puis analyse et création des variables adaptés à ces besoins
    ● Formalisation du besoin de mise en place de nouvelles variables dans l’écosystème Big Data.
    ● Documentation continue des méthodes testées (Git, JIRA, Powerpoint, Excel)

    Environnement technique: Python, PySpark, H2O, Scikit-learn HBase, Hive, SQL, Pandas, Plotly, Linux, HTML, CSS, Git (Github), JIRA
    Python PySpark h2o
Recommandations externes
Formations
  • Ingénieur en Data Science
    École Nationale de la Statistique et de l'Analyse de l'Information (ENSAI),
    2020
    Ingénieur en Data Science
  • Master 2 en informatique/biologie
    Université de Rennes 1,
    2020
    Master 2 en informatique/biologie
  • Ingénieur en Statistique (année d'échange)
    École Nationale de la Statistique et de l'Administration Économique (ENSAE
    2018
    Ingénieur en Statistique (année d'échange)
  • Ingénieur en Statistiques et Analyse de l'Information
    École Supérieure de la Statistique et de l'Analyse de l'Information (ESSAI),
    2017
    Ingénieur en Statistiques et Analyse de l'Information
Certifications