À propos de Haboubacar
Data Scientist – Spécialiste NLP et IA Gen
Français
Bilingue ou natif
Anglais
Capacité professionnelle complète
Expériences
- Caisse des Dépôts et ConsignationsData Scientist - EngineerSECTEUR PUBLIC & COLLECTIVITÉSmars 2024 - Aujourd'hui (2 ans et 3 mois)Paris, France- Développement d'un algorithme IA pour identifier des certifications en lien avec la transition écologique, avec une précision de classification de 80% (Embedding CamemBERT + Cosine Similarity & Fine-tuning CamemBERT)- Clustering sémantique de 25 000 certifications pour l'indexation documentaire (Cosine Similarity + algorithme Find-Union)- Développement d'un moteur sémantique de recherche de fichiers sur le OneDrive du service data (Langchain, Faiss, Camembert, Streamlit)- Conception et déploiement d'une API de vectorisation de documents textuels (hugging face, Camembert, onnx runtime, FastAPI)- Conception et optimisation des pipelines de données via Alteryx et PySpark : fourniture automatique de données en réponse aux demandes métiers- Référent technique OpenData : création, publication et maintenance des pipelines d'alimentation des jeux de données- Conduite d'ateliers de restitution des projets aux équipes métiers
- Île-De-France-MobilitésData ScientistTRANSPORTSoctobre 2022 - mars 2024 (1 an et 5 mois)Paris, France- Conception et déploiement d'un RAG sur les spécifications fonctionnelles & techniques de l'équipe IVTR- Conception et déploiement d'un Agent IA (interface avec GPT-4) afin de simuler des données de transport pour tests- Création d'une webApp Flask de génération des flux de données (interface de chat)• Déploiement de la webApp sur Azure (App Services, Azure Functions) et mise en place d'une CI/CD- Automatisation des tests de non-régression, réduisant le temps d'exécution manuelle de 5 jours à 3 heures, soit un gain de productivité de 90%- Conduite des tests de non-régression de l'application de recherche d'itinéraire d'IDFM, optimisée pour les JO Paris 2024- Rédaction des spécifications, gestion des anomalies et suivi technique du relais IVTR- Animation des instances agiles et coordination des tests de connexion de nouveaux partenaires
- PwC FranceData Scientist NLPCONSEIL & AUDIToctobre 2021 - août 2022 (10 mois)Paris, France- Entraînement et déploiement en production de huit modèles de classification de mails sur Databricks via MLflow (mise en concurrence des modèles CamemBERT, SVM et Perceptron)- Conception et mise en œuvre d'une pipeline MLOps robuste, intégrant une boucle rétroactive pour l'évaluation continue et la détection du data drift- Création d'un robot sous UiPath interfaçant le modèle de classification de mails et la boucle de rétroaction, automatisant la classification des mails dans la boîte deréception client- Développement d'un système de recommandation d'archivage performant permettant d'identifier et d'éliminer les documents obsolètes, entraînant une réduction de 20% de l'espace de stockage utilisé- Collaboration avec les équipes de développement et gestionnaires de projets pour l'alignement des solutions avec les besoins clients.
Recommandations
Soyez le premier à recommander Haboubacar
Contribuez à la réussite de ce freelance en partageant votre expérience de collaboration avec lui.
Ces profils de freelance correspondent également à vos critères
Agatha Frydrych
Backend Java Software Engineer
4.7
(3)
2
Baptiste Duhen
Fullstack developer
4.6
(4)
5
Amed Hamou
Senior Lead Developer
4
(2)
7
Audrey Champion
Web developer
4.3
(3)
4
Formations
- Diplôme d'ingénieur, Intelligence ArtificielleCY Tech2022Statistiques - Machine learning - Deep learning - Deep learning - NLP
- CPGE MPSI-MPCPGE Lycée Moulay Idriss(Fès-Maroc)2019CPGE option Maths-Physique