Description

🚀Vos PoCs GenAI peinent à passer en production ?

Latence élevée, hallucinations, données sensibles ?

Je suis Mohammed, Ingénieur IA & LLMOps. J'aide les CTOs et DSI à transformer leurs expérimentations LLM en architectures robustes, scalables et prêtes pour la production.

💡Ma valeur ajoutée :

Contrairement aux simples intégrateurs d'API, je maîtrise l'industrialisation bout-en-bout :

Souveraineté & Open-Source :Déploiement de LLMs locaux (Mistral, Llama 3, Qwen) sur vos propres GPU viavLLMpour garantir la confidentialité totale de vos données.
Fiabilité mesurable :Évaluation stricte de la qualité des réponses viaRAGASpour prouver mathématiquement l'absence d'hallucinations.
Expertise grands comptes :J'ai conçu des architectures GenAI déployées pour des géants de l'industrie (Airbus, Renault, Stellantis, Mercedes).

🛠️Projets et livrables sur lesquels je vous accompagne :

RAG Avancé (Retrieval-Augmented Generation) :Chunking dynamique, bases vectorielles (ChromaDB, pgvector), recherche hybride (BM25 + Sémantique) et Reranking pour une précision absolue.
Agentic AI (LangGraph) :Création de workflows IA autonomes capables de raisonner et d'utiliser des outils (APIs, BDD).
IA Multimodale (OCR + VLM) :Extraction de données sur des PDFs et graphiques complexes via Tesseract couplé à des modèles visuels (Qwen3-VL, GPT-4o).
LLMOps :Optimisation d'inférence (< 5s de latence), conteneurisation (Docker) et déploiement Cloud (Azure, GCP) ou On-Premise.
IA Vocale Temps Réel :Retranscription/traduction basse latence via Faster Whisper et WebSockets.

🌍 Basé au Maroc, je travaille sur votre fuseau horaire (CET) avec une communication bilingue (FR natif/EN fluide) parfaitement adaptée aux exigences B2B.

📩Prêt à industrialiser votre IA ?

Discutons de votre architecture lors d'un premier échange de 15 min !

Domaines d’expertise

Langues

Français
Bilingue ou natif
Anglais
Capacité professionnelle complète

Préférences en matière de lieu de travail

En télétravail uniquement

Travaille majoritairement à distance

ALTEN Maroc
AI & MLOps Engineer
février 2025 - Aujourd'hui (1 an et 6 mois)
Rabat, Morocco
Conçu la solution GenAI phare du groupe ALTEN pour interroger des bases de connaissances à grande échelle (données), réduisant le temps de récupération manuel à moins de 5 secondes via une approche RAG avec découpage dynamique (niveau page pour PDF/PPTX/Word ; niveau ligne pour XLSX), vector store FAISS, et recherche ensembliste (BM25 mots-clés + similarité sémantique).
Développé un pipeline hybride OCR + VLM utilisant Tesseract OCR pour l'extraction de texte — utilisé comme contexte de prompt avec les images pour l'LLM multimodal Qwen3 analysant images/graphiques/documents scannés ; exploité la famille Qwen3 pour la génération d'embeddings et le reranking maximisant la précision multi-formats.
Orchestré vLLM avec Docker pour le serving GPU on-premise des LLM open-source, plus intégration APIs Azure OpenAI/GCP pour déploiements hybrides cloud/on-prem optimisant coût, confidentialité et scalabilité.
Déployé chez 10+ grands clients (Stellantis, Airbus, Renault, Mercedes), activant GenAI à échelle de production pour usages industriels et internes.
Évolué un système RAG vers le ALTEN Group Bot, plateforme agentique autonome déployée à l'échelle groupe ; construit couche agentique LangGraph pour raisonnement multi-étapes et usage d'outils avec DSI et Mistral AI. Exploité Mistral Large, Azure AI Search, et PostgreSQL + pgvector pour recherche hybride ; déployé sur Azure Container Apps pour automatiser workflows globaux.

Tech Stack: Python, LLM, LangChain, LangGraph, Tesseract OCR, HuggingFace, Postgres/PGvector, FAISS, Azure AI Search, vLLM, Docker, Git.
intelligence artificielle LLMOps Retrieval-Augmented Generation (RAG) IA générative Python
Freelance
AI & Software Engineer
septembre 2024 - janvier 2025 (4 mois)
Conçu une architecture de pipeline de traitement documentaire basée sur le RAG en utilisant Spring AI et l’API OpenAI (GPT-4o et text-embedding-3-small) avec PostgreSQL/pgvector comme base vectorielle : documents PDF découpés via une stratégie basée sur les parties du discours (POS) puis indexés pour la recherche sémantique, réduisant de 80 % le temps d’analyse manuelle.
Évalué les performances du système RAG à l’aide des métriques RAGAS (fidélité, précision du contexte, pertinence des réponses), garantissant une haute qualité de récupération et la cohérence des réponses.

Tech Stack : Java, Spring Boot, Spring AI, PostgreSQL (pgvector), React.js, OpenAI API, RAGAS.
intelligence artificielle Retrieval-Augmented Generation (RAG) Data science Agent IA LLMOps
ALTEN Maroc
AI & Cloud Data Engineer Intern
AUTOMOBILE
avril 2024 - septembre 2024 (5 mois)
Rabat, Morocco
Fine-tuné un LLM Llama3-8B avec PEFT (LoRA) sur des données métiers pour créer un assistant "Text-to-PySpark", réduisant de 75 % le temps de développement des scripts.
Optimisé des pipelines ETL/ELT à grande échelle sur Databricks (PySpark) via des stratégies de partitionnement et de mise en cache, améliorant les performances de traitement des données.
Conçu des workflows Airflow tolérants aux pannes avec relances automatiques et alerting, réduisant les erreurs d’ingestion.

Tech Stack : Python, PySpark, LLM, Hugging Face, Azure Databricks, Apache Airflow, PEFT, SQL, Power BI.
intelligence artificielle Analyse de données Data science Python LLM Fine-tuning