À propos de Hassina
Français
Bilingue ou natif
Anglais
Capacité professionnelle complète
Expériences
- BNP ParibasData engineer - Data QualityBANQUE & ASSURANCESseptembre 2025 - décembre 2025 (3 mois)Montreuil, FranceCadrage & besoins métier:Ateliers avec Product Owner et Data Scientists pour définir les exigences du service d’assistant virtuel : règles métier Q&A, critères de qualité des données et contraintes SI (sécurité bancaire, DMZR, IBM COS, Elasticsearch).Architecture & design (DDD):Conception d’une architecture Domain / Application / Infrastructure. Modélisation des entités clés (Document, Chunk, Embedding, IndexRecord) et mise en place d’un pipeline modulaire, évolutif et maintenable.Ingestion & Data Quality (ETL):Développement d’un pipeline d’ingestion complet depuis IBM COS : détection automatique des formats (CSV/JSON), parsing robuste, normalisation, contrôles qualité et cycle de vie des données(raw → parsed → enriched → indexed → dead_letter).Qualité & fiabilité des données:Définition et implémentation de règles de Data Quality (complétude, cohérence, unicité, conformité).Détection des anomalies (données manquantes, doublons, erreurs de format), gestion des erreurs et traçabilité des traitements.Sécurité & accès aux données:Développement d’un connecteur Python sécurisé pour IBM COS (DMZR) avec récupération dynamique des credentials via Vault et logs sécurisés.Structuration & embeddings:Mise en place d’une stratégie de chunking adaptée au contexte bancaire (cohérence sémantique, tailles maîtrisées).Génération d’embeddings avec gestion des batchs, retries et logs structurés.Industrialisation Elasticsearch:Création et gestion des index, mappings optimisés (analyzers personnalisés, champs nested, multi-fields).Bulk indexing avec gestion des erreurs partielles et switch d’alias atomique sans downtime.Documentation & agilité:Rédaction de la documentation technique sur Confluence.Travail en méthodologie Agile Scrum, gestion des user stories techniques et suivi via Jira.
- LetxbeData Engineer – Data Quality & Governance - Cloud AWSEDITION DE LOGICIELSdécembre 2023 - août 2025 (1 an et 8 mois)Paris, FranceCadrage & exigences dataRecueil des besoins auprès des parties prenantes métiers et techniques avec un fort accent sur la qualité, la fiabilité et la gouvernance des données : règles métier, exigences de sécurité, contraintes SI, coûts et choix des services cloud.Data Quality by designDéfinition et implémentation de règles de qualité des données (complétude, cohérence, unicité, conformité des schémas).Intégration de contrôles qualité automatisés dans les pipelines d’ingestion et d’indexation pour détecter les anomalies (données manquantes, incohérences, erreurs partielles).Plateforme data & infrastructureDéploiement et industrialisation d’OpenSearch sur AWS via Terraform : clusters sécurisés (IAM, TLS/KMS), journalisation CloudWatch, sous-réseaux privés multi-AZ et VPC Endpoints garantissant l’intégrité et la confidentialité des données.Pipelines fiables & scalablesConception de pipelines Python d’indexation et de recherche avec validation systématique des données : mappings dynamiques, analyzers personnalisés, champs nested et contrôles de cohérence avant exposition.Optimisation des requêtes et exposition via API à faible latence.Migration & fiabilisation des donnéesMigration depuis ArangoDB vers OpenSearch : extraction, nettoyage, transformation et contrôles qualité post-migration pour garantir l’exhaustivité et la conformité des données.Monitoring & gouvernanceMonitoring proactif de la qualité et de la fraîcheur des données (alertes sur erreurs, volumes, shards, snapshots).Sécurisation des flux via AWS Transfer Family (SFTP), automatisation SQS → Lambda → API et suivi FinOps pour une gouvernance data durable.
- StellantisData Engineer – Data Quality & Industrialisation des Pipelines (GCP | Véhicules autonomes)AUTOMOBILEseptembre 2021 - décembre 2023 (2 ans et 2 mois)Paris, FranceCadrage & exigences dataCollaboration avec les équipes Data, ML et ingénierie véhicule pour définir les exigences de qualité des données issues des essais sur route : fiabilité des flux capteurs, cohérence temporelle, exploitabilité analytique et ML, contraintes de volumétrie et de performance.Ingestion & pipelines data (GCP)Mise en place de pipelines automatisés pour la collecte, la synchronisation et le transfert des données capteurs (vidéo, audio, LIDAR, logs CAN) vers Google Cloud Storage, avec orchestration via Apache Airflow et déclenchement à la réception des fichiers bruts.Data Processing & Data QualityDéveloppement de traitements distribués avec Dataflow pour garantir la qualité des données : nettoyage (filtrage audio, suppression de frames redondantes), normalisation des timestamps multi-capteurs, contrôles de complétude et de cohérence, enrichissement par métadonnées (ID véhicule, GPS, conditions météo).Fiabilité & contrôles qualitéImplémentation de règles de Data Quality sur les données entrantes et transformées : détection automatique des données corrompues, incomplètes ou incohérentes, mise à l’écart des flux non conformes et sécurisation des datasets utilisés pour l’analyse et le ML.Stockage & structurationStructuration des données dans BigQuery (tables partitionnées, schémas maîtrisés), avec suivi de la fraîcheur, des volumes et de la traçabilité des flux de la source jusqu’aux datasets finaux.Orchestration & monitoringOrchestration complète des pipelines avec Airflow, intégrant contrôles qualité à chaque étape clé, monitoring des jobs, gestion des échecs et reprise automatique pour garantir la continuité des traitements.Datasets ML & déploiementPréparation de datasets fiables pour l’entraînement de modèles sur Vertex AI, puis déploiement de modèles validés sur plateformes embarquées (NVIDIA Jetson), avec Docker, RTMaps et ROS2 pour assurer reproductibilité et robustesse.
Recommandations
Ces profils de freelance correspondent également à vos critères
Agatha Frydrych
Backend Java Software Engineer
4.7
(3)
2
Baptiste Duhen
Fullstack developer
4.6
(4)
5
Amed Hamou
Senior Lead Developer
4
(2)
7
Audrey Champion
Web developer
4.3
(3)
4
Formations
- Master 2Créteil2020Système distribués et technologies de la data science
Certifications
- rosOrsys2023
- Hand’s -on machine learning with Nvidia and AwsCoursera2023