Description

Data engineer depuis 8 ans, avec une formation initiale d’ingénieur en développement de logiciels. J'ai travaillé 4 ans en startup, ce qui m'a permis de développer des compétences variées, puis 4 ans comme freelance dans un grand groupe.

J’interviens sur l’ensemble de la chaîne de valorisation des données :

- Compréhension des enjeux business et alignement avec les besoins des parties prenantes

- Mentorat de profils juniors et non techniques, ayant permis d’améliorer la qualité des pipelines avec la mise en place des tests, CI/CD, conception de pipelines robustes et maintenables. (réduction de 30% des incidents en prod)

- Conception et exploitation de plateformes Data Lakehouse et Data Warehouse

- Collecte et ingestion de données via le crawling/scraping de sites web (Playwright, BrightData, CommonCrawl), via API ou depuis des bases SQL/NoSQL

- Stockage dans des systèmes comme AWS S3 ou HDFS, avec des formats optimisés (Parquet, Delta Lake, Apache Iceberg, partitionnement, etc...)

- Traitement et analyse : développement de pipelines ETL/Spark pour nettoyer les données, appliquer des règles de gestion, identifier des liens via du graph processing, appliquer des modèles de machine learning et stocker les résultats dans des bases adaptées (PostgreSQL, Elasticsearch, Redis, Neo4J, Amazon Neptune)

- Data visualisation et monitoring qualité : dashboards avec Kibana / OpenSearch Dashboard

J’ai également des compétences en Ops et en infrastructure/Cloud :

- Automatisation et orchestration de pipelines data et ML avec Apache Airflow et Kubeflow

- Provisioning et configuration via Terraform et Ansible

- CI/CD avec GitLab, GitHub, ArgoCD, Kubernetes pour l’automatisation des builds, tests et déploiements

- Expérience sur les principaux cloud providers : AWS et GCP

Langues

Français
Bilingue ou natif
Anglais
Capacité professionnelle complète

Préférences en matière de lieu de travail

Accepte de travailler sur site

Paris (jusqu’à 50 km)

ENGIE - Lab Crigen
Senior Data/ML engineer
ENERGIE
janvier 2022 - Aujourd'hui (4 ans et 5 mois)
Stains, France
J’aide à concevoir, construire et industrialiser des produits data : modèles de données SQL et NoSQL, jeux de données et tables sur le datalake, pipelines de données et de machine learning, ainsi que des tableaux de bord d’analyse. J’accompagne également les profils juniors à monter en compétences sur les pratiques d’ingénierie.
Data Engineering Kubernetes Python Spark AWS
Mixdata
Data engineer/Dev Full stack
EDITION DE LOGICIELS
septembre 2017 - décembre 2021 (4 ans et 3 mois)
Boulogne-Billancourt, France
Mes missions :
- Maintenir et ajouter des nouvelles fonctionnalités dans la plateforme web mixdata.com
- Assurer la mise à jour et la qualité des données : conception, développement et maintenance des pipelines d'intégration de données.

Environnement Technique :
- Agile/SCRUM, JIRA,
- Git, Jenkins, Java, Scala, Kotlin, Spring Framework, Spark
- Bases de données : Hadoop/HDFS, Neo4J, Elasticsearch, Cassandra, MySQL, Redis
- DevOps : Ansible, Terraform
- Cloud : Azure, OVH, Scaleway, AWS

Parmi mes tâches/réalisations :

- Migration de jobs Spark on prem vers Azure
- Mise en place d'Apache Airflow (avec un role Ansible) et migration de pipelines script shell vers des DAGs Airflow.
- Développement d'APIs REST CRUD pour accéder des données dans MySQL
- Crawling en masse de plusieurs millions de sites web sur le cloud en lançant des machines virtuelles avec Terraform et Ansible, et stockage des pages web dans Cassandra, Elasticsearch
- Développement/amélioration de traitements Spark/Scala pour extraire les informations (siren, adresses, téléphone, etc..) sur les pages crawlées, stockage en format PARQUET sur Hadoop/HDFS et dans MySQL
- Développement d'un l'algorithme de "graph processing" (Spark GraphX) qui permet trouver l'entreprise éditeur d'un site web donnée à partir des informations extraites.
- Mise en place d'une base de données graphe Neo4J des entreprises et leurs dirigeants. Et la rentre accessible dans la plateforme grâce à la librairie de datavisualisation Cytoscape.js.
- Intégration des données Sitadel dans la plateforme, la base opendata des permis de construire en France, permettant ainsi de pouvoir rechercher des entreprises à partir des informations se trouvant sur le permis de construire.
- Développement de la page de datavisualisation des listes d'entreprises en mettant en place d'une API pour récupérer les données en format JSON et utilisation des librairies D3.js/DC.js
Apache Airflow Spark Neo4j Spring Elasticsearch

Fabrice

ENGIE - Lab Crigen

Avis laissé le 11/07/2022

Soyez le premier à recommander Ousmane

Contribuez à la réussite de ce freelance en partageant votre expérience de collaboration avec lui.

Agatha Frydrych

Backend Java Software Engineer

4.7

(3)

Baptiste Duhen

Fullstack developer

4.6

(4)

Amed Hamou

Senior Lead Developer

(2)

Audrey Champion

Web developer

4.3

(3)

S’inscrire pour les voir

Ingénieur développement logiciel
ISIMA
2017

Professional Machine Learning Engineer
Google Cloud
2021
https://www.credential.net/a7a0f55d-fc96-4c16-9dfd-c1f14255dbff
MLOps ML engineer Data Engineer Google cloud TensorFlow

Data Engineer

Ousmane T.

Senior Data Engineer

À propos de Ousmane

Expériences

Avis

5,0

Qualité

5,0

Délai

5,0

Communication

5,0

Fabrice

Recommandations

Ces profils de freelance correspondent également à vos critères

Formations

Certifications

Compétences

Catégories