Description

Je suis un Data Engineer certifié Google Cloud Professional, passionné par la transformation des données en atouts stratégiques. Avec plus de 5 ans d’expérience, j’excelle dans la conception et l’optimisation d’architectures de données robustes et évolutives.

Ce que je vous propose :

Expertise certifiée : En tant que Professional Data Engineer certifié par Google Cloud, je maîtrise les outils et services GCP, notamment BigQuery, Dataflow, Dataproc, et Cloud Composer (Airflow).
Leadership en conception et optimisation : En tant que Data Engineer chez EDF, j’ai dirigé la migration stratégique des infrastructures de données vers GCP, optimisant les performances et réduisant les coûts. J’ai conçu des architectures de pipelines de données en médaillon, permettant une gestion efficace des données à travers différentes couches (Bronze, Silver, Gold). Par exemple, dans des sources de données très volumineuses, j’ai amélioré la vitesse des pipelines de plus de 90 % et réduit les coûts dans le même ratio grâce à l’utilisation en batch de Dataproc.
Documentation stratégique : Je rédige des documents d’architecture technique détaillés et élabore des stratégies de traitement des données, assurant une gestion optimale à long terme. Mon approche garantit la clarté et la traçabilité des décisions techniques.
Accompagnement sur mesure : Que ce soit pour la migration vers GCP, la mise en place de nouveaux environnements ou le développement de solutions personnalisées, je vous accompagne tout au long du processus. Chez SEALK, j’ai créé un framework pour la gestion des pipelines de données, facilitant l’intégration de nouvelles technologies et optimisant l’ingestion et la transformation des données.

Je suis déterminé à transformer vos défis de données en opportunités stratégiques grâce à une approche professionnelle et certifiée. Ensemble, faisons de vos données un véritable atout pour votre entreprise !

Domaines d’expertise

Langues

Français
Bilingue ou natif
Anglais
Bilingue ou natif
Arabe
Bilingue ou natif

Préférences en matière de lieu de travail

En télétravail uniquement

Travaille majoritairement à distance

EDF
Data Engineer
ENERGIE
septembre 2023 - juin 2025 (1 an et 9 mois)
92800 Puteaux, France
Contexte du Projet
En tant que Data Engineer chez EDF, je dirige la migration des infrastructures de données vers Google Cloud Platform (GCP). Ce projet vise à réduire les coûts, optimiser les performances et diminuer le temps d’exécution des pipelines de données complexes, tout en gérant de grands volumes de données.

Responsabilités et Réalisations
Conception des Architectures
J’ai conçu des architectures adaptées aux besoins métiers, prenant en compte les sources et types de données. Les choix de services ont été faits pour garantir une solution robuste et évolutive.

Exemples d’Architecture
Pipeline de Données en Médaillon :
Bronze Layer : Stockage brut.
Silver Layer : Transformation en format structuré.
Gold Layer : Données prêtes pour l’analyse.
Traitement en Batch : Utilisation de Dataproc pour exécuter des jobs PySpark sur de grands volumes de données.
Migration vers GCP : Évaluation des sources, mise en place de l’environnement GCP, et migration orchestrée par Cloud Composer.
Documentation et Suivi

Décisions Architecturales
Des Architecture Decision Records (ADR) ont été créés pour documenter les choix critiques, comme l’adoption de GCP pour sa scalabilité et l’utilisation de Dataproc pour le traitement de données complexes.

Infrastructure et Outils
J’ai utilisé Terraform pour gérer l’infrastructure, incluant la configuration de buckets GCS et BigQuery. La mise en place a été coordonnée avec plusieurs équipes pour déployer les environnements nécessaires.

Impact et Collaboration
L’architecture en médaillon a amélioré l’accès aux données pour les équipes analytiques. Des sessions de formation sur GCP ont été organisées pour renforcer l’autonomie de l’équipe.

Équipe et Méthodologie
Le projet a impliqué une collaboration avec des Data Architectes, Data Engineers et DevOps, en utilisant la méthodologie SAFe pour favoriser l’agilité. Les technologies utilisées incluent Terraform, Cloud Composer, PySpark, et BigQuery.
Big Query Airflow Terraform Google Cloud Plateform PySpark
Sealk
Data Engineer
CAPITAL-INVESTISSEMENT
juin 2022 - juillet 2023 (1 an et 1 mois)
Paris, France
Contexte du Projet :
En tant que Data Engineer, j’ai fais la conception et la création d’un framework pour la gestion des pipelines de données, visant à optimiser l’ingestion et la transformation tout en assurant une intégration fluide avec divers environnements.

Responsabilités et Réalisations :

Création du Framework :
Développement d’un framework basé sur l’architecture hexagonale, permettant d’isoler la logique de l’application des outils externes, ce qui facilite les tests et l’évolution technologique.
Gestion des Données :
Gestion de fichiers variés (texte, XML, CSV, JSON) provenant de sources comme LinkedIn et Creditsafe, et utilisation de bases de données telles que MongoDB et Oracle DB.
Mise en Place des Pipelines :
Établissement de chaînes de synchronisation entre les sources de données et Google Cloud Storage (GCS), préparation des pipelines pour la transformation et l’évaluation des modèles de données tout en suivant une logique de théorie des graphes pour les séquences de pipelines.
Utilisation d’Apache Beam sur Dataflow :
Mise en œuvre d’Apache Beam pour le traitement des données en temps réel et en batch, créant des pipelines robustes et scalables.
Optimisation des Ressources :
Clustering & partionnement sur les tables BigQuery.
Tables BigQuery de staging.
Formation et Accompagnement :
Formation des Data Engineers sur le framework et support client pour assurer une adoption réussie des solutions.
Impact :
Cette architecture a amélioré l’intégration continue et la gestion des données, avec des retours positifs des clients. Un Data Engineer junior a pu générer des pipelines complexes rapidement, démontrant l’efficacité du framework.

Collaboration Équipe :
Travail en mode SCRUM avec une équipe de Data Architects et Data Engineers, soutenue par Google.

Technologies Utilisées :
Orchestration : Cloud Composer
Traitement : Apache Beam, DataFlow
Stockage : BigQuery, Google Cloud Storage
Langages : Python
Bases de Données : Oracle, PostgreSQL, MongoDB
Apache Beam Google Cloud Plateform PySpark Airflow Architecture Cloud
Agence des Monts
Data enginner
janvier 2021 - mai 2022 (1 an et 4 mois)
Tunisia
Projet : Générateur d’Articles Optimisés pour le Référencement SEO avec IA (Modèle GPT)
En tant que Data Engineer, j’ai développé un système avancé pour générer du contenu optimisé pour le SEO, visant à produire des articles pertinents et à augmenter le trafic des sites web.

Responsabilités :

Web Crawling
Traitement des Données : Élaboration de chaînes de traitement dans Google Cloud Storage (GCS).
Pipelines de Données : Conception de pipelines pour la transformation et l’évaluation des données.
APIs : Développement d’APIs pour le fine-tuning de modèles d’apprentissage profond sur Google Compute Engine.
Data Warehouse : Conception d’un Data Warehouse sur BigQuery pour l’analyse des données.
Dashboards : visualisation des performances SEO.
Impact :

Augmentation du Trafic : Contenus optimisés entraînant une hausse significative du trafic.
Amélioration du SEO : Meilleure visibilité des contenus générés.
Satisfaction Client : Retours positifs sur la qualité des articles.
Projet : Système de Détection de Plagiat
Promu Tech Lead, j’ai supervisé le développement d’un système de détection de plagiat, réduisant les coûts de 90 % par rapport aux services SaaS.

Responsabilités :
Analyse des Besoins : Étude de faisabilité pour définir les spécifications techniques.
Développement d’Algorithmes : Recherche de texte avec des techniques de traitement du langage naturel (NLP).
Transfert vers GCS et BigQuery avec Python et PySpark.
Web Crawling via des proxies résidentiels
Développement d’APIs avec Socket.IO pour communication en temps réel.
Impact :

Réduction des Coûts : Diminution des coûts liés au plagiat tout en maintenant la qualité.
Amélioration de la Qualité : Identification efficace des cas de plagiat.
Satisfaction Client : Clients satisfaits de la flexibilité et de l’efficacité des solutions.
Technologies Utilisées :
GCP, Google Cloud Scheduler, Apache Spark, PySpark, BigQuery, Python, Scala, Flask, GitLab, SonarQube, Nginx, Socket.IO.

Consulter toutes les expériences de Firas

Soyez le premier à recommander Firas

Contribuez à la réussite de ce freelance en partageant votre expérience de collaboration avec lui.

Agatha Frydrych

Backend Java Software Engineer

4.7

(3)

Baptiste Duhen

Fullstack developer

4.6

(4)

Amed Hamou

Senior Lead Developer

(2)

Audrey Champion

Web developer

4.3

(3)

S’inscrire pour les voir

Google Cloud Professional Data Engineer certification
GCP
2024
Engineer's degree, Data science
Ecole Supérieure Privée d'Ingénierie et de Technologies - ESPRIT
2020
Engineer's degree, Data science

Google Cloud Professional Data Engineer certification
Google
2024
https://google.accredible.com/cce73ad1-6347-4c11-893a-ab24110c427c
Airflow Big Query Google Composer PySpark GCS Dataproc Spark Dataflow SQL Python

DevOps

Firas Ben Younes

Cloud Data Engineer GCP BigQuery Airflow Spark

À propos de Firas

Expériences

Recommandations

Ces profils de freelance correspondent également à vos critères

Formations

Certifications

Compétences

Catégories