Bienvenue sur le profil Malt de Martin !

Malt vous permet d'accéder aux meilleurs consultants freelances pour vos projets. Contactez Martin pour échanger sur votre besoin ou recherchez d'autres profils sur Malt.

Martin Bouchet

data engineer

En télétravail depuis Paris

  • 48.8546
  • 2.3477
Proposer un projet La mission ne démarrera que si vous acceptez le devis de Martin.
Proposer un projet La mission ne démarrera que si vous acceptez le devis de Martin.

Localisation et déplacement

Localisation
Paris, France
Télétravail
Effectue ses missions majoritairement à distance

Préférences

Durée de mission
  • ≤ 1 mois
  • entre 1 et 3 mois
  • entre 3 et 6 mois
  • ≥ 6 mois

Vérifications

Influence

Github

Github : 4sushi 4sushi
  • 0 Followers
  • 7 Repos
  • 7 Gists

Langues

Catégories

Compétences (22)

Martin en quelques mots

Anciennement Data Architect/Engineer pendant 1 an et demi dans une fintech qui produit des indicateurs macroéconomiques à partir de données alternatives (réseaux sociaux, images satellites).

Je souhaite maintenant profiter de l'expérience que j'ai acquis pour travailler en tant qu'indépendant sur des sujets de big data. Cela peut couvrir de nombreuses missions: le choix de l'architecture, le développement d'applications, la mise en production de modèles, la mise en place d'un processus d'intégration continue, etc...

Portfolio

Portfolio uniquement accessible aux membres

Expériences

Allianz INFORMATIQUE - Groupe Allianz

Banque & assurances

Data Engineer

Paris, France

janvier 2020 - Aujourd'hui

Spark
Python
DevOps
GitlabCI
Luigi

Quantcube Technology

High tech

Big Data Engineer / Architect

mars 2018 - septembre 2019

Maintenance d'un cluster big data :
- Ajout et montée de version de services sur Cloudera Manager
- Benchmark des bases de données : performance, usage mémoire, usage disque et contrôle de la haute disponibilité
- Gestion de l'intégration continue, de la portabilité des codes et des différents environnements de développement
- Mise en place de mesures de sécurité : contrôle des accès et des services réseaux
- Monitoring de services et amélioration de la configuration pour optimiser les ressources

Mise en place de scripts pour alimenter un data lake :
- Migration de base de données relationnelles vers l'infrastructure big data
- Alimentation de nouveaux flux de données (streaming, API)
- Intégration de fichiers plats volumineux
- Sauvegarde automatique des données du datalake sur un autre réseau

Traitement des données :
- Nettoyage et contrôle de la qualité des données (python, pandas)
- Optimisation de la performance de scripts avec du multiprocessing et des calculs distribués (Spark)
- Conception de nouvelles structure de table pour optimiser les performances des requêtes, prise en compte des partitions (Impala/Cassandra)
- Mise en place de tests automatisés pour contrôler toutes la chaîne de traitement des données (python, API, unittest)
- Rédaction d'un processus complet du traitement de la donnée allant de l'acquistion à la mise à disposition des données aux clients finaux

Développement de solutions :
- Application d'analyse de rapports financiers (python, selenium)
- Dashboard pour monitorer la partie acquisition de données (python, pandas, dash)
- Reporting sur Slack et par email des anomalies


Mots clés :

BIG DATA : Cloudera Manager / Kudu / Impala / HDFS / Spark / Spark RDD / Spark dataframe / Hive / HUE / Kafka / Cassandra
SERVEUR : Cluster linux / cloud Amazon Web Services EC2 / AWS S3 / cloud OVH / Kerberos / Sentry / parefeu / crontab / nginx / pm2
PYTHON : pandas dataframe / scrapy / selenium / plotly / Dash / matplotlib / unittest / multiprocessing / logger / docstring / pickle
DEV : nodejs / express / API / mongoDB / Swagger / MySQL / SQL
PROCESS : automated task / integration continue / Docker / git
FORMAT : JSON serDe / Parquet / Snappy / Gzip
OTHER : confluence / méthodes agile / SCRUM
Python Amazon Web Services Spark Pandas Cassandra hdfs dataframe kafka impala hive kudu linux scrapy selenium dash matplotlib plotly agile api mongoDB SQL Parquet Snappy SCRUM rdd Apache Kafka

Projet personnel

High tech

Projet personnel - Réalisation d'une plateforme de recommandation d'artistes de musique électronique

octobre 2019 - Aujourd'hui

Projet personnel en cours de réalisation sur mon temps libre. Réalisation d'une plateforme de recommandation d'artistes de musique électronique.

• Mise en place d'une infrastructure Big data from scratch (Apache Cassandra, cloud AWS)
• Développement de scripts d'acquisitions de données sur différentes sources (python, scrapy)
• Analyse de données pour calculer des correlations entre artistes (python, pandas)
• Structuration des données pour être utilisée avec la plateforme web (nodejs, mongoDB)
• Réalisation d'une plateforme web (nodeJS, express, vueJS)
• Configuration d'un server web sur AWS (nginx, pm2)

Mots clés :

BIG DATA : Cassandra
SERVEUR : Cluster linux / cloud Amazon Web Services EC2 / AWS S3 / crontab / nginx / pm2
PYTHON : pandas dataframe / scrapy / selenium / plotly
DEV : nodejs / express / API / mongoDB

Capgemini - Capgemini Organisation

Agence & SSII

Concepteur développeur Java J2EE en alternance

septembre 2016 - septembre 2017

1 mission Malt

    (1 avis)

    Consultez les avis de fin de mission de Martin

    1 recommandation externe

    Consultez les recommandations qu'a reçues Martin

    Formations