Thomas Geffroy

data scientist - python/pyspark

Peut se déplacer à Paris

  • 48.8546
  • 2.34771
Nouveau
Proposer un projet La mission ne démarrera que si vous acceptez le devis de Thomas.
Proposer un projet La mission ne démarrera que si vous acceptez le devis de Thomas.

Localisation et déplacement

Localisation
Paris, France
Peut travailler dans vos locaux à
  • Paris et 50km autour

Préférences

Durée de mission
Préfèrerait éviter:
≤ 1 semaine

Vérifications

Langues

Catégories

Compétences (22)

  • BigData
  • Débutant Intermédiaire Confirmé
  • Débutant Intermédiaire Confirmé
  • Data Science
  • Débutant Intermédiaire Confirmé

Thomas en quelques mots

Bonjour,

Ingénieur diplômé de l'ENSTA ParisTech, spécialité intelligence artificielle et entreprenariat j'ai jusque ici principalement réalisé des missions de traitement automatique du langage naturel. (NLP) J'ai de plus été formé en école d'ingénieur pour la classification automatique d'images, la génération automatique de texte et d'images etc. Fort d'un cursus alliant mathématiques et informatique je serais à même de rapidement monter en compétence pour apporter une solution adaptée à vos besoins.

Je suis ouvert à tous projets data science, que ce soit dans le traitement automatique de texte ou d'images, de la conception jusqu'à l'industrialisation.

Je vous souhaite une excellente journée et espère bientôt travailler avec vous.

Expériences

La Poste - Le Groupe La Poste

Conseil & audit

Data scientist en freelance

Guyancourt, France

octobre 2019 - octobre 2020

Au sein du pôle Big Data Analytics à Guyancourt, j’ai occupé le poste de data scientist et je suis intervenu sur 3 projets au cours de ces deux dernières années dans un environnement CDH (Cloudera Distribution including Hadoop) et particulièrement HDFS, Impala, Hive et Spark

⦁ Recueil des besoins métiers
⦁ Rédaction des expressions de besoins
⦁ Développement en Spark (Scala et Python), Panda et intégration Jenkins
⦁ Rédaction des demandes sur Jira
⦁ Résolution de problèmes techniques pour les developpeurs du DataLake (config GPU, Spark, installations paquets python …)
⦁ Gestion de ressources du Cluster (cloudera manager)
⦁ Tests et intégration : Unitest, Sonarcube et Jenkins
⦁ Utilisation de Gitlab et Jenkins pour l’intégration continue
⦁ Rédaction de la documentation technique Confluence (commande de lancement, périmètres d’actions…)
⦁ Rédaction des dossiers d’exploitations
⦁ Travail d’optimisation de manipulation de données avec DSS
⦁ Conception d’un algorithme de classification non supervisé des données courrier basé sur l’algorithme d’OPTICS de la librairie python scikit-learn (pySpark, scikit-learn)
⦁ Conception et entraînement d’un algorithme de Deep Learning pour le parsing d’adresses postales basé sur une génération synthétique d’adresses à partir de référentiels adresses et un réseau de portes GRU (PySpark, keras, tensorflow)
⦁ Mise en place d’un pipeline d’entraînement et application d’un algorithme de Deep Learning dans un environnement Spark avec GPU (pySpark, keras, tensorflow)
⦁ Intervention sur le datalake et (7 tables différentes mise en production de OPTICS et des algorithmes de parsing)

Sopra Steria

Agence & SSII

Stagiaire data scientist

Région de Paris, France

avril 2019 - octobre 2019

En mission chez La Poste j'ai occupé un rôle de data ingénieur pour la complétion de référentiels adresses après nettoyage, filtrage et sélections d'éléments adresses ainsi que data scientist lors de la mise en place d'un environnement de développement pour le deep learning et la conception d'un réseau de parsing d'adresses

⦁ Recueil des besoins métiers
⦁ Rédaction des expressions de besoins
⦁ Développement en Spark (Scala et Python), Panda et intégration Jenkins
⦁ Rédaction des demandes sur Jira
⦁ Gestion de ressources du Cluster (cloudera manager)
⦁ Tests et intégration : Unitest, Sonarcube et Jenkins
⦁ Utilisation de Gitlab et Jenkins pour l’intégration continue
⦁ Conception d'une solution Deep Learning pour le parsing d'adresses
⦁ Intervention sur le datalake, en recette et mise en production
⦁ Configuration d'une carte graphique (Tesla V100) et mise en place d'une structure pour faciliter le développement et l'échange de données
⦁ Complétion d'un référentiel adresse à partir de la donnée des lettres scannées en pySpark

Université de Nankin

Centres de recherche

Stagiaire chercheur

Nanjing City, China

mai 2018 - septembre 2018

Pour un projet de deep learning et de machine learning au sein de l’université de Nankin, j’ai travaillé sur le Design d'un algorithme intelligent de prédiction des flux de données mobiles

⦁ Apprentissage d'un réseau de neurone profond (LSTM)
⦁ Régression par GPR (Gaussian Process Regression)
⦁ Communication orale et écrite en anglais
⦁ Rédaction d'un rapport scientifique en anglais

Thales

Centres de recherche

Stagiaire ingénieur

Palaiseau

juin 2016 - août 2016

1 recommandation externe

Formations