Bienvenue sur le profil Malt de Sam !

Malt vous permet d'accéder aux meilleurs consultants freelances pour vos projets. Contactez Sam pour échanger sur votre besoin ou recherchez d'autres profils sur Malt.

Sam.

Sam .

lead data scientist

Peut se déplacer à Paris

  • 48.85661400000001
  • 2.3522219000000177
Proposer un projet La mission ne démarrera que si vous acceptez le devis de Sam.
Proposer un projet La mission ne démarrera que si vous acceptez le devis de Sam.

Localisation et déplacement

Localisation
Paris, France
Peut travailler dans vos locaux à
  • Paris et 50km autour

Vérifications

  • E-mail vérifié

Langues

Catégories

Compétences (6)

Sam en quelques mots

Générales
+ Data Science, Data Mining
+ Big Data, Data Engineering
+ Transformation Digitale
+ Conduite du changement
+ Formation
Management et Coordination
+ Management et stratégie de projets - Analyse des besoins clients
+ Avant-vente et rédaction de propales sur des projets orientés data
+ Définition et propositions de Proof Of Concepts (POCs) et de Proof Of Values (POVs)
+ Prototypage et industrialisation de projets
+ Accompagnement des clients dans l’utilisation des solutions Data
+ Pratique de la méthodologie Agile (Scrum Master)
+ Gestion de reporting (Jira, Trello, Confluence)
Fonctionnelles

+ Définition et conception de solutions fonctionnelles et d’architectures scalables
+ Modélisation de processus
+ Communication et gestion de projets
+ Rédaction de documentation et de spécifications
+ Animation de réunions et de comités de pilotage
+ Avant-vente et levée de fonds (crédits impôts recherche, crédits impôts innovation, dossier BPI etc…)
Techniques
Langages de programmation Python, Scala, Java, C & C++
Base de données SQL (Clients : MySQL, PostgreSQL, Oracle SQL, SQL Server 2016, DB2, SyBase), NoSQL (HBase, Cassandra et MongoDB)
Scripting R, Matlab, Mathematica
Web HTML5, CSS3, PHP5, JavaScript, Django
Ecosystème Big Data Hadoop, HDFS, Spark (MLLib, Spark Streaming, GraphX), Pig, Hive, Flume, ElasticSearch, LogStash, Kibana, Kafka, Sqoop, Ambari, Apache Nifi … HortonWorks (HDP), Cloudera
BI et Data Visualization Tableau Software, QlikView, Talend (ETL, ESB et Big Data), Power BI, SPSS Modeler
Divers Confluence, Jira, Git, Zeppelin, Jupyter Notebook etc …
Systèmes d’exploitation
Windows, Linux (Debian, RedHat), MacOSX
Langues
Anglais : courant – Score TOEIC : 895/990, Espagnol : courant, Allemand : notions
Autres

+ Recherche et Développement
+ Statistiques et Mathématiques appliquées
+ Participations (orales, écrites) à des congrès internationaux
+ Articles dans des revues internationales à comité de lecture

Expériences

FDJ Gaming Solutions & Française des Jeux - Française Des Jeux

Divertissements & loisirs

Lead Data Scientist

juin 2016 - mars 2017

Projet (Confidentiel) : Reactive Data Marketing : Mise en place du socle technique Big Data de la FDJ, étude analytique du comportement des joueurs et conception d’un moteur de recommandation en temps réel et d’algorithmes de marketing predictif

Conception pionnière et pilotage opérationnel et technique des projets autour du Big Data et de la connaissance client:
Mise en place du socle technique Big Data et Data Science de la FDJ au sein de sa filiale technologique FDJ Gaming Solutions avec notamment :
 Création et management d’un datalab au sein du département R&D de FDJ Gaming Solutions
 Réalisation de documentation, communication et collaboration avec les équipes marketing, retail et architecture/infrastructure de la FDJ (sites de Boulogne et Vitrolles)
 Conception et implémentation « from scratch » de l’architecture du Data Lake de la connaissance client sur un cluster Big Data composé de 8 nœuds (OS basée sur Redhat : CentOS, CPU : Intel Xeon, RAM : 128 Go de RAM et HDD : 1To)
 Migration et fusion de bases de données relationnelles (Oracle SQL) vers des bases de données NoSQL (Cassandra) via Sqoop
 Capture de flux de données asynchrones via ZooKeeper et Kafka
 Data Cleaning sur des échantillons de dataset via R et Python (APIs SparkR et PySpark) puis en distribué via Scala-Spark
 Distribution des analyses en temps réel via Spark et Hadoop

Accompagnement des équipes métiers sur les outils open source distribués pré-cités
Modèles de Machine Learning implementés : Segmentation, churn, scoring, système de recommandation, marketing temps-réel et plus exactement :
 Clustering du comportement des joueurs selon plusieurs variables (âge, sexe, géolocalisation etc…)
 Modèles de prédiction de pics de présence des joueurs sur les plateformes web en temps réel (optimisation de la charge de l’infrastructure i.e. faible latence)
 Modèles de Scoring de joueurs et de jeux en ligne
 Web Scrapping et Crawling distribué de données exogènes (Open Data, WeatherUnderground, INSEE etc …)
 Croisement de données internes (données utilisateurs, évènements de jeux, historique de jeux, transactions des joueurs, données clicks, données marketing et publicitaires) avec ces mêmes données exogènes (météo, géolocalisation, données démographiques et socio-économiques telles que le revenu moyen par quartier, la densité de bars tabacs, le taux de chômage….)
 Analyse de fichiers logs pour optimiser la gestion de l’infrastructure
 Modèles de recommandation (filtrage collaboratif, corrélations de Pearson)
 Outils de Data-Visualization et notebooks analytiques (Kibana, Zeppelin)

Conception et pilotage opérationnel et technique de projets de deep learning : Analyse d’image des grilles de loto, maintenance prédictive
Développement de la structure R&D et veille technologique au sein de FDJ Gaming Solutions
Evangélisation des outils orientés Big Data auprès des équipes métiers

SAINT-GOBAIN - Saint-Gobain

BTP & construction

Lead Data Scientist

Paris, France

mars 2017 - septembre 2017

Projet DataLayer : Chief Data Scientist en charge d’importer les technologies Big Data du NoSQL (Mongo DB) et Hortonworks (notamment de Data Flow) au sein de l'équipe DataLayer de Saint-Gobain

o Conception et pilotage opérationnel et technique de projets autour du NoSQL (gouvernance de la donnée) et du machine learning :
o Gestion d’une équipe de data architects, data scientists et developpeurs (front et back-end)
o Gestion de projets par la méthodologie agile Scrum
o Modélisation, construction et alimentation des artefacts MongoDB (collections et vues) en fonction des usages des consommateurs (principalement applications Web et Moteur de recherche) et avec le souci permanent de performances optimales (models fiat or hierarchy, stratégie d'indexes, ...)
o Moteur d’indexation
o Système de recommandation (gain de 50%) de produits de e-commerce, outils prédictif du churn
o Application des consignes et bonnes pratiques de l'expert éditeur Mongo
o Transformations de grandes volumétries de données (Jolt, XSLT etc…)

Société Générale - Société Générale

Banque & assurances

Lead Data Scientist

Paris, France

septembre 2017 - février 2018

Société Générale, Paris, France Septembre 2017 - Février 2018
Head of Data Science


Projet (Confidentiel) : Gestion et automatisation de la gestion d’alertes, sanctions et embargos : Chief Data Scientist expert en charge du projet détection de fraudes en collaboration avec des experts en IA et Data Intelligence

Synthèse :
Automatisation de la gestion d’alertes à la SG via l’implémentation d’une Intelligence Artificielle en vue de :
- réduire significativement le nombre de fausses alertes traitées à ce jour manuellement par des Gestionnaires d’alertes (i.e. faux-positifs).
- Utilisation d’une approche multi-algorithmique via le Machine/Deep Learning et le Natural Language Processing.
- Deux types de transactions considérées:
o SWIFT
o SEPA
But :
- optimisation du temps de traitement des transactions financières

Démarche
- Etude de faisabilité, analyse statistique et data-mining
- Parsing de fichiers XMLs issus de la base de données Firco-Continuity
- Data-cleaning et feature engineering aboutissant à la création de fichiers json
- Traitement de texte et data pre-processing (TF-IDF, Hashing Vectorisation)
- Implémentation de classifieurs de type supervisés
- Implémentation de n-grams
- Implémentation d’algorithmes de Deep Learning (Convolution, NER…)
- Agencement d’algorithmes pour réduire le nombre de Faux positifs itérativement
- Détermination de matrices de confusion

Bénéfices clients
- Automatisation de la gestion de fausses alertes et classification en PASSED ou FAILED de ces dernières
- Détection de signaux faibles invisibles pour l’humain
- Ajout de nouvelles règles de filtrage en amont dans le progiciel Fircosoft
- Réduction significative du nombre de Gestionnaires d’alertes

Recommandations externes

Consultez les recommandations qu'a reçues Sam

Formations