You're seeing this page as if you were . The main menu is still yours, though. Exit from immersion
Florian MattanaFM

Florian Mattana

GPU Performance Engineer | CUDA C++ | AI inference

850 €/jour
Paris, FR
3-7 ans

Délai de réponse moyen : 4h

À propos de Florian

GPU Performance Engineer CUDA C++ | PTX | Inference Optimization

Optimisation de kernels GPU, profiling Nsight, migration CPU → GPU 5 ans d'expérience (Airbus, DPD Group, Melexis)

Ingénieur GPU spécialisé en optimisation de kernels CUDA C++ et profiling de performance. 5 ans d'expérience dans l'aérospatiale (Airbus), la logistique (DPD Group) et le semi-conducteur (Melexis).

Mon angle : en dessous de PyTorch, pas au-dessus.
J'interviens au niveau du kernel, là où se jouent les vrais gains de performance.

Ce que je peux vous apporter :
→ Développement et optimisation de kernels CUDA C++ avec profiling Nsight Compute, roofline analysis et gains validés en production (jusqu'à 33× de speed-up)
→ Migration CPU → GPU et mise en production sur NVIDIA T4/V100/A10G avec validation numérique et déploiement cloud
→ Audit de performance GPU : classification compute/memory/latency-bound, identification des bottlenecks, plan d'optimisation actionnable avec métriques quantifiées
→ Mentorat GPU et transfert d'expertise : formation d'équipes au profiling, patterns d'optimisation mémoire et architecture GPU

Résultats en production :
→ 33× speed-up kernel CUDA (Airbus, V100)
→ GPU utilization 9 % → 89 % (Airbus)
→ 30 % gain de throughput, migration CPU → GPU en 6 semaines (DPD Group)
→ 40 % réduction du temps de traitement (Datashift, A10G)

En parallèle de mes missions, je contribue à l'écosystème open-source GPU (ThunderKittens, model-kernels) et je développe un kernel FP4 fused attention pour GPUs Blackwell en inline PTX.

Blog technique et guide de profiling (20 000+ mots) sur florianmattana.com.

On échange sur votre projet ?
Contactez-moi, je réponds très rapidement.

Compétences
CUDA, C++, GPU Computing, NVIDIA, Profiling, Performance Optimization, Nsight Compute, Nsight Systems, Tensor Cores, HPC, CUTLASS, PTX, Inference Optimization, Migration CPU-GPU
  • Anglais

    Bilingue ou natif

  • Français

    Bilingue ou natif

Accepte de travailler sur site
Paris (jusqu’à 50 km), Lyon (jusqu’à 50 km), Lille (jusqu’à 50 km), Marseille (jusqu’à 50 km), Bordeaux (jusqu’à 50 km)

Expériences

  • Open Source | LLM | Inference
    GPU Performance Engineer
    HIGH TECH
    janvier 2026 - Aujourd'hui (5 mois)
    Paris, France
    Contributeur actif à l'écosystème open-source GPU, focalisé sur l'optimisation de kernels d'inférence CUDA et le profiling de performance

    En tant que GPU Performance Engineer , j'interviens sur :

    → Le développement d'un kernel FP4 fused attention pour consumer Blackwell (SM120) en inline PTX — GEMM-softmax-GEMM fusionné en registres avec mma.sync et block scaling UE8M0
    → La correction de bugs de compilation et de précision sur des kernels d'inférence existants
    → Le profiling et l'audit de performance de kernels GPU réels avec Nsight Compute
    → La rédaction de documentation technique sur le profiling GPU
    Contributions principales :
    → model-kernels : 4 PRs merged — fix de 5 bugs de compilation et 2 bugs de précision sur un kernel INT8 fused attention, max error réduite de 1.69 à 1.37
    → ThunderKittens (Stanford HazyResearch) : PR #179 — fix d'un bug de narrowing-conversion dans le base-type packing
    → fp4-fused-attention-sm120 : kernel FP4 fused attention from scratch pour GPUs consumer Blackwell en inline PTX (mma.sync.aligned.mxf8f6f4)
    → CUDA-Kernels : collection de kernels optimisés from scratch (GEMM, reduction, prefix scan, softmax, Flash Attention) avec profiling NCU complet — best GEMM à 58.8% de cuBLAS sur RTX 5070 Ti
    → Guide de profiling GPU (20 000+ mots) couvrant Nsight Systems et Nsight Compute de bout en bout

    Environnement technique : CUDA C++, PTX inline, Tensor Cores, Nsight Compute, Nsight Systems, RTX 5070 Ti (SM120), Git, Linux
    CUDA Linux HPC C++ PTX Tensor Cores Nsight Compute
    ThunderKittens CUDA IA générative AI Engineer HPC
  • Melexis
    GPU Performance Engineer
    AUTOMOBILE
    mars 2024 - décembre 2025 (1 an et 9 mois)
    Brussels, Belgium
    Melexis est une société spécialisée dans le test de capteurs semi-conducteurs sur infrastructure cloud AWS.

    J'ai rejoint l'équipe GPU Compute afin de prendre en charge le pipeline de calcul GPU pour le test de capteurs sur AWS EC2 g5 (NVIDIA A10G).

    En tant que GPU Performance Engineer, j'avais pour responsabilité :


    → Le développement et la maintenance du pipeline GPU compute en CUDA C++
    → La validation numérique multi-précision (FP64, FP32, FP16, FP8) avec CI automatisée (cosine similarity ≥ 0.9995)
    → Le diagnostic et la correction de corruptions numériques (NaN en FP16) via adversarial fuzzing et dynamic range scaling
    → L'optimisation des transferts host-device avec CUDA streams et pinned memory

    J'ai contribué aux évolutions suivantes :

    → 40 % de réduction du temps de traitement end-to-end
    → Mise en place d'un gate CI automatisé de validation numérique multi-précision
    → Amélioration du throughput journalier via l'optimisation des transferts host-device

    Environnement technique : CUDA C++, Python, Nsight Compute, Nsight Systems, AWS EC2 (g5, A10G), Docker, GitLab CI, Linux
    CUDA Linux HPC Amélioration de la performance C++
  • Airbus via Accenture
    GPU Performance Engineer
    AÉRONAUTIQUE & AÉROSPATIALE
    avril 2022 - mars 2024 (1 an et 11 mois)
    Toulouse, France
    Airbus est le leader mondial de l'aéronautique et du spatial.

    J'ai rejoint l'équipe d'inspection satellite afin d'optimiser un kernel CUDA de détection de fuites sur Tesla V100.

    En tant que GPU Performance Engineer, j'avais pour responsabilité :


    → L'optimisation du kernel CUDA avec profiling Nsight Compute (coalesced memory access, élimination de warp divergence)
    → La réduction des bank conflicts en shared memory via tile padding et double buffering
    → La validation en production du speed-up obtenu
    → La formation de 5+ ingénieurs aux workflows de profiling Nsight Compute

    J'ai contribué aux évolutions suivantes :

    → 33× de speed-up sur le kernel (30 min → < 1 min), validé en production
    GPU utilization de 9 % → 89 %
    → 40 % de réduction des bank conflicts en shared memory
    → Passage d'un batch overnight à un turnaround same-day sur les jobs d'inspection satellite

    Environnement technique : CUDA C++, Nsight Compute, Nsight Systems, Tesla V100, Python, Linux
    CUDA Linux GPU Programmation C/C++ Développement C++

Recommandations

Soyez le premier à recommander Florian

Contribuez à la réussite de ce freelance en partageant votre expérience de collaboration avec lui.

Ces profils de freelance correspondent également à vos critères

AgathaA

Agatha Frydrych

Backend Java Software Engineer

4.7

(3)

2

BaptisteB

Baptiste Duhen

Fullstack developer

4.6

(4)

5

AmedA

Amed Hamou

Senior Lead Developer

4

(2)

7

AudreyA

Audrey Champion

Web developer

4.3

(3)

4

Formations

  • Master 2
    Paris 1 - La Sorbonne
    2015
    Finance de marché et gestion des risques

Compétences

Catégories