Description

GPU Performance Engineer CUDA C++ | PTX | Inference Optimization

Optimisation de kernels GPU, profiling Nsight, migration CPU → GPU 5 ans d'expérience (Airbus, DPD Group, Melexis)

Ingénieur GPU spécialisé en optimisation de kernels CUDA C++ et profiling de performance. 5 ans d'expérience dans l'aérospatiale (Airbus), la logistique (DPD Group) et le semi-conducteur (Melexis).

Mon angle : en dessous de PyTorch, pas au-dessus.

J'interviens au niveau du kernel, là où se jouent les vrais gains de performance.

Ce que je peux vous apporter :

→ Développement et optimisation de kernels CUDA C++ avec profiling Nsight Compute, roofline analysis et gains validés en production (jusqu'à 33× de speed-up)

→ Migration CPU → GPU et mise en production sur NVIDIA T4/V100/A10G avec validation numérique et déploiement cloud

→ Audit de performance GPU : classification compute/memory/latency-bound, identification des bottlenecks, plan d'optimisation actionnable avec métriques quantifiées

→ Mentorat GPU et transfert d'expertise : formation d'équipes au profiling, patterns d'optimisation mémoire et architecture GPU

Résultats en production :

→ 33× speed-up kernel CUDA (Airbus, V100)

→ GPU utilization 9 % → 89 % (Airbus)

→ 30 % gain de throughput, migration CPU → GPU en 6 semaines (DPD Group)

→ 40 % réduction du temps de traitement (Datashift, A10G)

En parallèle de mes missions, je contribue à l'écosystème open-source GPU (ThunderKittens, model-kernels) et je développe un kernel FP4 fused attention pour GPUs Blackwell en inline PTX.

Blog technique et guide de profiling (20 000+ mots) sur florianmattana.com.

On échange sur votre projet ?

Contactez-moi, je réponds très rapidement.

Compétences

CUDA, C++, GPU Computing, NVIDIA, Profiling, Performance Optimization, Nsight Compute, Nsight Systems, Tensor Cores, HPC, CUTLASS, PTX, Inference Optimization, Migration CPU-GPU

Domaines d’expertise

Langues

Anglais
Bilingue ou natif
Français
Bilingue ou natif

Préférences en matière de lieu de travail

Accepte de travailler sur site

Paris (jusqu’à 50 km), Lyon (jusqu’à 50 km), Lille (jusqu’à 50 km), Marseille (jusqu’à 50 km), Bordeaux (jusqu’à 50 km)

Open Source | LLM | Inference
GPU Performance Engineer
HIGH TECH
janvier 2026 - Aujourd'hui (7 mois)
Paris, France
Contributeur actif à l'écosystème open-source GPU, focalisé sur l'optimisation de kernels d'inférence CUDA et le profiling de performance

En tant que GPU Performance Engineer , j'interviens sur :

→ Le développement d'un kernel FP4 fused attention pour consumer Blackwell (SM120) en inline PTX — GEMM-softmax-GEMM fusionné en registres avec mma.sync et block scaling UE8M0
→ La correction de bugs de compilation et de précision sur des kernels d'inférence existants
→ Le profiling et l'audit de performance de kernels GPU réels avec Nsight Compute
→ La rédaction de documentation technique sur le profiling GPU
Contributions principales :
→ model-kernels : 4 PRs merged — fix de 5 bugs de compilation et 2 bugs de précision sur un kernel INT8 fused attention, max error réduite de 1.69 à 1.37
→ ThunderKittens (Stanford HazyResearch) : PR #179 — fix d'un bug de narrowing-conversion dans le base-type packing
→ fp4-fused-attention-sm120 : kernel FP4 fused attention from scratch pour GPUs consumer Blackwell en inline PTX (mma.sync.aligned.mxf8f6f4)
→ CUDA-Kernels : collection de kernels optimisés from scratch (GEMM, reduction, prefix scan, softmax, Flash Attention) avec profiling NCU complet — best GEMM à 58.8% de cuBLAS sur RTX 5070 Ti
→ Guide de profiling GPU (20 000+ mots) couvrant Nsight Systems et Nsight Compute de bout en bout

Environnement technique : CUDA C++, PTX inline, Tensor Cores, Nsight Compute, Nsight Systems, RTX 5070 Ti (SM120), Git, Linux
CUDA Linux HPC C++ PTX Tensor Cores Nsight Compute
ThunderKittens CUDA IA générative AI Engineer HPC
Melexis
GPU Performance Engineer
AUTOMOBILE
mars 2024 - décembre 2025 (1 an et 9 mois)
Brussels, Belgium
Melexis est une société spécialisée dans le test de capteurs semi-conducteurs sur infrastructure cloud AWS.

J'ai rejoint l'équipe GPU Compute afin de prendre en charge le pipeline de calcul GPU pour le test de capteurs sur AWS EC2 g5 (NVIDIA A10G).

En tant que GPU Performance Engineer, j'avais pour responsabilité :

→ Le développement et la maintenance du pipeline GPU compute en CUDA C++
→ La validation numérique multi-précision (FP64, FP32, FP16, FP8) avec CI automatisée (cosine similarity ≥ 0.9995)
→ Le diagnostic et la correction de corruptions numériques (NaN en FP16) via adversarial fuzzing et dynamic range scaling
→ L'optimisation des transferts host-device avec CUDA streams et pinned memory

J'ai contribué aux évolutions suivantes :

→ 40 % de réduction du temps de traitement end-to-end
→ Mise en place d'un gate CI automatisé de validation numérique multi-précision
→ Amélioration du throughput journalier via l'optimisation des transferts host-device

Environnement technique : CUDA C++, Python, Nsight Compute, Nsight Systems, AWS EC2 (g5, A10G), Docker, GitLab CI, Linux
CUDA Linux HPC Amélioration de la performance C++
Airbus via Accenture
GPU Performance Engineer
AÉRONAUTIQUE & AÉROSPATIALE
avril 2022 - mars 2024 (1 an et 11 mois)
Toulouse, France
Airbus est le leader mondial de l'aéronautique et du spatial.

J'ai rejoint l'équipe d'inspection satellite afin d'optimiser un kernel CUDA de détection de fuites sur Tesla V100.

En tant que GPU Performance Engineer, j'avais pour responsabilité :

→ L'optimisation du kernel CUDA avec profiling Nsight Compute (coalesced memory access, élimination de warp divergence)
→ La réduction des bank conflicts en shared memory via tile padding et double buffering
→ La validation en production du speed-up obtenu
→ La formation de 5+ ingénieurs aux workflows de profiling Nsight Compute

J'ai contribué aux évolutions suivantes :

→ 33× de speed-up sur le kernel (30 min → < 1 min), validé en production
GPU utilization de 9 % → 89 %
→ 40 % de réduction des bank conflicts en shared memory
→ Passage d'un batch overnight à un turnaround same-day sur les jobs d'inspection satellite

Environnement technique : CUDA C++, Nsight Compute, Nsight Systems, Tesla V100, Python, Linux
CUDA Linux GPU Programmation C/C++ Développement C++