À propos de Florian
Anglais
Bilingue ou natif
Français
Bilingue ou natif
Expériences
- Open Source | LLM | InferenceGPU Performance EngineerHIGH TECHjanvier 2026 - Aujourd'hui (5 mois)Paris, FranceContributeur actif à l'écosystème open-source GPU, focalisé sur l'optimisation de kernels d'inférence CUDA et le profiling de performanceEn tant que GPU Performance Engineer , j'interviens sur :→ Le développement d'un kernel FP4 fused attention pour consumer Blackwell (SM120) en inline PTX — GEMM-softmax-GEMM fusionné en registres avec mma.sync et block scaling UE8M0→ La correction de bugs de compilation et de précision sur des kernels d'inférence existants→ Le profiling et l'audit de performance de kernels GPU réels avec Nsight Compute→ La rédaction de documentation technique sur le profiling GPUContributions principales :→ model-kernels : 4 PRs merged — fix de 5 bugs de compilation et 2 bugs de précision sur un kernel INT8 fused attention, max error réduite de 1.69 à 1.37→ ThunderKittens (Stanford HazyResearch) : PR #179 — fix d'un bug de narrowing-conversion dans le base-type packing→ fp4-fused-attention-sm120 : kernel FP4 fused attention from scratch pour GPUs consumer Blackwell en inline PTX (mma.sync.aligned.mxf8f6f4)→ CUDA-Kernels : collection de kernels optimisés from scratch (GEMM, reduction, prefix scan, softmax, Flash Attention) avec profiling NCU complet — best GEMM à 58.8% de cuBLAS sur RTX 5070 Ti→ Guide de profiling GPU (20 000+ mots) couvrant Nsight Systems et Nsight Compute de bout en boutEnvironnement technique : CUDA C++, PTX inline, Tensor Cores, Nsight Compute, Nsight Systems, RTX 5070 Ti (SM120), Git, LinuxCUDA Linux HPC C++ PTX Tensor Cores Nsight Compute
- MelexisGPU Performance EngineerAUTOMOBILEmars 2024 - décembre 2025 (1 an et 9 mois)Brussels, BelgiumMelexis est une société spécialisée dans le test de capteurs semi-conducteurs sur infrastructure cloud AWS.J'ai rejoint l'équipe GPU Compute afin de prendre en charge le pipeline de calcul GPU pour le test de capteurs sur AWS EC2 g5 (NVIDIA A10G).En tant que GPU Performance Engineer, j'avais pour responsabilité :→ Le développement et la maintenance du pipeline GPU compute en CUDA C++→ La validation numérique multi-précision (FP64, FP32, FP16, FP8) avec CI automatisée (cosine similarity ≥ 0.9995)→ Le diagnostic et la correction de corruptions numériques (NaN en FP16) via adversarial fuzzing et dynamic range scaling→ L'optimisation des transferts host-device avec CUDA streams et pinned memoryJ'ai contribué aux évolutions suivantes :→ 40 % de réduction du temps de traitement end-to-end→ Mise en place d'un gate CI automatisé de validation numérique multi-précision→ Amélioration du throughput journalier via l'optimisation des transferts host-deviceEnvironnement technique : CUDA C++, Python, Nsight Compute, Nsight Systems, AWS EC2 (g5, A10G), Docker, GitLab CI, Linux
- Airbus via AccentureGPU Performance EngineerAÉRONAUTIQUE & AÉROSPATIALEavril 2022 - mars 2024 (1 an et 11 mois)Toulouse, FranceAirbus est le leader mondial de l'aéronautique et du spatial.J'ai rejoint l'équipe d'inspection satellite afin d'optimiser un kernel CUDA de détection de fuites sur Tesla V100.En tant que GPU Performance Engineer, j'avais pour responsabilité :→ L'optimisation du kernel CUDA avec profiling Nsight Compute (coalesced memory access, élimination de warp divergence)→ La réduction des bank conflicts en shared memory via tile padding et double buffering→ La validation en production du speed-up obtenu→ La formation de 5+ ingénieurs aux workflows de profiling Nsight ComputeJ'ai contribué aux évolutions suivantes :→ 33× de speed-up sur le kernel (30 min → < 1 min), validé en productionGPU utilization de 9 % → 89 %→ 40 % de réduction des bank conflicts en shared memory→ Passage d'un batch overnight à un turnaround same-day sur les jobs d'inspection satelliteEnvironnement technique : CUDA C++, Nsight Compute, Nsight Systems, Tesla V100, Python, Linux
Recommandations
Soyez le premier à recommander Florian
Contribuez à la réussite de ce freelance en partageant votre expérience de collaboration avec lui.
Ces profils de freelance correspondent également à vos critères
Agatha Frydrych
Backend Java Software Engineer
4.7
(3)
2
Baptiste Duhen
Fullstack developer
4.6
(4)
5
Amed Hamou
Senior Lead Developer
4
(2)
7
Audrey Champion
Web developer
4.3
(3)
4
Formations
- Master 2Paris 1 - La Sorbonne2015Finance de marché et gestion des risques