Data Engineer – la compétence la plus demandée du marché ?

50%…

… c’est l’augmentation observée par notre partenaire Blent concernant leur demande de formation pour le métier de Data Engineer. Et cela en seulement un an ! Impressionnant non ? Nous nous sommes donc dit que ça valait bien une Malt Academy à part entière.

Commençons par le commencement en remettant quelques bases : c’est quoi un data engineer ?

Le Data Engineer, ou ingénieur Big Data, est un expert dans la gestion des bases de données géantes. Il est chargé de la collecte et de la mise à disposition des données pour leur exploitation au sein de l’entreprise. Le Data Engineer freelance gère entre autres la définition, le développement et la mise en place des outils pour faciliter l’analyse des données.

Peut-on passer de Developper à Data Engineer ? Tout à fait !

Pourquoi la demande pour ce profil a autant augmenté avec les années ?

Le Data Scientist est mort, vive le Data Scientist ? Pas vraiment !

Selon Maxime Jumelle (CTO de Blent.ai), plusieurs raisons sont à prendre en compte :

Une meilleure compréhension des besoins inhérents liés à l’utilisation des données. Si ce point était géré par la DSI par le passé, ce point est maintenant géré par le Data Engineer.
Une nécessité de partager la donnée pour des équipes opérationnelles. L’exploitation des data est maintenant plus claire pour beaucoup plus d’équipes dans une entreprise (marketing, sales, ressources humaines etc.).
L’explosion de la taille et la diversification des sources de données.
La complexification des outils et des frameworks impliqués.

Combien cela rapporte-t-il en poste ?

Même si les salaires dépendent de nombreux facteurs, ils restent élevés parmi l’ensemble des posts IT. En France, nous pouvons compter environ 40k€ pour un Data Engineer junior ; jusqu’à 60k€ pour un mid-level avec 4-5 ans d’expérience et jusqu’à 90k€ pour un Data Engineer senior avec 10 ans d’expérience ou plus.

Mais qu’en est-il en freelance ?

En freelance le TJM pour un Data Engineer expérimenté se situe autour de 600€. Il peut grimper jusqu’à 900€ en fonction des compétences spécifiques (ex: Scala).

Quelles sont les compétences à avoir ?

Le profil Data Engineer dispose d’une palette de compétences qui vont lui apporter une spécialisation.

Les langages de programmation comme Python, Java et Scala ainsi que l’environnement UNIX. Un Data Engineer doit savoir coder : Python et Java reste donc la priorité ! Mais Scala est un bon bonus.
Les environnements Cloud (Azure, GCP, AWS) et les services associés.
Le stockage de données sous différentes formes et à plusieurs volumétries, dans les Data Lakes et les Data Warehouses. Le stockage de données c’est LA clef de voûte du métier de Data Engineer donc connaître les bases SQL et NoSQL reste très important.
Le traitement de données Big Data, en particulier avec les frameworks Hadoop et Spark, pour manipuler des données de plusieurs dizaines/centaines de Go.
Les flux de données en temps réel, où la nécessité de diffuser et analyser des données en temps réel devient de plus en plus présente. Compétence plus inattendue mais ô combien nécessaire pour les applications (ex: Uber), les services financiers et même des géants comme Carrefour !
Les pipelines ETL et l’automatisation, qui s’applique aussi bien sur les pipelines de données que sur les cycles de vie en Machine Learning.

Et qu’en est-il des techologies et des frameworks ?

Il y a de nombreuses technologies, plus ou moins équivalentes, que le Data Engineer doit maîtriser.

Les langages de programmation : Python, Java, Scala, Bash.
Les environnements Cloud : Cloud publics, On-Premise, infrastructures réseaux, montée en charge, FinOps.
Le stockage des données : système de stockage (objets, blocs), cluster Hadoop, bases SQL, bases NoSQL (HBase, Cassandra, MongoDB).
Le traitement des données Big Data : analyse distribuée (Hive, Sqoop), processing de données (Spark, Beam).
Les flux de données en temps réel : diffusion en temps réel (Apache Kafka, Confluent Platform, RabbitMQ), traitement en temps réel (Spark Streaming, Flink, Storm).
Les pipelines ETL et l’automatisation : ETL et ELT, Reverse ETL, automatisation de pipelines (Airflow, Oozie, Prefect).

L’astuce de Maxime

« Sur quelle(s) technologie(s) parier ? » : c’est une des questions qui est revenue le plus souvent pendant ce webinar.

La réponse courte ? « Les technologies en vogue » : l’orchestration des conteneurs (type Kubernetes), l’automatisation de l’infrastructure, la configuration as Code (avec Puppet) et surtout se concentrer sur la maîtrise des bases de données pour laquelle la demande » explose.

Pour récapituler :

Cela vous a donné envie de vous former ? La formation Blent c’est par là

Et pour vous lancer en tant que freelance Data Engineer sur Malt c’est par ici