Matthieu Scordia : La loi des chiffres

Matthieu Scordia : La loi des chiffres

Data scientist chez Dataiku, la startup spécialiste de l’analyse de données et du développement de services prédictifs, Matthieu Scordia cultive une passion : la donnée, sous toutes ses formes ! Passé par les bancs de l’université Pierre et Marie Curie, ce scientifique aide les entreprises à modéliser et tirer parti de leurs données. Rencontre avec ce gourou du Big Data !

Matthieu, peux-tu nous expliquer en quoi consiste ton métier de Data Scientist chez Dataiku ?

Le métier de DS (Data Scientist) chez Dataiku est un peu différent du métier de DS dans un cabinet de consultant ou dans une grande entreprise. A Dataiku avant tout, nous construisons et vendons une plateforme de data science. Le DS est le super utilisateur de cette plateforme ! Il va graviter autour des différents départements pour contribuer au succès du développement de Dataiku. Au coté des commerciaux, il va aider à démontrer la valeur de la solution auprès des clients, par des démos, ou de l’accompagnement sur les projets des clients. Au coté de la R&D, il va remonter les besoins des clients, les nouvelles features à ajouter, remonter les bugs. Tout ça en vue d’améliorer le logiciel. Au coté du marketing, il va participer à des évènements, donner des talks à des conférences de ML (Machine Learning).

Quel est ton parcours ? Avais-tu des prédispositions pour ce métier ?

J’ai un parcours universitaire, j’ai fais le Master en IA de l’UPMC après avoir suivi une licence en informatique. J’ai toujours eu une appétence pour les sciences, la data science m’a très vite passionné. J’ai commencé pendant ma dernière année de master à faire des compétitions de ML pour mettre en pratique ce que j’apprenais. Il faut expérimenter plein de techniques différentes pour grimper dans les classements de ces compétitions !

Quelles sont les qualités du bon data-scientist selon toi ?

La curiosité pour se tenir au courant de toutes les avancées et techniques du domaine, c’est un métier passion. La remise en question aussi, c’est très facile de faire des erreurs. Il faut être prêt à vérifier deux fois ses résultats !

Comment fais-tu pour rester à la page et continuer à te former ?

Pour rester à la page, j’essaie de lire des papiers de recherches, de parcourir des forums. Par exemple j’adore aller voir les solutions des gagnants de compétitions de ML sur Kaggle, voir comment ont été implémentés les meilleurs modèles…

Peux-tu nous présenter un exemple de collaboration ou un cas d’application ?

Par exemple, je viens d’aider une banque à réaliser un modèle de fraudes. J’ai passé le début du projet avec les métiers qui avaient pour but de contrôler les transactions potentiellement frauduleuses. Ils m’ont expliqué leur travail, comment ils soupçonnaient certaines transactions. J’ai mis en place un algorithme sur les différents indicateurs qu’ils m’ont suggéré et les ai aider à le mettre en production dans leur système. C’est gratifiant de voir que le travail réalisé avec eux est réellement utilisé.

Parkeon, spécialiste du stationnement, Coyote et ses boîtiers connectés d’aide à la conduite… tu travailles avec des entreprises issues de secteurs très variées. As-tu des bonnes pratiques que tu as identifié en matière de gestion de données ?

Effectivement, nous avons la chance de travailler avec toutes entreprises ayant des données peu importe le secteur. Pour un DS chez Dataiku c’est très riche, cela lui permet de voir plein de cas d’application très différents. La méthode scientifique que nous appliquons est la même, juste l’expertise métier que nous apporte l’entreprise change. C’est pour cela que nous demandons à chaque fois de co-réaliser avec eux le projet : ils nous apportent leur expertise métier, nous leur apportons l’expertise en data science. Les deux sont nécessaires pour le succès du projet !

Quels sont les pièges à éviter ?

Les pièges à éviter sont souvent dans les données. En fonction de comment elles sont collectées, stockées, mise à jour, il peut arriver qu’on utilise des données qu’on ne pourrait pas utiliser. Par exemple, si les données du clients sont mises à jours en permanence, lorsque l’on va créer un modèle prédictif sur des données d’il y a trois ans, la "photo" du client d’il y a trois ans sera en réalité la photo du client aujourd'hui. Ce qui va fausser le modèle.

Quels conseils donnes-tu à un néophyte qui souhaite suivre ton chemin ?

Je lui conseillerais de suivre un cursus scientifique: math, physique, bio, info. Quelque soit le domaine, il aura l’occasion d’apprendre à coder et à manipuler des données. Ensuite je lui conseillerai de poursuivre sa formation par lui même pour acquérir d'autres compétences manquantes: apprendre de nouveaux langages, cela peut être en suivant des Mooc, en s’entrainant sur un projet perso. La version gratuite de Dataiku est top pour débuter !

Envie de lever le voile sur l’univers du Big Data ? Oublie les clichés et les idées reçues, et plonge-toi dans le parcours de formation de Matthieu Scordia. Objectif ? Découvrir la révolution des chatbots … et pourquoi pas te lancer à ton tour dans la création de ton premier chatbot !