• Dataiku
  • Data Science & IA
  • Articles
Cover Article Succès Dataiku

Comment expliquer le succès de Dataiku, leader français des solutions de Data Science ?

Avec son logiciel développé à partir de 2013, Dataiku s’est rapidement imposé comme un des leaders des solutions data science, d’abord en France, puis à plus large échelle. Son développement a commencé par les entreprises “Dataiku-like” : les plus agiles, orientées data et digitales, avant de s’étendre progressivement aux grandes entreprises matures, qui étaient déjà équipées avec des logiciels concurrents.

Dataiku est pourtant à contre-courant de la vague open-source, portée par les promoteurs des frameworks et langages tels que R, Python, h2o, Mllib, TF, Keras, Spacy, Dplyr, etc. Cette réussite peut s’expliquer de plusieurs façons.

La bonne réponse aux enjeux de la plupart des entreprises en termes de data sciences

L’essor du Big Data et sa démocratisation conduisent un nombre croissant d’entreprises à chercher à reproduire ce qui se pratique dans les entreprises “digital et data native”, qui, elles, disposent de moyens, de cas d’usages et de talents pour mener à bien ces projets.

Mais dans des organisations plus contraintes en termes de moyens et de ressources, le déploiement de méthodes Open Source nécessite des investissements massifs en termes de moyens humains, de transformation de l'organisation et de processus. Autrement dit, l'open source en data science, utilisée dans un but opérationnel, représente un coût non négligeable.

Dataiku représente alors une voie intermédiaire, lorsque ces moyens font défaut et qu’il est difficile d'attirer et de fidéliser les profils IT expérimentés permettant de faire vivre une solution technologique sur le long terme. Dataiku s'est engouffré dans cette voie intermédiaire, avec plus de succès que ces concurrents.

L’ADN du logiciel peut expliquer ce succès :

  • il s’agit d’une plateforme, certes propriétaire, mais avec une interface qui ne se contente pas de tolérer l’open source, et qui, au contraire l’encourage,
  • elle offre un cadre et des processus qui permettent à des profils utilisant plusieurs technologies différentes de collaborer ensemble,
  • elle donne la possibilité de déployer facilement les assets conçus par les data scientists, sans les complexités que l’on rencontre habituellement lorsqu’un livrable doit être migré, versionné, déployé, exposé …

Une vision de la data science adaptée à l'organisation des entreprises

La seconde raison du succès de Dataiku réside dans le fait que les tendances actuelles ont beaucoup contribué à survaloriser les compétences techniques des équipes data. Mais pour autant, lorsque l'attention d'une équipe data est portée uniquement vers des considérations technologiques ou scientifiques, certes intéressantes, on court le risque d’oublier la raison d’être de ces équipes : délivrer de la connaissance issue de la data, argumentée et opérationnelle.

Dataiku a compris cette dualité actuelle de la data science : dans son interface, l’outil propose ainsi une solution qui peut correspondre à trois types de profils « data », très distincts dans leurs compétences et leur positionnement au sein d’une organisation :

  • des profils non codeurs qui peuvent interagir avec de la donnée et utiliser en self-service les fonctionnalités de data analyse de l’outil,
  • des profils “data analysts” et “data scientists” qui peuvent concevoir des modèles en s’appuyant sur leurs compétences propres en langage data (SQL, Python, ..)
  • des profils “data ingénieurs” qui peuvent paramétrer, gouverner, orchestrer et automatiser des pipelines data, et ce, quels que soient les environnements SI et data existants (SGBD, Datalake, Cloud, kubernetes…).
     
Fonctionnement Dataiku Serie C

Des outils pensés pour faciliter la collaboration et le déploiement rapide de cas d'usage


Les nombreux cas d’usage des outils de Dataiku, dont certains ont été présentés lors de la conférence EGG Paris 2019, illustrent bien ces différents éléments de différenciation et la capacité du logiciel à simplifier la collaboration au sein des organisations.

Par exemple, la marque Levi Strauss utilise Dataiku pour créer des modèles de prédiction de la popularité des nouveaux produits et anticiper les nouvelles tendances, afin d’affiner, pour chaque magasin, les produits à mettre en avant, ainsi que la prévision des stocks. Historiquement, les équipes data de l’entreprise étaient disséminées dans plusieurs services : à l’occasion de ce projet, l’organisation a été revue pour faciliter la coordination. Les métiers ont également été intégrés au processus plus en amont.
 

Dans un autre domaine, l’énergéticien Engie a utilisé Dataiku pour faciliter la collaboration au sein d’une feature team pluridisciplinaire (Business expert, Data analyst, Data scientist, data ingénieurs, etc.), réunie autour d’un projet de prédiction de la consommation de gaz à court terme en France. En utilisant différentes sources de données (historique de consommation, données climatiques, etc.) l’outil a permis d’améliorer de 50% la précision des prévisions, pour une économie de 3,2 millions d’euros par an.

Energie, distribution, banque-assurance, grande consommation, santé, logistique... : signe de la démocratisation de la data science, les clients de Dataiku et les cas d’usages sont de plus en plus diversifiés. En outre, les directions marketing commencent elles aussi à se saisir de ces outils, afin d’enrichir leur connaissance consommateur, améliorer leurs segmentations ou identifier des insights à partir de leurs analytics, en complément de leurs solutions existantes. Il s’agit d’une tendance forte, identifiée par Epsilon auprès de ses clients.
 


Article écrit par :

Damien Garrouste Senior Manager Data Science - EPSILON 2@0,5x.jpg

Damien Garrouste

Senior Manager Data Science

Clémence Gourbault.jpg

Clémence Gourbault

Chef de projet Data Science