La bonne réponse aux enjeux de la plupart des entreprises en termes de data sciences
L’essor du Big Data et sa démocratisation conduisent un nombre croissant d’entreprises à chercher à reproduire ce qui se pratique dans les entreprises “digital et data native”, qui, elles, disposent de moyens, de cas d’usages et de talents pour mener à bien ces projets.
Mais dans des organisations plus contraintes en termes de moyens et de ressources, le déploiement de méthodes Open Source nécessite des investissements massifs en termes de moyens humains, de transformation de l'organisation et de processus. Autrement dit, l'open source en data science, utilisée dans un but opérationnel, représente un coût non négligeable.
Dataiku représente alors une voie intermédiaire, lorsque ces moyens font défaut et qu’il est difficile d'attirer et de fidéliser les profils IT expérimentés permettant de faire vivre une solution technologique sur le long terme. Dataiku s'est engouffré dans cette voie intermédiaire, avec plus de succès que ces concurrents.
L’ADN du logiciel peut expliquer ce succès :
- il s’agit d’une plateforme, certes propriétaire, mais avec une interface qui ne se contente pas de tolérer l’open source, et qui, au contraire l’encourage,
- elle offre un cadre et des processus qui permettent à des profils utilisant plusieurs technologies différentes de collaborer ensemble,
- elle donne la possibilité de déployer facilement les assets conçus par les data scientists, sans les complexités que l’on rencontre habituellement lorsqu’un livrable doit être migré, versionné, déployé, exposé …
Une vision de la data science adaptée à l'organisation des entreprises
La seconde raison du succès de Dataiku réside dans le fait que les tendances actuelles ont beaucoup contribué à survaloriser les compétences techniques des équipes data. Mais pour autant, lorsque l'attention d'une équipe data est portée uniquement vers des considérations technologiques ou scientifiques, certes intéressantes, on court le risque d’oublier la raison d’être de ces équipes : délivrer de la connaissance issue de la data, argumentée et opérationnelle.
Dataiku a compris cette dualité actuelle de la data science : dans son interface, l’outil propose ainsi une solution qui peut correspondre à trois types de profils « data », très distincts dans leurs compétences et leur positionnement au sein d’une organisation :
- des profils non codeurs qui peuvent interagir avec de la donnée et utiliser en self-service les fonctionnalités de data analyse de l’outil,
- des profils “data analysts” et “data scientists” qui peuvent concevoir des modèles en s’appuyant sur leurs compétences propres en langage data (SQL, Python, ..)
- des profils “data ingénieurs” qui peuvent paramétrer, gouverner, orchestrer et automatiser des pipelines data, et ce, quels que soient les environnements SI et data existants (SGBD, Datalake, Cloud, kubernetes…).