Ecoutez notre podcast pour plus d'informations sur ce sujet.
Présentation de Dataiku DSS
Dataiku est une plateforme qui cherche à démocratiser la data science et l’univers de l’analytique. Grâce à une interface visuelle interactive (click, drag & drop), elle permet de se connecter en quelques clics à différentes sources de données, structurées ou non structurées et de visualiser la donnée en mode « Excel-Like ». DSS est une plateforme pensée pour faciliter la création de modèles et leur industrialisation et permet d’exploiter les bibliothèques de Machine Learning et de Deep Learning.
Chaque action de l’utilisateur se matérialise dans l’interface visuelle par une brique (recipes) et l’enchainement de ces briques constitue une chaîne de traitement (flow) qui permet ainsi à l’utilisateur d’avoir une vue d’ensemble sur le parcours de la donnée. Ce modèle end to end permet de faciliter la gouvernance de la donnée, d’améliorer les modèles et d’accélérer l’industrialisation. DSS est aussi une plateforme collaborative qui supporte de nombreux langages et propose des ludothèques très complètes afin de continuer sa démocratisation.
Retour d’expérience d’Orange France
CONTEXTE
La direction Analyse Client d’Orange France est composée de plus de 80 personnes travaillant sur différents langages et systèmes (SAS, SPSS et Hadoop). Au vu des problématiques de recrutement sur SAS, de duplication des données pour les traiter et du coût des infrastructures, il est devenu nécessaire de faire évoluer le système d’informations analytiques d’Orange.
Après avoir étudié différentes solutions du marché, Orange France a choisi Dataiku DSS.
PROCESSUS DE MIGRATION DE SAS VERS DATAIKU
Une migration menée par les métiers
La Direction Analyse Client d’Orange a effectué la migration directement au sein de ses équipes sans appui de la DSI notamment grâce à la présence des créateurs des modèles SAS. Cela a permis de sélectionner de façon pragmatique et pertinente les éléments à migrer.
Le passage de SAS vers Dataiku DSS s’est effectué sans encombre. Les utilisateurs sont passés naturellement sur DSS sans double run, Dataiku étant très simple à appréhender pour un utilisateur métier.
Processus en plusieurs étapes
- Duplication des données de Teradata et SAS vers Hive.
- Passage de SAS à du SQL Pass Through pour limiter les transferts de données entre SAS et Hadoop et réduire les temps d’exécution. Il s’agit de la phase la plus complexe de la migration cependant Dataiku a adouci le processus.
- Migration des programmes SAS vers Dataiku Flow.
- Passage de Hive vers Spark SQL car les moteurs Spark sont plus performants.
Dataiku : points positifs et points d’amélioration
POINTS POSITIFS
- Dataiku est réellement intégré sur la plateforme Hadoop, un facteur essentiel pour Orange qui dispose d’un important cluster Hadoop.
- Un outil sur lequel coder est très simple quel que soit le langage ce qui permet d’introduire de l’expertise Data au sein des métiers.
- La richesse des outils : Dataiku permet à chacun de trouver un fonctionnement optimal. Les métiers ont facilement accès aux recettes et à des modèles préfabriqués, les nouveaux Data Scientists peuvent coder en R et Python et les codeurs SAS s’adaptent facilement à l’interface.
- Le mode collaboratif : le travail est partagé et accessible via un système d’urls. Il permet de partager du code ou des programmes entiers en toute transparence.
- Centralisation des outils dev, ordonnancement des flux et choix du moteur d’exécution pour les visuals recipes.
POINTS D’AMÉLIORATION
- Gestion complexe des données « date » (il n’existe qu’un format « time zone »),
- Propagation des schémas qui rencontre encore certains bugs,
- Impossibilité de supprimer les tables intermédiaires de façon individuelle.
Conclusion
La migration est un succès avec un taux de satisfaction des utilisateurs très élevé et a offert à Orange une réelle capacité à attirer de nouveaux profils.
Dataiku a parfaitement répondu aux attentes des besoins métiers d’Orange pour un projet de migration raisonnable en termes de coût et de temps dans un environnement agile (moins de 18 mois pour 80 personnes sur différents outils). La prochaine étape pour Orange suite au succès de la migration et à la satisfaction des utilisateurs internes est d’industrialiser ce modèle. L’accessibilité de Dataiku DSS a permis d’accroître le nombre d’utilisateurs quotidiens à une centaine grâce à son ouverture aux Data Analysts et aux Business Analysts ne sachant pas coder.
Cependant, dans d’autres contextes comme dans certains métiers de la banque (gestion des risques par exemple) ou de l’assurance, SAS s’avère souvent être un outil indispensable et répondant parfaitement aux besoins des utilisateurs et des DSI.
Le choix des outils et technologies dépend donc en premier lieu des usages analytiques, mais également du patrimoine technologique, de l’environnement IT, de la dimension industrielle des analyses et enfin de la maturité des organisations (notamment en matière de gestion de projet agile).