EPSILON Stories - Experience - Matinale Dataiku

[EXPERIENCE] Data et Analytics : migrer vers Dataiku ?

Expert Brahim Bouyacoub EPSILON Francepar Brahim Bouyacoub
EPSILON France

Les évolutions du marché des plateformes analytiques

DE NOUVEAUX ACTEURS DANS UN MARCHÉ QUI ÉVOLUE

Aujourd’hui, l’usage de la Data s’est largement démocratisé et les solutions analytiques doivent répondre à de nouveaux besoins. De même, les offres d’emplois évoluent et la maîtrise de R et Python a pris le pas sur l’utilisation des plateformes historiques comme SAS. En miroir, le même phénomène est observable dans les écoles avec une bascule vers R et Python.

De plus, le coût de ces infrastructures historiques ainsi que la gestion des patrimoines de données importants sont de véritables enjeux pour les DSI. Ainsi, ces dernières années, de nouveaux acteurs comme Dataiku, Google ou encore Amazon ont développé des offres analytiques en mesure de concurrencer les plateformes historiques.

Leurs plateformes sont plus agiles, plus ergonomiques et sont intégrées dans un écosystème applicatif qui les rend plus complètes. Les qualités de ces outils permettent ainsi de faciliter la montée en compétence et l’industrialisation tout en étant connecté à tous les environnements de données.

Ecoutez notre podcast pour plus d'informations sur ce sujet.

Présentation de Dataiku DSS

Dataiku est une plateforme qui cherche à démocratiser la data science et l’univers de l’analytique. Grâce à une interface visuelle interactive (click, drag & drop), elle permet de se connecter en quelques clics à différentes sources de données, structurées ou non structurées et de visualiser la donnée en mode « Excel-Like ». DSS est une plateforme pensée pour faciliter la création de modèles et leur industrialisation et permet d’exploiter les bibliothèques de Machine Learning et de Deep Learning.

Chaque action de l’utilisateur se matérialise dans l’interface visuelle par une brique (recipes) et l’enchainement de ces briques constitue une chaîne de traitement (flow) qui permet ainsi à l’utilisateur d’avoir une vue d’ensemble sur le parcours de la donnée. Ce modèle end to end permet de faciliter la gouvernance de la donnée, d’améliorer les modèles et d’accélérer l’industrialisation. DSS est aussi une plateforme collaborative qui supporte de nombreux langages et propose des ludothèques très complètes afin de continuer sa démocratisation.

Retour d’expérience d’Orange France

CONTEXTE

La direction Analyse Client d’Orange France est composée de plus de 80 personnes travaillant sur différents langages et systèmes (SAS, SPSS et Hadoop). Au vu des problématiques de recrutement sur SAS, de duplication des données pour les traiter et du coût des infrastructures, il est devenu nécessaire de faire évoluer le système d’informations analytiques d’Orange.

Après avoir étudié différentes solutions du marché, Orange France a choisi Dataiku DSS.

PROCESSUS DE MIGRATION DE SAS VERS DATAIKU

Une migration menée par les métiers

La Direction Analyse Client d’Orange a effectué la migration directement au sein de ses équipes sans appui de la DSI notamment grâce à la présence des créateurs des modèles SAS. Cela a permis de sélectionner de façon pragmatique et pertinente les éléments à migrer.

Le passage de SAS vers Dataiku DSS s’est effectué sans encombre. Les utilisateurs sont passés naturellement sur DSS sans double run, Dataiku étant très simple à appréhender pour un utilisateur métier.

Processus en plusieurs étapes

  1. Duplication des données de Teradata et SAS vers Hive.
  2. Passage de SAS à du SQL Pass Through pour limiter les transferts de données entre SAS et Hadoop et réduire les temps d’exécution. Il s’agit de la phase la plus complexe de la migration cependant Dataiku a adouci le processus.
  3. Migration des programmes SAS vers Dataiku Flow.
  4. Passage de Hive vers Spark SQL car les moteurs Spark sont plus performants.

 Dataiku : points positifs et points d’amélioration

POINTS POSITIFS

  • Dataiku est réellement intégré sur la plateforme Hadoop, un facteur essentiel pour Orange qui dispose d’un important cluster Hadoop.
  • Un outil sur lequel coder est très simple quel que soit le langage ce qui permet d’introduire de l’expertise Data au sein des métiers.
  • La richesse des outils : Dataiku permet à chacun de trouver un fonctionnement optimal. Les métiers ont facilement accès aux recettes et à des modèles préfabriqués, les nouveaux Data Scientists peuvent coder en R et Python et les codeurs SAS s’adaptent facilement à l’interface.
  • Le mode collaboratif : le travail est partagé et accessible via un système d’urls. Il permet de partager du code ou des programmes entiers en toute transparence.
  • Centralisation des outils dev, ordonnancement des flux et choix du moteur d’exécution pour les visuals recipes.

POINTS D’AMÉLIORATION

  • Gestion complexe des données « date » (il n’existe qu’un format « time zone »),
  • Propagation des schémas qui rencontre encore certains bugs,
  • Impossibilité de supprimer les tables intermédiaires de façon individuelle.

Conclusion

La migration est un succès avec un taux de satisfaction des utilisateurs très élevé et a offert à Orange une réelle capacité à attirer de nouveaux profils.
Dataiku a parfaitement répondu aux attentes des besoins métiers d’Orange pour un projet de migration raisonnable en termes de coût et de temps dans un environnement agile (moins de 18 mois pour 80 personnes sur différents outils). La prochaine étape pour Orange suite au succès de la migration et à la satisfaction des utilisateurs internes est d’industrialiser ce modèle. L’accessibilité de Dataiku DSS a permis d’accroître le nombre d’utilisateurs quotidiens à une centaine grâce à son ouverture aux Data Analysts et aux Business Analysts ne sachant pas coder.
Cependant, dans d’autres contextes comme dans certains métiers de la banque (gestion des risques par exemple) ou de l’assurance, SAS s’avère souvent être un outil indispensable et répondant parfaitement aux besoins des utilisateurs et des DSI.
Le choix des outils et technologies dépend donc en premier lieu des usages analytiques, mais également du patrimoine technologique, de l’environnement IT, de la dimension industrielle des analyses et enfin de la maturité des organisations (notamment en matière de gestion de projet agile).

Téléchargez l'article