La Data Science à l’échelle avec Spark 


EPSILON, vivier de compétences Data Science et Data Ingénierie vous propose une formation sur l’utilisation de Spark par les Data Scientists 

SPARK est un moteur d’analyse de données massives, sa richesse fonctionnelle lui confère une utilisation tant par les Data Ingénieurs que par les Data Scientists pour des besoins de préparation de données, d’analyse de données interactives et de Machine Learning.

  • Il est libre de droit et soutenu par des acteurs majeurs Spark tire naturellement parti des infrastructures Big Data
  • Il est accessible par Scala, Python, R, et via des notebooks, il est rendu accessible aux non développeurs
  • Il est utilisé pour la mise en production batch et/ou du temps réel
  • Il est composé de librairies de Machine Learning dotées d’algorithmes et de fonctions adaptées aux données massives : hashing, collaborative filtering...

OBJECTIFS DE LA FORMATION ET COMPÉTENCES VISÉES


L’objectif de la formation est de :

  • Comprendre l’utilisation de Spark en Big Data
  • Comprendre la différence entre les différents langages et le fonctionnement de Spark
  • Manipuler et analyser les données de manière interactive en environnement notebook
  • Réaliser des modèles supervisés et non supervisés de Machine Learning

PROGRAMME DE FORMATION


Jour 1 : Les fondamentaux

  • Situer Spark, quels usages Data ?
  • Spécificités du moteur Spark (lazy, driver, in memory... ) 
  • Langages : Scala vs Pyspark, Pyspark vs Python
  • Développement, batch, déploiement, programmation,
  • monitoring, debugging

 

Jour 2 : Manipuler et explorer les données 

  • Rappels langage et syntaxe Python
  • RDD : comment structurer le non structuré 
  • Dataframe, Spark.SQL
  • Lecture de fichiers, connecteurs HIVE, json...

 

Jour 3 : Machine Learning «at Scale»

  • Concepts de Machine Learning et spécificités à l’échelle :
  • hashing trick...
  •  MLlib, vocabulaire
  •  Feature engineering
  •  Algorithmes supervisés et non supervisés
  •  Exercices : analyse de sentiment, moteur de recommandation, scores

PUBLIC CONCERNÉ


  • Data Scientist
  • Data Analyst, Data Miner 
  • Statisticien
  • Data Ingénieur
  • Spécialiste BI et Data

 

Modalités


  • PRIX (Inter-entreprise) : 1 900 € HT / 2 280 € TTC
    • 3 jours / 21h. 9h - 17h30
  • Dates des sessions
    • 19-21 novembre 2019