Formation : La Data Science à l’échelle avec Spark


EPSILON, vivier de compétences Data Science et Data Ingénierie, vous propose une formation sur l’utilisation de Spark par les Data Scientists.

SPARK est un moteur d’analyse de données massives. Sa richesse fonctionnelle lui confère une utilisation tant par les Data Ingénieurs que par les Data Scientists pour des besoins de préparation de données, d’analyse de données interactives et de Machine Learning.

  • Il est libre de droit et soutenu par des acteurs majeurs
  • Spark tire naturellement parti des infrastructures Big Data
  • Il est accessible par Scala, Python, R, et via des notebooks, il est rendu accessible aux non développeurs
  • Il est utilisé pour la mise en production batch et/ou du temps réel
  • Il est composé de librairies de Machine Learning dotées d’algorithmes et de fonctions adaptées aux données massives : hashing, collaborative filtering...

datadockNous sommes fiers d'être centre de formation Datadock, pour diffuser en continu le meilleur de la Data et de la Technologie auprès des professionnels de la Data Science, de la Dataviz et de l'Activation Marketing Adtech et Martech. 
Enregistré sous le numéro 11754361075. Cet enregistrement ne vaut pas agrément de l'Etat.

OBJECTIFS DE LA FORMATION ET COMPÉTENCES VISÉES


L’objectif de la formation est de :

  • Comprendre l’utilisation de Spark en Big Data
  • Comprendre la différence entre les différents langages et le fonctionnement de Spark
  • Manipuler et analyser les données de manière interactive en environnement notebook
  • Réaliser des modèles supervisés et non supervisés de Machine Learning

PUBLIC CONCERNÉ

  • Data Scientist
  • Data Analyst, Data Miner
  • Statisticien
  • Data Ingénieur
  • Spécialiste BI et Data

PRÉREQUIS

  • Compétences en traitement de données
  • Connaissances SQL
  • Connaissances d’un langage Python ou R ou SAS

MÉTHODES PÉDAGOGIQUES

  • Alternance des modalités pédagogiques : exposé, démonstration pratique, échanges collectifs, exercices pratiques et remise du support de formation.
  • Questionnaire d’évaluation administré à l’issue de la formation.
  • Durée
    3 jours / 21h
    9h - 17h30

  • Dates des sessions :
    contactez-nous

  • PRIX
    2 100 €HT
    (2 520 €TTC)

MODULE 1 : LES FONDAMENTAUX


  • Situer Spark, quels usages Data ?
  • Spécificités du moteur Spark (lazy, driver, in memory... )
  • Langages : Scala vs Pyspark, Pyspark vs Python
  • Développement, batch, déploiement, programmation, monitoring, debugging

 

MODULE 2 : MANIPULER ET EXPLORER LES DONNÉES


  • Rappels langage et syntaxe Python
  • RDD : comment structurer le non structuré
  • Dataframe, Spark. SQL
  • Lecture de fichiers, connecteurs HIVE, json...

 

MODULE 3 : MACHINE LEARNING « AT SCALE »


  • Concepts de Machine Learning et spécificités à l’échelle : hashing trick…
  • MLlib, vocabulaire
  • Feature engineering
  • Algorithmes supervisés et non supervisés
  • Exercices : analyse de sentiment, moteur de recommandation, scores

Votre formateur



Damien
Senior Manager Data Science

20 ans d'expérience en traitement, analyse et science des données.
Expert sur les techniques statistiques usuelles ainsi que sur les méthodologies et technologies à la pointe de la Data Science.

Adresse

Lieu de la formation :

55 quai de Grenelle 75015 PARIS

Je souhaite être recontacté