La Data Science à l'échelle avec Spark

Découvrez comment utiliser le moteur d’analyse de données massives Spark.

Spark est utilisé quotidiennement par les Data Scientists d’Epsilon. Moteur d’analyse de données massives, libre de droit et soutenu par des acteurs majeurs, accessible par Scala, Python, R, et via des notebooks, il est rendu accessible aux non-développeurs. Sa richesse fonctionnelle lui confère une utilisation tant par les Data Engineers que par les Data Scientists pour des besoins de préparation de données, d’analyse de données interactives et de Machine Learning.

Niveau : Confirmé

De 4 à 8 participants maximum

Prix individuel

2450 € HT / 2940 € TTC

Date

  • 27 juin 2023
  • 29 juin 2023

Accessibilité

Si un bénéficiaire a des contraintes particulières liées à une situation de handicap, veuillez nous contacter au préalable afin que nous puissions, dans la mesure du possible, adapter l’action de formation.



TAUX DE SATISFACTION

100% de clients satisfaits

visuelsite_formations-04.jpg

Durée de la formation

3 jours / 21h
9h - 17h30

PUBLIC CONCERNÉ

Data Scientist
 

Data Analyst / Data Miner
 

Statisticien
 

Data Engineer
 

Spécialiste BI et Data

PRÉREQUIS

Compétences en traitement de données, notions de statistiques et machine learning
 

Connaissances SQL
 

Connaissances Python (rappels inclus dans la formation)

MÉTHODES MOBILISÉES

Alternance des modalités pédagogiques : exposé, démonstrations pratiques, échanges collectifs, quiz collectif, exercices pratiques et remise du support de formation. 50 % du temps global de la formation est dédié aux exercices.

MÉTHODES ÉVALUATION

Notre auto-évaluation permet d’apprécier les acquis apportés par l’action de formation.

visuelsite_formations-02.jpg

OBJECTIFS & COMPÉTENCES VISÉES

  • Comprendre l’utilisation de Spark en Big Data
  • Comprendre la différence entre les différents langages et le fonctionnement de Spark
  • Manipuler et analyser les données de manière interactive en environnement notebook
  • Réaliser des modèles supervisés et non supervisés de Machine Learning

 

visuelsite_formations-04.jpg

PROGRAMME

MODULE 1 : FONDAMENTAUX

 

  • Situer Spark, quels usages Data ?
  • Expliquer les spécificités du moteur Spark (lazy, driver, in memory... )
  • Comparer les principaux langages de programmation utilisés avec Spark : Scala vs PySpark, PySpark vs Python
  • Aborder les questions de : développement, batch, déploiement, programmation, monitoring, debugging


MODULE 2 : APPROCHE STATISTIQUE MACHINE LEARNING

 

  • Rappels de langage et de syntaxe Python
  • Découvrir et manipuler les RDD : comment structurer le non structuré
  • Découvrir et manipuler les Dataframes
  • Découvrir et manipuler Spark SQL
  • Autres : lecture de fichiers, connecteurs HIVE, json…

MODULE 3 : MACHINE LEARNING “at scale” (optionnel)

 

Explication des concepts de Machine Learning et présentation de spécificités liées à l'échelle : hasting trick…

  • Découverte de la bibliothèque ML de Spark (ex MLib), et de ses concepts
  • Réalisation de Feature Engineering avec des fonctions de la bibliothèque
  • Montée en compétences sur des algorithmes supervisés et non supervisés
  • Exercices : analyse de sentiments, scores, moteur de recommandations

 

Module optionnel, cette formation peut-être réduite à 2 jours uniquement en retirant le Module 3.

Consultez-nous pour le prix et la mise en place de cette formation sans ce module.

Nos formations sont en distanciel

Afin de faciliter l'organisation et la flexibilité des formations, elles sont toutes dispensées à distance.

Formation Intra-Entreprise

Nous délivrons habituellement cette formation au format Inter-entreprise.

 

Si vous souhaitez l’organiser exclusivement pour vos collaborateurs, contactez-nous afin de déterminer le tarif dans ce format.

Délais d’accès & de réponse

En Inter-entreprise, le délai d’accès est de 1 semaine avant le début de la formation.

 

En Intra-entreprise, les dates sont validées en tenant compte du planning respectif des formateurs et des participants, un délai de 20 jours est nécessaire entre la demande et le démarrage effectif de la formation.

 

Délai de réponse : nous fixons un délai maximum de 2 semaines pour répondre à une demande.

Contact & Réclamation

Nous vous invitons, si nécessaire, à nous contacter et nous tâcherons de vous répondre dans les plus brefs délais.
Epsilon Masterclass s’engage également à recueillir les réclamations afin d’améliorer en continu la qualité de ses formations. 

Contactez-nous au 01 72 32 40 00, ou par email : masterclass@epsilon-france.com

Enregistré sous le numéro 11754361075. Cet enregistrement ne vaut pas agrément de l’État.