Formation Apache SPARK

Apache Spark est le moteur de traitement de données Big Data le plus rapide : il permet de diviser par 100 le temps d’exécution en maximisant le travail “in-memory”. Spark s’appuie sur plusieurs types de clusters dont YARN et le négociateur de ressources intégré à Hadoop. 

Au terme de cette formation, vous saurez concevoir une application avec Spark, comprendre le principe de distribution des traitements ou encore positionner SparkML dans un contexte de Data Science !

%

de travaux pratiques

jours de R&D par an sur les formations Big Data

jours de formation

À qui s’adresse cette formation Apache SPARK ?

data scientist - illustration

Architectes

data scientist - illustration

Développeurs

développeur web, full stack, android, ios - portrait

Chefs de projet

développeur web, full stack, android, ios - portrait

Data Miners

Description de la formation

Apache SPARK

Présentation

Apache Spark est un moteur de traitements distribués sur des gros volumes de données.

Souvent mis en opposition au modèle mapreduce implémenté dans Hadoop, il en est en fait une extension qui peut en diviser les temps d’exécution jusqu’à un facteur de 100 en maximisant le travail « in-memory ».

Spark exploite les principes de programmation fonctionnelle afin d’optimiser l’empreinte mémoire nécessaire à son exécution. Conçu pour mettre en œuvre des traitements distribués, Spark peut s’appuyer sur plusieurs types de clusters, dont YARN le négociateur de ressources intégré à Hadoop.

Méthode pédagogique

La formation se passe en mode présentiel (face à face), et se compose de 70% de travaux pratiques (Mises en situation, débats, exercices). Le formateur alterne entre théorie et pratique ; chaque participant dispose d’un ordinateur sur lequel il réalisera les exercices proposés.

Une évaluation quotidienne de l’acquisition des connaissances de la veille est effectuée.

Une synthèse est proposée en fin de formation. Une évaluation à chaud sera proposée au stagiaire à la fin du cours. 

Un support de cours sera remis à chaque participant comprenant les slides sur la théorie, les exercices et les corrigés de ces derniers. Une feuille d’émargement par demi-journée de présence est fournie en fin de formation ainsi qu’une attestation de fin de formation si le stagiaire a bien assisté à la totalité de la session. 

Objectifs

  • Concevoir une application avec Spark 
  • Comprendre le principe de distribution des traitements
  • Maîtriser les concepts fondamentaux des et des Resilient Distributed Dataset
  • Utiliser les dataframes via Spark SQL
  • Utiliser SparkUI afin d’analyser les jobs et tâches de Spark
  • Positionner SparkML dans un contexte de data science
  • Traiter des données en continu avec Spark Streaming

Audience

  • Architectes
  • Développeurs
  • Chefs de projet
  • Dataminer

Pré-requis

Connaissance d’un langage de programmation

Le formateur

Le formateur est un expert du domaine qui intervient sur le sujet depuis plusieurs années en formation mais aussi en conseil.

Doté d’une grande qualité d’écoute, sa pédagogie et sa compétence technique vous permettront d’acquérir les compétences sur SPARK.

Il saura alterner entre théorie, pratique, et retours d’expérience.

Le programme

Présentation de Spark 
  • Spark : un besoin de distribuer vos traitements
  • Architecture de Spark runtime : driver, executor, master
  • Positionner Spark vs Hadoop
  • Les langages du framework : Java | Scala | Python | R
RDD : Resilient Distributed Dataset
  • RDD : Le composant fondateur du fonctionnement de Spark
  • Les partitions : la base de la distribution
  • Transformations, actions et directed acyclic Graph
  • Manipuler un RDD : Une API riche
  • Le cas particulier des Pairs RDD
SparkSQL, Dataframes et Datasets
  • Un modèle de programmation haut niveau
    Initialisation d’un dataframe
  • Manipulation : sélection, tri et fonctions d’agrégation.
  • Dataset : une surcouche typée des dataframes
  • Comprendre le plan d’exécution d’une requête
  • Bonnes et mauvaises pratiques avec SparkSQL
Mise en cluster : Les infrastructures de déploiement
  • Les composants d’une exécution Spark : Jobs, stages et tasks 
  • Un principe important : Data locality
  • Distribution des données dans le cadre d’un cluster : les partitions 
  • Redistribution des données : le shuffle
  • Bonnes pratiques et performance
Machine Learning
  • Comprendre les principes fondamentaux du Machine Learning 
  • Apprentissage et création d’un modèle avec SparkML
Spark streaming
  • Collecte et traitement des données en continu
  • Stream processing avec Spark 
  • Comprendre le principe du micro-batching

Tarif

1980 € HT

Formation à distance

Retengr vous permet aussi de suivre cette formation à distance, sous forme de classe virtuelle (6 participants maximum), avec un formateur expert sur le sujet. La formation se déroule via une connexion en visio conférence (ZOOM, GoogleMeet, Teams ou autres) et vous permet d’alterner théorie et pratique de façon accompagnée ou autonome, le tout dans le respect des objectifs pédagogiques et des évaluations des acquis.

Les émargements, évaluations, attestation de formation, remises des supports de cours et autres documents se feront en ligne.

En ce qui concerne le matériel informatique du participant, il est seulement préconisé un ordinateur et une connexion internet. Nous nous chargeons du reste.

Chaque participant se verra attribuer une Machine Virtuelle qui sera exécutée dans le Cloud d’Amazon. Il disposera alors de la puissance et des outils nécessaires pour le bon déroulement de la formation. Aucune installation de la part du participant n’est requise avant la formation.

Une journée type de formation à distance se décompose de la façon suivante :

Matin :

  • 2h de théorie en visioconférence
  • 10 à 15 minutes de présentation d’exercices en visio
  • 1h de TP en autonomie avec possibilité de solliciter le formateur (partage d’écran à distance pour une assistance efficace).

Après-midi :

  • 2h de théorie en visioconférence
  • 10 à 15 minutes de présentation d’exercices en visio
  • 1h de TP en autonomie avec possibilité de solliciter le formateur (partage d’écran à distance pour une assistance efficace).

Les prochaines dates pour cette formation

Pas d'événement actuellement programmé.

Nos clients parlent de nous

« Très sympa et très pédagogue. Il sait appuyer sur les points importants (le vocabulaire). Un très bon équilibre entre théorie et pratique avec des cas d'usages intéressants. »

Merwann S.

DataScientist dans une ESN

Nos autres formations en hautes technologies

Formations agilité, Safe et scrum master

Architecture

formations big data - Retengr - icone

Data

Formation Devops Toulouse et Paris - Retengr

DevOps

Formation web mobile, android et ios -  Toulouse et Paris - Retengr

Agilité

Formation web Html, css, javascript, angular - Retengr

Web client

pictogramme formations développement applications mobiles

Web mobile

Prêt(e) à vous former en Data ?

Envoyez-nous un message !

1.

Vous remplissez ce formulaire

2.

Nous vous recontactons sous 48h

3.

Nous finalisons ensemble votre inscription