SF33388
3 jours
Formation Spark.
Traitez les données massives en un temps record grâce au moteur d'analyse Apache Spark et à notre formation Spark !
Apache Spark est un moteur d'analyse unifié (Unified Analytics Engine), créé pour le traitement rapide des données. Ce framework open source de calcul distribué permet l'analyse et le traitement de données à grandes échelles. Le framework permet le développement d'applications de traitement hautement performantes. Notre formation Apache Spark vous permettra de développer des applications permettant de traiter de larges quantités de données en temps réel et l'intégrer notamment dans un environnement Hadoop pour améliorer le temps d'exécution des applications Hadoop !
Programme de formation Spark.
PDFPrésentation de Apache Spark
Spark et le Big Data
Fonctionnement de Apache Spark
Spark et Hadoop: deux solutions différentes et complémentaires
Spark Shell
Environnement de travail
Outils
RDD (Resilient Distributed Datasets)
Fonctionnement
Cas d’usages
Gestion des opérations de RDD
MapReduce pour le RDD
Spark SQL
Combiner Spark à HDFS (Hadoop Distributed File System)
Intérêts
Cas d’usages
Intégration à Spark de HDFS
Utilisation de HDFS
Spark en cluster
Création d’une structure en clusters
Héberger la structure
Déployer la structure
Interface Web de Spark
Programmation parallèle, Partitionnement
Localiser les données du HDFS
Partitionnement de RDD
Programmation d’opérations parallèles
Exécution
Mise en cache du partitionnement
Gestion de la persistance des données
Conception d’une application à l’aide de Spark
Présentation de Spark
Configuration
Prototyper des opérations avec Spark Shell
Compiler
Générer l’application
Spark Streaming pour le traitement des données en temps réel
Fonctionnement
Principes de base
DStream
Intégrer, transformer des DStreams
Opérations de sortie
Gérer les performances
Implémenter des algorithmes, Machine Learning
Résoudre les problèmes à l’aide d’algorithmes itératifs
Machine Learning Library MLlib
Opérations sur les données graphiques
Optimiser Spark
Gérer les variables partagées
Données broadcastées
Accumulateurs
Optimiser les performances: méthodes et outils
Nos autres formations en Big Data .
Formation Airflow
Formation Apache Kafka
Formation Apache NiFi
Formation Bases de données NoSQL : introduction, enjeux et panorama des solutions
Formation Big Data – Sécurité des données
Formation Big Data : état de l’art
A travers sa Charte Engagement Qualité, Sparks s’engage à tout mettre en œuvre pour que chaque session de formation soit un succès et que votre satisfaction soit totale.
En apprendre davantage sur Spark.
Initialement développé à UC Berkeley en 2009, Spark est un framework open source désormais géré par Apache. Ce framework écrit en Scala accepte également des tâches écrites en Java et en Python. Le but du framework est le traitement des grandes quantités de données associées au Big Data.
Dans la lignée de Hadoop mais différent, Apache Spark permet un traitement jusqu’à 100 fois plus rapide qu’Hadoop pour les larges quantité de données. En 2014, Spark avait notamment battu le record détenu par Hadoop en traitant 100 TB de données en 23 mins à l’aide de 206 machines contre 72 minutes à l’aide de 2100 machines pour Hadoop. La formation Apache Spark par Sparks a donc pour but principal le traitement de données. Elle s’installe donc notamment dans une démarche du Big Data, afin de pouvoir traiter la quantité colossale de données qui peuvent être générées dans les entreprises.
Spark étant un framework open source, il permet d’être incorporé gratuitement dans du code pour le développement d’applications de traitement de données très performantes. Cette formation vous permettra en premier lieu de comprendre et maîtriser le framework Spark, puis de développer des applications en utilisant ce dernier. Cette formation par Sparks de 3 jours est disponible en présentiel ou à distance !