A l’issue de la formation le participant sera capable d’exploiter la puissance d’Apache Spark et des clusters puissants fonctionnant sur la plateforme Azure Databricks pour exécuter des charges de travail d’ingénierie de données volumineuses dans le cloud.
- BDD & Décisionnel
- Décisionnel
Formation Microsoft DP-3011 Implémentation d’une solution d’analyse de données avec Azure Databricks
Objectifs
Prérequis
Connaissance de base des concepts d’ingénierie des données : Compréhension des processus ETL (Extract, Transform, Load) et des pipelines de données.
Expérience avec SQL et les bases de données.
Connaissance de base d’Azure et des services cloud.
Expérience avec Python, R ou Scala pour l’analyse de données.
Connaissance de base d’Apache Spark est utile mais non obligatoire.
Un entretien en amont avec notre expert permet de prendre en compte le profil de chaque participant (niveau, objectifs et résultats attendus, contexte professionnel, enjeux…) et d’adapter le contenu de la formation si besoin.
Un entretien en amont avec notre expert permet de prendre en compte le profil de chaque participant (niveau, objectifs et résultats attendus, contexte professionnel, enjeux…) et d’adapter le contenu de la formation si besoin.
Dernière mise à jour
Programme mis à jour le 02 avril 2025
Bon à savoir
Evaluez votre niveau
Pour vous aider à bien choisir votre formation, nous vous proposons soit un entretien avec le formateur soit un test d’évaluation. Cela vous assurera que vous disposez des connaissances nécessaires pour suivre la formation dans des conditions optimales.
Sessions garanties
La majorité de nos sessions proposées en distanciel sont garanties. Elles peuvent être enregistrées à la demande.
Travaux pratiques
Nos formations comprennent de nombreux travaux pratiques pour un meilleur apprentissage (60 % de pratique). Nous proposons également de travailler sur vos données pour une meilleure expérience.
Les Modules
de formation
Module1
Introduction à Azure Databricks et Apache Spark
Vue d’ensemble d’Azure Databricks
Qu’est-ce qu’Azure Databricks et pourquoi l’utiliser pour l’analyse de données volumineuses ?
Présentation d’Apache Spark et de son utilisation avec Databricks
Démarrer avec les espaces de travail et les clusters Databricks
Introduction aux notebooks Databricks : Utilisation des notebooks pour le développement collaboratif
Configuration d’Azure Databricks
Création et gestion des espaces de travail Azure Databricks dans le portail Azure
Création et gestion des clusters Spark
Connexion au Stockage Azure (Blob, Data Lake) avec Databricks
Utilisation des notebooks pour l’analyse de données et la visualisation
Ingestion des données dans Azure Databricks
Ingestion des données depuis Azure Blob Storage, Azure Data Lake, et autres sources
Travailler avec des formats de données structurées et non structurées (CSV, JSON, Parquet)
Utilisation de Delta Lake pour garantir la fiabilité et la cohérence des données
Module2
Transformation des Données et Ingénierie des Données avec Spark
Transformation des Données avec Spark
Utilisation des DataFrames Spark et des RDDs pour la transformation des données
Réalisation de transformations de données courantes : filtrage, jointure, groupement, etc.
Écriture et optimisation des requêtes Spark SQL dans Databricks
Travailler avec Delta Lake
Introduction à Delta Lake pour gérer les grandes quantités de données avec des transactions ACID
Comment créer, gérer et interroger les tables Delta dans Databricks
Optimisation des performances avec la partition et le cache des tables Delta Lake
Création de Pipelines de Données dans Databricks
Création de pipelines ETL de bout en bout dans les notebooks Databricks
Intégration de Databricks avec Azure Data Factory pour l’orchestration
Automatisation des tâches et planification des workflows dans Databricks
Module3
Analyse Avancée et Machine Learning dans Azure Databricks
Machine Learning avec Azure Databricks
Présentation de MLlib et de MLflow dans Databricks pour le machine learning
Création de modèles de machine learning dans Databricks : régression, classification, clustering
Utilisation de MLflow pour suivre les expériences, les modèles et les déploiements
Analyse en Temps Réel et Streaming avec Databricks
Introduction au Streaming Structuré avec Apache Spark
Création de pipelines de données en temps réel avec Azure Event Hubs ou Kafka
Analyse de données en streaming avec Databricks et exécution d’analyses en temps réel
Optimisation et Surveillance des Solutions de Données
Meilleures pratiques pour l’optimisation des tâches Spark et l’ajustement des performances
Surveillance des performances des clusters et dépannage dans Databricks
Utilisation de Azure Monitor pour suivre les tâches, les performances et les métriques
Les prochaines
sessions de formation
Sur demande
Vous souhaitez organiser cette formation à une date spécifique ?Contactez-nous en remplissant le formulaire ci-dessous
18 août 2025
06 octobre 2025
08 décembre 2025
26 janvier 2026