Formation Microsoft DP-3011 Implémentation d’une solution d’analyse de données avec Azure Databricks

of-3011
Durée : 1 jour
Tarif : 790€ HT

97%

Taux de satisfaction clients
(sur 1838 évaluations du 19/05/21 au 18/03/26)

Objectifs

A l’issue de la formation le participant sera capable d’exploiter la puissance d’Apache Spark et des clusters puissants fonctionnant sur la plateforme Azure Databricks pour exécuter des charges de travail d’ingénierie de données volumineuses dans le cloud.

Prérequis

Connaissance de base des concepts d’ingénierie des données : Compréhension des processus ETL (Extract, Transform, Load) et des pipelines de données.

Expérience avec SQL et les bases de données.

Connaissance de base d’Azure et des services cloud.

Expérience avec Python, R ou Scala pour l’analyse de données.

Connaissance de base d’Apache Spark est utile mais non obligatoire.
Un entretien en amont avec notre expert permet de prendre en compte le profil de chaque participant (niveau, objectifs et résultats attendus, contexte professionnel, enjeux…) et d’adapter le contenu de la formation si besoin.

Formation(s) associée(s)

Dernière mise à jour

Programme mis à jour le 19 avril 2026

Cette formation vous intéresse ? Contactez-nous

Bon à savoir

Evaluez votre niveau

Pour vous aider à bien choisir votre formation, nous vous proposons soit un entretien avec le formateur soit un test d’évaluation. Cela vous assurera que vous disposez des connaissances nécessaires pour suivre la formation dans des conditions optimales.

Sessions garanties

La majorité de nos sessions proposées en distanciel sont garanties. Elles peuvent être enregistrées à la demande.

Travaux pratiques

Nos formations comprennent de nombreux travaux pratiques pour un meilleur apprentissage (60 % de pratique). Nous proposons également de travailler sur vos données pour une meilleure expérience.

Nos prestations

Nous réalisons certaines prestations IT pour vous : développement sur-mesure, refonte logicielle, TMA, interfaçage ERP.

Télécharger la fiche de cette formation

Les Modules
de formation

Module1

Introduction à Azure Databricks et Apache Spark

Vue d’ensemble d’Azure Databricks

Qu’est-ce qu’Azure Databricks et pourquoi l’utiliser pour l’analyse de données volumineuses ?

Présentation d’Apache Spark et de son utilisation avec Databricks

Démarrer avec les espaces de travail et les clusters Databricks

Introduction aux notebooks Databricks : Utilisation des notebooks pour le développement collaboratif

Configuration d’Azure Databricks

Création et gestion des espaces de travail Azure Databricks dans le portail Azure

Création et gestion des clusters Spark

Connexion au Stockage Azure (Blob, Data Lake) avec Databricks

Utilisation des notebooks pour l’analyse de données et la visualisation

Ingestion des données dans Azure Databricks

Ingestion des données depuis Azure Blob Storage, Azure Data Lake, et autres sources

Travailler avec des formats de données structurées et non structurées (CSV, JSON, Parquet)

Utilisation de Delta Lake pour garantir la fiabilité et la cohérence des données

Module2

Transformation des Données et Ingénierie des Données avec Spark

Transformation des Données avec Spark

Utilisation des DataFrames Spark et des RDDs pour la transformation des données

Réalisation de transformations de données courantes : filtrage, jointure, groupement, etc.

Écriture et optimisation des requêtes Spark SQL dans Databricks

Travailler avec Delta Lake

Introduction à Delta Lake pour gérer les grandes quantités de données avec des transactions ACID

Comment créer, gérer et interroger les tables Delta dans Databricks

Optimisation des performances avec la partition et le cache des tables Delta Lake

Création de Pipelines de Données dans Databricks

Création de pipelines ETL de bout en bout dans les notebooks Databricks

Intégration de Databricks avec Azure Data Factory pour l’orchestration

Automatisation des tâches et planification des workflows dans Databricks

Module3

Analyse Avancée et Machine Learning dans Azure Databricks

Machine Learning avec Azure Databricks

Présentation de MLlib et de MLflow dans Databricks pour le machine learning

Création de modèles de machine learning dans Databricks : régression, classification, clustering

Utilisation de MLflow pour suivre les expériences, les modèles et les déploiements

Analyse en Temps Réel et Streaming avec Databricks

Introduction au Streaming Structuré avec Apache Spark

Création de pipelines de données en temps réel avec Azure Event Hubs ou Kafka

Analyse de données en streaming avec Databricks et exécution d’analyses en temps réel

Optimisation et Surveillance des Solutions de Données

Meilleures pratiques pour l’optimisation des tâches Spark et l’ajustement des performances

Surveillance des performances des clusters et dépannage dans Databricks

Utilisation de Azure Monitor pour suivre les tâches, les performances et les métriques

Les prochaines
sessions de formation

Sur demande

Vous souhaitez organiser cette formation à une date spécifique ?Contactez-nous en remplissant le formulaire ci-dessous

27 juillet 2026

21 septembre 2026

09 novembre 2026

28 décembre 2026

Cette formation vous intéresse ? Contactez-nous !