Formation Microsoft Fabric Avancée pour Data Professionals

OF-MF2A
Durée : 4 jours
Tarif : 3274 € HT

96%

Taux de satisfaction clients
(sur 1645 évaluations du 19/05/21 au 28/02/25)

Voir les avis

Objectifs

● Ingérer et retraiter efficacement des données issues de diverses sources, notamment des fichiers plats et CSV, en utilisant les outils avancés de Microsoft Fabric.
● Maîtriser Python (PySpark et Pandas) pour la transformation, le nettoyage et la consolidation des données au sein de l’environnement Fabric.
● Appliquer les meilleures pratiques en matière de conventions de nommage pour assurer la maintenabilité et la lisibilité des actifs de données.
● Mettre en œuvre des stratégies de déploiement continu (CI/CD) pour les solutions Fabric, en se concentrant sur la migration d’Azure DevOps vers GitHub Actions.
● Optimiser les performances des processus de traitement des données dans Fabric afin d’améliorer la rapidité d’exécution.

Prérequis

Cette formation s’adresse aux professionnels qui :
● Disposent d’une expérience pratique et quotidienne avec Microsoft Fabric et ses composants de base (Lakehouses, Notebooks, Pipelines de données).
● Possèdent une solide expertise dans l’ingestion, la transformation et la modélisation de données.
● Ont des connaissances intermédiaires à avancées en Python, notamment avec les bibliothèques Pandas et une compréhension des concepts de Spark.
● Sont familiers avec les principes du contrôle de version (Git) et des concepts de base du déploiement continu.

Public

Cette formation est conçue pour les professionnels des données, les ingénieurs de données et les architectes de solutions qui utilisent Microsoft Fabric au quotidien et souhaitent approfondir leurs compétences en :
● Traitement et consolidation de données complexes.
● Utilisation avancée de Python (PySpark et Pandas) dans Fabric.
● Mise en place de pratiques DevOps pour les projets Fabric.
● Optimisation des performances des workflows de données.

Formation(s) associée(s)

Dernière mise à jour

Programme mis à jour le 30 juillet 2025

Cette formation vous intéresse ? Contactez-nous

Bon à savoir

Evaluez votre niveau

Pour vous aider à bien choisir votre formation, nous vous proposons soit un entretien avec le formateur soit un test d’évaluation. Cela vous assurera que vous disposez des connaissances nécessaires pour suivre la formation dans des conditions optimales.

Sessions garanties

La majorité de nos sessions proposées en distanciel sont garanties. Elles peuvent être enregistrées à la demande.

Travaux pratiques

Nos formations comprennent de nombreux travaux pratiques pour un meilleur apprentissage (60 % de pratique). Nous proposons également de travailler sur vos données pour une meilleure expérience.

Télécharger la fiche de cette formation

Les Modules
de formation

Module1

Jour 1 : Ingestion et Retraitement Avancé des Données avec Fichiers Plats et CSV

● Rappels et approfondissements sur l’ingestion de données dans Fabric

○ Revue des pipelines de données et Dataflows Gen2 : cas d’usage avancés.

○ Gestion des connexions et des sources de données complexes.

● Ingestion de fichiers plats et CSV dans Lakehouse

○ Bonnes pratiques d’ingestion pour les données non structurées et semi-structurées.

○ Gestion des schémas dynamiques et de l’inférence de type.

○ Techniques avancées d’ingestion : chargement incrémental, gestion des erreurs.

○ Exercice pratique : Ingestion de jeux de données CSV volumineux et hétérogènes.

● Retraitement et préparation des données avec Dataflows Gen2

○ Transformations avancées dans Power Query Online.

○ Gestion des données manquantes, doublons, et incohérences.

○ Mise en forme des données pour l’analyse.

○ Exercice pratique : Nettoyage et transformation d’un jeu de données CSV complexe en utilisant Dataflows Gen2.

Module2

Jour 2 : Transformation et Consolidation avec Python (Pandas & PySpark) dans les Notebooks

Matin :

● Introduction avancée aux Notebooks Fabric et environnements Spark

○ Configuration et gestion des sessions Spark dans Fabric.

○ Utilisation de bibliothèques Python tierces.

● Manipulation et nettoyage de données avec Pandas

○ Techniques avancées de nettoyage de données (gestion des chaînes de caractères, dates, expressions régulières).

○ Agrégation et pivotement de données avec Pandas.

○ Jointures et fusions complexes de DataFrames Pandas.

○ Exercice pratique : Retraitement d’un jeu de données en utilisant Pandas dans un Notebook Fabric.

● Transformation et consolidation de données avec PySpark

○ Exploration des DataFrames PySpark : opérations de base et avancées.

○ Partitionnement et optimisation des données pour Spark.

○ Techniques de jointure et de fusion distribuées avec PySpark.

○ Utilisation de Spark SQL pour des transformations complexes.

○ Exercice pratique : Consolidation de plusieurs sources de données (CSV, Parquet) en utilisant PySpark.

● Conventions de nommage et organisation des actifs Fabric

○ Définition de conventions de nommage claires pour Lakehouses, Notebooks, Pipelines, etc.”;

○ Structuration des espaces de travail et des dossiers pour la maintenabilité.

○ Gestion des versions des Notebooks et scripts.

○ Exercice pratique : Refactorisation d’un projet Fabric existant en appliquant les conventions de nommage.

● Optimisation des performances des processus de données

○ Optimisation des requêtes Spark et PySpark (caching, repartitionnement, broadcast joins).

○ Meilleures pratiques pour l’ingestion et la transformation de données volumineuses.

○ Surveillance des performances des pipelines et notebooks.

○ Exercice pratique : Identification et résolution des goulots d’étranglement dans un pipeline de données.

Module3

Jour 3 : Bonnes Pratiques, Optimisation et Sécurité

● Comprendre les Enjeux de la Sauvegarde dans Spark/Fabric

○ Vue d’ensemble : Pourquoi les sauvegardes sont-elles souvent un goulot d’étranglement ?

○ Rappel sur Delta Lake et Parquet : Avantages de ces formats.

● Stratégies d’Optimisation des Écritures (Sauvegardes)

○ Gestion de la taille des fichiers : Problème des « petits fichiers » et des fichiers « trop grands ». Comment viser une taille de fichier optimale.

○ Contrôle du nombre de partitions d’écriture : Utilisation de `.coalesce()` et `.repartition()` pour ajuster le nombre de fichiers de sortie.

○ Partitionnement physique (`.partitionBy()`): Importance pour les performances de lecture ultérieures.

○ Compaction des fichiers (`OPTIMIZE`) et Z-Ordering (pour Delta Lake) : Fusion et ordonnancement pour les lectures.

○ Exercice Pratique : Optimisation des Sauvegardes sur un Volume Important de Données

● Enrichissement des Données : Concepts et Applications

○ `merge` (Jointures) : Explication et types de jointures (`inner`, `left`, etc.) pour combiner horizontalement des DataFrames.

○ `cut` (Segmentation / Binning) : Regrouper des valeurs numériques continues en catégories discrètes.

○ `pivot` / `unpivot` (Pivot / Dé-pivot) : Remodeler les données (lignes en colonnes, colonnes en lignes).

○ Concepts clés de manipulation de base : Renommer, ajouter/supprimer, filtrer, sélectionner/réordonner des colonnes, gérer les valeurs nulles, opérations sur chaînes et dates.

○ Exercice pratique : Enrichissement et Segmentation de Données Clients

○ Exercice pratique : Pivotement/Dé-pivotement et Nettoyage Avancé

Module4

Jour 4 : Sécurité et CI/CD Simplifié

● Gestion des Rôles et des Autorisations dans Fabric

○ Rôles d’espace de travail (`Admin`, `Member`, `Contributor`, `Viewer`) et leurs niveaux d’accès.

○ Autorisations au niveau des éléments (Items) : Permissions granulaires sur les Lakehouses, Notebooks, Dataflows.

○ Modèle de permission et bonnes pratiques (moindre privilège, groupes de sécurité Azure AD).

○ Exercice Pratique : Configuration des Permissions et Rôles (Simulé/Explication)

● Sécurité au Niveau des Lignes (RLS) et des Colonnes (CLS)

○ RLS (Row-Level Security) : Explication, cas d’usage (filtrage par région), implémentation via le SQL Analytics Endpoint.

○ CLS (Column-Level Security) : Explication, cas d’usage (masquage d’informations sensibles), implémentation via le masquage dynamique des données en SQL.

○ Exercice pratique : Implémentation de RLS et CLS (Principalement par le SQL Endpoint)

● Audit et Conformité

○ Journaux d’audit Fabric : Importance pour le suivi des activités et la conformité.

○ Accès aux journaux : Où les trouver et comment les utiliser.

○ Conformité réglementaire : Comment Fabric aide à répondre aux exigences (GDPR, HIPAA)

● Introduction au Déploiement Continu (CI/CD)

○ Concept du CI/CD : Rappel des principes (intégration/livraison/déploiement continu) et leur importance.

○ Intégration Git dans Fabric : Comment Fabric s’intègre avec Azure DevOps Repos ou GitHub.

○ Vue d’ensemble d’un pipeline CI/CD pour Fabric : CI (validation du code, tests) et CD (déploiement automatisé entre environnements).

○ Outils : Discussion sur Azure DevOps Pipelines ou GitHub Actions.

○ Transition Azure DevOps vers GitHub Actions (Focus sur l’explication) : Similitudes, différences, et démonstration conceptuelle (sans exécution pratique)

Les prochaines
sessions de formation

Sur demande

Vous souhaitez organiser cette formation à une date spécifique ?Contactez-nous en remplissant le formulaire ci-dessous

13 octobre 2025

15 décembre 2025

02 février 2026

30 mars 2026

Cette formation vous intéresse ? Contactez-nous !

Nom*

Prénom*

Entreprise (facultatif)

Téléphone

E-mail*

Votre message*

Les données personnelles collectées sont destinées à Access IT Company et utilisées pour traiter votre demande et, lorsque vous ne vous y êtes pas opposé, vous communiquer nos offres commerciales. Les données obligatoires vous sont signalées sur le formulaire par un astérisque. L’accès aux données est strictement limité par Access IT Company aux collaborateurs en charge du traitement de votre demande. Conformément au Règlement européen n°2016/679/UE du 27 avril 2016 sur la protection des données personnelles et à la loi « informatique et libertés » du 6 janvier 1978 modifiée, vous bénéficiez d’un droit d’accès, de rectification, d’effacement, de portabilité et de limitation du traitement des donnés vous concernant ainsi que du droit de communiquer des directives sur le sort de vos données après votre mort. Vous avez également la possibilité de vous opposer au traitement des données vous concernant. Vous pouvez exercer vos droits en contactant le DPO à l’adresse suivante : dpo@access-it.fr ou à l’adresse postale suivante 2, Allée Lavoisier, 59650 Villeneuve d’Ascq. Pour plus d’informations sur le traitement de vos données personnelles par Access IT Company, veuillez consulter notre politique de confidentialité disponible sur notre site internet à l’adresse suivante : https://formation.access-it.fr/politique-de-confidentialite/