Jour 2 : Transformation et Consolidation avec Python (Pandas & PySpark) dans les Notebooks
Matin :
● Introduction avancée aux Notebooks Fabric et environnements Spark
○ Configuration et gestion des sessions Spark dans Fabric.
○ Utilisation de bibliothèques Python tierces.
● Manipulation et nettoyage de données avec Pandas
○ Techniques avancées de nettoyage de données (gestion des chaînes de caractères, dates, expressions régulières).
○ Agrégation et pivotement de données avec Pandas.
○ Jointures et fusions complexes de DataFrames Pandas.
○ Exercice pratique : Retraitement d’un jeu de données en utilisant Pandas dans un Notebook Fabric.
● Transformation et consolidation de données avec PySpark
○ Exploration des DataFrames PySpark : opérations de base et avancées.
○ Partitionnement et optimisation des données pour Spark.
○ Techniques de jointure et de fusion distribuées avec PySpark.
○ Utilisation de Spark SQL pour des transformations complexes.
○ Exercice pratique : Consolidation de plusieurs sources de données (CSV, Parquet) en utilisant PySpark.
● Conventions de nommage et organisation des actifs Fabric
○ Définition de conventions de nommage claires pour Lakehouses, Notebooks, Pipelines, etc.”;
○ Structuration des espaces de travail et des dossiers pour la maintenabilité.
○ Gestion des versions des Notebooks et scripts.
○ Exercice pratique : Refactorisation d’un projet Fabric existant en appliquant les conventions de nommage.
● Optimisation des performances des processus de données
○ Optimisation des requêtes Spark et PySpark (caching, repartitionnement, broadcast joins).
○ Meilleures pratiques pour l’ingestion et la transformation de données volumineuses.
○ Surveillance des performances des pipelines et notebooks.
○ Exercice pratique : Identification et résolution des goulots d’étranglement dans un pipeline de données.