A l’issue de la formation, l’apprenant sera capable de :
Formation GCP200CDF Data Integration with Cloud Data Fusion
Objectifs
Identifier le besoin d’intégration de données
Comprendre les fonctionnalités fournies par Cloud Data Fusion en tant que plate-forme d’intégration de données
Identifier les cas d’utilisation pour une éventuelle mise en œuvre avec Cloud Data Fusion
Répertorier les composants principaux de Cloud Data Fusion
Concevoir et exécuter des pipelines de traitement de données par lots et en temps réel
Travailler avec Wrangler pour créer des transformations de données
Utiliser des connecteurs pour intégrer des données de différentes sources et formats
Configurer l’environnement d’exécution ; Surveiller et dépanner l’exécution du pipeline
Comprendre la relation entre les métadonnées et la lignée des données
Prérequis
Avoir suivi le cours « Big Data and Machine Learning Fundamentals » ou avoir des connaissances équivalentes
Cette formation ne peut être financée que dans le cadre d’un projet d’entreprise (prise en charge entreprise ou OPCO). Les dossiers à financement personnel et CPF ne sont pas pris en compte.
Public
Data Engineer
Data Analysts
Dernière mise à jour
Programme mis à jour le 31 janvier 2024
Bon à savoir
Evaluez votre niveau
Pour vous aider à bien choisir votre formation, nous vous proposons soit un entretien avec le formateur soit un test d’évaluation. Cela vous assurera que vous disposez des connaissances nécessaires pour suivre la formation dans des conditions optimales.
Sessions garanties
La majorité de nos sessions proposées en distanciel sont garanties. Elles peuvent être enregistrées à la demande.
Travaux pratiques
Nos formations comprennent de nombreux travaux pratiques pour un meilleur apprentissage (60 % de pratique). Nous proposons également de travailler sur vos données pour une meilleure expérience.
Les Modules
de formation
Module1
Introduction à l’intégration de données et Cloud Data Fusion
Intégration de données : quoi, pourquoi, défis
Outils d’intégration de données utilisés dans l’industrie
Personas utilisateur
Introduction à la fusion de données cloud
Capacités critiques d’intégration de données
Composants de l’interface utilisateur Cloud Data Fusion
Objectifs
Comprendre le besoin d’intégration de données
Lister les situations/cas où l’intégration de données peut aider les entreprises
Lister les plateformes et outils d’intégration de données disponibles
Identifier les défis liés à l’intégration des données
Comprendre l’utilisation de Cloud Data Fusion en tant que plate-forme d’intégration de données
Créer une instance Cloud Data Fusion
Se familiariser avec le framework de base et les principaux composants de Cloud Data Fusion
Activités
Lab noté, quiz, discussions
Module2
Construire des pipelines
Architecture de Cloud Data Fusion
Concepts de base
Pipelines de données et graphes acycliques dirigés (DAG)
Cycle de vie des pipelines
Conception de pipelines dans Pipeline Studio
Objectifs
Comprendre l’architecture de Cloud Data Fusion
Définir ce qu’est un pipeline de données
Comprendre la représentation DAG d’un pipeline de données,
Apprendre à utiliser Pipeline Studio et ses composants
Concevoir un pipeline simple à l’aide de Pipeline Studio,
Déployer et exécuter un pipeline
Activités
Lab noté, quiz
Module3
Construire des pipelines complexes
Branchement, fusion et jointure
Actions et notifications
Gestion des erreurs et macros
Configurations de pipeline, planification, importation et exportation
Objectifs
Effectuer des opérations de branchement, de fusion et de jointure.
Exécuter le pipeline avec des arguments d’exécution à l’aide de macros.
Travailler avec des gestionnaires d’erreurs.
Exécuter des exécutions pré- et post-pipeline à l’aide d’actions et de notifications.
Planifier l’exécution des pipelines.
Importer et exporter des pipelines existants.
Activités
Lab noté, quiz
Module4
Environnement d’exécution du pipeline
Horaires et déclencheurs
Environnement d’exécution : profil de calcul et provisionneurs
Surveillance des pipelines
Objectifs
Comprendre la composition d’un environnement d’exécution.
Configurer l’environnement d’exécution, la journalisation et les métriques de votre pipeline. Comprendre des concepts tels que le profil de calcul et l’approvisionneur.
Créer un profil de calcul.
Créer des alertes de pipeline.
Surveiller le pipeline en cours d’exécution.
Activités
Quiz
Module5
Construire des transformations et préparer des données avec Wrangler
Wrangler
Directives
Directives définies par l’utilisateur
Objectifs
Comprendre l’utilisation de Wrangler et de ses principaux composants.
Transformer les données à l’aide de l’interface utilisateur Wrangler.
Transformer les données à l’aide de directives/méthodes CLI.
Créer et utiliser des directives définies par l’utilisateur.
Activités
Lab noté, quiz
Module6
Connecteurs et pipelines de streaming
Comprendre l’architecture d’intégration de données.
Lister les différents connecteurs.
Utilisez l’API Cloud Data Loss Prevention (DLP).
Comprendre l’architecture de référence des pipelines de streaming.
Construire et exécuter un pipeline de streaming.
Objectifs
Connecteurs
DLP
Architecture de référence pour les applications de streaming
Création de pipelines de diffusion en continu
Activités
Lab noté, quiz, discussions
Module7
Métadonnées et lignage des données
Métadonnées
Lignage des données
Objectifs
Répertorier les types de métadonnées.
Différencier les métadonnées commerciales, techniques et opérationnelles.
Comprendre ce qu’est le lignage des données.
Comprendre l’importance de maintenir la lignée des données.
Différencier les métadonnées et le lignage des données.
Activités
Lab noté, quiz
Les prochaines
sessions de formation
Sur demande
Vous souhaitez organiser cette formation à une date spécifique ?Contactez-nous en remplissant le formulaire ci-dessous
09 décembre 2024
03 février 2025
31 mars 2025
26 mai 2025