03 20 61 95 06

Formation Google Cloud Platform GCP300DATAFLOW Serverless Data Processing with Dataflow


  • GCP300DATAFLOW
  • Durée : 3 jours
  • Tarif : 2625 € HT

96%

Taux de satisfaction clients
(sur 1465 évaluations du 19/05/21 au 16/09/24)

Voir les avis

Objectifs

A l’issue de la formation le participant sera capable de :
Démontrer comment Apache Beam et Dataflow fonctionnent ensemble pour répondre aux besoins de traitement des données de votre organisation.

Résumer les avantages de Beam Portability Framework et activer-le pour vos pipelines Dataflow.
Activer Shuffle et Streaming Engine, respectivement pour les pipelines batch et streaming, pour des performances maximales.
Activer la planification flexible des ressources pour des performances plus rentables.
Sélectionner la bonne combinaison d’autorisations IAM pour votre tâche Dataflow.
Mettre en œuvre les meilleures pratiques pour un environnement de traitement de données sécurisé.
Sélectionner et ajuster les E/S de votre choix pour votre pipeline Dataflow.
Utiliser des schémas pour simplifier votre code Beam et améliorer les performances de votre pipeline.
Développer un pipeline Beam en utilisant SQL et DataFrames.
Effectuer la surveillance, le dépannage, les tests et la CI/CD sur les pipelines Dataflow.

Prérequis

Pour tirer le meilleur parti de ce cours, les participants doivent :

Avoir suivi le modules « Créer des pipelines de données par lots » dans le cours Data Engineering on Google Cloud ou avoir des connaissances équivalentes
Avoir suivi le module « Créer des systèmes d’analyse de flux résilients » dans le cours Data Engineering on Google Cloud ou avoir des connaissances équivalentes

Cette formation ne peut être financée que dans le cadre d’un projet d’entreprise (prise en charge entreprise ou OPCO). Les dossiers à financement personnel et CPF ne sont pas pris en compte.

Public

Data Engineer

Data Analysts et Data Scientists aspirant à développer des compétences en ingénierie des données

Dernière mise à jour

Programme mis à jour le 31 janvier 2024
enveloppe Cette formation vous intéresse ? Contactez-nous

Bon à savoir

Evaluez votre niveau

Pour vous aider à bien choisir votre formation, nous vous proposons soit un entretien avec le formateur soit un test d’évaluation. Cela vous assurera que vous disposez des connaissances nécessaires pour suivre la formation dans des conditions optimales.

Formations modulables

Toutes nos formations sont disponibles en présentiel comme en distanciel, en mode coaching individuel ou en groupe de 3 à 6 participants maximum.

Travaux pratiques

Nos formations comprennent de nombreux travaux pratiques pour un meilleur apprentissage (60 % de pratique). Nous proposons également de travailler sur vos données pour une meilleure expérience.
modules

Les Modules
de formation

Module1
Introduction

Sujets

Présentation du cours
Actualisation des faisceaux et des flux de données
Objectifs
Présentation des objectifs du cours.
Démontrer comment Apache Beam et Dataflow fonctionnent ensemble pour répondre aux besoins de traitement des données de votre organisation.
Module2
Portabilité de Beam

Sujets

Portabilité de Beam
Runner v2
Environnements de conteneurs
Transformations Cross-Language
Objectifs
Résumer les avantages du Beam Portability Framework.
Personnaliser l’environnement de traitement des données de votre pipeline à l’aide de conteneurs personnalisés.
Examiner les cas d’utilisation pour les transformations Cross-Language.
Activez le Beam Portability Framework pour vos pipelines Dataflow.
Activités
Quiz
Module3
Séparer le calcul et le stockage avec Dataflow

Sujets

Dataflow
Dataflow Shuffle Service
Dataflow Streaming Engine
Flexible Resource Scheduling
Objectifs
Activez Shuffle et Streaming Engine, respectivement pour les pipelines batch et streaming, pour des performances maximales.
Activez la planification flexible des ressources pour des performances plus rentables.
Activités
Quiz
Module4
IAM, Quotas et Permissions

Sujets

IAM
Quota
Objectifs
Sélectionner la bonne combinaison d’autorisations IAM pour votre tâche Dataflow.
Déterminer vos besoins en capacité en inspectant les quotas pertinents pour vos tâches Dataflow.
Activités
Quiz
Module5
Sécurité

Sujets

Localité des données
Shared VPC
IPs privées
CMEK
Objectifs
Sélectionner votre stratégie de traitement des données zonales à l’aide de Dataflow, en fonction de vos besoins en matière de localisation des données.
Mettre en œuvre les meilleures pratiques pour un environnement de traitement de données sécurisé.
Activités
Lab pratique et quiz
Module6
Revue des concepts de BEAM

Sujets

Les bases Beam
Transformations utilitaires
Cycle de vie DoFn
Objectifs
Passer en revue les principaux concepts d’Apache Beam (Pipeline, PCollections, PTransforms, Runner, lecture/écriture, Utility PTransforms, side inputs), les bundles et le cycle de vie DoFn.
Activités
Lab pratique et quiz
Module7
Windows, Watermarks, Triggers

Sujets

Windows
Watermarks
Triggers
Objectifs
Implémenter une logique pour gérer vos données tardives.
Passer en revue les différents types de déclencheurs.
Passer en revue les principaux concepts de diffusion en continu (unbounded PCollections, windows).
Activités
Lab pratique et quiz
Module8
Sources and Sinks

Sujets

Sources et Sinks
Text IO et File IO
BigQuery IO
PubSub IO
Kafka IO
Bigable IO
Avro IO
Splittable DoFn
Objectifs
Écrire sur les IO de votre choix pour votre pipeline Dataflow.
Ajuster votre transformation Source/Sink pour des performances maximales.
Créer des Sources et des sinks personnalisés à l’aide de SDF.
Activités
Quiz
Module9
Schémas

Sujets

Beam Schemas
Exemples de code
Objectifs
Introduire des schémas, qui donnent aux développeurs un moyen d’exprimer des données structurées dans leurs pipelines Beam.
Utiliser des schémas pour simplifier votre code Beam et améliorer les performances de votre pipeline.
Activités
Lab pratique et quiz
Module10
État et Timers

Sujets

State API
Timer API
Summary
Objectifs
Identifier les cas d’utilisation pour les implémentations d’API d’état et de timer
Sélectionner le bon type d’état et de timers pour votre pipeline
Activités
Quiz
Module11
Bonnes pratiques

Sujets

Schémas
Gestion des données non traitables
La gestion des erreurs
Générateur de code AutoValue
Traitement des données JSON
Utiliser le cycle de vie DoFn
Optimisations de pipeline
Objectifs
Implement best practices for Dataflow pipelines.
Activités
Lab pratique et quiz
Module12
Dataflow SQL et DataFrames

Sujets

Dataflow et Beam SQL
Windowing in SQL
Beam DataFrames
Objectifs
Développer un pipeline Beam en utilisant SQL et DataFrames.
Activités
Lab pratique et quiz
Module13
Beam Notebooks

Sujets

Beam Notebooks
Objectifs
Prototyper votre pipeline en Python à l’aide des notebooks Beam.
 Lancer une tâche dans Dataflow à partir d’un notebooks.
Activités
Quiz
Module14
Monitoring

Sujets

Job List
Job Info
Job Graph
Job Metrics
Metrics Explorer
Objectifs
Accéder à l’interface utilisateur des détails de la tâche Dataflow.
Interpréter les graphiques de métriques de travail pour diagnostiquer les régressions du pipeline.
Définir des alertes sur les tâches Dataflow à l’aide de Cloud Monitoring.
Activités
Quiz
Module15
Monitoring

Sujets

Logging
Rapport d’erreur
Objectifs
Utiliser les journaux Dataflow et les widgets de diagnostic pour résoudre les problèmes de pipeline.
Activités
Quiz
Module16
Dépannage et débogage

Sujets

Flux de travail de dépannage
Types de problèmes
Objectifs
Utiliser une approche structurée pour déboguer vos pipelines Dataflow.
Examiner les causes courantes des défaillances de pipeline.
Activités
Lab pratique et quiz
Module17
Performance

Sujets

Conception de pipelines
Forme des données
 Source, Sinks et systèmes externes
 Shuffle and Streaming Engine
Objectifs
Comprendre les considérations de performances pour les pipelines.
Tenir compte de la façon dont la forme de vos données peut affecter les performances du pipeline.
Activités
Quiz
Module18
Testing et CI/CD

Sujets

Présentation des tests et CI/CD
Tests unitaires
Tests d’intégration
Construction d’artefacts
Déploiement
Objectifs
Approches de test pour votre pipeline Dataflow.
Passez en revue les frameworks et les fonctionnalités disponibles pour rationaliser votre flux de travail CI/CD pour les pipelines Dataflow.
Activités
Lab pratique et quiz
Module19
Fiabilité

Sujets

Introduction à la fiabilité
Surveillance
Géolocalisation
Reprise après sinistre
Haute disponibilité
Objectifs
Mettre en œuvre les bonnes pratiques en matière de fiabilité pour vos pipelines Dataflow.
Activités
Quiz
Module20
Flex Templates

Sujets

Modèles classiques
Modèles flexibles
Utiliser les Flex Templates
Modèles fournis par Google
Objectifs
Utiliser des Flex Templates pour standardiser et réutiliser le code du pipeline Dataflow.
Activités
Lab pratique et quiz
Module21
Conclusion

Sujets

Synthèse
Objectifs
Récapitulatif rapide des sujets de formation

Les prochaines
sessions de formation

Sur demande
Vous souhaitez organiser cette formation à une date spécifique ?Contactez-nous en remplissant le formulaire ci-dessous
28 octobre 2024
30 décembre 2024
24 février 2025
22 avril 2025

Cette formation vous intéresse ? Contactez-nous !

    Les données personnelles collectées sont destinées à Access IT Company et utilisées pour traiter votre demande et, lorsque vous ne vous y êtes pas opposé, vous communiquer nos offres commerciales. Les données obligatoires vous sont signalées sur le formulaire par un astérisque. L’accès aux données est strictement limité par Access IT Company aux collaborateurs en charge du traitement de votre demande. Conformément au Règlement européen n°2016/679/UE du 27 avril 2016 sur la protection des données personnelles et à la loi « informatique et libertés » du 6 janvier 1978 modifiée, vous bénéficiez d’un droit d’accès, de rectification, d’effacement, de portabilité et de limitation du traitement des donnés vous concernant ainsi que du droit de communiquer des directives sur le sort de vos données après votre mort. Vous avez également la possibilité de vous opposer au traitement des données vous concernant. Vous pouvez exercer vos droits en contactant le DPO à l’adresse suivante : [email protected] ou à l’adresse postale suivante 2, Allée Lavoisier, 59650 Villeneuve d’Ascq. Pour plus d’informations sur le traitement de vos données personnelles par Access IT Company, veuillez consulter notre politique de confidentialité disponible sur notre site internet à l’adresse suivante : https://formation.access-it.fr/politique-de-confidentialite/