03 20 61 95 06

Formation Google Cloud Platform GCP200DE Ingénierie de données


  • GCP200DE
  • Durée : 4 jours
  • Tarif : 3500 € HT

96%

Taux de satisfaction clients
(sur 1645 évaluations du 19/05/21 au 28/02/25)

Voir les avis

Objectifs

A l’issue de la formation, l’apprenant sera capable de :
Savoir concevoir et déployer de pipelines et d’architectures pour le traitement des données
Comprendre comment obtenir des informations métier à partir de très grands ensembles de données à l’aide de Google BigQuery
Savoir tirer parti des données non structurées à l’aide de Spark et des API de Machine Learning sur Cloud Dataproc
Comprendre comment activer Instant Insights à partir des données par flux

Prérequis

Avoir suivi la formation « Google Cloud Platform – Les fondamentaux du Big Data et du Machine Learning » ou bénéficier d’une expérience équivalente
Maîtriser les principes de base des langages de requête courants tels que SQL
Avoir de l’expérience en modélisation, extraction, transformation et chargement des données
Savoir développer des applications à l’aide d’un langage de programmation courant tel que Python
Savoir utiliser le Machine Learning et/ou les statistiques

Cette formation ne peut être financée que dans le cadre d’un projet d’entreprise (prise en charge entreprise ou OPCO). Les dossiers à financement personnel et CPF ne sont pas pris en compte.

Public

Développeurs expérimentés en charge des transformations du Big Data

Dernière mise à jour

Programme mis à jour le 14 février 2024
enveloppe Cette formation vous intéresse ? Contactez-nous

Bon à savoir

Evaluez votre niveau

Pour vous aider à bien choisir votre formation, nous vous proposons soit un entretien avec le formateur soit un test d’évaluation. Cela vous assurera que vous disposez des connaissances nécessaires pour suivre la formation dans des conditions optimales.

Sessions garanties

La majorité de nos sessions proposées en distanciel sont garanties. Elles peuvent être enregistrées à la demande.

Travaux pratiques

Nos formations comprennent de nombreux travaux pratiques pour un meilleur apprentissage (60 % de pratique). Nous proposons également de travailler sur vos données pour une meilleure expérience.
modules

Les Modules
de formation

Module1
INTRODUCTION À L’INGÉNIERIE DES DONNÉES

Explorez le rôle d’un data engineer
Analyser les défis d’ingénierie des données
Introduction à BigQuery
Data lakes et data warehouses
Démo: requêtes fédérées avec BigQuery
Bases de données transactionnelles vs data warehouses
Démo: recherche de données personnelles dans votre jeu de données avec l’API DLP
Travailler efficacement avec d’autres équipes de données
Gérer l’accès aux données et gouvernance
Construire des pipelines prêts pour la productionEtude de cas d’un client GCP
Lab: Analyse de données avec BigQuery

Module2
CONSTRUIRE UN DATA LAKE

Introduction aux data lakes
Stockage de données et options ETL sur GCP
Construction d’un data lake à l’aide de Cloud Storage
Démo: optimisation des coûts avec les classes et les fonctions cloud de Google Cloud Storage
Sécurisation de Cloud Storage
Stocker tous les types de données
Démo: exécution de requêtes fédérées sur des fichiers Parquet et ORC dans BigQuery
Cloud SQL en tant que data lake relationnel

Module3
CONSTRUIRE UN DATA WAREHOUSE

Le data warehouse moderneIntroduction à BigQuery
Démo: Requêter des TB + de données en quelques secondes
Commencer à charger des données
Démo: Interroger Cloud SQL à partir de BigQuery
Lab: Chargement de données avec la console et la CLI
Explorer les schémas
Exploration des jeux de données publics BigQuery avec SQL à l’aide de INFORMATION_SCHEMA
Conception de schéma
Démo: Exploration des jeux de données publics BigQuery avec SQL à l’aide de INFORMATION_SCHEMA
Champs imbriqués et répétés dans BigQuery
Lab: tableaux et structures
Optimiser avec le partitionnement et le clustering
Démo: Tables partitionnées et groupées dans BigQuery
Aperçu: Transformation de données par lots et en continu

Module4
INTRODUCTION À LA CONSTRUCTION DE PIPELINES DE DONNÉES PAR LOTS EL, ELT, ETL

Considérations de qualité
Comment effectuer des opérations dans BigQuery
Démo: ETL pour améliorer la qualité des données dans BigQuery
Des lacunes
ETL pour résoudre les problèmes de qualité des données

Module5
EXÉCUTION DE SPARK SUR CLOUD DATAPROC

L’écosystème Hadoop
Exécution de Hadoop sur Cloud Dataproc GCS au lieu de HDFS
Optimiser Dataproc
Atelier: Exécution de jobs Apache Spark sur Cloud Dataproc

Module6
TRAITEMENT DE DONNÉES SANS SERVEUR AVEC CLOUD DATAFLOW

Cloud Dataflow
Pourquoi les clients apprécient-ils Dataflow?
Pipelines de flux de données
Lab: Pipeline de flux de données simple (Python / Java)
Lab: MapReduce dans un flux de données (Python / Java)
Lab: Entrées latérales (Python / Java)
Templates Dataflow
Dataflow SQL

Module7
GESTION DES PIPELINES DE DONNÉES AVEC CLOUD DATA FUSION ET CLOUD COMPOSER

Création visuelle de pipelines de données par lots avec Cloud Data Fusion: composants, présentation de l’interface utilisateur, construire un pipeline, exploration de données en utilisant Wrangler
Lab: Construction et exécution d’un graphe de pipeline dans Cloud Data Fusion
Orchestrer le travail entre les services GCP avec Cloud Composer – Apache Airflow Environment: DAG et opérateurs, planification du flux de travail
Démo : Chargement de données déclenché par un événement avec Cloud Composer, Cloud Functions, Cloud Storage et BigQuery
Lab: Introduction à Cloud Composer

Module8
INTRODUCTION AU TRAITEMENT DE DONNÉES EN STREAMING

Traitement des données en streaming

Module9
SERVERLESS MESSAGING AVEC CLOUD PUB/SUB

Cloud Pub/Sub
Lab: Publier des données en continu dans Pub/Sub

Module10
FONCTIONNALITÉS STREAMING DE CLOUD DATAFLOW

Fonctionnalités streaming de Cloud Dataflow
Lab: Pipelines de données en continu

Module11
FONCTIONNALITÉS STREAMING À HAUT DÉBIT BIGQUERY ET BIGTABLE

Fonctionnalités de streaming BigQuery
Lab: Analyse en continu et tableaux de bord
Cloud Bigtable
Lab: Pipelines de données en continu vers Bigtable

Module12
FONCTIONNALITÉ AVANCÉES DE BIGQUERY ET PERFORMANCE

Analytic Window Functions
Utiliser des clauses With
Fonctions SIG
Démo: Cartographie des codes postaux à la croissance la plus rapide avec BigQuery GeoViz
Considérations de performance
Lab: Optimisation de vos requêtes BigQuery pour la performance
Lab: Création de tables partitionnées par date dans BigQuery

Module13
INTRODUCTION À L’ANALYTIQUE ET À L’IA

Qu’est-ce que l’IA?
De l’analyse de données ad hoc aux décisions basées sur les données
Options pour modèles ML sur GCP

Module14
API DE MODÈLE ML PRÉDÉFINIES POUR LES DONNÉES NON STRUCTURÉES

Les données non structurées sont difficiles à utiliser
API ML pour enrichir les données
Lab: Utilisation de l’API en langage naturel pour classer le texte non structuré

Module15
BIG DATA ANALYTICS AVEC LES NOTEBOOKS CLOUD AI PLATFORM

Qu’est-ce qu’un notebook
BigQuery Magic et liens avec Pandas
Lab: BigQuery dans Jupyter Labs sur IA Platform

Module16
PIPELINES DE PRODUCTION ML AVEC KUBEFLOW

Façons de faire du ML sur GCP
Kubeflow AI Hub
Lab: Utiliser des modèles d’IA sur Kubeflow

Module17
CRÉATION DE MODÈLES PERSONNALISÉS AVEC SQL DANS BIGQUERY ML

BigQuery ML pour la construction de modèles rapides
Démo: Entraîner un modèle avec BigQuery ML pour prédire les tarifs de taxi à New York
Modèles pris en charge
Lab: Prédire la durée d’une sortie en vélo avec un modèle de régression dans BigQuery ML
Lab: Recommandations de film dans BigQuery ML

Module18
CRÉATION DE MODÈLES PERSONNALISÉS AVEC CLOUD AUTOML

Pourquoi Auto ML?
Auto ML Vision
Auto ML NLP
Auto ML Tables

Les prochaines
sessions de formation

Sur demande
Vous souhaitez organiser cette formation à une date spécifique ?Contactez-nous en remplissant le formulaire ci-dessous
02 juin 2025
28 juillet 2025
29 septembre 2025
24 novembre 2025

Cette formation vous intéresse ? Contactez-nous !

    Les données personnelles collectées sont destinées à Access IT Company et utilisées pour traiter votre demande et, lorsque vous ne vous y êtes pas opposé, vous communiquer nos offres commerciales. Les données obligatoires vous sont signalées sur le formulaire par un astérisque. L’accès aux données est strictement limité par Access IT Company aux collaborateurs en charge du traitement de votre demande. Conformément au Règlement européen n°2016/679/UE du 27 avril 2016 sur la protection des données personnelles et à la loi « informatique et libertés » du 6 janvier 1978 modifiée, vous bénéficiez d’un droit d’accès, de rectification, d’effacement, de portabilité et de limitation du traitement des donnés vous concernant ainsi que du droit de communiquer des directives sur le sort de vos données après votre mort. Vous avez également la possibilité de vous opposer au traitement des données vous concernant. Vous pouvez exercer vos droits en contactant le DPO à l’adresse suivante : [email protected] ou à l’adresse postale suivante 2, Allée Lavoisier, 59650 Villeneuve d’Ascq. Pour plus d’informations sur le traitement de vos données personnelles par Access IT Company, veuillez consulter notre politique de confidentialité disponible sur notre site internet à l’adresse suivante : https://formation.access-it.fr/politique-de-confidentialite/