Nvidia Training Course : Building AI Agents with Multimodal Models

sm-nba
Durée : 1 jour
Tarif : 980€ HT

97%

Taux de satisfaction clients
(sur 1838 évaluations du 19/05/21 au 18/03/26)

Voir les avis

Objectifs

In this course, you will learn about:

Different data types and how to make them neural network ready

Model fusion, and the differences between early, late, and intermediate fusion

PDF extraction using OCR

The difference between modality and agent orchestration

Customization of NVIDIA AI Blueprints with Video Search and Summarization (VSS)

Prérequis

A basic understanding of Deep Learning Concepts.

Familiarity with a Deep Learning framework such as TensorFlow, PyTorch, or Keras. This course uses PyTorch.

Public

IT professionals

Formation(s) associée(s)

Dernière mise à jour

Programme mis à jour le 13 avril 2026

Cette formation vous intéresse ? Contactez-nous

Bon à savoir

Evaluez votre niveau

Pour vous aider à bien choisir votre formation, nous vous proposons soit un entretien avec le formateur soit un test d’évaluation. Cela vous assurera que vous disposez des connaissances nécessaires pour suivre la formation dans des conditions optimales.

Sessions garanties

La majorité de nos sessions proposées en distanciel sont garanties. Elles peuvent être enregistrées à la demande.

Travaux pratiques

Nos formations comprennent de nombreux travaux pratiques pour un meilleur apprentissage (60 % de pratique). Nous proposons également de travailler sur vos données pour une meilleure expérience.

Nos prestations

Nous réalisons certaines prestations IT pour vous : développement sur-mesure, refonte logicielle, TMA, interfaçage ERP.

Télécharger la fiche de cette formation

Les Modules
de formation

Module1

Early and Late Fusion

Use camera and LiDAR data to predict object positions.

Convert various datatypes to make them neural network ready.

Module2

Intermediate Fusion

Train a Contrastive Pretraining model.

Create a vector database.

Module3

Cross-modal Projection

Converting a Language model into a Vision Language Model (VLM).

Process PDFs with Optical Character Recognition (OCR) tools.

Module4

Model Orchestration

Analyze video using Cosmos Nemotron.

Use VSS to answer user queries about video content.

Orchestrate with NVIDIA AI Blueprints.

Module5

Assessment

Convert a pre-trained model to input a different datatype using projection.

Les prochaines
sessions de formation

Sur demande

Vous souhaitez organiser cette formation à une date spécifique ?Contactez-nous en remplissant le formulaire ci-dessous

27 juillet 2026

21 septembre 2026

23 novembre 2026

11 janvier 2027

Cette formation vous intéresse ? Contactez-nous !