Comment prompter Google Gemini : texte, fichiers, images et vidéo

GetBetterPrompts Editorial Team · Mis à jour le 14 juillet 2026

Google Gemini désigne une famille de modèles et d'interfaces produit pour le texte, les fichiers, les images et la vidéo, et non un chatbot unique dont tous les usages seraient interchangeables. Ce guide explique comment rédiger des prompts contrôlables dans l'appli Gemini et les API destinées aux développeurs, en quoi les instructions système et les sorties structurées diffèrent d'une conversation ordinaire, et quelle place occupent la génération d'images Nano Banana et les options vidéo actuelles, sans présenter tous les modèles multimédias de Google comme un seul et même outil.

Ce que signifie prompter Gemini aujourd'hui

Pour prompter Gemini efficacement, nommez précisément la tâche, joignez ou collez les entrées que le modèle doit utiliser, définissez les contraintes et la structure de sortie, puis vérifiez le résultat à partir de ces exigences. Considérez la première réponse comme un brouillon.

Les stratégies de conception de prompts de Google insistent sur des instructions claires, des contraintes et un format de réponse explicite. Elles présentent aussi le prompting comme un processus itératif.

Gemini n'est pas un seul produit. L'appli Gemini grand public, Google AI Studio, l'API Gemini et Vertex AI proposent des concepts qui se recoupent, mais avec des contrôles différents. Comprendre une image ne revient pas à en générer une avec Nano Banana.

Comprendre une vidéo ne revient pas à en générer une. L'aide des applis Gemini de Google indique également que Gemini peut se tromper : vérifiez donc les réponses importantes.

Cette page porte précisément sur les produits Gemini. Pour les bases générales, consultez Qu'est-ce que le prompt engineering ? Guide pratique. Pour des techniques vidéo transférables d'un outil à l'autre, consultez le Guide des prompts vidéo IA : structure, mouvement et choix du modèle. Pour les bases de l'image indépendantes du modèle, consultez le Guide prompt image IA : style et astuces.

Choisir la bonne interface Gemini

Choisissez l'interface adaptée à la tâche. Une fonctionnalité disponible à un endroit ne l'est pas automatiquement dans toutes les interfaces Gemini.

Appli Gemini grand public (aide des applis Gemini) : conversations courantes, brouillons, résumés, questions-réponses multimodales et import de fichiers ou d'images lorsque ces fonctions sont disponibles. Les prompts en langage naturel conviennent bien ici. L'appli ne remplace pas les fonctions d'API comme system_instruction, JSON Schema ou les déclarations de fonctions.
Google AI Studio (aistudio.google.com) : expérimentation pour les développeurs avec les modèles de texte et multimodaux Gemini, Nano Banana, les modèles vidéo et les outils associés, avant d'intégrer un prompt à une appli.
API Gemini (index des modèles) : développement avec des modèles de texte et multimodaux, des modèles d'image et de vidéo, des instructions système, des sorties structurées, l'appel de fonctions, l'ancrage dans des sources et des fichiers en entrée. Les capacités sont précisées pour chaque code de modèle.
Vertex AI / Gemini Enterprise Agent Platform (présentation de l'IA générative) : déploiement en entreprise, gouvernance et ancrage dans l'écosystème Google Cloud. La console, IAM, la facturation et le calendrier de déploiement peuvent différer de ceux de l'API Gemini grand public.

Les capacités des interfaces produit et celles des API sont liées, mais pas identiques. Vérifiez toujours l'interface que vous utilisez réellement.

La checklist TCI-COEV pour les prompts Gemini

Ce guide utilise TCI-COEV : Tâche, Contexte, Inputs, Contraintes, Organisation de la sortie, Exemples et Vérification. Il s'agit d'une checklist pratique créée pour GetBetterPrompts, et non d'une norme du secteur. Des principes proches figurent dans la documentation de Google sur la conception des prompts et dans des fonctions d'API comme les instructions système, les schémas et les outils.

Task: [what to produce]
Context: [who it's for; known facts; do not invent X]
Inputs: [list attached files/images and what they are]
Constraints: [length, tone, exclusions]
Output structure: [bullets / table / JSON fields…]
Examples: [optional short sample]
Verification: [cite sources | validate JSON | check 3 facts | compare to checklist]

Ignorez les parties inutiles. Utilisez Vérification pour des contrôles observables : citations, validation du schéma, vérifications ponctuelles ou contrôle visuel. Ne demandez pas au modèle de révéler une chaîne de pensée cachée ou un raisonnement interne privé pour prouver qu'une réponse est correcte.

Certains modèles Gemini suivent un processus de réflexion interne : considérez-le comme un comportement du modèle, pas comme une méthode de vérification pour l'utilisateur. Consultez la documentation de Google sur le raisonnement.

Des prompts texte qui restent contrôlables

Pour les tâches de rédaction, commencez par la mission, puis indiquez les règles. Demandez le format nécessaire : paragraphes, listes à puces, tableau ou sections libellées. Si la conversation s'écarte de l'objectif, commencez un nouveau chat au lieu d'empiler des corrections contradictoires.

Faible :

Write about remote work.

Amélioré :

Task: Write a 200-word briefing for a team lead deciding whether to keep hybrid work.
Context: B2B SaaS, 40-person company, no HR legal advice.
Constraints: Neutral tone; 3 short sections with headings; no statistics unless labeled as illustrative.
Output structure: Heading + 2 bullets per section.
Verification: Flag any claim that would need a citation.

Pourquoi ce prompt est plus contrôlable : la tâche, le public, les exclusions, la structure et la vérification remplacent un sujet trop ouvert.

Exemple dans l'appli grand public : “I'm drafting a customer email. Keep it under 120 words, friendly, no emojis. Ask one clarifying question at the end if the refund policy is unclear. Here is the draft: …”

Pour découvrir des méthodes de rédaction transférables au-delà de Gemini, consultez Comment écrire de meilleurs prompts IA.

Fichiers, PDF et analyse de documents

Lorsque la source existe déjà sous forme de fichier, joignez-la au lieu de la paraphraser de mémoire. La documentation de Google sur la compréhension des documents décrit l'analyse de PDF par vision native pour les tâches qui tiennent compte de la mise en page, notamment le texte, les tableaux et les graphiques.

Préférez l'API Files pour les documents volumineux ou réutilisés. Les limites de pages et de taille évoluent : vérifiez-les sur la page du service que vous utilisez.

Faible :

Summarize this PDF.

Amélioré :

You are analyzing the attached PDF (Q2 product roadmap).
Task: Extract decisions, owners, and open questions.
Constraints: Use only information visible in the PDF; if a field is missing, write "Not stated".
Output structure: Markdown table with columns Decision | Owner | Due date | Open question.
Verification: Quote a short phrase from the PDF next to each Decision.

Pourquoi ce prompt est plus contrôlable : le modèle s'appuie sur le fichier, toute invention est interdite et chaque affirmation est accompagnée d'un extrait vérifiable.

Compréhension d'images et entrées multimodales

La compréhension d'images analyse une image existante. Ce n'est pas de la génération d'images. La documentation de Google sur la compréhension d'images couvre la création de légendes et les questions-réponses visuelles. Les prompts multimodaux fonctionnent mieux lorsque vous libellez chaque entrée et précisez ce qui doit provenir de l'image ou de vos notes.

Prompt faible pour comprendre une image :

What's in this image?

Amélioré :

Attached: store-shelf photo.
Task: List visible SKUs and any price tags you can read.
Constraints: Do not guess occluded text; say "unreadable" instead.
Output structure: Numbered list: item name | estimated facing count | price text or unreadable.
Verification: Separate "Visible" from "Inferred" if you must interpret packaging.

Pourquoi ce prompt est plus contrôlable : il sépare la perception de l'interprétation et limite les hallucinations concernant les textes illisibles.

Prompt multimodal faible :

Compare these and write ads.

Amélioré :

Inputs: (1) product photo of a matte black water bottle; (2) pasted brand voice notes below.
Task: Propose 3 Instagram captions.
Constraints: No health claims; mention dishwasher-safe only if visible on the label in the photo; max 40 words each.
Output structure: Caption | on-image text overlay ≤6 words | rationale (1 sentence).
Verification: Mark any detail not visible in the photo as "from brand notes" or omit it.

Pourquoi ce prompt est plus contrôlable : les affirmations sont rattachées à des entrées précises, et les faits visibles restent distincts des notes fournies.

Instructions système, sorties structurées et outils

Instructions système : dans l'API Gemini, placez les règles durables de rôle, de ton et de format dans system_instruction, puis gardez la tâche propre à chaque tour dans l'entrée utilisateur. Consultez la documentation de Google sur la génération de texte et le guide de Vertex sur les instructions système.

Dans l'appli grand public, les règles durables et la demande du moment sont souvent réunies dans un même message. Des fonctions produit apparentées, comme les instructions personnalisées ou les Gems, sont utiles, mais elles ne sont pas identiques à system_instruction dans l'API.

Structure pensée pour l'API :

system_instruction : “You rewrite customer-support email drafts. Tone: plain, friendly, no emojis. Never invent policy. If policy is missing, ask one clarifying question instead of asserting terms.”
Entrée utilisateur : “Rewrite this draft under 120 words: …”

Pourquoi cette structure est plus contrôlable : les règles durables restent stables d'un tour à l'autre, tandis que chaque demande ne contient que le cas concerné.

Sorties structurées : lorsque vous avez besoin de champs lisibles par une machine, configurez une sortie structurée avec un JSON Schema dans l'API au lieu d'espérer que le JSON fourni dans le chat soit toujours analysable. Consultez la documentation sur les sorties structurées.

Faible (chat uniquement) :

Return JSON with the invoice fields.

Amélioré (contrat de champs pensé pour l'API) :

Fields: vendor (string), invoice_date (YYYY-MM-DD or null), total (number or null), currency (string or null), line_items (array of {description, amount})
Rule: null when not present; do not invent totals.

Pourquoi cette structure est plus contrôlable : des champs de schéma accompagnés d'une règle sur les valeurs nulles sont plus fiables qu'une demande ouverte comme « renvoie du JSON ».

Appel de fonctions / outils : le modèle peut proposer des appels d'outils, mais votre appli doit les déclarer et les exécuter. Consultez la documentation sur l'appel de fonctions. Le modèle n'exécute pas votre backend par magie.

Ancrage et vérification visible des sources : l'ancrage avec Google Search est un outil d'API capable de récupérer des sources web et de renvoyer des citations lorsqu'il est activé pour un modèle compatible. Les fonctions Search de l'appli grand public constituent une autre interface de contrôle. L'ancrage améliore la fiabilité factuelle, mais ne supprime pas la nécessité de vérifier vous-même les faits essentiels.

Génération d'images avec Nano Banana

Nano Banana est le nom donné par Google à la famille de génération d'images native de Gemini. La documentation officielle sur la génération d'images décrit actuellement plusieurs ID de modèles aux profils différents en matière de vitesse, de qualité, de références et de résolution, notamment Nano Banana Pro (gemini-3-pro-image), Nano Banana 2 (gemini-3.1-flash-image) et Nano Banana 2 Lite (gemini-3.1-flash-lite-image).

Choisissez un ID de modèle précis. Ne présentez pas « l'image Gemini » comme un ensemble unique de capacités.

Rédigez des phrases descriptives complètes qui précisent le sujet, le décor, la lumière, la composition, les exclusions et le format d'image lorsque l'interface l'accepte. Sur les modèles compatibles, procédez par itérations conversationnelles : générez une image, puis modifiez une seule variable à la fois.

Faible :

Make a cool cafe.

Amélioré :

A cozy coffee shop on a rainy afternoon, seen through a foggy window, with warm yellow light inside and blue-gray tones outside. No logos, no readable brand names, 3:2, warm interior / cool exterior contrast.

Pourquoi ce prompt est plus contrôlable : le sujet, la lumière, la composition, les exclusions et le ratio remplacent une demande esthétique vague.

Informations susceptibles d'évoluer, tirées de la documentation actuelle (vérifiez-les de nouveau avant de déployer un workflow) : les supports officiels décrivent la possibilité de combiner jusqu'à 14 images de référence, avec des quotas différents pour les objets, les personnages et les styles selon le modèle. Nano Banana 2 documente les résolutions 0.5K / 1K / 2K / 4K et des formats d'image supplémentaires. Lite est présenté comme limité à 1K et non optimisé pour les références multiples ou les retouches séquentielles en plusieurs tours.

Les images générées comportent un filigrane SynthID. Consultez les règles d'utilisation de Google avant tout workflow commercial impliquant des personnes réelles ou des éléments de marque.

Pour approfondir la création d'images, consultez le Guide prompt image IA : style et astuces et le guide Midjourney V8.1 et Nano Banana : cheat sheet prompts. Parcourez aussi les prompts photo Gemini IA prêts à copier avec exemples, ou testez vos prompts dans l'outil de prompts image.

Compréhension vidéo et génération vidéo

La compréhension vidéo analyse une séquence existante pour la décrire, répondre à des questions ou en extraire des moments. Consultez la documentation de Google sur la compréhension vidéo. La génération vidéo crée une nouvelle séquence à partir de texte, d'images ou de workflows apparentés. Ne réunissez pas ces deux fonctions sous l'appellation « vidéo Gemini ».

D'après la documentation actuelle de l'API Gemini sur la génération vidéo, Google recommande Gemini Omni Flash comme modèle par défaut pour générer des vidéos, en mettant en avant le raisonnement à partir de plusieurs entrées et la retouche conversationnelle en plusieurs tours. Utilisez Veo 3.1 lorsque vous avez besoin de fonctions comme l'extension de scène, le contrôle de la dernière image ou l'intégration à un pipeline existant.

Dans l'index des modèles, Omni Flash peut apparaître en Preview. Sa disponibilité et son statut peuvent évoluer.

La documentation actuelle de l'API Gemini sur Veo 3.1 décrit des sorties d'environ 8 secondes en 720p, 1080p ou 4K avec audio généré nativement, l'extension vidéo, des workflows avec première et dernière images, jusqu'à trois images de référence, ainsi que les formats paysage 16:9 et portrait 9:16. Il s'agit d'options documentées propres à Veo, et non de limites universelles pour la vidéo Gemini.

Exemple avec une seule action continue :

A ceramic mug fills with steaming coffee as morning light streams through a kitchen window. Slow push-in on the mug. Warm, golden tones.

Pour la structure SCAAL, la continuité, l'apprentissage des formats d'image et le choix d'un workflow entre plusieurs fournisseurs sans classement, consultez le Guide des prompts vidéo IA : structure, mouvement et choix du modèle. Cette section reste centrée sur l'accès à Gemini et sur la différence entre compréhension et génération.

Choisir le modèle et le contexte sans classement

Choisissez un modèle en fonction de la tâche et de sa fiche technique, pas d'un classement de qualité. Les modèles de compréhension textuelle et multimodale, les modèles d'image Nano Banana et les modèles vidéo sont des outils différents. Exemple uniquement : la page du modèle gemini-3.5-flash indique une limite d'entrée de 1 048 576 tokens et une limite de sortie de 65 536 tokens.

Les modèles d'image documentent des fenêtres plus petites. N'annoncez jamais une taille de contexte universelle pour Gemini.

D'après la présentation de l'API Interactions publiée par Google en juin 2026, Interactions est disponible de manière générale et recommandé pour les nouveaux projets. generateContent reste pris en charge. La parité des fonctions et les mentions Preview évoluent : consultez la documentation du parcours d'API que vous appelez.

Ce guide ne classe pas Gemini par rapport aux autres fournisseurs. Rédigez une structure transférable, avec tâche, entrées, contraintes et vérification, puis adaptez-la à l'interface et au modèle utilisés ce jour-là.

Exemples faibles et améliorés

Les sections précédentes présentent déjà des prompts faibles puis améliorés pour le texte, les documents, la compréhension d'images, les publicités multimodales, les champs structurés, Nano Banana et la vidéo. La méthode reste la même :

nommer une condition de réussite
libeller les entrées
interdire l'invention lorsque l'ancrage est important
préciser la structure de sortie ou le schéma
définir une étape de vérification observable

Si le résultat n'est pas satisfaisant, modifiez une seule variable : des contraintes plus strictes, une forme de sortie plus claire, un modèle mieux adapté ou un nouveau chat. N'ajoutez pas cinq nouveaux objectifs dans le même tour.

Résoudre les problèmes courants

Faits non étayés ou inventés : exigez la mention “Not stated”, joignez les fichiers sources, activez l'ancrage Search lorsque c'est pertinent, demandez des citations et vérifiez les informations hors du modèle.
Format ignoré : répétez la structure de sortie, utilisez JSON Schema dans l'API ou commencez un nouveau chat si la conversation s'est écartée du sujet.
Prompts surchargés : séparez les tâches, gardez une seule condition de réussite TCI-COEV et procédez par itérations.
Instructions contradictoires : placez les règles durables dans l'instruction système, résolvez explicitement les conflits et supprimez les doublons.
Ancrage insuffisant dans les sources : joignez les documents, utilisez l'outil d'ancrage, demandez des citations ou des URL et faites vérifier les affirmations essentielles par une personne.
Capacités inadaptées : n'attendez pas du chat qu'il garantisse la validation d'un schéma, d'un modèle de texte qu'il génère des images, de Veo qu'il soit l'option conversationnelle par défaut lorsque Omni Flash est présenté comme le parcours de génération par défaut, ni des modèles d'image Lite qu'ils assurent de lourdes retouches séquentielles avec de nombreuses références. Faites correspondre tâche → interface → fiche du modèle.

Ne demandez pas au modèle de révéler une chaîne de pensée cachée pour vérifier sa réponse. Utilisez plutôt l'étape Vérification de TCI-COEV.

Checklist de vérification avant envoi

La tâche et la condition de réussite sont explicites
Le contexte précise ce qui ne doit pas être inventé
Les entrées sont jointes ou collées, puis libellées
Les contraintes couvrent la longueur, le ton et les exclusions
La structure de sortie est précisée, ou le schéma est configuré dans l'API
L'interface correspond à la tâche : appli, Studio, API ou Vertex
Les capacités du modèle correspondent à la tâche : texte, génération d'images, génération vidéo ou compréhension
Les limites susceptibles d'évoluer, comme la durée, la résolution, les références ou les tokens, ont été vérifiées le jour même sur la page officielle du modèle ou de la documentation
L'ancrage ou les outils sont activés uniquement lorsqu'ils sont nécessaires et disponibles
L'étape de vérification est définie : citations, validation du schéma, vérification ponctuelle ou contrôle visuel
Une seule variable a été choisie pour être modifiée si le premier résultat échoue
Aucune chaîne de pensée cachée n'est demandée

À retenir

Promptez Gemini avec une tâche claire, des entrées libellées, des contraintes et une forme de sortie vérifiable. Choisissez l'interface et le modèle adaptés au texte, aux fichiers, à la compréhension d'images, à la génération Nano Banana, à la compréhension vidéo ou à la génération vidéo.

Considérez Omni Flash et Veo, l'appli et l'API, ainsi que la compréhension et la génération comme des choix distincts. Vérifiez vous-même les résultats importants, puis améliorez le prompt en ne changeant qu'un élément à la fois.

Améliorez votre prompt dans l'outil texte

Comment prompter Google Gemini : texte, fichiers, images et vidéo

GetBetterPrompts Editorial Team · Mis à jour le 14 juillet 2026

Task: [what to produce] Context: [who it's for; known facts; do not invent X] Inputs: [list attached files/images and what they are] Constraints: [length, tone, exclusions] Output structure: [bullets / table / JSON fields…] Examples: [optional short sample] Verification: [cite sources | validate JSON | check 3 facts | compare to checklist]

Task: Write a 200-word briefing for a team lead deciding whether to keep hybrid work. Context: B2B SaaS, 40-person company, no HR legal advice. Constraints: Neutral tone; 3 short sections with headings; no statistics unless labeled as illustrative. Output structure: Heading + 2 bullets per section. Verification: Flag any claim that would need a citation.

You are analyzing the attached PDF (Q2 product roadmap). Task: Extract decisions, owners, and open questions. Constraints: Use only information visible in the PDF; if a field is missing, write "Not stated". Output structure: Markdown table with columns Decision | Owner | Due date | Open question. Verification: Quote a short phrase from the PDF next to each Decision.

Attached: store-shelf photo. Task: List visible SKUs and any price tags you can read. Constraints: Do not guess occluded text; say "unreadable" instead. Output structure: Numbered list: item name | estimated facing count | price text or unreadable. Verification: Separate "Visible" from "Inferred" if you must interpret packaging.

Inputs: (1) product photo of a matte black water bottle; (2) pasted brand voice notes below. Task: Propose 3 Instagram captions. Constraints: No health claims; mention dishwasher-safe only if visible on the label in the photo; max 40 words each. Output structure: Caption | on-image text overlay ≤6 words | rationale (1 sentence). Verification: Mark any detail not visible in the photo as "from brand notes" or omit it.

Fields: vendor (string), invoice_date (YYYY-MM-DD or null), total (number or null), currency (string or null), line_items (array of {description, amount}) Rule: null when not present; do not invent totals.

Comment prompter Google Gemini : texte, fichiers, images et vidéo

Ce que signifie prompter Gemini aujourd'hui

Choisir la bonne interface Gemini

La checklist TCI-COEV pour les prompts Gemini

Des prompts texte qui restent contrôlables

Fichiers, PDF et analyse de documents

Compréhension d'images et entrées multimodales

Instructions système, sorties structurées et outils

Génération d'images avec Nano Banana

Compréhension vidéo et génération vidéo

Choisir le modèle et le contexte sans classement

Exemples faibles et améliorés

Résoudre les problèmes courants

Checklist de vérification avant envoi

À retenir

Sources

Comment prompter Google Gemini : texte, fichiers, images et vidéo

Ce que signifie prompter Gemini aujourd'hui

Choisir la bonne interface Gemini

La checklist TCI-COEV pour les prompts Gemini

Des prompts texte qui restent contrôlables

Fichiers, PDF et analyse de documents

Compréhension d'images et entrées multimodales

Instructions système, sorties structurées et outils

Génération d'images avec Nano Banana

Compréhension vidéo et génération vidéo

Choisir le modèle et le contexte sans classement

Exemples faibles et améliorés

Résoudre les problèmes courants

Checklist de vérification avant envoi

À retenir

Sources