Como criar prompts no Gemini: texto, arquivos, imagens e vídeo

GetBetterPrompts Editorial Team · Atualizado em 14 de julho de 2026

O Google Gemini é uma família de modelos e interfaces de produto para texto, arquivos, imagens e vídeo, não um único chatbot com recursos intercambiáveis. Este guia mostra como escrever prompts controláveis no app Gemini e nas APIs para desenvolvedores, como instruções do sistema e saídas estruturadas diferem de uma conversa comum e como a geração de imagens com Nano Banana e as opções atuais de vídeo se encaixam nesse conjunto, sem tratar todos os modelos de mídia do Google como a mesma ferramenta.

O que significa criar prompts no Gemini hoje

Para criar prompts eficazes no Gemini, defina a tarefa exata, anexe ou cole as entradas que o modelo deve usar, estabeleça restrições e uma estrutura de saída e depois confira o resultado com base nesses requisitos. Trate a primeira resposta como um rascunho. As estratégias de criação de prompts do Google destacam instruções claras, restrições e um formato de resposta explícito, além de tratarem a criação de prompts como um processo iterativo.

Gemini não é um único produto. O app Gemini para consumidores, o Google AI Studio, a API Gemini e o Vertex AI apresentam conceitos semelhantes, mas oferecem controles diferentes. Compreender imagens não é o mesmo que gerar imagens com Nano Banana.

Compreender vídeos não é o mesmo que gerar vídeos. A ajuda dos apps Gemini também informa que o Gemini pode cometer erros, então verifique respostas importantes.

Esta página é específica dos produtos Gemini. Para conhecer os fundamentos gerais, consulte O que é prompt engineering? Guia prático.

Para aprender técnicas de vídeo que funcionam em diferentes ferramentas, consulte o Guia de prompts de vídeo IA: estrutura, movimento e escolha de modelo. Para fundamentos de imagem que não dependem de um modelo, consulte o Guia de prompts de imagem IA: dicas e estilos.

Escolha a interface certa do Gemini

Escolha a interface adequada ao trabalho. Um recurso disponível em um lugar não está automaticamente disponível em todas as interfaces do Gemini.

App Gemini para consumidores (ajuda dos apps Gemini): conversas do dia a dia, rascunhos, resumos, perguntas e respostas multimodais e envio de arquivos e imagens, quando disponível. Prompts em linguagem natural funcionam bem aqui. O app não substitui system_instruction, JSON Schema ou declarações de funções da API.
Google AI Studio (aistudio.google.com): ambiente para desenvolvedores testarem modelos de texto e multimodais do Gemini, Nano Banana, modelos de vídeo e ferramentas relacionadas antes de levar um prompt para um aplicativo.
API Gemini (índice de modelos): permite criar soluções com modelos de texto e multimodais, modelos de imagem e vídeo, instruções do sistema, saídas estruturadas, chamadas de função, grounding e entradas de arquivos. As matrizes de recursos são específicas de cada código de modelo.
Vertex AI / Gemini Enterprise Agent Platform (visão geral da IA generativa): implantação empresarial, governança e grounding na plataforma Google Cloud. Console, IAM, cobrança e cronogramas de lançamento podem ser diferentes dos encontrados na API Gemini para consumidores.

Os recursos das interfaces dos produtos e os recursos das APIs estão relacionados, mas não são idênticos. Sempre confira a interface que você realmente está usando.

O checklist TCI-COEV para prompts do Gemini

Este guia usa TCI-COEV: Tarefa, Contexto, Entradas, Restrições, Estrutura de saída, Exemplos e Verificação. É um checklist prático criado pelo GetBetterPrompts, não um padrão do setor. Ideias relacionadas aparecem na documentação do Google sobre criação de prompts e em recursos de API como instruções do sistema, schemas e ferramentas.

Task: [what to produce]
Context: [who it's for; known facts; do not invent X]
Inputs: [list attached files/images and what they are]
Constraints: [length, tone, exclusions]
Output structure: [bullets / table / JSON fields…]
Examples: [optional short sample]
Verification: [cite sources | validate JSON | check 3 facts | compare to checklist]

Ignore os itens que não se aplicam. Use a Verificação para checagens visíveis: citações, validação de schema, conferências por amostragem ou controle visual de qualidade. Não peça que o modelo revele uma cadeia de pensamento oculta ou um raciocínio interno privado como prova de que uma resposta está correta.

Alguns modelos Gemini usam um processo interno de pensamento. Trate isso como um comportamento do modelo, não como um método de verificação para o usuário. Consulte a documentação sobre pensamento do Google.

Prompts de texto que permanecem controláveis

Em tarefas de texto, apresente primeiro o trabalho e depois as regras. Peça o formato necessário: parágrafos, tópicos, tabela ou seções identificadas. Se a conversa perder o foco, inicie um novo chat em vez de acumular correções conflitantes.

Fraco:

Write about remote work.

Melhorado:

Task: Write a 200-word briefing for a team lead deciding whether to keep hybrid work.
Context: B2B SaaS, 40-person company, no HR legal advice.
Constraints: Neutral tone; 3 short sections with headings; no statistics unless labeled as illustrative.
Output structure: Heading + 2 bullets per section.
Verification: Flag any claim that would need a citation.

Por que este prompt é mais controlável: tarefa, público, exclusões, estrutura e verificação substituem um tema aberto.

Exemplo para o app:

I'm drafting a customer email. Keep it under 120 words, friendly, no emojis. Ask one clarifying question at the end if the refund policy is unclear. Here is the draft: …

Para conhecer padrões de escrita que funcionam além do Gemini, consulte Como escrever prompts melhores para IA.

Arquivos, PDFs e análise de documentos

Quando a fonte já existe como arquivo, anexe-a em vez de tentar descrevê-la de memória. A documentação do Google sobre compreensão de documentos descreve a análise de PDFs com visão nativa para tarefas que consideram o layout, como texto, tabelas e gráficos. Prefira a Files API para documentos grandes ou reutilizados.

Os limites de páginas e tamanho podem mudar. Confirme-os na página do recurso que você usa.

Fraco:

Summarize this PDF.

Melhorado:

You are analyzing the attached PDF (Q2 product roadmap).
Task: Extract decisions, owners, and open questions.
Constraints: Use only information visible in the PDF; if a field is missing, write "Not stated".
Output structure: Markdown table with columns Decision | Owner | Due date | Open question.
Verification: Quote a short phrase from the PDF next to each Decision.

Por que este prompt é mais controlável: o modelo se baseia no arquivo, é proibido inventar informações e cada afirmação tem um trecho que pode ser conferido.

Compreensão de imagens e entradas multimodais

A compreensão de imagens analisa uma imagem existente. Não é geração de imagens. A documentação do Google sobre compreensão de imagens aborda a criação de descrições e respostas a perguntas visuais. Prompts multimodais funcionam melhor quando você identifica cada entrada e informa o que deve vir da imagem e o que deve vir das suas anotações.

Prompt fraco para compreensão de imagem:

What's in this image?

Melhorado:

Attached: store-shelf photo.
Task: List visible SKUs and any price tags you can read.
Constraints: Do not guess occluded text; say "unreadable" instead.
Output structure: Numbered list: item name | estimated facing count | price text or unreadable.
Verification: Separate "Visible" from "Inferred" if you must interpret packaging.

Por que este prompt é mais controlável: ele separa percepção de inferência e limita alucinações sobre textos ilegíveis.

Prompt multimodal fraco:

Compare these and write ads.

Melhorado:

Inputs: (1) product photo of a matte black water bottle; (2) pasted brand voice notes below.
Task: Propose 3 Instagram captions.
Constraints: No health claims; mention dishwasher-safe only if visible on the label in the photo; max 40 words each.
Output structure: Caption | on-image text overlay ≤6 words | rationale (1 sentence).
Verification: Mark any detail not visible in the photo as "from brand notes" or omit it.

Por que este prompt é mais controlável: as afirmações ficam vinculadas a entradas específicas, e os fatos visíveis permanecem separados das anotações fornecidas.

Instruções do sistema, saídas estruturadas e ferramentas

Instruções do sistema: na API Gemini, coloque regras permanentes de função, tom e formato em system_instruction e mantenha a tarefa específica do turno na entrada do usuário. Consulte a documentação do Google sobre geração de texto e as orientações do Vertex sobre instruções do sistema.

O app para consumidores costuma combinar regras permanentes e o caso específico em uma única mensagem. Recursos relacionados, como instruções personalizadas ou Gems, são úteis, mas não são idênticos ao system_instruction da API.

Padrão voltado à API:

system_instruction: You rewrite customer-support email drafts. Tone: plain, friendly, no emojis. Never invent policy. If policy is missing, ask one clarifying question instead of asserting terms.
Entrada do usuário: Rewrite this draft under 120 words: …

Por que este padrão é mais controlável: as regras permanentes continuam estáveis entre os turnos, enquanto cada solicitação contém apenas o caso específico.

Saídas estruturadas: quando você precisa de campos legíveis por máquina, configure uma saída estruturada com JSON Schema na API em vez de esperar que o JSON de um chat seja sempre analisado corretamente. Consulte saídas estruturadas.

Fraco (somente no chat):

Return JSON with the invoice fields.

Melhorado (contrato de campos voltado à API):

Fields: vendor (string), invoice_date (YYYY-MM-DD or null), total (number or null), currency (string or null), line_items (array of {description, amount})
Rule: null when not present; do not invent totals.

Por que este padrão é mais controlável: campos definidos por schema e uma política para valores nulos são melhores que pedidos abertos como “retorne JSON”.

Chamadas de função e ferramentas: o modelo pode propor chamadas de ferramentas, mas seu aplicativo precisa declará-las e executá-las. Consulte chamadas de função. O modelo não executa seu backend automaticamente.

Grounding e verificação de fontes visíveis: o Grounding com a Pesquisa Google é uma ferramenta de API que pode buscar fontes na web e retornar citações quando habilitada em um modelo compatível. Os recursos de Pesquisa do app para consumidores pertencem a outra interface de controle. O grounding ajuda a aumentar a precisão factual, mas não elimina a necessidade de você verificar fatos importantes.

Geração de imagens com Nano Banana

Nano Banana é o nome dado pelo Google à família de geração nativa de imagens do Gemini. A documentação oficial sobre geração de imagens descreve atualmente vários IDs de modelo com perfis diferentes de velocidade, qualidade, referências e resolução, incluindo Nano Banana Pro (gemini-3-pro-image), Nano Banana 2 (gemini-3.1-flash-image) e Nano Banana 2 Lite (gemini-3.1-flash-lite-image).

Escolha um ID de modelo específico. Não trate “imagem do Gemini” como se fosse um único conjunto de recursos.

Escreva o prompt com frases descritivas completas: assunto, ambiente, iluminação, composição, exclusões e proporção da imagem, quando a interface aceitar esse parâmetro. Nos modelos compatíveis, faça ajustes em conversa: gere a imagem e depois altere uma variável por vez.

Fraco:

Make a cool cafe.

Melhorado:

A cozy coffee shop on a rainy afternoon, seen through a foggy window, with warm yellow light inside and blue-gray tones outside. No logos, no readable brand names, 3:2, warm interior / cool exterior contrast.

Por que este prompt é mais controlável: assunto, iluminação, composição, exclusões e proporção substituem um pedido estético vago.

Observações sobre recursos atuais que podem mudar, confira novamente antes de lançar um fluxo de trabalho: os materiais oficiais descrevem a combinação de até 14 imagens de referência, com limites diferentes de objetos, personagens e estilos conforme o modelo; a documentação do Nano Banana 2 informa resoluções de 0,5K, 1K, 2K e 4K, além de outras proporções; o Lite é documentado como limitado a 1K e não otimizado para várias referências ou edição sequencial em múltiplos turnos. As imagens geradas incluem uma marca d'água SynthID. Consulte as políticas de uso do Google antes de criar fluxos de trabalho comerciais que envolvam pessoas reais ou ativos de marcas.

Para se aprofundar na criação de imagens, consulte o Guia de prompts de imagem IA: dicas e estilos e o Midjourney V8.1 e Nano Banana: cheat sheet de prompts. Explore também prompts de foto Gemini IA prontos para copiar com exemplos, ou teste prompts na ferramenta de prompts de imagem.

Compreensão de vídeo e geração de vídeo

A compreensão de vídeo analisa um clipe existente para descrevê-lo, responder a perguntas ou extrair momentos. Consulte a documentação do Google sobre compreensão de vídeo. A geração de vídeo cria um novo clipe a partir de texto, imagens ou fluxos de trabalho relacionados. Não reduza as duas funções a “vídeo do Gemini”.

De acordo com a documentação atual da API Gemini sobre geração de vídeo, o Google recomenda o Gemini Omni Flash como modelo padrão para gerar vídeos e destaca o raciocínio com múltiplas entradas e a edição conversacional em vários turnos. Use o Veo 3.1 quando precisar de recursos como extensão de cena, controle do último frame ou integração com pipelines legados.

No índice de modelos, o Omni Flash pode aparecer como Preview. Considere a disponibilidade e o status como informações que podem mudar.

A documentação atual da API Gemini sobre o Veo 3.1 descreve saídas de cerca de 8 segundos em 720p, 1080p ou 4K, com áudio gerado nativamente, extensão de vídeo, fluxos com primeiro e último frames, até três imagens de referência e orientação horizontal 16:9 ou vertical 9:16. Essas são opções documentadas específicas do Veo, não limites universais de vídeo do Gemini.

Exemplo de uma ação contínua:

A ceramic mug fills with steaming coffee as morning light streams through a kitchen window. Slow push-in on the mug. Warm, golden tones.

Para aprender a estrutura SCAAL, continuidade, proporção da imagem e seleção de fluxos entre fornecedores sem rankings, consulte o Guia de prompts de vídeo IA: estrutura, movimento e escolha de modelo. Mantenha esta seção concentrada no acesso pelo Gemini e na diferença entre compreensão e geração.

Seleção de modelo e contexto sem rankings

Escolha um modelo com base na tarefa e na ficha do modelo, não em um ranking de qualidade. Modelos de compreensão de texto e multimodal, modelos de imagem Nano Banana e modelos de vídeo são ferramentas diferentes. Apenas como exemplo, a página do modelo gemini-3.5-flash informa um limite de entrada de 1.048.576 tokens e um limite de saída de 65.536 tokens.

Modelos de imagem documentam janelas menores. Nunca apresente um único tamanho de contexto como universal para o Gemini.

Segundo a visão geral da Interactions API publicada pelo Google em junho de 2026, a Interactions está disponível de forma geral e é recomendada para novos projetos; generateContent continua compatível. A equivalência de recursos e os indicadores de Preview mudam. Leia a documentação do caminho de API que você usa.

Este guia não compara o Gemini com outros fornecedores em um ranking. Escreva uma estrutura portátil, com tarefa, entradas, restrições e verificação, e depois adapte-a à interface e ao modelo que você usar naquele momento.

Exemplos fracos e melhorados

As seções anteriores já apresentam prompts fracos e melhorados para texto, documentos, compreensão de imagens, anúncios multimodais, campos estruturados, Nano Banana e vídeo. O padrão é o mesmo em todos os casos:

defina uma condição de sucesso
identifique as entradas
proíba invenções quando a fundamentação em fontes for importante
especifique a estrutura de saída ou o schema
defina uma etapa de verificação visível

Se o resultado não funcionar, altere uma variável: restrições mais específicas, um formato de saída mais claro, um modelo mais adequado ou um novo chat. Não acrescente cinco novos objetivos no mesmo turno.

Solução de problemas

Fatos sem apoio ou inventados: exija “Não informado”, anexe os arquivos de origem, habilite o grounding com a Pesquisa quando for adequado, peça citações e verifique as informações fora do modelo.
Formatação ignorada: repita a estrutura de saída, use JSON Schema na API ou inicie um novo chat se a conversa perdeu o foco.
Prompts sobrecarregados: divida as tarefas, mantenha uma condição de sucesso TCI-COEV e faça ajustes em etapas.
Instruções conflitantes: coloque regras permanentes nas instruções do sistema, resolva conflitos explicitamente e remova duplicações.
Pouca fundamentação nas fontes: anexe documentos, use a ferramenta de grounding, peça citações ou URLs e confira manualmente as afirmações importantes.
Recurso incompatível com a tarefa: não espere que o chat garanta a validação de um schema, que um modelo de texto gere imagens, que o Veo seja o padrão conversacional quando o Omni Flash está documentado como caminho padrão de geração ou que modelos de imagem Lite processem edições sequenciais complexas com muitas referências. Faça a correspondência entre tarefa → interface → ficha do modelo.

Não peça que o modelo revele uma cadeia de pensamento oculta como forma de verificação. Use a etapa de Verificação do TCI-COEV.

Checklist de verificação antes do envio

A tarefa e a condição de sucesso estão explícitas
O contexto informa o que não deve ser inventado
As entradas estão anexadas ou coladas e foram identificadas
As restrições abrangem tamanho, tom e exclusões
A estrutura de saída foi especificada ou o schema foi configurado na API
A interface corresponde à tarefa: app, Studio, API ou Vertex
Os recursos do modelo correspondem à tarefa: texto, geração de imagem, geração de vídeo ou compreensão
Os limites que podem mudar, como duração, resolução, referências e tokens, foram conferidos no mesmo dia na página oficial do modelo ou da documentação
O grounding ou as ferramentas estão habilitados somente quando são necessários e estão disponíveis
A etapa de verificação foi definida: citações, validação de schema, conferência por amostragem ou controle visual de qualidade
Uma variável foi escolhida para alteração caso o primeiro resultado não funcione
Não há pedido para revelar uma cadeia de pensamento oculta

Principal conclusão

Crie prompts para o Gemini com uma tarefa clara, entradas identificadas, restrições e um formato de saída verificável. Escolha a interface e o modelo certos para texto, arquivos, compreensão de imagens, geração com Nano Banana, compreensão de vídeo ou geração de vídeo.

Trate Omni Flash e Veo, app e API, compreensão e geração como escolhas distintas. Verifique você mesmo os resultados importantes e depois melhore o prompt com uma alteração por vez.

Melhore seu prompt na ferramenta de texto

Como criar prompts no Gemini: texto, arquivos, imagens e vídeo

GetBetterPrompts Editorial Team · Atualizado em 14 de julho de 2026

Task: [what to produce] Context: [who it's for; known facts; do not invent X] Inputs: [list attached files/images and what they are] Constraints: [length, tone, exclusions] Output structure: [bullets / table / JSON fields…] Examples: [optional short sample] Verification: [cite sources | validate JSON | check 3 facts | compare to checklist]

Task: Write a 200-word briefing for a team lead deciding whether to keep hybrid work. Context: B2B SaaS, 40-person company, no HR legal advice. Constraints: Neutral tone; 3 short sections with headings; no statistics unless labeled as illustrative. Output structure: Heading + 2 bullets per section. Verification: Flag any claim that would need a citation.

You are analyzing the attached PDF (Q2 product roadmap). Task: Extract decisions, owners, and open questions. Constraints: Use only information visible in the PDF; if a field is missing, write "Not stated". Output structure: Markdown table with columns Decision | Owner | Due date | Open question. Verification: Quote a short phrase from the PDF next to each Decision.

Attached: store-shelf photo. Task: List visible SKUs and any price tags you can read. Constraints: Do not guess occluded text; say "unreadable" instead. Output structure: Numbered list: item name | estimated facing count | price text or unreadable. Verification: Separate "Visible" from "Inferred" if you must interpret packaging.

Inputs: (1) product photo of a matte black water bottle; (2) pasted brand voice notes below. Task: Propose 3 Instagram captions. Constraints: No health claims; mention dishwasher-safe only if visible on the label in the photo; max 40 words each. Output structure: Caption | on-image text overlay ≤6 words | rationale (1 sentence). Verification: Mark any detail not visible in the photo as "from brand notes" or omit it.

Fields: vendor (string), invoice_date (YYYY-MM-DD or null), total (number or null), currency (string or null), line_items (array of {description, amount}) Rule: null when not present; do not invent totals.

Como criar prompts no Gemini: texto, arquivos, imagens e vídeo

O que significa criar prompts no Gemini hoje

Escolha a interface certa do Gemini

O checklist TCI-COEV para prompts do Gemini

Prompts de texto que permanecem controláveis

Arquivos, PDFs e análise de documentos

Compreensão de imagens e entradas multimodais

Instruções do sistema, saídas estruturadas e ferramentas

Geração de imagens com Nano Banana

Compreensão de vídeo e geração de vídeo

Seleção de modelo e contexto sem rankings

Exemplos fracos e melhorados

Solução de problemas

Checklist de verificação antes do envio

Principal conclusão

Fontes

Como criar prompts no Gemini: texto, arquivos, imagens e vídeo

O que significa criar prompts no Gemini hoje

Escolha a interface certa do Gemini

O checklist TCI-COEV para prompts do Gemini

Prompts de texto que permanecem controláveis

Arquivos, PDFs e análise de documentos

Compreensão de imagens e entradas multimodais

Instruções do sistema, saídas estruturadas e ferramentas

Geração de imagens com Nano Banana

Compreensão de vídeo e geração de vídeo

Seleção de modelo e contexto sem rankings

Exemplos fracos e melhorados

Solução de problemas

Checklist de verificação antes do envio

Principal conclusão

Fontes