Cómo hacer prompts en Gemini: texto, archivos, imágenes y vídeo

GetBetterPrompts Editorial Team · Actualizado el 14 de julio de 2026

Google Gemini es una familia de modelos y productos para trabajar con texto, archivos, imágenes y vídeo, no un único chatbot intercambiable. Esta guía te enseña a escribir prompts controlables en la app de Gemini y en las API para desarrolladores, explica en qué se diferencian las instrucciones del sistema y las salidas estructuradas de un chat normal, y sitúa la generación de imágenes con Nano Banana y las opciones actuales de vídeo sin tratar todos los modelos multimedia de Google como si fueran la misma herramienta.

Qué significa hacer prompts en Gemini hoy

Para hacer prompts eficaces en Gemini, indica la tarea exacta, adjunta o pega las entradas que debe usar el modelo, define las restricciones y la estructura de salida, y después comprueba el resultado con esos requisitos. Trata la primera respuesta como un borrador. Las estrategias de diseño de prompts de Google destacan las instrucciones claras, las restricciones y un formato de respuesta explícito, y plantean la creación de prompts como un proceso iterativo.

Gemini no es un solo producto. La app de Gemini para consumidores, Google AI Studio, la Gemini API y Vertex AI comparten algunas ideas, pero ofrecen controles distintos. Comprender imágenes no es lo mismo que generarlas con Nano Banana.

Comprender vídeo no es lo mismo que generarlo. La ayuda de Gemini Apps también advierte que Gemini puede cometer errores, así que comprueba las respuestas importantes.

Esta página se centra en los productos de Gemini. Para aprender los fundamentos generales, consulta Qué es prompt engineering: guía práctica.

Para aprender técnicas de vídeo que sirven con distintos proveedores, consulta la Guía de prompts de vídeo IA: estructura, movimiento y elección de modelo. Para conocer los fundamentos de imagen independientes del modelo, consulta la Guía de prompts de imagen IA: tips y estilos.

Elige la superficie de Gemini adecuada

Elige la superficie que corresponda a tu tarea. Que una función exista en un producto no significa que esté disponible automáticamente en todas las interfaces de Gemini.

App de Gemini para consumidores (ayuda de Gemini Apps): chat cotidiano, borradores, resúmenes, preguntas y respuestas multimodales, y subida de archivos e imágenes donde esté habilitada. Los prompts en lenguaje natural funcionan bien aquí. No sustituye a system_instruction, JSON Schema ni las declaraciones de funciones de la API.
Google AI Studio (aistudio.google.com): permite experimentar como desarrollador con modelos de texto y multimodales de Gemini, Nano Banana, modelos de vídeo y herramientas relacionadas antes de integrar un prompt en una app.
Gemini API (índice de modelos): permite crear soluciones con modelos de texto y multimodales, modelos de imagen y vídeo, instrucciones del sistema, salidas estructuradas, llamadas a funciones, grounding y entradas de archivos. Las matrices de capacidades dependen de cada código de modelo.
Vertex AI / Gemini Enterprise Agent Platform (descripción general de la IA generativa): despliegue empresarial, gobernanza y grounding dentro del ecosistema de Google Cloud. La consola, IAM, la facturación y los plazos de lanzamiento pueden diferir de la Gemini API para consumidores.

Las capacidades de las interfaces de producto y las de la API están relacionadas, pero no son idénticas. Comprueba siempre la superficie que utilizas realmente.

El checklist TCI-COEV para prompts de Gemini

Esta guía usa TCI-COEV: Tarea, Contexto, Inputs, Condiciones, Organización de la salida, Ejemplos y Verificación. Es un checklist práctico creado para GetBetterPrompts, no un estándar del sector. Encontrarás ideas relacionadas en la documentación de Google sobre diseño de prompts y en funciones de la API como las instrucciones del sistema, los esquemas y las herramientas.

Task: [what to produce]
Context: [who it's for; known facts; do not invent X]
Inputs: [list attached files/images and what they are]
Constraints: [length, tone, exclusions]
Output structure: [bullets / table / JSON fields…]
Examples: [optional short sample]
Verification: [cite sources | validate JSON | check 3 facts | compare to checklist]

Omite las partes vacías. Usa la Verificación para controles visibles: citas, validación del esquema, comprobaciones puntuales o revisión visual. No pidas al modelo que revele su cadena de pensamiento oculta ni su razonamiento interno privado como prueba de que una respuesta es correcta.

Algunos modelos de Gemini usan un proceso de pensamiento interno; trátalo como un comportamiento del modelo, no como un método de verificación para el usuario. Consulta la documentación de Google sobre thinking.

Prompts de texto que mantienen el control

Para tareas de texto, indica primero el trabajo y después las reglas. Pide el formato que necesitas: párrafos, viñetas, una tabla o secciones con etiquetas. Si la conversación se desvía, empieza un chat nuevo en lugar de acumular correcciones contradictorias.

Débil:

Write about remote work.

Mejorado:

Task: Write a 200-word briefing for a team lead deciding whether to keep hybrid work.
Context: B2B SaaS, 40-person company, no HR legal advice.
Constraints: Neutral tone; 3 short sections with headings; no statistics unless labeled as illustrative.
Output structure: Heading + 2 bullets per section.
Verification: Flag any claim that would need a citation.

Por qué ofrece más control: la tarea, el público, las exclusiones, la estructura y la verificación sustituyen un tema demasiado abierto.

Ejemplo para la app de consumo: “I'm drafting a customer email. Keep it under 120 words, friendly, no emojis. Ask one clarifying question at the end if the refund policy is unclear. Here is the draft: …”

Para aprender patrones de escritura que sirven más allá de Gemini, consulta Cómo escribir mejores prompts de IA (con ejemplos).

Archivos, PDF y análisis de documentos

Si la fuente ya existe como archivo, adjúntala en lugar de parafrasearla de memoria. La documentación de Google sobre comprensión de documentos explica el análisis de PDF con visión nativa para tareas que tienen en cuenta la maquetación, como interpretar texto, tablas y gráficos.

Para documentos grandes o reutilizados, es preferible usar la Files API. Los límites de páginas y tamaño cambian con el tiempo; confírmalos en la página correspondiente cuando vayas a utilizarla.

Débil:

Summarize this PDF.

Mejorado:

You are analyzing the attached PDF (Q2 product roadmap).
Task: Extract decisions, owners, and open questions.
Constraints: Use only information visible in the PDF; if a field is missing, write "Not stated".
Output structure: Markdown table with columns Decision | Owner | Due date | Open question.
Verification: Quote a short phrase from the PDF next to each Decision.

Por qué ofrece más control: el modelo se basa en el archivo, tiene prohibido inventar y acompaña cada afirmación con un fragmento comprobable.

Comprensión de imágenes y entrada multimodal

La comprensión de imágenes analiza una imagen existente. No es generación de imágenes. La documentación de Google sobre comprensión de imágenes cubre la creación de descripciones y las preguntas y respuestas visuales. Los prompts multimodales funcionan mejor cuando etiquetas cada entrada e indicas qué información debe proceder de la imagen y cuál de tus notas.

Prompt débil para comprender una imagen:

What's in this image?

Mejorado:

Attached: store-shelf photo.
Task: List visible SKUs and any price tags you can read.
Constraints: Do not guess occluded text; say "unreadable" instead.
Output structure: Numbered list: item name | estimated facing count | price text or unreadable.
Verification: Separate "Visible" from "Inferred" if you must interpret packaging.

Por qué ofrece más control: separa la percepción de la inferencia y limita las alucinaciones sobre texto ilegible.

Prompt multimodal débil:

Compare these and write ads.

Mejorado:

Inputs: (1) product photo of a matte black water bottle; (2) pasted brand voice notes below.
Task: Propose 3 Instagram captions.
Constraints: No health claims; mention dishwasher-safe only if visible on the label in the photo; max 40 words each.
Output structure: Caption | on-image text overlay ≤6 words | rationale (1 sentence).
Verification: Mark any detail not visible in the photo as "from brand notes" or omit it.

Por qué ofrece más control: vincula las afirmaciones a entradas concretas y mantiene separados los hechos observados de las notas proporcionadas.

Instrucciones del sistema, salidas estructuradas y herramientas

Instrucciones del sistema: en la Gemini API, coloca las reglas permanentes sobre rol, tono y formato en system_instruction, y deja la tarea específica de cada turno en la entrada del usuario. Consulta la documentación de Google sobre generación de texto y la guía de Vertex sobre instrucciones del sistema.

La app de consumo suele combinar las reglas permanentes y la petición concreta en un solo mensaje. Algunas funciones relacionadas, como las instrucciones personalizadas o Gems, son útiles, pero no son idénticas a system_instruction en la API.

Patrón orientado a la API:

system_instruction: “You rewrite customer-support email drafts. Tone: plain, friendly, no emojis. Never invent policy. If policy is missing, ask one clarifying question instead of asserting terms.”
Entrada del usuario: “Rewrite this draft under 120 words: …”

Por qué ofrece más control: las reglas permanentes se mantienen estables entre turnos y cada petición solo contiene el caso concreto.

Salidas estructuradas: si necesitas campos legibles por máquinas, configura una salida estructurada con JSON Schema en la API en lugar de confiar en que el JSON del chat siempre se pueda interpretar. Consulta la documentación sobre salidas estructuradas.

Débil (solo chat):

Return JSON with the invoice fields.

Mejorado (contrato de campos orientado a la API):

Fields: vendor (string), invoice_date (YYYY-MM-DD or null), total (number or null), currency (string or null), line_items (array of {description, amount})
Rule: null when not present; do not invent totals.

Por qué ofrece más control: unos campos definidos por esquema y una política para valores nulos son más fiables que una petición abierta para «devolver JSON».

Llamadas a funciones y herramientas: el modelo puede proponer llamadas a herramientas; tu app debe declararlas y ejecutarlas. Consulta la documentación sobre llamadas a funciones. El modelo no ejecuta por arte de magia tu backend.

Grounding y verificación con fuentes visibles: Grounding with Google Search es una herramienta de la API que puede obtener fuentes web y devolver citas cuando se activa con un modelo compatible. Las funciones de búsqueda de la app de consumo pertenecen a una superficie de control distinta. El grounding mejora la precisión factual, pero no elimina la necesidad de que compruebes personalmente los datos críticos.

Generación de imágenes con Nano Banana

Nano Banana es el nombre que Google da a la familia de generación de imágenes nativa de Gemini. La documentación oficial sobre generación de imágenes describe actualmente varios ID de modelo con perfiles distintos de velocidad, calidad, referencias y resolución, entre ellos Nano Banana Pro (gemini-3-pro-image), Nano Banana 2 (gemini-3.1-flash-image) y Nano Banana 2 Lite (gemini-3.1-flash-lite-image). Elige un ID de modelo concreto; no trates «Gemini image» como un único conjunto de capacidades.

Escribe frases descriptivas completas que incluyan sujeto, entorno, iluminación, composición, exclusiones y relación de aspecto cuando la superficie lo permita. Itera mediante conversación en los modelos compatibles: genera una imagen y cambia después una sola variable cada vez.

Débil:

Make a cool cafe.

Mejorado:

A cozy coffee shop on a rainy afternoon, seen through a foggy window, with warm yellow light inside and blue-gray tones outside. No logos, no readable brand names, 3:2, warm interior / cool exterior contrast.

Por qué ofrece más control: el sujeto, la iluminación, la composición, las exclusiones y la proporción sustituyen una petición estética imprecisa.

Notas sobre capacidades actuales que pueden cambiar con el tiempo (vuelve a comprobarlas antes de publicar un flujo de trabajo): la documentación oficial describe la combinación de hasta 14 imágenes de referencia, con distintos límites para objetos, personajes y estilos según el modelo; Nano Banana 2 documenta resoluciones de 0.5K, 1K, 2K y 4K, además de relaciones de aspecto adicionales; Lite está documentado como un modelo limitado a 1K y no optimizado para varias referencias ni para edición secuencial en varios turnos. Las imágenes generadas incluyen una marca de agua SynthID. Consulta las políticas de uso de Google antes de crear flujos comerciales que incluyan personas reales o recursos de marca.

Para profundizar en la creación de imágenes, consulta la Guía de prompts de imagen IA: tips y estilos y el Midjourney V8.1 y Nano Banana: cheat sheet de prompts. También puedes explorar prompts de foto Gemini IA listos para copiar con ejemplos, o probar prompts en la herramienta de prompts de imagen.

Comprensión de vídeo frente a generación de vídeo

La comprensión de vídeo analiza un clip existente para describirlo, responder preguntas o extraer momentos. Consulta la documentación de Google sobre comprensión de vídeo. La generación de vídeo crea un clip nuevo a partir de texto, imágenes u otros flujos relacionados. No agrupes ambas capacidades bajo «Gemini vídeo».

Según la documentación actual de la Gemini API sobre generación de vídeo, Google recomienda Gemini Omni Flash como modelo predeterminado para generar vídeo y destaca su razonamiento con varias entradas y su edición conversacional en varios turnos. Usa Veo 3.1 cuando necesites funciones como extender escenas, controlar el último fotograma o integrarlo con flujos heredados. Omni Flash puede aparecer como Preview en el índice de modelos; considera que su disponibilidad y estado pueden cambiar con el tiempo.

La documentación actual de la Gemini API sobre Veo 3.1 describe salidas de unos 8 segundos a 720p, 1080p o 4K, con audio generado de forma nativa, extensión de vídeo, flujos con primer y último fotograma, hasta tres imágenes de referencia y formatos horizontal 16:9 o vertical 9:16. Son opciones documentadas específicamente para Veo, no límites universales del vídeo en Gemini.

Ejemplo de una acción continua:

A ceramic mug fills with steaming coffee as morning light streams through a kitchen window. Slow push-in on the mug. Warm, golden tones.

Para aprender la estructura SCAAL, la continuidad, el uso didáctico de las relaciones de aspecto y la selección de flujos entre proveedores sin rankings, consulta la Guía de prompts de vídeo IA: estructura, movimiento y elección de modelo. Esta sección se limita al acceso en Gemini y a la diferencia entre comprensión y generación.

Selección de modelo y contexto sin rankings

Elige un modelo según la tarea y su ficha, no según una clasificación de calidad. Los modelos de comprensión de texto y contenido multimodal, los modelos de imagen Nano Banana y los modelos de vídeo son herramientas diferentes. Solo como ejemplo, la página del modelo gemini-3.5-flash indica un límite de entrada de 1.048.576 tokens y un límite de salida de 65.536 tokens.

Los modelos de imagen documentan ventanas más pequeñas. Nunca afirmes que existe un único tamaño de contexto universal para Gemini.

Según la descripción general de la Interactions API de Google de junio de 2026, Interactions tiene disponibilidad general y se recomienda para proyectos nuevos; generateContent sigue siendo compatible. La equivalencia de funciones y las etiquetas Preview cambian; consulta la documentación de la ruta de API que vayas a llamar.

Esta guía no clasifica Gemini frente a otros proveedores. Escribe una estructura reutilizable, con tarea, entradas, restricciones y verificación, y adáptala después a la superficie y al modelo que uses ese día.

Ejemplos débiles frente a mejorados

Las secciones anteriores ya incluyen prompts débiles y mejorados para texto, documentos, comprensión de imágenes, anuncios multimodales, campos estructurados, Nano Banana y vídeo. El patrón es siempre el mismo:

define una condición de éxito
etiqueta las entradas
prohíbe inventar cuando sea importante basarse en las fuentes
especifica la estructura o el esquema de salida
define un paso de verificación visible

Si el resultado falla, cambia una sola variable: restricciones más precisas, una estructura de salida más clara, un modelo más adecuado o un chat nuevo. No añadas cinco objetivos nuevos en el mismo turno.

Solución de problemas

Datos sin respaldo o inventados: exige que indique “Not stated”, adjunta los archivos fuente, activa el grounding con Search cuando corresponda, pide citas y verifica fuera del modelo.
Formato ignorado: vuelve a indicar la estructura de salida, usa JSON Schema en la API o empieza un chat nuevo si la conversación se ha desviado.
Prompts sobrecargados: divide las tareas, mantén una sola condición de éxito TCI-COEV e itera.
Instrucciones contradictorias: coloca las reglas permanentes en las instrucciones del sistema, resuelve los conflictos de forma explícita y elimina duplicados.
Poco apoyo en las fuentes: adjunta documentos, usa la herramienta de grounding, pide citas o URL y comprueba manualmente las afirmaciones críticas.
Capacidad inadecuada: no esperes que un chat garantice la validación de esquemas, que un modelo de texto genere imágenes, que Veo sea la opción conversacional predeterminada cuando la documentación señala Omni Flash como ruta predeterminada de generación, ni que los modelos de imagen Lite gestionen ediciones secuenciales exigentes con varias referencias. Haz coincidir tarea → superficie → ficha del modelo.

No pidas al modelo que revele su cadena de pensamiento oculta como método de verificación. Usa en su lugar el paso de Verificación de TCI-COEV.

Checklist de verificación antes de enviar

La tarea y la condición de éxito son explícitas
El contexto indica qué no debe inventarse
Las entradas están adjuntas o pegadas y llevan etiquetas
Las restricciones cubren longitud, tono y exclusiones
La estructura de salida está especificada, o el esquema está configurado en la API
La superficie corresponde a la tarea: app, Studio, API o Vertex
Las capacidades del modelo corresponden a la tarea: texto, generación de imágenes, generación de vídeo o comprensión
Los límites que cambian con el tiempo, como duración, resolución, referencias y tokens, se han comprobado ese mismo día en la página oficial del modelo o de la documentación
El grounding o las herramientas solo se activan cuando son necesarios y están disponibles
El paso de verificación está definido: citas, validación del esquema, comprobación puntual o revisión visual
Has elegido una variable que cambiarás si falla el primer resultado
No se solicita una cadena de pensamiento oculta

Conclusión clave

Haz prompts para Gemini con una tarea clara, entradas etiquetadas, restricciones y una estructura de salida verificable. Elige la superficie y el modelo adecuados para texto, archivos, comprensión de imágenes, generación con Nano Banana, comprensión de vídeo o generación de vídeo.

Trata Omni Flash frente a Veo, app frente a API y comprensión frente a generación como decisiones distintas. Comprueba personalmente los resultados importantes y mejora después el prompt con un solo cambio cada vez.

Mejora tu prompt en la herramienta de texto

Cómo hacer prompts en Gemini: texto, archivos, imágenes y vídeo

GetBetterPrompts Editorial Team · Actualizado el 14 de julio de 2026

Task: [what to produce] Context: [who it's for; known facts; do not invent X] Inputs: [list attached files/images and what they are] Constraints: [length, tone, exclusions] Output structure: [bullets / table / JSON fields…] Examples: [optional short sample] Verification: [cite sources | validate JSON | check 3 facts | compare to checklist]

Task: Write a 200-word briefing for a team lead deciding whether to keep hybrid work. Context: B2B SaaS, 40-person company, no HR legal advice. Constraints: Neutral tone; 3 short sections with headings; no statistics unless labeled as illustrative. Output structure: Heading + 2 bullets per section. Verification: Flag any claim that would need a citation.

You are analyzing the attached PDF (Q2 product roadmap). Task: Extract decisions, owners, and open questions. Constraints: Use only information visible in the PDF; if a field is missing, write "Not stated". Output structure: Markdown table with columns Decision | Owner | Due date | Open question. Verification: Quote a short phrase from the PDF next to each Decision.

Attached: store-shelf photo. Task: List visible SKUs and any price tags you can read. Constraints: Do not guess occluded text; say "unreadable" instead. Output structure: Numbered list: item name | estimated facing count | price text or unreadable. Verification: Separate "Visible" from "Inferred" if you must interpret packaging.

Inputs: (1) product photo of a matte black water bottle; (2) pasted brand voice notes below. Task: Propose 3 Instagram captions. Constraints: No health claims; mention dishwasher-safe only if visible on the label in the photo; max 40 words each. Output structure: Caption | on-image text overlay ≤6 words | rationale (1 sentence). Verification: Mark any detail not visible in the photo as "from brand notes" or omit it.

Fields: vendor (string), invoice_date (YYYY-MM-DD or null), total (number or null), currency (string or null), line_items (array of {description, amount}) Rule: null when not present; do not invent totals.

Cómo hacer prompts en Gemini: texto, archivos, imágenes y vídeo

Qué significa hacer prompts en Gemini hoy

Elige la superficie de Gemini adecuada

El checklist TCI-COEV para prompts de Gemini

Prompts de texto que mantienen el control

Archivos, PDF y análisis de documentos

Comprensión de imágenes y entrada multimodal

Instrucciones del sistema, salidas estructuradas y herramientas

Generación de imágenes con Nano Banana

Comprensión de vídeo frente a generación de vídeo

Selección de modelo y contexto sin rankings

Ejemplos débiles frente a mejorados

Solución de problemas

Checklist de verificación antes de enviar

Conclusión clave

Fuentes

Cómo hacer prompts en Gemini: texto, archivos, imágenes y vídeo

Qué significa hacer prompts en Gemini hoy

Elige la superficie de Gemini adecuada

El checklist TCI-COEV para prompts de Gemini

Prompts de texto que mantienen el control

Archivos, PDF y análisis de documentos

Comprensión de imágenes y entrada multimodal

Instrucciones del sistema, salidas estructuradas y herramientas

Generación de imágenes con Nano Banana

Comprensión de vídeo frente a generación de vídeo

Selección de modelo y contexto sin rankings

Ejemplos débiles frente a mejorados

Solución de problemas

Checklist de verificación antes de enviar

Conclusión clave

Fuentes