Guía de prompts de vídeo IA: Sora, Veo 3 y Runway
La generación de vídeo con IA avanza rápido. Sora, Veo 3 y Runway pueden producir clips sorprendentemente buenos, pero solo si les das instrucciones precisas. Prompts vagos generan metraje vago. Esta guía te enseña un enfoque estructurado para crear prompts de vídeo que funciona en todas las herramientas principales.
El framework SCAAL para prompts de vídeo
SCAAL significa Sujeto, Cámara, Acción, Atmósfera y Longitud (duración). Te da una lista de verificación para cada prompt de vídeo, asegurando que cubras los elementos que más importan para contenido en movimiento.
Sujeto: ¿Qué hay en el encuadre? Sé específico sobre apariencia, número de sujetos y su posición inicial. "Una mujer con abrigo rojo de pie al borde de un muelle" es mejor que "una persona cerca del agua."
Cámara: ¿Cómo ve el espectador la escena? Incluye tipo de plano (general, medio, primer plano) y cualquier movimiento de cámara (dolly lento hacia adelante, órbita, trípode estático). Lo veremos con más detalle en la siguiente sección.
Acción: ¿Qué ocurre durante el clip? Describe el movimiento principal. "La mujer se gira hacia la cámara mientras el viento le mueve el pelo" le da al modelo un evento claro que animar.
Atmósfera: ¿Cuál es la iluminación, el clima y el estado de ánimo? "Tarde nublada, luz difusa suave, tono melancólico" establece la sensación visual del clip completo.
Longitud: ¿Cuánto dura el clip y cuál es el ritmo? La mayoría de herramientas generan clips de 4 a 10 segundos. Menciona el ritmo de forma explícita: "cámara lenta" o "velocidad real." Según los consejos de Sora para prompts, describir el ritmo temporal ayuda al modelo a distribuir el movimiento de forma uniforme a lo largo de la duración del clip.
Movimiento de cámara y encuadre
El movimiento de cámara es lo que separa un prompt de vídeo de uno de imagen. No estás describiendo un momento congelado: estás dirigiendo un plano. Usa términos cinematográficos que los modelos han aprendido de datos de producción audiovisual.
Movimientos de cámara comunes y cuándo usarlos:
- Estático (trípode fijo) para diálogos o escenas tranquilas
- Dolly lento hacia adelante para generar tensión o dirigir la atención
- Plano de seguimiento para acompañar a un sujeto en movimiento
- Órbita (arco alrededor del sujeto) para mostrar forma tridimensional
- Grúa arriba/abajo para revelaciones dramáticas
- Cámara en mano para sensación documental o urgencia
Las reglas de encuadre de la cinematografía aplican directamente. Empieza con el tamaño de plano: plano general extremo para establecer contexto, general para cuerpo completo y entorno, medio para interacción de cintura para arriba, primer plano para emoción, primerísimo primer plano para detalle. Después agrega movimiento: "Plano medio, dolly lento hasta primer plano mientras el sujeto habla."
La documentación de Runway señala que especificar un solo movimiento de cámara claro por clip produce resultados mucho mejores que combinar varios movimientos. Si necesitas un dolly seguido de un paneo, genera dos clips y corta entre ellos. Un movimiento por clip es la regla confiable.
Iluminación, atmósfera y estado de ánimo
La iluminación en prompts de vídeo funciona igual que en los de imagen, pero puedes cambiarla a lo largo del tiempo. "La escena empieza en sombra, luego la luz cálida del sol atraviesa las nubes" le da al modelo una transición de iluminación que animar. Esto crea interés visual que la iluminación estática no puede igualar.
El clima y el entorno actúan como modificadores de atmósfera. "Calle mojada por la lluvia reflejando letreros de neón" le dice al modelo sobre la superficie del suelo, las fuentes de luz y los reflejos, todo a la vez.
"Carretera desértica polvorienta a mediodía" implica luz cenital dura, colores deslavados y calima. Usa detalles ambientales como atajos para configuraciones de iluminación complejas.
Las palabras de estado de ánimo dan forma al tono general. "Inquietante", "alegre", "tenso", "tranquilo" y "cinematográfico" empujan la generación en direcciones diferentes. Combina palabras de estado de ánimo con señales visuales específicas para resultados más fuertes: "niebla inquietante recorriendo el pasillo de un hospital abandonado, luces fluorescentes parpadeando" es más accionable que "ambiente de miedo."
Según la documentación de Google Veo, las palabras clave de atmósfera colocadas al principio del prompt tienen más peso. Si el estado de ánimo es crítico para tu vídeo, menciónalo antes de la descripción de la acción, no después. "Tarde nostálgica, bañada de sol: un niño corre por un aspersor en el jardín de una casa" antepone la sensación que quieres.
Relación de aspecto según la plataforma
Elegir la relación de aspecto correcta antes de generar te ahorra recortes incómodos después. Cada plataforma tiene un formato ideal, y generar en la relación equivocada significa perder partes de tu encuadre cuidadosamente compuesto.
16:9 (horizontal): YouTube, web de escritorio, presentaciones, TV. Es el formato por defecto de la mayoría de herramientas de vídeo y la opción más segura cuando no estás seguro de dónde se usará el vídeo.
9:16 (vertical): TikTok, Instagram Reels, YouTube Shorts, Snapchat. El vídeo vertical debe tener el sujeto centrado o ligeramente por encima del centro, con mínimo detalle importante en la parte superior o inferior donde los elementos de interfaz se superponen.
1:1 (cuadrado): Feed de Instagram, vídeo de LinkedIn, algunas ubicaciones de anuncios. El formato cuadrado funciona bien para presentaciones de producto y clips de personas hablando donde una composición centrada es natural.
4:5 (retrato): Feed de Instagram (maximiza el espacio en pantalla), feed de Facebook. Un buen compromiso entre vertical y cuadrado cuando quieres altura sin llegar al 9:16 completo.
La mayoría de herramientas de vídeo IA te permiten configurar la relación de aspecto como parámetro. Configúralo antes de generar, no después. El modelo compone la escena basándose en la forma del encuadre, así que un plano general amplio generado en 16:9 y después recortado a 9:16 perderá su composición original. Planifica la relación según la plataforma de destino desde el inicio.
Vídeos comerciales y de producto
El vídeo generado por IA es cada vez más viable para marketing de producto, anuncios en redes sociales y contenido explicativo. La clave para obtener calidad comercial es tratar el prompt como un brief creativo, no como una solicitud casual.
Para planos de producto, describe el producto con precisión: material, color, tamaño relativo al encuadre y acabado de superficie. "Un estuche de auriculares inalámbricos negro mate sobre una superficie de mármol, iluminación de estudio suave desde arriba, órbita lenta de 180 grados" le da al modelo suficiente detalle para producir un plano hero de producto utilizable.
Para contenido aspiracional o de estilo de vida, enfócate en la sensación que quieres que el espectador asocie con el producto. "Una persona abre un portátil en una cafetería luminosa y minimalista, luz dorada de la mañana desde un ventanal grande, profundidad de campo reducida en la pantalla" cuenta una historia visual sin ser un anuncio agresivo.
La guía de Sora recomienda mantener los clips generados cortos (menos de 10 segundos) y editarlos en un editor para secuencias más largas. Esto te da más control sobre ritmo, transiciones y consistencia de marca. Genera múltiples ángulos de la misma escena y corta entre ellos para un resultado profesional que parezca grabado con varias cámaras.
Solución de problemas comunes
Parpadeo o vibración de sujetos: Esto suele pasar cuando el prompt describe demasiado movimiento simultáneo. Simplifica la acción. Reduce los elementos en movimiento a uno o dos. Si un fondo debe permanecer quieto, di "fondo estático" de forma explícita.
Movimiento antinatural: Si el movimiento se ve robótico o demasiado suave, agrega modificadores naturales. "Ligero balanceo", "paso natural", "agitado por el viento" introducen imperfección orgánica que hace que el movimiento se sienta real. Evita términos mecánicos como "rotar 45 grados" a menos que quieras movimiento mecánico específicamente.
Estilo o época incorrectos: Si el vídeo parece de la década o género equivocados, agrega anclas de estilo más fuertes. "Filmado en 16mm, corrección de color de los 90" o "cine digital limpio, ciencia de color moderna" obligan al modelo hacia una era visual específica. La documentación de Runway sugiere usar palabras clave de referencia del cine real para guiar el estilo visual con más precisión.
Sujetos inconsistentes entre clips: Si estás generando varios clips del mismo personaje o producto, copia la descripción del sujeto exactamente entre prompts. Cambia solo la acción y la cámara.
Mantener el texto del sujeto idéntico ayuda al modelo a conservar consistencia visual, aunque no está garantizado. Para consistencia crítica, usa herramientas que soporten referencias de personaje o estilo de forma nativa.
Texto o logos ilegibles: Los modelos de vídeo IA tienen dificultades con texto legible. Evita pedir texto en pantalla. Agrega títulos, logos y subtítulos en posproducción.