Guide prompt vidéo IA : Sora, Veo 3 et Runway
La génération vidéo par IA avance vite. Sora, Veo 3 et Runway produisent des clips étonnants, mais seulement avec des prompts précis. Un prompt vague donne un résultat vague. Ce guide vous enseigne une approche structurée du prompting vidéo qui fonctionne sur tous les outils majeurs.
Le framework SCAAL pour les prompts vidéo
SCAAL signifie Sujet, Caméra, Action, Atmosphère et Longueur. C'est une checklist pour chaque prompt vidéo, qui garantit que vous couvrez les éléments essentiels pour du contenu en mouvement.
Sujet : Qu'est-ce qui est dans le cadre ? Soyez précis sur l'apparence, le nombre de sujets et leur position de départ. « Une femme en manteau rouge au bout d'un ponton » est meilleur que « une personne près de l'eau ».
Caméra : Comment le spectateur voit-il la scène ? Incluez le type de plan (large, moyen, serré) et tout mouvement de caméra (lent travelling avant, orbite, trépied fixe). Nous détaillons ce point dans la section suivante.
Action : Que se passe-t-il pendant le clip ? Décrivez le mouvement principal. « La femme se retourne face caméra tandis que le vent soulève ses cheveux » donne au modèle un événement clair à animer.
Atmosphère : Quel éclairage, quelle météo, quelle ambiance ? « Après-midi couvert, lumière diffuse douce, ton mélancolique » pose le ressenti visuel du clip entier.
Longueur : Quelle durée et quel rythme ? La plupart des outils génèrent des clips de 4 à 10 secondes. Précisez le rythme : « ralenti » ou « vitesse réelle ». Selon les conseils de prompting Sora, décrire le rythme temporel aide le modèle à répartir le mouvement uniformément sur la durée du clip.
Mouvement de caméra et cadrage
Le mouvement de caméra est ce qui sépare un prompt vidéo d'un prompt image. Vous ne décrivez pas un instant figé : vous dirigez un plan. Utilisez le vocabulaire cinématographique que les modèles ont appris à partir de données de production.
Mouvements de caméra courants et quand les utiliser:
- Fixe (trépied, caméra verrouillée) pour les dialogues ou les scènes calmes
- Lent travelling avant pour créer de la tension ou attirer l'attention
- Travelling latéral pour suivre un sujet en mouvement
- Orbite (arc autour du sujet) pour révéler la forme tridimensionnelle
- Grue haut/bas pour des révélations dramatiques
- Caméra à l'épaule pour un rendu documentaire ou d'urgence
Les règles de cadrage cinématographiques s'appliquent directement. Commencez par la taille du plan : très grand large pour poser le contexte, plan large pour le corps entier et l'environnement, plan moyen pour l'interaction à la taille, gros plan pour l'émotion, très gros plan pour le détail.
Ajoutez ensuite le mouvement : « Plan moyen, lent travelling avant jusqu'au gros plan tandis que le sujet parle. »
La documentation Runway note qu'un seul mouvement de caméra clair par clip produit de bien meilleurs résultats que plusieurs mouvements combinés. Si vous avez besoin d'un travelling suivi d'un panoramique, générez deux clips et coupez entre eux. Un mouvement par clip est la règle fiable.
Éclairage, atmosphère et ambiance
L'éclairage dans les prompts vidéo fonctionne comme en image, mais vous pouvez aussi le faire évoluer dans le temps. « La scène commence dans l'ombre, puis une lumière chaude perce à travers les nuages » donne au modèle une transition d'éclairage à animer. Cela crée un intérêt visuel que l'éclairage statique ne peut pas offrir.
La météo et l'environnement agissent comme des modificateurs d'atmosphère. « Rue mouillée par la pluie reflétant les enseignes néon » indique au modèle la surface du sol, les sources lumineuses et les reflets en une seule phrase.
« Route désertique poussiéreuse à midi » implique une lumière dure d'en haut, des couleurs délavées et une brume de chaleur. Utilisez les détails environnementaux comme raccourcis pour des setups d'éclairage complexes.
Les mots-clés d'ambiance orientent le ton global. « Inquiétant », « joyeux », « tendu », « paisible » et « cinématique » poussent la génération dans des directions différentes. Associez ces mots à des indices visuels concrets pour de meilleurs résultats : « brouillard inquiétant traversant un couloir d'hôpital abandonné, néons fluorescents qui clignotent » est plus exploitable que « ambiance effrayante ».
Selon la documentation Google Veo, les mots-clés d'atmosphère placés tôt dans le prompt ont plus de poids. Si l'ambiance est essentielle à votre vidéo, mentionnez-la avant la description de l'action. « Après-midi nostalgique baigné de soleil : un enfant court à travers un arroseur sur une pelouse de banlieue » met le ressenti en premier plan.
Ratios d'aspect selon la plateforme
Choisir le bon ratio d'aspect avant de générer vous évite un recadrage maladroit après coup. Chaque plateforme a son format idéal, et générer dans le mauvais ratio signifie perdre des parties de votre cadrage soigné.
16:9 (paysage) : YouTube, web bureau, présentations, TV. C'est le défaut de la plupart des outils vidéo et le choix le plus sûr quand vous ne savez pas où la vidéo sera diffusée.
9:16 (vertical) : TikTok, Instagram Reels, YouTube Shorts, Snapchat. La vidéo verticale doit avoir le sujet centré ou légèrement au-dessus du centre, avec un minimum de détails importants en haut ou en bas, là où les éléments d'interface se superposent.
1:1 (carré) : Feed Instagram, vidéo LinkedIn, certains emplacements publicitaires. Le carré fonctionne bien pour les vitrines produit et les plans face caméra où une composition centrée est naturelle.
4:5 (portrait) : Feed Instagram (occupe le maximum d'écran), feed Facebook. Un bon compromis entre vertical et carré quand vous voulez de la hauteur sans aller jusqu'au 9:16.
La plupart des outils vidéo IA permettent de définir le ratio comme paramètre. Définissez-le avant de générer, pas après. Le modèle compose la scène en fonction de la forme du cadre : un plan d'ensemble en 16:9 recadré ensuite en 9:16 perd sa composition prévue. Planifiez votre ratio autour de la plateforme de destination dès le départ.
Vidéos commerciales et produit
La vidéo générée par IA est de plus en plus viable pour le marketing produit, les publicités sur les réseaux sociaux et le contenu explicatif. La clé pour une sortie de qualité commerciale est de traiter le prompt comme un brief créatif, pas comme une demande décontractée.
Pour les plans produit, décrivez le produit avec précision : matériau, couleur, taille relative au cadre et finition de surface. « Un étui d'écouteurs sans fil noir mat posé sur une surface en marbre, éclairage studio doux par le dessus, lente orbite à 180 degrés » donne au modèle assez de détails pour produire un plan hero produit exploitable.
Pour du contenu lifestyle ou aspirationnel, concentrez-vous sur le ressenti que vous voulez associer au produit. « Une personne ouvre un ordinateur portable dans un café lumineux et minimaliste, lumière dorée matinale venant d'une grande fenêtre, faible profondeur de champ sur l'écran » raconte une histoire visuelle sans être un discours commercial.
Le guide Sora recommande de garder les clips générés courts (moins de 10 secondes) et de les assembler dans un éditeur pour des séquences plus longues. Cela vous donne plus de contrôle sur le rythme, les transitions et la cohérence de marque. Générez plusieurs angles de la même scène et coupez entre eux pour un résultat professionnel qui donne l'impression d'un tournage multi-caméras.
Dépannage des problèmes courants
Sujets qui scintillent ou sautillent : Cela arrive quand le prompt décrit trop de mouvements simultanés. Simplifiez l'action. Réduisez le nombre d'éléments en mouvement à un ou deux. Si l'arrière-plan doit rester fixe, dites « arrière-plan statique » explicitement.
Mouvement non naturel : Si le mouvement semble robotique ou trop lisse, ajoutez des modificateurs naturels. « Léger balancement », « démarche naturelle », « agité par le vent » introduisent de l'imperfection organique qui rend le mouvement crédible. Évitez les termes mécaniques comme « pivoter de 45 degrés » sauf si vous voulez spécifiquement un mouvement mécanique.
Mauvais style ou époque : Si la vidéo ressemble à la mauvaise décennie ou au mauvais genre, ajoutez des ancres stylistiques plus fortes. « Tourné en 16 mm, étalonnage couleur des années 90 » ou « cinéma numérique propre, colorimétrie moderne » forcent le modèle vers une ère visuelle précise. La documentation Runway suggère d'utiliser des mots-clés de référence issus du vrai cinéma pour guider le style visuel plus précisément.
Sujets incohérents entre les clips : Si vous générez plusieurs clips du même personnage ou produit, copiez la description du sujet à l'identique entre les prompts. Ne changez que l'action et la caméra. Garder le texte du sujet identique aide le modèle à maintenir la cohérence visuelle, même si ce n'est pas garanti.
Texte ou logos illisibles : Les modèles vidéo IA peinent avec le texte lisible. Évitez de prompter pour du texte à l'écran. Ajoutez titres, logos et sous-titres en post-production.