KI-Video-Prompt-Guide: Sora, Veo 3 und Runway
KI-Videogenerierung entwickelt sich rasant. Sora, Veo 3 und Runway können erstaunlich gute Clips erzeugen, aber nur mit präzisen Prompts. Vage Prompts liefern vages Material. Dieser Guide zeigt Ihnen einen strukturierten Ansatz für Video-Prompts, der mit allen großen Tools funktioniert.
Das SCAAL-Framework für Video-Prompts
SCAAL steht für Subject (Motiv), Camera (Kamera), Action (Aktion), Atmosphere (Atmosphäre) und Length (Länge). Es gibt Ihnen eine Checkliste für jeden Video-Prompt und stellt sicher, dass Sie die entscheidenden Elemente für bewegtes Bild abdecken.
Motiv: Was ist im Bild? Seien Sie konkret bei Aussehen, Anzahl der Motive und ihrer Startposition. „Eine Frau im roten Mantel am Rand eines Stegs" ist besser als „eine Person am Wasser".
Kamera: Wie sieht der Zuschauer die Szene? Geben Sie den Plantyp an (Totale, Halbtotale, Nahaufnahme) und eventuelle Kamerabewegungen (langsame Vorfahrt, Orbit, statisches Stativ). Dazu mehr im nächsten Abschnitt.
Aktion: Was passiert während des Clips? Beschreiben Sie die Hauptbewegung. „Die Frau dreht sich zur Kamera, während der Wind ihre Haare erfasst" gibt dem Modell ein klares Ereignis zum Animieren.
Atmosphäre: Welche Beleuchtung, welches Wetter, welche Stimmung? „Bewölkter Nachmittag, weiches Streulicht, melancholischer Ton" bestimmt das visuelle Gefühl des gesamten Clips.
Länge: Wie lang ist der Clip, und welches Tempo hat er? Die meisten Tools generieren 4- bis 10-Sekunden-Clips. Geben Sie das Tempo explizit an: „Zeitlupe" oder „Echtzeit". Laut den Sora-Prompting-Tipps hilft die Beschreibung des zeitlichen Tempos dem Modell, Bewegung gleichmäßig über die Clipdauer zu verteilen.
Kamerabewegung und Bildausschnitt
Kamerabewegung ist das, was einen Video-Prompt von einem Bild-Prompt unterscheidet. Sie beschreiben keinen eingefrorenen Moment, Sie führen Regie bei einer Einstellung. Verwenden Sie filmische Begriffe, die die Modelle aus Produktionsdaten gelernt haben.
Gängige Kamerabewegungen und wann sie passen:
- Statisch (Stativ, fixiert) für Dialog oder ruhige Szenen
- Langsame Vorfahrt zum Aufbau von Spannung oder zum Lenken der Aufmerksamkeit
- Tracking Shot zum Verfolgen eines sich bewegenden Motivs
- Orbit (Bogen um das Motiv) zum Zeigen dreidimensionaler Form
- Kran hoch/runter für dramatische Enthüllungen
- Handkamera für Dokumentar-Feeling oder Dringlichkeit
Bildausschnitt-Regeln aus der Filmproduktion lassen sich direkt anwenden. Beginnen Sie mit der Plangröße: Supertotale für den Kontext, Totale für Ganzkörper und Umgebung, Halbtotale für Interaktion bis zur Hüfte, Nahaufnahme für Emotion, Extreme Nahaufnahme für Details. Ergänzen Sie dann Bewegung: „Halbtotale, langsame Vorfahrt zur Nahaufnahme, während das Motiv spricht."
Die Runway-Dokumentation weist darauf hin, dass eine einzige klare Kamerabewegung pro Clip deutlich bessere Ergebnisse liefert als mehrere kombinierte Bewegungen. Wenn Sie eine Vorfahrt gefolgt von einem Schwenk brauchen, generieren Sie zwei Clips und schneiden dazwischen. Eine Bewegung pro Clip ist die zuverlässige Regel.
Beleuchtung, Atmosphäre und Stimmung
Beleuchtung in Video-Prompts funktioniert wie bei Bildern, kann sich aber über die Zeit verändern. „Die Szene beginnt im Schatten, dann bricht warmes Sonnenlicht durch die Wolken" gibt dem Modell einen Beleuchtungsübergang zum Animieren. Das erzeugt visuelles Interesse, das statische Beleuchtung nicht bieten kann.
Wetter und Umgebung wirken als Atmosphärenmodifikatoren. „Regennasse Straße, die Neonreklamen spiegelt" sagt dem Modell gleichzeitig etwas über die Bodenoberfläche, die Lichtquellen und die Reflexionen. „Staubige Wüstenstraße am Mittag" impliziert hartes Oberlicht, ausgewaschene Farben und Hitzeschlieren. Verwenden Sie Umgebungsdetails als Abkürzung für komplexe Beleuchtungs-Setups.
Stimmungsbegriffe formen den Gesamtton. „Unheimlich", „fröhlich", „angespannt", „friedlich" und „filmisch" lenken die Generierung in verschiedene Richtungen. Kombinieren Sie Stimmungswörter mit konkreten visuellen Hinweisen: „Unheimlicher Nebel, der durch den Gang eines verlassenen Krankenhauses kriecht, flackernde Neonröhren" ist besser umsetzbar als „gruselige Stimmung".
Laut der Google-Veo-Dokumentation haben Atmosphären-Keywords, die früh im Prompt stehen, mehr Gewicht. Wenn die Stimmung entscheidend für Ihr Video ist, nennen Sie sie vor der Aktionsbeschreibung. „Nostalgischer, sonnendurchfluteter Nachmittag: Ein Kind rennt durch einen Rasensprenger auf einem Vorstadt-Rasen" stellt das Gefühl voran.
Seitenverhältnisse nach Plattform
Das richtige Seitenverhältnis vor der Generierung zu wählen erspart Ihnen unpassenden Beschnitt im Nachhinein. Jede Plattform hat ein ideales Format, und das falsche Verhältnis bedeutet, dass Teile Ihres sorgfältig komponierten Bildausschnitts verloren gehen.
16:9 (Querformat): YouTube, Desktop-Web, Präsentationen, TV. Das ist der Standard der meisten Video-Tools und die sicherste Wahl, wenn Sie nicht genau wissen, wo das Video eingesetzt wird.
9:16 (Hochformat): TikTok, Instagram Reels, YouTube Shorts, Snapchat. Beim Hochformat-Video sollte das Motiv mittig oder leicht über der Mitte platziert sein, mit möglichst wenig wichtigen Details ganz oben oder unten, wo UI-Elemente überlagern.
1:1 (Quadrat): Instagram Feed, LinkedIn Video, einige Werbeplatzierungen. Quadratisch eignet sich für Produkt-Showcases und Talking-Head-Clips, bei denen eine zentrierte Komposition natürlich wirkt.
4:5 (Hochformat-Portrait): Instagram Feed (maximiert die Bildschirmfläche), Facebook Feed. Ein guter Kompromiss zwischen Hochformat und Quadrat, wenn Sie Höhe wollen, ohne auf volles 9:16 zu gehen.
Die meisten KI-Video-Tools erlauben es, das Seitenverhältnis als Parameter festzulegen. Tun Sie das vor der Generierung, nicht danach. Das Modell komponiert die Szene auf Basis der Rahmenform. Eine in 16:9 generierte Totale, die nachträglich auf 9:16 beschnitten wird, verliert ihre beabsichtigte Komposition. Planen Sie das Seitenverhältnis von Anfang an für die Zielplattform.
Werbe- und Produktvideos
KI-generiertes Video wird zunehmend brauchbar für Produktmarketing, Social-Media-Anzeigen und Erklärvideos. Der Schlüssel zu kommerzieller Qualität liegt darin, den Prompt wie ein Kreativbriefing zu behandeln, nicht wie eine beiläufige Anfrage.
Für Produktaufnahmen beschreiben Sie das Produkt mit Präzision: Material, Farbe, Größe im Verhältnis zum Bild und Oberflächenbeschaffenheit. „Eine matte schwarze kabellose Ohrhörer-Hülle auf einer Marmoroberfläche, weiches Studiolicht von oben, langsamer 180-Grad-Orbit" gibt dem Modell genug Detail für eine brauchbare Produkt-Hero-Aufnahme.
Für Lifestyle- oder Aspirations-Content konzentrieren Sie sich auf das Gefühl, das der Zuschauer mit dem Produkt verbinden soll. „Eine Person öffnet einen Laptop in einem hellen, minimalistischen Café, goldenes Morgenlicht durch ein großes Fenster, geringe Schärfentiefe auf dem Bildschirm" erzählt eine visuelle Geschichte, ohne aufdringlich zu werben.
Der Sora-Guide empfiehlt, generierte Clips kurz zu halten (unter 10 Sekunden) und sie in einem Schnittprogramm für längere Sequenzen zusammenzusetzen. Das gibt Ihnen mehr Kontrolle über Tempo, Übergänge und Markenkonsistenz. Generieren Sie mehrere Perspektiven derselben Szene und schneiden Sie dazwischen für ein professionelles Ergebnis, das sich wie ein Multi-Kamera-Dreh anfühlt.
Fehlerbehebung bei häufigen Problemen
Flimmernde oder zuckende Motive: Das passiert meist, wenn der Prompt zu viel gleichzeitige Bewegung beschreibt. Vereinfachen Sie die Aktion. Reduzieren Sie die Anzahl bewegter Elemente auf ein oder zwei. Wenn ein Hintergrund ruhig bleiben soll, schreiben Sie „statischer Hintergrund" ausdrücklich in den Prompt.
Unnatürliche Bewegung: Wenn Bewegungen roboterhaft oder zu gleichmäßig wirken, ergänzen Sie natürliche Modifikatoren. „Leichtes Schwanken", „natürlicher Gang", „vom Wind bewegt" bringen organische Unregelmäßigkeit, die Bewegung realistisch macht. Vermeiden Sie mechanische Begriffe wie „45 Grad drehen", es sei denn, Sie wollen ausdrücklich mechanische Bewegung.
Falscher Stil oder falsche Epoche: Wenn das Video nach dem falschen Jahrzehnt oder Genre aussieht, setzen Sie stärkere Stilanker. „Gedreht auf 16-mm-Film, Farbgebung der 1990er" oder „saubere digitale Kinematografie, moderne Farbwissenschaft" lenken das Modell zu einer bestimmten visuellen Ära. Die Runway-Dokumentation empfiehlt Referenzbegriffe aus der realen Filmproduktion, um den visuellen Stil genauer zu steuern.
Inkonsistente Motive über Clips hinweg: Wenn Sie mehrere Clips mit demselben Charakter oder Produkt generieren, kopieren Sie die Motivbeschreibung wortgleich zwischen den Prompts. Ändern Sie nur Aktion und Kamera.
Identischer Motivtext hilft dem Modell, visuelle Konsistenz zu bewahren, auch wenn das nicht garantiert ist. Für unternehmenskritische Konsistenz verwenden Sie Tools mit nativer Charakter- oder Stilreferenz-Funktion.
Text oder Logos erscheinen unleserlich: KI-Videomodelle haben Schwierigkeiten mit lesbarem Text. Vermeiden Sie es, Text im Bild zu prompten. Fügen Sie Titel, Logos und Untertitel in der Nachbearbeitung hinzu.