Gemini richtig prompten (Text, Bild, Video)
Google Gemini ist eine multimodale KI, die Text, Bilder und Video über eine einzige Oberfläche verarbeitet. Wer gute Ergebnisse will, muss verstehen, wie sich Gemini von ChatGPT und anderen Modellen unterscheidet. Dieser Guide behandelt praktische Techniken für alle drei Modalitäten, einschließlich der neueren Video-Funktionen von Veo 3.
Wie Gemini Text-Prompts verarbeitet
Geminis Textgenerierung folgt ähnlichen Prinzipien wie andere große Sprachmodelle, hat aber Eigenheiten, die sich lohnen zu kennen. Es liefert standardmäßig gut strukturierte Antworten mit Aufzählungspunkten und Überschriften, ohne dass man darum bittet. Für Recherche und Zusammenfassungen ist das hilfreich, für kreatives Schreiben oft zu starr.
Für kreative oder gesprächsnahe Ausgaben sagen Sie Gemini ausdrücklich, welches Format Sie wollen: „Schreibe in fließenden Absätzen, keine Stichpunkte." Für analytische Aufgaben können Sie sich auf die natürliche Struktur stützen und Tabellen, Ranglisten oder Schritt-für-Schritt-Aufschlüsselungen verlangen. Der Gemini Prompting Guide empfiehlt, das Format explizit anzugeben, besonders wenn der Standard nicht zu Ihren Anforderungen passt.
Gemini kommt gut mit mehrstufigen Gesprächen zurecht und behält den Kontext über lange Verläufe. Sie können auf vorherige Antworten aufbauen, ohne alles zu wiederholen. Wenn ein Gespräch allerdings entgleist, liefert ein neuer Chat oft bessere Ergebnisse als eine Kurskorrektur mitten im Verlauf.
Ein Bereich, in dem Gemini herausragt: die Integration mit der Google-Suche (Grounding). Über die API aktiviert, kann Gemini aktuelle Informationen abrufen und seine Quellen benennen. Das macht es besonders stark für Recherche-Aufgaben, bei denen Aktualität zählt.
Bildgenerierung mit Gemini
Geminis eingebaute Bildgenerierung (über Imagen) funktioniert anders als eigenständige Tools wie DALL-E oder Midjourney. Sie prompten es im Gespräch, genauso wie Sie Text anfordern würden. Keine separate Syntax, kein Parametersystem. Beschreiben Sie einfach das gewünschte Bild in natürlicher Sprache.
Dieser gesprächsbasierte Ansatz hat einen großen Vorteil: Sie können Bilder im selben Chat iterativ verbessern. Generieren Sie ein Bild, dann sagen Sie „mache den Hintergrund dunkler" oder „ändere den Hund zu einem Golden Retriever". Gemini merkt sich, was es generiert hat, und wendet Ihre Änderungen an. Das spart das Neuschreiben des gesamten Prompts.
Die Grundlagen jedes Bild-Prompt-Guides gelten auch hier: Motiv, Stil, Beleuchtung, Komposition und Farbe angeben. Gemini reagiert aber auch gut auf natürlichsprachliche Beschreibungen, die für Midjourneys knappe Syntax zu ausführlich wären. „Ein gemütliches Café an einem regnerischen Nachmittag, durch ein beschlagenes Fenster gesehen, mit warmem gelbem Licht innen und blaugrauen Tönen außen" funktioniert in Gemini problemlos.
Aktuelle Einschränkungen: Gemini kann die Generierung von Bildern erkennbarer realer Personen ablehnen und fügt sichtbare Wasserzeichen hinzu. Für kommerzielle Projekte sollten Sie die aktuellen Nutzungsbedingungen von Google prüfen, bevor Sie Workflows um Gemini-generierte Bilder aufbauen.
Video-Prompts für Veo 3
Veo 3 ist Googles Videogenerierungsmodell, zugänglich über Gemini. Es erstellt kurze Videoclips aus Textbeschreibungen oder Referenzbildern. Prompts für Video erfordern eine andere Denkweise als für Standbilder: Sie müssen Bewegung, Timing und Übergänge beschreiben.
Strukturieren Sie Ihren Video-Prompt um fünf Elemente: Motiv (was ist in der Szene), Aktion (was passiert), Kamera (wie sieht der Zuschauer die Szene), Atmosphäre (Beleuchtung und Stimmung) und Dauer (Tempo). Beispiel: „Eine Keramiktasse füllt sich mit dampfendem Kaffee, während Morgenlicht durch ein Küchenfenster fällt. Langsame Kamerafahrt auf die Tasse. Warme, goldene Töne."
Laut der Google-Veo-Dokumentation funktionieren Prompts, die eine einzelne durchgehende Aktion beschreiben, besser als solche mit einer Abfolge von Ereignissen. Halten Sie jeden Clip auf einen Moment oder eine Bewegung fokussiert. Für längere Videos mit mehreren Szenen generieren Sie einzelne Clips und schneiden sie zusammen.
Veo 3 unterstützt auch die gleichzeitige Audiogenerierung: Dialoge, Umgebungsgeräusche und Soundeffekte. Sie können Audioanweisungen in Ihren Prompt aufnehmen: „Vogelgezwitscher im Hintergrund" oder „Regengeräusch auf einem Blechdach". Diese multimodale Fähigkeit ist relativ neu. Experimentieren Sie mit unterschiedlichem Detailgrad bei den Audioanweisungen.
Gemini vs. ChatGPT beim Prompten
Beide Modelle reagieren auf strukturierte Prompts, haben aber unterschiedliche Stärken. Geminis native Integration mit Google-Diensten (Suche, Workspace, Maps) macht es stärker bei Aufgaben, die von Echtzeitdaten oder Dateizugriff profitieren. ChatGPTs Stärke liegt im breiteren Plugin-Ökosystem und der ausgereifteren Bildgenerierung über DALL-E 3.
Für Textgenerierung lassen sich Prompts, die in ChatGPT gut funktionieren, meist mit kleinen Anpassungen auf Gemini übertragen. Gemini ist standardmäßig knapper, daher müssen Sie gelegentlich ausdrücklich längere, detailliertere Antworten anfordern. ChatGPT neigt zur Ausführlichkeit, sodass Sie dort oft die umgekehrte Einschränkung brauchen.
Bei der Bildgenerierung unterscheidet sich der Workflow deutlich. ChatGPT leitet Bildanfragen an DALL-E mit spezifischen Parametern weiter, während Gemini sein integriertes Imagen-Modell gesprächsbasiert einsetzt. Keines ist grundsätzlich besser. Sie erzeugen unterschiedliche Ästhetiken. Testen Sie beide mit demselben Prompt und vergleichen Sie die Ergebnisse für Ihren konkreten Anwendungsfall.
Die praktische Erkenntnis: Binden Sie sich nicht an ein einzelnes Modell. Schreiben Sie Ihre Prompts portabel (klare Struktur, explizite Einschränkungen, Beispiele), damit sie in beiden gut funktionieren. Das Rolle-Aufgabe-Format-Framework lässt sich nahtlos zwischen Gemini und ChatGPT übertragen, weil es auf Kommunikationsklarheit basiert, nicht auf modellspezifischen Tricks.
Tipps für bessere Gemini-Ergebnisse
Beginnen Sie einfach und steigern Sie die Komplexität. Schreiben Sie zuerst einen einfachen Prompt, prüfen Sie das Ergebnis und ergänzen Sie dann Einschränkungen oder Details in Folgenachrichten. Geminis Gesprächsgedächtnis macht diesen iterativen Ansatz effizient. Sie müssen nicht alles in einen einzigen riesigen Prompt packen.
Verwenden Sie System-Instruktionen bei der Arbeit über die API. Die Gemini-API-Dokumentation unterstützt ein Feld für System-Instruktionen, das dauerhaftes Verhalten für alle Nachrichten einer Sitzung festlegt. Das ist der richtige Ort für Rollendefinitionen, Formatregeln und Einschränkungen, die für jede Antwort gelten sollen.
Setzen Sie multimodale Eingaben ein. Gemini akzeptiert Bilder, PDFs und Code-Dateien als Teil Ihres Prompts. Statt ein Diagramm zu beschreiben, laden Sie es direkt hoch. Statt Code als Text einzufügen, hängen Sie die Datei an. Multimodale Prompts, die Textanweisungen mit visuellen Referenzen kombinieren, übertreffen reine Text-Prompts konsequent.
Setzen Sie die Temperatureinstellung gezielt ein. Niedrige Temperatur (nahe 0) liefert vorhersagbarere, faktenorientierte Antworten. Hohe Temperatur (nahe 1) liefert kreativere, vielfältigere Ergebnisse.
Der Standardwert liegt in der Mitte, was für allgemeine Zwecke ausreicht. Die bewusste Anpassung für bestimmte Aufgaben macht aber einen spürbaren Unterschied: niedrig für Datenextraktion, hoch für Brainstorming.