Google Gemini prompten: Text, Dateien, Bilder und Video

GetBetterPrompts Editorial Team · Aktualisiert am 14. Juli 2026

Google Gemini ist eine Familie von Modellen und Produktoberflächen für Text, Dateien, Bilder und Video, nicht ein einzelner, überall gleicher Chatbot. Dieser Guide zeigt dir, wie du steuerbare Prompts in der Gemini-App und in Entwickler-APIs schreibst, wie sich Systemanweisungen und strukturierte Ausgaben von gewöhnlichen Chats unterscheiden und wie Nano Banana zur Bilderzeugung und aktuelle Videooptionen hineinpassen, ohne alle Medienmodelle von Google als dasselbe Werkzeug zu behandeln.

Was Gemini-Prompting heute bedeutet

Um Gemini effektiv zu prompten, benenne die genaue Aufgabe, hänge die Eingaben an oder füge sie ein, lege Einschränkungen und eine Ausgabestruktur fest und prüfe das Ergebnis anschließend anhand dieser Anforderungen. Betrachte die erste Antwort als Entwurf.

Googles Strategien für das Prompt-Design betonen klare Anweisungen, Einschränkungen und ein ausdrückliches Antwortformat. Außerdem behandeln sie Prompting als iterativen Prozess.

Gemini ist nicht nur ein Produkt. Die Gemini-App für Verbraucher, Google AI Studio, die Gemini API und Vertex AI bieten ähnliche Konzepte mit unterschiedlichen Steuerelementen. Bildverständnis ist nicht dasselbe wie Bilderzeugung mit Nano Banana.

Videoverständnis ist nicht dasselbe wie Videogenerierung. Die Hilfe zu Gemini Apps weist außerdem darauf hin, dass Gemini Fehler machen kann. Prüfe deshalb wichtige Antworten.

Diese Seite bezieht sich speziell auf Gemini-Produkte. Allgemeine Grundlagen findest du unter Was ist Prompt Engineering? Praktischer Guide. Für übertragbare Methoden bei Videos lies den KI-Video-Prompt-Guide: Struktur, Bewegung und Modellwahl. Modellneutrale Grundlagen für Bilder findest du im KI-Bild-Prompt-Guide: Stil und Tipps.

Die passende Gemini-Oberfläche wählen

Wähle die Oberfläche passend zur Aufgabe. Eine Funktion, die an einer Stelle verfügbar ist, steht nicht automatisch in jeder Gemini-Oberfläche zur Verfügung.

Gemini-App für Verbraucher (Hilfe zu Gemini Apps): alltägliche Chats, Entwürfe, Zusammenfassungen, multimodale Fragen und Antworten sowie Datei- und Bilduploads, sofern freigeschaltet. Prompts in natürlicher Sprache funktionieren hier gut. Die App ist kein Ersatz für API-Funktionen wie system_instruction, JSON Schema oder Funktionsdeklarationen.
Google AI Studio (aistudio.google.com): eine Entwicklungsumgebung zum Ausprobieren von Gemini-Modellen für Text und multimodale Inhalte, Nano Banana, Videomodellen und verwandten Werkzeugen, bevor du einen Prompt in eine App übernimmst.
Gemini API (Modellübersicht): zum Entwickeln mit Text- und multimodalen Modellen, Bildmodellen, Videomodellen, Systemanweisungen, strukturierten Ausgaben, Function Calling, Grounding und Dateieingaben. Die verfügbaren Funktionen hängen vom jeweiligen Modellcode ab.
Vertex AI / Gemini Enterprise Agent Platform (Übersicht zu generativer KI): Bereitstellung, Governance und Grounding für Unternehmen im Google-Cloud-Stack. Konsole, IAM, Abrechnung und Einführungszeitpunkte können sich von der Gemini API für Verbraucher unterscheiden.

Funktionen der Produktoberflächen und API-Funktionen hängen zusammen, sind aber nicht identisch. Prüfe immer die Oberfläche, die du tatsächlich verwendest.

Die TCI-COEV-Checkliste für Gemini-Prompts

Dieser Guide verwendet TCI-COEV: Task (Aufgabe), Context (Kontext), Inputs (Eingaben), Constraints (Einschränkungen), Output structure (Ausgabestruktur), Examples (Beispiele) und Verification (Überprüfung). Das ist eine praktische Checkliste von GetBetterPrompts, kein Branchenstandard. Verwandte Konzepte findest du in Googles Dokumentation zum Prompt-Design und in API-Funktionen wie Systemanweisungen, Schemas und Tools.

Task: [what to produce]
Context: [who it's for; known facts; do not invent X]
Inputs: [list attached files/images and what they are]
Constraints: [length, tone, exclusions]
Output structure: [bullets / table / JSON fields…]
Examples: [optional short sample]
Verification: [cite sources | validate JSON | check 3 facts | compare to checklist]

Lass leere Teile weg. Nutze Verification für sichtbare Prüfungen wie Quellenangaben, Schema-Validierung, Stichproben oder visuelle Qualitätskontrolle. Fordere das Modell nicht auf, verborgene Gedankengänge oder interne Überlegungen offenzulegen, um die Richtigkeit einer Antwort zu beweisen.

Einige Gemini-Modelle verwenden einen internen Denkprozess. Behandle ihn als Modellverhalten, nicht als Methode zur Überprüfung durch dich. Weitere Informationen findest du in Googles Dokumentation zum Thinking.

Steuerbare Text-Prompts

Stelle bei Textaufgaben den Auftrag an den Anfang und nenne danach die Regeln. Fordere das benötigte Format an, zum Beispiel Absätze, Aufzählungspunkte, eine Tabelle oder beschriftete Abschnitte. Wenn der Verlauf vom Ziel abweicht, beginne einen neuen Chat, statt widersprüchliche Korrekturen aufeinanderzustapeln.

Schwach:

Write about remote work.

Verbessert:

Task: Write a 200-word briefing for a team lead deciding whether to keep hybrid work.
Context: B2B SaaS, 40-person company, no HR legal advice.
Constraints: Neutral tone; 3 short sections with headings; no statistics unless labeled as illustrative.
Output structure: Heading + 2 bullets per section.
Verification: Flag any claim that would need a citation.

Warum das besser steuerbar ist: Aufgabe, Zielgruppe, Ausschlüsse, Struktur und Überprüfung ersetzen ein offenes Thema.

Beispiel für die Verbraucher-App: “I'm drafting a customer email. Keep it under 120 words, friendly, no emojis. Ask one clarifying question at the end if the refund policy is unclear. Here is the draft: …”

Weitere Schreibmuster, die nicht an Gemini gebunden sind, findest du unter Bessere KI-Prompts schreiben (mit Beispielen).

Dateien, PDFs und Dokumentanalyse

Wenn die Quelle bereits als Datei vorliegt, hänge sie an, statt ihren Inhalt aus dem Gedächtnis wiederzugeben. Googles Dokumentation zum Dokumentverständnis beschreibt die PDF-Analyse mit nativer Bilderkennung für Aufgaben, bei denen Layout, Text, Tabellen und Diagramme wichtig sind. Nutze für große oder wiederholt verwendete Dokumente bevorzugt die Files API.

Seiten- und Größenlimits können sich ändern. Bestätige sie auf der Seite für die von dir verwendete Funktion.

Schwach:

Summarize this PDF.

Verbessert:

You are analyzing the attached PDF (Q2 product roadmap).
Task: Extract decisions, owners, and open questions.
Constraints: Use only information visible in the PDF; if a field is missing, write "Not stated".
Output structure: Markdown table with columns Decision | Owner | Due date | Open question.
Verification: Quote a short phrase from the PDF next to each Decision.

Warum das besser steuerbar ist: Das Modell stützt sich auf die Datei, darf nichts erfinden und liefert zu jeder Aussage einen überprüfbaren Auszug.

Bildverständnis und multimodale Eingaben

Bildverständnis analysiert ein vorhandenes Bild. Es ist keine Bilderzeugung. Googles Dokumentation zum Bildverständnis behandelt Bildbeschreibungen sowie visuelle Fragen und Antworten. Multimodale Prompts funktionieren am besten, wenn du jede Eingabe beschriftest und angibst, welche Informationen aus dem Bild und welche aus deinen Notizen stammen müssen.

Schwacher Prompt zum Bildverständnis:

What's in this image?

Verbessert:

Attached: store-shelf photo.
Task: List visible SKUs and any price tags you can read.
Constraints: Do not guess occluded text; say "unreadable" instead.
Output structure: Numbered list: item name | estimated facing count | price text or unreadable.
Verification: Separate "Visible" from "Inferred" if you must interpret packaging.

Warum das besser steuerbar ist: Der Prompt trennt Wahrnehmung von Schlussfolgerungen und begrenzt Halluzinationen bei unlesbarem Text.

Schwacher multimodaler Prompt:

Compare these and write ads.

Verbessert:

Inputs: (1) product photo of a matte black water bottle; (2) pasted brand voice notes below.
Task: Propose 3 Instagram captions.
Constraints: No health claims; mention dishwasher-safe only if visible on the label in the photo; max 40 words each.
Output structure: Caption | on-image text overlay ≤6 words | rationale (1 sentence).
Verification: Mark any detail not visible in the photo as "from brand notes" or omit it.

Warum das besser steuerbar ist: Aussagen werden an bestimmte Eingaben gebunden. Sichtbare Fakten bleiben von bereitgestellten Notizen getrennt.

Systemanweisungen, strukturierte Ausgaben und Tools

Systemanweisungen: Lege in der Gemini API dauerhafte Regeln für Rolle, Ton und Format in system_instruction ab. Die Aufgabe für den jeweiligen Durchlauf bleibt in der Benutzereingabe. Weitere Informationen findest du in Googles Dokumentation zur Textgenerierung und im Vertex-Guide zu Systemanweisungen.

In der Verbraucher-App stehen dauerhafte Regeln und der konkrete Auftrag häufig gemeinsam in einer Nachricht. Verwandte Produktfunktionen wie benutzerdefinierte Anweisungen oder Gems sind nützlich, aber nicht mit system_instruction in der API identisch.

API-orientiertes Muster:

system_instruction: “You rewrite customer-support email drafts. Tone: plain, friendly, no emojis. Never invent policy. If policy is missing, ask one clarifying question instead of asserting terms.”
Benutzereingabe: “Rewrite this draft under 120 words: …”

Warum das besser steuerbar ist: Dauerhafte Regeln bleiben über mehrere Durchläufe stabil. Jede Anfrage enthält nur den konkreten Einzelfall.

Strukturierte Ausgaben: Wenn du maschinenlesbare Felder benötigst, konfiguriere in der API eine strukturierte Ausgabe mit einem JSON Schema, statt darauf zu hoffen, dass JSON aus einem Chat immer geparst werden kann. Siehe strukturierte Ausgaben.

Schwach, nur im Chat:

Return JSON with the invoice fields.

Verbessert, als API-orientierter Feldvertrag:

Fields: vendor (string), invoice_date (YYYY-MM-DD or null), total (number or null), currency (string or null), line_items (array of {description, amount})
Rule: null when not present; do not invent totals.

Warum das besser steuerbar ist: Schemafelder und eine Regel für null sind zuverlässiger als die offene Aufforderung „JSON zurückzugeben“.

Function Calling und Tools: Das Modell kann Tool-Aufrufe vorschlagen. Deine App muss sie deklarieren und ausführen. Siehe Function Calling. Das Modell führt dein Backend nicht von selbst aus.

Grounding und sichtbare Quellenprüfung: Grounding mit Google Search ist ein API-Tool, das bei Aktivierung für ein unterstütztes Modell Webquellen abrufen und Quellenangaben zurückgeben kann. Suchfunktionen in der Verbraucher-App sind eine andere Steueroberfläche. Grounding kann die Faktentreue verbessern, ersetzt aber nicht deine eigene Prüfung kritischer Fakten.

Bilderzeugung mit Nano Banana

Nano Banana ist Googles Name für die Familie der nativen Gemini-Bildmodelle. Die offizielle Dokumentation zur Bilderzeugung beschreibt derzeit mehrere Modell-IDs mit unterschiedlichen Profilen für Geschwindigkeit, Qualität, Referenzen und Auflösung.

Dazu gehören Nano Banana Pro (gemini-3-pro-image), Nano Banana 2 (gemini-3.1-flash-image) und Nano Banana 2 Lite (gemini-3.1-flash-lite-image). Wähle eine konkrete Modell-ID und behandle „Gemini image“ nicht wie einen einzigen Funktionsumfang.

Schreibe vollständige, beschreibende Sätze mit Motiv, Umgebung, Beleuchtung, Bildaufbau, Ausschlüssen und Seitenverhältnis, sofern die Oberfläche diese Angabe unterstützt. Iteriere bei unterstützten Modellen im Gespräch: Erzeuge ein Bild und ändere danach jeweils nur eine Variable.

Schwach:

Make a cool cafe.

Verbessert:

A cozy coffee shop on a rainy afternoon, seen through a foggy window, with warm yellow light inside and blue-gray tones outside. No logos, no readable brand names, 3:2, warm interior / cool exterior contrast.

Warum das besser steuerbar ist: Motiv, Beleuchtung, Bildaufbau, Ausschlüsse und Seitenverhältnis ersetzen eine vage ästhetische Aufforderung.

Zeitabhängige Funktionshinweise aus der aktuellen Dokumentation, die du vor der Veröffentlichung eines Workflows erneut prüfen solltest: Offizielle Materialien beschreiben je nach Modell das Mischen von bis zu 14 Referenzbildern mit unterschiedlichen Kontingenten für Objekte, Figuren und Stile. Für Nano Banana 2 sind 0,5K, 1K, 2K und 4K sowie zusätzliche Seitenverhältnisse dokumentiert. Lite ist laut Dokumentation auf 1K beschränkt und nicht für mehrere Referenzen oder mehrstufige, sequenzielle Bearbeitungen optimiert.

Erzeugte Bilder enthalten ein SynthID-Wasserzeichen. Prüfe vor kommerziellen Workflows mit echten Personen oder Markenmaterial die Nutzungsrichtlinien von Google.

Mehr zur Gestaltung von Bildern findest du im KI-Bild-Prompt-Guide: Stil und Tipps und im Midjourney V8.1 und Nano Banana: Prompt Cheat Sheet. Entdecke auch sofort kopierbare Gemini KI Foto-Prompts mit Beispielen, oder probiere Prompts im Tool für Bild-Prompts aus.

Videoverständnis und Videogenerierung

Videoverständnis analysiert einen vorhandenen Clip, beschreibt ihn, beantwortet Fragen dazu oder extrahiert bestimmte Momente. Siehe Googles Dokumentation zum Videoverständnis. Videogenerierung erzeugt einen neuen Clip aus Text, Bildern oder verwandten Workflows. Fasse beides nicht unter „Gemini video“ zusammen.

Laut der aktuellen Gemini-API-Dokumentation zur Videogenerierung empfiehlt Google Gemini Omni Flash als Standardmodell für Videogenerierung und hebt dabei Schlussfolgerungen über mehrere Eingaben sowie mehrstufige Bearbeitung im Gespräch hervor. Nutze Veo 3.1, wenn du Funktionen wie Szenenerweiterung, Steuerung des letzten Frames oder die Einbindung in ältere Pipelines benötigst.

In der Modellübersicht kann Omni Flash als Preview erscheinen. Behandle Verfügbarkeit und Status als zeitabhängig.

Die aktuelle Gemini-API-Dokumentation zu Veo 3.1 beschreibt etwa acht Sekunden lange Ausgaben in 720p, 1080p oder 4K mit nativ erzeugtem Audio, Videoerweiterung, Workflows mit erstem und letztem Frame, bis zu drei Referenzbildern sowie Querformat 16:9 oder Hochformat 9:16. Das sind dokumentierte Veo-spezifische Optionen, keine allgemeinen Limits für Gemini-Videos.

Beispiel für eine durchgehende Handlung:

A ceramic mug fills with steaming coffee as morning light streams through a kitchen window. Slow push-in on the mug. Warm, golden tones.

Nutze für die SCAAL-Struktur, Kontinuität, die Wahl des Seitenverhältnisses und anbieterübergreifende Workflows ohne Ranglisten den KI-Video-Prompt-Guide: Struktur, Bewegung und Modellwahl. Dieser Abschnitt konzentriert sich auf den Zugang über Gemini und die Unterscheidung zwischen Verständnis und Generierung.

Modell und Kontext ohne Ranglisten wählen

Wähle ein Modell anhand der Aufgabe und der Modellkarte, nicht anhand einer Qualitätsrangliste. Modelle für Text und multimodales Verständnis, Nano-Banana-Bildmodelle und Videomodelle sind unterschiedliche Werkzeuge. Nur als Beispiel: Die Modellseite für gemini-3.5-flash nennt ein Eingabelimit von 1.048.576 Tokens und ein Ausgabelimit von 65.536 Tokens.

Bildmodelle dokumentieren kleinere Kontextfenster. Nenne niemals eine allgemeingültige Kontextgröße für Gemini.

Laut Googles Übersicht zur Interactions API vom Juni 2026 ist Interactions allgemein verfügbar und wird für neue Projekte empfohlen. generateContent wird weiterhin unterstützt. Funktionsgleichheit und Preview-Kennzeichnungen ändern sich. Lies die Dokumentation für den API-Pfad, den du tatsächlich aufrufst.

Dieser Guide stellt keine Rangliste von Gemini und anderen Anbietern auf. Schreibe eine übertragbare Struktur mit Aufgabe, Eingaben, Einschränkungen und Überprüfung und passe sie dann an die an diesem Tag verwendete Oberfläche und das Modell an.

Schwache und verbesserte Beispiele

Die vorherigen Abschnitte zeigen bereits schwache und verbesserte Prompts für Text, Dokumente, Bildverständnis, multimodale Anzeigen, strukturierte Felder, Nano Banana und Video. Das Muster ist jedes Mal gleich:

eine Erfolgsbedingung benennen
Eingaben beschriften
Erfindungen untersagen, wenn Grounding wichtig ist
Ausgabestruktur oder Schema festlegen
einen sichtbaren Überprüfungsschritt definieren

Wenn ein Ergebnis nicht passt, ändere eine Variable: engere Einschränkungen, eine klarere Ausgabeform, ein besser passendes Modell oder einen neuen Chat. Füge nicht fünf neue Ziele im selben Durchlauf hinzu.

Fehlerbehebung

Nicht belegte oder erfundene Fakten: Fordere „Not stated“, hänge Quelldateien an, aktiviere bei Bedarf Search Grounding, verlange Quellenangaben und prüfe die Aussagen außerhalb des Modells.
Ignorierte Formatierung: Wiederhole die Ausgabestruktur, nutze JSON Schema in der API oder starte einen neuen Chat, wenn der Verlauf vom Ziel abgewichen ist.
Überladene Prompts: Teile Aufgaben auf, behalte eine TCI-COEV-Erfolgsbedingung bei und iteriere.
Widersprüchliche Anweisungen: Lege dauerhafte Regeln in der Systemanweisung ab, löse Konflikte ausdrücklich und entferne Duplikate.
Schwaches Quellen-Grounding: Hänge Dokumente an, nutze das Grounding-Tool, fordere Zitate oder URLs an und lasse kritische Aussagen von einem Menschen prüfen.
Unpassende Funktion: Erwarte nicht, dass ein Chat Schema-Validierung garantiert, ein Textmodell Bilder erzeugt, Veo der Standard für dialogorientierte Generierung ist, obwohl Omni Flash als Standardpfad für die Generierung dokumentiert ist, oder Lite-Bildmodelle aufwendige sequenzielle Bearbeitungen mit vielen Referenzen bewältigen. Ordne Aufgabe → Oberfläche → Modellkarte einander zu.

Fordere das Modell nicht auf, verborgene Gedankengänge als Überprüfung offenzulegen. Nutze stattdessen den Schritt Verification in TCI-COEV.

Checkliste vor dem Absenden

Aufgabe und Erfolgsbedingung sind ausdrücklich genannt
Der Kontext legt fest, was nicht erfunden werden darf
Eingaben sind angehängt oder eingefügt und beschriftet
Einschränkungen decken Länge, Ton und Ausschlüsse ab
Die Ausgabestruktur ist festgelegt oder das Schema in der API konfiguriert
Die Oberfläche passt zur Aufgabe, also App, Studio, API oder Vertex
Die Modellfunktionen passen zur Aufgabe, also Text, Bilderzeugung, Videogenerierung oder Verständnis
Zeitabhängige Limits für Dauer, Auflösung, Referenzen und Tokens wurden am selben Tag auf der offiziellen Modell- oder Dokumentationsseite geprüft
Grounding oder Tools sind nur aktiviert, wenn sie benötigt werden und verfügbar sind
Ein Überprüfungsschritt ist festgelegt, etwa Quellenangaben, Schema-Validierung, Stichprobe oder visuelle Qualitätskontrolle
Eine Variable ist ausgewählt, die du änderst, wenn das erste Ergebnis nicht passt
Keine Aufforderung zur Offenlegung verborgener Gedankengänge

Das Wichtigste

Prompte Gemini mit einer klaren Aufgabe, beschrifteten Eingaben, Einschränkungen und einer überprüfbaren Ausgabeform. Wähle die passende Oberfläche und das passende Modell für Text, Dateien, Bildverständnis, Nano-Banana-Generierung, Videoverständnis oder Videogenerierung.

Behandle Omni Flash und Veo, App und API sowie Verständnis und Generierung als unterschiedliche Entscheidungen. Prüfe wichtige Ergebnisse selbst und verbessere den Prompt anschließend mit jeweils einer Änderung.

Verbessere deinen Prompt im Text-Tool

Google Gemini prompten: Text, Dateien, Bilder und Video

GetBetterPrompts Editorial Team · Aktualisiert am 14. Juli 2026

Task: [what to produce] Context: [who it's for; known facts; do not invent X] Inputs: [list attached files/images and what they are] Constraints: [length, tone, exclusions] Output structure: [bullets / table / JSON fields…] Examples: [optional short sample] Verification: [cite sources | validate JSON | check 3 facts | compare to checklist]

Task: Write a 200-word briefing for a team lead deciding whether to keep hybrid work. Context: B2B SaaS, 40-person company, no HR legal advice. Constraints: Neutral tone; 3 short sections with headings; no statistics unless labeled as illustrative. Output structure: Heading + 2 bullets per section. Verification: Flag any claim that would need a citation.

You are analyzing the attached PDF (Q2 product roadmap). Task: Extract decisions, owners, and open questions. Constraints: Use only information visible in the PDF; if a field is missing, write "Not stated". Output structure: Markdown table with columns Decision | Owner | Due date | Open question. Verification: Quote a short phrase from the PDF next to each Decision.

Attached: store-shelf photo. Task: List visible SKUs and any price tags you can read. Constraints: Do not guess occluded text; say "unreadable" instead. Output structure: Numbered list: item name | estimated facing count | price text or unreadable. Verification: Separate "Visible" from "Inferred" if you must interpret packaging.

Inputs: (1) product photo of a matte black water bottle; (2) pasted brand voice notes below. Task: Propose 3 Instagram captions. Constraints: No health claims; mention dishwasher-safe only if visible on the label in the photo; max 40 words each. Output structure: Caption | on-image text overlay ≤6 words | rationale (1 sentence). Verification: Mark any detail not visible in the photo as "from brand notes" or omit it.

Fields: vendor (string), invoice_date (YYYY-MM-DD or null), total (number or null), currency (string or null), line_items (array of {description, amount}) Rule: null when not present; do not invent totals.