كيف تستخدم Google Gemini: النص والملفات والصور والفيديو

GetBetterPrompts Editorial Team · آخر تحديث 14 يوليو 2026

Google Gemini عائلة من النماذج وواجهات المنتجات المخصصة للنصوص والملفات والصور والفيديو، وليس روبوت محادثة واحدًا يمكن استخدامه بالطريقة نفسها في كل مكان. يوضح هذا الدليل كيف تكتب برومبتات قابلة للضبط في تطبيق Gemini وواجهات المطورين، والفرق بين تعليمات النظام والمخرجات المنظمة والمحادثة العادية، وموقع توليد الصور عبر Nano Banana وخيارات الفيديو الحالية، من دون اعتبار كل نموذج وسائط من Google أداة واحدة.

ما معنى كتابة برومبتات لـ Gemini اليوم؟

لكتابة برومبت فعال لـ Gemini، حدّد المهمة بدقة، وأرفق أو الصق المدخلات التي ينبغي للنموذج استخدامها، ثم ضع القيود وبنية المخرجات، وتحقق من النتيجة وفق هذه المتطلبات. تعامل مع الإجابة الأولى بوصفها مسودة. تؤكد استراتيجيات تصميم البرومبتات من Google أهمية التعليمات الواضحة والقيود وتنسيق الاستجابة الصريح، وتتعامل مع كتابة البرومبتات بوصفها عملية تكرارية.

Gemini ليس منتجًا واحدًا. يتيح تطبيق Gemini للمستخدمين وGoogle AI Studio وGemini API وVertex AI مفاهيم متداخلة، لكن لكل منها عناصر تحكم مختلفة. فهم الصور ليس هو توليد الصور عبر Nano Banana، وفهم الفيديو ليس هو توليده. تشير مساعدة تطبيقات Gemini أيضًا إلى أن النظام قد يخطئ، لذلك تحقّق من الإجابات المهمة.

تختص هذه الصفحة بمنتجات Gemini. للمبادئ العامة، راجع ما هي هندسة البرومبت؟ دليل عملي. ولتقنيات الفيديو القابلة للنقل بين النماذج، راجع دليل برومبت الفيديو: البنية والحركة واختيار النموذج. ولأساسيات الصور المحايدة تجاه النماذج، راجع دليل برومبت الصور: الأسلوب والإضاءة والنصائح.

اختر واجهة Gemini المناسبة

اختر الواجهة التي تناسب المهمة. توفر ميزة في مكان واحد لا يعني أنها متاحة تلقائيًا في كل واجهات Gemini.

تطبيق Gemini للمستخدمين (مساعدة تطبيقات Gemini): للمحادثات اليومية والمسودات والملخصات والأسئلة والأجوبة متعددة الوسائط وتحميل الملفات والصور حين تكون هذه الميزات متاحة. تعمل برومبتات اللغة الطبيعية جيدًا هنا، لكنه ليس بديلًا عن system_instruction أو مخطط JSON أو تعريفات الدوال في API.
Google AI Studio (aistudio.google.com): لتجارب المطورين على نماذج النصوص والوسائط المتعددة في Gemini، وNano Banana، ونماذج الفيديو، والأدوات ذات الصلة، قبل نقل البرومبت إلى تطبيق.
Gemini API (فهرس النماذج): لبناء تطبيقات باستخدام نماذج النصوص والوسائط المتعددة ونماذج الصور والفيديو وتعليمات النظام والمخرجات المنظمة واستدعاء الدوال والإسناد والمدخلات من الملفات. مصفوفة الإمكانات خاصة بكل معرّف نموذج.
Vertex AI / Gemini Enterprise Agent Platform (نظرة عامة على الذكاء الاصطناعي التوليدي): للنشر المؤسسي والحوكمة والإسناد ضمن منظومة Google Cloud. قد تختلف وحدة التحكم وإدارة الهوية والوصول والفوترة وتوقيت الإطلاق عن Gemini API الموجه للمستخدمين.

إمكانات واجهة المنتج وإمكانات API مترابطة، لكنها ليست متطابقة. تحقّق دائمًا من الواجهة التي تستخدمها فعلًا.

قائمة TCI-COEV لبرومبتات Gemini

يستخدم هذا الدليل إطار TCI-COEV: المهمة، والسياق، والمدخلات، والقيود، وبنية المخرجات، والأمثلة، والتحقق. إنها قائمة عملية أعدّها GetBetterPrompts وليست معيارًا متعارفًا عليه في المجال. تظهر أفكار مشابهة في وثائق Google لتصميم البرومبتات وفي ميزات API مثل تعليمات النظام والمخططات والأدوات.

Task: [what to produce]
Context: [who it's for; known facts; do not invent X]
Inputs: [list attached files/images and what they are]
Constraints: [length, tone, exclusions]
Output structure: [bullets / table / JSON fields…]
Examples: [optional short sample]
Verification: [cite sources | validate JSON | check 3 facts | compare to checklist]

تجاوز الأجزاء الفارغة. اجعل التحقق قائمًا على فحوص مرئية، مثل الاستشهادات أو التحقق من المخطط أو الفحص بالعينة أو مراجعة المخرجات بصريًا. لا تطلب من النموذج كشف سلسلة التفكير الخفية أو الاستدلال الداخلي الخاص بوصفهما دليلًا على صحة الإجابة. تستخدم بعض نماذج Gemini عملية تفكير داخلية، لكن ينبغي التعامل معها كسلوك للنموذج، لا كطريقة تحقق للمستخدم. راجع وثائق التفكير من Google.

برومبتات نصية قابلة للضبط

في المهام النصية، ضع المهمة أولًا ثم القواعد. اطلب التنسيق الذي تحتاج إليه: فقرات أو نقاط أو جدول أو أقسام معنونة. إذا انحرفت المحادثة عن الهدف، فابدأ محادثة جديدة بدلًا من تكديس تصحيحات متعارضة.

ضعيف:

Write about remote work.

محسّن:

Task: Write a 200-word briefing for a team lead deciding whether to keep hybrid work.
Context: B2B SaaS, 40-person company, no HR legal advice.
Constraints: Neutral tone; 3 short sections with headings; no statistics unless labeled as illustrative.
Output structure: Heading + 2 bullets per section.
Verification: Flag any claim that would need a citation.

لماذا يسهل ضبطه؟ حلت المهمة والجمهور والاستبعادات والبنية والتحقق محل موضوع مفتوح بلا حدود.

مثال في تطبيق المستخدم: «أكتب مسودة رسالة بريد إلكتروني إلى عميل. اجعلها في أقل من 120 كلمة، وبنبرة ودودة، ومن دون رموز تعبيرية. اطرح سؤالًا توضيحيًا واحدًا في النهاية إذا كانت سياسة استرداد الأموال غير واضحة. هذه هي المسودة: …»

لأنماط كتابة قابلة للاستخدام خارج Gemini، راجع كيف تكتب برومبتات أفضل للذكاء الاصطناعي (مع أمثلة).

الملفات وملفات PDF وتحليل المستندات

حين يكون المصدر موجودًا في ملف، أرفقه بدلًا من إعادة صياغته اعتمادًا على الذاكرة. تشرح وثائق فهم المستندات من Google تحليل ملفات PDF بالرؤية الأصلية للمهام التي تراعي التخطيط، مثل التعامل مع النصوص والجداول والمخططات. يفضّل استخدام Files API للمستندات الكبيرة أو المتكررة الاستخدام. تتغير حدود الصفحات والحجم بمرور الوقت، لذا تأكد منها في الصفحة الخاصة بالواجهة التي تستخدمها.

ضعيف:

Summarize this PDF.

محسّن:

You are analyzing the attached PDF (Q2 product roadmap).
Task: Extract decisions, owners, and open questions.
Constraints: Use only information visible in the PDF; if a field is missing, write "Not stated".
Output structure: Markdown table with columns Decision | Owner | Due date | Open question.
Verification: Quote a short phrase from the PDF next to each Decision.

لماذا يسهل ضبطه؟ يعتمد النموذج على الملف، ويُمنع من اختلاق المعلومات، وترتبط كل معلومة بمقتطف يمكن التحقق منه.

فهم الصور والمدخلات متعددة الوسائط

فهم الصور يعني تحليل صورة موجودة، وليس توليد صورة. تغطي وثائق فهم الصور من Google كتابة الأوصاف والإجابة عن الأسئلة البصرية. تعمل البرومبتات متعددة الوسائط على نحو أفضل حين تسمي كل مدخل وتحدد ما يجب استخلاصه من الصورة وما يجب أخذه من ملاحظاتك.

برومبت ضعيف لفهم الصور:

What's in this image?

محسّن:

Attached: store-shelf photo.
Task: List visible SKUs and any price tags you can read.
Constraints: Do not guess occluded text; say "unreadable" instead.
Output structure: Numbered list: item name | estimated facing count | price text or unreadable.
Verification: Separate "Visible" from "Inferred" if you must interpret packaging.

لماذا يسهل ضبطه؟ يفصل بين الإدراك والاستنتاج ويحد من اختلاق النصوص غير المقروءة.

برومبت ضعيف متعدد الوسائط:

Compare these and write ads.

محسّن:

Inputs: (1) product photo of a matte black water bottle; (2) pasted brand voice notes below.
Task: Propose 3 Instagram captions.
Constraints: No health claims; mention dishwasher-safe only if visible on the label in the photo; max 40 words each.
Output structure: Caption | on-image text overlay ≤6 words | rationale (1 sentence).
Verification: Mark any detail not visible in the photo as "from brand notes" or omit it.

لماذا يسهل ضبطه؟ يربط الادعاءات بمدخلات محددة، ويفصل الحقائق المرئية عن الملاحظات المقدمة.

تعليمات النظام والمخرجات المنظمة والأدوات

تعليمات النظام: في Gemini API، ضع قواعد الدور والنبرة والتنسيق الدائمة في system_instruction، وأبقِ المهمة الخاصة بكل طلب في مدخل المستخدم. راجع وثائق توليد النصوص من Google وإرشادات تعليمات النظام في Vertex. غالبًا ما يدمج تطبيق المستخدم القواعد الدائمة والمهمة المحددة في رسالة واحدة. تفيد ميزات المنتجات ذات الصلة، مثل التعليمات المخصصة أو Gems، لكنها لا تطابق system_instruction في API.

نمط موجّه إلى API:

system_instruction: “You rewrite customer-support email drafts. Tone: plain, friendly, no emojis. Never invent policy. If policy is missing, ask one clarifying question instead of asserting terms.”
مدخل المستخدم: Rewrite this draft under 120 words: …

لماذا يسهل ضبطه؟ تبقى القواعد الدائمة ثابتة عبر الطلبات، بينما يحمل كل طلب الحالة الخاصة به فقط.

المخرجات المنظمة: حين تحتاج إلى حقول تقرؤها الآلة، اضبط المخرجات المنظمة باستخدام مخطط JSON في API بدلًا من افتراض أن JSON الناتج من المحادثة سيكون صالحًا للتحليل دائمًا. راجع المخرجات المنظمة.

ضعيف، في المحادثة فقط:

Return JSON with the invoice fields.

محسّن، عقد حقول موجّه إلى API:

Fields: vendor (string), invoice_date (YYYY-MM-DD or null), total (number or null), currency (string or null), line_items (array of {description, amount})
Rule: null when not present; do not invent totals.

لماذا يسهل ضبطه؟ تتفوق حقول المخطط مع سياسة للقيم الفارغة على طلب مفتوح مثل «أعد JSON».

استدعاء الدوال والأدوات: يستطيع النموذج اقتراح استدعاءات للأدوات، لكن يجب أن يعرّفها تطبيقك وينفذها. راجع استدعاء الدوال. لا يشغّل النموذج نظامك الخلفي تلقائيًا.

الإسناد والتحقق من المصادر الظاهرة: تُعد ميزة الإسناد باستخدام Google Search أداة في API يمكنها جلب مصادر من الويب وإرجاع استشهادات عند تفعيلها لنموذج مدعوم. تختلف ميزات البحث في تطبيق المستخدم من حيث عناصر التحكم. يحسّن الإسناد دقة الحقائق، لكنه لا يلغي ضرورة التحقق بنفسك من المعلومات المهمة.

توليد الصور باستخدام Nano Banana

Nano Banana هو الاسم الذي تستخدمه Google لعائلة توليد الصور الأصلية في Gemini. تصف وثائق توليد الصور الرسمية حاليًا عدة معرّفات نماذج تختلف في السرعة والجودة والمراجع والدقة، ومنها Nano Banana Pro ‏(gemini-3-pro-image) وNano Banana 2 ‏(gemini-3.1-flash-image) وNano Banana 2 Lite ‏(gemini-3.1-flash-lite-image). اختر معرّف نموذج محددًا، ولا تتعامل مع «صور Gemini» كأنها مجموعة إمكانات واحدة.

اكتب البرومبت بجمل وصفية كاملة تشمل الموضوع والمكان والإضاءة والتكوين والاستبعادات ونسبة الأبعاد حين تدعمها الواجهة. كرر التحسين عبر المحادثة في النماذج المدعومة: ولّد الصورة، ثم غيّر متغيرًا واحدًا في كل مرة.

ضعيف:

Make a cool cafe.

محسّن:

A cozy coffee shop on a rainy afternoon, seen through a foggy window, with warm yellow light inside and blue-gray tones outside. No logos, no readable brand names, 3:2, warm interior / cool exterior contrast.

لماذا يسهل ضبطه؟ حل الموضوع والإضاءة والتكوين والاستبعادات والنسبة محل طلب جمالي مبهم.

ملاحظات عن الإمكانات الحالية التي قد تتغير بمرور الوقت، لذا أعد التحقق قبل إطلاق سير عمل: تصف المواد الرسمية مزج ما يصل إلى 14 صورة مرجعية، مع حصص مختلفة للموضوعات والشخصيات والأساليب بحسب النموذج. توثّق Nano Banana 2 دقات 0.5K و1K و2K و4K ونسب أبعاد إضافية، بينما يوثّق نموذج Lite بدقة 1K فقط، وهو غير محسّن لاستخدام مراجع متعددة أو التحرير التسلسلي متعدد الجولات.

تتضمن الصور المولّدة علامة SynthID المائية. راجع سياسات الاستخدام لدى Google قبل تنفيذ أعمال تجارية تشمل أشخاصًا حقيقيين أو أصول علامات تجارية.

للتعمق في صياغة صور أفضل، راجع دليل برومبت الصور: الأسلوب والإضاءة والنصائح وورقة مرجعية لبرومبتات Midjourney V8.1 وNano Banana. تصفّح أيضًا برومبتات صور Gemini الجاهزة للنسخ مع أمثلة، أو جرّب البرومبتات في أداة برومبت الصور.

فهم الفيديو مقابل توليد الفيديو

فهم الفيديو يحلل مقطعًا موجودًا، فيصفه أو يجيب عن أسئلة حوله أو يستخرج لحظات منه. راجع وثائق فهم الفيديو من Google. أما توليد الفيديو فينشئ مقطعًا جديدًا من نصوص أو صور أو مسارات عمل ذات صلة. لا تدمج الاثنين تحت مسمى «فيديو Gemini».

وفق وثائق توليد الفيديو الحالية في Gemini API، توصي Google باستخدام Gemini Omni Flash نموذجًا افتراضيًا لتوليد الفيديو، وتبرز قدرته على الاستدلال بمدخلات متعددة والتحرير الحواري متعدد الجولات. استخدم Veo 3.1 حين تحتاج إلى إمكانات مثل تمديد المشهد أو التحكم في الإطار الأخير أو التكامل مع مسارات العمل القديمة. قد يظهر Omni Flash في فهرس النماذج بوصفه إصدارًا تجريبيًا، لذا تعامل مع إتاحته وحالته كمعلومات قابلة للتغير.

تصف وثائق Veo 3.1 الحالية في Gemini API مخرجات مدتها نحو 8 ثوانٍ بدقات 720p أو 1080p أو 4K، مع صوت مولّد أصلًا، وتمديد الفيديو، ومسارات عمل الإطارين الأول والأخير، وما يصل إلى ثلاث صور مرجعية، وبنسبة عرض أفقية 16:9 أو رأسية 9:16. هذه خيارات موثقة خاصة بـ Veo، وليست حدودًا عامة لكل فيديوهات Gemini.

مثال على حركة واحدة متصلة:

A ceramic mug fills with steaming coffee as morning light streams through a kitchen window. Slow push-in on the mug. Warm, golden tones.

لبنية SCAAL والاستمرارية وشرح نسب الأبعاد واختيار سير العمل بين مزودين مختلفين من دون ترتيبهم، استخدم دليل برومبت الفيديو: البنية والحركة واختيار النموذج. أبقِ هذا القسم مركزًا على الوصول عبر Gemini والفرق بين الفهم والتوليد.

اختيار النموذج والسياق من دون ترتيب

اختر النموذج وفق المهمة وبطاقة النموذج، لا وفق قائمة لترتيب الجودة. تختلف نماذج فهم النصوص والوسائط المتعددة عن نماذج الصور في Nano Banana وعن نماذج الفيديو. مثال فقط: تسرد صفحة نموذج gemini-3.5-flash حدًا أقصى للمدخلات يبلغ 1,048,576 رمزًا وحدًا أقصى للمخرجات يبلغ 65,536 رمزًا. توثّق نماذج الصور نوافذ أصغر. لا تذكر أبدًا حجم سياق واحدًا ينطبق على كل نماذج Gemini.

وفق نظرة عامة على Interactions API الصادرة عن Google في يونيو 2026، أصبحت Interactions متاحة للجميع ويوصى بها للأعمال الجديدة، بينما لا يزال generateContent مدعومًا. تتغير درجة تكافؤ الميزات وشارات الإصدارات التجريبية، لذا اقرأ وثائق مسار API الذي تستدعيه.

لا يرتب هذا الدليل Gemini مقارنة بمزودين آخرين. اكتب بنية قابلة للنقل، تشمل المهمة والمدخلات والقيود والتحقق، ثم كيّفها مع الواجهة والنموذج اللذين تستخدمهما في ذلك اليوم.

أمثلة ضعيفة ومحسّنة

عرضت الأقسام السابقة بالفعل برومبتات ضعيفة ومحسّنة للنصوص والمستندات وفهم الصور والإعلانات متعددة الوسائط والحقول المنظمة وNano Banana والفيديو. يتكرر النمط نفسه في كل مرة:

حدّد شرط نجاح واحدًا
سمِّ المدخلات
امنع اختلاق المعلومات حين يكون الإسناد مهمًا
حدّد بنية المخرجات أو المخطط
عرّف خطوة تحقق ظاهرة

إذا أخفقت النتيجة، فغيّر متغيرًا واحدًا: قيودًا أكثر دقة، أو شكل مخرجات أوضح، أو نموذجًا أنسب، أو محادثة جديدة. لا تضف خمسة أهداف جديدة في الطلب نفسه.

حل المشكلات

حقائق غير مدعومة أو مختلقة: اشترط كتابة «غير مذكور»، وأرفق ملفات المصادر، وفعّل الإسناد عبر البحث حين يكون مناسبًا، واطلب الاستشهادات، وتحقق خارج النموذج.
تجاهل التنسيق: أعد تحديد بنية المخرجات، واستخدم مخطط JSON في API، أو ابدأ محادثة جديدة إذا انحرف السياق.
برومبتات مثقلة: قسّم المهام، واحتفظ بشرط نجاح واحد في TCI-COEV، ثم كرر التحسين.
تعليمات متعارضة: ضع القواعد الدائمة في تعليمات النظام، وحل التعارضات بوضوح، واحذف التكرار.
إسناد ضعيف إلى المصادر: أرفق المستندات، واستخدم أداة الإسناد، واطلب اقتباسات أو روابط، ودع شخصًا يتحقق من المعلومات المهمة.
عدم تطابق الإمكانات: لا تتوقع من المحادثة ضمان صلاحية المخطط، ولا من نموذج نصي توليد الصور، ولا من Veo أن يكون الخيار الحواري الافتراضي حين توثّق Omni Flash بوصفه مسار التوليد الافتراضي، ولا من نماذج الصور Lite تنفيذ تعديلات تسلسلية كثيفة تعتمد على مراجع متعددة. طابق المهمة مع الواجهة ثم بطاقة النموذج.

لا تطلب من النموذج كشف سلسلة التفكير الخفية للتحقق. استخدم خطوة التحقق في TCI-COEV بدلًا منها.

قائمة التحقق قبل الإرسال

المهمة وشرط النجاح محددان بوضوح
السياق يحدد ما يجب عدم اختلاقه
المدخلات مرفقة أو ملصقة ومسمّاة
القيود تغطي الطول والنبرة والاستبعادات
بنية المخرجات محددة، أو المخطط مضبوط في API
الواجهة تناسب المهمة: التطبيق أو Studio أو API أو Vertex
إمكانات النموذج تناسب المهمة: نص أو توليد صور أو توليد فيديو أو فهم محتوى
تم التحقق في اليوم نفسه من الحدود القابلة للتغير، مثل المدة والدقة والمراجع والرموز، في صفحة النموذج أو الوثائق الرسمية
لا يُفعّل الإسناد أو الأدوات إلا عند الحاجة وحين تكون متاحة
خطوة التحقق محددة: استشهادات أو التحقق من المخطط أو الفحص بالعينة أو المراجعة البصرية
تم اختيار متغير واحد لتغييره إذا أخفقت النتيجة الأولى
لا يوجد طلب لكشف سلسلة التفكير الخفية

الخلاصة

اكتب برومبتًا لـ Gemini يتضمن مهمة واضحة ومدخلات مسمّاة وقيودًا وشكل مخرجات يمكن التحقق منه. اختر الواجهة والنموذج المناسبين للنصوص أو الملفات أو فهم الصور أو التوليد عبر Nano Banana أو فهم الفيديو أو توليده. تعامل مع Omni Flash وVeo، والتطبيق وAPI، والفهم والتوليد، بوصفها خيارات منفصلة. تحقّق بنفسك من النتائج المهمة، ثم حسّن البرومبت بتغيير واحد في كل مرة.

المصادر

حسّن برومبتك باستخدام أداة النص

كيف تستخدم Google Gemini: النص والملفات والصور والفيديو

GetBetterPrompts Editorial Team · آخر تحديث 14 يوليو 2026

Task: [what to produce] Context: [who it's for; known facts; do not invent X] Inputs: [list attached files/images and what they are] Constraints: [length, tone, exclusions] Output structure: [bullets / table / JSON fields…] Examples: [optional short sample] Verification: [cite sources | validate JSON | check 3 facts | compare to checklist]

Task: Write a 200-word briefing for a team lead deciding whether to keep hybrid work. Context: B2B SaaS, 40-person company, no HR legal advice. Constraints: Neutral tone; 3 short sections with headings; no statistics unless labeled as illustrative. Output structure: Heading + 2 bullets per section. Verification: Flag any claim that would need a citation.

You are analyzing the attached PDF (Q2 product roadmap). Task: Extract decisions, owners, and open questions. Constraints: Use only information visible in the PDF; if a field is missing, write "Not stated". Output structure: Markdown table with columns Decision | Owner | Due date | Open question. Verification: Quote a short phrase from the PDF next to each Decision.

Attached: store-shelf photo. Task: List visible SKUs and any price tags you can read. Constraints: Do not guess occluded text; say "unreadable" instead. Output structure: Numbered list: item name | estimated facing count | price text or unreadable. Verification: Separate "Visible" from "Inferred" if you must interpret packaging.

Inputs: (1) product photo of a matte black water bottle; (2) pasted brand voice notes below. Task: Propose 3 Instagram captions. Constraints: No health claims; mention dishwasher-safe only if visible on the label in the photo; max 40 words each. Output structure: Caption | on-image text overlay ≤6 words | rationale (1 sentence). Verification: Mark any detail not visible in the photo as "from brand notes" or omit it.

Fields: vendor (string), invoice_date (YYYY-MM-DD or null), total (number or null), currency (string or null), line_items (array of {description, amount}) Rule: null when not present; do not invent totals.