٣ مايو ٢٠٢٦ 3 min read Any AI Studio

Seedance 2.0 ولحظة multi-input للفيديو

تسع صور مرجعية. ثلاثة مقاطع مرجعية. ثلاثة مسارات صوتية. قضينا أسبوعًا نحاول كسر Seedance 2.0 — وإليك أين يبرع وأين لا يزال يتعثّر.

فيديو
النماذج
إصدارات

معظم نماذج الفيديو تأخذ برومبتًا. Seedance 2.0، الذي أطلقته ByteDance في وصول مبكر في مارس وأتاحته عامًّا هذا الأسبوع، يأخذ شيئًا أقرب إلى بريف إخراجي: حتى تسع صور مرجعية، ثلاثة مقاطع مرجعية، ثلاثة مسارات صوتية، و برومبت. كنّا نضربه أسبوعًا. القدرة حقيقية، الحواف الخشنة حقيقية أيضًا، وحالات الاستخدام التي يفوز فيها ليست ما توقّعنا.

لماذا multi-input فئة، لا ميزة

ما كانت نماذج الفيديو سيّئة فيه — عبر كل مزوّد — هو الاتّساق. ولّد ثلاثة مقاطع لـ «امرأة تمشي في مقهى» وستحصل على ثلاث نساء مختلفات في ثلاثة مقاهٍ مختلفة. للستوريبورد، عمل العلامات، الفيديوهات الموسيقية، المحتوى المتسلسل، تلك هي العقبة الفعلية. البصريات تبدو جيّدة منفصلة؛ تتوقّف عن النفع لحظة احتياج مشهد B أن يبدو كأنّه ينتمي لنفس عالم مشهد A.

multi-input يحلّ هذا بأن يقول لك «هكذا تبدو الشخصية (الصورة 1)، هكذا الغرفة (الصورة 2)، هذه المزاج المطلوب (المقاطع 1 و 2)، هذه الموسيقى (الصوت 1)». Seedance 2.0 ليس أوّل من حاول هذا — Pika كانت لها نسخة، Runway لها بيتا — لكنّه أوّل من ينجح بما يكفي لنوصي ببناء تدفّق حوله.

أين يفوز فعلًا

بعد أسبوع من اختبار الإجهاد، ثلاث فئات فوز واضح:

ستوريبورد للفيديو القصير. خذ ديك مراجع علامة، حمّل 4–6 صور ثابتة في Seedance، وستستطيع توليد تسلسل مقاطع تتشارك هويّة بصرية. كنّا نحصل على نحو 80٪ اتّساق شخصية عبر تسلسلات من 8 مقاطع، يكفي ليكون مفيدًا في حلقة إنتاج حقيقية (الـ 20٪ السيّئ يُعاد توليده).

فيديوهات موسيقى وتسلسلات مقفلة بالإيقاع. مدخل مسار الصوت ليس لتوليد الصوت — Seedance صامت — بل لـ الإيقاع. ألقِ مقطع 30 ثانية من أغنيتك ويقطّع النموذج الحركة على النبضات. جرّبنا هذا على ثلاث أغانٍ حقيقية والنتيجة تراوحت من «حسنًا، نقطة انطلاق مفيدة» إلى «هذا قابل للتسليم بتعديلات خفيفة». مقارنةً بتوليد المقاطع صامتة ثم تعديلها على الموسيقى لاحقًا، ساعات موفّرة.

حركة منتج متّسقة مع العلامة. حمّل صورة منتج ثابتة وثلاثة مراجع أسلوب علامة؛ ولّد المنتج وهو يدور، في حركة، في سياق. يبقى المنتج نفسه ثابتًا بشكل ملحوظ عبر التوليدات بطريقة لا يستطيعها prompt-only. هل يبدو السياق حوله كعلامتك، فأمره أنجح أو أفشل، لكنّه لم يعد الاختناق.

أين لا يزال يتعثّر

للنموذج نقاط ضعف واضحة لا نظنّ إعلان الإطلاق سيخبرك بها:

حركة طويلة الأمد. أي شيء يتجاوز 10–12 ثانية يتدهور اتّساقه بحدّة. يحفظ النموذج الثواني الأولى جيّدًا، يتشتّت في الوسط، ويسترجع أحيانًا في النهاية فقط. للآن نعامله مولّد مقاطع، لا مولّد مشاهد.
مطابقة صوت معقّدة. الإيقاع على مسار واحد instrumental: يعمل. الإيقاع على حوار أو مسار بأقسام متعدّدة متمايزة: متذبذب. يلتقط النموذج التِمبو لكنّه يصارع مع الإشارات البنيوية كانتقال verse-chorus.
الأيدي والأقدام. تحفّظ معياري — Seedance ليس أفضل من البقيّة هنا. تأطير اليد أو القدم القريب لا يزال حيث تكسر نماذج الفيديو.

كيف نستخدمه

في الاستوديو، يجلس Seedance 2.0 في منتقي الفيديو كالبقيّة لكن بواجهة افتراضية مختلفة: لوحة المدخلات تعرض خانات مرجع في الواجهة، لأن النموذج مقصود أن يُغذّى بمراجع. إن قدّمت برومبت نصّ فقط، ستحصل على شيء مقبول لكنّك تستخدم النموذج بالطريقة الخطأ — مثل استخدام FLUX دون تحديد أسلوب.

أضفنا نمط «مجموعة مرجع» إلى الاستوديو مع هذا الإطلاق: ارفع مجموعة صور ثابتة مرّة، سمّها («ديك علامة Northbreak»، «Maya الشخصية»)، وتتوفّر عبر نماذج الفيديو التي تدعم المراجع — لا Seedance وحده. نفس مجموعة المرجع تستطيع تشغيل تسلسل Seedance واستمرار Kling في نفس المشروع.

أين يقع في القائمة

Seedance 2.0 لا يستبدل شيئًا في منطق التوصية. HappyHorse لا يزال الافتراضي للفيديو-صوت المشترك. Veo لا يزال لقطة hero السينمائية. Grok Imagine لا يزال الافتراضي للسوشيال. Seedance هو الخيار المدفوع بالبريف — لمن لديه نيّة بصرية واضحة مدعومة بمرجع ويريد أن يكون الاتّساق هو الميزة الرئيسة.

أضفه إلى الدورة. لا تتقاعد شيئًا لإفساح المكان.

وجدت خطأً أو تريد الاعتراض؟ راسلنا .