تخطى إلى المحتوى
Any AI
افتح التطبيق
← كل المقالات
3 min read Any AI Studio

HappyHorse 1.0: أوّل نموذج فيديو يضبط الصوت المتزامن

أطلقت Alibaba نموذج HappyHorse 1.0 هذا الأسبوع. البصريات مدهشة. ما لم يحلّه أحد قبله — التوليد المشترك للصوت والصورة — هو ما يجعله الافتراضي الجديد في قائمتنا.

  • فيديو
  • إصدارات
  • النماذج

أطلقت Alibaba نموذج HappyHorse 1.0 يوم الخميس. بنهاية اليوم كان في صدارة تصنيفات الفيديو العامّة، وبنهاية الأسبوع كان الحديث الوحيد في مجموعتنا عن كيف يعمل الصوت فعلًا. نعلنها: هذا أوّل نموذج text-to-video متاح عامًّا تطابق فيه الصوت مع الصورة بحكم التصميم، لا بسبب لِب-سِنك مُلصَق لاحقًا. هذا يغيّر القائمة. ويغيّر أيضًا نوع العمل الذي يمكنك إخراجه بمصداقية من خطّ إنتاج توليدي.

مشكلة تزامن الصوت، باختصار

معظم «text-to-video بصوت» حتى الآن كان خطّي إنتاج خِيطا معًا. النموذج البصري يولّد مقطعًا. نموذج صوت منفصل يولّد الصوت. مرحلة ثالثة تحاول محاذاتهما — مطابقة نباح الكلب لفم الكلب، صفقة الباب لإغلاقه، علوّ الموسيقى لحركة الكاميرا. اللحامات تظهر، خصوصًا في الحوار. ترى شخصًا يتكلّم. أشكال شفتيه لا تطابق المقاطع. الدماغ يلاحظ فورًا.

الحلّ ليس برنامج لِب-سِنك أفضل. بل تدريب المسارين البصري والصوتي معًا، فيستدلّ النموذج على الصوت والصورة كإشارة واحدة. هذا صعب لأسباب عملية (بيانات التدريب أفوض وأغلى في الاختيار) ومعمارية (تحتاج cross-modal attention لا يُضعِف أحد المسارين). HappyHorse 1.0 أوّل نموذج يُطلق هذا مشتركًا، بجودة، في الإنتاج.

ما يجيده فعلًا

أسبوع من استخدامه على بريفات حقيقية، والفوائد ملموسة:

الحوار. لِب-سِنك صحيح للمقاطع، لا فقط لحركات الفم. ضغط الكلمة الصحيحة يطابق رفع الحاجب. نمط التواصل البصري يطابق إيقاع السطر. هذا الجزء بدا خيالًا علميًّا في برومبتنا الأوّل وأصبح الآن الجزء الذي نعتمد عليه أشدّ اعتماد.

Foley. الأقدام تقع على الإطارات التي تقع فيها القدم. الأبواب تُغلق على الإطار الذي تُغلق فيه. اسكب كأس ماء وصوت الماء يبدأ حين تميل شفة الإبريق، لا بعد 200ms.

الموسيقى التصويرية. حين يطلب البرومبت موسيقى، الموسيقى لها بنية تطابق البنية البصرية — تعلو على الحركة، تضرب على القطعات. ليست بمستوى «ملحّن محترف»، لكنّها بمستوى «صانع مشهد مستقلّ كفء»، وهذا أفضل بكثير من أي صوت توليدي آخر دمجناه.

ما لا يزال يحتاج جيلًا آخر

النموذج ليس سحرًا. ثلاثة مجالات لا نزال نرقّعها يدويًّا:

  • هويّة الموسيقى. يستطيع التلحين، لكنّه لا يستطيع استنساخ فنّان أو أغنية بعينها. إن كانت لعلامتك بصمة صوتية، تضعها في post.
  • مكتبات المؤثّرات. للمؤثّرات المسمّاة جدًّا — bla­ster بأسلوب Star Wars، ضحكة sitcom — الأفضل توليد فيديو صامت ووضع المؤثّر على الـ timeline.
  • مقاطع طويلة. كأي نموذج فيديو في 2026، يتشتّت HappyHorse بعد علامة 15 ثانية. لتسلسلات متعدّدة اللقطات، لا تزال تُقطّع.

ما الذي يجعله قابلًا للتسليم

القصّة الأكبر هي نوع العمل المتاح الآن دون مرحلة post-production. أمثلة من استخدام حقيقي هذا الأسبوع:

  • شرح منتج بمدّة 12 ثانية بـ VO يتزامن مع فم شخص يحمل المنتج. سابقًا: يومان، ثلاث أدوات، أنيميتر مستقلّ. مع HappyHorse: أربعون دقيقة، برومبت واحد بصور مرجعية، جولة تعديلات.
  • مقطع إعلان مدّته 30 ثانية بصوت diegetic (خطوات، ضجيج غرفة، إشعار هاتف في الوقت المناسب). سابقًا: أداة فيديو، أداة صوت، مرحلة محاذاة، مرحلة مزج. مع HappyHorse: رنّ مرّتين، اختر اللقطة الأفضل.
  • مقطع شخصية تتكلّم للكاميرا لمتحدّث علامة. سابقًا: لم يكن ينجح — لِب-سِنك النماذج السابقة كان غريبًا بما يكفي ليقتل اللقطة. مع HappyHorse: قابل للاستخدام في التوليد الأوّل أو الثاني نحو 70٪ من الوقت.

أين يقع في منطق التوصية

ساري المفعول اليوم في الاستوديو: HappyHorse 1.0 هو الافتراضي لتوليد الفيديو حين يتطلّب برومبتك صوتًا. يقرأ المنتقي «الصوت مُتضمَّن» من البرومبتات التي تحوي كلمات مثل dialogue، says، talks، speaks، music، sound of، foley، أو VO، ويوجّه إلى هناك ما لم تتجاوز.

للسينمائي 4K بصوت يُضاف في post: Veo 3.1 لا يزال يفوز بصريًّا. لمسوّدات سوشيال: Grok Imagine لا يزال يفوز سرعةً وإحساسًا. للتسلسلات بقيادة المراجع: Seedance 2.0 لا يزال يفوز اتّساقًا. HappyHorse يمتلك خانة الصوت-الفيديو المشتركة تحديدًا — وهذه الخانة صارت فجأة الأكثر فائدة في القائمة، لأن الكثير من عمل الإنتاج هو المشترك بين الصوت والفيديو.

ملاحظة على التصنيف

HappyHorse 1.0 يتصدّر أيضًا قياسات البصريات وحدها هذا الأسبوع، وهذا حقيقي لكنّه ليس العنوان. تصنيفات البصريات تتبدّل كل ستّة أسابيع. تكامل الصوت-الفيديو هو التحوّل الهيكلي — الشيء الذي ستقضي بقيّة الميدان السنة القادمة في اللحاق به. يسعدنا أنّه في الاستوديو بنفس تكلفة الأرصدة المشتركة كأي شيء آخر.


وجدت خطأً أو تريد الاعتراض؟ راسلنا .

جرّب المنتج خلف هذه الكتابة.
استوديو.

باقة مجانية. بدون بطاقة. سجّل الدخول عبر Google أو Apple.