كشفت شركة جوجل في مؤتمر مطوري جوجل لهذا العام Google I/O رسميًا عن Gemini Omni، وهو نموذج جديد قادر على “إنشاء أي شيء من أي مدخلات، بدءًا من الفيديو”، وفقًا لجوجل.
ويُطرح النموذج الأول، المسمى Gemini Omni Flash عبر تطبيق Gemini و Google Flow و YouTube Shorts.
ووصفت جوجلGemini Omni بأنه “الخطوة التالية” بعد Nano Banana، وربما بعد نموذجها الحالي لتوليد الفيديو Veo 3.1.
سيتيح النموذج الجديد “دمج الصور والصوت والفيديو والنصوص كمدخلات، وإنشاء فيديوهات عالية الجودة تستند إلى معرفة Gemini بالواقع”.
يمكن بعد ذلك تعديل هذه الفيديوهات من خلال محادثة طبيعية، حيث تبني كل تعليمات على سابقتها للحفاظ على تناسق الشخصيات والعناصر الأخرى.
بينما كان Veo 3.1 يقتصر على إنشاء الفيديوهات عبر التوجيهات والصور، سيقبل Gemini Omni نطاقًا أوسع من المدخلات ويقدم إمكانيات أكثر بكثير.
على سبيل المثال، يمكنك تصوير فيديو، ثم ببساطة تطلب من Omni تغيير ما يحدث فيه.
وأوضحت جوجل: “يصبح الفيديو الخاص بك نقطة انطلاق لشيء لم تكن لتتمكن من تصويره بنفسك أبدًا. عدّل المشهد، أضف شخصيات أو أشياء جديدة، أو حوّل لحظة إلى شيء غير متوقع. غيّر البيئة، أو الزاوية، أو الأسلوب، أو حتى تفاصيل محددة.”
يُحسّن Omni فهم القوى الفيزيائية كالجاذبية والطاقة الحركية وديناميكيات السوائل، ما يجعل المشاهد أكثر واقعية.
ويجمع ذلك مع “معرفة Gemini بالتاريخ والعلوم والسياق الثقافي، ما يربط بين الواقعية الفوتوغرافية وسرد القصص الهادف”.
يُفترض أن التطبيق قادر على إنشاء شروحات جذابة من خلال عبارات قصيرة لتوليد صور تُبسّط الأفكار المعقدة. مع ذلك، سيدعم التطبيق في البداية المراجع الصوتية فقط.
كما يمكن من خلال Omni إنشاء فيديوهات يكون المستخدم هو بطلها، من خلال استخدام شخصية رمزية رقمية تُشبهه في الشكل والصوت.
وإذا بدا ذلك مُقلقًا بشأن الخصوصية، تُؤكد جوجل أن لديها “سياسات واضحة لحماية المستخدمين من أي ضرر وتنظيم استخدام أدوات الذكاء الاصطناعي”. أما بالنسبة لتعديل الفيديوهات لتغيير الصوت والكلام، فلا تزال الشركة تختبر هذه الخاصية لتوفيرها للمستخدمين “بشكل مسؤول”.
وستستخدم جميع الفيديوهات أيضًا علامة SynthID الرقمية غير المرئية من جوجل للتحقق من أنها أُنشئت باستخدام Gemini Omni.
يبدو كل هذا رائعًا، لكن المشكلة الرئيسية في Veo 3.1 وتطبيقات إنشاء الفيديو الأخرى هي أن الفيديو الناتج يبدو غريبًا وغير طبيعي، وغالبًا ما يكرهه المستخدمون.
لذا، سيكون من المثير للاهتمام معرفة ما إذا كانت جودة الفيديو الناتج تضاهي مزاعم جوجل المبالغ فيها. سنعرف ذلك قريبًا، حيث أصبح Gemini Omni Flash متاحًا الآن لجميع مشتركي Google AI Plus وPro وUltra عالميًا، وسيتم طرحه تدريجيًا لمستخدمي YouTube Shorts وتطبيق YouTube Create بدءًا من هذا الأسبوع.
أعلنت شركة OpenAI عن إيقاف تطبيقها Sora لتوليد الفيديو، وكتبت الشركة في منشور على منصة X نُشر بعد ظهر الثلاثاء: “نودع Sora“.
ولم تُحدّد الشركة حتى الآن موعد إيقاف التطبيق وخدمة واجهة برمجة التطبيقات (API) الخاصة به، مكتفيةً بالوعد بمشاركة هذه التفاصيل لاحقًا.
وصرح متحدث باسم OpenAI لموقع Engadget: “قررنا إيقاف Sora في تطبيق المستخدمين وواجهة برمجة التطبيقات، ومع تزايد الطلب على الحوسبة، يواصل فريق بحث Sora التركيز على أبحاث محاكاة العالم لتطوير الروبوتات التي ستساعد الناس على حل المهام الواقعية والمادية”.
وكانت بيانات شركة التحليلات Appfigures قد أشارت إلى أنّ التطبيق كان يشهد انخفاضًا شهريًا متتاليًا في كلٍ من عمليات التثبيت الجديدة وإنفاق المستخدمين.
We’re saying goodbye to the Sora app. To everyone who created with Sora, shared it, and built community around it: thank you. What you made with Sora mattered, and we know this news is disappointing.
We’ll share more soon, including timelines for the app and API and details on…
وفي شهر ديسمبر وحده، وهو الوقت الذي تزدهر فيه معظم التطبيقات عادةً، أفادت التقارير أن Sora قد شهد انخفاضًا بنسبة 32% في عمليات التنزيل الجديدة مقارنةً بشهر نوفمبر/تشرين الثاني.
ويتزامن هذا الإغلاق أيضًا مع التحول الأخير في استراتيجية OpenAI، فمنذ إطلاق GPT-5.2، الذي كان بمثابة رد الشركة الحاسم على نموذج Gemini 3 Pro من جوجل، سعت OpenAI إلى استقطاب محترفين مثل المبرمجين ومحللي البيانات من خلال أنظمة تتفوق في هذه المجالات، معتبرةً عملاء المؤسسات طريقًا لتحقيق الربحية.
أطلق شركة Bytedance قبل عدة أيام نموذج Seedance 2.0 المتطور لإنشاء الفيديو بالاعتماد على الذكاء الاصطناعي.
يدعم نموذج Seedance 2.0، المُصمم ببنية موحدة لتوليد الصوت والفيديو متعدد الوسائط، أربعة أنواع من المدخلات: النص، والصورة، والصوت، والفيديو. كما يضمّ مجموعة شاملة من مراجع المحتوى متعدد الوسائط وإمكانيات التحرير، هي الأوسع في هذا المجال.
بالمقارنة مع الإصدار 1.5، يُحقق Seedance 2.0 قفزة نوعية في جودة الإنتاج، إذ يُوفر سهولة استخدام أكبر في مشاهد التفاعل والحركة المعقدة، مع تحسينات ملحوظة في الدقة الفيزيائية، والواقعية البصرية، وسهولة التحكم، مما يجعله مثاليًا لسيناريوهات الإنتاج الاحترافية.
بفضل التحسينات الكبيرة في القدرات الأساسية والأداء متعدد الوسائط، يُقدّم برنامج Seedance 2.0 للمستخدمين تجربة إبداعية جديدة كلياً.
يُمكن لبرنامج Seedance 2.0 إنشاء مشاهد رياضية تنافسية متعددة المشاركين، وهو تحدٍّ واجهته الإصدارات السابقة، كما أصبحت المؤثرات الصوتية أكثر طبيعية وغامرة، ولم يعد الإدخال مقتصراً على النصوص أو الصور فقط. أصبح سير العمل الإبداعي أكثر سهولة، مما يسمح للمستخدمين بتوجيه خيالهم وتحقيقه. الآن، دعونا نُلقي نظرة موجزة حول قدرات Seedance 2.0 الرئيسية.
عرض مستقر للحركات والتفاعلات المعقدة، متوافق مع قوانين الفيزياء
يقدم برنامج Seedance 2.0 نقلة نوعية في جودة توليد المشاهد، محققًا مستويات غير مسبوقة من الطبيعية والسلاسة والمصداقية الفيزيائية في نمذجة الحركة البشرية.
يستطيع البرنامج توليد مشاهد تفاعلية معقدة عالية الدقة ومتزامنة بدقة متناهية. على سبيل المثال، في سيناريوهات التزلج الثنائي، يؤدي النموذج سلسلة من الحركات عالية الصعوبة – بما في ذلك الانطلاقات المتزامنة، والدوران في الهواء، والهبوط الدقيق على الجليد – مع الالتزام التام بقوانين الفيزياء الواقعية.
وهذا الأمر يزيل العيوب والتناقضات الفيزيائية الشائعة في مقاطع الفيديو السابقة التي تم إنشاؤها بواسطة الذكاء الاصطناعي.
يدعم “المرجع الشامل” متعدد الوسائط لتعزيز الحرية الإبداعية بشكل كبير
يدعم Seedance 2.0 المرجع الشامل متعدد الوسائط، مما يسمح بإدخال نصوص وصور وفيديوهات وملفات صوتية متنوعة.
يستطيع النموذج فهم محتوى الإدخال متعدد الوسائط بدقة، وإنشاء مخرجات وفقًا للتعليمات، وذلك بالرجوع إلى عناصر مثل التكوين المرئي، ولغة الكاميرا، وإيقاع الحركة، وخصائص الصوت من المدخلات. بل ويمكنه أيضًا الرجوع مباشرةً إلى لوحات القصة النصية، مما يعزز الحرية الإبداعية بشكل ملحوظ.
تحكم أكبر، مع التزام دقيق بتعليمات الإنتاج والتحرير
يُقدّم برنامج Seedance 2.0 ترقيةً جوهريةً في التحكم بعملية إنتاج الفيديو. فهو يتفوّق في اتباع التعليمات، مما يُتيح إعادة إنتاج دقيقة وثباتًا في اتساق المحتوى حتى في القصص المعقدة ذات التفاعلات الغنية بين الشخصيات ووصف الأحداث المفصّل. في الوقت نفسه، يتضمّن البرنامج مستوىً من التفكير الإخراجي، مما يسمح له بتخطيط لغة الكاميرا وتصميم قوالب العرض المرئي بشكل مستقل.
في الوقت نفسه، يُقدّم برنامج Seedance 2.0 إمكانيات جديدة لتحرير الفيديو، حيث يدعم إجراء تعديلات مُحددة على مقاطع وشخصيات وأحداث وقصص مُعينة. كما يتميز البرنامج بوظيفة تمديد الفيديو التي تُتيح إنشاء لقطات مُتواصلة بناءً على توجيهات المستخدم. وهو لا يتفوق فقط في إنشاء الفيديو، بل أيضاً في “مواصلة التصوير”.
إمكانيات صوتية ثنائية القنوات مع توليد صوت عالي الدقة ومتزامن وغامر
عززت Seedance 2.0 إمكانياتها الصوتية من خلال دمج تقنية ستيريو ثنائية القنوات، مما يتيح توليد صوت عالي الدقة وغامر. يدعم هذا الطراز إخراجًا متوازيًا متعدد المسارات للموسيقى الخلفية والمؤثرات الصوتية المحيطة والتعليق الصوتي للشخصيات، وكل ذلك متزامن بسلاسة مع الإيقاع البصري.
علاوة على ذلك، يتميز تصميم الصوت في هذا النموذج بطبيعيته العالية، حيث يلتقط أدق تفاصيل المؤثرات الصوتية – من صوت خدش الزجاج المصنفر وحفيف القماش المخملي إلى النقر الخفيف على الأكريليك، أو فرقعة غلاف الفقاعات – مما يجعل المشاهد أكثر واقعية. وبفضل التحكم في توقيت الصوت والصورة، يحقق النموذج توافقًا سلسًا بين الصوت والحركة، مما يدعم بشكل أفضل إنتاج محتوى سمعي بصري احترافي.
مرونة واسعة في السيناريوهات: تذليل عقبات إنتاج المحتوى الاحترافي
يُظهر برنامج Seedance 2.0 مرونة فائقة في مختلف سيناريوهات إنتاج الفيديو، مُلبيًا بذلك الاحتياجات المتنوعة لهذا المجال، سواءً أكان الأمر يتعلق بالإعلانات التجارية، أو المؤثرات البصرية للأفلام والتلفزيون، أو رسوم متحركة للألعاب، أو فيديوهات توضيحية، فإن هذا النموذج يُقدم نتائج إنتاج عالية الجودة.
وقالت الشركة أنها تعاونت مع خبراء من صناعة السينما والتلفزيون لإنشاء مجموعة بيانات ومعايير تقييمية تغطي توليد الإشارات الصوتية والمرئية، والرجوع إليها، وتحريرها.
ويركز هذا التقييم بشكل أساسي على أداء البرنامج في توليد الإشارات المرجعية متعددة الوسائط، واتباع تعليمات الصوت والفيديو المعقدة، وثبات الحركة المعقدة، واللغة السينمائية الاحترافية، والتعبير الصوتي والمرئي، والتناغم الصوتي والمرئي.
مع ذلك، لا يزال Seedance 2.0 بعيدًا عن الكمال، إذ لا تزال هناك بعض العيوب في نتائج التوليد، ووعدت الشركة بمواصلة استكشاف التوافق العميق بين النماذج الكبيرة وردود الفعل البشرية، ساعية إلى تقديم أداة إنتاج صوت وصورة أكثر كفاءة واستقرارًا وإبداعًا لخدمة المزيد من المبدعين بحسب وصف الشركة نفسها.
أطلقت شركة OpenAI إصدارًا جديدًا من مُولّد الفيديو بالذكاء الاصطناعي Sora AI الذي أطلقته نهاية العام الماضي، ويصل اليوم إلى جانب تطبيق فيديو اجتماعي جديد، يُسمى أيضًا Sora، لهواتف آيفون iPhone.
يُشبه هذا التطبيق، المتاح حاليًا للمدعوين فقط، تطبيق TikTok، مع قائمة من مقاطع الفيديو التي يُمكن تصفحها عشوائيًا.
ولكن بدلًا من تشجيع المستخدمين على إنشاء ثنائيات، يطلب التطبيق من المستخدم تسجيل مقاطع فيديو قصيرة يُمكن لأي شخص تحويلها إلى مقاطع فيديو مُزيّفة عميقة جديدة مُولّدة بالذكاء الاصطناعي بموافقة المستخدم بالطبع.
ويُتاح تطبيق Sora حاليًا لمستخدمي الولايات المتحدة وكندا فقط، ومن المقرر أن يُتاح لاحقًا في دول أخرى، وعندما يحصل المستخدم على إمكانية الوصول، يحصل أيضًا على أربع دعوات إضافية لمشاركة التطبيق مع الأصدقائ، فيما لا توجد أي معلومات حول موعد إصدار نسخة أندرويد.
ويمكن لمستخدمي Sora منح أصدقائهم – أو للجميع، إن رغبوا في ذلك – الإذن بإنشاء “صور شخصية” بصورهم باستخدام نموذج الفيديو الجديد، المسمى سورا 2.
وأوضح موظفو OpenAI أن الشخص الذي تُنشأ صورته هو “مالك مشارك” لهذه النتيجة، ويمكنه حذفها أو إلغاء وصول الآخرين إليها في أي وقت.
ومثل تيك توك، يتيح تطبيق سورا من OpenAI التفاعل مع مقاطع فيديو ومقاطع فيديو رائجة أخرى باستخدام ميزة “ريمكس”، ولكنه لا يسمح حاليًا إلا بإنشاء مقاطع فيديو مدتها 10 ثوانٍ.
وتفرض الشركة حاليًا قيودًا كثيرة على إنشاء مقاطع فيديو للشخصيات العامة، ولكن قد لا يستمر هذا الوضع إلى الأبد، وفقًا للإحاطة الإعلامية. وذكرت OpenAI في بيانٍ مُرفق بالإعلان: “لا يُمكن حاليًا إنشاء مقاطع فيديو للشخصيات العامة في Sora إلا بعد نشرها لصورة شخصية وموافقتها على استخدامها”.
صرحت شركة Runway الناشئة في مجال الذكاء الاصطناعي عن الجيل الجديد Gen-4 من نموذج توليد الفيديو الخاص بها، والذي يستطيع توليد مشاهد متعددة المقاطع ومتناسقة بالسرد القصصي ودون تشويه بحسب الشركة.
وكما هو معروف فإن مقاطع الفيديو المُولّدة بالذكاء الاصطناعي تواجه صعوبة في الحفاظ على اتساق سرد القصص، لكن Runway تزعم على منصة X أن النموذج الجديد، الجيل الرابع، من شأنه أن يمنح المستخدمين مزيدًا من “الاستمرارية والتحكم” أثناء سرد القصص.
يسمح نموذج توليد الفيديو الجديد من الجيل الرابع، المُتاح حاليًا للمستخدمين المدفوعين والمُؤسسات، للمستخدمين بتوليد شخصيات وأشياء عبر اللقطات باستخدام صورة مرجعية واحدة.
يجب على المستخدمين بعد ذلك وصف التكوين الذي يريدونه، وسيُولّد النموذج بعد ذلك مخرجات متسقة من زوايا متعددة.
على سبيل المثال، أصدرت الشركة الناشئة فيديو لامرأة تُحافظ على مظهرها في لقطات وسياقات مُختلفة في ظروف إضاءة مُتنوعة.
الإصدار الجديد يأتي بعد أقل من عام من إعلان شركة “Runway” عن نموذجها السابق “Gen-3 Alpha” لإنشاء الفيديوهات.
ذلك النموذج سمح بتمديد مدة الفيديوهات التي يمكن للمستخدمين إنتاجها، لكنه أثار جدلاً واسعًا، حيث وردت تقارير تفيد بأنه قد تم تدريبه على آلاف الفيديوهات المستخرجة من “يوتيوب” وأفلام مقرصنة.