أعلنت شركة جوجل Google رسمياً عن إصدار الجيل الثاني من Imagen، وهو نموذج الذكاء الاصطناعي الذي يمكنه إنشاء الصور وتحريرها بناءً على مطالبة نصية.
وهو متاح الآن على نطاق واسع، على الأقل لعملاء Google Cloud الذين يستخدمون Vertex AI الذين تمت الموافقة على وصولهم.
ولم تكشف الشركة عن البيانات التي استخدمتها لتدريب النموذج الجديد، ولا تقدم طريقة للمبدعين الذين ربما ساهموا عن غير قصد في مجموعة البيانات لإلغاء الاشتراك أو التقدم للحصول على تعويض.
وبالمقارنة مع الجيل الأول من Imagen، فقد تحسن هذا النموذج “بشكل كبير” من حيث جودة الصورة، ويقدم إمكانات جديدة، بما في ذلك القدرة على عرض النص والشعارات.
وقال توماس كوريان، الرئيس التنفيذي لشركة Google Cloud، خلال مؤتمر صحفي: “إذا كنت تريد إنشاء صور مع تراكب نصي مثل إعلان فيمكنك القيام بذلك”.
كما أنّ هذا النموذج يسمح بإنشاء إنشاء الشعارات (اللوجو) ما يجعله متوافقًا مع نماذج إنشاء الصور الرائدة الأخرى، مثل DALL-E 3.
كما ويتميز Imagen 2 بعرض النص بلغات متعددة – على وجه التحديد الصينية والهندية واليابانية والكورية والبرتغالية والإنجليزية والإسبانية، مع المزيد من اللغات القادمة في وقت ما في عام 2024.
كما ويستطيع Imagen 2 أيضًا فهم المطالبات الوصفية الطويلة وتقديم “إجابات تفصيلية” للأسئلة المتعلقة بالعناصر الموجودة في الصورة.
تعمل هذه التقنيات أيضًا على تحسين فهم Imagen 2 متعدد اللغات، كما تقول Google، مما يسمح للنموذج بترجمة مطالبة بلغة ما إلى مخرجات (شعار مثلًا) بلغة أخرى.
يستفيد Imagen 2 من SynthID، وهو أسلوب طورته شركة DeepMind، لتطبيق علامات مائية غير مرئية على الصور التي تم إنشاؤها بواسطتها.
وبطبيعة الحال، فإن اكتشاف هذه العلامات المائية – التي تدعي جوجل أنها مرنة لتعديلات الصور بما في ذلك الضغط والمرشحات وتعديلات الألوان – يتطلب أداة توفرها جوجل وهي غير متاحة لأطراف ثالثة.