گوگل قابلیت تولید تصاویر افراد را در Gemini بهبود داده است

گوگل اعلام کرده است که مشکلات ایجاد شده در قابلیت خلق تصاویر افراد توسط Gemini را برطرف کرده است

در ماه فوریه، گوگل پس از دریافت شکایات کاربران درباره نمایش نادرست تاریخی توسط چت‌ربات هوش مصنوعی Gemini، قابلیت تولید تصاویر افراد را موقتاً غیرفعال کرد. به عنوان مثال، Gemini به‌طور نادرستی «یک لژیون رومی» را با گروهی از سربازان نژادی متنوع به تصویر کشید یا «جنگجویان زولو» را به شکلی کلیشه‌ای و تنها سیاه‌پوست نشان داد.

ساندار پیچای، مدیر عامل گوگل، به دلیل این اشتباهات عذرخواهی کرد و دمیس حسابیس، یکی از بنیان‌گذاران بخش تحقیقاتی هوش مصنوعی گوگل، DeepMind، قول داد که اصلاحات لازم طی چند هفته آینده انجام شود. اگرچه این پروسه بیشتر از مدت‌زمان پیش‌بینی شده طول کشید، اما اکنون Gemini بار دیگر می‌تواند تصاویر افراد را تولید کند، البته تنها برای برخی از کاربران.

این قابلیت فعلاً فقط برای کاربران طرح‌های پولی Gemini، از جمله Gemini Advanced، Business، و Enterprise، به‌عنوان بخشی از یک آزمایش دسترسی زودهنگام و فقط به زبان انگلیسی، فعال شده است. گوگل هنوز اعلام نکرده است که این قابلیت چه زمانی به نسخه رایگان Gemini و دیگر زبان‌ها اضافه خواهد شد.

سخنگوی گوگل به وبسایت TechCrunch گفت: “نسخه پیشرفته Gemini به کاربران ما اولویت دسترسی به ویژگی‌های جدید را می‌دهد. این به ما کمک می‌کند تا بازخوردهای ارزشمند را جمع‌آوری کنیم و این ویژگی مورد انتظار را در ابتدا به مشترکین ممتاز خود ارائه دهیم.”

اما گوگل برای رفع مشکلات تولید تصاویر افراد چه تغییراتی انجام داده است؟ به گفته این شرکت، مدل Imagen 3، جدیدترین مدل تولید تصویر که در Gemini استفاده می‌شود، به گونه‌ای طراحی شده که تصاویری «عادلانه‌تر» تولید کند. به عنوان مثال، این مدل بر اساس زیرنویس‌های تولید شده توسط هوش مصنوعی آموزش داده شده که به تنوع و گستردگی مفاهیم مرتبط با تصاویر در داده‌های آموزشی کمک می‌کند. گوگل همچنین اعلام کرده است که داده‌های آموزشی این مدل برای حفظ ایمنی و رعایت مسائل انصافی فیلتر شده است.

با اینکه جزئیات دقیق‌تری درباره داده‌های آموزشی Imagen 3 درخواست شد، سخنگوی گوگل تنها اشاره کرد که این مدل بر روی «یک مجموعه داده بزرگ شامل تصاویر، متن و حاشیه‌نویسی‌های مرتبط» آموزش داده شده است.

او اضافه کرد: «ما پتانسیل تولید نتایج نامطلوب را از طریق آزمایش‌های گسترده داخلی و خارجی و همکاری با کارشناسان مستقل به میزان قابل توجهی کاهش داده‌ایم. تمرکز ما بر آزمایش دقیق تولید تصاویر افراد قبل از بازگرداندن این قابلیت بوده است.»

در خبرهای دیگر، تمامی کاربران Gemini طی هفته جاری به مدل Imagen 3 دسترسی خواهند داشت، به استثنای تولید تصاویر افراد برای کاربران نسخه رایگان. گوگل مدعی است که Imagen 3 در مقایسه با نسخه قبلی خود، Imagen 2، پیام‌های متنی را با دقت بیشتری به تصاویر ترجمه کرده و در تولیدات خود خلاقانه‌تر و دقیق‌تر عمل می‌کند. این مدل همچنین خطاها و مصنوعات کمتری تولید می‌کند و بهترین مدل Imagen برای رندر متن تا به امروز است.

برای کاهش نگرانی‌ها درباره پتانسیل دیپ‌فیک، Imagen 3 از SynthID استفاده می‌کند، روشی که توسط DeepMind برای اعمال واترمارک‌های رمزنگاری نامرئی به رسانه‌های مبتنی بر هوش مصنوعی توسعه یافته است.

علاوه بر Imagen 3، گوگل قابلیت جدیدی به نام Gems را برای Gemini معرفی کرده است، البته فقط برای کاربران Gemini Advanced، Business، و Enterprise. Gems نسخه‌های سفارشی Gemini هستند که می‌توانند به عنوان «متخصص» در موضوعات خاصی مانند آشپزی گیاه‌خواری عمل کنند. گوگل در یک پست وبلاگ توضیح داده است: «با Gems، می‌توانید تیمی از متخصصان ایجاد کنید که به شما در پروژه‌های چالش‌برانگیز، نوشتن ایده‌ها برای یک رویداد آینده، یا ایجاد عنوان‌های عالی برای پست‌های شبکه‌های اجتماعی کمک کنند.»

گوگل اعلام کرده است که Gems در 150 کشور و به اکثر زبان‌ها در دسترس خواهد بود، اما هنوز در Gemini Live پشتیبانی نمی‌شود.

هنگامی که از گوگل پرسیده شد که آیا برنامه‌ای برای اجازه انتشار و استفاده از Gems دیگر کاربران وجود دارد، پاسخ منفی بود. سخنگوی گفت: «در حال حاضر، ما بر روی یادگیری نحوه استفاده مردم از Gems برای خلاقیت و بهره‌وری تمرکز کرده‌ایم. فعلاً چیزی برای به اشتراک گذاشتن وجود ندارد.»