برتری مدل GPT-4.5 بر چندین دسته در Chatbot Arena

هفته گذشته شرکت OpenAI از مدل GPT-4.5 رونمایی کرد که بزرگترین مدل هوش مصنوعی خود تا به امروز است. OpenAI مدعی شد که GPT-4.5 دانشآمیزترین مدلی است که تاکنون وجود دارد و با مقیاسپذیری بیشتر فرآیند پیشآموزشی ساخته شده است. علاوه بر داشتن دانش بیشتر، مدل GPT-4.5 در مقایسه با مدلهای قدیمی OpenAI، مهارتهای نوشتاری و شخصیتی ظریفتر را نیز دارد.
امروز، مدل GPT-4.5 برای اولین بار در Chatbot Arena با جایگاه شماره 1 در اکثر دستهها عرضه شد. GPT-4.5 با برتری واضح در Multi-Turn در صدر رده های زیر قرار گرفت. GPT-4.5 همچنین در جدول امتیازات Style Control پیشرو است:
- چند چرخشی
- درخواست های سخت
- کد نویسی
- ریاضی
- نوشتن خلاق
- دستورالعمل زیر
- پرس و جو طولانی تر
جدیدترین مدل Grok-3 xAI (grok-3-preview-02-24) نیز با رتبه شماره 1 در Hard Prompts (انگلیسی) و در مجموع شماره 1 و در کدنویسی، ریاضی، نوشتن خلاق، دنبال کردن دستورالعمل ها و جستجوی طولانی تر، اولین بار در جدول امتیازات Arena ظاهر شد. بهبودهای سریعی که توسط GPT-4.5 و Grok-3 به نمایش گذاشته شده است، تشدید رقابت در چشم انداز هوش مصنوعی را برجسته می کند.
GPT-4.5 از چندین معیار هوش مصنوعی دیگر بالاتر است. در معیار بازی حذفی امتیاز 1 را کسب کرد. The Elimination Game یک تورنمنت چند نفره است که LLMها را در استدلال اجتماعی، استراتژی و فریب آزمایش می کند. در رتبهبندی امتیاز آزمون هوش، GPT-4.5 بهتر از سایر مدلهای غیر استدلالی در صنعت عمل کرد. در معیار SimpleQA Hallucination Rate، مدل GPT-4.5 کمترین امتیاز را در بین تمام مدلهای زبان بزرگ OpenAI کسب کرد.
ماه گذشته، سم آلتمن، مدیر عامل OpenAI فاش کرد که GPT-4.5 آخرین مدل غیر زنجیرهای فکری OpenAI است. علاوه بر این، OpenAI دیگر o3 را به عنوان یک مدل مستقل منتشر نخواهد کرد. در مقابل، OpenAI مدلهای سری o و سری GPT را با ایجاد سیستمهایی که میتوانند زمان تفکر مناسب را بر اساس درخواست کاربر تعیین کنند، متحد میکند.
سم آلتمن همچنین تایید کرد که حتی کاربران لایه رایگان ChatGPT به GPT-5 دسترسی خواهند داشت، اما تحت تنظیمات هوشمند استاندارد. مشترکین ChatGPT Plus می توانند GPT-5 را در سطح بالاتری از هوش اجرا کنند، در حالی که مشترکین Pro می توانند GPT-5 را در سطح هوشی بالاتری اجرا کنند. علاوه بر این، مدل یکپارچه از تمام ویژگیهای ChatGPT موجود، مانند صدا، بوم، جستجو، تحقیق عمیق و موارد دیگر پشتیبانی میکند.