برتری مدل GPT-4.5 بر چندین دسته در Chatbot Arena

هفته گذشته شرکت OpenAI از مدل GPT-4.5 رونمایی کرد که بزرگترین مدل هوش مصنوعی خود تا به امروز است. OpenAI مدعی شد که GPT-4.5 دانش‌آمیزترین مدلی است که تاکنون وجود دارد و با مقیاس‌پذیری بیشتر فرآیند پیش‌آموزشی ساخته شده است. علاوه بر داشتن دانش بیشتر، مدل GPT-4.5 در مقایسه با مدل‌های قدیمی OpenAI، مهارت‌های نوشتاری و شخصیتی ظریف‌تر را نیز دارد.

امروز، مدل GPT-4.5 برای اولین بار در Chatbot Arena با جایگاه شماره 1 در اکثر دسته‌ها عرضه شد. GPT-4.5 با برتری واضح در Multi-Turn در صدر رده های زیر قرار گرفت. GPT-4.5 همچنین در جدول امتیازات Style Control پیشرو است:

چند چرخشی
درخواست های سخت
کد نویسی
ریاضی
نوشتن خلاق
دستورالعمل زیر
پرس و جو طولانی تر

جدیدترین مدل Grok-3 xAI (grok-3-preview-02-24) نیز با رتبه شماره 1 در Hard Prompts (انگلیسی) و در مجموع شماره 1 و در کدنویسی، ریاضی، نوشتن خلاق، دنبال کردن دستورالعمل ها و جستجوی طولانی تر، اولین بار در جدول امتیازات Arena ظاهر شد. بهبودهای سریعی که توسط GPT-4.5 و Grok-3 به نمایش گذاشته شده است، تشدید رقابت در چشم انداز هوش مصنوعی را برجسته می کند.

مدل GPT-4.5 بر چندین دسته در Chatbot Arena تسلط دارد

GPT-4.5 از چندین معیار هوش مصنوعی دیگر بالاتر است. در معیار بازی حذفی امتیاز 1 را کسب کرد. The Elimination Game یک تورنمنت چند نفره است که LLM‌ها را در استدلال اجتماعی، استراتژی و فریب آزمایش می کند. در رتبه‌بندی امتیاز آزمون هوش، GPT-4.5 بهتر از سایر مدل‌های غیر استدلالی در صنعت عمل کرد. در معیار SimpleQA Hallucination Rate، مدل GPT-4.5 کمترین امتیاز را در بین تمام مدل‌های زبان بزرگ OpenAI کسب کرد.

ماه گذشته، سم آلتمن، مدیر عامل OpenAI فاش کرد که GPT-4.5 آخرین مدل غیر زنجیره‌ای فکری OpenAI است. علاوه بر این، OpenAI دیگر o3 را به عنوان یک مدل مستقل منتشر نخواهد کرد. در مقابل، OpenAI مدل‌های سری o و سری GPT را با ایجاد سیستم‌هایی که می‌توانند زمان تفکر مناسب را بر اساس درخواست کاربر تعیین کنند، متحد می‌کند.

سم آلتمن همچنین تایید کرد که حتی کاربران لایه رایگان ChatGPT به GPT-5 دسترسی خواهند داشت، اما تحت تنظیمات هوشمند استاندارد. مشترکین ChatGPT Plus می توانند GPT-5 را در سطح بالاتری از هوش اجرا کنند، در حالی که مشترکین Pro می توانند GPT-5 را در سطح هوشی بالاتری اجرا کنند. علاوه بر این، مدل یکپارچه از تمام ویژگی‌های ChatGPT موجود، مانند صدا، بوم، جستجو، تحقیق عمیق و موارد دیگر پشتیبانی می‌کند.