گوگل با معرفی مدل Gemini 2.5 Computer Use، یک گام بزرگ به جلو برداشته و دستیاری هوشمند ساخته که نه تنها حرف میزند، بلکه واقعاً عمل میکند. این مدل جدید، که اکنون در پیشنمایش عمومی برای توسعهدهندگان از طریق API Gemini در Google AI Studio و Vertex AI در دسترس است، قابلیت کنترل مرورگر را مانند یک کاربر واقعی فراهم میکند: باز کردن صفحات، پر کردن فرمها، انتخاب گزینهها از منوهای کشویی، کشیدن عناصر و ادامه دادن تا تکمیل وظیفه.
تکامل دستیاران هوشمند: از حرف به عمل
در دنیای امروز هوش مصنوعی، جایی که مدلهای قبلی اغلب به پیشنهادهای ساده محدود بودند، Gemini 2.5 یک ارتقای واقعی و کاربردی ارائه میدهد. این مدل به جای وابستگی به APIهای ساختیافته و تمیز، از یک حلقه تکراری استفاده میکند. کد شما یک اسکرینشات از صفحه فعلی به همراه اقدامات اخیر را به مدل ارسال میکند. سپس Gemini صحنه را تحلیل کرده و پاسخی مانند “کلیک”، “تایپ” یا “اسکرول” میدهد که توسط کلاینت اجرا میشود. بعد از آن، اسکرینشات جدید و URL ارسال میشود و این چرخه تا موفقیت یا توقف ایمنی ادامه پیدا میکند. این رویکرد مکانیکی اما کارآمد است، به ویژه برای رابطهای وب مصرفی که برای رباتها طراحی نشدهاند و اغلب پشت لاگین قرار دارند، جایی که APIها وجود ندارند.
گوگل تأکید دارد که این مدل ابتدا برای مرورگرها بهینهسازی شده، اما نتایج اولیه در کنترل UI موبایل هم امیدوارکننده است. کنترل سطح سیستمعامل دسکتاپ هنوز اولویت نیست. از نظر عملکرد، Gemini 2.5 در بنچمارکهای کنترل مرورگر مانند Online-Mind2Web و WebVoyager پیشتاز است و با تأخیر کمتر در محیط Browserbase عمل میکند. این ترکیب برای وظایفی مانند ناوبری در داشبورد حساب کاربری یا رزرو سفر در زمان واقعی، بسیار مفید است. گوگل همچنین جزئیات ارزیابی بیشتری منتشر کرده تا علاقهمندان بتوانند عمیقتر بررسی کنند.
ایمنی در اولویت: جلوگیری از خطرات احتمالی
وقتی صحبت از هوش مصنوعی میشود که میتواند اقدامات واقعی انجام دهد، ایمنی مثل کمربند ایمنی ضروری است، نه یک گزینه اضافی. هر اقدام پیشنهادی میتواند از طریق سرویس ایمنی مرحلهای بررسی شود؛ توسعهدهندگان همچنین میتوانند تأیید کاربر را برای اقدامات حساس مانند خریدها یا مواردی که ممکن است به سیستم آسیب بزند، الزامی کنند. علاوه بر این، میتوان اقدامات مجاز را محدود کرد تا دستیار از مشکلات جلوگیری کند. با این حال، گوگل بر آزمایش جامع قبل از انتشار تأکید دارد.
اگر میخواهید این قابلیت را امتحان کنید، گوگل دموی میزبانیشده از طریق Browserbase، نمونههای حلقه دستیار و مستندات برای ساخت محلی با Playwright را پیشنهاد میکند. جالب است بدانید که نسخههایی از این مدل قبلاً در پروژههایی مانند Project Mariner، عامل تست Firebase و برخی ویژگیهای حالت AI جستجوی گوگل استفاده شدهاند. حالا با این پیشنمایش، درها باز شده است.
به گزارش ایروتایم – irotime، این پیشرفت نشاندهنده گذار Gemini از یک دستیار پیشنهادی به یک دستیار اجرایی است. اگر کارهای شما روی وب متمرکز است، این میتواند جالبترین نوآوری گوگل در سال جاری باشد.
بنچمارکهای عملکرد: مقایسه با رقبا
برای درک بهتر برتری Gemini 2.5، نگاهی به بنچمارکها بیندازیم:
| بنچمارک | Gemini 2.5 Computer Use | رقبا (مانند Online-Mind2Web) | تأخیر (در Browserbase) |
|---|---|---|---|
| کنترل مرورگر | پیشتاز | پایینتر | کمتر |
| اتوماسیون وظایف | بالا | متوسط | بهینه |
| تعامل UI موبایل | امیدوارکننده | محدود | استاندارد |
این اعداد نشان میدهند که چگونه این مدل در اتوماسیون مرورگر هوش مصنوعی، کارایی بالایی دارد.

