Gemini Ai

کنترل مرورگر با AI: چرا Gemini 2.5 بزرگ‌ترین پیشرفت سال گوگل است؟

ایروتایم
زمان مطالعه 4 دقیقه

گوگل با معرفی مدل Gemini 2.5 Computer Use، یک گام بزرگ به جلو برداشته و دستیاری هوشمند ساخته که نه تنها حرف می‌زند، بلکه واقعاً عمل می‌کند. این مدل جدید، که اکنون در پیش‌نمایش عمومی برای توسعه‌دهندگان از طریق API Gemini در Google AI Studio و Vertex AI در دسترس است، قابلیت کنترل مرورگر را مانند یک کاربر واقعی فراهم می‌کند: باز کردن صفحات، پر کردن فرم‌ها، انتخاب گزینه‌ها از منوهای کشویی، کشیدن عناصر و ادامه دادن تا تکمیل وظیفه.

تکامل دستیاران هوشمند: از حرف به عمل

در دنیای امروز هوش مصنوعی، جایی که مدل‌های قبلی اغلب به پیشنهادهای ساده محدود بودند، Gemini 2.5 یک ارتقای واقعی و کاربردی ارائه می‌دهد. این مدل به جای وابستگی به APIهای ساخت‌یافته و تمیز، از یک حلقه تکراری استفاده می‌کند. کد شما یک اسکرین‌شات از صفحه فعلی به همراه اقدامات اخیر را به مدل ارسال می‌کند. سپس Gemini صحنه را تحلیل کرده و پاسخی مانند “کلیک”، “تایپ” یا “اسکرول” می‌دهد که توسط کلاینت اجرا می‌شود. بعد از آن، اسکرین‌شات جدید و URL ارسال می‌شود و این چرخه تا موفقیت یا توقف ایمنی ادامه پیدا می‌کند. این رویکرد مکانیکی اما کارآمد است، به ویژه برای رابط‌های وب مصرفی که برای ربات‌ها طراحی نشده‌اند و اغلب پشت لاگین قرار دارند، جایی که APIها وجود ندارند.

Gemini Computer Use Benchmarks

گوگل تأکید دارد که این مدل ابتدا برای مرورگرها بهینه‌سازی شده، اما نتایج اولیه در کنترل UI موبایل هم امیدوارکننده است. کنترل سطح سیستم‌عامل دسکتاپ هنوز اولویت نیست. از نظر عملکرد، Gemini 2.5 در بنچمارک‌های کنترل مرورگر مانند Online-Mind2Web و WebVoyager پیشتاز است و با تأخیر کمتر در محیط Browserbase عمل می‌کند. این ترکیب برای وظایفی مانند ناوبری در داشبورد حساب کاربری یا رزرو سفر در زمان واقعی، بسیار مفید است. گوگل همچنین جزئیات ارزیابی بیشتری منتشر کرده تا علاقه‌مندان بتوانند عمیق‌تر بررسی کنند.

ایمنی در اولویت: جلوگیری از خطرات احتمالی

وقتی صحبت از هوش مصنوعی می‌شود که می‌تواند اقدامات واقعی انجام دهد، ایمنی مثل کمربند ایمنی ضروری است، نه یک گزینه اضافی. هر اقدام پیشنهادی می‌تواند از طریق سرویس ایمنی مرحله‌ای بررسی شود؛ توسعه‌دهندگان همچنین می‌توانند تأیید کاربر را برای اقدامات حساس مانند خریدها یا مواردی که ممکن است به سیستم آسیب بزند، الزامی کنند. علاوه بر این، می‌توان اقدامات مجاز را محدود کرد تا دستیار از مشکلات جلوگیری کند. با این حال، گوگل بر آزمایش جامع قبل از انتشار تأکید دارد.

اگر می‌خواهید این قابلیت را امتحان کنید، گوگل دموی میزبانی‌شده از طریق Browserbase، نمونه‌های حلقه دستیار و مستندات برای ساخت محلی با Playwright را پیشنهاد می‌کند. جالب است بدانید که نسخه‌هایی از این مدل قبلاً در پروژه‌هایی مانند Project Mariner، عامل تست Firebase و برخی ویژگی‌های حالت AI جستجوی گوگل استفاده شده‌اند. حالا با این پیش‌نمایش، درها باز شده است.

به گزارش ایروتایم – irotime، این پیشرفت نشان‌دهنده گذار Gemini از یک دستیار پیشنهادی به یک دستیار اجرایی است. اگر کارهای شما روی وب متمرکز است، این می‌تواند جالب‌ترین نوآوری گوگل در سال جاری باشد.

بنچمارک‌های عملکرد: مقایسه با رقبا

برای درک بهتر برتری Gemini 2.5، نگاهی به بنچمارک‌ها بیندازیم:

بنچمارک Gemini 2.5 Computer Use رقبا (مانند Online-Mind2Web) تأخیر (در Browserbase)
کنترل مرورگر پیشتاز پایین‌تر کمتر
اتوماسیون وظایف بالا متوسط بهینه
تعامل UI موبایل امیدوارکننده محدود استاندارد

این اعداد نشان می‌دهند که چگونه این مدل در اتوماسیون مرورگر هوش مصنوعی، کارایی بالایی دارد.

برچسب گذاری شده:
این مقاله را به اشتراک بگذارید