اپل یک مدل هوش مصنوعی تصویری راه اندازی کرده است

اپل امروزه یکی از برترین بازیکنان در بازی هوش مصنوعی نیست، اما مدل جدید AI منبع باز این شرکت برای ویرایش تصویر نشان می‌دهد که چه چیزی می‌تواند به فضا کمک کند. این مدل MLLM-Guided Image Editing (MGIE) نامیده می‌شود که از مدل‌های زبان بزرگ چندوجهی (MLLMs) برای تفسیر دستورات مبتنی بر متن هنگام دستکاری تصاویر استفاده می‌کند. به عبارت دیگر، این ابزار توانایی ویرایش عکس‌ها را بر اساس متنی که کاربر در آن تایپ می‌کند، دارد.

اگرچه این اولین ابزاری نیست که می‌تواند این کار را انجام دهد، “دستورالعمل‌های انسانی گاهی برای روش‌های فعلی برای گرفتن و دنبال کردن آن‌ها بسیار کوتاه هستند. ” کاغذ (PDF) خوانده می شود.

این شرکت MGIE را با محققان دانشگاه کالیفرنیا، سانتا باربارا توسعه داد. MLLM ها این قدرت را دارند که پیام های متنی ساده یا مبهم را به دستورالعمل های دقیق تر و واضح تر تبدیل کنند که ویرایشگر عکس می تواند دنبال کند. برای مثال، اگر کاربری بخواهد عکسی از پیتزای پپرونی را ویرایش کند تا آن را «سالم‌تر کند»، MLLM می‌تواند آن را به‌عنوان «اضافه کردن رویه‌های سبزیجات» تعبیر کند و عکس را به این صورت ویرایش کند.

علاوه بر تغییر ایجاد تغییرات عمده در تصاویر، MGIE همچنین می‌تواند عکس‌ها را برش داده، اندازه آن را تغییر دهد و بچرخاند، و همچنین روشنایی، کنتراست و تعادل رنگ را از طریق پیام‌های متنی بهبود بخشد. همچنین می تواند قسمت های خاصی از یک عکس را ویرایش کند و به عنوان مثال می تواند موها، چشم ها و لباس های یک فرد را در آن اصلاح کند یا عناصر پس زمینه را حذف کند.

همانطور که VentureBeat اشاره می‌کند، اپل این مدل را از طریق GitHub منتشر کرد ، اما علاقه‌مندان می‌توانند دمویی را که در حال حاضر در Hugging Face Spaces میزبانی شده است، امتحان کنند. اپل هنوز نگفته است که آیا قصد دارد از آموخته های خود از این پروژه در ابزار یا ویژگی استفاده کند که بتواند در هر یک از محصولات خود گنجانده شود.