اپل یک مدل هوش مصنوعی تصویری راه اندازی کرده است
اپل امروزه یکی از برترین بازیکنان در بازی هوش مصنوعی نیست، اما مدل جدید AI منبع باز این شرکت برای ویرایش تصویر نشان میدهد که چه چیزی میتواند به فضا کمک کند. این مدل MLLM-Guided Image Editing (MGIE) نامیده میشود که از مدلهای زبان بزرگ چندوجهی (MLLMs) برای تفسیر دستورات مبتنی بر متن هنگام دستکاری تصاویر استفاده میکند. به عبارت دیگر، این ابزار توانایی ویرایش عکسها را بر اساس متنی که کاربر در آن تایپ میکند، دارد.
اگرچه این اولین ابزاری نیست که میتواند این کار را انجام دهد، “دستورالعملهای انسانی گاهی برای روشهای فعلی برای گرفتن و دنبال کردن آنها بسیار کوتاه هستند. ” کاغذ (PDF) خوانده می شود.
این شرکت MGIE را با محققان دانشگاه کالیفرنیا، سانتا باربارا توسعه داد. MLLM ها این قدرت را دارند که پیام های متنی ساده یا مبهم را به دستورالعمل های دقیق تر و واضح تر تبدیل کنند که ویرایشگر عکس می تواند دنبال کند. برای مثال، اگر کاربری بخواهد عکسی از پیتزای پپرونی را ویرایش کند تا آن را «سالمتر کند»، MLLM میتواند آن را بهعنوان «اضافه کردن رویههای سبزیجات» تعبیر کند و عکس را به این صورت ویرایش کند.
علاوه بر تغییر ایجاد تغییرات عمده در تصاویر، MGIE همچنین میتواند عکسها را برش داده، اندازه آن را تغییر دهد و بچرخاند، و همچنین روشنایی، کنتراست و تعادل رنگ را از طریق پیامهای متنی بهبود بخشد. همچنین می تواند قسمت های خاصی از یک عکس را ویرایش کند و به عنوان مثال می تواند موها، چشم ها و لباس های یک فرد را در آن اصلاح کند یا عناصر پس زمینه را حذف کند.
همانطور که VentureBeat اشاره میکند، اپل این مدل را از طریق GitHub منتشر کرد ، اما علاقهمندان میتوانند دمویی را که در حال حاضر در Hugging Face Spaces میزبانی شده است، امتحان کنند. اپل هنوز نگفته است که آیا قصد دارد از آموخته های خود از این پروژه در ابزار یا ویژگی استفاده کند که بتواند در هر یک از محصولات خود گنجانده شود.