مدل جدید Sora OpenAI میتواند ویدیوهای چند دقیقهای را از پیامهای متنی تولید کند
OpenAI روز پنجشنبه Sora را معرفی کرد، یک مدل کاملاً جدید که ویدیوهای با وضوح بالا را تا یک دقیقه از طریق پیامهای متنی تولید میکند. Sora که در زبان ژاپنی به معنای “آسمان” است، به این زودی در دسترس عموم قرار نخواهد گرفت.
در مقابل، OpenAI آن را در اختیار گروه کوچکی از دانشگاهیان و محققان قرار میدهد که آسیب و پتانسیل سوء استفاده از آن را ارزیابی میکنند. این شرکت در وبسایت خود گفت:
Sora میتواند صحنههای پیچیده با شخصیتهای متعدد، انواع حرکت خاص و جزئیات دقیق سوژه و پسزمینه تولید کند. این مدل نه تنها آنچه را که کاربر در اعلان درخواست کرده است، میفهمد، بلکه چگونگی وجود آن چیزها در دنیای فیزیکی را نیز درک میکند.
یکی از ویدیوهای تولید شده توسط سورا که OpenAI در وب سایت خود به اشتراک گذاشته است، زوجی را نشان میدهد که در حال قدم زدن در یک شهر برفی توکیو هستند در حالی که گلبرگهای شکوفههای گیلاس و دانههای برف در اطراف آنها میوزند.
OpenAI میگوید که این مدل در نتیجه «درک عمیق زبان» کار میکند، که به آن اجازه میدهد اعلانهای متن را با دقت تفسیر کند. با این حال، مانند اساساً همه تولیدکنندگان تصویر و ویدیوی هوش مصنوعی که دیدهایم، Sora کامل نیست. در یکی از مثالها، درخواستی که ویدیویی از یک دالماسیایی میخواهد که از پنجره نگاه میکند و مردم «در امتداد خیابانهای کانال راه میروند و دوچرخهسواری میکنند»، مردم و خیابانهای ویدیو را بهطور کامل حذف میکند. OpenAI همچنین هشدار میدهد که این مدل میتواند در درک علت و معلول مشکل داشته باشد، برای مثال میتواند ویدیویی از یک فرد در حال خوردن یک کوکی تولید کند، اما ممکن است کوکی دارای علائم گاز گرفتن نباشد.
Sora اولین مدل تبدیل متن به ویدئو نیست. سایر شرکتها از جمله متا، گوگل و Runway یا ابزارهای تبدیل متن به ویدیو را تیز کردهاند یا آنها را در دسترس عموم قرار دادهاند. با این حال، هیچ ابزار دیگری در حال حاضر قادر به تولید ویدیوهایی به مدت 60 ثانیه نیست. Sora همچنین به جای کنار هم قرار دادن آنها به صورت فریم به فریم مانند مدل های دیگر، کل ویدیوها را یکباره تولید میکند، که موجب میشود سوژههای موجود در ویدیو حتی زمانی که به طور موقت از دید خارج میشوند، ثابت بمانند.