مدل جدید Sora OpenAI می‌تواند ویدیوهای چند دقیقه‌ای را از پیام‌های متنی تولید کند

بهمن 27, 1402

OpenAI روز پنجشنبه Sora را معرفی کرد، یک مدل کاملاً جدید که ویدیوهای با وضوح بالا را تا یک دقیقه از طریق پیام‌های متنی تولید می‌کند. Sora که در زبان ژاپنی به معنای “آسمان” است، به این زودی در دسترس عموم قرار نخواهد گرفت.

در مقابل، OpenAI آن را در اختیار گروه کوچکی از دانشگاهیان و محققان قرار می‌دهد که آسیب و پتانسیل سوء استفاده از آن را ارزیابی می‌کنند. این شرکت در وب‌سایت خود گفت:

Sora می‌تواند صحنه‌های پیچیده با شخصیت‌های متعدد، انواع حرکت خاص و جزئیات دقیق سوژه و پس‌زمینه تولید کند. این مدل نه تنها آنچه را که کاربر در اعلان درخواست کرده است، می‌فهمد، بلکه چگونگی وجود آن چیزها در دنیای فیزیکی را نیز درک می‌کند.

یکی از ویدیوهای تولید شده توسط سورا که OpenAI در وب سایت خود به اشتراک گذاشته است، زوجی را نشان می‌دهد که در حال قدم زدن در یک شهر برفی توکیو هستند در حالی که گلبرگ‌های شکوفه‌های گیلاس و دانه‌های برف در اطراف آنها می‌وزند.

مدل جدید Sora OpenAI می‌تواند ویدیوهای چند دقیقه‌ای را از پیام‌های متنی تولید کند

OpenAI می‌گوید که این مدل در نتیجه «درک عمیق زبان» کار می‌کند، که به آن اجازه می‌دهد اعلان‌های متن را با دقت تفسیر کند. با این حال، مانند اساساً همه تولیدکنندگان تصویر و ویدیوی هوش مصنوعی که دیده‌ایم، Sora کامل نیست. در یکی از مثال‌ها، درخواستی که ویدیویی از یک دالماسیایی می‌خواهد که از پنجره نگاه می‌کند و مردم «در امتداد خیابان‌های کانال راه می‌روند و دوچرخه‌سواری می‌کنند»، مردم و خیابان‌های ویدیو را به‌طور کامل حذف می‌کند. OpenAI همچنین هشدار می‌دهد که این مدل می‌تواند در درک علت و معلول مشکل داشته باشد، برای مثال می‌تواند ویدیویی از یک فرد در حال خوردن یک کوکی تولید کند، اما ممکن است کوکی دارای علائم گاز گرفتن نباشد.

Sora اولین مدل تبدیل متن به ویدئو نیست. سایر شرکت‌ها از جمله متا، گوگل و Runway یا ابزارهای تبدیل متن به ویدیو را تیز کرده‌اند یا آنها را در دسترس عموم قرار داده‌اند. با این حال، هیچ ابزار دیگری در حال حاضر قادر به تولید ویدیوهایی به مدت 60 ثانیه نیست. Sora همچنین به جای کنار هم قرار دادن آنها به صورت فریم به فریم مانند مدل های دیگر، کل ویدیوها را یکباره تولید می‌کند، که موجب می‌شود سوژه‌های موجود در ویدیو حتی زمانی که به طور موقت از دید خارج می‌شوند، ثابت بمانند.

بهمن 27, 1402

ما را دنبال کنید

نوشته های مشابه

معرفی Google Gemini برای آیفون؛ آیا اپل از رقبا عقب مانده است؟

چالش خلاقیت در دنیای موسیقی هوش مصنوعی

گوگل اپلیکیشن هوش مصنوعی Gemini را برای آیفون عرضه کرد

Gemini در Gmail؛ مدیریت ایمیل و تقویم در یک پنل

دیدگاهتان را بنویسید لغو پاسخ