هوش مصنوعی

OpenAI نسل بعدی مدل های صوتی را معرفی می کند

در ماه‌های اخیر، OpenAI چندین ابزار جدید از جمله Operator، Deep Research، Computer-Using Agents و Responses API را منتشر کرده است که بر عوامل مبتنی بر متن تمرکز دارد. امروز OpenAI مدل‌های صوتی گفتار به نوشتار و متن به گفتار جدیدی را در API معرفی کرد که به توسعه‌دهندگان این امکان را می‌دهد تا عوامل صوتی قدرتمندتر، قابل تنظیم و رساتر از همیشه ایجاد کنند.

مدل‌های جدید گفتار به متن OpenAI، gpt-4o-transscribe و gpt-4o-mini-transscribe، پیشرفت‌های قابل توجهی را در میزان خطای کلمه، تشخیص زبان و دقت در مقایسه با مدل‌های Whisper موجود OpenAI ارائه می‌کنند. این پیشرفت ها از طریق یادگیری تقویتی و آموزش گسترده میانی با استفاده از مجموعه داده های صوتی متنوع و با کیفیت بالا به دست آمد.

OpenAI ادعا می‌کند که این مدل‌های صوتی جدید می‌توانند تفاوت‌های ظریف گفتار را بهتر درک کنند، تشخیص نادرست را کاهش دهند و قابلیت اطمینان رونویسی را بهبود بخشند، حتی زمانی که صدای ورودی شامل لهجه‌ها، محیط‌های پر سر و صدا و سرعت‌های گفتار متفاوت باشد.

OpenAI نسل بعدی مدل های صوتی را معرفی می کند

gpt-4o-mini-tts جدیدترین مدل تبدیل متن به گفتار است که فرمان پذیری بهبود یافته ای را ارائه می دهد. توسعه دهندگان اکنون می توانند به مدل آموزش دهند که چگونه محتوای متن را بیان کند. با این حال، در حال حاضر، مدل تبدیل متن به گفتار به صداهای مصنوعی و از پیش تعیین شده محدود شده است.

مدل gpt-4o-transscribe 6 دلار به ازای هر میلیون توکن ورودی صوتی، 2.50 دلار به ازای هر میلیون توکن ورودی متن و 10 دلار به ازای هر میلیون توکن خروجی متن هزینه دارد. رونویسی gpt-4o-mini 3 دلار به ازای هر میلیون توکن ورودی صوتی، 1.25 دلار به ازای هر میلیون توکن ورودی متن و 5 دلار برای هر میلیون توکن خروجی متن هزینه دارد. در نهایت، gpt-4o-mini-tts 0.60 دلار به ازای هر میلیون توکن ورودی متن و 12 دلار به ازای هر میلیون توکن خروجی صدا هزینه دارد.

این مدل‌های صوتی جدید اکنون از طریق API در دسترس همه توسعه‌دهندگان هستند. OpenAI همچنین یک ادغام با Agents SDK را اعلام کرد که به توسعه دهندگان این امکان را می دهد تا به راحتی عوامل صوتی بسازند. برای تجربه‌های گفتار به گفتار با تأخیر کم، OpenAI استفاده از Realtime API را توصیه می‌کند.

گرد آورنده
neowin

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا