OpenAI نسل بعدی مدل های صوتی را معرفی می کند

در ماههای اخیر، OpenAI چندین ابزار جدید از جمله Operator، Deep Research، Computer-Using Agents و Responses API را منتشر کرده است که بر عوامل مبتنی بر متن تمرکز دارد. امروز OpenAI مدلهای صوتی گفتار به نوشتار و متن به گفتار جدیدی را در API معرفی کرد که به توسعهدهندگان این امکان را میدهد تا عوامل صوتی قدرتمندتر، قابل تنظیم و رساتر از همیشه ایجاد کنند.
مدلهای جدید گفتار به متن OpenAI، gpt-4o-transscribe و gpt-4o-mini-transscribe، پیشرفتهای قابل توجهی را در میزان خطای کلمه، تشخیص زبان و دقت در مقایسه با مدلهای Whisper موجود OpenAI ارائه میکنند. این پیشرفت ها از طریق یادگیری تقویتی و آموزش گسترده میانی با استفاده از مجموعه داده های صوتی متنوع و با کیفیت بالا به دست آمد.
OpenAI ادعا میکند که این مدلهای صوتی جدید میتوانند تفاوتهای ظریف گفتار را بهتر درک کنند، تشخیص نادرست را کاهش دهند و قابلیت اطمینان رونویسی را بهبود بخشند، حتی زمانی که صدای ورودی شامل لهجهها، محیطهای پر سر و صدا و سرعتهای گفتار متفاوت باشد.
gpt-4o-mini-tts جدیدترین مدل تبدیل متن به گفتار است که فرمان پذیری بهبود یافته ای را ارائه می دهد. توسعه دهندگان اکنون می توانند به مدل آموزش دهند که چگونه محتوای متن را بیان کند. با این حال، در حال حاضر، مدل تبدیل متن به گفتار به صداهای مصنوعی و از پیش تعیین شده محدود شده است.
مدل gpt-4o-transscribe 6 دلار به ازای هر میلیون توکن ورودی صوتی، 2.50 دلار به ازای هر میلیون توکن ورودی متن و 10 دلار به ازای هر میلیون توکن خروجی متن هزینه دارد. رونویسی gpt-4o-mini 3 دلار به ازای هر میلیون توکن ورودی صوتی، 1.25 دلار به ازای هر میلیون توکن ورودی متن و 5 دلار برای هر میلیون توکن خروجی متن هزینه دارد. در نهایت، gpt-4o-mini-tts 0.60 دلار به ازای هر میلیون توکن ورودی متن و 12 دلار به ازای هر میلیون توکن خروجی صدا هزینه دارد.
این مدلهای صوتی جدید اکنون از طریق API در دسترس همه توسعهدهندگان هستند. OpenAI همچنین یک ادغام با Agents SDK را اعلام کرد که به توسعه دهندگان این امکان را می دهد تا به راحتی عوامل صوتی بسازند. برای تجربههای گفتار به گفتار با تأخیر کم، OpenAI استفاده از Realtime API را توصیه میکند.