آمازون مدل صوتی Nova Sonic را معرفی کرد

آمازون امروز از Nova Sonic، یک مدل پیشرفته تبدیل گفتار به گفتار، رونمایی کرد که به توسعهدهندگان امکان میدهد برنامههایی با مکالمات صوتی بیدرنگ و شبیه به انسان بسازند. آمازون ادعا میکند که این مدل صوتی جدید، عملکرد قیمت پیشرو در صنعت و تأخیر کم را ارائه میدهد.
معمولاً، توسعه یک برنامه مبتنی بر صدا، مستلزم همکاری توسعهدهندگان با چندین مدل است، مانند یک مدل تشخیص گفتار برای تبدیل گفتار به متن، مدلهای زبانی بزرگ برای درک و تولید پاسخها، و یک مدل متن به گفتار برای تبدیل متن به صدا. این رویکرد نه تنها پیچیده است، بلکه اغلب در ثبت زمینههای صوتی حیاتی و ظرافتهایی مانند لحن، عروض و سبک گفتار نیز ناموفق است.
Nova Sonic با یکپارچهسازی قابلیتهای درک و تولید صدا در یک مدل واحد، این چالش را برطرف میکند. این رویکرد یکپارچه به مدل اجازه میدهد تا لحن، سبک و ورودی گفتاری را درک کند و در نتیجه دیالوگ طبیعیتری ایجاد شود. همچنین میتواند زمان مناسب برای پاسخ دادن و مدیریت بهتر وقفهها (قطع ناگهانی صدا) را تعیین کند.
Nova Sonic از صداهای مردانه و زنانه در لهجههای مختلف انگلیسی، از جمله آمریکایی و بریتانیایی، پشتیبانی میکند. توسعهدهندگان میتوانند از طریق Amazon Bedrock و از طریق یک API استریمینگ دوطرفه، با پشتیبانی از فراخوانی تابع، به این مدل دسترسی داشته باشند. همچنین شامل محافظتهای داخلی مانند تعدیل محتوا و واترمارک است.