آمازون مدل صوتی Nova Sonic را معرفی کرد

آمازون امروز از Nova Sonic، یک مدل پیشرفته تبدیل گفتار به گفتار، رونمایی کرد که به توسعه‌دهندگان امکان می‌دهد برنامه‌هایی با مکالمات صوتی بی‌درنگ و شبیه به انسان بسازند. آمازون ادعا می‌کند که این مدل صوتی جدید، عملکرد قیمت پیشرو در صنعت و تأخیر کم را ارائه می‌دهد.

معمولاً، توسعه یک برنامه مبتنی بر صدا، مستلزم همکاری توسعه‌دهندگان با چندین مدل است، مانند یک مدل تشخیص گفتار برای تبدیل گفتار به متن، مدل‌های زبانی بزرگ برای درک و تولید پاسخ‌ها، و یک مدل متن به گفتار برای تبدیل متن به صدا. این رویکرد نه تنها پیچیده است، بلکه اغلب در ثبت زمینه‌های صوتی حیاتی و ظرافت‌هایی مانند لحن، عروض و سبک گفتار نیز ناموفق است.

Nova Sonic با یکپارچه‌سازی قابلیت‌های درک و تولید صدا در یک مدل واحد، این چالش را برطرف می‌کند. این رویکرد یکپارچه به مدل اجازه می‌دهد تا لحن، سبک و ورودی گفتاری را درک کند و در نتیجه دیالوگ طبیعی‌تری ایجاد شود. همچنین می‌تواند زمان مناسب برای پاسخ دادن و مدیریت بهتر وقفه‌ها (قطع ناگهانی صدا) را تعیین کند.

Nova Sonic از صداهای مردانه و زنانه در لهجه‌های مختلف انگلیسی، از جمله آمریکایی و بریتانیایی، پشتیبانی می‌کند. توسعه‌دهندگان می‌توانند از طریق Amazon Bedrock و از طریق یک API استریمینگ دوطرفه، با پشتیبانی از فراخوانی تابع، به این مدل دسترسی داشته باشند. همچنین شامل محافظت‌های داخلی مانند تعدیل محتوا و واترمارک است.