رونمایی از هوش مصنوعی جدید متا به نام SeamlessM4T

در ماه اوت، متا از مدل ترجمه چندوجهی هوش مصنوعی خود، SeamlessM4T ، رونمایی کرد که از نزدیک به 100 زبان برای متن و 36 زبان برای گفتار پشتیبانی می‌کند. با معماری به روز شده v2، غول فناوری اکنون در حال توسعه این ابزار است تا ترجمه های محاوره ای را خودانگیخته تر و گویاتر کند – که دومی کلید گم شده ای برای مکالمه معتبر بین زبان هاست.

اولین مورد از دو ویژگی جدید SeamlessExpressive است که، همانطور که از نامش می توانید تشخیص دهید، عبارات شما را به گفتار ترجمه شده شما منتقل می کند. اینها شامل زیر و بمی صدا، صدا، لحن عاطفی (هیجان، غم یا زمزمه)، سرعت گفتار و مکث می شود.

با در نظر گرفتن اینکه چگونه سخنرانی‌های ترجمه شده تا به حال همیشه روباتیک به نظر می‌رسیدند، این پیشرفت به طور بالقوه یک تغییر دهنده بازی است – هم در زندگی روزمره ما و هم در تولید محتوا. زبان‌های پشتیبانی‌شده عبارتند از انگلیسی، اسپانیایی، آلمانی، فرانسوی، ایتالیایی و چینی، اگرچه در زمان نگارش این مقاله، صفحه نمایشی ایتالیایی و چینی وجود ندارد.

ویژگی دوم «SeamlessStreaming» است که شروع به ترجمه یک سخنرانی در حالی که گوینده هنوز در حال صحبت است، می کند، بنابراین به دیگران امکان می دهد ترجمه را سریعتر بشنوند. هنوز یک تأخیر کوتاه و کمتر از دو ثانیه وجود دارد، اما حداقل لازم نیست منتظر بمانید تا کسی جمله را تمام کند.

به گفته متا، چالش اینجاست که زبان‌های مختلف ساختار جمله‌ای متفاوتی دارند، بنابراین مجبور شد الگوریتمی را برای مطالعه ورودی جزئی صوتی ایجاد کند تا تصمیم بگیرد که آیا زمینه کافی برای شروع تولید یک خروجی ترجمه شده وجود دارد یا اینکه آیا به گوش دادن ادامه می‌دهد. .

به نظر می رسد آخرین توسعه متا در این مجموعه ارتباطات بدون درز تاثیرگذار باشد – بیشتر از ابزارهای مترجم موبایل ارائه شده توسط شرکت هایی مانند گوگل و سامسونگ . هیچ صحبتی در مورد اینکه چه زمانی عموم مردم قادر به استفاده از این ویژگی های جدید خواهند بود وجود ندارد، اما من می توانم تصور کنم که متا روزی آنها را در عینک های هوشمند خود بپزد و آنها را حتی کاربردی تر از همیشه کند.