امکان برقراری ارتباط به ۱۰۰ زبان مختلف با آخرین مدل هوش مصنوعی متا

1

باریخ نیوز : این فناوری چندوجهی که SeamlessM4T نام دارد، به‌صورت عمومی منتشر شده است تا به محققان کمک نماید، بر روی توسعه و معرفی برنامه‌های کاربردی جهانی با قابلیت ارائه ترجمه گفتار به گفتار، گفتار به نوشتار، متن به گفتار و متن به متن کار کنند. این مجموعه همراه با SeamlessAlign؛ یک مجموعه داده ترجمه چندوجهی که از مجموع ۲۶۵۰۰۰ ساعت گفتار و متن استخراج شده، در دسترس قرار گرفته است.

این یک پیشرفت قابل‌توجه در کاربرد‌های هوش مصنوعی در زمینه زبان‌شناسی را نشان می‌دهد، زیرا یک سیستم واحد است که می‌تواند چندین کار مرتبط با گفتار و متن را انجام دهد، در حالی که رویکردهای قبلی به سیستم‌های مختلفی برای انجام هر کار نیاز داشتند، به عنوان مثال یک سیستم اختصاصی برای ترجمه گفتار به گفتار.

 SeamlessM4T چه کاری می‌تواند انجام دهد؟

همانطور که Meta توضیح می‌دهد، SeamlessM4T قادر است به طور ضمنی زبان مبدأ را بدون نیاز به مدل شناسایی زبانی جداگانه تشخیص ‌دهد. این مدل می‌تواند گفتار و متن را در نزدیک به ۱۰۰ زبان تشخیص دهد و متن را با همین تعداد و گفتار را به ۳۶ زبان مختلف تولید نماید. نکته جالب‌تر اینکه SeamlessM4T می‌تواند تشخیص دهد، چه زمانی بیش از یک زبان در یک جمله ترکیب شده و ترجمه‌هایی را بر اساس زبان هدفمندی که از او خواسته شده، ارائه نماید. در حالی که سیستم‌های قبلی برای هر کار به رویکردهای متفاوتی نیاز داشتند.

آزمایش با BLASER 2.0، ابزاری برای ارزیابی واحدهای گفتار و متن، نشان داد که این مدل نسبت به مدل‌های پیشرفته فعلی برای ترجمه گفتار به نوشتار بهتر عمل می‌کند. به طور مشخص، این مدل در مواجهه با نویز پس‌زمینه و تغییرات بلندگو، به ترتیب با میانگین پیشرفت‌های ۳۷ و ۴۸ درصدی، عملکرد بهتری داشت.

متا در یک پست وبلاگی نوشت:«SeamlessM4T از رقبای پیشرفته قبلی بهتر عمل می‌کند و به طرز قابل‌توجهی عملکرد آن در ترجمه زبان‌هایی با منابع کم و متوسط، بهبود بخشیده شده. علاوه بر این عملکرد قوی خود را در زبان‌های با منابع بالا (مانند انگلیسی) حفظ کرده است.»

در صورت توسعه، این مدل می‌تواند منجر به ایجاد به سیستم‌های ترجمه جهانی در مقیاس بزرگ شود و به افرادی که به زبان‌های مختلف صحبت می‌کنند اجازه می‌دهد، به گونه مؤثرتری با یکدیگر ارتباط برقرار نمایند.

قابل ذکر است، گوگل نیز در این زمینه فعالیت می‌کند و در این راستا مدل جهانی گفتار (USM) خود را معرفی کرده که می‌تواند تشخیص خودکار گفتار (ASR) را نه‌تنها برای زبان‌های رایج، بلکه برای زبان‌های غیرمعمول نیز انجام دهد.

منبع : هوشیو

بدون دیدگاه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *