0

متا هوش مصنوعی Spirit LM را معرفی کرد؛ مدلی برای تولید مکالمات صوتی طبیعی

متا هوش مصنوعی Spirit LM را معرفی کرد؛ مدلی برای تولید مکالمات صوتی طبیعی
بازدید 121

متا از هوش مصنوعی جدیدی به نام Spirit LM رونمایی کرد که اولین مدل زبانی چندوجهی این شرکت است و می‌تواند ورودی‌ها و خروجی‌های متن و گفتار را یکپارچه ادغام کند. فناوری جدید متا باعث می‌شود گفتار و مکالمات صوتی با این مدل بسیار طبیعی باشد؛ از این نظر می‌توان آن را رقیب GPT-4o دانست.

براساس اعلام متا، مدل‌های زبانی بزرگ اغلب در مکالمات صوتی از فرایند تبدیل متن به گفتار (text-to-speech) استفاده می‌کنند که در آن صدای کاربر با «تشخیص خودکار گفتار» (ASR) رونویسی می‌شود، سپس LLM متنی تولید می‌کند و درنهایت با استفاده از فناوری تبدیل «متن به گفتار» (TTS) پاسخ هوش مصنوعی به گفتار تبدیل می‌شود.

این فرایند جنبه‌های بیانی و صوتی گفتار را از بین می‌برد و دیگر مکالمات طبیعی نخواهد بود. در تلاش برای رفع این مسئله، متا Spirit LM را معرفی کرده که اولین مدل زبانی چندوجهی متن‌باز این شرکت است که متن و گفتار را با هم ترکیب می‌کند.

مدل متن‌باز Spirit LM متا برای مکالمات صوتی طبیعی

مدل Spirit LM متا

براساس مقاله علمی معرفی Spirit LM، این مدل دو نسخه دارد:

  • Spirit LM Base: این نسخه از توکن‌های آوایی (Phonetic) برای پردازش و تولید گفتار استفاده می‌کند.
  • Spirit LM Expressive: که شامل توکن‌های اضافی برای ایجاد زیروبم و لحن است که به مدل اجازه می‌دهد حالت‌های احساسی ظریف‌تری مانند هیجان یا غم را ثبت و آن‌ها را در گفتار تولیدشده منعکس کند.

هر دو مدل روی ترکیبی از مجموعه داده‌های متنی و گفتاری آموزش دیده‌اند که به Spirit LM اجازه می‌دهد کارهای مختلف چندوجهی مانند تبدیل گفتار به نوشتار و نوشتار به گفتار را انجام دهد و درعین‌حال بیان طبیعی صوتی خود را در خروجی‌ها حفظ کند.

در راستای تعهد متا به انتشار مدل‌های متن‌باز، این شرکت کدهای Spirit LM را نیز کاملاً در Github دسترس قرار داده است.

«مارک زاکربرگ»، مدیرعامل متا، همیشه مدافع سرسخت هوش مصنوعی متن‌باز بوده و اخیراً نیز گفته است هوش مصنوعی پتانسیل افزایش بهره‌وری، خلاقیت و کیفیت زندگی انسان را دارد و پیشرفت‌ در زمینه‌هایی مانند تحقیقات پزشکی و اکتشافات علمی را سرعت می‌بخشد.

نظرات کاربران

  • دیدگاه های ارسال شده شما، پس از بررسی توسط تیم اَپ ریویو منتشر خواهد شد.
  • پیام هایی که حاوی توهین، افترا و یا خلاف قوانین جمهوری اسلامی ایران باشد منتشر نخواهد شد.
  • لازم به یادآوری است که آی پی شخص نظر دهنده ثبت می شود و کلیه مسئولیت های حقوقی نظرات بر عهده شخص نظر بوده و قابل پیگیری قضایی می باشد که در صورت هر گونه شکایت مسئولیت بر عهده شخص نظر دهنده خواهد بود.
  • لطفا از تایپ فینگلیش بپرهیزید. در غیر اینصورت دیدگاه شما منتشر نخواهد شد.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *