تماشا کنید: گوگل به ارتقای مدل هوش مصنوعی خود برای تشخیص صدا پرداخت

تماشا کنید: گوگل به ارتقای مدل هوش مصنوعی خود برای تشخیص صدا پرداخت

تشخیص صدا یکی از قابلیت های جدانشدنی از گوشی های موبایل کنونی شده است و کاربران از این امکان برای انجام عملیات یا فعال سازی آنها استفاده می کنند. صدا با تبدیل به متن به عنوان پیامی برای دستیار شخصی ارسال می شود و دستیار دیجیتال فورا به پرسش مورد نظر پاسخ می دهد. در سال 2012 گوگل اقدام به تغییر Gaussian Mixture Model یا GMM که برای 30 سال متمادی مورد استفاده گرفته بود، کرد و استاندارد جدید تحت عنوان Deep Neural Networks یا DNNs را بنیان نهاد، این استاندارد نتایج بهتری را به نمایش گذاشت، علاوه بر این دقت در تشخیص صدا و مکالمات نیز بهبود یافتند. هم اکنون گوگل اعلام کرده که در حال تغییر مدل با بهره گیری از تکنولوژی به نام Connectionist Temporal Classification یا CTC و تکنیک های آموزشی دنباله است. این مدل های جدید بسط هایی از شاخه هوش مصنوعی به نام recurrent neural networks یا RNNs هستند که نتایج دقیق تری را، به خصوص زمانی که نویز در پس زمینه صدای کاربر باشد به ارمغان می آورند، سرعت تشخیص صدا نیز در این مدل بهبود یافته است. blog_13403_1RNN های بهبودیافته به تشخیص بهتر کلمات بیان شده از سوی کاربران کمک می کنند، علاوه بر این توانایی به خاطرسپاری اطلاعات در این سیستم بهتر از سایر سیستم های مشابه است. مدل های CTC امکان تشخیص واج ها را میسر می سازند، این کار توسط در اختیار گرفتن تکه های صوتی بزرگ تر انجام شده و با کاهش تعداد محاسبات، عملیات با سرعت بیشتری صورت می پذیرد. صوت مصنوعی نیز برای آموزش دنباله افزوده می گردد، در نتیجه قابلیت تشخیص صدا در محیط های پر سر و صدا میسر می شود. یک تاخیر 300 میلی ثانیه ای در روند تشخیص واج ها توسط سیستم وجود دارد، لذا باید مدل را برای سرعت بخشیدن در تشخیص واج ها آموزش دهند. مدل های جدید با Google app برای اندروید و آی او اس ادغام شده اند و در گوشی های اندروید امکان استفاده از آن وجود دارد. در این ویدئو شما قادر به مشاهده چگونگی یادگیری RNN برای تشخیص عبارت How cold is it outside می باشید، واج های ظاهر شده در قالب رنگ، توسط مدل CTC درک می شوند.

  http://www.androidheadlines.com برگرفته از  

اینها را هم بخوانید