سیستم لب خوانی مجهز به هوش مصنوعی

هوش مصنوعی DeepMind گوگل در زمینه لب خوانی، از انسان جلو زد

به گزارش New Scientist، هوش مصنوعی DeepMind گوگل و دانشگاه آکسفورد در حال توسعه یک سیستم لب خوانی جدید هستند که به هوش مصنوعی مجهز می باشد.

سیستم هوش مصنوعی مذکور، کارآیی بهتری نسبت به لب خوان های حرفه ای و آزموده به نمایش گذاشته که خود خالق فرصت های جدیدی در زمینه تکنولوژی مصرف کننده می باشد.

این دو سازمان یک سیستم یادگیری عمیق را برای یک مجموعه داده بزرگ از برنامه های بی بی سی اعمال کردند و با استفاده از 5000 ویدیو، از 6 برنامه تلویزیونی که بین ژانویه 2010 و دسامبر 2015 پخش شده بودند، مجموع 118000 جمله به این هوش مصنوعی آموزش داده شد، سپس سیستم در پخش های زنده بین ماه های مارچ و سپتامبر مورد آزمایش قرار گرفت.

در یک آزمون کنترل، هوش مصنوعی توانست لب خوان های حرفه ای و انسانی را پشت سر گذارد. وظیفه این هوش مصنوعی ثبت 200 کلیپ از این مجموعه داده بود که به طور تصادفی انتخاب شده بودند، لب خوان حرفه ای توانست 12.4 درصد از کلمات را به ثبت رساند، در حالی که هوش مصنوعی 46.8 درصد از کلمات را به درستی تشخیص داد و بر اساس بیانات، این سیستم هوش مصنوعی از دقت بیشتری نسبت به سایر سیستم های لب خوانی خودکار بهره مند است.

این سیستم قابل استفاده در تمامی زمینه هایی است که از تشخیص گفتار و دوربین استفاده می کنند و برای نمونه می توان به موارد زیر اشاره کرد:

- افزودن قابلیت تشخیص گفتار به سمعک ها. می توان از سیستم های لب خوانی جهت تقویت سمعک ها برای ثبت مکالمات در ریل تایم استفاده کرد. بر اساس یافته های Hearing Loss Association آمریکا، حدود 20 درصد از آمریکایی ها از مشکلات شنوایی رنج می برند و با وجود جمعیت سال خورده، تقاضا برای سمعک یا دستگاه های لب خوانی در حال افزایش می باشد.

- عینک های مجهز به دوبین. این تکنولوژی قابل استفاده در محصولاتی همچون Spectacles و عینک هایی مجهز به دوربین Snap می باشد. افرادی که این تکنولوژی را مورد استفاده قرار می دهند، قادر به دریافت ترنسکریپت از مکالمات در ریل تایم هستند، البته در صورتی که دستگاه به لب های فرد سخنگو دید کاملی و کافی داشته باشد.

- فعال سازی دیکته بی صدا و دستورات صوتی. یکی دیگری از موارد کاربرد تکنولوژی لب خوانی، قادر ساختن افراد به املای دستورات به گوشی به صورت بی صدا می باشد. در این حالت، دیگری نیازی به حرف زدن با صدای بلند برای Siri احساس نمی شود. این تکنولوژی فرصتی برای استفاده از پسوردهای بصری را فراهم می کند، زیرا لب افراد به گونه متفاوتی حرکت می کند. شاید یکی از دلایلی که افراد نسبت به استفاده از دستیارهای صوتی بی میل هستند، خجالت کشیدن از حرف زدن با صدای بلند با دستگاه ها در اماکن عمومی باشد که با بهره گیری از چنین سیستم هایی، این قبیل مشکلات برطرف می شوند.

 

http://www.businessinsider.com برگرفته از

اینها را هم بخوانید