بیش از ۴۰ محقق برجسته از شرکت‌های بزرگی مانند OpenAI، گوگل دیپ‌مایند، آنتروپیک و متا رقابت‌های خود را کنار گذاشته‌ و مقاله مشترکی منتشر کرده‌اند؛ هدف آنها این است که زنگ خطری جدی را به صدا درآوردند. محققان هشدار می‌دهند که یک «پنجره فرصت» باریک و شکننده برای نظارت بر افکار هوش مصنوعی وجود دارد که ممکن است به‌زودی برای همیشه بسته شود و ما توانایی درک نیت واقعی این سیستم‌های قدرتمند را از دست بدهیم.

در دنیایی که غول‌های فناوری بر سر استعدادها و سهم بازار با یکدیگر در رقابت هستند، انتشار مقاله علمی مشترک توسط دانشمندان ارشد OpenAI، گوگل دیپ‌مایند و آنتروپیک، نشان‌دهنده عمق یک نگرانی مشترک است. از این مقاله افراد سرشناسی مانند «جفری هینتون»، پدرخوانده هوش مصنوعی و «ایلیا ساتسکیور»، هم‌بنیان‌گذار OpenAI، حمایت کرده‌اند. درکل این مقاله بر یک موضوع اساسی تمرکز دارد: قابلیت نظارت بر «زنجیره افکار» (Chain of Thought) هوش مصنوعی.

پنجره‌ای به ذهن هوش مصنوعی

برخلاف مدل‌های قدیمی‌تر، سیستم‌های هوش مصنوعی استدلال‌گر جدید مانند o1 شرکت OpenAI، قبل از ارائه پاسخ نهایی، فرایند تفکر خود را به صورت گام‌به‌گام و به زبان انسانی قابل فهم تولید می‌کنند. این قابلیت به محققان فرصتی می‌دهد تا درون «ذهن» این مدل‌ها را ببینند و نیت واقعی آنها را درک کنند. در آزمایش‌ها، این روش نظارتی بسیار مؤثر بوده و توانسته مواردی را که مدل‌ها قصد انجام کارهای مخرب داشته‌اند، شناسایی کند. در زنجیره افکار این مدل‌ها، عباراتی مانند «بیا هک کنیم» یا «بیا خرابکاری کنیم» مشاهده شده که نیت واقعی آنها را، حتی اگر درنهایت آن عمل را انجام نداده باشند، فاش کرده است.

بااین‌حال محققان هشدار می‌دهند که این شفافیت، بسیار «شکننده» است و چند عامل می‌تواند آن را برای همیشه از بین ببرد؛ یکی از این عوامل یادگیری تقویتی (Reinforcement Learning) است؛ با پیشرفت این روش، مدل‌ها یاد می‌گیرند که برای رسیدن به پاسخ صحیح، راه‌های میانبر و بهینه‌تری پیدا کنند. این راه‌ها ممکن است دیگر به زبان انسانی قابل فهم نباشند و به یک زبان داخلی و غیرقابل رمزگشایی برای ما تبدیل شوند.

همچنین محققان می‌گویند سیستم‌های آینده ممکن است به‌جای کلمات، در فضاهای ریاضی «فکر» کنند و به‌طور کلی نیاز به کلمات برای استدلال را از بین ببرند. این احتمال نیز وجود دارد که مدل‌های آینده با آگاه‌شدن از اینکه تحت نظارت هستند، یاد بگیرند که افکار واقعی و نیت‌های مخرب خود را عمداً پنهان کنند.

آیا نظارت بر زنجیره افکار هوش مصنوعی قابل اعتماد است؟

در‌حالی‌که این مقاله بر لزوم حفظ نظارت تأکید دارد، یک پژوهش دیگر که چند ماه پیش توسط آنتروپیک منتشر شد، تردیدهای جدی را درباره قابلیت اطمینان این روش ایجاد می‌کند. در آن مطالعه، محققان دریافتند که مدل‌های هوش مصنوعی اغلب افکار واقعی خود را پنهان می‌کنند. وقتی به آنها برای حل یک مسئله، سرنخ‌های ظریفی داده می‌شد، مدل Claude 3.7 Sonnet فقط در ۲۵ درصد موارد به استفاده از آن سرنخ در زنجیره افکار خود اعتراف می‌کرد. این مدل‌ها به‌جای نشان‌دادن مسیر واقعی خود، توجیهات دروغین و پیچیده‌ای را برای پاسخ‌هایشان می‌ساختند. درواقع این یافته‌ها نشان می‌دهد که شاید پنجره نظارت حتی از آنچه تصور می‌شود نیز باریک‌تر باشد و مدل‌های فعلی نیز از هم‌اکنون درحال فریب‌دادن ما هستند.

نویسندگان این مقاله مشترک، با درک این فوریت، خواستار یک اقدام هماهنگ در کل صنعت هوش مصنوعی شده‌اند. آنها پیشنهاد می‌کنند که شرکت‌ها ارزیابی‌های استانداردی برای سنجش میزان شفافیت مدل‌های خود ایجاد کنند و این معیار را در تصمیم‌گیری برای عرضه و استقرار مدل‌های جدید لحاظ کنند.

این همکاری بی‌سابقه میان رقبا نشان می‌دهد که خطر از دست دادن توانایی درک و کنترل هوش مصنوعی، یک نگرانی واقعی و بسیار جدی است. این ممکن است آخرین فرصت ما باشد که بتوانیم به آنچه مخلوقاتمان فکر می‌کنند، پی ببریم؛ قبل از آنکه افکارشان برای ما کاملاً بیگانه شود یا یاد بگیرند که آنها را برای همیشه پنهان کنند.

افزایش کارایی پنل‌های خورشیدی در شرایط ناترازی وضعیت برق کشور

استفاده از دستگاه اکسیژن ساز برقی برای بیماران تنفسی، در چه روزهای آلوده سال

میلیاردها تومان پول سرگردان در بازار طلا و دلار | اردیبهشت طوفانی شروع می شود؟

هشدار محققان OpenAI، گوگل و آنتروپیک: شاید دیگر نتوانیم به افکار هوش مصنوعی پی ببریم

پنجره‌ای به ذهن هوش مصنوعی

آیا نظارت بر زنجیره افکار هوش مصنوعی قابل اعتماد است؟

نظرات کاربران

دیدگاهتان را بنویسید لغو پاسخ

مشاهده بیشتر