بیش از ۴۰ محقق برجسته از شرکتهای بزرگی مانند OpenAI، گوگل دیپمایند، آنتروپیک و متا رقابتهای خود را کنار گذاشته و مقاله مشترکی منتشر کردهاند؛ هدف آنها این است که زنگ خطری جدی را به صدا درآوردند. محققان هشدار میدهند که یک «پنجره فرصت» باریک و شکننده برای نظارت بر افکار هوش مصنوعی وجود دارد که ممکن است بهزودی برای همیشه بسته شود و ما توانایی درک نیت واقعی این سیستمهای قدرتمند را از دست بدهیم.
در دنیایی که غولهای فناوری بر سر استعدادها و سهم بازار با یکدیگر در رقابت هستند، انتشار مقاله علمی مشترک توسط دانشمندان ارشد OpenAI، گوگل دیپمایند و آنتروپیک، نشاندهنده عمق یک نگرانی مشترک است. از این مقاله افراد سرشناسی مانند «جفری هینتون»، پدرخوانده هوش مصنوعی و «ایلیا ساتسکیور»، همبنیانگذار OpenAI، حمایت کردهاند. درکل این مقاله بر یک موضوع اساسی تمرکز دارد: قابلیت نظارت بر «زنجیره افکار» (Chain of Thought) هوش مصنوعی.
پنجرهای به ذهن هوش مصنوعی
برخلاف مدلهای قدیمیتر، سیستمهای هوش مصنوعی استدلالگر جدید مانند o1 شرکت OpenAI، قبل از ارائه پاسخ نهایی، فرایند تفکر خود را به صورت گامبهگام و به زبان انسانی قابل فهم تولید میکنند. این قابلیت به محققان فرصتی میدهد تا درون «ذهن» این مدلها را ببینند و نیت واقعی آنها را درک کنند. در آزمایشها، این روش نظارتی بسیار مؤثر بوده و توانسته مواردی را که مدلها قصد انجام کارهای مخرب داشتهاند، شناسایی کند. در زنجیره افکار این مدلها، عباراتی مانند «بیا هک کنیم» یا «بیا خرابکاری کنیم» مشاهده شده که نیت واقعی آنها را، حتی اگر درنهایت آن عمل را انجام نداده باشند، فاش کرده است.

بااینحال محققان هشدار میدهند که این شفافیت، بسیار «شکننده» است و چند عامل میتواند آن را برای همیشه از بین ببرد؛ یکی از این عوامل یادگیری تقویتی (Reinforcement Learning) است؛ با پیشرفت این روش، مدلها یاد میگیرند که برای رسیدن به پاسخ صحیح، راههای میانبر و بهینهتری پیدا کنند. این راهها ممکن است دیگر به زبان انسانی قابل فهم نباشند و به یک زبان داخلی و غیرقابل رمزگشایی برای ما تبدیل شوند.
همچنین محققان میگویند سیستمهای آینده ممکن است بهجای کلمات، در فضاهای ریاضی «فکر» کنند و بهطور کلی نیاز به کلمات برای استدلال را از بین ببرند. این احتمال نیز وجود دارد که مدلهای آینده با آگاهشدن از اینکه تحت نظارت هستند، یاد بگیرند که افکار واقعی و نیتهای مخرب خود را عمداً پنهان کنند.
آیا نظارت بر زنجیره افکار هوش مصنوعی قابل اعتماد است؟
درحالیکه این مقاله بر لزوم حفظ نظارت تأکید دارد، یک پژوهش دیگر که چند ماه پیش توسط آنتروپیک منتشر شد، تردیدهای جدی را درباره قابلیت اطمینان این روش ایجاد میکند. در آن مطالعه، محققان دریافتند که مدلهای هوش مصنوعی اغلب افکار واقعی خود را پنهان میکنند. وقتی به آنها برای حل یک مسئله، سرنخهای ظریفی داده میشد، مدل Claude 3.7 Sonnet فقط در ۲۵ درصد موارد به استفاده از آن سرنخ در زنجیره افکار خود اعتراف میکرد. این مدلها بهجای نشاندادن مسیر واقعی خود، توجیهات دروغین و پیچیدهای را برای پاسخهایشان میساختند. درواقع این یافتهها نشان میدهد که شاید پنجره نظارت حتی از آنچه تصور میشود نیز باریکتر باشد و مدلهای فعلی نیز از هماکنون درحال فریبدادن ما هستند.

نویسندگان این مقاله مشترک، با درک این فوریت، خواستار یک اقدام هماهنگ در کل صنعت هوش مصنوعی شدهاند. آنها پیشنهاد میکنند که شرکتها ارزیابیهای استانداردی برای سنجش میزان شفافیت مدلهای خود ایجاد کنند و این معیار را در تصمیمگیری برای عرضه و استقرار مدلهای جدید لحاظ کنند.
این همکاری بیسابقه میان رقبا نشان میدهد که خطر از دست دادن توانایی درک و کنترل هوش مصنوعی، یک نگرانی واقعی و بسیار جدی است. این ممکن است آخرین فرصت ما باشد که بتوانیم به آنچه مخلوقاتمان فکر میکنند، پی ببریم؛ قبل از آنکه افکارشان برای ما کاملاً بیگانه شود یا یاد بگیرند که آنها را برای همیشه پنهان کنند.
نظرات کاربران