0

اپل مدل هوش مصنوعی متفاوت و جذابی را برای برنامه‌نویسی منتشر کرد

اپل مدل هوش مصنوعی متفاوت و جذابی را برای برنامه‌نویسی منتشر کرد
بازدید 5

اپل از طریق پلتفرم Hugging Face یک مدل جدید هوش مصنوعی برای تولید کد منتشر کرده که برخلاف روش‌های رایج، از ساختار تولید ترتیبی متن تبعیت نمی‌کند. این مدل با نام DiffuCode-7B-cpGRPO نه‌تنها قابلیت تولید سریع‌تر را دارد، بلکه می‌تواند به‌طور همزمان چند بخش از کد را بهبود داده و ساختاری منسجم و قابل رقابت با برترین مدل‌های متن‌باز ارائه کند.

اپل مدل DiffuCode-7B-cpGRPO را با تکیه بر مقاله‌ای تحت عنوان DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation توسعه داده است. نکته‌ی جالب اینکه این مدل با تغییر دما می‌تواند بین حالت خودبازگشتی و غیرترتیبی سوییچ کند. دمای بالا آزادی بیشتری در ترتیب تولید توکن‌ها می‌دهد و در نتیجه مدل می‌تواند بخش‌های مختلف کد را به‌صورت غیرخطی تولید کند.

قابلیت‌های مدل اپل

همچنین اپل با اضافه‌کردن یک مرحله آموزشی تحت عنوان coupled-GRPO موفق شده کیفیت تولید کد را در این مدل به شکل محسوسی ارتقاء دهد. به‌طورکلی، DiffuCode-7B-cpGRPO مدلی است با سرعت بالا، انسجام ساختاری بالا، و عملکردی قابل رقابت با بهترین مدل‌های برنامه‌نویسی متن‌باز.

جالب‌تر اینکه مدل اپل بر پایه Qwen2.5-7B توسعه یافته؛ مدل بنیادین متن‌بازی که توسط علی‌بابا ساخته شده است. علی‌بابا ابتدا این مدل را برای تولید کد بهینه‌سازی کرده (با نام Qwen2.5‑Coder‑7B) و سپس اپل نسخه‌ی اختصاصی خود را بر اساس آن طراحی و بازآموزی کرد.

اپل مدل جدید را با یک رمزگشا (Decoder) مبتنی بر انتشار طراحی کرد و پس از آن با بیش از 20 هزار نمونه کدنویسی باکیفیت آن را آموزش داد. این فرآیند منجر به بهبود 4.4 درصدی عملکرد مدل در یک بنچمارک مطرح برنامه‌نویسی شد.

مدل‌های زبانی معمول مانند GPT معمولاً از روش خودبازگشتی استفاده می‌کنند. در این روش، مدل پاسخ را به‌صورت ترتیبی، توکن به توکن، و از چپ به راست تولید می‌کند. هر توکن جدید براساس بازپردازش کل ورودی و توکن‌های قبلی پیش‌بینی می‌شود.

همچنین در مدل‌های زبانی، پارامتر «دما» میزان تصادفی بودن پاسخ را کنترل می‌کند. دمای پایین باعث می‌شود مدل محتمل‌ترین گزینه‌ها را انتخاب کند، در حالی‌که دمای بالا آزادی بیشتری برای انتخاب گزینه‌های کمتر محتمل فراهم می‌کند.

در مقابل، مدل‌های انتشاری (که در مدل‌های تولید تصویر مانند Stable Diffusion استفاده می‌شوند) از یک ورودی نویزدار شروع کرده و آن را مرحله‌به‌مرحله به خروجی مطلوب تبدیل می‌کنند. این روش اخیراً در تولید متن نیز به‌کار گرفته شده و نتایج امیدوارکننده‌ای داشته است.

مزیت اصلی این رویکرد در تولید کد آن است که مدل می‌تواند به‌جای تولید خطی، ساختار کلی کد را در چند مرحله و به‌صورت موازی اصلاح کند — قابلیتی که در برنامه‌نویسی بسیار ارزشمند است.

گرچه هنوز DiffuCoder به سطح مدل‌هایی مانند GPT-4 یا Gemini Diffusion نرسیده، اما این حرکت نشانه‌ای روشن از تلاش اپل برای ورود جدی به عرصه هوش مصنوعی مولد است. این شرکت با روش‌هایی نوآورانه و متفاوت، در حال پایه‌گذاری نسل بعدی مدل‌های زبانی خود است.

اینکه آیا این مدل‌ها در آینده به محصولات واقعی اپل راه پیدا می‌کنند یا خیر، هنوز مشخص نیست؛ اما روشن است که اپل بی‌سروصدا و با دقت، در حال حرکت به سوی آینده‌ای متفاوت در هوش مصنوعی است.

نظرات کاربران

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

مشاهده بیشتر