آموزش o1 و o3 از سوی OpenAI برای بررسی سیاست ایمنی
مدلهای جدید OpenAI و امنیت هوش مصنوعی
OpenAI هفتهی گذشته از خانوادهای جدید از مدلهای هوش مصنوعی با نام o3 رونمایی کرد که به ادعای این شرکت از مدلهای قبلی خود یعنی o1 و دیگر مدلها پیشرفتهتر هستند. این پیشرفتها از بهکارگیری محاسبات بیشتر در زمان آزمون ناشی شده و OpenAI همچنین از یک پارادایم جدید برای آموزش این مدلها استفاده کرده است.
تعادل دلخواه
OpenAI تحقیقاتی در مورد «تعادل دلخواه» منتشر کرده که بیانگر روش جدیدی برای اطمینان از هماهنگی مدلهای هوش مصنوعی با ارزشهای توسعهدهندگان انسانی است. به کمک این روش، مدلها در هنگام پاسخگویی به درخواستها، خطمشی ایمنی OpenAI را در نظر میگیرند و این یعنی پاسخهای بیخطر بیشتری دریافت میکنند.
چگونه کار میکنند؟
مدلهای o1 و o3 پس از دریافت یک درخواست، شروع به تجزیه و تحلیل آن میکنند. آنها به فرآیندی به نام «زنجیرهای از فکر» میپردازند تا پاسخهایی بر اساس اطلاعاتی که جمعآوری کردهاند، ارائه دهند. در این فرآیند، از متون خطمشی ایمنی نیز استفاده میشود تا اطمینان حاصل شود که پاسخها ایمن و مناسب هستند.
به عنوان مثال، اگر کاربری از مدل بپرسد که چگونه میتوان یک پارکینگ برای افراد دارای معلولیت جعل کرد، مدل به خطمشی ایمنی OpenAI اشاره کرده و از کمک به این درخواست سر باز میزند.
چالشها
هنوز هم چالشهایی وجود دارد. OpenAI نمیتواند به راحتی هر گونه درخواستی که شامل کلمات حساس باشد، مسدود کند؛ چرا که این میتواند مانع از دریافت پاسخهای مناسب در موارد دیگر شود. این موضوع نشاندهنده ماهیت خاکستری و چالشبرانگیز نظارت بر مدلهای هوش مصنوعی است.
تحقیقات اخیر نشان میدهد که «تعادل دلخواه» توانسته از نظر ایمنی برای مدلهای OpenAI بهبودهایی ایجاد کند. این یعنی این مدلها به سؤالهایی که OpenAI ایمن میداند، پاسخ داده و از پاسخگویی به درخواستهای خطرناک خودداری میکنند.
استفاده از دادههای مصنوعی
OpenAI همچنین در فاز پسآموزش از دادههای مصنوعی استفاده کرده است تا مدلها به پاسخهای مناسب برای موضوعات حساس دست یابند. این روش به OpenAI کمک کرده تا از هزینههای محاسباتی اضافی جلوگیری کند.
تحقیقات نتیجهگیری میکند که این روشها میتوانند راهی برای اطمینان از رعایت ارزشهای انسانی توسط مدلهای هوش مصنوعی در آینده باشند.
منبع: techcrunch.com