آموزش o1 و o3 از سوی OpenAI برای بررسی سیاست ایمنی

مدل‌های جدید OpenAI و امنیت هوش مصنوعی

OpenAI هفته‌ی گذشته از خانواده‌ای جدید از مدل‌های هوش مصنوعی با نام o3 رونمایی کرد که به ادعای این شرکت از مدل‌های قبلی خود یعنی o1 و دیگر مدل‌ها پیشرفته‌تر هستند. این پیشرفت‌ها از به‌کارگیری محاسبات بیشتر در زمان آزمون ناشی شده و OpenAI همچنین از یک پارادایم جدید برای آموزش این مدل‌ها استفاده کرده است.

تعادل دلخواه

OpenAI تحقیقاتی در مورد «تعادل دلخواه» منتشر کرده که بیانگر روش جدیدی برای اطمینان از هماهنگی مدل‌های هوش مصنوعی با ارزش‌های توسعه‌دهندگان انسانی است. به کمک این روش، مدل‌ها در هنگام پاسخ‌گویی به درخواست‌ها، خط‌مشی ایمنی OpenAI را در نظر می‌گیرند و این یعنی پاسخ‌های بی‌خطر بیشتری دریافت می‌کنند.

چگونه کار می‌کنند؟

مدل‌های o1 و o3 پس از دریافت یک درخواست، شروع به تجزیه و تحلیل آن می‌کنند. آن‌ها به فرآیندی به نام «زنجیره‌ای از فکر» می‌پردازند تا پاسخ‌هایی بر اساس اطلاعاتی که جمع‌آوری کرده‌اند، ارائه دهند. در این فرآیند، از متون خط‌مشی ایمنی نیز استفاده می‌شود تا اطمینان حاصل شود که پاسخ‌ها ایمن و مناسب هستند.

به عنوان مثال، اگر کاربری از مدل بپرسد که چگونه می‌توان یک پارکینگ برای افراد دارای معلولیت جعل کرد، مدل به خط‌مشی ایمنی OpenAI اشاره کرده و از کمک به این درخواست سر باز می‌زند.

چالش‌ها

هنوز هم چالش‌هایی وجود دارد. OpenAI نمی‌تواند به راحتی هر گونه درخواستی که شامل کلمات حساس باشد، مسدود کند؛ چرا که این می‌تواند مانع از دریافت پاسخ‌های مناسب در موارد دیگر شود. این موضوع نشان‌دهنده ماهیت خاکستری و چالش‌برانگیز نظارت بر مدل‌های هوش مصنوعی است.

مطلب مرتبط:  قهرمان حمل و نقل می‌خواهد نرم‌افزار مدیریت زباله را نوسازی کند

تحقیقات اخیر نشان می‌دهد که «تعادل دلخواه» توانسته از نظر ایمنی برای مدل‌های OpenAI بهبودهایی ایجاد کند. این یعنی این مدل‌ها به سؤال‌هایی که OpenAI ایمن می‌داند، پاسخ داده و از پاسخگویی به درخواست‌های خطرناک خودداری می‌کنند.

استفاده از داده‌های مصنوعی

OpenAI همچنین در فاز پس‌آموزش از داده‌های مصنوعی استفاده کرده است تا مدل‌ها به پاسخ‌های مناسب برای موضوعات حساس دست یابند. این روش به OpenAI کمک کرده تا از هزینه‌های محاسباتی اضافی جلوگیری کند.

تحقیقات نتیجه‌گیری می‌کند که این روش‌ها می‌توانند راهی برای اطمینان از رعایت ارزش‌های انسانی توسط مدل‌های هوش مصنوعی در آینده باشند.

منبع: techcrunch.com

مطالب مرتبط

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *