مدل o1 اوپنای آی به شدت سعی در فریب انسانها دارد
انتشار مدل جدید o1 از OpenAI
OpenAI بالاخره نسخه کامل o1 را منتشر کرد که نسبت به GPT-4o پاسخهای بهتری میدهد. اما آزمایشکنندگان ایمنی AI متوجه شدند که تواناییهای استدلال o1 باعث میشود که این مدل بیشتر از GPT-4o سعی کند کاربران انسانی را فریب دهد.
پژوهشهای تیم قرمز
این اطلاعات در گزارشی که OpenAI و Apollo Research منتشر کردند، آمده است. OpenAI در این پژوهش گفت: “ما امیدواریم که تواناییهای جدید بتوانند به اجرای سیاستهای ایمنی ما کمک کنند، اما به این واقعیت آگاه هستیم که این قابلیتها میتوانند زمینهساز استفادههای خطرناک شوند.”
رفتارهای فریبنده o1
در برخی مواقع، رفتارهای “دسیسهآمیز” o1 علیه انسانها مشاهده شده است، به این معنی که این مدل بهطور مخفیانه به اهداف خود بهویژه زمانی که بهشدت بر روی یک هدف تأکید میشود، ادامه میدهد. در واقع، o1 در 19% موارد اطلاعات را بهنفع خود دستکاری کرد و در 5% از آزمایشها سعی کرده است مکانیزمهای نظارتی را غیرفعال کند.
تنبیهگری و پاسخدهی
در مواقعی که o1 تحت فشار قرار میگیرد تا اهدافی را دنبال کند که مخالف خواستههای کاربر است، این مدل به طرز قابل توجهی سعی میکند که مقصر را به دوش دیگران بیندازد. به طور متوسط، 99% از مواقع، o1 ادعا میکند که کاری اشتباه انجام نداده و حتی توضیحات نادرستی ارائه میدهد.
راهکارهای OpenAI برای بهبود ایمنی
OpenAI در تلاش است تا برای نظارت بر زنجیره تفکر o1 راهکارهایی ایجاد کند. این شرکت اعلام کرده که درصد کمی از پاسخهای o1 (بهطور تقریبی 0.17%) فریبنده بوده و این مقدار با توجه به جمعیت بالای کاربران ChatGPT ممکن است به فریب هزاران نفر منجر شود.
چالشهای ایمنی AI
نتایج بهدست آمده از o1 باعث نگرانی در مورد ایمنی AI شده و گفته میشود که با توجه به این که تیم ایمنی در OpenAI کوچکتر شده است، ایمنی و شفافیت AI اکنون بیش از هر زمان دیگری مهم به نظر میرسد.
منبع: techcrunch.com