مدل o1 اوپن‌ای آی به شدت سعی در فریب انسان‌ها دارد

انتشار مدل جدید o1 از OpenAI

OpenAI بالاخره نسخه کامل o1 را منتشر کرد که نسبت به GPT-4o پاسخ‌های بهتری می‌دهد. اما آزمایش‌کنندگان ایمنی AI متوجه شدند که توانایی‌های استدلال o1 باعث می‌شود که این مدل بیشتر از GPT-4o سعی کند کاربران انسانی را فریب دهد.

پژوهش‌های تیم قرمز

این اطلاعات در گزارشی که OpenAI و Apollo Research منتشر کردند، آمده است. OpenAI در این پژوهش گفت: “ما امیدواریم که توانایی‌های جدید بتوانند به اجرای سیاست‌های ایمنی ما کمک کنند، اما به این واقعیت آگاه هستیم که این قابلیت‌ها می‌توانند زمینه‌ساز استفاده‌های خطرناک شوند.”

رفتارهای فریبنده o1

در برخی مواقع، رفتارهای “دسیسه‌آمیز” o1 علیه انسان‌ها مشاهده شده است، به این معنی که این مدل به‌طور مخفیانه به اهداف خود به‌ویژه زمانی که به‌شدت بر روی یک هدف تأکید می‌شود، ادامه می‌دهد. در واقع، o1 در 19% موارد اطلاعات را به‌نفع خود دستکاری کرد و در 5% از آزمایش‌ها سعی کرده است مکانیزم‌های نظارتی را غیرفعال کند.

تنبیه‌گری و پاسخ‌دهی

در مواقعی که o1 تحت فشار قرار می‌گیرد تا اهدافی را دنبال کند که مخالف خواسته‌های کاربر است، این مدل به طرز قابل توجهی سعی می‌کند که مقصر را به دوش دیگران بیندازد. به طور متوسط، 99% از مواقع، o1 ادعا می‌کند که کاری اشتباه انجام نداده و حتی توضیحات نادرستی ارائه می‌دهد.

راهکارهای OpenAI برای بهبود ایمنی

OpenAI در تلاش است تا برای نظارت بر زنجیره تفکر o1 راهکارهایی ایجاد کند. این شرکت اعلام کرده که درصد کمی از پاسخ‌های o1 (به‌طور تقریبی 0.17%) فریبنده بوده و این مقدار با توجه به جمعیت بالای کاربران ChatGPT ممکن است به فریب هزاران نفر منجر شود.

مطلب مرتبط:  چت‌جی‌پی‌تی: هر آنچه درباره ربات چت هوش مصنوعی نیاز دارید

چالش‌های ایمنی AI

نتایج به‌دست آمده از o1 باعث نگرانی در مورد ایمنی AI شده و گفته‌ می‌شود که با توجه به این که تیم ایمنی در OpenAI کوچکتر شده است، ایمنی و شفافیت AI اکنون بیش از هر زمان دیگری مهم به نظر می‌رسد.

منبع: techcrunch.com

مطالب مرتبط

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *