گوگل به پیمانکاران مجبور میکند پاسخهای هوش مصنوعی را ارزیابی کنند
گوگل و چالشهای جدید ژنرال AI
هوش مصنوعی تولیدی ممکنه جادویی به نظر برسه، اما پشت پرده این سیستمها تیمهای زیادی از کارکنان در شرکتهایی مثل گوگل و OpenAI وجود دارن که به عنوان “مهندسان پرامپت” شناخته میشن. این افراد دقت خروجیهای چتباتها رو ارزیابی میکنن تا هوش مصنوعی رو بهتر کنن.
نگرانیها درباره دقت Gemini
اخیراً یک دستورالعمل جدید از سوی گوگل به پیمانکارانی که روی پروژه Gemini کار میکنن، ابلاغ شده که نگرانیهایی درباره احتمال ارائه اطلاعات نادرست در موضوعات حساسی مثل بهداشت و درمان به مردم عادی به وجود آورده است.
برای بهبود Gemini، پیمانکارانی که با شرکت GlobalLogic، یکی از زیرمجموعههای هیاتچی، کار میکنن، به طور مرتب از آنها خواسته میشه تا پاسخهای تولید شده توسط هوش مصنوعی رو با توجه به عواملی مثل “درستی” ارزیابی کنن.
تغییرات در نحوه ارزیابی
تا چندی پیش، این پیمانکاران میتوانستند بعضی از پرامپتها رو “رد” کنن و از ارزیابی پاسخهای هوش مصنوعی در آنها اجتناب کنن، اگر پرامپت خارج از حوزه تخصصیشون بود. به عنوان مثال، اگر سوالی نیشدار درباره قلب بدن مطرح میشد و پیمانکار علمی در این زمینه نداشت، میتوانست اون رو نادیده بگیره.
اما هفته گذشته، GlobalLogic اعلام کرد که پیمانکاران دیگر اجازه ندارند چنین پرامپتهایی رو نادیده بگیرند، بدون توجه به تخصص خودشان.
برخی ارتباطهای داخلی نشان میدهند که قبلاً گفته میشد: “اگر در این زمینه تخصص حیاتی ندارید، لطفاً این کار رو رد کنید.” اما حالا گفته میشه: “شما نباید پرامپتهایی که نیاز به دانش تخصصی دارند، نادیده بگیرید.” به جای این، پیمانکاران باید “نقاطی از پرامپت که متوجه میشوند را ارزیابی کنند” و یادداشتی اضافه کنند که نمیدانند در این زمینه تخصص دارند یا نه.
عواقب تصمیمات جدید
این تغییرات نگرانیهایی درباره دقت Gemini در موضوعات خاص ایجاد کرده، زیرا پیمانکاران گاهاً موظف به ارزیابی پاسخهای فنی پیچیدهای درباره مسائلی مانند بیماریهای نادر هستند که هیچ پیشینهای در آن ندارند.
یکی از پیمانکاران در ارتباطات داخلی خود بیان کرده: “فکر میکردم هدف از رد کردن، افزایش دقت با دادن کار به کسی است که بهتر باشه؟”
اکنون پیمانکاران فقط در دو مورد میتوانند پرامپتها را رد کنند: ۱) اگر اطلاعات کاملاً از بین رفته باشد، مثل اینکه پرامپت یا پاسخ کامل وجود نداشته باشد و ۲) اگر محتویات مضر باشد که به ارزیابی خاص نیاز دارد.
گوگل به درخواستهای TechCrunch برای اظهار نظر پاسخ نداده است.
منبع: techcrunch.com