محققان بایاس مدل‌های هوش مصنوعی را کاهش دادند و دقت را بهبود بخشیدند

معرفی روش جدید کاهش تبعیض در مدل‌های یادگیری ماشین

مدل‌های یادگیری ماشین وقتی با پیش‌بینی‌های شخصی برای افراد زیرمجموعه‌ای که در دیتاست‌ها کم‌نماینده هستند، مواجه می‌شوند، ممکن است با شکست مواجه شوند. به عنوان مثال، یک مدل که گزینه‌های درمانی برای یک بیمار مزمن را پیش‌بینی می‌کند، ممکن است با دیتاستی آموزش ببیند که بیشتر بیماران آن مرد هستند. پس از استقرار در بیمارستان، این مدل ممکن است پیش‌بینی‌های نادرستی برای بیماران زن انجام دهد.

چگونه می‌توان نتایج را بهبود بخشید؟

به منظور بهبود نتایج، مهندسان می‌توانند سعی کنند دیتاست را متعادل کنند؛ به این صورت که تا جایی که همه زیرگروه‌ها به صورت مساوی نماینده شوند، از داده‌های اضافی حذف کنند. اما این کار معمولاً نیاز به حذف بخش زیادی از داده‌ها دارد که بر عملکرد کلی مدل تأثیر منفی می‌گذارد.

تحقیقات MIT یک روش جدید ارائه داده‌اند که نقاط خاصی در دیتاست آموزشی را شناسایی و حذف می‌کند که بیشترین تأثیر را بر شکست‌های مدل در زیرگروه‌های اقلیت دارند. این تکنیک با حذف تعداد کمتری از نقاط داده، دقت کلی مدل را حفظ می‌کند و عملکرد آن را در مورد گروه‌های کم‌نماینده بهبود می‌بخشد.

مشکلات داده‌ها و اثرات آن‌ها

معمولاً مدل‌های یادگیری ماشین با دیتاست‌های بزرگی آموزش می‌بینند که از منابع مختلفی در اینترنت جمع‌آوری شده‌اند. این دیتاست‌ها آنقدر بزرگ هستند که بررسی دقیق آن‌ها غیرممکن است و ممکن است شامل نمونه‌های بدی باشند که بر عملکرد مدل تأثیر منفی می‌گذارند.

محققان MIT با ترکیب این ایده‌ها، روشی را توسعه دادند که این نقاط مشکل‌دار را شناسایی و حذف می‌کند. آنان به دنبال حل مسئله‌ای به نام “خطای بدترین گروه” هستند که زمانی اتفاق می‌افتد که مدل در عملکرد بر روی زیرگروه‌های اقلیت ضعیف عمل می‌کند.

مطلب مرتبط:  ژنراتور ویدیویی گوگل به مشتریان بیشتری دسترسی پیدا می‌کند

عملکرد بالاتر با داده‌های کمتر

این روش در سه دیتاست یادگیری ماشین عملکرد بهتری نسبت به تکنیک‌های دیگر داشت. در یک مورد، بهبود دقت گروه بدترین در حالی که حدود ۲۰ هزار نمونه آموزشی کمتر حذف کرد، به دست آمد. به دلیل اینکه این روش برادر داده‌ها را تغییر می‌دهد، برای کاربران راحت‌تر است و می‌توان آن را به انواع مختلف مدل‌ها اعمال کرد.

این تکنیک همچنین می‌تواند زمانی که تبعیض ناشناخته باشد، مورد استفاده قرار گیرد. با شناسایی نقاط داده‌ای که بیشترین تأثیر را بر روی یک ویژگی دارند که مدل در حال یادگیری است، محققان می‌توانند متغیرهایی که مدل برای پیش‌بینی استفاده می‌کند را درک کنند.

ابزاری برای بهبود دقت و قابلیت اطمینان

این تحقیق به کاربران این امکان را می‌دهد که با نقاط داده‌های خود آشنا شوند و بررسی کنند که آیا این نقاط با قابلیت‌هایی که سعی در آموزش مدل دارند، هم‌راستا هستند یا خیر. محققان همچنین می‌خواهند عملکرد و قابلیت اطمینان این تکنیک را بهبود بخشند و اطمینان حاصل کنند که این روش برای کاربران در محیط‌های واقعی قابل دسترس و آسان است.

این کار، بخشی از تحقیقات funded by the National Science Foundation و U.S. Defense Advanced Research Projects Agency می‌باشد.

منبع: news.mit.edu

مطالب مرتبط

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *