محققان بایاس مدلهای هوش مصنوعی را کاهش دادند و دقت را بهبود بخشیدند
معرفی روش جدید کاهش تبعیض در مدلهای یادگیری ماشین
مدلهای یادگیری ماشین وقتی با پیشبینیهای شخصی برای افراد زیرمجموعهای که در دیتاستها کمنماینده هستند، مواجه میشوند، ممکن است با شکست مواجه شوند. به عنوان مثال، یک مدل که گزینههای درمانی برای یک بیمار مزمن را پیشبینی میکند، ممکن است با دیتاستی آموزش ببیند که بیشتر بیماران آن مرد هستند. پس از استقرار در بیمارستان، این مدل ممکن است پیشبینیهای نادرستی برای بیماران زن انجام دهد.
چگونه میتوان نتایج را بهبود بخشید؟
به منظور بهبود نتایج، مهندسان میتوانند سعی کنند دیتاست را متعادل کنند؛ به این صورت که تا جایی که همه زیرگروهها به صورت مساوی نماینده شوند، از دادههای اضافی حذف کنند. اما این کار معمولاً نیاز به حذف بخش زیادی از دادهها دارد که بر عملکرد کلی مدل تأثیر منفی میگذارد.
تحقیقات MIT یک روش جدید ارائه دادهاند که نقاط خاصی در دیتاست آموزشی را شناسایی و حذف میکند که بیشترین تأثیر را بر شکستهای مدل در زیرگروههای اقلیت دارند. این تکنیک با حذف تعداد کمتری از نقاط داده، دقت کلی مدل را حفظ میکند و عملکرد آن را در مورد گروههای کمنماینده بهبود میبخشد.
مشکلات دادهها و اثرات آنها
معمولاً مدلهای یادگیری ماشین با دیتاستهای بزرگی آموزش میبینند که از منابع مختلفی در اینترنت جمعآوری شدهاند. این دیتاستها آنقدر بزرگ هستند که بررسی دقیق آنها غیرممکن است و ممکن است شامل نمونههای بدی باشند که بر عملکرد مدل تأثیر منفی میگذارند.
محققان MIT با ترکیب این ایدهها، روشی را توسعه دادند که این نقاط مشکلدار را شناسایی و حذف میکند. آنان به دنبال حل مسئلهای به نام “خطای بدترین گروه” هستند که زمانی اتفاق میافتد که مدل در عملکرد بر روی زیرگروههای اقلیت ضعیف عمل میکند.
عملکرد بالاتر با دادههای کمتر
این روش در سه دیتاست یادگیری ماشین عملکرد بهتری نسبت به تکنیکهای دیگر داشت. در یک مورد، بهبود دقت گروه بدترین در حالی که حدود ۲۰ هزار نمونه آموزشی کمتر حذف کرد، به دست آمد. به دلیل اینکه این روش برادر دادهها را تغییر میدهد، برای کاربران راحتتر است و میتوان آن را به انواع مختلف مدلها اعمال کرد.
این تکنیک همچنین میتواند زمانی که تبعیض ناشناخته باشد، مورد استفاده قرار گیرد. با شناسایی نقاط دادهای که بیشترین تأثیر را بر روی یک ویژگی دارند که مدل در حال یادگیری است، محققان میتوانند متغیرهایی که مدل برای پیشبینی استفاده میکند را درک کنند.
ابزاری برای بهبود دقت و قابلیت اطمینان
این تحقیق به کاربران این امکان را میدهد که با نقاط دادههای خود آشنا شوند و بررسی کنند که آیا این نقاط با قابلیتهایی که سعی در آموزش مدل دارند، همراستا هستند یا خیر. محققان همچنین میخواهند عملکرد و قابلیت اطمینان این تکنیک را بهبود بخشند و اطمینان حاصل کنند که این روش برای کاربران در محیطهای واقعی قابل دسترس و آسان است.
این کار، بخشی از تحقیقات funded by the National Science Foundation و U.S. Defense Advanced Research Projects Agency میباشد.
منبع: news.mit.edu