وعدهها و خطرات دادههای مصنوعی
آیا امکان دارد که یک هوش مصنوعی تنها با دادههایی که توسط یک هوش مصنوعی دیگر تولید شده، آموزش ببیند؟ ممکن است این ایده به نظر عجیب بیاید، اما این موضوع مدتهاست که مطرح شده و با کمبود دادههای واقعی، مورد توجه بیشتری قرار گرفته است.
اهمیت برچسبگذاری
سیستمهای هوش مصنوعی دستگاههای آماری هستند. این سیستمها با یادگیری الگوهای دادههای ورودی خود، پیشبینیهایی میکنند. برچسبگذاری، یعنی تعیین معانی برای بخشهای مختلف دادهها، یکی از بخشهای کلیدی در این یادگیری است.
برای مثال، یک مدل طبقهبندی عکس که با عکسهای آشپزخانه برچسبگذاری شده با کلمه «آشپزخانه» آموزش میبیند، میتواند تشخیص دهد که یک عکس جدید هم آشپزخانه است. اگر برچسبها صحیح نباشند، این مدل میتواند نتایج نادرستی تولید کند.
در حال حاضر، نیاز به دادههای برچسبگذاری شده برای توسعه هوش مصنوعی باعث رشد بازار خدمات برچسبگذاری شده است. تخمینها نشان میدهد که این بازار هماکنون ارزش ۸۳۸.۲ میلیون دلار دارد و میتواند در ۱۰ سال آینده به ۱۰.۳۴ میلیارد دلار برسد.
کمبود داده
انگیزههای انسانی و عملی برای جستجوی گزینههای جایگزین برای برچسبگذاری انسانی وجود دارد. انسانی که برچسب میزند، ممکن است اشتباه کند و هزینه این کار برای شرکتها زیاد است. همچنین، دسترسی به دادههای عمومی نیز به تدریج محدود میشود، زیرا مالکان نگران سرقت آثار خود یا عدم اعتبارگذاری آنها هستند.
جایگزینهای مصنوعی
شاید به نظر برسد که دادههای مصنوعی میتوانند تمام مشکلات موجود را حل کنند. این دادهها میتوانند سریع و به راحتی تولید شوند. بسیاری از شرکتهای بزرگ از جمله مایکروسافت و گوگل به تازگی مدلهایی را راهاندازی کردهاند که به میزان زیادی بر روی دادههای مصنوعی آموزش دیدهاند.
تولید دادههای مصنوعی به یک صنعت مستقل تبدیل شده است و پیشبینی میشود که ارزش آن تا سال ۲۰۳۰ به ۲.۳۴ میلیارد دلار برسد. با این حال، استفاده از دادههای مصنوعی با خطراتی همراه است، زیرا اگر دادههای اولیه دارای سوگیری باشند، خروجیها نیز تحت تأثیر قرار خواهند گرفت و ممکن است کیفیت آنها کاهش یابد.
ریسکهای دادههای مصنوعی
دادههای مصنوعی ممکن است مشکلاتی مشابه با دادههای واقعی داشته باشند. برای مثال، اگر دادههای اولیه فقط شامل گروههای خاصی از افراد باشند، دادههای تولید شده نیز نمایندگی دقیقی از واقعیت نخواهند داشت. اگر به فرآیند تولید دادههای مصنوعی دقت نشود، ممکن است مدلهایی با کیفیت پایین و سوگیری آموزشی تولید شوند.
نتیجهگیری این است که ممکن است در آینده نیاز به حضور انسانها برای تضمین کیفیت دادههای تولید شده احساس شود. تا زمانی که تکنولوژی به سطحی نرسد که خود به تنهایی دادههای قابل قبولی تولید کند، ما به انسانی که این دادهها را بررسی کند نیاز داریم.
منبع: techcrunch.com