یک تکنیک محبوب برای افزایش کارایی هوش مصنوعی معایبی دارد

مدل‌های کوچکتر و محدودیت‌های کوانتیزاسیون

یکی از روش‌های رایج برای افزایش کارایی مدل‌های هوش مصنوعی، کوانتیزاسیون است که محدودیت‌هایی دارد و صنعت به سرعت در حال نزدیک شدن به این محدودیت‌هاست.

کوانتیزاسیون به کاهش تعداد بیت‌ها (کوچک‌ترین واحدهای پردازش داده) برای نمایندگی اطلاعات اشاره دارد. مثلاً وقتی کسی ساعت را می‌پرسد، به احتمال زیاد می‌گویید “ظهر” نه این که بگویید “دوازده و یک ثانیه و چهار میلی‌ثانیه.” این نشان می‌دهد که چقدر دقت لازم داریم بسته به موقعیت متفاوت است.

مدل‌های AI شامل چندین جزء هستند که می‌توانند کوانتیزه شوند، به ویژه پارامترها. مدل‌های کوانتیزه که از بیت‌های کمتری برای پارامترهای خود استفاده می‌کنند، بار محاسباتی کمتری دارند.

نتایج قابل توجه

بر اساس مطالعه‌ای از محققان هاروارد و دیگر دانشگاه‌ها، مدل‌های کوانتیزه عملکرد ضعیف‌تری دارند اگر نسخه اصلی آن‌ها به مدت طولانی بر روی داده‌های زیاد آموزش داده شده باشد. در اینجا ممکن است بهتر باشد به جای کاهش یک مدل بزرگ، یک مدل کوچک‌تر آموزش داده شود.

این موضوع می‌تواند برای شرکت‌های هوش مصنوعی که روی مدل‌های بسیار بزرگ کار می‌کنند، خبر بدی باشد.

چند ماه پیش، گزارش‌هایی مبنی بر این که کوانتیزاسیون مدل Llama 3 متا بیشتر از سایر مدل‌ها “ضرر” داشته، منتشر شد که احتمالاً ناشی از روش آموزش آن است.

به عقیده تانیشک کمار، دانشجوی ریاضیات هاروارد، هزینه اصلی در هوش مصنوعی معمولاً به اجرای مدل مربوط می‌شود و کاهش هزینه‌ها همیشه ممکن نیست. او اشاره کرد که مدل‌ها معمولاً بیشتر از فرآیند آموزش هزینه دارند.

چالش‌های دقت و کوانتیزاسیون

با این حال، اگر آزمایشگاه‌ها تمایلی به کار بر روی داده‌های کمتر ندارند، آیا می‌توان مدلی ایجاد کرد که کمتر دچار افت کیفیت شود؟ ممکن است. کمار و همکارانش دریافتند که آموزش مدل‌ها در “دقت پایین” می‌تواند آن‌ها را مقاوم‌تر کند.

مطلب مرتبط:  پرپلكسیتی برنامه ناشران خود را گسترش می‌دهد

در حال حاضر، بیشتر مدل‌ها در دقت 16 بیت یا نیمه دقت آموزش دیده و به 8 بیت کوانتیزه می‌شوند. دقت پایین‌تر ممکن است به کیفیت آسیب بزند، به‌ویژه اگر مدل اصلی به‌اندازه کافی بزرگ نباشد.

کمار می‌گوید که دقت بیتی اهمیت دارد و نمی‌توان آن را به‌صورت نامحدود کاهش داد. او امیدوار است تا از معماری‌های جدیدی برای آموزش در دقت پایین استفاده شود.

منبع: techcrunch.com

مطالب مرتبط

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *