مدل جدید هوش مصنوعی DeepSeek یکی از بهترین رقبای ‘باز’ است
مدل جدید هوش مصنوعی DeepSeek V3
یک آزمایشگاه چینی مدل جدیدی به نام DeepSeek V3 را معرفی کرده که به عنوان یکی از قدرتمندترین مدلهای هوش مصنوعی “باز” شناخته میشود. این مدل توسط شرکت DeepSeek توسعه یافته و این هفته تحت لایسنسی منتشر شده که به توسعهدهندگان اجازه میدهد تا آن را دانلود و برای اکثر کاربردها، حتی تجاری، تغییر دهند.
توانمندیهای DeepSeek V3
DeepSeek V3 قادر است وظایف مختلف متنی مانند برنامهنویسی، ترجمه و نوشتن مقالات و ایمیلها را انجام دهد. طبق آزمونهای داخلی DeepSeek، این مدل عملکرد بهتری نسبت به مدلهای “باز” و “بسته” موجود دارد. به عنوان مثال، در مسابقات برنامهنویسی برگزار شده در Codeforces، DeepSeek V3 توانسته است از مدلهای دیگر همچون Llama 3.1 و GPT-4o بهتر عمل کند.
ویژگیهای فنی DeepSeek V3
این مدل با 671 میلیارد پارامتر، یا 685 میلیارد روی پلتفرم Hugging Face، یکی از بزرگترین مدلهای موجود است. DeepSeek ادعا میکند که مدل خود را با مجموع 14.8 تریلیون توکن آموزش داده است. غولپیکر بودن مدل به معنای نیاز به سختافزار قدرتمند است تا قادر به پردازش سریع باشد.
DeepSeek V3 همچنین در آزمون Aider Polyglot توانسته است کیفیت بالای خود را نشان دهد. با این حال، جنبهای که جای نگرانی دارد، نظرات سیاسی مدل است؛ به عنوان مثال، درباره میدان تیانآنمن سوال شود، پاسخ نمیدهد.
هزینه و زمان آموزش
شرکت DeepSeek توانسته این مدل را تنها با حدود 5.5 میلیون دلار و در مدت دو ماه آموزش دهد، در حالی که سایر مدلهای بزرگتر هزینههای بسیار بیشتری دارند. این در حالی است که برخی تجهیزات مشابه از دسترسی ممنوع هستند.
شرکت DeepSeek تحت نظارت نهادهای دولتی چین است و باید مطمئن شود که پاسخهای مدل با ارزشهای اجتماعی مورد تایید دولت هماهنگ است.
DeepSeek همچنین در حال توسعه مدل دیگری به نام DeepSeek-R1 است که پاسخ مستقیمی به مدل استدلال OpenAI، یعنی o1 به شمار میرود.
منبع: techcrunch.com