مدل جدید هوش مصنوعی DeepSeek یکی از بهترین رقبای ‘باز’ است

مدل جدید هوش مصنوعی DeepSeek V3

یک آزمایشگاه چینی مدل جدیدی به نام DeepSeek V3 را معرفی کرده که به عنوان یکی از قدرتمندترین مدل‌های هوش مصنوعی “باز” شناخته می‌شود. این مدل توسط شرکت DeepSeek توسعه یافته و این هفته تحت لایسنسی منتشر شده که به توسعه‌دهندگان اجازه می‌دهد تا آن را دانلود و برای اکثر کاربردها، حتی تجاری، تغییر دهند.

توانمندی‌های DeepSeek V3

DeepSeek V3 قادر است وظایف مختلف متنی مانند برنامه‌نویسی، ترجمه و نوشتن مقالات و ایمیل‌ها را انجام دهد. طبق آزمون‌های داخلی DeepSeek، این مدل عملکرد بهتری نسبت به مدل‌های “باز” و “بسته” موجود دارد. به عنوان مثال، در مسابقات برنامه‌نویسی برگزار شده در Codeforces، DeepSeek V3 توانسته است از مدل‌های دیگر همچون Llama 3.1 و GPT-4o بهتر عمل کند.

ویژگی‌های فنی DeepSeek V3

این مدل با 671 میلیارد پارامتر، یا 685 میلیارد روی پلتفرم Hugging Face، یکی از بزرگترین مدل‌های موجود است. DeepSeek ادعا می‌کند که مدل خود را با مجموع 14.8 تریلیون توکن آموزش داده است. غول‌پیکر بودن مدل به معنای نیاز به سخت‌افزار قدرتمند است تا قادر به پردازش سریع باشد.

DeepSeek V3 همچنین در آزمون Aider Polyglot توانسته است کیفیت بالای خود را نشان دهد. با این حال، جنبه‌ای که جای نگرانی دارد، نظرات سیاسی مدل است؛ به عنوان مثال، درباره میدان تیان‌آن‌من سوال شود، پاسخ نمی‌دهد.

هزینه و زمان آموزش

شرکت DeepSeek توانسته این مدل را تنها با حدود 5.5 میلیون دلار و در مدت دو ماه آموزش دهد، در حالی که سایر مدل‌های بزرگتر هزینه‌های بسیار بیشتری دارند. این در حالی است که برخی تجهیزات مشابه از دسترسی ممنوع هستند.

مطلب مرتبط:  رشد هوش مصنوعی مشکلات تأمین مالی استارتاپ‌های غیرهوش مصنوعی را پنهان می‌کند

شرکت DeepSeek تحت نظارت نهادهای دولتی چین است و باید مطمئن شود که پاسخ‌های مدل با ارزش‌های اجتماعی مورد تایید دولت هماهنگ است.

DeepSeek همچنین در حال توسعه مدل دیگری به نام DeepSeek-R1 است که پاسخ مستقیمی به مدل استدلال OpenAI، یعنی o1 به شمار می‌رود.


منبع: techcrunch.com

مطالب مرتبط

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *