جمینی 2.0، جدیدترین هوش مصنوعی گوگل، متن، تصویر و صدا تولید می‌کند

مدل جدید و بزرگ هوش مصنوعی گوگل برای مقابله با رقبای جدید خود از OpenAI معرفی شده است.

معرفی Gemini 2.0 Flash

گوگل در روز چهارشنبه Gemini 2.0 Flash را معرفی کرد که می‌تواند به طور بومی متن، تصویر و صدا تولید کند. این مدل قابلیت استفاده از اپلیکیشن‌ها و سرویس‌های شخص ثالث را نیز دارد و می‌تواند به جستجوی گوگل دسترسی داشته باشد و کد اجرا کند.

دسترسی زودهنگام

نسخه آزمایشی 2.0 Flash از امروز از طریق API Gemini و پلتفرم‌های توسعه‌دهنده هوش مصنوعی گوگل در دسترس خواهد بود. با این حال، قابلیت‌های تولید صوت و تصویر تنها برای “شرکای دسترسی زودهنگام” در دسترس است و یک عرضه گسترده در ژانویه انجام خواهد شد.

به‌روزرسانی Flash

نسل اول Flash، یعنی 1.5 Flash، فقط قادر به تولید متن بود و برای بارهای کاری سنگین طراحی نشده بود. اما نسخه جدید، 2.0 Flash، توانمندی‌های بیشتری دارد و می‌تواند با ابزارهایی مانند جستجو و API‌های خارجی تعامل کند.

عملکرد و ویژگی‌ها

گوگل مدعی است که 2.0 Flash نسبت به مدل Gemini 1.5 Pro دو برابر سریع‌تر است و در زمینه‌هایی مانند کدنویسی و تحلیل تصویر به طور چشمگیری بهبود یافته است. این مدل می‌تواند تصویر و صدا را در کنار متن تولید و تغییر دهد و می‌تواند به سوالات مربوط به عکس‌ها و ویدئوها پاسخ دهد.

تولید صوت

ویژگی کلیدی دیگر 2.0 Flash، تولید صوت است که به صورت “قابل هدایت” و “قابل تنظیم” توصیف شده است. کاربران می‌توانند از آن بخواهند که با یکی از هشت صدای مختلف با لهجه‌های مختلف صحبت کند.

مطلب مرتبط:  مدیرعامل هگینگ فیس نگران مدل‌های متن‌باز هوش مصنوعی چین است

آبندازهای SynthID

گوگل برای جلوگیری از سوءاستفاده‌ها، از فناوری SynthID برای نشانه‌گذاری تمام صوت‌ها و تصاویری که توسط 2.0 Flash تولید می‌شود، استفاده می‌کند.

API چندرسانه‌ای

نسخه تولیدی 2.0 Flash در ژانویه عرضه خواهد شد، اما در همین حال، گوگل یک API جدید به نام Multimodal Live API را منتشر کرده است که به توسعه‌دهندگان این امکان را می‌دهد تا اپلیکیشن‌هایی با قابلیت پخش زنده صوت و تصویر بسازند.

منبع: techcrunch.com

مطالب مرتبط

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *