جمینی 2.0، جدیدترین هوش مصنوعی گوگل، متن، تصویر و صدا تولید میکند
مدل جدید و بزرگ هوش مصنوعی گوگل برای مقابله با رقبای جدید خود از OpenAI معرفی شده است.
معرفی Gemini 2.0 Flash
گوگل در روز چهارشنبه Gemini 2.0 Flash را معرفی کرد که میتواند به طور بومی متن، تصویر و صدا تولید کند. این مدل قابلیت استفاده از اپلیکیشنها و سرویسهای شخص ثالث را نیز دارد و میتواند به جستجوی گوگل دسترسی داشته باشد و کد اجرا کند.
دسترسی زودهنگام
نسخه آزمایشی 2.0 Flash از امروز از طریق API Gemini و پلتفرمهای توسعهدهنده هوش مصنوعی گوگل در دسترس خواهد بود. با این حال، قابلیتهای تولید صوت و تصویر تنها برای “شرکای دسترسی زودهنگام” در دسترس است و یک عرضه گسترده در ژانویه انجام خواهد شد.
بهروزرسانی Flash
نسل اول Flash، یعنی 1.5 Flash، فقط قادر به تولید متن بود و برای بارهای کاری سنگین طراحی نشده بود. اما نسخه جدید، 2.0 Flash، توانمندیهای بیشتری دارد و میتواند با ابزارهایی مانند جستجو و APIهای خارجی تعامل کند.
عملکرد و ویژگیها
گوگل مدعی است که 2.0 Flash نسبت به مدل Gemini 1.5 Pro دو برابر سریعتر است و در زمینههایی مانند کدنویسی و تحلیل تصویر به طور چشمگیری بهبود یافته است. این مدل میتواند تصویر و صدا را در کنار متن تولید و تغییر دهد و میتواند به سوالات مربوط به عکسها و ویدئوها پاسخ دهد.
تولید صوت
ویژگی کلیدی دیگر 2.0 Flash، تولید صوت است که به صورت “قابل هدایت” و “قابل تنظیم” توصیف شده است. کاربران میتوانند از آن بخواهند که با یکی از هشت صدای مختلف با لهجههای مختلف صحبت کند.
آبندازهای SynthID
گوگل برای جلوگیری از سوءاستفادهها، از فناوری SynthID برای نشانهگذاری تمام صوتها و تصاویری که توسط 2.0 Flash تولید میشود، استفاده میکند.
API چندرسانهای
نسخه تولیدی 2.0 Flash در ژانویه عرضه خواهد شد، اما در همین حال، گوگل یک API جدید به نام Multimodal Live API را منتشر کرده است که به توسعهدهندگان این امکان را میدهد تا اپلیکیشنهایی با قابلیت پخش زنده صوت و تصویر بسازند.
منبع: techcrunch.com