OpenAI دلیل قطع گسترده ChatGPT را عدم خدمت جدید تلمتری میداند
مشکل بزرگ OpenAI به خاطر یک سرویس جدید
OpenAI یکی از طولانیترین وقفههای خود را به یک “سرویس تلمتری” جدید نسبت داده است که دچار مشکل شد.
اختلال در سیستمها
روز چهارشنبه، پلتفرم چتبات هوش مصنوعی OpenAI، ChatGPT، ویدیو ژنراتور Sora و APIهای توسعهدهنده این شرکت از حدود ساعت ۳ بعدازظهر به وقت پاسیفیک با اختلالات زیادی مواجه شدند. OpenAI مشکل را به سرعت شناسایی کرد و به دنبال حل آن رفت، اما حدود سه ساعت طول کشید تا تمامی خدمات دوباره برقرار شوند.
علت اختلال
در گزارشی که روز پنجشنبه منتشر شد، OpenAI اعلام کرد که این اختلال به دلیل یک سرویس تلمتری که برای جمعآوری دادههای Kubernetes نصب کرده بودند، ایجاد شده است. Kubernetes یک برنامه متنباز است که به مدیریت بستههای نرمافزاری کمک میکند.
شرکت اعلام کرد که پیکربندی این سرویس جدید بهطور ناخواسته باعث ایجاد فشار زیاد بر روی عملیات API Kubernetes شده است و این امر به تعطیلی کنترل پنل Kubernetes در بیشتر خوشههای بزرگ این شرکت منجر شده است.
پیامدها
این مشکل شامل اختلال در خدمات DNS نیز بود که بسیاری از خدمات OpenAI به آن وابستهاند. OpenAI توضیح داد که ذخیرهسازی DNS که اطلاعات درباره نامهای دامنه را نگه میدارد، باعث تاخیر در شناسایی مشکل شد و این موضوع به ادامه پیادهسازی سرویس تلمتری کمک کرد.
OpenAI گفت که آنها چند دقیقه قبل از اینکه مشتریان متوجه مشکل شوند، توانستند موضوع را شناسایی کنند، اما به دلیل فشار زیاد به سرورهای Kubernetes، نتوانستند به سرعت راه حلی ارائه دهند.
اقدامات آینده
OpenAI اعلام کرد که برای جلوگیری از بروز چنین مشکلاتی در آینده، تدابیری اتخاذ خواهد کرد. این تدابیر شامل بهبود روندهای اجرایی و نظارت بهتر بر تغییرات زیرساخت خواهد بود. همچنین مکانیسمهای جدیدی برای دسترسی مهندسان OpenAI به سرورهای API Kubernetes در هر شرایطی در نظر گرفته شده است.
OpenAI از مشتریان خود بابت مشکلات ایجاد شده عذرخواهی کرد و گفت: “ما نتوانستیم به انتظارات خود برسیم.”
منبع: techcrunch.com