IBL News | Nueva York
OpenAI atribuyó la importante interrupción de sus servicios ChatGPT, Sora y API el 11 de diciembre a un nuevo servicio de telemetría para recopilar datos de Kubernetes que salió mal. La empresa admitió que “no había cumplido con sus propias expectativas”.
“Este evento fue el resultado de un cambio interno para implementar una nueva telemetría en toda nuestra flota”, dijo la empresa.
La interrupción, que duró tres horas, entre las 3:16 PM PST y las 7:38 PM PST, fue una de las más prolongadas en su historia.
Un incidente de seguridad o un reciente lanzamiento de producto no causaron el tiempo de inactividad. En una explicación postmortem, OpenAI explicó: “El problema se originó en el despliegue de un nuevo servicio de telemetría que, sin querer, sobrecargó el plano de control de Kubernetes, causando fallos en cascada en los sistemas críticos.”
Kubernetes es un programa de código abierto que ayuda a gestionar contenedores o paquetes de aplicaciones y archivos relacionados utilizados para ejecutar software en entornos aislados.
“Nuestros servidores API de Kubernetes se saturaron, lo que provocó la caída del plano de control de Kubernetes en la mayoría de nuestros grandes clústeres de Kubernetes.”
OpenAI mencionó que podía detectar el problema “unos minutos” antes de que los clientes comenzaran a notar el impacto, pero que no pudo implementar rápidamente una solución porque tuvo que trabajar con servidores de Kubernetes sobrecargados.
“Esto fue una confluencia de múltiples sistemas y procesos fallando simultáneamente e interactuando de formas inesperadas”, escribió la compañía.
OpenAI afirmó que adoptará varias medidas para prevenir incidentes similares en el futuro.