Lentitud en Postcenter
Incident Report for Adereso
Postmortem

Estimados,

Primero como equipo les queremos pedir disculpas por los problemas, que los errores en la plataforma le puedan haber generado durante la tarde de ayer Miércoles 08/09.

La situación que comenzó ayer alrededor de las 14:45 de la tarde, fue generada por la sobre demandad de un servicio especifico el cual ya habíamos notado y para que no afectara a una de las bases de datos, la cual ya había presentado lentitud el martes, cambiamos una configuración lo cual impidió que se repitiera la situación del día martes, pero genero que 20 minutos después de iniciado este aumento en la carga en el servicio colapsara específicamente la base de datos MongoDB, que utilizamos para guardar los datos de los casos y mensajes. Esta carga específicamente en MongoDB, fue superior a el limite previsto que teníamos, lo cual genero que el sistema de respaldo no fuera suficiente para mantener la plataforma funcionando, con lo cual tuvimos que tomar la decisión de detener el servicio a las 16:10, restaurándolo a las 16:25, estando operativo con normalidad alrededor de las 16:40.

Como medida en adelante para evitar que este tipo de incidente no vuelva a ocurrir hemos tomado las siguientes medidas:

  • Modificación de la configuración de Base de Datos principal, para así asegurarnos que en el peor de los casos la plataforma tenga lentitud, evitando llegar a el escenario que impida operar.
  • Mejora en rendimiento de MongoDB, para estar mejor preparados ante un aumento en la demanda.
  • Aumento en el valor de parámetros, específicamente los casos bordes de demanda, dado que los que teníamos se vieron superados.
  • Seguir avanzando en mejoras enfocadas en la reducción de procesos que tienen un riesgo de generar efectos negativos en la plataforma.
Posted Sep 10, 2020 - 09:11 GMT-03:00

Resolved
Estimados,

El equipo ve que la situación ya se encuentra normalizada, en unos minutos subiremos en el postmortem el detalle de lo ocurrido con las acciones a tomar para que la situación no vuelva a ocurrir.
Posted Sep 10, 2020 - 08:54 GMT-03:00
Monitoring
La situación ya se encuentra bajo control y la velocidad se está restableciendo. Seguimos monitoreando la velocidad por seguridad.
Posted Sep 09, 2020 - 16:43 GMT-03:00
Identified
Hemos identificado la causa, y en estos momentos, Postcenter se encuentra con una lentitud general.
Seguimos trabajando para estabilizar la plataforma.
Posted Sep 09, 2020 - 15:35 GMT-03:00
Update
Seguimos investigando la situación. En estos momentos, la plataforma está experimentando una falla general. Entendemos que esto puede ser frustrante y estamos trabajando para resolverlo lo antes posible.
Nuestro equipo de desarrollo se encuentra trabajando para estabilizar la situación, y apenas manejemos más información al respecto, estaremos informando.
Posted Sep 09, 2020 - 15:15 GMT-03:00
Investigating
Estamos investigando un problema con la lentitud en la plataforma, la cual está afectando a un gran número de clientes, impidiendo la carga correcta de la página.
Estaremos actualizando apenas manejemos más información al respecto
Posted Sep 09, 2020 - 15:03 GMT-03:00
This incident affected: Adereso API.