Virtual Agent le 01/02/2021

Rapport d’incident

Instance: https://bots-virtual-agent-enriched.smartly.ai/
Début d’incident: 15h00 (UTC +1) 
Fin d’incident: 15h30 (UTC +1) 

Description

La plateforme web et à le CDN de la webchat n’était plus accessibles.
Pour ces services, le serveur retournait une erreur 404.

Composants impactés

Les composants suivants étaient perturbés :

  • Builder
  • Webchat

Cause identifiée

Parmi les automatisations DevOps en place sur l’infrastructure, une routine faisait que tous les 6 jours, les volumes Docker inutilisés par la stack étaient supprimés.
Hors depuis la mise à jour du 26/01/2020, nous avons sorti NGINX de la stack afin qu’il puisse bénéficier de plus de ressources. De ce fait, la routine de nettoyage ne pouvait plus détécter que les volumes étaient toujours utilisés.
Le délai de 6 jours étant écoulé, la routine a supprimé les volumes, causant les problèmes décrits plus haut.

Action curative

Nous avons relancé la stack pour que les deux volumes supprimés soient recréés.
Cette opération lancée à 15h24 (UTC +1) a duré 5 minutes et a permis de rétablir le bon fonctionnement. Pendant les 5 minutes, une indisponibilité de certaines APIs internes a pu causé des erreurs de type 5XX.

Action préventive

  • A court terme: Les volumes nécessaires à NGINX seront recréés en mode “external” permettant à la routine de nettoyage de ne plus supprimer ces volumes.

L’équipe Smartly.AI s’excuse pour la gêne occasionnée,
et se tient à votre disposition pour toute information complémentaire via ce formulaire de contact.

🠔 Retour