Smartly.AI le 18/01/2021

Rapport d’incident

Instance: https://bots.smartly.ai
Début d’incident: 16h00 (UTC +1) 
Fin d’incident: 19h00 (UTC +1) 

Description

Plusieurs composants, dont l’API de Virtual Agent étaient perturbés voir inaccessibles pour certains.

Composants impactés

L’ensemble des composants était perturbé avec notamment les composants:

  • API
  • Builder
  • Conversations
  • Datasets
  • Analytics
  • Les intégrations (Webchat, Messenger,… )

Cause identifiée

Notre investigation montre que le serveur principal (Leader) était indisponible, l’analyse des sys logs ne nous a pas encore permis d’identifier la cause originelle de l’incident, nous mettrons à jour cet article dès que de nouvelles informations seront disponibles. A date notre hypothèse la plus sérieuse est une augmentation trop importante de la charge qui aurait été mal encaissée par notre infrastructure.

Actions curatives

Redémarrage du serveur Leader et de la stack NLU, puis activation des modèles de bots en production.

Actions préventives

  • Renforcement de la politique de logs systèmes permettant une meilleure exploitation des traces
  • Une augmentation des capacités du leader via notamment une reconfiguration du serveur NGINX pour gérer jusqu’à 15 fois plus de connexions websocket concurrentes. Ce correctif a été déployé le 26/01/2021 dans la version 2.17.0


L’équipe Smartly.AI s’excuse pour la gêne occasionnée,
et se tient à votre disposition pour toute information complémentaire via ce formulaire de contact.

🠔 Retour