Journal des incidents

Uptrends fait de son mieux pour que ses services soient toujours opérationnels. Néanmoins, malgré tous nos engagements et toutes nos précautions, il peut arriver qu’une interruption de nos services se produise. Dans la mesure où vous et nous dépendons de plusieurs services tiers, le problème (et sa solution) peut même échapper à notre contrôle. Le journal des incidents consigne les incidents ainsi que quelques informations de base sur ce qui s’est passé. Une fois la cause connue, les détails sont rajoutés.

Retard dans l’envoi des e-mails (Mars 2024)

Le 12 mars 2024, un incident est survenu au niveau de notre service d’envoi d’e-mails, causant du retard dans l’envoi de certains rapports ou e-mails d’alerte.

Détails de l’incident

  • Service touché : système d’envoi d’e-mails
  • Heure de début : 12 mars 2024, à 22h00 (heure d’Europe centrale)
  • Heure de fin : 13 mars 2024, à 11h00 (heure d’Europe centrale)
  • Conséquence : retard dans l’envoi d’e-mails d’alerte, de rapports par e-mail et d’autres e-mails envoyés par le système d’Uptrends

Remarque : ce problème n’a pas nécessairement touché tous vos e-mails : la majorité des messages a été envoyé dans les temps, comme habituellement. Toutefois, certains e-mails ont été retardés.

Résolution

Le 13 mars, à compter de 11h00 (heure d’Europe centrale), tous les e-mails d’alerte et autres e-mails envoyés après cette heure étaient à nouveau envoyés dans les temps. Au même moment, nous avons activé le processus d’envoi de tous les e-mails en attente.

Prochaines étapes

Nous vous recommandons de vérifier que votre boîte de réception ne contient pas d’e-mails arrivés après la résolution de cet incident. Par ailleurs, si vous avez des questions sur certaines alertes ou certains rapports, nous vous invitons à nous contacter.

Nous vous présentons nos excuses pour la gêne occasionnée, et nous vous remercions pour votre compréhension tout au long de la résolution de ce problème. Notre équipe s’emploie à assurer la fiabilité de nos services et des mesures sont mises en place pour éviter que de tels incidents se produisent à nouveau.

Incident touchant les moniteurs de transactions (Mars 2024)

Le 12 mars 2024, un incident a touché un sous-ensemble du service de surveillance des transactions. Ce problème a touché les transactions utilisant le paramètre “Chrome standard”, et entraîné des erreurs dans la transmission des erreurs de navigation, notamment avec le code d’erreur 7001.

Détails de l’incident

  • Service touché : moniteurs de transactions (utilisant le paramètre Chrome standard)
  • Heure de début : 14h00 (heure d’Europe centrale)
  • Heure de fin : 18h20 (heure d’Europe centrale)
  • Conséquence : erreurs intermittentes ou continues liées à un problème de transmission des erreurs de navigation, envoi possible d’alertes injustifiées et erreurs dans l’enregistrement des temps d’indisponibilité

Nous comprenons combien il est important que la surveillance soit précise et nous avons conscience de la gêne que ce problème peut avoir causé. Le problème a été entièrement résolu à 18h20 (heure d’Europe centrale) et des mesures ont été mises en place pour éviter que de tels incidents se produisent à nouveau.

Cette panne vous concerne-t-elle ?

Si vos transactions fonctionnent avec le paramètre “Chrome Standard”, il est possible que vos actions de surveillance aient été touchées. Le problème n’a pas immédiatement touché toutes les vérifications de moniteurs, ce qui peut avoir causé des erreurs intermittentes.

Prochaines étapes pour les utilisateurs concernés

  • Actualisation du calcul des temps de disponibilité : nous avons conscience que cet incident peut avoir causé des erreurs dans les rapports sur les temps d’indisponibilité. Pour en savoir plus sur la suppression des erreurs et l’actualisation du calcul des temps de disponibilité, veuillez consulter notre base de connaissances.

  • Vérification des alertes : nous vous recommandons de vérifier si les alertes reçues pendant cette période sont correctes.

Nous vous présentons nos excuses pour la gêne occasionnée, et nous vous remercions pour votre compréhension tout au long de la résolution de ce problème.

Retard dans l’envoi des e-mails (Décembre 2023)

Un problème a récemment été constaté dans notre système d’envoi des e-mails. Depuis quelques jours, une anomalie technique a entraîné la mise en attente de certains e-mails qui auraient dû être envoyés immédiatement. Le problème a été résolu le 20 décembre 2023. Notre équipe a rétabli le processus normal d’envoi d’e-mails, ce qui a permis d’expédier sans tarder tous les e-mails en attente.

En raison de cet incident, il est possible que vous ayez subi un retard dans la réception de certains e-mails. Depuis, nous avons renforcé nos protocoles de surveillance du système d’envoi d’e-mails, afin d’éviter que le problème se reproduise.

Nous vous présentons nos excuses pour la gêne occasionnée, et nous vous remercions pour votre compréhension. Si vous avez des inquiétudes ou des questions à ce sujet, veuillez contacter notre équipe de support.

Problème lié aux captures d’écran chronologiques (octobre 2023)

Pour mieux représenter vos utilisateurs finaux, Uptrends s’efforce de tenir à jour les versions de navigateurs utilisées pour exécuter la surveillance basée sur un navigateur dans votre compte. Pour cela, nous suivons le calendrier de publication des versions de Chrome. Malheureusement, le déploiement de Chrome 118 a introduit un bug dans l’enregistrement des captures d’écran avec les outils de développement de Chrome. Dans Uptrends, toute vérification effectuée par des checkpoints exécutant Chrome 118 n’incluait pas les captures d’écran chronologiques. Au lieu d’une série de captures d’écran enregistrant les différentes phases du chargement de la page, le résultat du moniteur affichait une capture vide.

Compte tenu des délais entre la publication des nouvelles versions de Chrome, de plus en plus de checkpoints ont été touchés par ce problème depuis la sortie de Chrome 118 au début du mois. De ce fait, de plus en plus de résultats de vérifications ne contiennent pas les captures d’écran chronologiques.

Nous avons élaboré un correctif et nous déployons actuellement des mises à jour dans notre réseau de checkpoints.

Dysfonctionnement des alertes (21 et 22 août 2023)

Du 21 au 22 août 2023, la plateforme d’Uptrends a rencontré un problème qui a empêché l’envoi des messages d’alerte au moyen des intégrations disponibles. La panne a commencé le 22 août à 01h47 heure d’été d’Europe centrale (soit le 21 août à 19h47 heure de l’Est) et a été réparée le 22 août à 02h52 heure d’été d’Europe centrale (soit le 21 août à 20h52 heure de l’Est). Pendant ce temps, aucun message d’alerte n’a été envoyé. Toute alerte générée pendant cette période est visible dans le journal d’alertes de votre compte, car seuls les messages sortants ont été affectés par cette panne. La surveillance n’a pas été interrompue.

En raison de cette panne, les plateformes qui réceptionnent des messages d’alerte entrants d’Uptrends (comme les outils d’automatisation ou de gestion des incidents, les plateformes de communication, etc.) ont pu ne pas recevoir un message d’alerte devant déclencher une réaction, comme la création d’un ticket ou d’un incident ou l’envoi d’une notification, même si les messages “OK” suivants ont été reçus. Inversement, des messages d’alerte ont pu être reçus sans que le message “OK” soit envoyé, auquel cas l’alerte ou l’incident peut être considéré comme en cours par les plateformes externes. Reportez-vous à la vue d’ensemble des statuts d’alerte de votre compte pour connaître le statut en temps réel de vos alertes Uptrends.

Interruption du service d’Uptrends (6 avril 2022)

Le 6 avril 2022, la plateforme d’Uptrends a subi deux problèmes indépendants l’un de l’autre, mais qui ont tous deux affecté les vérifications, les alertes et l’accessibilité.

Le premier problème s’est produit aux alentours de 8 h 15 UTC et a duré jusqu’à environ 9 h 00 UTC. Il a été causé par un dysfonctionnement dans l’infrastructure sous-jacente de l’Amsterdam Internet Exchange, qui a touché un grand nombre des clients du point d’échange, y compris les deux centres de données d’Uptrends. Pour en savoir plus sur cet incident, veuillez consulter le rapport de panne (en anglais) de l’AMX-IX.

Le deuxième problème a commencé autour de 13 h 30 UTC et a été résolu aux environs de 14 h 30 UTC. Il a été causé par un bug logiciel qui a été introduit lors de la sortie d’une nouvelle version plus tôt dans la journée. À cause de ce bug, la performance de la base de données d’Uptrends a été fortement diminuée. Dès que le problème est apparu, l’équipe d’ingénieurs informatiques a réagi pour identifier le problème, et conçu une nouvelle version pour le résoudre.

Graphiques en cascade incomplets pour cause de problèmes liés aux service workers de Chrome (16 novembre 2021)

Remarque (16/03/2022) : Les problèmes liés aux service workers de Chrome ont désormais été résolus. Les graphiques en cascade ne présenteront plus d’éléments manquants.

Avec la sortie de Chrome 96, certains service workers ne s’installent plus correctement, ce qui entraîne l’absence d’éléments dans la cascade des moniteurs Full Page Check. Les points de contrôle d’Uptrends s’exécutent toujours sur la dernière version stable de Chrome, ce qui peut parfois mettre en évidence des bogues comme ceux-ci.

Contexte : service workers

Un service worker est un script qui s’exécute en arrière-plan de votre navigateur, indépendamment d’une page web. Il vous permet de mettre en œuvre des fonctionnalités en arrière-plan, telles que la mise en cache, les notifications push ou la synchronisation des données. Les service workers sont capables d’intercepter le trafic réseau et peuvent être programmés pour récupérer les résultats des caches.

Quel est le problème ?

Depuis Chrome 96, Chrome a changé le fonctionnement de l’inscription des événements liés aux service workers. Cependant, ce changement n’a pas été correctement implémenté dans ChromeDriver. ChromeDriver, également maintenu par l’équipe Google, est l’outil utilisé par Uptrends pour automatiser les vérifications dans le navigateur. Par conséquent, le service worker se bloque lors de l’installation, ce qui entraîne des éléments manquants dans la cascade de Full Page Check. Nous travaillons avec les équipes concernées pour résoudre ce problème.

Impact et mesures

La plupart des sites web utilisant les service workers chargent toujours la page correctement. Cependant, certains éléments peuvent manquer dans la cascade, ou le comportement de la page risque de changer. Le résultat est que des informations peuvent ne pas être disponibles, par exemple pour déboguer des problèmes. En outre, le temps total signalé peut être impacté. Pour compenser les temps totaux incorrects, vous pouvez vous baser sur les temps de chargement de l’événement W3C. Pour voir plus d’éléments, vous pouvez aussi changer de navigateur, par exemple en passant à Firefox.

Plus d’informations

Consultez le ticket https://bugs.chromium.org/p/chromium/issues/detail?id=1270761.

Problèmes de certificats de Let’s Encrypt (30 avril 2021)

Le vendredi 30 avril 2021, vers 19 h 40 UTC, un nombre important de moniteurs HTTPS de plusieurs clients d’Uptrends ont commencé à signaler des erreurs, indiquant que le certificat HTTPS ne pouvait pas être validé. Ce problème ne s’est pas produit sur tous les moniteurs, mais uniquement sur les sites utilisant un certificat TLS émis par l’autorité de certification Let’s Encrypt.

Rappel : Les moniteurs HTTPS vérifient les certificats.

Les moniteurs HTTPS vérifient la disponibilité de l’URL spécifiée. Ils vérifient également la validité du certificat HTTPS présenté par le serveur, si l’option Vérifier les erreurs de certificat SSL sur l’onglet Avancé des paramètres du moniteur est cochée. Les certificats ne sont valides que s’ils ne sont pas encore périmés. En plus d’expirer automatiquement à un moment donné (généralement après un an), les certificats peuvent également être révoqués par l’autorité de certification. Par conséquent, afin d’effectuer un contrôle solide et de s’assurer que le certificat est fiable, le contrôle du certificat HTTPS doit également vérifier que le certificat n’a pas été révoqué. Sinon, le contrôle est essentiellement non concluant.

Quel était le problème ?

Une révocation peut s’effectuer de deux manières : au moyen du protocole OCSP et par une liste de révocation de certificats (CRL). Plusieurs heures après le début de l’incident, des rapports du personnel de Let’s Encrypt ont révélé qu’ils avaient diffusé une CRL périmée, raison pour laquelle les vérifications par la CRL ont échoué et généré des erreurs. En conséquence, les moniteurs Uptrends ont signalé une situation d’insécurité possible, car la validité de ces certificats ne pouvait tout simplement pas être déterminée.

Ce problème n’affectait pas seulement les moniteurs Uptrends : tout individu utilisant du code .NET ou Java pour accéder à des sites ou des API aurait été confronté à ce problème. Le problème a été résolu par Let’s Encrypt le samedi 1er mai 2021, à 00 h 04 UTC.

Les navigateurs n’ont pas signalé ce problème.

Les navigateurs utilisent souvent leurs propres listes de révocation de certificats internes, qui ne dépendent pas des autorités de certification. Par conséquent, les sites web affectés s’affichaient correctement dans un navigateur.

Conclusion, recommandations et suivi

Il y avait un vrai problème. Par conséquent, les messages d’erreur (erreurs ou alertes ou les deux) générés par les erreurs HTTPS d’Uptrends étaient justifiés, car la validité des certificats et la sécurité qu’ils étaient censés fournir ne pouvaient pas être garanties.

Cependant, nous sommes conscients qu’il vous était pratiquement impossible de prendre des mesures pour résoudre ce problème, car la perturbation était entièrement due à des facteurs externes. Pour vous donner plus d’options à l’avenir, nos équipes de développeurs envisagent d’ajouter des paramètres supplémentaires qui vous permettront de décider du niveau de vérification des certificats que vous souhaitez mettre en place (y compris les vérifications de révocation ou non).

Lorsqu’un problème de ce type survient, et que vous tenez à ignorer temporairement ce type d’erreur, vous pouvez contourner les vérifications de certificats en désactivant la case Vérification des erreurs de certificats SSL dans l’onglet Avancé des paramètres du moniteur.

Le rapport de Let’s Encrypt concernant ce problème est publié à l’adresse https://letsencrypt.status.io/pages/incident/55957a99e800baa4470002da/608c9dd384a5cf052fc6ed24.

En utilisant ce site, vous consentez à l’utilisation de cookies conformément à notre Politique de cookies.