Ce que signifie réellement 100 % de disponibilité — et comment concevoir pour cela

Chaque fournisseur de connectivité promet un temps de disponibilité. Le nombre dans l'ALS varie — 99,9 %, 99,95 %, 99,99 % — mais la promesse est universelle. Ce qui diffère considérablement, c'est ce que couvre réellement la promesse, ce qui se passe lorsqu'elle n'est pas respectée et si l'architecture sous-jacente peut réellement fournir la disponibilité revendiquée.
Pourquoi les pourcentages de SLA ne sont pas la bonne mesure
Considérez ce que le temps de disponibilité de 99,9 % signifie réellement dans la pratique : 8,7 heures d'indisponibilité par année. Pour un restaurant, cela pourrait être un service complet de dîner. Pour un centre d'appels, il peut s'agir d'une journée de perte de productivité. Dans le cas d'un établissement de soins de santé, il peut s'agir d'une période d'opérations cliniques avec facultés affaiblies.
Plus important encore, les pourcentages de SLA vous indiquent ce pour quoi un opérateur vous créditera après une panne — ils ne vous indiquent pas comment l'architecture se comporte lorsqu'un composant tombe en panne. Un SLA de 99,9 % sur un seul circuit n'empêche pas une panne. Il détermine la rémunération que vous recevrez par la suite.
Le problème de l'architecture
La plupart des configurations de connectivité d'entreprise sont architecturées pour des conditions normales d'exploitation, et non pour des conditions de défaillance. Une seule connexion Internet principale sans basculement testé est l'architecture la plus courante — et c'est un point de défaillance unique.
Les modes de défaillance sont plus variés que ce que la plupart des organisations apprécient :
- Pannes au dernier kilomètre — La connexion physique entre votre immeuble et le réseau de l'opérateur peut échouer indépendamment du réseau de base de l'opérateur.
- Défaillances de la colonne vertébrale du transporteur — Les pannes régionales peuvent toucher simultanément tous les clients de l'infrastructure de ce transporteur.
- Défaillances de l'équipement — Le routeur ou le modem à votre emplacement peut tomber en panne indépendamment de tout le reste.
- Pannes de courant — Un onduleur protège contre les brèves pannes ; les interruptions de courant prolongées enlèvent le matériel de connectivité, quel que soit le statut de l'opérateur.
À quoi ressemble une véritable redondance réseau
Transporteurs indépendants, Infrastructure indépendante
Les connexions primaires et secondaires doivent utiliser une infrastructure d'entreprise différente, et non pas seulement des services différents de la même entreprise. Deux circuits Bell traversant la même infrastructure de dernier kilomètre peuvent tomber en panne ensemble. La fibre primaire de Bell avec LTE secondaire sur Telus offre une véritable indépendance de l'entreprise.
basculement automatique
Le basculement manuel entraîne un retard qui est inacceptable sur le plan opérationnel. Le basculement automatique au niveau du réseau (routeur SD-WAN ou double WAN avec basculement configuré) signifie que le commutateur se produit en quelques secondes, avant que la plupart des utilisateurs ne s'en apercent.
Défaillance testée
C'est là que la plupart des architectures « redondantes » échouent réellement. De nombreuses organisations ont des connexions redondantes configurées sur papier, mais n'ont jamais testé ce qui se passe lorsque le primaire tombe en panne. Le basculement testé signifie délibérément retirer la connexion principale et confirmer que le trafic se déplace automatiquement, que le temps de commutation est acceptable, que la bande passante secondaire est suffisante et que les systèmes critiques gèrent correctement le basculement.
Surveillance et alertes
Une panne de connectivité qui prend 30 minutes pour être remarquée coûte beaucoup plus qu'une défaillance détectée automatiquement en quelques secondes. La surveillance du réseau qui alerte en cas de défaillance de la connexion principale est une exigence opérationnelle de base.
Les aspects économiques de la redondance
L'objection la plus courante à la connectivité redondante est le coût. La question n'est pas de savoir quel est le coût de la redondance ? La question est la suivante : « Quel est le coût d'une panne ? » Pour la plupart des entreprises, une panne d'Internet de deux heures coûte plus cher en perte de productivité, de transactions perdues et en perturbations opérationnelles que six mois pour une connexion LTE secondaire.
Si vous voulez comprendre où votre architecture de connectivité actuelle est exposée, identifiez chaque service qui cesse de fonctionner lorsque votre connexion Internet principale tombe en panne et estimez le coût horaire. La réponse donne généralement une apparence très différente au coût de la redondance.
Continuez à lire






