Čo je uptime a prečo na ňom záleží
V skratke: Uptime je percento času, počas ktorého je váš web dostupný. 99 % znie ako veľa, no v praxi to znamená vyše troch dní výpadku ročne. Pre weby a aplikácie, ktoré prinášajú obrat, je realistický cieľ aspoň 99,9 % (8,7 hodiny výpadku ročne) - a kľúčové je vedieť o probléme do minúty.
Definícia: čo presne meriame
Uptime je pomer času, kedy služba odpovedá očakávane (typicky HTTP 200, obsah obsahuje kľúčové slovo) k celkovému času merania. Vyjadruje sa v percentách, najčastejšie pre obdobie 30 alebo 365 dní.
Opakom je downtime - čas, kedy služba nereaguje, vracia 5xx, alebo trvá nad nastavený timeout. Sem patrí aj planovaná údržba, pokiaľ ju explicitne nevylúčite z výpočtu (čo by ste mali komunikovať v SLA).
Tabuľka "nines": koľko času znamená každé desatinné miesto
| Uptime | Povolený downtime / rok | Mesiac | Deň |
|---|---|---|---|
| 99 % | 3 dni 15 h | 7 h 18 min | 14 min |
| 99,5 % | 1 deň 19 h | 3 h 39 min | 7 min |
| 99,9 % (three nines) | 8 h 45 min | 43 min | 1 min 26 s |
| 99,95 % | 4 h 22 min | 21 min | 43 s |
| 99,99 % (four nines) | 52 min | 4 min 22 s | 8,6 s |
| 99,999 % (five nines) | 5 min 15 s | 26 s | 0,86 s |
Each ďalšia deviatka násobí náklady na infraštruktúru. Five nines (99,999 %) je doménou globálnych providerov s aktívnou redundanciou cez kontinenty - pre väčšinu biznis aplikácií je 99,9 % správny cieľ.
Aký uptime reálne potrebujete
- Marketing web (firma, portfólio): 99 % stačí. Návštevník ktorý príde počas výpadku skúsi neskôr.
- SaaS aplikácia s desktop klientom: 99,9 % je minimum. Zákazníci platia za prácu, ktorú nemôžu robiť počas downtime.
- E-shop, payment gateway, real-time služba: 99,95 % a vyššie. Každá minúta = priame straty.
- Infraštruktúra (API ktoré používajú iní): Aspoň 99,99 %. Vaše SLA limituje SLA klientov.
Ako sa uptime meria
Monitoring služba periodicky volá váš endpoint (typicky HTTP GET, ale aj TCP socket, ICMP ping alebo DNS resolution). Každá kontrola má binárny výsledok: up alebo down.
Bežný interval je 1-5 minút. Čím kratší, tým rýchlejšie zachytíte výpadok, ale tým viac false-positive alertov dostanete (lokálny network glitch, krátky deploy reštart). Riešením je multi-region kontrola: výpadok sa potvrdí až keď ho hlási N regiónov, nie iba jeden.
Najčastejšie zdroje "stratených nines"
- Expirovaný SSL/TLS certifikát. Webový prehliadač blokuje stránku. Bez monitoringu o tom viete v pondelok ráno, keď zazvoní telefón.
- Vypršanie domény. Celý DNS prestane fungovať. Email, web, status page - všetko padá zároveň.
- Padlý databázový worker. Web vracia 500 alebo timeout pre časť requestov. Klasický ping z toho možno aj prejde.
- DDoS alebo flooding. Server zaťažený, response time stúpa nad limit, monitoring oznámi výpadok.
- Botched deploy. Nová verzia má bug, ktorý zlomí cestu. Bez integration testov nájdete to až keď začnú sťažovať zákazníci.
Záver
Uptime nie je marketingové číslo - je to mierka, ako veľmi sa môžete spoľahnúť na svoju vlastnú infraštruktúru. 99,9 % uptime nie je luxus, ale štandardná požiadavka pre akúkoľvek službu, ktorá generuje obrat alebo má platiacich zákazníkov.
Krok jedna je merať. Ak nemáte externé monitorovanie, technicky neviete, koľko uptime máte - len odhadujete.
Začnite merať uptime svojich služieb
ePulzio sleduje vaše endpointy v intervaloch od 1 minúty z viacerých regiónov. 7 dní zdarma.
Spustiť monitoring →