Kako je sićušni bug izazvao veliki kolaps koji je obustavio internet

featured image

25. okt 2025. 12:09

U ponedjeljak je ogromni prekid rada Amazon Web Servicesa (AWS) srušio neke od najpopularnijih aplikacija i servisa na svijetu — a sve je počelo jednim malim propustom.

Greška, koja se dogodila kada su dva automatizirana sistema pokušala istovremeno ažurirati iste podatke, pretvorila se u znatno ozbiljniji problem koji su Amazonovi inženjeri hitno pokušavali riješiti, navela je kompanija u svom izvještaju objavljenom u četvrtak.

Zbog prekida rada ovog velikog oblaka, korisnici nisu mogli naručivati hranu, komunicirati sa bolničkim mrežama, pristupati mobilnom bankarstvu, niti se povezivati sa svojim sigurnosnim sistemima i pametnim kućnim uređajima. Brojne svjetske kompanije, uključujući Netflix, Starbucks i United Airlines, privremeno nisu mogle pružati svoje online usluge.

„Iskreno se izvinjavamo zbog utjecaja koji je ovaj događaj imao na naše korisnike“, navodi Amazon u saopštenju objavljenom na AWS web-stranici. „Svjesni smo da je ovaj incident mnoge naše klijente značajno pogodio. Učinit ćemo sve da iz njega naučimo i dodatno unaprijedimo našu pouzdanost.“

U osnovi problema bila su dva programa koja su se ‘takmičila’ da upišu isti DNS zapis – svojevrsni unos u internetski “telefonski imenik”. Istovremeno upisivanje dovelo je do stvaranja praznog zapisa, što je unijelo zbrku u više AWS servisa.

„Analogne situacije možete zamisliti kroz telefonski imenik – osobe s druge strane linije postoje, ali ako ne znate kako ih kontaktirati, imate problem,“ objasnila je Angelique Medina, direktorica Cisco-ovog sistema za praćenje internetske infrastrukture ThousandEyes, za CNN. „A taj ‘telefonski imenik’ je, jednostavno rečeno, nestao.“

Jakub Porzycki/NurPhoto / Shutterstock Editorial / Profimedia

Indranil Gupta, profesor elektrotehnike i računarstva na Univerzitetu Illinois, objasnio je Amazonovu tehničku analizu slikovitim primjerom.

Zamislite dva učenika koji rade zajedno u zajedničkoj svesci. Jedan brz i ažuran, a drugi sporiji i ponekad nepažljiv.

Sporiji učenik „radi povremeno, ali njegovi zapisi mogu biti u sukobu s onim što je brži učenik već napisao,“ pojasnio je Gupta. „U međuvremenu, brži učenik stalno pokušava ‘popravljati’ stvari i briše sporije unose jer ih smatra zastarjelim.“

Rezultat? „Prazna stranica (ili precrtana stranica) u laboratorijskoj svesci kad nastavnik dođe da je pogleda,“ napisao je.

Ta „prazna stranica“ srušila je AWS-ovu bazu podataka DynamoDB, što je izazvalo lančanu reakciju na druge servise poput EC2 (koji nudi virtuelne servere za razvoj i implementaciju aplikacija) i Network Load Balancer (koji upravlja prometom unutar mreže).

Kada je DynamoDB ponovo proradio, EC2 je pokušao istovremeno ponovo pokrenuti sve svoje servere, ali nije mogao pratiti taj tempo.

Nakon incidenta, Amazon je najavio niz promjena, uključujući rješavanje tzv. „race condition“ scenarija (situacije u kojoj dva sistema istovremeno prepisuju rad jedan drugome), kao i dodavanje dodatnog seta testova za EC2 servis.

„Veliki prekidi su neizbježni – ali reakcija je ključna“

Profesor Gupta kaže da su ovakvi veliki prekidi rijetki, ali i neizbježni.

„Veliki sistemi ponekad jednostavno zakažu. Ne možete to u potpunosti spriječiti, baš kao što ljudi ponekad obole,“ rekao je u telefonskom razgovoru za CNN. „Ali ono što je zaista ključno jeste način na koji kompanija reaguje na takve situacije i koliko transparentno informiše svoje korisnike.“