VMware: druga awaria Cloud Foundry efektem błędu w czasie naprawy pierwszej

Niedawno firma VMware spotkała się z dwiema awariami swojej usługi Cloud Foundry. Efektem pierwszej była kilkugodzinna przerwa w dostępie do usługi. Podczas szukania sposobu na zapobieganie kolejnym problemom tego typu, błąd zespołu zaowocował jeszcze groźniejszą awarią.

Cloud Foundry firmy VMware, oferuje usługę PaaS (platforma jako usługa). Deweloperzy mogą dzięki niej tworzyć aplikacje i zamieszczać je w sieci. Zaczęła działać 12 kwietnia, a już 25 i 26 kwietnia miały miejsce dwie przerwy w dostępie do tej platformy.

Pierwszy incydent był efektem czasowego braku prądu. Aplikacje deweloperów pozostały w sieci, ale deweloperzy nie mogli się logować ani tworzyć nowych programów. Przerwa w dostępie do usługi trwała prawie 10 godzin. Następnego dnia VMware przypadkowo doprowadziło do kolejnej awarii przy przygotowywaniu planu zapobiegania podobnym problemom.

Zobacz również:

  • IDC: Wzrost popularności sieci SD-WAN wynika z wymagań dotyczących łączności w chmurze i atrakcyjności SASE
  • „Greatness” – nowe pishing aaS

26 kwietnia rozpoczęto tworzenie scenariusza postępowania na wypadek przerwy w dostawie prądu. Jego przygotowanie miało przebiegać teoretycznie, niestety jeden z inżynierów dotknął klawiatury. Rezultatem była awaria całej infrastruktury sieciowej Cloud Foundry. Przestały działać routery, firewalle, równoważenie obciążenia a częściowo także wewnętrzna infrastruktura DNS. Doprowadziło to do całkowitego zerwania połączeń zewnętrznych.

Druga awaria okazała się poważniejsza. Po raz pierwszy VMware musiało umieścić na stronie informacje o czasowym braku dostępu do usługi. Podczas przerwy z 26 kwietnia wszystkie aplikacje i komponenty systemu działały, ale wiedzieli o tym tylko inżynierowie firmy. Awarię udało się jednak szybko naprawić.

Drugi problem VMware był podobny do niedawnego związanego z chmurą Amazon, której awaria także spowodowana była błędem ludzkim. Wymagała ona jednak kilku dni do pełnej naprawy i miała poważniejsze skutki, gdyż usługa jest oferowana od dłuższego czasu i ma wielu klientów.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200