Performance of Open vSwitch-based Kubernetes Cluster in Pathological Cases
Výkon síťového clusteru s Open vSwitch a Kubernes v patologických situacích
diplomová práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/184131Identifikátory
SIS: 251396
Kolekce
- Kvalifikační práce [11242]
Autor
Vedoucí práce
Konzultant práce
Tůma, Petr
Oponent práce
Yaghob, Jakub
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Informatika - Softwarové systémy
Katedra / ústav / klinika
Katedra distribuovaných a spolehlivých systémů
Datum obhajoby
6. 9. 2023
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
kubernetes|ovs|výkonnostKlíčová slova (anglicky)
kubernetes|ovs|performanceS nástupem cloud computingu, kontejnerů a horizontálně škálovatelné infrastruktury, se nedílnou součástí datových center staly softwarově defino- vané sítě (SDN). Jedním z běžně nasazovaných řešení je Kubernetes a Open vSwitch (OVS). V této diplomové práci hledáme možná výkonnostní ome- zení OVS při použití v rámci Kubernetes. Zaměřujeme se na problémy způ- sobené neobvyklým síťovým provozem. Výsledkem je objev několika typů pa- ketů způsobujících nadměrné zatížení uzlů clusteru. Jako hlavní příčinu jsme identifikovali řadu filtračních pravidel v OpenFlow a chybu v návrhu OVS, která brání jejich efektivnímu vyhodnocování. Při specifické konfiguraci sys- tému toto potenciálním útočníkům umožňuje využít objevenou neefektivitu k praktickému Denial-of-Service útoku na místní uzel clusteru, který způsobí kompletní síťový výpadek pro všechny kontejnery.
With the adoption of cloud computing, horizontally scalable infrastruc- ture, and containerized deployments, Software Defined Networking (SDN) became an integral part of data centers, Kubernetes and Open vSwitch (OVS) being one of the commonly deployed solutions. Our work explores the possible performance limitations of OVS under Kubernetes, focusing on pathological traffic patterns. We discovered several types of packets causing excess system load on the cluster nodes. We identified the root cause as a series of drop rules in OpenFlow and a design flaw in OVS that prevents their efficient evaluation. We investigated the impact of this problem and our research revealed a specific system configurations under which an adversary can use the discovered inefficiencies for a practical denial of service attack on the local cluster node, bringing the whole networking stack down for all neighbouring containers.