網絡云化演進研討
2022-08-05 11:11:49? 來源:?? 閱讀:次
一、背景
傳統 IT 云化對于傳統網絡來說是一次難得的重構機會,網絡隨著業務向云上遷移逐漸由自建轉變為采用云上網絡產品,網絡安全域演化及網絡虛擬化將進一步拓展到骨干網,網絡部署和使用方式將變得簡單彈性。但在過渡期間,網絡會變得更加復雜,這要求云網絡必須處理好不同方式的跨城互聯以及與內網的跨安全域互通等問題。同時還要面對由業務體量所帶來在性能和規模上的巨大挑戰。云化之路也是云網絡演進之路,包括上層虛擬網絡以及下層物理網絡需要不斷優化,共同向前。
二、網絡架構概述
針對傳統 IT 建設而言,基礎設施相互獨立(服務器、網絡設備),各自將業務部署在數據中心上,機房內服務器的規模可達到數十萬臺,通過超高速、超大帶寬的數據中心網絡(DCN)互連。同城多個數據中心之間通過城域網(MAN)互連,多個城市(地域)之間的東西向流量通過全球骨干網(AGN)承載,跨城 / 跨國的長途線路各業務共用,采用 VPN 技術隔離,AGN 邏輯上可以被劃分為多張業務平面,實現業務隔離。
以往當企業自身的業務發展到一定規模后,通常會開始自建基礎設施及網絡。而當公有云普及后,這一方式發生了一定程度的變化。云的業務是公有云上各類 IaaS 及 PaaS 云產品 / 服務,云的對外服務定義了區域(Region)和可用區(Availability Zone(AZ))的概念,現實中基本上可以分別對應到城市和機房,反映了業務的部署位置及方式。而云網絡(經常還被稱作虛擬網絡或 Overlay 網絡)是云在其基礎設施物理網絡之上通過網絡虛擬化技術打造的一系列云網絡產品,幫助公有云上的租戶構建虛擬網絡,各租戶之間相互獨立 / 隔離。云網絡各產品支持不同的業務場景,包括:云上虛擬網絡(VPC)、混合云網絡(云專線等)及云上虛擬骨干網絡(CEN)。
1
云上虛擬網絡(VPC)
云上虛擬網絡為每個云上租戶創建了一個隔離的網絡環境,即用戶可自定義 IP 地址空間、路由表及出口網關,覆蓋一個區域的范圍。具體實現可采用虛擬化封裝 / 隔離技術(如 VxLAN),主要功能組件包括:分布式的虛擬交換機(AVS)、集中式的虛擬網絡網關(xGW 集群)以及 SDN 控制器等,下層物理上運行在超大規模的數據中心網絡及高速城域網之上。
2
云專線
云專線連通了租戶云上的虛擬網絡與云下數據中心物理網絡,構成混合云的網絡架構,支撐公有云用戶搬站上云過程中的數據遷移需求,或者大型客戶長期的混合云戰略。主要功能組件包括:虛擬網絡網關(xGW 集群)以及物理網絡網關(CSW集群),兩者成對出現并相互配合,完成了虛擬化封裝 / 解封裝,從而在邏輯上為每個租戶構建了一條獨享專線,打通其云上網絡(VPC)與云下數據中心。
3
云上虛擬骨干網絡(CEN)
云上的虛擬骨干網幫助云上租戶連通了其分布在各區域的云上網絡(VPC)。主要功能組件包括:虛擬網絡網關(xGW 集群)以及自研的路由控制器,下層物理上運行在全球骨干網之上。
4
云網絡分層設計
上層虛擬網絡直接面向租戶及業務,下層物理網絡支撐上層的虛擬網絡(多數情況下用戶不可見)。上下層解耦合并專注于自身的業務特點,使得在重大網絡技術演進時可以分別控制各自節奏,避免相互影響。而另一方面,上下層又要相互協同緊密結合。基礎設施能力以云產品的方式輸出,對產品的高效賦能很關鍵。如采用智能網卡、可編程硬件,對于虛擬交換機以及虛擬網絡網關部分功能的卸載,這些都可極大地提高網絡性能同時降低成本。而全球骨干網根據不同服務等級的流量調度能力對上層云上虛擬骨干網絡(CEN)的透出可以顯著增強產品的市場競爭力。
三、網絡的云化演進過程
政府、企業業務的超大體量以及對于用戶體驗的極致要求,這使得網絡云化在各場景下解決超大帶寬、超高性能的互通需求等方面都面臨著巨大的挑戰。這需要用戶側和平臺側共同面對,政府企業對自身業務進行云化適配,產業也不斷打磨更適合的云產品。
1
數據中心網絡轉向云上虛擬網絡
首先,用戶業務部署所需的資源由數據中心機房的服務器變為云上虛擬機(ECS),網絡自然也從自建的數據中心網絡轉變為云上虛擬網絡(VPC)。資源的交付周期由幾個月變為幾分鐘,并且可以根據業務需求的變化快速擴縮容,云上資源及網絡的彈性優勢由此體現。
由于用戶業務體量逐漸龐大,需要規劃好公有云業務的分布,以支撐政府企業各個子部門及多元化用戶對云提出的更高要求。政府、企業內數量眾多的部門之間有著復雜的業務關系,對于云賬號體系能力來說是個嚴峻的考驗。政府、企業也需要考慮在一定程度上由原來的計劃性預算模式向云上按需付費的模式進行轉變。
網絡虛擬化帶來了彈性可擴展的優勢,但同時也引入了額外的開銷,導致網絡性能損失。云上采用的云服務器(ECS)通過專用高速網卡實現網絡虛擬化功能,提升了虛擬機的網絡性能,以滿足大部分用戶的需求。但是,還有少量對于性能要求較高的業務,如機器學習、超算仿真等需要專用高速網卡的產品迭代和進一步的性能優化,以保障后續能夠順利上云。另外,在數據中心網絡中,大數據、部分數據庫等業務采用了前端計算節點與后端存儲節點分離的部署架構,并根據計算與存儲的技術特點采用了不同的機型、不同的機器數量進行配比,優化整體效率。計算節點對于存儲節點采用直訪的方式進行數據讀寫,因此在網絡上要求能夠三層直通。而業務在上云之后,計算節點處在云內虛擬網絡內,存儲節點處在物理網絡中,相互間無法三層直通。采用雙 IP 地址等網絡方案可臨時性打通云內虛擬網絡與物理網絡,而短期內的過渡方案就需要大量的非標實現以及人工介入,這將導致交付及維護成本高且存在安全隱患。長期將演進到存儲產品提供的服務化方案(將網絡上的直通需求封裝在內部)
2
混合云網絡
實際上,數年前很多政府企業已經開始嘗試通過利用公有云上的虛擬化技術及彈性資源,更好支撐自身業務發展。如將部分臨時性業務單元彈性擴容到云上,在業務峰值過后縮容釋放資源。在這一場景下,為了實現政府企業網絡與云上虛擬網絡內業務單元的互通,便采用了云專線產品方案,組成了混合云網絡。而政府企業的全面云化在更大范圍將幾乎所有業務向云上遷移,新的業務預算全部落地為云上資源。雖然還是同樣的混合云網絡互通場景,但由于各業務之間復雜的調用邏輯,短期內無法實現單元化封閉。為了降低上云過程中業務側的改造風險,由網絡兜底,從互通性的角度盡量做到對于業務側透明,無差別使用云上、云下資源。這就相當于將原有數據中心內大流量的網絡互通,拉伸成為云上、云下多機房間對穿,最終導致城域網、云專線帶寬需求暴漲。
針對上述問題的解決思路為:物理網絡路徑上的網元,城域網核心交換機、網關集群交換機以及物理網絡網關交換機等可采用大容量交換機設備,在架構設計上具備良好的擴展能力(單集群內可支持設備數量的橫向擴展,例如:2 臺 ->4 臺,4 臺 –>8臺)。云專線方案中的虛擬網絡網關可采用硬件化高速網關集群,同機房兩組高速網關集群(在線及大數據業各一組)互為備份。此外,在監控系統上將虛擬網絡、物理網絡數據拉通聯動,實現了對大象流的識別以及端到端故障的快速定位。后續高速網關集群的底層實現將進一步演進至標準化的可編程硬件平臺。
3
骨干網轉向云骨干網
對于云上的租戶而言,考慮到自身應用規模、用戶覆蓋或異地容災等因素可以將業務部署在多個區域的云上虛擬網絡(VPC),由此產生了同一租戶跨區域的網絡互通需求。云上虛擬骨干網絡(CEN)產品便可以用在這種場景下,作為云上的虛擬骨干網連通租戶各區域的云上虛擬網絡(VPC)。
政府企業骨干網在設計上多采用 BGP 作為控制平面路由協議,MPLS 作為轉發平面封裝,均為標準的網絡協議。同樣的方案在各大運營商骨干網以及全球 Internet 范圍內穩定運行多年。考慮到骨干網的技術復雜性以及對全局穩定性的影響,可采用以政府企業骨干網為主體的方案,短期內各區域云上虛擬網絡(VPC)之間的流量先要通過云專線回到云下數據中心,再通過政府企業骨干網實現跨區域(Region)互通。云上虛擬骨干網絡(CEN)產品采用自研的控制平面需要進行優化及功能開發,隨著產品功能的優化和完善,后續會將業務跨地域的網絡流量逐漸切換到云上虛擬骨干網絡(CEN)。在過渡期間云上虛擬骨干網絡(CEN)與骨干網并存,長期來看,隨著更多業務向云上遷移,政府企業的云上虛擬網絡(VPC)的規模逐漸擴大,而原有數據中心的規模將逐漸縮小(終態仍然會有少量特殊的業務無法上云),最終完成到云上虛擬骨干網(CEN)的切換。
政府、企業的骨干網經過長期的發展,歷史包袱沉重。一方面,物理網絡設備采用的是商業廠商的大型路由器,成本較高且實現復雜,自主掌控力弱,難以大規模橫向擴展;另一方面,隨著政府企業全面云化以及公有云數據中心向基地型發展,數據中心之間的互聯帶寬成為骨干網流量主體,增長幅度遠大于南北向流量。后續物理網絡會新建一張骨干網,作為云上虛擬骨干網(CEN)的底座,承載所有的東西向流量。將采用高密度芯片交換機設備組網,大幅簡化骨干網設計,自主可控迭代周期快。
骨干網底層跨城市(地域)的長途線路與數據中心網絡、城域網相比成本高昂,而且不同路徑之間網絡質量差異較大。因此,骨干網技術的核心是通過流量工程針對不同的網絡服務等級需求(帶寬、延遲及抖動等)進行網絡質量的保障,通過流量調度充分利用線路帶寬資源,并在故障時進行路徑迂回或切換以實現快速恢復。要將這些網絡核心能力賦能云上虛擬骨干網絡(CEN)產品并對外輸出,服務更多的公有云上租戶。
4
其他特殊場景
在政府企業內部各業務自建的網絡之間相互獨立,算上各自的生產環境以及開發測試環境,劃分了網絡安全域進行隔離。隨著全面云化,網絡安全域的形態也隨之發生變化,原有的安全域由現有的自建網絡為主體逐漸轉變為以云上的虛擬網絡為主體,以云上虛擬網絡(VPC)的方式實現網絡隔離。另一方面,業務所依賴的數據中間層(如數據庫、大數據平臺)也逐漸向云上的 PaaS 化產品過渡,最終將以云產品標準化的訪問方式面向用戶(集團業務)提供服務。但是在遷移過程中,數據中間層的數據同步以及數據中心存量業務節點的數據訪問產生了跨安全域多點到多點(full-mesh)的 IP 直通需求,過渡階段采用 NAT 網關地址轉換方案進行支撐。方案的功能組件包括:客戶端、網關集群以及管控平臺。發起建立連接的節點需要部署客戶端,而來自眾多客戶端的流量通過 hash 被分散引導至多組網關集群。目前實現基于 x86 平臺,后續將考慮硬件化并對流量路徑進行優化以降低整體成本。
5
發展延伸
隨著產業全面云化,由以往的基礎設施上云(業務資源從數據中心的服務器替換為云上虛擬網絡(VPC)的虛擬機)轉變為基礎軟件 / 中間件上云,技術上將基礎組件(中間件、DB 等)從業務節點分離,采用云上標準化產品。網絡訪問模型也由業務節點之間的直訪變為對云產品的服務化訪問。
云產品的服務對象是云上所有租戶,業務邏輯必然需要支持多租戶模型。而云產品自身也可以作為云上的租戶,創建云產品云上虛擬網絡(VPC)并采用虛擬機資源進行其業務節點的部署,這樣的方式會帶來很多好處,各云產品的網絡與其所服務用戶的網絡之間安全隔離也避免介入到用戶云上虛擬網絡(VPC)之間的訪問限制或者合規風險當中。后續需要隨著混部技術方案、大數據云產品方案的演進,進行網絡隔離,為將來與云上各個租戶之間、各云產品在更大范圍內的資源混部掃除障礙,取得更大的收益。
四、發展趨勢
目前 IT 產業各類云產品創新發展迅猛,各類云產品其底層技術棧也應該向云化的方式演進,并將自身作為云上所依賴的其他產品的首批用戶,經過相互打磨才能更好地服務外部用戶。之前產業經歷了基礎設施云化階段,后續將在基礎軟件 / 中間件云化的過程中向云原生演進。網絡也是一樣,無服務器架構(Serverless)意味著無網絡設備架構(Networkless),網絡最終將以服務的方式進行能力輸出,成為函數即服務(FaaS)的一部分。