TW201318446A - 避免網路壅塞的方法及其裝置 - Google Patents
避免網路壅塞的方法及其裝置 Download PDFInfo
- Publication number
- TW201318446A TW201318446A TW101128255A TW101128255A TW201318446A TW 201318446 A TW201318446 A TW 201318446A TW 101128255 A TW101128255 A TW 101128255A TW 101128255 A TW101128255 A TW 101128255A TW 201318446 A TW201318446 A TW 201318446A
- Authority
- TW
- Taiwan
- Prior art keywords
- aggregator
- ack
- size
- pane
- delay
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 44
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 20
- 230000005540 biological transmission Effects 0.000 claims description 23
- 238000004590 computer program Methods 0.000 claims description 5
- 230000007423 decrease Effects 0.000 claims description 3
- 238000009827 uniform distribution Methods 0.000 claims description 2
- 238000004088 simulation Methods 0.000 abstract description 5
- 238000004891 communication Methods 0.000 abstract description 4
- 230000004044 response Effects 0.000 description 8
- 238000009826 distribution Methods 0.000 description 6
- 238000012546 transfer Methods 0.000 description 5
- 230000002776 aggregation Effects 0.000 description 3
- 238000004220 aggregation Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000010420 art technique Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000009429 electrical wiring Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/27—Evaluation or update of window size, e.g. using information derived from acknowledged [ACK] packets
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0852—Delays
- H04L43/0864—Round trip delays
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/12—Avoiding congestion; Recovering from congestion
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/19—Flow control; Congestion control at layers above the network layer
- H04L47/193—Flow control; Congestion control at layers above the network layer at the transport layer, e.g. TCP related
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/28—Flow control; Congestion control in relation to timing considerations
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/28—Flow control; Congestion control in relation to timing considerations
- H04L47/283—Flow control; Congestion control in relation to timing considerations in response to processing delays, e.g. caused by jitter or round trip time [RTT]
-
- H—ELECTRICITY
- H05—ELECTRIC TECHNIQUES NOT OTHERWISE PROVIDED FOR
- H05B—ELECTRIC HEATING; ELECTRIC LIGHT SOURCES NOT OTHERWISE PROVIDED FOR; CIRCUIT ARRANGEMENTS FOR ELECTRIC LIGHT SOURCES, IN GENERAL
- H05B3/00—Ohmic-resistance heating
- H05B3/10—Heater elements characterised by the composition or nature of the materials or by the arrangement of the conductor
- H05B3/12—Heater elements characterised by the composition or nature of the materials or by the arrangement of the conductor characterised by the composition or nature of the conductive material
-
- H—ELECTRICITY
- H05—ELECTRIC TECHNIQUES NOT OTHERWISE PROVIDED FOR
- H05B—ELECTRIC HEATING; ELECTRIC LIGHT SOURCES NOT OTHERWISE PROVIDED FOR; CIRCUIT ARRANGEMENTS FOR ELECTRIC LIGHT SOURCES, IN GENERAL
- H05B3/00—Ohmic-resistance heating
- H05B3/40—Heating elements having the shape of rods or tubes
- H05B3/54—Heating elements having the shape of rods or tubes flexible
- H05B3/56—Heating cables
-
- H—ELECTRICITY
- H01—ELECTRIC ELEMENTS
- H01C—RESISTORS
- H01C7/00—Non-adjustable resistors formed as one or more layers or coatings; Non-adjustable resistors made from powdered conducting material or powdered semi-conducting material with or without insulating material
- H01C7/008—Thermistors
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L1/00—Arrangements for detecting or preventing errors in the information received
- H04L1/12—Arrangements for detecting or preventing errors in the information received by using return channel
- H04L1/16—Arrangements for detecting or preventing errors in the information received by using return channel in which the return channel carries supervisory signals, e.g. repetition request signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L1/00—Arrangements for detecting or preventing errors in the information received
- H04L1/12—Arrangements for detecting or preventing errors in the information received by using return channel
- H04L1/16—Arrangements for detecting or preventing errors in the information received by using return channel in which the return channel carries supervisory signals, e.g. repetition request signals
- H04L1/18—Automatic repetition systems, e.g. Van Duuren systems
- H04L1/1829—Arrangements specially adapted for the receiver end
- H04L1/1832—Details of sliding window management
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/25—Flow control; Congestion control with rate being modified by the source upon detecting a change of network conditions
Abstract
資料中心網路通常包含本質上顯示添頭通訊格式的應用與網路搜尋;多個伺服器同時傳送TCP資料至單一個聚合器。在此環境中,TCP效能在有效傳輸量及詢問完成時間來說明顯的降低,造成在機櫃頂端(ToR)交換器上嚴重的封包丟失的結果。即使網路管線尺寸,亦即頻寬延遲乘積極度的小,TCP傳送器積極的傳送封包仍會造成吞吐崩潰。本發明介紹一種創新的避免TCP添頭壅塞問題之端對端壅塞控制演算法。當前案主要聚焦於窗式控制演算法的同時,本發明則是運用速率式控制以確保未處理封包的總數不超過網路管線尺寸。也相同的,模擬驗證了IT-TCP演算法在達到增加的有效傳輸量與零逾時的傳送器的數目方面係為可擴充的。
Description
進年來,資料中心應用與網路搜尋通常顯示分割/聚合通訊格式。首先,需求被分割並且送至一些工作節點(worker nodes)。並且然後,藉由工作站所產生的回應封包傳送至用於聚合的一般節點,亦即,聚合節點(aggregator node)。當多個工作站同時傳送回應封包至同個聚合器時,這種流量類型可能造成網路壅塞。由於這種添頭壅塞(incast congestion)問題,用於資料中心網路的傳送協定(transport protocols)設計已成為一種挑戰。
傳送控制協定添頭(TCP incast)問題(傳送控制協定吞吐崩潰問題)在可擴充儲存架構的設計中由D.Nagle及其它人首次被報告出來。他們發現隨著儲存裝置的數量的增加,介於用戶端與許多儲存裝置之間的同時發生的流量淹沒了網路。這造成多個封包丟失以及逾時,強迫用戶端閒置一段長的重傳逾時(RTO;Retransmission Timeout)期間。為了減輕添頭壅塞,他們將用戶端接收之槽緩衝尺寸(socket buffer size)減少至低於64kB。他們也建議在TCP級數上進行微調,像是減少複製ACK(acknowledge;確認)門檻並且禁能慢啟動(slow-start)以避免重傳逾時。然而,他們並未解決根本的添頭問題。
兩個解決添頭問題的主要途逕已經被提出了。第一個方法是將RTOmin(最低逾時重傳時間)從毫秒減至微秒粒度。此解決方法對於主要效能指標處的叢集式(cluster-based)儲存系統非常的有效以增加TCP的傳輸量(throughput)。然而,由於其仍然會導致高佇列,而對於即時應用軟體像是網路搜尋是不足夠的。第二個方法是在緩衝溢流(overflow)之前,使用壅塞避免。RTT(Round Trip Time;往反時間)在寬區網路中是一個好的壅塞指示器,以致基於延遲之擁塞的避免演算法像是TCP Vegas可為好的候選者。然而,眾所周知的是在資料中心的RTT微秒粒度也許會太過敏感以將網路壅塞從藉由封包/傳遞處理負擔造成的延遲突波分離出來。因此,DCTCP(Data Center TCP;資料中心傳輸控制通訊協定)利用明確阻塞通知(Explicit Congestion Notification,ECN)以明確的偵測網路壅塞,並且設置了藉由使用ECN標記數目而基本控制的精細粒度的壅塞窗口。另一個方法是ICTCP(Incast Congestion Control for TCP;用於傳輸控制協定之添頭的壅塞控制)。ICTCP測量所有進來流量的頻寬以獲得可用的頻寬,且然後控制基於此資訊的每個連接之接收窗口。然而,在這些方法中,添頭壅塞隨著工作站數目的增加而無法避免。
圖1敘述在添頭壅塞發生之典型的拓樸。為避免這樣
的添頭壅塞,未處理封包(outstanding packets)的總數不應超過網路管線的尺寸,此尺寸可由頻寬延遲乘積(Bandwidth Delay Product;BDP)所獲得。
其可展開為:
其中,MSS表示最大分段尺寸(Maximum Segment Size),n為同時連接總數,wi為第i個連接之窗格尺寸(window size)。在此情況中,BDP在資料中心網路中可為極小。舉例來說,假如網路路徑具有1Gbps的鏈結容量與100us的延遲,然後當MSS為1.5kB時,BDP接近12.5kB或8.3MSS。這暗示著應該小於8.3以避免管線溢流。在此情況下,假如最小窗格尺寸為1,路徑可支持下TCP連接的數目將最多為8。換句話說,假如所有的傳送者同時傳送至少一封包,大於9的TCP連接可造成佇列延遲與封包丟失。由於這原因,現存的窗式控制架構在一般利用一些工作站的資料中心網路應用基本上不可擴充。這種理解導出基於用於資料中心環境的BDP測量的速率式(rate-based)控制方法。
TCP無法在先前添頭溝通格式下良好的工作是有一些原因的。首先,機櫃頂端(ToR;Top of Rack)交換器通常使用小的緩衝記憶體(例如用於52埠的共用記憶體4MB)以減少成本,而導致頻繁的緩衝溢流,亦即,封包丟失。第二,由於在一個流程中回應封包的數目對於快速重傳與回復來說通常太小而無法發生,所以即使是少數封包丟失是可造成TCP逾時的。再者,在商品作業系統中,最小的重傳逾時(RTOmin)一般設為200ms或是300ms,同時在資料中心網路的往反時間(RTT)可小於250us。在這情況下,要花大於800的RTTs以偵測封包丟失。最後,在分割/聚合格式中,聚合器也許需要等待來自其工作站的所有回應以完成有義意的結果,以致即使大部分的連接沒有經歷到任何封包丟失,但全面的效能由單一壅塞連接所決定。綜上所述,分割/聚合流量格式在資料中心網路中一般會造成網路壅塞,並且這造成TCP吞吐崩潰,降低網路應用的服務質量(QoS;Quality of Service)。
本發明運用端對端(end-to-end)壅塞避免演算法對添頭問題做解決。特別的是,本發明提出添頭避免傳送控制協定(Incast Avoidance TCP;IA-TCP),其為速率式壅塞控制演算法,此演算限制注入網路管線的所有封包數
目以符合頻寬延遲乘積(BDP)。本發明的演算法設計以經由TCP確認(ACK)法則操作在聚合器側,以控制工作節點的TCP資料的傳送速率。透過NS-2模擬,本發明顯示IA-TCP完全的避開添頭壅塞並且顯示高傳輸率與快速的詢問完成時間。
TCP添頭壅塞問題已事先在許多先前技術文獻中被研究過了。這些先前技術主要聚焦在窗式(window-based)壅塞控制上,同時本發明則是提出速率式(rate-based)壅塞控制演算法。
依據本發明之一態樣,提供了用於避免網路壅塞在網路上的方法,網路包括一聚合器以及複數個工作站,其中複數個工作站共用至聚合器相同的瓶頸鏈結,此方法包含:計算介於聚合器與工作站之間的連接數目;調整每一個工作站的窗格尺寸(W),其中窗格尺寸(W)是基於連接的數目;將ACK延遲(△)加到ACK上,其中ACK延遲(△)是基於窗格尺寸(W)而得;以及傳送具有窗格尺寸(W)的ACK到工作站。
依據一較佳實施例,計算連接數目更包含將連接數目初始化。
依據另一較佳方法之實施例,每當連接建立時,增加連接的數目,並且每當連接關閉時,則減少連接的數目。
依據另一較佳方法之實施例,計算連接的數目更包含傳送詢問請求到每個工作站。
依據另一較佳方法之實施例,所有連接的窗格尺寸(
W)皆相同。
依據另一較佳方法之實施例,調整窗格尺寸(W)更包含設定窗格尺寸(W)至最大值。
依據另一較佳方法之實施例,窗格尺寸(W)的最大值為:,其中advertise為窗格尺寸,MSS最大區段尺寸,RTT為最小往返時間,以及n為同時連接之總數。
依據另一較佳方法之實施例,ACK延遲(△)為:,其中advertise為窗格尺寸,MSS最大區段尺寸,RTT為最小往返時間,以及n為同時連接之總數。
依據另一較佳方法之實施例,將第一個ACK延遲(△)替換掉,選擇遵守從0到(RTT+△)之間均勻分佈之隨機值,其中RTT為最小往返時間。
依據另一較佳方法之實施例,假如ACK延遲(△)大於零,傳送具有窗格尺寸(W)之ACK則在延遲計時器失效後執行。
依據另一較佳方法之實施例,假如ACK延遲(△)為負,傳送具有窗格尺寸(W)之ACK則在無延遲下立即執行。
依據另一較佳方法之實施例,此方法執行於TCP層。
依據另一較佳方法之實施例,此方法為速率式壅塞控
制演算法。
依據本發明另一態樣,用於避免在網路上之網路壅塞的聚合器,網路包括聚合器與複數個工作站,其中複數個工作站共用至聚合器相同的瓶頸鏈結,以及其中聚合器包含處理器(未圖示)與傳送器(未圖示),處理器設定以施行:計算介於聚合器與工作站之間的連接數目;調整每一個工作站的窗格尺寸(W),其中窗格尺寸(W)是基於連接數目;以及將ACK延遲(△)加至ACK,其中ACK延遲(△)是基於窗格尺寸(W),並且傳送器設定以施行傳送具有窗格尺寸(W)的ACK至工作站。
依據一聚合器的較佳實施例,計算連接數目更包含將連接數目初始化。
依據另一聚合器的較佳實施例,每當連接建立時,連接的數目增加,並且每當連接關閉時,連接的數目則減少。
依據另一較佳聚合器之實施例,計算連接數目更包含透過傳送器傳送詢問請求到每個工作站。
依據另一較佳聚合器之實施例,所有連接的窗格尺寸(W)皆相同。
依據另一較佳聚合器之實施例,調整窗格尺寸(W)更包含窗格尺寸(W)至最大值。
依據另一較佳聚合器之實施例,窗格尺寸(W)的最大值為:,其中advertise為窗格尺寸,MSS最大區段尺寸,RTT為最小往返時間,以及
n為同時連接之總數。
依據另一聚合器的較佳實施例,ACK延遲(△)為:,其中advertise為窗格尺寸,MSS最大區段尺寸,RTT為最小往返時間,以及n為同時連接之總數。
依據另一較佳聚合器之實施例,將第一個ACK延遲(△)替換掉,選擇遵守從0到(RTT+△)之間均勻分佈之隨機值,其中RTT為最小往返時間。
依據另一較佳聚合器之實施例,假如ACK延遲(△)大於零,傳送具有窗格尺寸(W)之ACK則在延遲計時器失效後執行。
依據另一較佳聚合器之實施例,假如ACK延遲(△)為負,傳送具有窗格尺寸(W)之ACK則在無延遲下立即執行。
依據本發明另一態樣,提供網路系統,其包含聚合器與複數個工作站,其中工作站共用至聚合器相同的瓶頸鏈結,其中聚合器包含一處理器及一傳送器,其中處理器設定以施行:計算介於聚合器與工作站之間的連接數;調整每一個工作站的窗格尺寸(W),其中窗格尺寸(W)是基於連接的數目;以及將ACK延遲(△)加到ACK上,其中ACK延遲(△)是基於窗格尺寸(W),其中傳送器設定以施行傳送具有窗格尺寸(W)的ACK至工作站,並且其中聚合器遵守上述用於聚合器的實施例。
依據本發明另一態樣,提供用於避免在網路上網路壅塞的電腦程式,網路包括聚合器與複數個工作站,其中複數個工作站共用至聚合器相同的瓶頸鏈結,電腦程式執行計算介於聚合器與工作站之間的連接數目;調整每個工作站的窗格尺寸(W),其中窗格尺寸(W)是基於連接的數目;將ACK延遲(△)加到ACK上,其中ACK延遲(△)是基於窗格尺寸(W);以及傳送具有窗格尺寸(W)的ACK至工作站,並且其中電腦程式遵守上述用於方法的實施例。
本發明的價值在於,眾所皆知在資料中心網路的添頭壅塞問題可被完全的避免。因此主要的好處會是在於資料中心的應用,像是雲端服務、網路搜尋等,將逐漸地顯示出更好的效能,亦即,服務質量(QoS)。
在這個區段,要導出用於添頭避免(Incast-Avoidance)的理想資料封包速率,並且然後本發明之IA-TCP演算法會進行詳細的解釋。
添頭避免的意思是未處理封包的總數不超過路徑的
BDP以致分割/聚合應用一點都不會造成任何網路壅塞。
到最後,需要控制工作站的聚合資料封包速率,×MSS/RTT,小於由Eq.(1)所得的鏈結容量。達到本發明的方法是在資料封包總數增加的情況下將△(s)加至RTT。例如,假定鏈結容量為10MSS/RTT。這意思是為了避免壅塞,在一個往返時間之內只有10個封包允許在此路徑上。此刻,本發明可藉由將1RTT的延遲加至分母允許20MSS以達到相同的速率,20MSS/2RTT。現在,用於添頭避免的聚合資料封包速率,IA速率,定義如下。
結果是,本發明可以主動的避免假如所有的工作站以IA速率傳送資料封包時發生在ToR交換器的添頭壅塞。
圖2呈現依據本發明的添頭避免演算法。添頭避免演算法施行於聚合器以避免在網路上的網路壅塞,其包括一聚合器與複數個工作站。簡而言之,行數9~16係以計算共用相同的瓶頸鏈結之TCP連接的總數(亦即工作站)。在19~21行中,每當聚合器需要傳送ACK時,其計算advertise以控制被工作站注入的封包總數。並且然後在23~28行中,ACK_delay(△)會被完成,但是對於第一個ACK進行均勻的隨機延遲。在20行中,鏈結容量的意思
是連接至ToR交換器的介面的鏈結速率,並且假定其在TCP層係可獲得的資訊。最後,在30~34行,假如ACK_delay大於零,具有advertise的ACK在延遲計時器屆期之後會被送出。此亦暗示著本發明的演算法並未使用延遲ACK,而是立即ACK。
詳細的IA-TCP演算法如下。聚合器計算介於聚合器與工作站之間的TCP連接的數量(9~16行)。一個全域變數(global variable)進行初始化如下:tcp_num←0(9~10行)。並且,每當連接建立時,全域變數則增加(12~13行)。相同的,每當連接關閉時,全域變數則會減少(15~16行)。在這情況下,詢問請求通常從聚合器送至每一個工作站。由於這個原因,本發明係施行確認(ACK)封包控制而非資料封包控制。
並且然後,每個工作站的窗格尺寸(wi)及ACK的間隔(△)係於聚合端調整以使聚合資料封包速率低於鏈結容量。
首先,每個工作站的窗格尺寸(wi)被調整(19~21行)。每當聚合器需要傳送ACK時(19行),計算窗格尺寸(wi)以控制被工作站注入之封包總數(20~21行)。在這情況下,所有連接的窗格尺寸為了簡化且為了在IA-TCP連接間的公平分配而假定相同為W。然後,得自Eq.(1)之窗格尺寸W如下:
由於運用標準TCP之工作站基本上不具有添頭避免的能力,所以本發明利用此W以控制每個使用在ACK標頭中之advertise場域的連接。例如,假如BDP係為10MSS且n為5,然後advertise窗會是2以致使每個工作站允許每RTT下傳送兩個資料封包。並且,然後對於W最大值的advertise窗可設定如下(21行)。也同樣要注意,窗格尺寸應為整數值並且其最小值為1。
第二,調整ACK_delay(△),但對於第一ACK進行均勻隨機延遲(23-28行)。於聚合器側執行將ACK_delay(△)加至ACK封包上。此延遲防止當W小於1時聚合資料封包速率超過鏈結容量,但是advertise窗藉Eq.(4)變為1。自(2),(3),及(4),得到如下:
[數學圖示5]
並且然後,假如ACK_delay大於0,具有advertise的ACK會在延遲計時器屆期之後傳送(30~34行)。假如△為負,ACK可立即傳送而沒有延遲(30、32~34行)。最後,即使未處理封包的總數被聚合器所控制,假如所有工作站的傳送次數不尋常的被同步時,還是有可能會發生溢流。為防止這類的傳輸同步,則選擇遵守第一ACK_delay為均勻分佈從0至(RTT+△)之間的隨機值,以代替△。圖3繪示於隨機延遲周期中對每個連結給予隨機延遲之範例(亦即第一ACK),以致所有未處理封包以自下個周期之平均間隔n/(RTT+△)適時的分佈在路徑上。
現在,IA-TCP演算法藉由NS-2完成。一個聚合器與多個工作站連接到相同的ToR交換器,其緩衝尺寸(每個埠)為56個封包(假定MSS的4MB共用記憶體/52埠/1.5kB)。鏈結容量設為1Gbps,並且介於工作站與聚合器之間的傳播延遲設為100us。在所有的試驗中,聚合器傳送請求詢問的10B至工作站,並且然後每一個工作站回應一特定尺寸資料至聚合器。封包尺寸固定為1500位元組以及RTOmin設為200ms。
因為存在的壅塞避免的架構編碼無用(例如:ICTCP
),IA-TCP演算法與TCP SACK(Selective Acknowledge;選擇性確認)及1-win(1最小窗格尺寸)TCP進行比較,其傳送之窗格尺寸固定為1,因此窗式壅塞控制架構之限制就可擴充性來說可被確認。
用於估計所提出架構最重要的效能計量會表示添頭壅塞被減輕了。藉由設定回應資料尺寸至64kB、128kB及256kB而測量了聚合有效傳輸量(aggregate goodput)與逾時比。聚合有效傳輸量的意思是從傳送詢問需求到接收在多個工作站之間的最後一筆封包的時間上已自工作站接收資料的總數。此結果係以100次重複做平均。逾時比的意思是在重複的總數(亦即100)中經歷了至少一次的逾時之模擬的次數。由於可有約100個同時連接至在實際資料中心的第90百分位數之聚合器,上達96的工作站的數目可被增加。此處並沒有背景流量。
圖4呈現聚合有效傳輸量之圖表,並且可觀察到即使顯示在某個範圍中的最高有效傳輸量,當工作站數目大於32時,1-win TCP仍顯示了效能之降低。此結果揭示了在資料中心網路的窗式壅塞控制的限制。亦即,當工作站數量增加時,最小窗格尺寸(1-window)可造成添頭壅塞。另一方面,IATCP的有效傳輸量達到高聚合有效傳輸量。這顯示所提出的架構良好的控制所有連接的資料封包速率以致使工作站可以高可擴充性共用小網路管線。
圖5呈現TCP逾時比的圖表。此圖表說明了當工作站數目大於8及24時,TCP SACK與1-win TCP分別經歷了100%的逾時比,但是IA-TCP在所有試驗中顯示0個逾時。進一步來說,當考量存在的窗式壅塞避免方法,亦即DCTCP與ICTCP,會造成至少一個逾時(在試驗設置時大於35個工作站之下)的同時,本發明的IA-TCP演算法在工作站數量上來說更有擴充性。
圖6繪示分割/聚合的聚合有效傳輸量的流量。可以觀察到的是,由於背景TCP流量的關係,1-win TCP與TCP SACK兩者皆極度的降低,但是當工作站數目增加時,IA-TCP的有效傳輸量則愈來愈高。在回應資料尺寸上的差別似乎幾乎不影響IA-TCP的有效傳輸量。此模擬顯示對於IA-TCP亦無逾時,但於此先跳過此說明。
由於許多分割/聚合應用具有軟實時(soft realtime)特徵,所以重要的是,測量當長與短的流量同時存在時的詢問完成時間。30個短流量與1個長流量的流動,而他們的完成時間則如圖7所示。短流量的回應資料尺寸為10kB而長流量則為10MB。在TCP SACK的例子中,可以觀察到,因為大部分短流量經歷封包丟失及逾時,所以由添頭壅塞造成的短流量的平均詢問完成時間相對的高。1-
win TCP顯示出較TCP SACK相當低的平均完成時間,但是當一些流量被具有較長完成時間的長流量影響到時,整體效能可能會降低。IA-TCP顯示藉由避免添頭壅塞而對於短流量之非常快的平均且最長的完成時間。也可以觀察到IA-TCP藉由有效的利用網路管線而傳輸長訊息較其它者快。
最後,測量了介於多個IA-TCP流量間的有效傳輸量的公平分配(其共用相同的瓶頸鏈結)。因為資料中心環境通常提供過度,像是均勻網路(homogeneous network)及單一管理控制,所以並未考量對傳統協定的公平分配。為測量公平分配,如圖8所示,5個IA-TCP流量群以3秒間隔依序開始。每群由8個IA-TCP流量所組成,並且每個流量的回應資料尺寸為100MB。由圖8可以觀察到,每群中的所有流量具有相同頻寬部分,並且當群加入/結束時,所有的群都會公平的共用頻寬。
當本發明已描述關於速率式壅塞控制演算法之添頭避免傳輸控制協定(IA-TCP)時,本發明不限於此。本領域具有通常技術者可容易的延申在此的技術至其它一節點傳送其連接至另一個節點的網路。此外,本發明較佳的用於無線(wireless)、無線電(radio)、行動(cellular)或其它不接線的應用,但本發明不限於此,而可應用於支援封包式通訊的有線或光學網路。
本發明可以方法、設備、裝置及系統形式實現,用以操作那些方法。本發明亦可以在有形媒體中的電腦程式碼的形式實現,像是CD-ROMS(Compact Disc-Read Only Memory;唯讀光碟)、硬碟或任何其它可讀機器儲存媒體,其中,當程式碼載入或執行於機器(像是電腦),此機器變為操作本發明的設備。本發明亦能以程式碼的形式實現,舉例來說,是否儲存於儲存媒體,載入及/或由機器執行,或是在傳輸媒介(transmission medium)上傳送,諸如在電性的配線或佈纜上,透過光纖,或是經由電磁發射,其中當程式碼載入或由機器(像是電腦)執行,此機器變為用於操作此發明的設備。當實施於一般用途之處理器時,程式碼區段與處理器結合以設置成一個操作上類比於特定邏輯電路的獨特裝置。
進一步了解的是,對已描述過的部分在細節上、材料上及配置上不同的改變以及為了解釋本發明的本質所做的說明,可藉由本領域具有通常技術者以不悖離本發明的原則與範圍以如下所表示的申請專利範圍來完成。
本發明可提供至線上服務(online services)並且對他們所有的資料中心進行操作以完全的避免在資料中心網路中的典型的添頭壅塞問題。本發明提供以針對資料中心應用(像是預端服務、網路搜尋等等)的好處,而將逐漸的顯示出更好的效能,亦即,服務質量(QoS)。
圖1說明用於分割/聚合應用之典型網路拓撲。
圖2說明施行在用於避免網路壅塞的聚合器之添頭避免演算法。
圖3說明用於第一ACK周期的隨機延遲之範例。
圖4說明無背景流量之聚合有效傳輸量(Mbps)。
圖5說明無背景流量之TCP逾時比(%)。
圖6說明具有長期TCP流量的聚合有效傳輸量(Mbps)。
圖7說明30短流量與1長流量之詢問完成時間(ms)。
圖8說明IA-TCP流量間的有效傳輸量的公平分配。
Claims (26)
- 一種用於避免在一網路上網路壅塞的方法,該網路包括一聚合器與複數個工作站,其中該些複數個工作站共用相同的瓶頸鏈結至該聚合器,該方法包含:計算介於該聚合器與該工作站之間的一連接數目;調整該些工作站中每一個的一窗格尺寸(W),其中該窗格尺寸(W)是基於該連接數目而定;將一確認(ACK)延遲(△)加至一確認(ACK),其中該確認(ACK)延遲(△)是基於該窗格尺寸(W)而定;以及傳送具該窗格尺寸(W)之該確認(ACK)至該工作站。
- 依據申請專利範圍第1項所述之方法,其中該計算該連接數目的步驟更包含:對該連接數目進行初始化。
- 依據申請專利範圍第1項所述之方法,其中每當該連接建立時,增加該連接數目,並且其中每當該連接關閉時,減少該連接數目。
- 依據申請專利範圍第1項所述之方法,其中該計算該連接數目的步驟更包含:傳送一詢問請求至該些工作站中的每一個。
- 依據申請專利範圍第1項所述之方法,其中所有連接的該些窗格尺寸(W)皆相同。
- 依據申請專利範圍第1項所述之方法,其中該調整該窗格尺寸(W)的步驟更包含: 設定該窗格尺寸(W)至一最大值。
- 依據申請專利範圍第6項所述之方法,其中該窗格尺寸之該最大值為
- 依據申請專利範圍第1項所述之方法,其中該確認(ACK)延遲(△)為
- 依據申請專利範圍第1項所述之方法,其中選擇從0至(RTT+△)之間遵守均勻分佈的一隨機值,以取代第一個該確認(ACK)延遲(△),其中RTT係一最小往反時間。
- 依據申請專利範圍第1項所述之方法,其中假如該確認(ACK)延遲(△)大於0時,在延遲計時器失效後,執行該傳送具有該窗格尺寸(W)之該確認(ACK)的步驟。
- 依據申請專利範圍第1項所述之方法,其中假如 該確認(ACK)延遲(△)為負,無延遲立即執行傳送具有該窗格尺寸(W)之該確認(ACK)的步驟。
- 依據申請專利範圍第1項所述之方法,其中該方法執行於一傳輸控制協定(TCP)層。
- 依據申請專利範圍第1項所述之方法,其中該方法係一速率式(rate-based)壅塞控制演算法。
- 一種用於避免在一網路上網路壅塞的聚合器,該網路包括該聚合器與複數個工作站,其中該複數個工作站共用至該聚合器相同的瓶頸鏈結,以及其中該聚合器包含一處理器與一傳送器,該處理器設定以執行:計算介於該聚合器與該工作站之間的一連接數目;調整該些工作站中每一個的一窗格尺寸(W),其中該窗格尺寸(W)係根據該連接數目而定;以及將一確認(ACK)延遲(△)加至一確認(ACK),其中該確認(ACK)延遲(△)係根據該窗格尺寸(W)而定;以及該傳送器設定以執行傳送具有該窗格尺寸(W)之該確認(ACK)至該工作站。
- 依據申請專利範圍第14項所述之聚合器,其中該計算該連接數目之執行步驟更包含將該連接數目初始化。
- 如申請專利範圍第14項所述之聚合器,其中每當該連接建立時,該連接數目增加,並且其中每當該連接關閉時,該連接數目減少。
- 依據申請專利範圍第14項所述之聚合器,其中該計算該連接數目的執行步驟更包含經由該傳送器傳送一詢問請求至該些工作站中的每一個。
- 如申請專利範圍第14項所述之聚合器,其中所有連接的該些窗格尺寸(W)皆為相同。
- 依據申請專利範圍第14項所述之聚合器,其中該調整該窗格尺寸(W)的執行步驟更包含設定該窗格尺寸(W)至一最大值。
- 依據申請專利範圍第19項所述之聚合器,其中該窗格尺寸之該最大值係為:
- 如申請專利範圍第14項所述之聚合器,其中該確認(ACK)延遲(△)係為:
- 如申請專利範圍第14項所述之聚合器,其中選擇從0至(RTT+△)遵守均勻分布的一隨機值,以取代第一 個該確認(ACK)延遲(△)其中RTT為一最小往返時間。
- 如申請專利範圍第14項所述之聚合器,其中假如該確認(ACK)延遲(△)大於0時,該傳送具有該窗格尺寸(W)之該確認(ACK)之執行步驟執行於一延遲計時器失效之後。
- 如申請專利範圍第14項所述之聚合器,其中假如該確認(ACK)延遲(△)為負時,該傳送具有該窗格尺寸(W)之該確認(ACK)立即執行且無延遲。
- 一種用於避免網路壅塞的網路系統,該網路系統包含依據申請專利範圍第14項所述之聚合器以及複數個工作站,其中該些工作站共用至該聚合器相同的瓶頸鏈結。
- 一種用於避免在一網路上網路壅塞之電腦程式,該網路包括一聚合器以及複數個工作站,其中該些複數個工作站共用至該聚合器相同的瓶頸鏈結,該電腦程式執行依據申請專利範圍第1項所述之方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/KR2011/006566 WO2013035897A1 (en) | 2011-09-06 | 2011-09-06 | A method for avoiding network congestion and an apparatus thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201318446A true TW201318446A (zh) | 2013-05-01 |
TWI487389B TWI487389B (zh) | 2015-06-01 |
Family
ID=47832324
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW101128255A TWI487389B (zh) | 2011-09-06 | 2012-08-06 | 避免網路壅塞的方法及其裝置 |
Country Status (8)
Country | Link |
---|---|
US (1) | US9356878B2 (zh) |
EP (1) | EP2754274B1 (zh) |
JP (1) | JP5819530B2 (zh) |
KR (1) | KR101709932B1 (zh) |
CN (1) | CN103782534B (zh) |
BR (1) | BR112014005189A2 (zh) |
TW (1) | TWI487389B (zh) |
WO (1) | WO2013035897A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI580226B (zh) * | 2014-06-12 | 2017-04-21 | 智邦科技股份有限公司 | 決定最大分段大小値之方法 |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015016919A1 (en) * | 2013-07-31 | 2015-02-05 | Adaptive Spectrum And Signal Alignment, Inc. | Method and apparatus for continuous access network monitoring and packet loss estimation |
US9219671B2 (en) * | 2013-12-06 | 2015-12-22 | Dell Products L.P. | Pro-active MPIO based rate limiting to avoid iSCSI network congestion/incast for clustered storage systems |
CN104092625B (zh) * | 2014-05-28 | 2017-07-18 | 中南大学 | 一种用于dcn中的自适应请求分批调度方法 |
CN105530110B (zh) * | 2014-09-30 | 2019-07-23 | 华为技术有限公司 | 一种网络故障检测方法以及相关网元 |
US9893944B2 (en) * | 2014-10-01 | 2018-02-13 | International Business Machines Corporation | Managing network bandwidth based on cognitive analysis of site content against organizational needs |
JP6409558B2 (ja) * | 2014-12-19 | 2018-10-24 | 富士通株式会社 | 通信装置、中継装置、および、通信制御方法 |
CN106576100B (zh) * | 2015-03-26 | 2019-08-16 | 华为技术有限公司 | Tcp网络代理配置方法和装置 |
CN105207944B (zh) * | 2015-08-13 | 2019-01-15 | 清华大学 | 基于fast tcp的传输控制方法 |
CN105847175A (zh) * | 2016-04-21 | 2016-08-10 | 中国科学院信息工程研究所 | 数据中心网络中的应用层调度方法 |
EP3442180B1 (en) * | 2016-04-28 | 2020-11-11 | Huawei Technologies Co., Ltd. | Congestion processing method, host, and system |
CN108713311A (zh) * | 2016-04-29 | 2018-10-26 | 华为技术有限公司 | 一种传输控制协议tcp报文的传输方法、设备及系统 |
CN106059914B (zh) * | 2016-05-09 | 2019-05-03 | 中国人民解放军国防科学技术大学 | 一种基于单维最小化分组的不确定incast流量聚合方法 |
CN105827537B (zh) * | 2016-06-01 | 2018-12-07 | 四川大学 | 一种基于quic协议的拥塞改进方法 |
US10091118B2 (en) * | 2017-01-27 | 2018-10-02 | Verizon Patent And Licensing Inc. | Maximizing throughput over a TCP link by boosting packet transmission |
JP6859776B2 (ja) * | 2017-03-16 | 2021-04-14 | 日本電気株式会社 | 無線アクセスネットワーク装置 |
CN108833293B (zh) * | 2018-06-20 | 2021-01-26 | 北京邮电大学 | 一种基于软件定义网络sdn的数据中心拥塞控制方法及装置 |
US11102129B2 (en) * | 2018-09-09 | 2021-08-24 | Mellanox Technologies, Ltd. | Adjusting rate of outgoing data requests for avoiding incast congestion |
KR102139378B1 (ko) * | 2018-11-20 | 2020-07-29 | 울산과학기술원 | 혼잡 제어 방법 및 장치 |
CN111079948B (zh) * | 2019-12-27 | 2023-02-24 | 电子科技大学 | 一种基于sdn的分布式机器学习训练加速方法 |
CN114629847B (zh) * | 2022-03-08 | 2023-09-08 | 西安电子科技大学 | 基于可用带宽分配的耦合多流tcp拥塞控制方法 |
CN115174500B (zh) * | 2022-05-23 | 2023-09-12 | 北京大学 | 一种基于pisa的用于网内聚合传输的发送节点和交换机 |
CN116527585B (zh) * | 2023-07-05 | 2023-08-29 | 天地信息网络研究院(安徽)有限公司 | 一种流长度感知的拥塞控制方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5193151A (en) | 1989-08-30 | 1993-03-09 | Digital Equipment Corporation | Delay-based congestion avoidance in computer networks |
SG87029A1 (en) * | 1999-05-08 | 2002-03-19 | Kent Ridge Digital Labs | Dynamically delayed acknowledgement transmission system |
US7013346B1 (en) | 2000-10-06 | 2006-03-14 | Apple Computer, Inc. | Connectionless protocol |
JP2009284529A (ja) * | 2003-11-27 | 2009-12-03 | Nec Corp | 帯域制御装置、帯域制御方法及び帯域制御プログラム |
JP2005286530A (ja) * | 2004-03-29 | 2005-10-13 | Matsushita Electric Ind Co Ltd | ルーター |
CN101278529B (zh) * | 2005-10-03 | 2011-10-19 | 松下电器产业株式会社 | 通信装置 |
JP5146725B2 (ja) * | 2007-09-19 | 2013-02-20 | 日本電気株式会社 | 通信装置および通信方法 |
US20100054123A1 (en) * | 2008-08-30 | 2010-03-04 | Liu Yong | Method and device for hign utilization and efficient flow control over networks with long transmission latency |
US9001663B2 (en) * | 2010-02-26 | 2015-04-07 | Microsoft Corporation | Communication transport optimized for data center environment |
-
2011
- 2011-09-06 US US14/237,935 patent/US9356878B2/en active Active
- 2011-09-06 JP JP2014529595A patent/JP5819530B2/ja not_active Expired - Fee Related
- 2011-09-06 CN CN201180073213.1A patent/CN103782534B/zh not_active Expired - Fee Related
- 2011-09-06 KR KR1020147005423A patent/KR101709932B1/ko active IP Right Grant
- 2011-09-06 WO PCT/KR2011/006566 patent/WO2013035897A1/en active Application Filing
- 2011-09-06 BR BR112014005189A patent/BR112014005189A2/pt not_active IP Right Cessation
- 2011-09-06 EP EP11872079.6A patent/EP2754274B1/en not_active Not-in-force
-
2012
- 2012-08-06 TW TW101128255A patent/TWI487389B/zh not_active IP Right Cessation
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI580226B (zh) * | 2014-06-12 | 2017-04-21 | 智邦科技股份有限公司 | 決定最大分段大小値之方法 |
US9917925B2 (en) | 2014-06-12 | 2018-03-13 | Accton Technology Corporation | Method for determining maximum segment size |
Also Published As
Publication number | Publication date |
---|---|
JP2014529974A (ja) | 2014-11-13 |
US20140185453A1 (en) | 2014-07-03 |
JP5819530B2 (ja) | 2015-11-24 |
CN103782534A (zh) | 2014-05-07 |
CN103782534B (zh) | 2018-01-23 |
EP2754274A1 (en) | 2014-07-16 |
US9356878B2 (en) | 2016-05-31 |
WO2013035897A1 (en) | 2013-03-14 |
EP2754274B1 (en) | 2017-06-14 |
EP2754274A4 (en) | 2015-04-29 |
TWI487389B (zh) | 2015-06-01 |
KR20140049581A (ko) | 2014-04-25 |
KR101709932B1 (ko) | 2017-02-24 |
BR112014005189A2 (pt) | 2017-03-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI487389B (zh) | 避免網路壅塞的方法及其裝置 | |
KR102187810B1 (ko) | 통신 시스템에서 데이터 흐름 제어 장치 및 방법 | |
Hwang et al. | IA-TCP: a rate based incast-avoidance algorithm for TCP in data center networks | |
Ancillotti et al. | Comparison of CoAP and CoCoA+ congestion control mechanisms for different IoT application scenarios | |
Wang et al. | TCP congestion control algorithm for heterogeneous Internet | |
Lu et al. | Dynamic ECN marking threshold algorithm for TCP congestion control in data center networks | |
JP2008205932A (ja) | ノード装置および帯域制御方法 | |
Zheng et al. | An effective approach to preventing TCP incast throughput collapse for data center networks | |
Oo et al. | A proxy acknowledgement mechanism for TCP variants in mobile ad hoc networks | |
Sreekumari et al. | A simple and efficient approach for reducing TCP timeouts due to lack of duplicate acknowledgments in data center networks | |
Patel et al. | Comparative performance analysis of TCP-based congestion control algorithms | |
Pradeep et al. | Comparison of drop rates in different TCP variants against various routing protocols | |
CN110650491B (zh) | 一种用于车载自组网通信的前向纠错fec参数分析方法 | |
Meng et al. | Research on TCPW improvement in hybrid network | |
Deng et al. | Finishing the tiny flows quickly for common data centre services | |
Prakash | Linkdb-TCP: A Congestion Control Technique For MANET Based On Link Layer Measurements | |
Qin et al. | Failure-Aware and Delay-Predicted Multipath Virtual Queue Scheduling for Multimedia Transmission in Edge IoT | |
CN102123094B (zh) | 两次随机丢包的被动队列管理的方法 | |
Abdullah et al. | Improving the TCP Newreno Congestion Avoidance Algorithm on 5G Networks. | |
JP4766703B2 (ja) | エッジノードおよび帯域制御方法 | |
Ahmad et al. | Packet loss estimation using Poisson random process for improving multimedia transmission in MANETs | |
Jaiswal et al. | A comparative performance analysis of TCP congestion control algorithm: elastic TCP vs. e-Elastic TCP | |
Alipio et al. | Congestion Control for Caching-Aware Transport Protocol in Wireless Sensor Networks | |
Chang et al. | Cross-layer-based adaptive TCP algorithm in 4G packet service LTE-advanced relaying communications | |
Kadhum et al. | The effect of ECN on short TCP sessions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | Annulment or lapse of patent due to non-payment of fees |