WO2022259452A1 - 中間装置、通信方法、およびプログラム - Google Patents

中間装置、通信方法、およびプログラム Download PDF

Info

Publication number
WO2022259452A1
WO2022259452A1 PCT/JP2021/022074 JP2021022074W WO2022259452A1 WO 2022259452 A1 WO2022259452 A1 WO 2022259452A1 JP 2021022074 W JP2021022074 W JP 2021022074W WO 2022259452 A1 WO2022259452 A1 WO 2022259452A1
Authority
WO
WIPO (PCT)
Prior art keywords
request
remote
local
data
response
Prior art date
Application number
PCT/JP2021/022074
Other languages
English (en)
French (fr)
Inventor
潤紀 市川
秀樹 西沢
健司 清水
幸男 築島
暢 間野
智也 日比
綺泉 井上
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to JP2023526747A priority Critical patent/JPWO2022259452A1/ja
Priority to US18/568,618 priority patent/US20240146806A1/en
Priority to PCT/JP2021/022074 priority patent/WO2022259452A1/ja
Publication of WO2022259452A1 publication Critical patent/WO2022259452A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • G06F15/163Interprocessor communication
    • G06F15/173Interprocessor communication using an interconnection network, e.g. matrix, shuffle, pyramid, star, snowflake

Definitions

  • the present invention relates to an intermediate device, a communication method, and a program.
  • RDMA Remote Direct Memory Access
  • Non-Patent Document 1 is a communication protocol that performs high-speed and highly reliable data transfer between communication terminals at a distance. Since RDMA directly accesses the memory area of the receiving terminal from the memory area of the transmitting terminal, high-speed communication is possible. In addition to having a credit-based flow control function, RDMA performs Completion control to confirm the completion of data transfer and proceed with processing, so highly reliable communication is possible. RDMA is also used as a transport method for Host-to-Device and Device-to-Device data communication between SSD (Solid State Drive) and GPU (Graphics Processing Unit).
  • SSD Solid State Drive
  • GPU Graphics Processing Unit
  • RDMA is a communication model that configures a QP (Queue Pair) between a local server and a remote server and transfers data using the QP.
  • QP is a set of SQ (Send Queue) and RQ (Receive Queue).
  • the communication unit of RDMA is a communication request called WR (Work Request), which is loaded on SQ/RQ in units of WQE (Work Queue Element).
  • WR includes Send WR, which is a request to send, and Receive WR, which is a request to receive.
  • Send WR the memory area of the data to be sent is specified in WQE and loaded in SQ.
  • Receive WR specify the memory area where you want to receive data in WQE and load it in RQ.
  • WQEs corresponding to the queue size of the SQ/RQ can be stacked in the SQ/RQ by FIFO (First-In-First-Out).
  • FIFO First-In-First-Out
  • CQE Completion Queue Entry
  • CQ Completion Queue
  • WR processing ends with an error during QP CQ is loaded with CQE indicating the error.
  • the SQ/RQ WQE is deleted and the next WR can be accepted.
  • Advances in communication technology may provide networks that connect high bandwidth and long distances.
  • a transponder installed in a current optical transmission system is installed in a client-server system, and the signal reaches the server of the communication partner without undergoing electrical/optical conversion during transmission.
  • high-speed transmission lines can be established with few network resources (frequency, etc.) by selecting the optimum transmission mode (modulation method, baud rate, number of carriers, etc.) based on network conditions (distance, signal quality, etc.).
  • a technique to do so has been proposed. With such technology, long-distance, high-speed communication between communication terminals may be realized using fewer network resources and terminal resources.
  • the present invention has been made in view of the above, and aims to realize high-bandwidth data transfer even on network services with a large RTT (Round Trip Time).
  • An intermediate device of one aspect of the present invention is an intermediate device disposed between a first device and a second device that transfer data using remote direct memory access, wherein a transfer unit that transfers a request including data to be transmitted to a second device; a generation unit that generates a pseudo-response to the request and returns it to the first device; and a response to the request from the second device. and a discarding unit that discards the
  • An intermediate device of one aspect of the present invention is an intermediate device disposed between a first device and a second device that transfer data using remote direct memory access, wherein a generator for generating a pseudo request for requesting data transmission from the first device to the second device based on the first request for requesting data transmission to the second device and transmitting the pseudo request to the second device; , a transfer unit that transfers a response including data to be transmitted from the second device to the first device, and a discarding unit that discards subsequent requests from the first device.
  • a communication method is a communication method by an intermediate device disposed between a first device and a second device that transfer data using remote direct memory access, wherein the first device to the second device, generates a pseudo-response to the request and returns it to the first device, and discards the response to the request from the second device .
  • a communication method is a communication method by an intermediate device disposed between a first device and a second device that transfer data using remote direct memory access, wherein the first device generating a pseudo request requesting transmission of data from said first device to said second device based on the first request requesting transmission of data from said second device, and transmitting said request to said second device forward a response containing the data to be sent from the second device to the first device, and discard subsequent requests from the first device.
  • high-bandwidth data transfer can be realized even on network services with a large RTT.
  • FIG. 1 is a diagram for explaining an RDMA communication model.
  • FIG. 2 is a diagram for explaining RDMA SEND.
  • FIG. 3 is a diagram for explaining RDMA WRITE of RDMA.
  • FIG. 4 is a diagram for explaining RDMA WRITE with Immediate of RDMA.
  • FIG. 5 is a diagram for explaining RDMA READ of RDMA.
  • FIG. 6 is a diagram for explaining the ATOMIC Operations of RDMA.
  • FIG. 7 is a diagram showing an example of the configuration of a communication system including the intermediate device of this embodiment. 8 is a sequence diagram showing an example of the flow of processing in the communication system of FIG. 7.
  • FIG. 9 is a diagram showing an example of the configuration of a communication system having another intermediate device according to this embodiment.
  • FIG. 10 is a sequence diagram showing an example of the flow of processing in the communication system of FIG. 9.
  • FIG. 11 is a diagram for explaining an example of a method of creating a table and resolving the destination QPN of the response.
  • FIG. 12 is a diagram for explaining an example of a method of notifying the source QPN and resolving the destination QPN of the response.
  • FIG. 13 is a diagram showing an example in which the intermediate device is configured on the NIC.
  • FIG. 14 is a diagram illustrating an example of a hardware configuration of an intermediate device;
  • RDMA service types are roughly divided into four types: RC (Reliable Connection), RD (Reliable Datagram), UC (Unreliable Connection), and UD (Unreliable Datagram), according to Reliable/Unreliable and Connection/Datagram.
  • RC and UD are commonly used.
  • RC guarantees the order and reachability of messages by means of acknowledgment of communication success/abnormality and retransmission by ACK/NAK.
  • RC is also connection-oriented, providing one-to-one communication between local-remote QPs.
  • UD does not have a mechanism for acknowledgment and retransmission
  • many-to-many communication such as transmission to multiple QPs and reception from multiple QPs is possible by specifying a destination for each communication.
  • RDMA WRITE with Immediate
  • RDMA READ with Immediate
  • ATOMIC Operations All of these are available in RC. Only SEND can be used in UD.
  • Retransmission control in RDMA is classified into three patterns: when ACK/NAK is not returned, when RNR (Receiver-Not-Ready) NAK is returned, and when Out-Of-sequence NAK is returned .
  • ACK or NAK is not returned from the remote side within a certain period of time, the local side will time out and retransmit.
  • the remote side returns RNR NAK when WQE cannot be prepared by RQ. If RNR NAK is returned from the remote side, the local side will resend after a certain period of time.
  • the remote side returns Out-of-sequence NAK when the PSN (Packet Sequence Number) of the received packet is out of order. If an Out-Of-sequence NAK is returned from the remote side, the local side will resend without waiting.
  • PSN Packet Sequence Number
  • SEND is the basic send/receive model of RDMA, sending data from local to remote.
  • the local When communication is ready, the local sends data with SEND. When the remote successfully receives the data, it loads CQE in CQ, releases WQE in RQ, and returns ACK to the local. When the local receives the ACK, it loads the CQ with the CQE and releases the WQE in the SQ.
  • SEND has a special operation, SEND w/Imm (SEND with Immediate).
  • SEND w/Imm a special field (imm_data) can be set in the WQE of the local SQ, and imm_data can be sent simultaneously when data is sent from the local to the remote.
  • imm_data can be sent simultaneously when data is sent from the local to the remote.
  • the remote When the remote successfully receives the data, it loads the CQ with a CQE containing imm_data.
  • the contents of imm_data can be known remotely by referring to the CQE.
  • RDMA WRITE is a method of transmitting data from local to remote, but differs in that data is directly transferred to a remote memory area.
  • WQE Local prepares SQ and loads WQE.
  • WQE a memory area for data to be transmitted and a remote memory area to be written are set.
  • the remote reserves a memory area for RDMA, there is no need to stack WQE in RQ.
  • the local When communication is ready, the local transmits data with RDMA WRITE. Data is written directly to the remote memory area. The remote returns an ACK to the local upon successfully receiving the data. When the local receives the ACK, it loads the CQ with the CQE and releases the WQE in the SQ.
  • RDMA WRITE has the disadvantage that the remote cannot detect changes in the memory area when receiving data.
  • the remote prepares RQ, stores WQE in RQ, and loads CQE in CQ when data reception is successful, thereby detecting a change in the memory area.
  • the WQE of the local SQ is set with the memory area of the data to be sent, the remote memory area to be written, and a special field (imm_data).
  • the remote fills the CQ with a CQE including imm_data, releases the WQE of the RQ, and returns ACK to the local.
  • the remote can use this CQE to detect changes in any memory area.
  • RDMA READ is a method of pulling data from remote to local.
  • Local prepares SQ and loads WQE.
  • a local memory area from which data is to be received and a remote memory area from which data is to be read are set in WQE.
  • the remote reserves a memory area for RDMA, there is no need to stack WQE in RQ.
  • the local When communication is ready, the local requests data reading with RDMA Read Request.
  • the remote When the remote receives the request, it directly sends the data in the remote memory area to the set local memory area as an RDMA Read Response.
  • the RDMA Read Response contains an ACK extension header.
  • the local When the local receives this ACK, it loads the CQ with the CQE and releases the WQE of the SQ.
  • ATOMIC Operations is a method of performing memory operations such as FetchAdd (Fetch and Add) or CmpSwap (Compare and Swap) on a remote memory area and reading the memory contents before the operation locally.
  • FetchAdd is an operation that adds the value of an arbitrary 64-bit field to the contents of an arbitrary remote memory address.
  • CmpSwap is an operation to change to a new 64-bit field value when the content of any remote memory address is the same as the specified 64-bit field value.
  • the WQE is set with a local memory area to receive data, a remote memory area to be manipulated, and operation details (FetchAdd or CmpSwap and their arguments). Although the remote reserves a memory area for RDMA, there is no need to stack WQE in RQ.
  • the local When communication is ready, the local sends an ATOMIC Command (FetchAdd or CmpSwap).
  • ATOMIC Command FetchAdd or CmpSwap
  • the remote When the remote receives the command, it performs an ATOMIC operation on the set local memory area and returns the pre-operation data with an ATOMIC ACK.
  • the local When the local receives this ACK, it loads the CQ with the CQE and releases the WQE of the SQ.
  • Intermediate devices 10A, 10B are placed between local 30 and remote 50 that transfer data using RDMA. More specifically, the intermediate device 10A is placed in front of the long distance network on the local 30 side, and the intermediate device 10B is placed in front of the long distance network on the remote 50 side. The intermediate device 10A returns the pseudo-response to the local 30, and the intermediate device 10B discards the response from the remote 50.
  • FIG. 7 An example of the configuration of a communication system including intermediate devices 10A and 10B of this embodiment will be described.
  • Intermediate devices 10A, 10B are placed between local 30 and remote 50 that transfer data using RDMA. More specifically, the intermediate device 10A is placed in front of the long distance network on the local 30 side, and the intermediate device 10B is placed in front of the long distance network on the remote 50 side.
  • the intermediate device 10A returns the pseudo-response to the local 30, and the intermediate device 10B discards the response from the remote 50.
  • the intermediate device 10A includes a transfer unit 11 and a generation unit 12.
  • the transfer unit 11 receives requests from the local 30 and transfers them to the remote 50 .
  • This request is, for example, the aforementioned SEND, SEND w/Imm, RDMA WRITE, RDMA WRITE w/Imm, or ATOMIC Command.
  • a request includes data or an operation on data to be sent from the local 30 to the remote 50 .
  • the generation unit 12 picks up a request sent from the local 30 and flagged as Only or Last, and generates a pseudo-response using the PSN included in the request.
  • the generator 12 returns the generated pseudo-response to the local 30 . Note that the same PSN value as the Only or Last request is used for the ACK for the request.
  • the local 30 When the local 30 receives the pseudo-response, it recognizes it as a response from the remote 50, adds CQE to the CQ, and completes normally. This allows the WQE of the local 30 SQ to be forcibly released.
  • the intermediate device 10B includes a transfer unit 11 and a discarding unit 13.
  • the transfer unit 11 transfers the request sent by the local 30 to the remote 50 in the same way as the transfer unit 11 of the intermediate device 10A.
  • the discarding unit 13 discards the true response from the remote 50 to the request. This prevents duplicate reception of responses at the local 30 . Furthermore, if an RNR or an out-of-sequence NAK transmitted from the remote 50 arrives at the local 30, it may cause a malfunction, so the discarding unit 13 also discards these NAKs.
  • the intermediate device 10A may be provided with the discarding unit 13 and the intermediate device 10B may not be arranged.
  • the local 30 stores WQE in the SQ and transmits a request to the remote 50.
  • the request is forwarded to the remote 50 via the intermediate devices 10A, 10B.
  • the intermediate device 10A generates a pseudo-response using the PSN included in the request.
  • the intermediate device 10A returns the pseudo-response to the local 30.
  • the local 30 receives the pseudo-response, it loads the CQE with the CQE and releases the WQE of the SQ.
  • the intermediate device 10A forwards the request, generates a pseudo-response, and returns it to the local device 30 (step S17).
  • the local 30 receives the pseudo-response, it loads the CQE into the CQ, releases the WQE of the SQ, loads the WQE into the SQ, and transmits the request to the remote 50 (step S18).
  • the remote 50 when it successfully receives the request (data), it transmits a response to the local 30 in step S14.
  • the intermediate device 10B discards the received response.
  • the remote 50 when it receives a request, it returns a response, and the intermediate device 10B discards the response.
  • Intermediate devices 20A, 20B are placed between local 30 and remote 50 that transfer data using RDMA. More specifically, the intermediate device 20A is placed in front of the long distance network on the local 30 side, and the intermediate device 20B is placed in front of the long distance network on the remote 50 side. The intermediate device 20A discards the request from the local 30 and the intermediate device 20B sends a pseudo request to the remote 50.
  • FIG. 9 An example of the configuration of a communication system including other intermediate devices 20A and 20B of this embodiment will be described.
  • Intermediate devices 20A, 20B are placed between local 30 and remote 50 that transfer data using RDMA. More specifically, the intermediate device 20A is placed in front of the long distance network on the local 30 side, and the intermediate device 20B is placed in front of the long distance network on the remote 50 side. The intermediate device 20A discards the request from the local 30 and the intermediate device 20B sends a pseudo request to the remote 50.
  • FIG. 9 An example of the configuration of a communication system including other intermediate devices 20A and 20B of this embodiment
  • the intermediate device 20A includes a discarding unit 21 and a transfer unit 24.
  • the discarding unit 21 transfers the first request (Only or First request) from the local 30 to the remote 50 and discards subsequent requests from the local 30 . This prevents duplicate reception of requests at the remote 50 .
  • the transfer unit 24 transfers the response returned from the remote 50 to the local 30.
  • the response contains data to be sent from the remote 50 to the local 30 .
  • the intermediate device 20B includes a generation unit 22, a control unit 23, and a transfer unit 24.
  • the generation unit 22 picks up the first request from the local 30 and generates a pseudo-request using the destination QPN (QPNumber) included in RETH (RDMA Extended Transport Header) and BTH (Base Transport Header). Generate.
  • QPNumber the destination QPN included in RETH (RDMA Extended Transport Header) and BTH (Base Transport Header).
  • the generation unit 22 generates pseudo requests so that the number obtained by subtracting the number of responses returned from the remote 50 from the number of requests sent to the remote 50 does not exceed the SQ queue size of the local 30 .
  • the PSN of a pseudo request is obtained by calculating the number of requests for 1 WQE from the DMA length of RETH and PSH of BTH of the request, and incrementing the PSN by that number.
  • the remote 50 Upon receiving the pseudo request, the remote 50 recognizes it as a request from the local 30, extracts data from the memory area, and transmits the response to the local 30. This allows data to be sent from the remote 50 without waiting for a request from the local 30 .
  • the control unit 23 checks the pseudo-request sent to the remote 50 and the response returned from the remote 50, and checks whether or not the expected length and number of responses are returned. Controls when pseudo requests are generated.
  • the transfer unit 24 transfers the response returned from the remote 50 to the local 30 in the same manner as the transfer unit 24 of the intermediate device 20A.
  • the intermediate device 20B may include the discarding unit 21 and the intermediate device 20A may not be arranged.
  • the local 30 loads the SQ with WQE and transmits the first request to the remote 50.
  • the intermediate device 20A transfers the first request to the remote 50 side without discarding it.
  • Intermediate device 20B acquires the QPN included in the first request.
  • the remote 50 Upon receiving the request, the remote 50 returns a response to the local 30 in step S22.
  • the local 30 receives the response, it loads the CQ with the CQE and releases the WQE of the SQ.
  • the local 30 loads the SQ with WQE and transmits the subsequent request to the remote 50.
  • the intermediate device 20A discards subsequent requests from the local 30.
  • the intermediate device 20B generates a pseudo request in step S25 and transmits the pseudo request to the remote 50 in step S26.
  • the intermediate device 20B controls the generation timing of the pseudo-request so that the local 30 can correctly receive the response returned from the remote 50.
  • the remote 50 Upon receiving the pseudo request, the remote 50 returns a response including data to the local 30 in step S27.
  • the local 30 loads the CQE into the CQ, releases the WQE of the SQ, loads the WQE into the SQ, and transmits the subsequent request to the remote 50 (step S28). .
  • the intermediate device 20A discards subsequent requests from the local 30 (step S29).
  • the intermediate device 20B generates a pseudo request at a predetermined timing (step S30) and transmits the pseudo request to the remote 50 (step S31).
  • QP has different QPN for each endpoint.
  • the SQ/RQ recognizes the QPN of the opposite side, and includes the destination QPN in the header when generating the RDMA packet.
  • the QPN of the source is not included in the header.
  • the intermediate device 10A generates a pseudo-response
  • the destination of the pseudo-response is unknown because the received request does not contain information indicating the QPN of the transmission source. Therefore, in this embodiment, the destination of the pseudo-response is specified by the following two methods.
  • the first method is to inspect the exchange of the original RDMA request and response and store the QPN combination in a table.
  • the same PSN is used for RDMA packet Only or Last requests and ACKs. Therefore, the intermediate device 10A inspects the passing requests and responses, and adds the destination QPN of each header of the Only or Last request and ACK having the same PSN to the table as a combination.
  • the destination QPNs of the request and response headers with the same PSN are 0x000020 and 0x000010, respectively, so add the combination of 0x000010 and 0x000020 to the table.
  • the local 30 constitutes a QP between each of the remote 50A and the remote 50B.
  • the intermediate device 10A When the intermediate device 10A generates a pseudo-response, it acquires a combination of QPNs including the destination QPN of the request from the table, and sets the other QPN of the combination as the destination QPN of the pseudo-response. For example, when receiving a request with a destination QPN of 0x000020, the intermediate device 10A acquires a combination of 0x000010 and 0x000020 including 0x000020 from the table, and sets the destination QPN of the pseudo-response to 0x000010.
  • the second method is to put the Source QPN on the RDMA packet.
  • WQE has a 32-bit immDt (immediate Date) field, and any 32-bit information can be written in the immDt field only for SEND with immediate or RDMA WRITE with immediate.
  • the local 30 has an insertion unit 31, and the insertion unit 31 writes the QPN of the local 30 side SQ into the immDt field of the WQE of the local 30 side SQ.
  • the intermediate device 10A When the intermediate device 10A generates a pseudo-response, it sets the QPN written in the immDt field of the received request as the destination QPN of the pseudo-response.
  • the intermediate devices 10A and 10B of FIG. 7 can be used for SEND.
  • the intermediate device 10A transfers SEND Only to the remote 50 side, creates a pseudo-response (ACK) from the SEND Only header, and returns it to the local 30.
  • ACK pseudo-response
  • the local 30 receives the pseudo-response, it loads the CQE with the CQE and releases the WQE of the SQ.
  • the remote 50 When the remote 50 successfully receives the data, it returns an ACK to the local 30 side. Intermediate device 20B discards the ACK from remote 50 .
  • the intermediate devices 10A and 10B in FIG. 7 can be used for RDMA WRITE.
  • the intermediate device 10A transfers the data to the remote 50 side, creates a pseudo-response (ACK) from the RDMA WRITE header, and returns it to the local 30.
  • ACK pseudo-response
  • the local 30 receives the pseudo-response, it loads the CQE with the CQE and releases the WQE of the SQ.
  • the remote 50 When the remote 50 successfully receives the data, it returns an ACK to the local 30. Intermediate device 10B discards the ACK from remote 50 .
  • the RDMA WRITE w/Imm shown in FIG. 4 can also be applied in the same manner as the RDMA WRITE.
  • the intermediate device 20A transfers the first request to the remote 50 without abandoning it.
  • the remote 50 Upon receiving the request, the remote 50 returns a response to the local 30.
  • the intermediate devices 20A, 20B forward the responses to the local 30. FIG.
  • the intermediate device 20B classifies the request as completed or incomplete based on the status of the response, and estimates the free SQ of the local 30.
  • the intermediate device 20B creates new pseudo requests (pseudo RDMA Read Requests) for the amount of free SQ and transmits them to the remote 50 .
  • Intermediate device 20B repeats creation and transmission of the pseudo request until the request is classified as completed based on the status of the response.
  • the local 30 When the local 30 successfully receives the data, it loads the CQE into the CQ, releases the WQE of the SQ, loads a new WQE into the SQ, and transmits a new request to the remote 50 .
  • the intermediate device 20A discards the request from the local 30.
  • the operation differs depending on whether the remote 50 pre-operation data may be discarded or the local 30 receives the pre-operation data.
  • pre-operation data can be discarded. If pre-operation data can be discarded in ATOMIC Operations, intermediate devices 10A and 10B in FIG. 7 can be used.
  • the intermediate device 10A transfers the ATOMIC Command to the remote 50 side, creates a pseudo-response (ATOMIC ACK) from the header of the ATOMIC Command, and returns it to the local 30.
  • ATOMIC ACK pseudo-response
  • the local 30 receives the pseudo-response, it loads the CQE with the CQE and releases the WQE of the SQ.
  • the remote 50 Upon receiving the ATOMIC Command, the remote 50 performs the ATOMIC operation and returns the pre-operation data with ATOMIC ACK.
  • the intermediate device 10B discards the ATOMIC ACK from the remote 50.
  • the intermediate devices 20A and 20B transfer the ATOMIC Command to the remote 50.
  • the remote 50 Upon receiving the ATOMIC Command, the remote 50 performs the ATOMIC operation and returns the pre-operation data with ATOMIC ACK. Intermediate devices 20A and 20B transfer ATOMIC ACK to local 30.
  • the intermediate device 20B classifies the request as completed or incomplete based on the status of the response, and estimates the free SQ of the local 30.
  • the intermediate device 20B creates a new pseudo request (pseudo ATOMIC Command) for the amount of space in the SQ and transmits it to the remote 50 .
  • Intermediate device 20B repeats creation and transmission of the pseudo request until the request is classified as completed based on the status of the response.
  • the intermediate device 10A of this embodiment includes the transfer unit 11 that transfers a request including data to be transmitted from the local device 30 to the remote device 50, and a pseudo-response to the request that is generated and returned to the local device 30.
  • a part 12 is provided.
  • the intermediate device 10B has a discarding unit 13 that discards the response to the request from the remote 50.
  • the intermediate device 20B of this embodiment includes a generator 22 that generates a pseudo request based on a first request requesting transmission of data from the local 30 to the remote 50 and transmits it to the remote 50, and a generator 22 that transmits the pseudo request from the remote 50 to the local 30.
  • a transfer unit 24 is provided for transferring a response including data to be processed.
  • the intermediate device 20A includes a discarding unit 21 that discards subsequent requests from the local 30. FIG. Since the remote 50 transmits data in response to a pseudo request from the intermediate device 20B, even if the RTT between the local 30 and the remote 50 is large, high-bandwidth data transfer is realized without waiting for a request from the local 30. can.
  • the intermediate devices 10A, 10B, 20A, and 20B are installed between the local 30 and the remote 50.
  • Devices 10A, 20A may be configured and intermediate devices 10B, 20B may be configured on the NIC of the remote 50 device.
  • intermediate devices 10A, 10B, 20A, and 20B may be composed of physical servers or may be composed of virtual servers.
  • Network devices such as switches or routers may provide the functionality of intermediate devices 10A, 10B, 20A, 20B.
  • An intermediate device having the functions of the intermediate device 10A and the intermediate device 10B may be arranged on the local 30 side, and an intermediate device having the functions of the intermediate device 20A and the intermediate device 20B may be arranged on the remote 50 side. may be placed.
  • the intermediate device 10A having the discarding unit 13 may be arranged on the local 30 side, and the intermediate device 20B having the discarding unit 21 may be arranged on the remote 50 side.
  • the intermediate devices 10A, 10B, 20A, and 20B described above include, for example, a central processing unit (CPU) 901, a memory 902, a storage 903, a communication device 904, and an input device 905 as shown in FIG. , and an output device 906 can be used.
  • CPU central processing unit
  • memory 902 a storage 903, a communication device 904, and an input device 905 as shown in FIG.
  • an output device 906 can be used.
  • intermediate apparatuses 10A, 10B, 20A, and 20B are realized by CPU 901 executing a predetermined program loaded on memory 902.
  • FIG. This program can be recorded on a computer-readable recording medium such as a magnetic disk, optical disk, or semiconductor memory, or distributed via a network.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Communication Control (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

中間装置10Aは、ローカル30からリモート50へ送信されるデータを含むリクエストを転送する転送部11と、リクエストに対する疑似レスポンスを生成してローカル30へ返却する生成部12を備える。中間装置10Bは、リモート50からのリクエストに対するレスポンスを破棄する破棄部13を備える。中間装置20Bは、ローカル30からリモート50へデータの送信を要求する最初のリクエストに基づいて疑似リクエストを生成し、リモート50へ送信する生成部22と、リモート50からローカル30へ送信されるデータを含むレスポンスを転送する転送部24を備える。中間装置20Aは、ローカル30からの後続のリクエストを破棄する破棄部21を備える。

Description

中間装置、通信方法、およびプログラム
 本発明は、中間装置、通信方法、およびプログラムに関する。
 InfiniBand(非特許文献1)のトランスポートレイヤに使用されるRDMA(Remote Direct Memory Access)は、離れた距離にある通信端末同士で高速かつ高信頼なデータ転送を行う通信プロトコルである。RDMAは、送信端末のメモリ領域から受信端末のメモリ領域へ直接メモリアクセスするため、高速な通信が可能である。RDMAは、クレジットベースのフロー制御機能を持つほか、データ転送の完了を確認して処理を進めるCompletion制御を行うため、高信頼な通信が可能である。RDMAは、SSD(Solid State Drive)とGPU(Graphics Processing Unit)との間での、Host-to-Device,Device-to-Deviceのデータ通信のトランスポート方式としても使われる。
 図1に示すように、RDMAは、ローカルサーバとリモートサーバの間でQP(Queue Pair)を構成し、QPを用いてデータを転送する通信モデルである。QPは、SQ(Send Queue)とRQ(Receive Queue)のセットである。RDMAの通信単位はWR(Work Request)と呼ばれる通信要求であり、WQE(Work Queue Element)という単位でSQ/RQに積まれる。WRには、送信要求であるSend WRと受信要求であるReceive WRがある。Send WRでは、送信したいデータのメモリ領域をWQEに指定してSQへ積む。Receive WRでは、データを受信したいメモリ領域をWQEに指定してRQへ積む。SQ/RQのキューサイズ分、WQEをFIFO(First-In-First-Out)でSQ/RQに積むことができる。QPの間でWRの処理が正常に完了すると、SQ/RQのそれぞれに対応したCQ(Completion Queue)に、正常完了を示すCQE(Completion Queue Entry)が積まれる。QPの間でWRの処理がエラーで終了すると、CQにはエラーを示すCQEが積まれる。正常完了のCQEを確認すると、SQ/RQのWQEは削除され、次のWRの受け入れが可能になる。
InfiniBand Architecture Specification Volume 1, Release 1.4, April 2020
 通信技術の進展により、高帯域かつ長距離を接続するネットワークが提供される可能性がある。例えば現在の光伝送システムに搭載されているトランスポンダーがクライアントサーバシステムに搭載され、伝送途中で電気・光変換されることなく通信相手のサーバに届く状況が考えられる。また、光伝送システムでは網状態(距離や信号品質など)から最適な伝送モード(変調方式、ボーレート、キャリア数など)を選択することで、少ない網リソース(周波数など)で高速な伝送路を確立する技術が提案されている。このような技術により、通信端末間の長距離・高速通信が、少ない網リソースや端末リソースを用いて実現される可能性がある。
 ネットワークが長距離になるほど、RDMAの転送性能は低下するという問題があった。これは、長延化した回線ではより多くの転送時間が必要であり、コネクション型のプロトコルではデータ転送完了を知らせるパケットを受け取るまで次のパケットを送信できないからである。特に、コネクション型のサービスタイプでは、ローカル側のWQEを完了させるために、リモート側からACKを受信してCQEの発行を待たなければならない。ローカル-リモート間のリクエストおよびレスポンスに時間がかかるほど、SQ/RQに未完了のWQEが滞留するため、処理待ちでキューに積むことができないWQEが増え、転送性能が低下してしまう。
 本発明は、上記に鑑みてなされたものであり、RTT(Round Trip Time)が大きいネットワークサービス上でも高帯域なデータ転送を実現することを目的とする。
 本発明の一態様の中間装置は、リモートダイレクトメモリアクセスを用いてデータを転送する第1の装置と第2の装置の間に配置される中間装置であって、前記第1の装置から前記第2の装置へ送信されるデータを含むリクエストを転送する転送部と、前記リクエストに対する疑似レスポンスを生成して前記第1の装置へ返却する生成部と、前記第2の装置からの前記リクエストに対するレスポンスを破棄する破棄部を備える。
 本発明の一態様の中間装置は、リモートダイレクトメモリアクセスを用いてデータを転送する第1の装置と第2の装置の間に配置される中間装置であって、前記第1の装置から前記第2の装置へデータの送信を要求する最初のリクエストに基づいて前記第1の装置から前記第2の装置へデータの送信を要求する疑似リクエストを生成して前記第2の装置へ送信する生成部と、前記第2の装置から前記第1の装置へ送信されるデータを含むレスポンスを転送する転送部と、前記第1の装置からの後続のリクエストを破棄する破棄部を備える。
 本発明の一態様の通信方法は、リモートダイレクトメモリアクセスを用いてデータを転送する第1の装置と第2の装置の間に配置される中間装置による通信方法であって、前記第1の装置から前記第2の装置へ送信されるデータを含むリクエストを転送し、前記リクエストに対する疑似レスポンスを生成して前記第1の装置へ返却し、前記第2の装置からの前記リクエストに対するレスポンスを破棄する。
 本発明の一態様の通信方法は、リモートダイレクトメモリアクセスを用いてデータを転送する第1の装置と第2の装置の間に配置される中間装置による通信方法であって、前記第1の装置から前記第2の装置へデータの送信を要求する最初のリクエストに基づいて前記第1の装置から前記第2の装置へデータの送信を要求する疑似リクエストを生成して前記第2の装置へ送信し、前記第2の装置から前記第1の装置へ送信されるデータを含むレスポンスを転送し、前記第1の装置からの後続のリクエストを破棄する。
 本発明によれば、RTTが大きいネットワークサービス上でも高帯域なデータ転送を実現できる。
図1は、RDMAの通信モデルを説明するための図である。 図2は、RDMAのSENDを説明するための図である。 図3は、RDMAのRDMA WRITEを説明するための図である。 図4は、RDMAのRDMA WRITE with Immediateを説明するための図である。 図5は、RDMAのRDMA READを説明するための図である。 図6は、RDMAのATOMIC Operationsを説明するための図である。 図7は、本実施形態の中間装置を備えた通信システムの構成の一例を示す図である。 図8は、図7の通信システムの処理の流れの一例を示すシーケンス図である。 図9は、本実施形態の別の中間装置を備えた通信システムの構成の一例を示す図である。 図10は、図9の通信システムの処理の流れの一例を示すシーケンス図である。 図11は、テーブルを作成してレスポンスの宛先QPNを解決する方法の一例を説明するための図である。 図12は、ソースQPNを通知してレスポンスの宛先QPNを解決する方法の一例を説明するための図である。 図13は、中間装置をNIC上に構成した一例を示す図である。 図14は、中間装置のハードウェア構成の一例を示す図である。
 [RDMAについて]
 RDMAのサービスタイプは、Reliable/Unreliable、Connection/Datagramの区分により、RC(Reliable Connection)、RD(Reliable Datagram)、UC(Unreliable Connection)、およびUD(Unreliable Datagram)の4つに大別される。RCとUDが一般に使用される。
 RCは、ACK/NAKによる通信の成功・異常の確認と再送の仕組みによって、メッセージの順序性と到達性を保証するものである。また、RCは、コネクション型でもあり、ローカル-リモートのQP間で1対1の通信を行う。
 UDには、確認応答および再送の仕組みはないものの、通信ごとに宛先を指定して複数のQPへの送信および複数のQPからの受信といった多対多の通信が可能である。
 RDMAにおけるオペレーションタイプは、SEND、RDMA WRITE(with Immediate)、RDMA READ、およびATOMIC Operationsの4つに大別される。RCではこれら全てが使用できる。UDではSENDのみ使用できる。
 RDMAにおける再送制御は、ACK/NAKが返ってこない場合、RNR(Receiver-Not-Ready) NAKが返ってきた場合、およびOut-Of-sequence NAKが返ってきた場合の3つのパターンに分類される。リモート側からACKまたはNAKが一定時間以内に返ってこない場合、ローカル側はタイムアウトとして再送する。また、リモート側は、RQでWQEが用意できない場合にRNR NAKを返す。リモート側からRNR NAKが返ってきた場合、ローカル側は一定時間後に再送する。また、リモート側は、受信したパケットのPSN(Packet Sequence Number)が順序通りでなかった場合にOut-of-sequence NAKを返す。リモート側からOut-Of-sequence NAKが返ってきた場合、ローカル側は待たずに再送する。
 [RDMAのオペレーション]
 次に、サービスタイプがRCのいくつかのオペレーションについて説明する。
 まず、図2を参照し、RDMAのオペレーションのSENDについて説明する。SENDはRDMAの基本的な送受信モデルであり、ローカルからリモートへデータを送信する。
 ローカルはSQを用意し、リモートはRQを用意して、ローカルとリモートはそれぞれSQとRQにWQEを積む。
 通信の準備ができると、ローカルはSENDでデータを送信する。リモートは、データの受信が成功すると、CQにCQEを積み、RQのWQEを解放するとともに、ローカルへACKを返却する。ローカルは、ACKを受信すると、CQにCQEを積み、SQのWQEを解放する。
 また、SENDには、特殊なオペレーションであるSEND w/Imm(SEND with Immediate)が用意されている。SEND w/Immでは、ローカルのSQのWQEに特殊フィールド(imm_data)を設定することができ、ローカルからリモートへのデータ送信時にimm_dataを同時に送信できる。リモートは、データの受信が成功すると、CQにimm_dataを含むCQEを積む。リモートでは、CQEを参照することで、imm_dataの内容を知ることができる。
 続いて、図3を参照し、RDMAのオペレーションのRDMA WRITEについて説明する。RDMA WRITEは、SENDと同様に、ローカルからリモートへデータを送信する方式であるが、リモートのメモリ領域へデータが直接転送される点が異なる。
 ローカルはSQを用意してWQEを積む。WQEには、送信したいデータのメモリ領域と、書き込みたいリモートのメモリ領域が設定される。リモートはRDMA用のメモリ領域を確保するが、RQにWQEを積む必要はない。
 通信の準備ができると、ローカルはRDMA WRITEでデータを送信する。データはリモートのメモリ領域へ直接書き込まれる。リモートは、データの受信が成功すると、ローカルへACKを返す。ローカルは、ACKを受信すると、CQにCQEを積み、SQのWQEを解放する。
 続いて、図4を参照し、RDMAのオペレーションのRDMA WRITE w/Imm(RDMA WRITE with Immediate)について説明する。RDMA WRITEには、データ受信時にリモートがメモリ領域の変更を検知できない不都合がある。RDMA WRITE w/Immでは、リモートはRQを用意し、RQにWQEを積み、データの受信成功時にCQにCQEを積むことで、メモリ領域の変更を検知する。ローカルのSQのWQEには、送信したいデータのメモリ領域、書き込みたいリモートのメモリ領域、および特殊フィールド(imm_data)が設定される。リモートは、データの受信が成功すると、CQにimm_dataを含むCQEを積み、RQのWQEを解放するとともに、ローカルへACKを返す。リモートは、このCQEを用いて任意のメモリ領域の変更を検知できる。
 続いて、図5を参照し、RDMAのオペレーションのRDMA READについて説明する。RDMA READは、リモートからローカルへデータを引き込む方式である。
 ローカルはSQを用意してWQEを積む。WQEには、データを受信したいローカルのメモリ領域と、読み込みたいリモートのメモリ領域が設定される。リモートはRDMA用のメモリ領域を確保するが、RQにWQEを積む必要はない。
 通信の準備ができると、ローカルはRDMA Read Requestでデータ読み込みを要求する。リモートはリクエストを受信すると、設定されたローカルのメモリ領域に対してリモートのメモリ領域のデータをRDMA Read Responseで直接送る。RDMA Read ResponseにはACK拡張ヘッダが含まれている。ローカルは、このACKを受信すると、CQにCQEを積み、SQのWQEを解放する。
 続いて、図6を参照し、RDMAのオペレーションのATOMIC Operationsについて説明する。ATOMIC Operationsは、リモートのメモリ領域に対し、FetchAdd(Fetch and Add)またはCmpSwap(Compare and Swap)のメモリ操作を行い、操作前のメモリ内容をローカルへ読み込む方式である。FetchAddは、リモートの任意のメモリアドレスの内容に任意の64bitフィールドの値を加算する操作である。CmpSwap、リモートの任意のメモリアドレスの内容が指定した64bitフィールドの値と同値だった場合に新しい64bitフィールドの値に変更する操作である。
 ローカルはSQを用意してWQEを積む。WQEには、データを受信したいローカルのメモリ領域、操作したいリモートのメモリ領域、および操作内容(FetchAddまたはCmpSwap、並びにその引数)が設定される。リモートはRDMA用のメモリ領域を確保するが、RQにWQEを積む必要はない。
 通信の準備ができると、ローカルはATOMIC Command(FetchAddまたはCmpSwap)を送信する。リモートはコマンドを受信すると、設定されたローカルのメモリ領域に対してATOMIC操作を行い、操作前データをATOMIC ACKで返却する。ローカルは、このACKを受信すると、CQにCQEを積み、SQのWQEを解放する。
 [通信システムの構成]
 次に、図7を参照し、本実施形態の中間装置10A,10Bを備えた通信システムの構成の一例について説明する。中間装置10A,10Bは、RDMAを用いてデータを転送するローカル30とリモート50の間に配置される。より具体的には、中間装置10Aは、ローカル30側の長距離ネットワークの前段に配置され、中間装置10Bは、リモート50側の長距離ネットワークの前段に配置される。中間装置10Aは、疑似レスポンスをローカル30へ返却し、中間装置10Bは、リモート50からのレスポンスを破棄する。
 中間装置10Aは、転送部11と生成部12を備える。
 転送部11は、ローカル30からリクエストを受信してリモート50へ転送する。このリクエストは、例えば、前述のSEND、SEND w/Imm、RDMA WRITE、RDMA WRITE w/Imm、またはATOMIC Commandである。リクエストには、ローカル30からリモート50へ送信するデータまたはデータに対する操作が含まれる。
 生成部12は、ローカル30から送信され、かつOnlyまたはLastのフラグが立ったリクエストをピックアップし、リクエストに含まれるPSNを用いて疑似レスポンス(pseudo-Response)を生成する。生成部12は、生成した疑似レスポンスをローカル30へ返却する。なお、リクエストに対するACKには、OnlyまたはLastのリクエストと同じPSNの値が用いられる。
 ローカル30は、疑似レスポンスを受信すると、リモート50からのレスポンスと認識してCQにCQEを積み、正常完了する。これにより、ローカル30のSQのWQEを強制的に解放できる。
 中間装置10Bは、転送部11と破棄部13を備える。
 転送部11は、中間装置10Aの転送部11と同様に、ローカル30の送信したリクエストをリモート50へ転送する。
 破棄部13は、リクエストに対する、リモート50からの真のレスポンスを破棄する。これにより、ローカル30でのレスポンスの重複受信を防止できる。さらに、リモート50から送信されるRNRまたはout-of-sequenceによるNAKがローカル30へ到着すると誤作動を引き起こす可能性があるため、破棄部13は、これらのNAKも破棄する。
 なお、中間装置10Aが破棄部13を備えて、中間装置10Bを配置しなくてもよい。
 [通信システムの動作]
 次に、図8のシーケンス図を参照し、中間装置10A,10Bを備える通信システムの処理の流れの一例について説明する。
 ステップS11にて、ローカル30は、SQにWQEを積み、リモート50へリクエストを送信する。リクエストは、中間装置10A,10Bを介してリモート50へ転送される。
 ステップS12にて、中間装置10Aは、リクエストに含まれるPSNを用いて疑似レスポンスを生成する。ステップS13にて、中間装置10Aは、疑似レスポンスをローカル30へ返却する。ローカル30は、疑似レスポンスを受信すると、CQにCQEを積み、SQのWQEを解放する。
 以降、ローカル30が、SQにWQEを積み、リモート50へリクエストを送信すると(ステップS16)、中間装置10Aは、リクエストを転送すると疑似レスポンスを生成してローカル30に返却する(ステップS17)。ローカル30は、疑似レスポンスを受信すると、CQにCQEを積み、SQのWQEを解放した後、SQにWQEを積んで、リモート50へリクエストを送信する(ステップS18)。
 一方、リモート50は、リクエスト(データ)の受信が成功すると、ステップS14にて、レスポンスをローカル30へ送信する。
 ステップS15にて、中間装置10Bは、受信したレスポンスを破棄する。
 以降、リモート50はリクエストを受信するとレスポンスを返却し、中間装置10Bはレスポンスを破棄する。
 [別の通信システム]
 次に、図9を参照し、本実施形態の別の中間装置20A,20Bを備えた通信システムの構成の一例について説明する。中間装置20A,20Bは、RDMAを用いてデータを転送するローカル30とリモート50の間に配置される。より具体的には、中間装置20Aは、ローカル30側の長距離ネットワークの前段に配置され、中間装置20Bは、リモート50側の長距離ネットワークの前段に配置される。中間装置20Aは、ローカル30からのリクエストを破棄し、中間装置20Bは、疑似リクエストをリモート50へ送信する。
 中間装置20Aは、破棄部21と転送部24を備える。
 破棄部21は、ローカル30からの最初のリクエスト(OnlyまたはFirstのリクエスト)をリモート50へ転送し、ローカル30からの後続のリクエストを破棄する。これにより、リモート50でのリクエストの重複受信を防止できる。
 転送部24は、リモート50からローカル30へ返却されるレスポンスを転送する。レスポンスには、リモート50からローカル30へ送信するデータが含まれる。
 中間装置20Bは、生成部22、制御部23、および転送部24を備える。
 生成部22は、ローカル30からの最初のリクエストをピックアップし、RETH(RDMA Extended Transport Header)およびBTH(Base Transport Header)に含まれるdestination QPN(QP Number)を用いて疑似リクエスト(pseudeo-Request)を生成する。
 生成部22は、リモート50へ送られたリクエスト数からリモート50から返却されたレスポンス数を引いた数がローカル30のSQのキューサイズを超えないように、疑似リクエストを生成する。疑似リクエストのPSNは、リクエストのRETHのDMA LengthおよびBTHのPSHから1WQE分のリクエスト数を算出し、その数だけPSNをインクリメントして求める。
 リモート50は、疑似リクエストを受信すると、ローカル30からのリクエストと認識してメモリ領域からデータを取り出し、レスポンスをローカル30へ送信する。これにより、ローカル30からのリクエストを待つことなく、リモート50からデータを送信できる。
 制御部23は、リモート50へ送られた疑似リクエストと、リモート50から返却されたレスポンスをチェックし、期待通りの長さ・個数のレスポンスが返却されているか否かを検査し、生成部22の疑似リクエストの生成タイミングを制御する。
 転送部24は、中間装置20Aの転送部24と同様に、リモート50からローカル30へ返却されるレスポンスを転送する。
 なお、中間装置20Bが破棄部21を備えて、中間装置20Aを配置しなくてもよい。
 [別の通信システムの動作]
 次に、図10のシーケンス図を参照し、中間装置20A,20Bを備える通信システムの処理の流れの一例について説明する。
 ステップS21にて、ローカル30は、SQにWQEを積み、リモート50へ最初のリクエストを送信する。中間装置20Aは、最初のリクエストは破棄せずにリモート50側へ転送する。中間装置20Bは、最初のリクエストに含まれるQPNを取得する。
 リモート50は、リクエストを受信すると、ステップS22にて、レスポンスをローカル30へ返却する。ローカル30は、レスポンスを受信すると、CQにCQEを積み、SQのWQEを解放する。
 ステップS23にて、ローカル30は、SQにWQEを積み、リモート50へ後続のリクエストを送信する。
 ステップS24にて、中間装置20Aは、ローカル30からの後続のリクエストを破棄する。
 一方、中間装置20Bは、ステップS25にて、疑似リクエストを生成し、ステップS26にて、疑似リクエストをリモート50へ送信する。中間装置20Bは、ローカル30がリモート50から返却されるレスポンスを正しく受信できるように疑似リクエストの生成タイミングを制御する。
 リモート50は疑似リクエストを受信すると、ステップS27にて、データを含むレスポンスをローカル30へ返却する。
 以降、ローカル30は、疑似リクエストに応じたレスポンスを受信すると、CQにCQEを積み、SQのWQEを解放した後、SQにWQEを積んで、リモート50へ後続のリクエストを送信する(ステップS28)。中間装置20Aは、ローカル30からの後続のリクエストを破棄する(ステップS29)。
 中間装置20Bは、所定のタイミングで疑似リクエストを生成し(ステップS30)、疑似リクエストをリモート50へ送信する(ステップS31)。
 [宛先QPNの解決]
 RDMAのインタフェースでは、QPは、エンドポイントごとに異なるQPNを持つ。SQ/RQは対向のQPNを認識しており、RDMAパケットを生成する際はdestination QPNをヘッダに含める。しかしながら、送信元のQPNはヘッダに含まれない。中間装置10Aが疑似レスポンスを生成する際、受信したリクエストに送信元のQPNを示す情報がないため、疑似レスポンスの送り先が不明である。そこで、本実施形態では、以下に示す2通りの方法で、疑似レスポンスの送り先を特定する。
 第1の方法は、本来のRDMAのリクエストとレスポンスの交換を検査して、QPNの組み合わせをテーブルに記憶する方法である。RDMAパケットのOnlyまたはLastのリクエストとACKには同じPSNが使用される。そこで、中間装置10Aは、通過するリクエストとレスポンスを検査し、同じPSNを持つOnlyまたはLastのリクエストとACKのそれぞれのヘッダのdestination QPNを組み合わせとしてテーブルに追記する。図11の例では、同じPSNを持つリクエストとレスポンスのヘッダのdestination QPNは、それぞれ0x000020と0x000010であるので、0x000010と0x000020の組み合わせをテーブルに追記する。なお、図11では、ローカル30はリモート50Aとリモート50Bのそれぞれとの間でQPを構成している。
 中間装置10Aが疑似レスポンスを生成する際は、テーブルからリクエストのdestination QPNを含むQPNの組み合わせを取得し、組み合わせのもう片方のQPNを疑似レスポンスのdestination QPNに設定する。例えば、destination QPNが0x000020のリクエストを受信した場合、中間装置10Aは、テーブルから0x000020を含む0x000010と0x000020の組み合わせを取得し、疑似レスポンスのdestination QPNに0x000010を設定する。
 第2の方法は、Source QPNをRDMAパケットにのせる方法である。WQEには32bitのimmDt(immediate Date)フィールドが存在し、SEND with immediateまたはRDMA WRITE with immediateに限り、immDtフィールドに任意の32bitの情報を記載できる。図12では、ローカル30が挿入部31を備え、挿入部31がローカル30側SQのWQEのimmDtフィールドにローカル30側SQのQPNを書き込む。
 中間装置10Aが疑似レスポンスを生成する際は、受信したリクエストのimmDtフィールドに書き込まれたQPNを疑似レスポンスのdestination QPNに設定する。
 [実施例]
 次に、RDMAの各オペレーションに本実施形態の中間装置を適用した例について説明する。
 まず、図2で示したSENDに本実施形態を適用する例について説明する。SENDには図7の中間装置10A,10Bを用いることができる。
 ローカル30がSEND Onlyを送信すると、中間装置10Aは、SEND Onlyをリモート50側へ転送するとともに、SEND Onlyのヘッダから疑似レスポンス(ACK)を作成してローカル30へ返却する。ローカル30は、疑似レスポンスを受信すると、CQにCQEを積み、SQのWQEを解放する。
 リモート50は、データの受信が成功すると、ローカル30側へACKを返却する。中間装置20Bは、リモート50からのACKを破棄する。
 続いて、図3で示したRDMA WRITEに本実施形態を適用する例について説明する。RDMA WRITEには図7の中間装置10A,10Bを用いることができる。
 ローカル30がRDMA WRITEでデータを送信すると、中間装置10Aは、データをリモート50側へ転送するとともに、RDMA WRITEのヘッダから疑似レスポンス(ACK)を作成してローカル30へ返却する。ローカル30は、疑似レスポンスを受信すると、CQにCQEを積み、SQのWQEを解放する。
 リモート50は、データの受信が成功すると、ローカル30へACKを返却する。中間装置10Bは、リモート50からのACKを破棄する。
 図4で示したRDMA WRITE w/ImmもRDMA WRITEと同様に適用できる。
 続いて、図5で示したRDMA READに本実施形態を適用する例について説明する。RDMA READには図9の中間装置20A,20Bを用いることができる。
 ローカル30がRDMA Read Requestでデータ読み込みを要求すると、中間装置20Aは、最初のリクエストは破棄せずにリモート50へ転送する。
 リモート50は、リクエストを受信すると、レスポンスをローカル30へ返却する。中間装置20A,20Bは、レスポンスをローカル30へ転送する。
 中間装置20Bは、レスポンスの状況からリクエストを完了済みと未完了に分類し、ローカル30のSQの空きを推定する。中間装置20Bは、SQの空きの分だけ新たに疑似リクエスト(pseudo RDMA Read Request)を作成してリモート50へ送信する。中間装置20Bは、レスポンスの状況からリクエストが完了済みに分類されるまで、疑似リクエストの作成および送信を繰り返す。
 ローカル30は、データの受信が成功すると、CQにCQEを積み、SQのWQEを解放後、SQに新たなWQEを積み、リモート50へ新たなリクエストを送信する。中間装置20Aは、ローカル30からのリクエストを破棄する。
 続いて、図6で示したATOMIC Operationsに本実施形態を適用する例について説明する。ATOMIC Operationsでは、リモート50の操作前データを破棄してよい場合とローカル30が操作前データを受信する場合で動作が異なる。
 まず、操作前データを破棄してよい場合について説明する。ATOMIC Operationsで操作前データを破棄してよい場合には図7の中間装置10A,10Bを用いることができる。
 ローカル30がATOMIC Commandを送信すると、中間装置10Aは、ATOMIC Commandをリモート50側へ転送するとともに、ATOMIC Commandのヘッダから疑似レスポンス(ATOMIC ACK)を作成してローカル30へ返却する。ローカル30は、疑似レスポンスを受信すると、CQにCQEを積み、SQのWQEを解放する。
 リモート50は、ATOMIC Commandを受信するとATOMIC操作を行い、操作前データをATOMIC ACKで返却する。中間装置10Bは、リモート50からのATOMIC ACKを破棄する。
 次に、ローカル30が操作前データを受信する場合について説明する。ローカル30が操作前データを受信する場合には図9の中間装置20A,20Bを用いることができる。
 ローカル30がATOMIC Commandを送信すると、中間装置20A,20Bは、ATOMIC Commandをリモート50へ転送する。
 リモート50は、ATOMIC Commandを受信するとATOMIC操作を行い、操作前データをATOMIC ACKで返却する。中間装置20A,20Bは、ATOMIC ACKをローカル30へ転送する。
 中間装置20Bは、レスポンスの状況からリクエストを完了済みと未完了に分類し、ローカル30のSQの空きを推定する。中間装置20Bは、SQの空きの分だけ新たに疑似リクエスト(pseudo ATOMIC Command)を作成してリモート50へ送信する。中間装置20Bは、レスポンスの状況からリクエストが完了済みに分類されるまで、疑似リクエストの作成および送信を繰り返す。
 ローカル30は、ATOMIC ACKの受信が成功すると、CQにCQEを積み、SQのWQEを解放後、SQに新たなWQEを積み、リモート50へ新たなATOMIC Commandを送信する。中間装置20Aは、ローカル30からのATOMIC Commandを破棄する。
 以上説明したように、本実施形態の中間装置10Aは、ローカル30からリモート50へ送信されるデータを含むリクエストを転送する転送部11と、リクエストに対する疑似レスポンスを生成してローカル30へ返却する生成部12を備える。中間装置10Bは、リモート50からのリクエストに対するレスポンスを破棄する破棄部13を備える。ローカル30は中間装置10Aからの疑似レスポンスに応じてSQのWQEを解放するので、ローカル30とリモート50の間のRTTが大きい場合でも、リモート50からのレスポンスを待つことなく、高帯域なデータ転送を実現できる。
 本実施形態の中間装置20Bは、ローカル30からリモート50へデータの送信を要求する最初のリクエストに基づいて疑似リクエストを生成し、リモート50へ送信する生成部22と、リモート50からローカル30へ送信されるデータを含むレスポンスを転送する転送部24を備える。中間装置20Aは、ローカル30からの後続のリクエストを破棄する破棄部21を備える。リモート50は中間装置20Bからの疑似リクエストに応じてデータを送信するので、ローカル30とリモート50の間のRTTが大きい場合でも、ローカル30からのリクエストを待つことなく、高帯域なデータ転送を実現できる。
 以上では、ローカル30とリモート50の間に中間装置10A,10B,20A,20Bを設置する構成で説明したが、図13に示すように、ローカル30の装置のNIC(Network Interface Card)上に中間装置10A,20Aを構成し、リモート50の装置のNIC上に中間装置10B,20Bを構成してもよい。
 また、中間装置10A,10B,20A,20Bは、物理サーバで構成してもよいし、仮想サーバで構成してもよい。スイッチまたはルータなどのネットワーク装置が中間装置10A,10B,20A,20Bの機能を備えてもよい。
 ローカル30側に、中間装置10Aの機能と中間装置10Bの機能を備えた中間装置を配置してもよいし、リモート50側に、中間装置20Aの機能と中間装置20Bの機能を備えた中間装置を配置してもよい。もしくは、ローカル30側に破棄部13を備えた中間装置10Aを配置し、リモート50側に破棄部21を備えた中間装置20Bを配置してもよい。
 上記説明した中間装置10A,10B,20A,20Bには、例えば、図14に示すような、中央演算処理装置(CPU)901と、メモリ902と、ストレージ903と、通信装置904と、入力装置905と、出力装置906とを備える汎用的なコンピュータシステムを用いることができる。このコンピュータシステムにおいて、CPU901がメモリ902上にロードされた所定のプログラムを実行することにより、中間装置10A,10B,20A,20Bが実現される。このプログラムは磁気ディスク、光ディスク、半導体メモリなどのコンピュータ読み取り可能な記録媒体に記録することも、ネットワークを介して配信することもできる。
 10A,10B,20A,20B…中間装置
 11…転送部
 12…生成部
 13…破棄部
 21…破棄部
 22…生成部
 23…制御部
 24…転送部
 30…ローカル
 50…リモート

Claims (7)

  1.  リモートダイレクトメモリアクセスを用いてデータを転送する第1の装置と第2の装置の間に配置される中間装置であって、
     前記第1の装置から前記第2の装置へ送信されるデータを含むリクエストを転送する転送部と、
     前記リクエストに対する疑似レスポンスを生成して前記第1の装置へ返却する生成部と、
     前記第2の装置からの前記リクエストに対するレスポンスを破棄する破棄部を備える
     中間装置。
  2.  請求項1に記載の中間装置であって、
     前記第1の装置と前記第2の装置との間で送受信されるリクエストとレスポンスから同じ識別子を持つリクエストとレスポンスのそれぞれの宛先を組み合わせとしたテーブルを作成しておき、
     前記生成部は、前記テーブルから前記リクエストの宛先を含む組み合わせを取得し、前記組み合わせにおいて前記リクエストの宛先に対応する宛先を前記疑似レスポンスの宛先とする
     中間装置。
  3.  請求項1に記載の中間装置であって、
     前記リクエストは当該リクエストの送信元を含み、
     前記生成部は、前記リクエストに含まれる前記リクエストの送信元を前記疑似レスポンスの宛先とする
     中間装置。
  4.  リモートダイレクトメモリアクセスを用いてデータを転送する第1の装置と第2の装置の間に配置される中間装置であって、
     前記第1の装置から前記第2の装置へデータの送信を要求する最初のリクエストに基づいて前記第1の装置から前記第2の装置へデータの送信を要求する疑似リクエストを生成して前記第2の装置へ送信する生成部と、
     前記第2の装置から前記第1の装置へ送信されるデータを含むレスポンスを転送する転送部と、
     前記第1の装置からの後続のリクエストを破棄する破棄部を備える
     中間装置。
  5.  リモートダイレクトメモリアクセスを用いてデータを転送する第1の装置と第2の装置の間に配置される中間装置による通信方法であって、
     前記第1の装置から前記第2の装置へ送信されるデータを含むリクエストを転送し、
     前記リクエストに対する疑似レスポンスを生成して前記第1の装置へ返却し、
     前記第2の装置からの前記リクエストに対するレスポンスを破棄する
     通信方法。
  6.  リモートダイレクトメモリアクセスを用いてデータを転送する第1の装置と第2の装置の間に配置される中間装置による通信方法であって、
     前記第1の装置から前記第2の装置へデータの送信を要求する最初のリクエストに基づいて前記第1の装置から前記第2の装置へデータの送信を要求する疑似リクエストを生成して前記第2の装置へ送信し、
     前記第2の装置から前記第1の装置へ送信されるデータを含むレスポンスを転送し、
     前記第1の装置からの後続のリクエストを破棄する
     通信方法。
  7.  請求項1ないし4のいずれかに記載の中間装置の各部としてコンピュータを動作させるプログラム。
PCT/JP2021/022074 2021-06-10 2021-06-10 中間装置、通信方法、およびプログラム WO2022259452A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2023526747A JPWO2022259452A1 (ja) 2021-06-10 2021-06-10
US18/568,618 US20240146806A1 (en) 2021-06-10 2021-06-10 Intermediate apparatus, communication method, and program
PCT/JP2021/022074 WO2022259452A1 (ja) 2021-06-10 2021-06-10 中間装置、通信方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/022074 WO2022259452A1 (ja) 2021-06-10 2021-06-10 中間装置、通信方法、およびプログラム

Publications (1)

Publication Number Publication Date
WO2022259452A1 true WO2022259452A1 (ja) 2022-12-15

Family

ID=84426018

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/022074 WO2022259452A1 (ja) 2021-06-10 2021-06-10 中間装置、通信方法、およびプログラム

Country Status (3)

Country Link
US (1) US20240146806A1 (ja)
JP (1) JPWO2022259452A1 (ja)
WO (1) WO2022259452A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116566921A (zh) * 2023-07-04 2023-08-08 珠海星云智联科技有限公司 远程直接内存访问读取的拥塞控制方法、系统及存储介质
WO2024201804A1 (ja) * 2023-03-29 2024-10-03 日本電信電話株式会社 中継装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011058640A1 (ja) * 2009-11-12 2011-05-19 富士通株式会社 並列計算用の通信方法、情報処理装置およびプログラム
JP2013255185A (ja) * 2012-06-08 2013-12-19 Of Networks:Kk オープンフロースイッチ、オープンフローコントローラ及びオープンフローネットワークシステム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011058640A1 (ja) * 2009-11-12 2011-05-19 富士通株式会社 並列計算用の通信方法、情報処理装置およびプログラム
JP2013255185A (ja) * 2012-06-08 2013-12-19 Of Networks:Kk オープンフロースイッチ、オープンフローコントローラ及びオープンフローネットワークシステム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024201804A1 (ja) * 2023-03-29 2024-10-03 日本電信電話株式会社 中継装置
CN116566921A (zh) * 2023-07-04 2023-08-08 珠海星云智联科技有限公司 远程直接内存访问读取的拥塞控制方法、系统及存储介质
CN116566921B (zh) * 2023-07-04 2024-03-22 珠海星云智联科技有限公司 远程直接内存访问读取的拥塞控制方法、系统及存储介质

Also Published As

Publication number Publication date
US20240146806A1 (en) 2024-05-02
JPWO2022259452A1 (ja) 2022-12-15

Similar Documents

Publication Publication Date Title
US10430374B2 (en) Selective acknowledgement of RDMA packets
US11934340B2 (en) Multi-path RDMA transmission
US10148581B2 (en) End-to-end enhanced reliable datagram transport
US8023520B2 (en) Signaling packet
US7966380B2 (en) Method, system, and program for forwarding messages between nodes
US8176187B2 (en) Method, system, and program for enabling communication between nodes
US7817634B2 (en) Network with a constrained usage model supporting remote direct memory access
US7876751B2 (en) Reliable link layer packet retry
JP6236933B2 (ja) 中継装置
US7185114B1 (en) Virtual memory systems and methods
US20030053462A1 (en) System and method for implementing multi-pathing data transfers in a system area network
US7733875B2 (en) Transmit flow for network acceleration architecture
US20070208820A1 (en) Apparatus and method for out-of-order placement and in-order completion reporting of remote direct memory access operations
WO2022259452A1 (ja) 中間装置、通信方法、およびプログラム
JP2013511884A (ja) 動的接続された移送サービス
JP2006178961A (ja) 要求−応答トランスポートプロトコルによる高信頼一方向メッセージング
MXPA04010437A (es) Sistema, metodo y producto para administrar transferencias de datos en una red.
TW200537877A (en) Retransmission system and method for a transport offload engine
US11870590B2 (en) Selective retransmission of packets
US8150996B2 (en) Method and apparatus for handling flow control for a data transfer
US20120072520A1 (en) System and Method for Establishing Reliable Communication in a Connection-Less Environment
JP3148733B2 (ja) 信号処理装置及び信号処理システム
TWI839155B (zh) 電腦裝置以及應用於電腦裝置的傳輸控制協定封包處理方法
TW202431824A (zh) 電腦裝置以及應用於電腦裝置的傳輸控制協定封包處理方法
TW202431825A (zh) 電腦裝置以及應用於電腦裝置的傳輸控制協定封包處理方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21945128

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023526747

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 18568618

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21945128

Country of ref document: EP

Kind code of ref document: A1