KR20240019357A

KR20240019357A - 채널 액세스 방법 및 관련 장치

Info

Publication number: KR20240019357A
Application number: KR1020247001198A
Authority: KR
Inventors: 지양 구오; 펭 리우; 지아준 루오; 순 양; 윤보 리
Original assignee: 후아웨이 테크놀러지 컴퍼니 리미티드
Priority date: 2021-06-17
Filing date: 2022-06-14
Publication date: 2024-02-14
Also published as: JP2024523041A; US20240129758A1; MX2023015445A; WO2022262734A1; BR112023026393A2; CN115499936A; AU2022294850A1; CA3224511A1

Abstract

본 출원은 채널 액세스 방법 및 관련 장치를 제공한다. 방법에서, 액세스 포인트(access point, AP)는 N개의 스테이션(station, STA)에 의해 개별적으로 보고되는 동작 정보를 수신하는데, 여기서, N개의 동작 정보는 각각의 STA의 제1 신경망의 훈련 결과를 결정하는 데 사용되며, N은 양의 정수이다. AP는 N개의 동작 정보에 기초하여 각각의 STA의 제1 신경망의 훈련 결과를 결정하고, 각각의 STA의 제1 신경망의 훈련 결과를 대응하는 STA로 송신한다. 각각의 STA의 제1 신경망의 훈련 결과는 STA의 동작 정보만이 아닌, N개의 STA에 의해 보고되는 동작 정보에 기초하여 결정된다. 이것은 제1 신경망의 예측 능력을 개선할 수 있고, 다른 STA의 채널 액세스 거동을 예측하는 각각의 STA의 능력을 개선하는 데 도움을 주며, 시스템 스루풋을 개선하고 통신 대기 시간을 감소시킬 수 있다.

Description

채널 액세스 방법 및 관련 장치

본 출원은 2021년 6월 17일자로 중국국가지식재산관리국에 출원된 "CHANNEL ACCESS METHOD AND RELATED APPARATUS"라는 명칭의 중국 특허 출원 제202110673131.6호에 대한 우선권을 주장하며, 그 전체 내용이 본 명세서에 참조로서 포함된다.

(기술 분야)

본 출원은 통신 기술 분야, 특히, 채널 액세스 방법 및 관련 장치에 관한 것이다.

근거리/무선 근거리 네트워크(wireless local area network, WLAN)와 같은 무선 네트워크에서는, 데이터 전송을 위한 채널을 공유한다. 특정 영역 내의 복수의 스테이션(station, STA)이 동일한 액세스 포인트(access point, AP)로 패킷을 송신하면, 충돌이 발생하여 데이터 전송이 실패하게 된다.

현재, Wi-Fi 시스템에서는, 캐리어 감지 다중 액세스/충돌 회피(carrier sense multiple access/collision avoidance, CSMA/CA) 메커니즘이 사용되어 공유 채널 상에서의 충돌을 회피한다. 구체적으로, 패킷이 도착하면, 감지 능력이 있는 STA는 랜덤한 지속 시간 동안 채널 상태를 감지한다. 랜덤한 지속 시간 동안 채널이 유휴 상태에 있다면, STA는 채널에 액세스한다.

CSMA/CA 메커니즘을 이용하여 공유 채널 상에서의 충돌을 회피하는 방식은 충돌 분해 알고리즘(collision decomposition algorithm), 즉, 완전한 무작위화(randomization)를 통해 충돌 분해 효과를 달성하는 것으로 간주할 수 있다. 다시 말해서, 이러한 방식의 각각의 STA는 다른 STA가 채널에 액세스할지 여부를 예측할 수 있는 능력을 갖추지 않는다. 결과적으로, 시스템 스루풋(throughput)은 적고 대기 시간은 길다.

본 출원의 실시예는 채널 액세스 방법 및 관련 장치를 제공하여 시스템 스루풋을 개선하고 대기 시간을 감소시킬 수 있다.

제1 양태에 따르면, 본 출원의 실시예는 채널 액세스 방법을 제공한다. 방법에서, 액세스 포인트(access point, AP)는 N개의 스테이션(station, STA)에 의해 개별적으로 보고되는 동작 정보를 수신하는데, 여기서, N개의 동작 정보는 각각의 STA의 제1 신경망의 훈련 결과를 결정하는 데 사용된다. AP는 N개의 동작 정보에 기초하여 각각의 STA의 제1 신경망의 훈련 결과를 결정하고, 각각의 STA의 제1 신경망의 훈련 결과를 대응하는 STA로 송신한다.

각각의 STA의 제1 신경망의 훈련 결과는 STA의 동작 정보만이 아닌 N개의 STA에 의해 보고되는 동작 정보에 기초하여 결정된다는 것을 알 수 있다. 이것은 제1 신경망의 예측 능력을 개선하고, 채널에 액세스할지 여부를 예측하는 STA의 능력을 개선하는 데 도움을 주며, 시스템 스루풋을 개선하고 지연을 감소시킬 수 있다.

선택적인 구현예에서, 동작 정보는 일정 기간의 동작을 표시하며, 동작은 송신 또는 송신 스키핑(skipping sending)이다. 일정 기간은 STA가 마지막으로 동작 정보를 성공적으로 보고하는 시점(moment)과 현재 시점 사이의 시간이다. 다시 말해서, 동작은, STA가 마지막으로 동작 정보를 성공적으로 보고한 이후에 STA에 의해 패킷을 송신하거나 송신 스키핑하는 동작이다.

선택적인 구현예에서, AP는 또한 N개의 STA에 의해 개별적으로 보고되는 캐리어 감지 결과 정보 또는 패킷 전송 결과 정보를 수신할 수 있다. 캐리어 감지 결과 정보는 캐리어 감지 결과를 포함하고, 패킷 전송 결과 정보는 패킷 전송 결과를 포함한다. 그러므로, AP가 N개의 동작 정보에 기초하여 각각의 STA의 제1 신경망의 훈련 결과를 결정하는 것은 다음과 같다. AP가, N개의 동작 정보와 N개의 캐리어 감지 결과 정보에 기초하여, 각각의 STA의 제1 신경망의 훈련 결과를 결정하거나; AP가, N개의 동작 정보와 N개의 패킷 전송 결과 정보에 기초하여, 각각의 STA의 제1 신경망의 훈련 결과를 결정한다.

각각의 STA는 또한 캐리어 감지 결과 정보 또는 패킷 전송 결과 정보를 AP에 보고할 수 있다는 것을 알 수 있다. 그러므로, AP는 N개의 동작 정보와 N개의 캐리어 감지 결과 정보에 기초하여, 각각의 STA의 제1 신경망을 직접 훈련시키거나, N개의 동작 정보와 N개의 패킷 전송 결과 정보에 기초하여, 각각의 STA의 제1 신경망을 훈련시킬 수 있으므로, AP의 처리 복잡도를 감소시키는 데 도움을 준다.

선택적인 구현예에서, 훈련 결과는 신경망 파라미터 또는 그래디언트이며, 신경망 파라미터/그래디언트는 대응하는 STA가 제1 신경망을 업데이트하는 데 사용된다.

선택적인 구현예에서, AP가 N개의 STA에 의해 개별적으로 보고되는 동작 정보를 수신할 때, 동작 정보는 STA에 의해 보고되는 제1 프레임의 동작 상세 필드(action details field)로 반송된다. 동작 상세 필드는 시간 표시 서브필드(time indication subfield) 및 데이터 1 서브필드 내지 데이터 T 서브필드를 포함하는데, 여기서, T는 양의 정수이다.

시간 표시 서브필드는 STA가 마지막으로 제1 응답 정보를 성공적으로 수신하는 시점을 표시한다. 제1 응답 정보는 AP가 STA에 의해 송신된 동작 정보를 성공적으로 수신할 때에 송신되는 응답 정보이다. 다시 말해서, 제1 응답 정보는 STA가 마지막으로 동작 정보를 성공적으로 보고했을 때 수신되는 응답 정보이며, 응답 정보는 확인응답(acknowledgment, ACK) 정보일 수 있다. 데이터 1 서브필드는 STA가 마지막으로 제1 응답 정보를 성공적으로 수신한 후에 제1 슬롯에서 수행되는 동작을 표시한다. 다시 말해서, 데이터 1 서브필드는 STA가 마지막으로 동작 정보를 성공적으로 보고한 후에 제1 슬롯에서 수행되는 동작을 표시한다. 데이터 T 서브필드는 STA가 마지막으로 제1 응답 정보를 성공적으로 수신한 후에 제T 슬롯에서 수행되는 동작을 표시하며, 제T 슬롯은 또한 STA가 현재 동작 정보를 보고하기 전의 마지막 슬롯이다.

N개의 STA에 대해서는, 각각의 STA에 의해 보고되는 동작 정보가 제1 프레임으로 반송되며, 각각의 STA에 의해 AP에 보고되는 동작 정보는 STA가 마지막으로 동작 정보를 성공적으로 보고하는 시점과, 마지막으로 동작 정보가 성공적으로 보고되는 후에 제1 슬롯 내지 제T 슬롯에서의 동작을 포함한다는 것을 알 수 있다.

다른 선택적인 구현예에서, AP가 N개의 STA에 의해 개별적으로 보고되는 동작 정보를 수신하면, 동작 정보는 STA에 의해 보고되는 제1 프레임의 동작 상세 필드로 반송된다. 동작 상세 필드는 시간 표시 서브필드, 동작 1 서브필드, 시간 1 서브필드, …, 동작 P 서브필드, 시간 P 서브필드를 포함하는데, 여기서, P는 양의 정수이다.

시간 표시 서브필드는 STA가 마지막으로 제1 응답 정보를 성공적으로 수신하는 시점을 표시한다. 제1 응답 정보는 AP가 STA에 의해 송신된 동작 정보를 성공적으로 수신할 때에 송신되는 응답 정보이다. 다시 말해서, 시간 표시 서브필드는 STA가 마지막으로 동작 정보를 성공적으로 보고하는 시점을 표시한다.

동작 1 서브필드는 STA가 마지막으로 제1 응답 정보를 성공적으로 수신한 후의 제1 동작을 표시한다. 동작 P 서브필드는 STA가 마지막으로 제1 응답 정보를 성공적으로 수신한 시점과 현재 시점 사이의 제P 동작을 표시한다. 다시 말해서, 동작 1 서브필드는 STA가 마지막으로 동작 정보를 성공적으로 보고한 후의 제1 동작을 표시하고, 동작 P 서브필드는 STA가 마지막으로 동작 정보를 성공적으로 보고하는 시점과 현재 시점 사이의 마지막 동작을 표시한다.

시간 1 서브필드는 동작 1의 지속 시간 또는 동작 1의 종료 시각을 표시한다. 시간 P 서브필드는 동작 P의 지속 시간 또는 동작 P의 종료 시각을 표시한다. 시간 1 서브필드가 동작 1의 지속 시간을 표시하고, 시간 P 서브필드가 동작 P의 지속 시간을 표시할 때, 각각의 동작은 지속 시간별로 표현되는 의미가 상이하다. 동작이 송신 동작이면, 지속 시간은 송신된 패킷의 패킷 길이를 나타낸다. 동작이 송신 스키핑 동작(skipping sending action)이면, 지속 시간은 패킷을 송신 스키핑하기 위한 지속 시간을 나타낸다.

N개의 STA에 대해서는, 각각의 STA에 의해 보고되는 동작 정보가 제1 프레임으로 반송되며, 각각의 STA에 의해 AP로 보고되는 동작 정보는 STA가 마지막으로 동작 정보를 성공적으로 보고하는 시점과 STA가 마지막으로 동작 정보를 성공적으로 보고한 이후의 각 동작 및 각 동작의 지속 시간이나 종료 시각을 포함하고 있다는 것을 알 수 있다.

또 다른 선택적인 구현예에서, AP가 N개의 STA에 의해 개별적으로 보고되는 동작 정보를 수신하면, 동작 정보는 STA에 의해 보고되는 제1 프레임의 동작 상세 필드로 반송된다. 동작 상세 필드는 시간 1 표시 서브필드, 동작 1 서브필드, …, 시간 P 표시 서브필드 및 동작 P 서브필드를 포함하는데, 여기서, P는 양의 정수이다.

동작 1 서브필드는, STA가 마지막으로 제1 응답 정보를 성공적으로 수신한 후의 제1 동작을 표시한다. 동작 P 서브필드는 STA가 마지막으로 제1 응답 정보를 성공적으로 수신한 시점과 현재 시점 사이의 제P 동작을 표시한다. 제1 응답 정보는 AP가 STA에 의해 송신된 동작 정보를 성공적으로 수신할 때에 송신되는 응답 정보이다. 다시 말해서, 동작 1 서브필드는 STA가 마지막으로 동작 정보를 성공적으로 보고한 후의 제1 동작을 표시하고, 동작 P 서브필드는 STA가 마지막으로 동작 정보를 성공적으로 보고하는 시점과 현재 시점 사이의 마지막 동작을 표시한다. 시간 1 표시 서브필드는 동작 1의 시작 시각을 표시한다. 시간 P 표시 서브필드는 동작 P의 시작 시각을 표시한다.

N개의 STA에 대해서는, 각각의 STA에 의해 보고되는 동작 정보가 제1 프레임으로 반송되며, 각각의 STA에 의해 AP에 보고되는 동작 정보는 STA가 마지막으로 동작 정보를 성공적으로 보고한 후의 각 동작과 각 동작의 시작 시각을 포함한다는 것을 알 수 있다.

또 다른 선택적인 구현예에서, AP가 N개의 STA에 의해 개별적으로 보고되는 동작 정보를 수신할 때, 동작 정보는 STA에 의해 보고되는 제1 프레임의 동작 상세 필드로 반송된다. 동작 상세 필드는 시간 1 표시 서브필드, 지속 시간 1 서브필드, …, 시간 K 표시 서브필드, 지속 시간 K 서브필드를 포함하는데, 여기서, K는 양의 정수이다.

시간 1 표시 서브필드는 동작 1의 시작 시각/종료 시각을 표시한다. 동작 1은 STA가 처음으로 패킷을 송신하고 마지막으로 제1 응답 정보를 성공적으로 수신한 후에 제2 응답 정보를 수신하지 않을 때 수행되는 송신 동작이다. 제1 응답 정보는 AP가 STA에 의해 송신된 동작 정보를 성공적으로 수신할 때에 송신되는 응답 정보이다. 제2 응답 정보는 AP가 STA에 의해 송신된 패킷을 성공적으로 수신할 때에 송신되는 응답 정보이다. 지속 시간 1 서브필드는 동작 1의 지속 시간을 표시한다.

시간 K 표시 서브필드는 동작 K의 시작 시각/종료 시각을 표시한다. 동작 K는 STA가 제K 시간에 대한 패킷을 송신하고 마지막으로 제1 응답 정보를 성공적으로 수신한 후에 제2 응답 정보를 수신하지 않을 때 수행되는 송신 동작이다. 지속 시간 K 서브필드는 동작 K의 지속 시간을 표시한다.

N개의 STA에 대해서는, 각각의 STA에 의해 보고되는 동작 정보가 제1 프레임으로 반송되며, 각각의 STA에 의해 AP로 보고되는 동작 정보는 STA가 마지막으로 동작 정보를 성공적으로 보고한 후에 패킷을 송신하고 실패할 때마다의 송신 동작의 시작 시각/종료 시각, 및 패킷의 송신에 실패할 때마다 송신되는 패킷의 지속 시간을 포함한다는 것을 알 수 있다.

또 다른 선택적인 구현예에서, AP가 N개의 STA에 의해 개별적으로 보고되는 동작 정보를 수신할 때, 동작 정보는 STA에 의해 보고되는 제1 프레임의 동작 상세 필드로 반송된다. 동작 상세 필드는 제1 시간 1 표시 서브필드, 제2 시간 1 표시 서브필드, …, 제1 시간 K 표시 서브필드 및 제2 시간 K 표시 서브필드를 포함하는데, 여기서, K는 양의 정수이다.

제1 시간 1 서브필드는 동작 1의 시작 시각을 표시한다. 제1 시간 K 서브필드는 동작 K의 시작 시각을 표시한다. 동작 1은 STA가 처음으로 패킷을 송신하고, 마지막으로 제1 응답 정보를 성공적으로 수신하고 나서 제2 응답 정보를 수신하지 않을 때에 수행되는 송신 동작이다. 동작 K는 STA가 제K 시간에 대한 패킷을 송신하고, 마지막으로 제1 응답 정보를 성공적으로 수신하고 나서 제2 응답 정보를 수신하지 않을 때에 수행되는 송신 동작이다. 제1 응답 정보는 AP가 STA에 의해 송신된 동작 정보를 성공적으로 수신할 때에 송신되는 응답 정보이다. 제2 응답 정보는 AP가 STA에 의해 송신된 패킷을 성공적으로 수신할 때에 송신되는 응답 정보이다. 다시 말해서, 동작 1은 대응하는 STA가 마지막으로 동작 정보를 성공적으로 보고한 후에 처음으로 패킷을 송신하는 데 실패한 동작이며, 동작 K는 STA가 마지막으로 동작 정보를 성공적으로 보고한 후에 제K 시간에 대해 패킷을 송신하는 데 실패한 동작이다.

제2 시간 1 표시 서브필드는 동작 1의 종료 시각을 표시한다. 제2 시간 K 표시 서브필드는 동작 K의 종료 시각을 표시한다.

N개의 STA에 대해서는, 각각의 STA에 의해 보고되는 동작 정보가 제1 프레임으로 반송되며, 각각의 STA에 의해 AP에 보고되는 동작 정보는 STA가 마지막으로 동작 정보를 성공적으로 보고한 후에 패킷을 송신하고 실패할 때마다의 송신 동작의 시작 시각과 종료 시각을 포함한다는 것을 알 수 있다.

추가의 선택적인 구현예에서, AP가 N개의 STA에 의해 개별적으로 보고되는 동작 정보 및 캐리어 감지 결과 정보를 수신할 때, 동작 정보 및 캐리어 감지 결과 정보는 STA에 의해 보고되는 제1 프레임의 동작 상세 필드로 반송된다. 동작 상세 필드는 시간 표시 서브필드(time indication subfield) 및 데이터 1 서브필드 내지 데이터 T 서브필드를 포함하는데, 여기서, T는 양의 정수이다.

시간 표시 서브필드는 STA가 마지막으로 제1 응답 정보를 성공적으로 수신하는 시점을 표시한다. 제1 응답 정보는 AP가 STA에 의해 송신된 동작 정보를 성공적으로 수신할 때에 송신되는 응답 정보이다.

데이터 1 서브필드는 STA가 마지막으로 제1 응답 정보를 성공적으로 수신한 후에 제1 슬롯에서 수행되는 동작 및 캐리어 감지 결과를 표시한다. 데이터 T 서브필드는 STA가 마지막으로 제1 응답 정보를 성공적으로 수신한 후에 제T 슬롯에서 수행되는 동작 및 캐리어 감지 결과를 표시한다.

N개의 STA에 대해서는, 각각의 STA에 의해 보고되는 동작 정보와 캐리어 감지 결과 정보가 제1 프레임으로 반송되며, 각각의 STA에 의해 AP로 보고되는 정보는 STA가 마지막으로 동작 정보를 성공적으로 보고하는 시점, 및 STA가 마지막으로 동작 정보를 성공적으로 보고한 이후에 각각의 슬롯에서 수행되는 동작 및 캐리어 감지 결과를 포함한다는 것을 알 수 있다.

추가의 선택적인 구현예에서, AP가 N개의 STA에 의해 개별적으로 보고되는 동작 정보 및 패킷 전송 결과 정보를 수신할 때, 동작 정보 및 패킷 전송 결과 정보는 STA에 의해 보고되는 제1 프레임의 동작 상세 필드로 반송된다. 동작 상세 필드는 시간 표시 서브필드(time indication subfield) 및 데이터 1 서브필드 내지 데이터 T 서브필드를 포함하는데, 여기서, T는 양의 정수이다.

데이터 1 서브필드는 STA가 마지막으로 제1 응답 정보를 성공적으로 수신한 후에 제1 슬롯에서 수행되는 동작 및 패킷 전송 결과를 표시한다. 데이터 T 서브필드는 STA가 마지막으로 제1 응답 정보를 성공적으로 수신한 후에 제T 슬롯에서 수행되는 동작 및 패킷 전송 결과를 표시한다.

N개의 STA에 대해서는, 각각의 STA에 의해 보고되는 동작 정보와 패킷 전송 결과 정보가 제1 프레임으로 반송되며, 각각의 STA에 의해 AP로 보고되는 정보는 STA가 마지막으로 동작 정보를 성공적으로 보고하는 시점, 및 STA가 마지막으로 동작 정보를 성공적으로 보고한 이후에 각각의 슬롯에서 수행되는 동작과 패킷 전송 결과를 포함한다는 것을 알 수 있다.

선택적인 구현예에서, AP가 N개의 동작 정보에 기초하여 각각의 STA의 제1 신경망의 훈련 결과를 결정하는 것은 다음과 같다. AP는 각각의 STA의 상태 정보를 대응하는 STA의 제1 신경망에 입력하여, 제1 신경망의 출력을 획득하고; AP는 각각의 제1 신경망의 출력을 제2 신경망에 입력하여, 제2 신경망의 출력을 획득하되, 여기서, 제2 신경망의 출력은 사전 설정된 시간 내에서의 기대 보상을 나타내며; AP는 제2 신경망의 출력과 보상 함수에 기초하여 제3 신경망을 훈련시키고, 제3 신경망의 손실 함수를 최소화하여 각각의 제1 신경망의 훈련 결과를 결정하되, 여기서, 제3 신경망은 각각의 제1 신경망과 제2 신경망을 포함한다.

STA의 상태 정보는 STA의 동작 정보에 기초하여 획득되고, 제2 신경망의 신경망 파라미터는 N개의 동작 정보에 기초하여 획득되며, 보상 함수는 N개의 동작 정보에 기초하여 결정된다.

아울러, STA의 상태 정보는 STA의 캐리어 감지 결과 정보와 동작 정보에 기초하여 획득되고, 제2 신경망의 신경망 파라미터는 N개의 동작 정보와 N개의 캐리어 감지 결과 정보에 기초하여 획득되며, 보상 함수는 N개의 동작 정보와 N개의 캐리어 감지 결과 정보에 기초하여 결정된다.

대안적으로, STA의 상태 정보는 STA의 동작 정보와 패킷 전송 결과 정보에 기초하여 획득되고, 제2 신경망의 신경망 파라미터는 N개의 동작 정보와 N개의 패킷 전송 결과 정보에 기초하여 획득되며, 보상 함수는 N개의 동작 정보와 N개의 패킷 전송 결과 정보에 기초하여 결정된다.

AP는 각각의 STA에 의해 보고되는 정보에 기초하여 획득된 상태 정보를 먼저 STA의 제1 신경망에 입력하여, 각각의 제1 신경망의 출력을 획득하고 나서, N개의 제1 신경망의 출력을 제2 신경망에 입력하여, 제2 신경망의 출력을 획득하고 나서, 손실 함수에 기초하여 제3 신경망을 훈련시켜, 최종적으로 제1 신경망의 훈련 결과를 획득한다는 것을 알 수 있다. 각각의 STA의 제1 신경망의 훈련 결과는 STA의 정보만이 아닌, N개의 STA에 의해 보고되는 정보에 기초하여 결정된다. 이것은 각각의 STA의 능력을 개선하여, 다른 STA의 채널 액세스 거동(channel access behavior)을 예측하는 데 도움을 준다.

선택적인 구현예에서, N개의 동작 정보에 기초하여 제1 STA가 패킷을 성공적으로 송신한다고 결정하면, AP는 보상 함수의 값을 1로 설정한다. 제1 STA는 N개의 STA 중에서 마지막으로 제2 응답 정보가 성공적으로 수신된 시점과 현재 시점 사이에서 시간 간격이 가장 긴 STA이다.

N개의 STA에 의해 보고되는 정보에 기초하여 마지막으로 패킷을 성공적으로 송신한 이후에 시간 간격이 가장 긴 STA를 결정하면, AP는 보상 함수의 값을 1로 설정한다는 것을 알 수 있다.

다른 선택적인 구현예에서, N개의 동작 정보에 기초하여 제2 STA가 패킷을 성공적으로 송신한다고 결정할 때, AP는 보상 함수의 값을 제1 지속 시간 빼기 1로 설정한다. 제2 STA는 N개의 STA 중에서 제1 STA가 아닌 STA이고, 제1 STA는, N개의 STA 중에서, 마지막으로 제2 응답 정보가 성공적으로 수신된 시점과 현재 시점 사이에서 시간 간격이 가장 긴 STA이다. 제1 지속 시간은 제2 STA가 마지막으로 제2 응답 정보를 성공적으로 수신한 시점과 현재 시점 사이의 지속 시간이다.

N개의 STA에 의해 보고되는 정보에 기초하여, 패킷이 성공적으로 송신된 이후에 시간 간격이 가장 긴 STA 이외의 STA가 패킷을 성공적으로 송신한다고 AP가 결정하면, AP는 보상 함수의 값을 시간 간격(STA가 마지막으로 패킷을 성공적으로 송신한 이후) 빼기 1로 설정한다는 것을 알 수 있다.

또 다른 선택적인 구현예에서, N개의 동작 정보에 기초하여 N개의 STA 중에서 M개의 STA가 동일한 슬롯 내에서 패킷을 송신한다고 결정하면, AP는 보상 함수의 값을 -1로 설정한다. M은 N 이하의 양의 정수이다. N개의 STA에 의해 보고되는 정보에 기초하여, N개의 STA 중에서 일부 STA가 동일한 슬롯 내에서 패킷을 송신한다고 결정하면, AP는 보상 함수를 -1로 설정한다는 것을 알 수 있다.

또 다른 선택적인 구현예에서, N개의 동작 정보에 기초하여 N개의 STA 중 어느 것도 동일한 슬롯에서 패킷을 송신하지 않는다고 결정하면, AP는 보상 함수의 값을 0으로 설정한다. N개의 STA에 의해 보고되는 정보에 기초하여 N개의 STA 중 어느 것도 동일한 슬롯에서 패킷을 송신하지 않는다고 결정하면, AP는 보상 함수의 값을 0으로 설정한다는 것을 알 수 있다.

선택적인 구현예에서, N개의 STA는 신경망 파라미터를 공유한다. 이 경우, AP가 각각의 STA의 제1 신경망의 훈련 결과를 대응하는 STA로 송신하는 것은 다음과 같다. AP는 제1 신경망의 훈련 결과를 N개의 STA에 브로드캐스팅한다. N개의 STA가 신경망 파라미터를 공유할 때, AP는 N개의 STA에 의해 보고되는 정보에 기초하여 각각의 제1 신경망을 훈련시켜 동일한 훈련 결과를 획득하고, AP는 훈련 결과를 브로드캐스팅을 통해 각각의 STA에 통지할 수 있으므로, 시스템 시그널링 오버헤드를 감소시킬 수 있다는 것을 알 수 있다.

또 다른 선택적인 구현예에서, N개의 STA 중에서 S개의 STA는 신경망 파라미터를 공유하는데, 여기서, S는 N 이하의 양의 정수이다. AP가 각각의 STA의 제1 신경망의 훈련 결과를 대응하는 STA로 송신한다는 것은 다음과 같다. AP는 S개의 STA에 대응하는 제1 신경망의 훈련 결과를 S개의 STA에 멀티캐스팅하고, (N-S)개의 제1 신경망의 훈련 결과를 대응하는 STA에 유니캐스팅한다. N개의 STA 중에서 일부 STA가 신경망 파라미터를 공유할 때, AP는 멀티캐스팅을 통해 공유된 신경망 파라미터에 대응하는 훈련 결과를 일부 STA에 통지할 수 있고, 비공유된 신경망 파라미터에 대응하는 훈련 결과를 유니캐스트 방식으로 다른 STA에 유니캐스팅할 수 있다는 것을 알 수 있다. 이러한 방식으로, 하나의 신경망 파라미터를 공유하는 STA의 훈련 결과는 멀티캐스팅을 통해 통지되므로, 시스템 오버헤드도 감소될 수 있다.

또 다른 선택적인 구현예에서, N개의 STA가 신경망 파라미터를 공유하지 않을 때, 각각의 제1 신경망의 훈련 결과는 대응하는 STA에 유니캐스팅된다.

제2 양태에 따르면, 본 출원은 채널 액세스 방법을 추가로 제공한다. 본 양태에 따른 채널 액세스 방법은 제1 양태에 따른 채널 액세스 방법에 대응하며, 본 양태에 따른 채널 액세스 방법은 스테이션(station, STA)에서 설명된다. 이 방법에서, 스테이션(station, STA)은 액세스 포인트(access point, AP)에 동작 정보를 보고하는데, 여기서, 동작 정보는 제1 신경망의 훈련 결과를 결정하는 데 사용되며, 제1 신경망은 STA의 신경망이다. STA는 AP로부터 제1 신경망의 훈련 결과를 수신하는데, 여기서, 제1 신경망의 훈련 결과는 동작 정보에 기초하여 획득되고, 제1 신경망의 훈련 결과는 제1 신경망을 업데이트하는 데 사용되어, STA가 채널에 액세스할지 여부를 결정한다. STA는 제1 신경망의 훈련 결과에 기초하여 제1 신경망을 업데이트하고, 채널이 유휴 상태인 것을 감지할 때, 업데이트된 제1 신경망 및 현재 상태 정보에 기초하여, 채널에 액세스할지 여부를 결정한다.

본 출원의 실시예에서, STA는 동작 정보를 AP에 보고하고, 동작 정보에 기초하여 제1 신경망을 훈련함으로써 AP에 의해 획득된 훈련 결과를 수신하여, STA가 훈련 결과에 기초하여 제1 신경망을 업데이트하도록 하고, 채널이 유휴 상태인 것을 감지할 때, 업데이트된 제1 신경망과 감지된 동작 정보에 기초하여, 채널에 액세스할지 여부를 결정한다는 것을 알 수 있다. 각각의 제1 신경망을 업데이트하기 위한 훈련 결과는, N개의 STA에 의해 보고되는 동작 정보에 기초하여, AP에 의해 결정되므로, 제1 신경망은 예측 가능성(predictability)이 더 향상된다. STA가, 업데이트된 제1 신경망에 기초하여, 채널에 액세스할지 여부를 결정하면, 채널에 액세스할지 또는 액세스를 스킵할지 여부를 결정하는 정확도가 더 향상된다. 이것은 통신 시스템 스루풋을 개선하고, 통신 대기 시간을 감소시킨다.

선택적인 구현예에서, STA는 캐리어 감지 결과 정보 또는 패킷 전송 결과 정보를 AP에 추가로 보고하는데, 여기서, 캐리어 감지 결과 정보 또는 패킷 전송 결과 정보는 제1 신경망의 훈련 결과를 결정하는 데 사용된다. STA는, AP에 동작 정보를 보고하는 것 외에, 캐리어 감지 결과 정보나 패킷 전송 결과 정보를 AP에 더 보고할 수 있으므로, N개의 STA에 의해 보고되는 정보에 기초하여 AP가 직접 제1 신경망을 훈련시킬 수 있어, AP의 처리 복잡도를 감소시킬 수 있다는 것을 알 수 있다.

선택적인 구현예에서, 훈련 결과는 신경망 파라미터 또는 그래디언트이고; 캐리어 감지 결과 정보 또는 패킷 전송 결과 정보는 제1 신경망의 훈련 결과를 결정하는 데 사용된다.

선택적인 구현예에서, STA가 동작 정보를 보고할 때, 동작 정보는 제1 프레임의 동작 상세 필드로 반송된다. 동작 상세 필드는 시간 표시 서브필드(time indication subfield) 및 데이터 1 서브필드 내지 데이터 T 서브필드를 포함하는데, 여기서, T는 양의 정수이다.

STA에 의해 보고되는 동작 정보가 제1 프레임으로 반송되며, STA에 의해 AP로 보고되는 동작 정보는 STA가 마지막으로 동작 정보를 성공적으로 보고하는 시점과, 마지막으로 동작 정보가 성공적으로 보고되는 후에 제1 슬롯 내지 제T 슬롯에서의 동작을 포함한다는 것을 알 수 있다.

또 다른 선택적인 구현예에서, STA가 동작 정보를 보고할 때, 동작 정보는 STA에 의해 보고되는 제1 프레임의 동작 상세 필드로 반송된다. 동작 상세 필드는 시간 표시 서브필드, 동작 1 서브필드, 시간 1 서브필드, …, 동작 P 서브필드, 시간 P 서브필드를 포함하는데, 여기서, P는 양의 정수이다.

시간 1 서브필드는 동작 1의 지속 시간 또는 동작 1의 종료 시각을 표시한다. 시간 P 서브필드는 동작 P의 지속 시간 또는 동작 P의 종료 시각을 표시한다. 시간 1 서브필드가 동작 1의 지속 시간을 표시하고, 시간 P 서브필드가 동작 P의 지속 시간을 표시할 때, 상이한 동작은 지속 시간별로 표현되는 의미가 상이하다. 동작이 송신 동작일 때, 지속 시간은 송신된 패킷의 패킷 길이를 나타낸다. 동작이 송신 스키핑 동작일 때, 지속 시간은 패킷을 송신 스키핑하기 위한 지속 시간을 나타낸다.

STA에 의해 보고되는 동작 정보가 제1 프레임으로 반송되며, STA에 의해 AP로 보고되는 동작 정보는 STA가 마지막으로 동작 정보를 성공적으로 보고하는 시점과 STA가 마지막으로 동작 정보를 성공적으로 보고한 이후의 각 동작, 및 각 동작의 지속 시간이나 종료 시각을 포함하고 있다는 것을 알 수 있다.

또 다른 선택적인 구현예에서, STA가 동작 정보를 보고할 때, 동작 정보는 STA에 의해 보고되는 제1 프레임의 동작 상세 필드로 반송된다. 동작 상세 필드는 시간 1 표시 서브필드, 동작 1 서브필드, …, 시간 P 표시 서브필드 및 동작 P 서브필드를 포함하는데, 여기서, P는 양의 정수이다.

STA에 의해 보고되는 동작 정보가 제1 프레임으로 반송되며, STA에 의해 AP에 보고되는 동작 정보는 STA가 마지막으로 동작 정보를 성공적으로 보고한 후의 각 동작과 각 동작의 시작 시각을 포함한다는 것을 알 수 있다.

또 다른 선택적인 구현예에서, STA가 동작 정보를 보고할 때, 동작 정보는 STA에 의해 보고되는 제1 프레임의 동작 상세 필드로 반송된다. 동작 상세 필드는 시간 1 표시 서브필드, 지속 시간 1 서브필드, …, 시간 K 표시 서브필드, 지속 시간 K 서브필드를 포함하는데, 여기서, K는 양의 정수이다.

시간 1 표시 서브필드는 동작 1의 시작 시각/종료 시각을 표시한다. 동작 1은 STA가 처음으로 패킷을 송신하고 마지막으로 제1 응답 정보를 성공적으로 수신한 후에 제2 응답 정보를 수신하지 않을 때에 수행되는 송신 동작이다. 제1 응답 정보는 AP가 STA에 의해 송신된 동작 정보를 성공적으로 수신할 때에 송신되는 응답 정보이다. 제2 응답 정보는 AP가 STA에 의해 송신된 패킷을 성공적으로 수신할 때에 송신되는 응답 정보이다. 지속 시간 1 서브필드는 동작 1의 지속 시간을 표시한다.

시간 K 표시 서브필드는 동작 K의 시작 시각/종료 시각을 표시한다. 동작 K는 STA가 제K 시간에 대한 패킷을 송신하고 마지막으로 제1 응답 정보를 성공적으로 수신한 후에 제2 응답 정보를 수신하지 않을 때에 수행되는 송신 동작이다. 지속 시간 K 서브필드는 동작 K의 지속 시간을 표시한다.

STA에 의해 보고되는 동작 정보가 제1 프레임으로 반송되며, STA에 의해 AP로 보고되는 동작 정보는 STA가 마지막으로 동작 정보를 성공적으로 보고한 후에 패킷을 송신하고 실패할 때마다의 송신 동작의 시작 시각/종료 시각, 및 패킷의 전송을 실패할 때마다의 패킷의 지속 시간을 포함한다는 것을 알 수 있다.

또 다른 선택적인 구현예에서, STA가 동작 정보를 보고할 때, 동작 정보는 STA에 의해 보고되는 제1 프레임의 동작 상세 필드로 반송된다. 동작 상세 필드는 제1 시간 1 표시 서브필드, 제2 시간 1 표시 서브필드, …, 제1 시간 K 표시 서브필드 및 제2 시간 K 표시 서브필드를 포함하는데, 여기서, K는 양의 정수이다.

제1 시간 1 서브필드는 동작 1의 시작 시각을 표시한다. 제1 시간 K 서브필드는 동작 K의 시작 시각을 표시한다. 동작 1은 STA가 처음으로 패킷을 송신하고 마지막으로 제1 응답 정보를 성공적으로 수신한 후에 제2 응답 정보를 수신하지 않을 때에 수행되는 송신 동작이다. 동작 K는 STA가 제K 시간에 대한 패킷을 송신하고 마지막으로 제1 응답 정보를 성공적으로 수신한 후에 제2 응답 정보를 수신하지 않을 때에 수행되는 송신 동작이다. 제1 응답 정보는 AP가 STA에 의해 송신된 동작 정보를 성공적으로 수신할 때에 송신되는 응답 정보이다. 제2 응답 정보는 AP가 STA에 의해 송신된 패킷을 성공적으로 수신할 때에 송신되는 응답 정보이다. 다시 말해서, 동작 1은 대응하는 STA가 마지막으로 동작 정보를 성공적으로 보고한 후에 처음으로 패킷을 송신하는 데 실패한 동작이며, 동작 K는 STA가 마지막으로 동작 정보를 성공적으로 보고한 후에 제K 시간에 대해 패킷을 송신하는 데 실패한 동작이다.

STA에 의해 보고되는 동작 정보가 제1 프레임으로 반송되며, STA에 의해 AP로 보고되는 동작 정보는 STA가 마지막으로 동작 정보를 성공적으로 보고한 후에 패킷을 송신하고 실패할 때마다의 송신 동작의 시작 시각과 종료 시각을 포함한다는 것을 알 수 있다.

추가의 선택적인 구현예에서, STA가 동작 정보 및 캐리어 감지 결과 정보를 보고할 때, 동작 정보 및 캐리어 감지 결과 정보는 STA에 의해 보고되는 제1 프레임의 동작 상세 필드로 반송된다. 동작 상세 필드는 시간 표시 서브필드(time indication subfield) 및 데이터 1 서브필드 내지 데이터 T 서브필드를 포함하는데, 여기서, T는 양의 정수이다.

STA에 의해 보고되는 동작 정보와 캐리어 감지 결과 정보가 제1 프레임으로 반송되며, STA에 의해 AP로 보고되는 정보는 STA가 마지막으로 동작 정보를 성공적으로 보고하는 시점, 및 마지막으로 동작 정보를 성공적으로 보고한 이후에 각각의 슬롯에서 수행되는 동작 및 캐리어 감지 결과를 포함한다는 것을 알 수 있다.

추가의 선택적인 구현예에서, STA가 동작 정보 및 패킷 전송 결과 정보를 보고할 때, 동작 정보 및 패킷 전송 결과 정보는 STA에 의해 보고되는 제1 프레임의 동작 상세 필드로 반송된다. 동작 상세 필드는 시간 표시 서브필드(time indication subfield) 및 데이터 1 서브필드 내지 데이터 T 서브필드를 포함하는데, 여기서, T는 양의 정수이다.

STA에 의해 보고되는 동작 정보와 패킷 전송 결과 정보가 제1 프레임으로 반송되며, STA에 의해 AP에 보고되는 정보는 STA가 마지막으로 동작 정보를 성공적으로 보고하는 시점, 및 마지막으로 동작 정보를 성공적으로 보고한 이후에 각각의 슬롯에서 수행되는 동작 및 패킷 전송 결과를 포함한다는 것을 알 수 있다.

선택적인 구현예에서, STA가 제1 신경망의 훈련 결과에 기초하여 제1 신경망을 업데이트하고, 채널이 유휴 상태인 것을 감지할 때, 업데이트된 제1 신경망 및 STA의 현재 상태 정보에 기초하여, 채널에 액세스할지 여부를 결정하는 것은 다음과 같다. STA는 업데이트된 제1 신경망에 STA의 현재 상태 정보를 입력하여 제1 값과 제2 값을 출력하는데, 여기서, 제1 값은 채널에 액세스함으로써 획득되는 기대 보상을 나타내며, 제2 값은 채널에 액세스하는 것을 스킵함으로써 획득되는 기대 보상을 나타내며; 또한 제1 값이 제2 값보다 크면, STA는 채널에 액세스하는 것으로 결정하고; 혹은 제1 값이 제2 값보다 작으면, STA는 채널에 액세스하는 것을 스킵하는 것으로 결정한다.

채널이 유휴 상태인 것을 감지할 때, STA가 감지된 동작 정보를 업데이트된 제1 신경망에 입력하여, 채널에 액세스하는 것에 대한 기대 보상과 채널에 액세스하는 것을 스킵하는 것에 대한 기대 보상을 획득하고, 채널에 액세스하는 것에 대한 기대 보상이 채널에 액세스하는 것을 스킵하는 것에 대한 기대 보상보다 큰 경우, 채널에 액세스하는 것으로 결정한다는 것을 알 수 있다.

제3 양태에 따르면, 본 출원은 또한 통신 장치를 제공한다. 통신 장치는 제1 양태에 따라 AP를 구현하는 기능의 일부 또는 전부를 포함하거나, 제2 양태에 따라 STA를 구현하는 기능의 일부 또는 전부를 포함한다. 예를 들어, 통신 장치의 기능은 본 출원의 제1 양태의 일부 또는 모든 실시예에 따른 AP의 기능을 포함할 수 있거나, 본 출원의 임의의 실시예를 독립적으로 구현하는 기능을 포함할 수 있다. 이 기능은 하드웨어에 의해 구현되거나, 해당 소프트웨어를 실행하는 하드웨어에 의해 구현될 수 있다. 하드웨어 또는 소프트웨어는 기능에 대응하는 하나 이상의 유닛 또는 모듈을 포함한다.

가능한 설계에서, 통신 장치의 구조는 처리 유닛과 통신 유닛을 포함할 수 있다. 처리 유닛은 전술한 방법에서 대응하는 기능을 수행함에 있어 통신 장치를 지원하도록 구성된다. 통신 유닛은 통신 장치와 다른 통신 장치 사이의 통신을 지원하도록 구성된다. 통신 장치는 저장 유닛을 더 포함할 수 있다. 저장 유닛은 처리 유닛 및 통신 유닛과 커플링되도록 구성되며, 저장 유닛은 통신 장치에 필요한 프로그램 명령어 및 데이터를 저장한다.

구현예에서, 통신 장치는:

N개의 스테이션(station, STA)에 의해 개별적으로 보고되는 동작 정보를 수신하도록 구성된 통신 유닛 - N개의 동작 정보는 각각의 STA의 제1 신경망의 훈련 결과를 결정하는 데 사용되며, N은 양의 정수임 - ; 및

N개의 동작 정보에 기초하여, 각각의 STA의 제1 신경망의 훈련 결과를 결정하도록 구성된 처리 유닛을 포함하되,

통신 유닛은 또한 각각의 STA의 제1 신경망의 훈련 결과를 대응하는 STA로 송신하도록 구성된다.

또한, 이러한 양태의 통신 장치의 또 다른 선택적인 구현예에 대해서는, 제1 양태의 관련 내용을 참조한다. 상세는 여기에 다시 설명되지 않는다.

다른 구현예에서, 통신 장치는:

액세스 포인트(access point, AP)에 동작 정보를 보고하도록 구성된 통신 유닛 - 동작 정보는 처리 유닛의 제1 신경망의 훈련 결과를 결정하는 데 사용되고,

통신 유닛은 또한 AP로부터 제1 신경망의 훈련 결과를 수신하도록 구성되는데, 여기서, 제1 신경망의 훈련 결과는 제1 신경망을 업데이트하는 데 사용되어, 처리 유닛이 채널에 액세스할지 여부를 결정함 - ; 및

제1 신경망의 훈련 결과에 기초하여, 제1 신경망을 업데이트하고, 채널이 유휴 상태인 것을 감지할 때, 업데이트된 제1 신경망 및 처리 유닛의 현재 상태 정보에 기초하여 채널에 액세스할지 여부를 결정하도록 구성된 처리 유닛을 포함한다.

또한, 이러한 양태의 통신 장치의 또 다른 선택적인 구현예에 대해서는, 제2 양태의 관련 내용을 참조한다. 상세는 여기에 다시 설명되지 않는다.

예를 들어, 통신 유닛은 트랜시버 또는 통신 인터페이스일 수 있고, 저장 유닛은 메모리일 수 있으며, 처리 유닛은 프로세서일 수 있다.

구현예에서, 통신 장치는:

N개의 스테이션(station, STA)에 의해 개별적으로 보고되는 동작 정보를 수신하도록 구성된 트랜시버 - N개의 동작 정보는 각각의 STA의 제1 신경망의 훈련 결과를 결정하는 데 사용되며, N은 양의 정수임 - ; 및

N개의 동작 정보에 기초하여, 각각의 STA의 제1 신경망의 훈련 결과를 결정하도록 구성된 프로세서를 포함하되,

트랜시버는 또한 각각의 STA의 제1 신경망의 훈련 결과를 대응하는 STA로 송신하도록 구성된다.

다른 구현예에서, 통신 장치는:

액세스 포인트(access point, AP)에 동작 정보를 보고하도록 구성된 트랜시버 - 동작 정보는 프로세서의 제1 신경망의 훈련 결과를 결정하는 데 사용되고,

트랜시버는 또한 AP로부터 제1 신경망의 훈련 결과를 수신하도록 구성되는데, 여기서, 제1 신경망의 훈련 결과는 제1 신경망을 업데이트하는 데 사용되어, 프로세서가 채널에 액세스할지 여부를 결정함 - ; 및

제1 신경망의 훈련 결과에 기초하여, 제1 신경망을 업데이트하고, 채널이 유휴 상태인 것을 감지할 때, 업데이트된 제1 신경망 및 프로세서의 현재 상태 정보에 기초하여 채널에 액세스할지 여부를 결정하도록 구성된 프로세서를 포함한다.

또 다른 구현예에서, 통신 장치는 칩 또는 칩 시스템이다. 처리 유닛은 또한 프로세싱 회로 또는 논리 회로로 표현될 수 있다. 통신 유닛은 칩 또는 칩 시스템 상의 입력/출력 인터페이스, 인터페이스 회로, 출력 회로, 입력 회로, 핀, 관련 회로 등일 수 있다.

구현예 프로세스에서, 프로세서는, 예를 들어, 베이스밴드 관련 처리를 수행하도록 구성될 수 있지만, 이것으로 제한되는 것은 아니고; 트랜시버는, 예를 들어, 라디오 주파수 수신 및 전송을 수행하도록 구성될 수 있지만, 이것으로 제한되는 것은 아니다. 전술한 구성요소는 서로 독립적인 칩 상에 개별적으로 배치될 수 있거나, 구성요소의 적어도 일부 또는 전부가 동일한 칩 상에 배치될 수 있다. 예를 들어, 프로세서는 아날로그 베이스밴드 프로세서와 디지털 베이스밴드 프로세서로 구분될 수 있다. 아날로그 베이스밴드 프로세서와 트랜시버는 동일한 칩 상에 집적될 수 있고, 디지털 베이스밴드 프로세서는 독립된 칩 상에 배치될 수 있다. 집적회로 기술이 지속적으로 발전함에 따라, 증가하는 구성요소의 수량은 동일한 칩 상에 집적될 수 있다. 예를 들어, 디지털 베이스밴드 프로세서와 복수의 애플리케이션 프로세서(그래픽 처리 유닛, 멀티미디어 프로세서 등을 포함하되 이들로 제한되는 것은 아님)가 동일한 칩 상에 통합될 수 있다. 이와 같은 칩은 시스템 온 칩(System-on-a-Chip, SoC)으로 지칭될 수 있다. 구성요소가 상이한 칩 상에 개별적으로 배치되는지 또는 하나 이상의 칩 상에 통합되어 배치되는지 여부는 보통 제품 설계의 요구 사항에 따라 달라진다. 전술한 구성요소의 구현 형태는 본 출원의 이러한 실시예로 제한되는 것은 아니다.

제4 양태에 따르면, 본 출원은 또한 전술한 방법을 수행하도록 구성된 프로세서를 제공한다. 이들 방법을 수행하는 프로세스에 있어서, 전술한 방법에서 전술한 정보를 송신하는 프로세스와 전술한 정보를 수신하는 프로세스는 프로세서에 의해 전술한 정보를 출력하는 프로세스와 프로세서에 의해 전술한 입력 정보를 수신하는 프로세스로 이해될 수 있다. 정보를 출력할 때, 프로세서는 정보를 트랜시버로 출력하여, 트랜시버가 전송을 수행하도록 한다. 정보가 프로세서에 의해 출력된 후에, 정보가 트랜시버에 도달하기 전에 정보에 대해 다른 처리가 또한 수행되어야 할 수 있다. 유사하게, 프로세서가 전술한 입력 정보를 수신할 때, 트랜시버는 전술한 정보를 수신하고, 전술한 정보를 프로세서에 입력한다. 아울러, 트랜시버가 전술한 정보를 수신한 후에, 정보가 프로세서에 입력되기 전에 전술한 정보에 대해 다른 처리가 수행되어야 할 수 있다.

전술한 원리에 기초하여, 예를 들어, 전술한 방법에서 언급된 보고 동작 정보는 프로세서가 동작 정보를 출력하는 것으로 이해될 수 있다.

달리 명시하지 않는 한, 또는 프로세서와 관련된 전송, 송신 및 수신과 같은 동작이 관련 설명에서 동작의 실제 기능이나 내부 논리와 모순되지 않는 경우, 모든 동작은 보다 일반적으로 라디오 주파수 회로와 안테나에 의해 직접 수행되는 전송, 송신 및 수신과 같은 동작 대신 프로세서의 출력, 수신 및 입력과 같은 동작으로 이해될 수 있다.

구현 프로세스에서, 프로세서는 이들 방법을 수행하도록 특별히 구성된 프로세서, 또는 이러한 방법들을 수행하기 위해 메모리에서 컴퓨터 명령어를 실행하는 프로세서, 예를 들어, 범용 프로세서일 수 있다. 메모리는 비일시적(non-transitory) 메모리, 예를 들어, 읽기 전용 메모리(Read-Only Memory, ROM)일 수 있다. 메모리와 프로세서는 동일한 칩 상에 집적될 수 있거나, 상이한 칩 상에 개별적으로 배치될 수 있다. 메모리의 유형, 및 메모리와 프로세서의 배치 방식은 본 출원의 이러한 실시예로 제한되는 것은 아니다.

제5 양태에 따르면, 본 출원은 또한 통신 시스템을 제공한다. 전술한 양태에서, 시스템은 적어도 하나의 AP와 적어도 2개의 STA를 포함한다. 다른 가능한 설계에서, 시스템은 본 출원에서 제공되는 솔루션에서 AP 및 STA와 상호 작용하는 다른 디바이스를 더 포함할 수 있다.

제6 양태에 따르면, 본 출원은 명령어를 저장하도록 구성된 컴퓨터 판독 가능 저장 매체를 제공한다. 명령어가 통신 장치에 의해 실행되는 경우, 제1 양태 및 제2 양태 중 어느 하나에 따른 방법이 구현된다.

제 7 양태에 따르면, 본 출원은 또한 명령어를 포함하는 컴퓨터 프로그램 제품을 제공한다. 컴퓨터 프로그램 제품이 통신 장치에서 구동되는 경우, 통신 장치는 제1 양태 또는 제2 양태 중 어느 하나에 따른 방법을 수행하도록 활성화된다.

제 8 양태에 따르면, 본 출원은 칩 시스템을 제공한다. 칩 시스템은 프로세서와 인터페이스를 포함한다. 인터페이스는 프로그램 또는 명령어를 획득하도록 구성된다. 프로세서는 제1 양태의 기능을 구현하는 데 있어 AP를 구현 또는 지원하기 위한 프로그램이나 명령어를 호출하도록 구성되거나, 제2 양태의 기능을 구현하는 데 있어 STA를 구현 또는 지원하기 위한 프로그램이나 명령어를 호출하도록 구성되며, 예를 들어, 전술한 방법으로 데이터 및 정보 중 적어도 하나를 결정하거나 처리하는 것을 포함한다. 가능한 설계에서, 칩 시스템에는 메모리가 더 포함된다. 메모리는 단말에 필요한 프로그램 명령어 및 데이터를 저장하도록 구성된다. 칩 시스템은 칩을 포함하거나, 칩 및 다른 개별 부품을 포함할 수 있다.

제 9 양태에 따르면, 본 출원은 메모리에 저장된 컴퓨터 프로그램 또는 실행 가능한 명령어를 실행하도록 구성된 프로세서를 포함하는 통신 장치를 제공하는데, 여기서, 컴퓨터 프로그램 또는 실행 가능한 명령어가 실행되는 경우, 장치는 제1 양태 및 제1 양태의 가능한 구현예 중 어느 하나에 따른 방법을 수행할 수 있다.

가능한 구현예에서, 프로세서와 메모리는 함께 통합된다.

다른 가능한 구현예에서, 메모리는 통신 장치 외부에 위치된다.

제10 양태에 따르면, 본 출원은 메모리에 저장된 컴퓨터 프로그램 또는 실행 가능한 명령어를 실행하도록 구성된 프로세서를 포함하는 통신 장치를 제공하는데, 여기서, 컴퓨터 프로그램 또는 실행 가능한 명령어가 실행되는 경우, 장치는 제2 양태 및 제2 양태의 가능한 구현예 중 어느 하나에 따른 방법을 수행할 수 있다.

가능한 구현예에서, 프로세서와 메모리는 함께 통합된다.

도 1은 본 출원의 일 실시예에 따른 통신 시스템의 구조에 대한 개략도이다.
도 2는 본 출원의 일 실시예에 따른 CSMA/CA 메커니즘을 사용하여 채널 충돌을 회피하는 개략도이다.
도 3은 본 출원의 일 실시예에 따른 채널 액세스 방법의 개략적인 상호 작용도이다.
도 4는 본 출원의 일 실시예에 따른 프레임 구조의 개략도이다.
도 5는 본 출원의 일 실시예에 따른 다른 프레임 구조의 개략도이다.
도 6a는 본 출원의 일 실시예에 따른 훈련 데이터 요소 포맷의 개략도이다.
도 6b는 본 출원의 일 실시예에 따른 다른 훈련 데이터 요소 포맷의 개략도이다.
도 6c는 본 출원의 일 실시예에 따른 또 다른 훈련 데이터 요소 포맷의 개략도이다.
도 6d는 본 출원의 일 실시예에 따른 또 다른 훈련 데이터 요소 포맷의 개략도이다.
도 6e는 본 출원의 일 실시예에 따른 추가 훈련 데이터 요소 포맷의 개략도이다.
도 7은 본 출원의 일 실시예에 따른 신경망의 구조에 대한 개략도이다.
도 8은 본 출원의 일 실시예에 따른 채널을 감지하는 개략도이다.
도 9는 본 출원의 일 실시예에 따른 신경망 훈련의 구조에 대한 개략도이다.
도 10은 본 출원의 일 실시예에 따른 신경망의 구조에 대한 개략도이다.
도 11은 본 출원의 일 실시예에 따른 채널 액세스 방법의 구현예의 블록도이다.
도 12는 본 출원의 일 실시예에 따른 시스템 스루풋간의 비교 개략도이다.
도 13은 본 출원의 일 실시예에 따른 시스템 평균 대기 시간 사이의 비교 개략도이다.
도 14는 본 출원의 일 실시예에 따른 시스템 대기 시간 지터(system latency jitter) 사이의 비교 개략도이다.
도 15는 본 출원의 일 실시예에 따른 또 다른 프레임 구조의 개략도이다.
도 16은 본 출원의 일 실시예에 따른 통신 장치의 구조에 대한 개략도이다.
도 17은 본 출원의 일 실시예에 따른 또 다른 통신 장치의 구조에 대한 개략도이다.

다음은 본 출원의 실시예에서 첨부된 도면을 참조하여 본 출원의 실시예에서의 기술적 솔루션을 명확하고 완전하게 설명한다.

본 출원의 실시예에 개시된 채널 액세스 방법을 더 잘 이해하기 위해, 본 출원의 실시예를 적용할 수 있는 통신 시스템이 먼저 설명된다.

1. 통신 시스템

도 1은 본 출원의 일 실시예에 따른 통신 시스템의 구조에 대한 개략도이다. 통신 시스템은 하나의 액세스 포인트(access point, AP), 2개의 스테이션(station, STA)을 포함할 수 있지만, 이것으로 제한되는 것은 아니다. 도 1에 도시된 디바이스의 수량 및 형태는 예로서 사용되며, 본 출원의 실시예에 대한 제한을 구성하지 않는다. 실제 적용에서는, 2개 이상의 AP와 2개 이상의 STA가 포함될 수 있다. 도 1에 도시된 통신 시스템은 AP(101), STA(1021) 및 STA(1022)가 사용되는 예를 이용하여 설명되며, AP(101)는 STA(1021) 및 STA(1022)에 대해 무선 서비스를 제공할 수 있다. 도 1에서는, AP(101)가 기지국이고, STA(1021)와 STA(1022)가 휴대폰인 예가 사용된다.

본 출원의 이러한 실시예에서, 통신 시스템은 무선 근거리 네트워크(Wireless local area network, WLAN), 셀룰러 네트워크, 또는 복수의 링크를 통한 병렬 전송을 지원하는 다른 무선 통신 시스템일 수 있다. 본 출원의 실시예는 주로 IEEE 802.11이 배치된 네트워크를 예로 들어 설명된다. 본 출원의 다양한 양태는 다양한 표준 또는 프로토콜, 예를 들어, 블루투스(Bluetooth), 고성능 라디오 LAN(high performance radio LAN, HIPERLAN)(주로 유럽에서 사용되는 IEEE 802.11 표준과 유사한 무선 표준), 광역 네트워크(wide area network, WAN), 개인 영역 네트워크(personal area network, PAN) 또는 향후 알려지거나 개발될 다른 네트워크를 사용하는 다른 네트워크로 확장될 수 있다. 그러므로, 본 출원에서 제공되는 다양한 양태는 적용 범위 및 무선 액세스 프로토콜에 관계없이 임의의 적절한 무선 네트워크에 적용될 수 있다.

본 출원의 실시예에서, STA는 무선 송수신 기능을 포함하고, 802.11 시리즈 프로토콜을 지원하며, AP 또는 다른 STA와 통신할 수 있다. 예를 들어, STA는 태블릿 컴퓨터, 데스크톱 컴퓨터, 랩톱 컴퓨터, 노트북 컴퓨터, UMPC(Ultra-mobile Personal Computer), 핸드헬드 컴퓨터, 넷북, 퍼스널 디지털 어시스턴트(Personal Digital Assistant, PDA) 또는 모바일 폰과 같이 네트워크에 연결될 수 있는 사용자 장비, 또는 사물 인터넷의 사물 인터넷 노드, 또는 차량 인터넷의 차량 탑재 통신 장치 등을 포함하지만, 이들로 제한되지 않는 사용자 장비를 포함하여 사용자가 AP와 통신하고 추가로 WLAN과 통신할 수 있도록 하는 임의의 사용자 통신 디바이스일 수 있다. 선택적으로, STA는 대안적으로 전술한 단말 내의 칩 및 처리 시스템일 수 있다.

본 출원의 실시예에서, AP는 STA에 대해 서비스를 제공하는 장치이고, 802.11 시리즈 프로토콜을 지원할 수 있다. 예를 들어, AP는 통신 서버, 라우터, 스위치 또는 브리지와 같은 통신 엔티티일 수 있다. 대안적으로, AP는 매크로 기지국, 마이크로 기지국, 중계국 등의 다양한 형태를 포함할 수 있다. 물론, AP는 대안적으로 본 출원의 실시예의 방법 및 기능을 구현하기 위해, 이들 다양한 형태의 디바이스에서 칩 및 처리 시스템일 수 있다.

본 출원에 개시된 실시예의 이해를 용이하게 하기 위해, 다음의 두 가지 사항이 설명된다.

(1) 본 출원에 개시된 실시예에서, 무선 통신 네트워크에서의 무선 근거리 네트워크(와이어리스 피델리티, Wi-Fi)의 시나리오가 설명을 위한 예로서 사용된다. 본 출원에 개시된 실시예에서의 솔루션은 다른 무선 통신 네트워크에 적용되며, 대응하는 명칭은 다른 무선 통신 네트워크에서 대응하는 기능의 명칭으로 대체될 수 있다는 점에 유의해야 한다.

(2) 본 출원의 양태, 실시예 또는 피처는 복수의 디바이스, 구성요소, 모듈 등을 포함하는 시스템을 설명함으로써, 본 출원에 개시된 실시예에서 제시된다. 각각의 시스템은 다른 디바이스, 구성요소, 모듈 등을 포함할 수 있고/있거나 첨부 도면을 참조하여 논의된 모든 디바이스, 구성요소, 모듈 등을 포함하지 않을 수 있음을 인식하고 이해해야 한다. 또한, 이들 솔루션의 조합이 사용될 수 있다.

2. 본 출원에 의해 해결될 기술적 과제

현재, 통신 시스템에서는 공유 채널에서의 충돌을 피하기 위해 캐리어 감지 다중 액세스/충돌 회피(carrier sense multiple access/collision avoidance, CSMA/CA) 메커니즘이 사용된다. 즉, 도 2에 도시된 바와 같이, 패킷(packet)이 도달하면, 감지 능력이 있는 STA 1(즉, CSMA/CA 노드)은 랜덤 백오프 메커니즘(random backoff mechanism)을 이용하여, 즉, 랜덤 지속 시간(Ts) 내의 채널 상태를 감지하여 채널에의 액세스를 수행한다. 랜덤 지속 시간 내에 채널이 유휴 상태에 있는 경우, STA는 채널에 액세스하고, 즉, 패킷 y(즉, packet y)를 송신한다. 그러나, 동일한 감지 능력을 포함하는 STA 2가 채널을 감지하고, STA 2가 채널을 감지하는 시간 T가 Ts와 같지 않은 경우에만, STA 1과 STA 2 사이에 충돌이 발생하지 않으며, 즉, STA 1은 성공적으로 패킷을 전송할 수 있다. 다시 말해서, STA 2의 감지 시간 T가 STA 1의 감지 시간과 동일하면, STA 1과 STA 2 둘 모두는 감지 시간 내에서 채널이 유휴 상태인 것으로 간주하여, 둘 모두가 채널에 액세스하는 것으로 결정한다. 즉, STA 1과 STA 2는 동시에 패킷을 송신하고, STA 1은 패킷 x를 송신하며, STA 2는 패킷 y를 송신하는데, 이는 공유 채널 상에서 STA 1과 STA 2 사이에 충돌을 발생시킨다. 결과적으로, STA 1과 STA 2는 어느 것도 패킷을 성공적으로 전송할 수 없다.

CSMA/CA 메커니즘은 충돌 분해 알고리즘(collision decomposition algorithm), 즉, 완전한 무작위화(randomization)를 통해 충돌 분해 효과를 달성할 것으로 기대할 수 있다. 다시 말해서, 이러한 방식의 각각의 STA는 다른 STA가 채널에 액세스할지 여부를 예측할 수 있는 능력을 갖추지 않는다. 결과적으로, 시스템 스루풋은 적고 대기 시간은 길다. 또한, 네트워크에서 STA의 수량이 증가함에 따라, 네트워크에서의 충돌이 증가하고, 결과적으로, STA의 평균 백오프 시간이 증가한다. 이로 인해, 전송 대기 시간이 길어지고 대기 시간 지터(latency jitter)가 커진다. 또한, 이 연구는 CSMA/CA 용량의 이론적 상한이 약 85%에 불과하고, 즉, 최상의 경우, STA 사이에 15%의 충돌이 여전히 존재한다는 것을 보여준다. 또한, STA의 구성 파라미터 또한 실제 성능에 큰 영향을 미친다. 이 연구는 시스템 용량이 일반적으로 70% 내지 80%에 불과하다는 것을 보여준다. 다시 말해서, 통신 시스템에서 CSMA/CA 메커니즘을 사용하여 STA 간의 충돌이 해결되는 경우, 스루풋은 적다.

인공 지능(Artificial Intelligence, AI) 기술은 통신 성능과 사용자 경험을 개선하기 위해 무선 통신 분야에서 널리 사용된다. 강화 학습(Reinforcement Learning, RL)은 채널 액세스 문제에 적합한 AI 기술이고, 지능형 에이전트(네트워크 노드)가 환경(무선 네트워크)에서 동작(전송 또는 스킵)을 취해 기대 보상(스루풋)을 극대화하기 위한 최적의 정책을 찾는 탐색 프로세스에서 학습한다. 온라인 학습과 RL의 모델리스 최적화(modelless optimization)의 특성은 통상의 모델 기반 최적화 방법보다 일반화 능력(generalization capability)이 더 뛰어나다.

본 출원의 실시예에서, RL 기술은 채널 액세스와 조합된다. AP는 N개의 STA에 의해 보고되는 동작 정보에 기초하여, 각각의 STA에 대응하는 신경망을 강화 학습 방법을 이용하여 훈련시켜, 각각의 STA에 대응하는 신경망의 훈련 결과를 획득하여, 각각의 STA가 훈련 결과에 기초하여 채널에 액세스할지 여부를 결정할 수 있도록 하여, 채널에 액세스할지 여부를 예측하는 STA의 능력을 향상시킬 수 있다.

3. 채널 액세스 방법(100)(각각의 STA는 AP에 동작 정보를 보고함)

본 출원의 실시예는 채널 액세스 방법(100)을 제공한다. 도 3은 채널 액세스 방법(100)의 개략적인 상호 작용도이다. 채널 액세스 방법(100)은 AP와 STA 간의 상호 작용의 관점에서 설명된다. 채널 액세스 방법(100)은 다음 단계를 포함하지만, 이들로 제한되는 것은 아니다.

S101: N개의 스테이션(station, STA)은 개별적으로 동작 정보를 액세스 포인트(access point, AP)에 보고하는데, 여기서, N개의 동작 정보는 각각의 STA의 제1 신경망의 훈련 결과를 결정하는 데 사용되며, N은 양의 정수이다.

AP는 M개의 STA에 대응하며, M은 N보다 큰 양의 정수이다. N개의 STA는 M개의 STA 내의 AP에 동작 정보를 성공적으로 보고하는 STA이다. 예를 들어, 통신 시스템에서 AP #1은 10개의 STA에 대응하고, 10개의 STA 중 8개의 STA는 AP에 동작 정보를 성공적으로 보고하고, 즉, AP #1은 10개의 스테이션 중 8개의 STA에 의해 보고되는 동작 정보를 수신한다. 이 경우, N은 8과 동일하다.

N개의 STA에 대해, 각각의 STA는 하나의 동작 정보를 AP에 보고한다. 그러므로, N개의 STA는 N개의 동작 정보를 보고한다. 동작 정보는 일정 기간의 동작을 표시하며, 동작은 송신 또는 송신 스키핑(skipping sending)이다. 일정 기간은 복수의 슬롯을 포함한다. 복수의 슬롯은 STA가 마지막으로 동작 정보를 성공적으로 보고하는 시점과 현재 시점 사이의 복수의 슬롯이다. 예를 들어, STA 1은 시점 t0에서 마지막으로 동작 정보를 성공적으로 보고하고, 현재 시점은 시점 t1이다. 이 경우, 복수의 슬롯은 t0과 t1 사이의 복수의 슬롯이다. 다시 말해서, 각각의 STA에 의해 보고되는 동작 정보는 복수의 슬롯 내의 동작을 포함한다. 각각의 STA에 의해 보고되는 동작 정보는 로 표현될 수 있는데, 여기서, t와 i는 각각 양의 정수이고, 는 제T 슬롯 내의 STA i의 동작 정보, 즉, STA i가 제T 슬롯에서 패킷을 송신하는지 여부를 나타낸다.

또한, 동작 정보는 STA에 의해 보고되는 제1 프레임으로 반송된다. 각각의 STA는 STA의 제1 프레임을 사용하여 동작 정보를 반송하고 나서, 제1 프레임을 AP에 보고하는 것으로 이해될 수 있다. 제1 프레임은 카테고리(Category) 필드와 동작 상세(Action Details) 필드를 포함한다. 카테고리 필드는 제1 프레임의 카테고리를 표시하고, 동작 상세 필드는 STA에 의해 보고되는 동작 정보를 표시한다.

선택적인 구현예에서, 제1 프레임은 STA에 의해 새로 추가된 관리 프레임이다. 예를 들어, STA는 관리 프레임, 즉, 프레임 1을 추가하는데, 여기서, 프레임 1은 동작 정보를 반송하는 데 사용된다. 프레임 1의 프레임 구조는 도 4에 도시된다. 프레임 1은 카테고리(Category) 필드와 동작 상세(Action Details) 필드를 포함한다. 카테고리 필드는 프레임 1의 카테고리를 표시하고, 동작 상세 필드는 동작 정보를 표시하며, 동작 정보는 훈련 데이터 요소(training data element) 서브필드로 반송된다.

또 다른 선택적인 구현예에서, 제1 프레임은 프로토콜 내의 기존 관리 프레임에 있는 프레임이다. 예를 들어, 제1 프레임은 서비스 품질 동작(Quality of Service Action, QoS Action) 프레임이며, 제1 프레임의 프레임 구조는 도 5에 도시된다. 이 경우, 카테고리 필드에 의해 표시되는 제1 프레임의 카테고리는 QoS 동작 프레임이고, 동작 상세 필드 내의 QoS 동작 서브필드는 카테고리 필드 뒤에 온다. STA는 QoS 동작 필드에서 사용되지 않은 값을 사용하여, 보고될 동작 정보, 즉, 동작 상세 필드 내의 훈련 데이터 요소 서브필드의 내용을 표시한다. 예를 들어, QoS 동작 필드는 2개의 비트(bit)를 포함하며, QoS 동작 필드의 2비트에 의해 표현되는 값 00, 01 및 11은 사용되지만, 값 10은 사용되지 않는다. 이 경우, STA는 값 10을 사용하여 보고될 동작 정보를 표시, 즉, 값 10을 사용하여 훈련 데이터 요소의 내용을 표시한다.

동작 정보를 표시하는 훈련 데이터 요소의 요소 포맷은 도 6a를 참조한다. 도 6a에 도시된 바와 같이, 훈련 데이터 요소는 요소 식별(element Identification, Element ID) 서브필드, 길이(length) 서브필드, 요소 식별 확장(Element ID extension) 서브필드 및 훈련 데이터(Training data) 서브필드를 포함한다. 현재 요소 ID 서브필드 내의 모든 값이 사용될 때, 요소 ID 서브필드와 요소 ID 확장 서브필드는 함께 훈련 데이터의 ID를 표시한다. 길이 서브필드는 훈련 데이터의 길이를 표시한다. 훈련 데이터는 STA에 의해 보고되는 동작 정보를 표시한다.

각각의 STA에 대응하는 제1 프레임 내의 훈련 데이터의 요소 포맷(element format)이 상이할 때, STA에 의해 보고되는 동작 정보의 내용도 상이하다. 다음은 훈련 데이터의 요소 포맷을 참조하여 동작 상세 필드의 여러 선택적인 구현예, 즉, 동작 정보의 선택적인 구현예를 설명한다.

1. 동작 상세 필드는 시간 표시 서브필드, 및 데이터 1 서브필드 내지 데이터 T 서브필드를 포함하는데, 여기서, T는 양의 정수이다.

훈련 데이터의 요소 포맷에 대해서는 도 6a를 참조한다. 훈련 데이터는 시간과, 데이터 1 내지 데이터 T를 포함한다. 동작 상세 필드는 시간 표시 서브필드, 및 데이터 1 서브필드 내지 데이터 T 서브필드를 포함한다.

시간 표시 서브필드는 STA가 마지막으로 제1 응답 정보를 성공적으로 수신하는 시점을 표시하며, 시간 표시 서브필드는 타임스탬프, 시퀀스 넘버 등을 이용하여 구현될 수 있다. 제1 응답 정보는 AP가 STA에 의해 송신된 동작 정보를 성공적으로 수신할 때에 송신되는 응답 정보이다. 예를 들어, 제1 응답 정보는 확인응답(acknowledgement, ACK) 정보이다. 즉, STA가 제1 응답 정보를 수신하면, STA가 동작 정보를 성공적으로 보고한다는 것을 표시한다. 그러므로, 시간 표시 서브필드는 STA가 마지막으로 동작 정보를 성공적으로 보고한 시간을 표시한다.

데이터 1 서브필드는 STA가 마지막으로 제1 응답 정보를 성공적으로 수신한 후에 제1 슬롯에서의 동작을 표시한다. 다시 말해서, 데이터 1 서브필드는 STA가 마지막으로 동작 정보를 성공적으로 보고한 이후에 제1 슬롯에서 STA의 동작을 표시한다. 데이터 T 서브필드는 STA가 마지막으로 제1 응답 정보를 성공적으로 수신한 후에 제T 슬롯에서 수행되는 동작을 표시한다. 다시 말해서, 데이터 T 서브필드는 STA가 마지막으로 동작 정보를 성공적으로 보고한 이후에 제T 슬롯에서 STA에 의해 수행되는 동작을 표시한다.

다시 말해서, 각각의 STA가 AP에 동작 정보를 보고할 때, STA는 STA가 마지막으로 동작 정보를 성공적으로 보고한 시각, 및 STA가 마지막으로 동작 정보를 성공적으로 보고한 이후의 각 슬롯의 동작을 보고하여, STA가 마지막으로 동작 정보를 성공적으로 보고한 이후에 각 슬롯에서 각각의 STA에 의해 감지된 동작을 AP가 획득하도록 한다.

2. 동작 상세 필드는 시간 표시 서브필드, 동작 1 서브필드 내지 동작 P 서브필드, …, 및 시간 1 서브필드 내지 시간 P 서브필드를 포함하는데, 여기서, P는 양의 정수이다.

훈련 데이터의 요소 포맷에 대해서는 도 6b를 참조한다. 도 6a와는 달리, 훈련 데이터는 시작 시각, 동작 1, 시간 1, …, 동작 P, 시간 P를 포함한다. 이 경우, 동작 상세 필드는 시간 표시 서브필드, 동작 1 서브필드, 시간 P 서브필드, …, 동작 P 서브필드, 시간 P 서브필드를 포함한다.

시간 표시 서브필드는 STA가 마지막으로 제1 응답 정보를 성공적으로 수신한 수신 시점을 표시한다. 제1 응답 정보는 AP가 STA에 의해 송신된 동작 정보를 성공적으로 수신할 때에 송신되는 응답 정보이다. 이 경우, 시간 표시 서브필드는 STA가 마지막으로 동작 정보를 성공적으로 보고하는 시점을 표시한다.

동작 1 서브필드는 STA가 마지막으로 제1 응답 정보를 성공적으로 수신한 후의 제1 동작을 표시한다. 다시 말해서, 동작 1 서브필드는 STA가 마지막으로 동작 정보를 성공적으로 보고한 후의 제1 동작을 표시한다. 시간 1 서브필드는 동작 1의 지속 시간 또는 동작 1의 종료 시각을 표시한다. 동작 P 서브필드는 현재 시점과 STA가 마지막으로 제1 응답 정보를 성공적으로 수신하는 시점 사이의 제P 동작을 표시한다. 다시 말해서, 동작 P 서브필드는 현재 시점과 STA가 마지막으로 동작 정보를 성공적으로 보고한 후의 시점 사이의 제P 동작을 표시한다. 시간 P 서브필드는 동작 P의 지속 시간 또는 동작 P의 종료 시각을 표시한다.

동작 1은 STA가 마지막으로 동작 정보를 성공적으로 보고한 후의 제1 동작인 것을 이해할 수 있다. 시간 1 서브필드가 동작 1의 지속 시간을 표시하고, 시간 P 서브필드가 동작 P의 지속 시간을 표시할 때, 동작 1이 변경되지 않으면, 지속 시간 1은 연속적으로 누적되고; 혹은 동작 1이 변경되면, 동작 2가 추가되되, 현재 시점 이전의 마지막 동작(즉, 동작 P)이 기록될 때까지 동작 2의 지속 시간 2가 기록된다. STA는 기록된 동작 정보를 AP에게 보고하고, 즉, 마지막으로 동작 정보가 성공적으로 보고되는 시점, 동작 1과 동작 1의 지속 시간, 동작 2와 동작 2의 지속 시간, … 및 동작 P와 동작 P의 지속 시간을 AP에 보고한다.

예를 들어, 마지막으로 동작 정보가 성공적으로 보고되는 후에 STA 1이 제1 슬롯에서 패킷을 송신하지 않으면, 동작 1은 송신 스키핑으로 기록된다. STA 1이 제1 슬롯 내지 제3 슬롯에서 패킷을 송신하지 않으면, 지속 시간 1은 3개의 슬롯으로 누적된다. 제4 슬롯에서, STA 1은 패킷 송신 스키핑 동작에서 패킷 송신 동작으로 변경하며, STA 1은 동작 2를 추가하는데, 여기서, 동작 2는 송신이다. 패킷 송신 동작이 현재 시점(제 9 슬롯)까지 지속되면, STA 1은 동작 2의 지속 시간 2를 6개의 슬롯으로 기록한다. 그러므로, STA 1에 의해 AP로 보고되는 동작 정보는 STA 1이 마지막으로 동작 정보를 성공적으로 보고하는 시각을 포함하고, 동작 1은 송신 스키핑 동작이고 송신 스키핑 동작에 대한 지속 시간은 3개의 슬롯이며, 동작 2는 송신 동작이고 송신 동작에 대한 지속 시간은 6개 슬롯이다.

다시 말해서, 각각의 STA는 STA가 마지막으로 동작 정보를 성공적으로 보고하는 시간, STA가 마지막으로 동작 정보를 성공적으로 보고하는 시점부터 현재 시점까지 STA에 의해 수행되는 복수의 동작, 및 각 동작의 지속 시간 또는 각 동작의 종료 시각을 보고한다. 본 구현예는 STA가 마지막으로 동작 정보를 성공적으로 보고한 이후에 AP가 각 슬롯에서 각각의 STA의 동작 거동을 학습하는 데 도움을 준다.

3. 동작 정보 필드는 시간 1 표시 서브필드, 동작 1 서브필드, …, 시간 P 표시 서브필드 및 동작 P 서브필드를 포함하는데, 여기서, P는 양의 정수이다.

훈련 데이터의 요소 포맷에 대해서는, 도 6c를 참조한다. 도 6a 및 도 6b에서와 달리, 훈련 데이터는 시간 1, 동작 1, 시간 2, 동작 2, …, 시간 P 및 동작 P를 포함한다. 이 경우, 동작 상세 필드는 시간 1 표시 서브필드, 동작 1 서브필드, …, 시간 P 표시 서브필드 및 동작 P 서브필드를 포함한다.

시간 1 표시 서브필드는 동작 1의 시작 시각을 표시한다. 동작 1 서브필드는, STA가 마지막으로 제1 응답 정보를 성공적으로 수신한 후에 수행되는 제1 동작을 표시한다. 제1 응답 정보는 AP가 STA에 의해 송신된 동작 정보를 성공적으로 수신할 때에 송신되는 응답 정보이다. 이 경우, 동작 1 서브필드는 STA가 마지막으로 동작 정보를 성공적으로 보고한 후에 수행되는 제1 동작을 표시한다. 시간 P 표시 서브필드는 동작 P의 시작 시각을 표시한다. 동작 P 서브필드는 현재 시점과 STA가 마지막으로 제1 응답 정보를 성공적으로 수신하는 시점 사이의 제P 동작을 표시한다. 다시 말해서, 동작 P 서브필드는 현재 시점과 STA가 마지막으로 동작 정보를 성공적으로 송신하는 시점 사이의 제P 동작을 표시한다.

동작 1은 STA가 마지막으로 동작 정보를 성공적으로 보고한 후의 제1 동작이며, 시간 1은 동작 1의 시작 시각을 마킹하는 것으로 이해될 수 있다. 동작 1이 변경되면, STA는, 현재 시점부터 마지막으로 동작 정보가 성공적으로 보고되는 시점까지의 복수의 동작 중 마지막 동작과 동작의 시작 시각(동작 P와 시간 P)이 기록될 때까지, 동작 2와 동작 2의 시작 시각(시간 2)을 기록하며, STA는 기록된 동작 정보를 AP에 보고한다.

다시 말해서, 각각의 STA는 STA가 마지막으로 동작 정보를 성공적으로 보고한 이후에 생성된 각 동작과 각 동작의 시작 시각을 AP에 보고하여, STA에 의해 보고되는 동작과 동작의 시작 시각에 기초하여 복수의 슬롯에서 STA에 의해 패킷을 송신하거나 송신 스키핑하는 것에 대한 거동 정보(behavior information)를 AP가 획득할 수 있도록 한다.

4. 동작 정보 필드는 시간 1 표시 서브필드, 지속 시간 1 서브필드, …, 시간 K 표시 서브필드, 지속 시간 K 서브필드를 포함하는데, 여기서, K는 양의 정수이다.

훈련 데이터의 요소 포맷은 도 6d에 도시될 수 있다. 도 6a 내지 도 6c와 달리, 훈련 데이터는 시간 1, 지속 시간 1, 시간 2, 지속 시간 2, …, 시간 K 및 지속 시간 K를 포함한다. 이 경우, 동작 상세 필드는 시간 1 표시 서브필드, 지속 시간 1 서브필드, …, 시간 K 표시 서브필드 및 지속 시간 K 서브필드를 포함한다.

시간 1 표시 서브필드는 동작 1의 시작 시각/종료 시각을 표시한다. 동작 1은 STA가 처음으로 패킷을 송신하고 마지막으로 제1 응답 정보를 성공적으로 수신한 후에 제2 응답 정보를 수신하지 않을 때에 수행되는 송신 동작이다. 제1 응답 정보는 AP가 STA에 의해 송신된 동작 정보를 성공적으로 수신할 때에 송신되는 응답 정보이며, 제2 응답 정보는 AP가 STA에 의해 송신된 패킷을 성공적으로 수신할 때에 송신되는 응답 정보이다. 이 경우, 동작 1은 STA가 처음으로 패킷을 송신했지만 마지막으로 동작 정보를 성공적으로 보고한 후에 패킷을 송신하는 데 실패했을 때에 수행되는 동작이다. 지속 시간 1 서브필드는 동작 1의 지속 시간을 표시한다. 다시 말해서, 지속 시간 1 서브필드는 동작 1을 통해 송신된 패킷의 패킷 길이를 표시한다.

시간 K 표시 서브필드는 동작 K의 시작 시각/종료 시각을 표시한다. 동작 K는 STA가 제K 시간에 대한 패킷을 송신하고 마지막으로 제1 응답 정보를 성공적으로 수신하고 나서 제2 응답 정보를 수신하지 않을 때에 수행되는 송신 동작이다. 이 경우, 동작 K는 STA가 제K 시간에 대해 패킷을 송신했지만, 마지막으로 동작 정보를 성공적으로 보고한 후에 패킷을 송신하는 데 실패했을 때에 수행되는 동작이다. 지속 시간 K 서브필드는 동작 K의 지속 시간을 표시한다. 즉, 지속 시간 K 서브필드는 동작 K를 통해 송신되는 패킷의 패킷 길이를 표시한다.

이것은 복수의 STA가 동시에 패킷을 송신하여 채널 충돌이 발생하는 경우에만, 어떤 STA가 채널에 액세스를 시도하는지 AP가 알 수 없기 때문이다. 그러므로, 각각의 STA는 패킷을 송신하는 데 실패했을 때에만 AP에 동작 정보만 보고하면 되고, 즉, 각각의 STA는 패킷을 송신하는 데 실패했을 때 수행된 송신 동작, 동작의 시작 시각/종료 시각, 및 매번 송신되는 패킷의 패킷 길이를 보고하여, 채널 충돌이 발생할 때에 어떤 STA가 채널에 액세스를 시도하는지를 AP가 알 수 있도록 한다.

5. 동작 정보 필드는 제1 시간 1 표시 서브필드, 제2 시간 1 표시 서브필드, …, 제1 시간 K 표시 서브필드 및 제2 시간 K 표시 서브필드를 포함하는데, 여기서, K는 양의 정수이다.

훈련 데이터의 요소 포맷에 대해서는, 도 6e를 참조한다. 도 6a 내지 도 6d와 달리, 훈련 데이터는 제1 시간 1, 제2 시간 1, …, 제1 시간 K, 제2 시간 K를 포함한다. 이 경우, 동작 상세 필드는 제1 시간 1 표시 서브필드, 제2 시간 1 표시 서브필드, …, 제1 시간 K 표시 서브필드 및 제2 시간 K 표시 서브필드를 포함한다.

제1 시간 1 표시 서브필드는 동작 1의 시작 시각을 표시한다. 동작 1은 STA가 처음으로 패킷을 송신하고 마지막으로 제1 응답 정보를 성공적으로 수신한 후에 제2 응답 정보를 수신하지 않을 때에 수행되는 송신 동작이다. 제1 응답 정보는 AP가 STA에 의해 송신된 동작 정보를 성공적으로 수신할 때에 송신되는 응답 정보이며, 제2 응답 정보는 AP가 STA에 의해 송신된 패킷을 성공적으로 수신할 때에 송신되는 응답 정보이다. 이 경우, 동작 1은 STA가 처음으로 패킷을 송신했지만, 마지막으로 동작 정보를 성공적으로 보고한 후에 패킷을 송신하는 데 실패했을 때에 수행되는 동작이다. 제2 시간 1 표시 서브필드는 동작 1의 종료 시각을 표시한다.

제1 시간 K 서브필드는 동작 K의 시작 시각을 표시한다. 동작 K는 STA가 제K 시간에 대한 패킷을 송신하고 마지막으로 제1 응답 정보를 성공적으로 수신한 후에 제2 응답 정보를 수신하지 않을 때에 수행되는 송신 동작이다. 이 경우, 동작 K는 STA가 제K 시간에 대해 패킷을 송신했지만, 마지막으로 동작 정보를 성공적으로 보고한 후에 패킷을 송신하는 데 실패했을 때에 수행되는 동작이다. 제2 시간 K 표시 서브필드는 동작 K의 종료 시각을 표시한다.

동작 1 내지 동작 K는 STA가 마지막으로 동작 정보를 성공적으로 보고한 후에 패킷을 송신하는 데 실패했을 때에 수행되는 동작이라는 것을 알 수 있다. 이 경우, 각각의 STA는 마지막으로 동작 정보가 성공적으로 보고되는 후에 패킷 전송이 실패할 때마다 시작 시각과 종료 시각을 AP에 보고하고, AP는 패킷 전송이 실패할 때마다의 시작 시각과 종료 시각에 기초하여, 패킷 전송이 실패할 때마다의 슬롯과 송신된 패킷의 패킷 길이를 결정할 수 있으며, 또한 각 슬롯에서 각각의 STA의 거동 정보를 획득할 수 있도록 한다.

전술한 5개의 훈련 데이터 필드의 상이한 포맷 요소는 각각의 STA에 의해 보고되는 동작 정보에서 상이한 내용을 나타내어, STA에 의해 AP에 보고되는 동작 정보가 더 유연해지도록 한다는 것을 알 수 있다.

각각의 STA가 AP에 동작 정보를 보고하는 시간이 AP에 의해 사전 정의되어 있는 것으로 이해될 수 있다. 예를 들어, AP는 각각의 STA가 사전 설정된 주기에 기초하여 AP에 동작 정보를 보고하고, 그런 다음 각각의 STA가 사전 설정된 주기 간격으로 AP에 동작 정보를 보고하도록 사전 정의된다. 또한, 각각의 STA에 대해 AP가 사전 정의한 보고 시간은 상이할 수 있다. 예를 들어, AP는 STA 1이 사전 설정된 시간 1의 간격으로 AP에 동작 정보를 보고하도록 사전 정의하고, STA 2는 사전 설정된 시간 2의 간격으로 AP에 동작 정보를 보고하도록 사전 정의한다.

선택적으로, 각각의 STA가 AP에 동작 정보를 보고하는 시간은 시그널링을 이용하여 AP에 의해 각각의 STA에 통지된다. 예를 들어, AP는 다운링크 제어 정보(downlink control information, DCI)를 이용하여 동작 정보를 보고하는 시간을 각각의 STA에 통지한다. 다른 예를 들어, AP는 DCI #1을 이용하여 STA 1이 동작 정보를 보고하는 시간 #1을 STA 1에 통지하고, DCI #2를 이용하여 STA 2가 동작 정보를 보고하는 시간 #2를 STA 2에 통지한다.

S102: AP는 N개의 STA에 의해 개별적으로 보고되는 동작 정보를 수신한다.

S103: AP는 N개의 동작 정보에 기초하여, 각각의 STA의 제1 신경망의 훈련 결과를 결정한다.

AP는 N개의 동작 정보에 기초하여 각각의 STA의 제1 신경망을 훈련시켜, 각각의 STA의 제1 신경망의 훈련 결과를 획득하는 것으로 이해될 수 있다. 예를 들어, 5개의 STA는 총 5개의 동작 정보를 보고하고, 5개의 STA는 각각 제1 신경망 #1 내지 제1 신경망 #5에 대응한다. AP는 5개의 동작 정보에 기초하여 STA 1의 제1 신경망 #1을 훈련시켜, 제1 신경망 #1의 훈련 결과를 획득하고, 5개의 동작 정보에 기초하여 STA 2의 제1 신경망 #2를 훈련시켜, 제1 신경망 #2의 훈련 결과를 획득하며, STA 5의 제1 신경망 #5의 훈련 결과가 획득될 때까지 반복한다.

제1 신경망의 훈련 결과는 신경망 파라미터 또는 제1 신경망의 그래디언트인 것으로 이해할 수 있다. 신경망 파라미터는 제1 신경망 내의 뉴런의 가중치 및 오프셋이다. 예를 들어, 제1 신경망의 구조는 도 7에 도시된다. 제1 신경망은 입력층, 출력층 및 복수의 중간층을 포함하고, 각 층은 복수의 노드를 포함한다. 노드는 뉴런이라 지칭된다. 인접한 두 층에 있는 뉴런은 서로 연결된다.

인접한 두 층에 있는 뉴런에 대하여, 하위층에 있는 뉴런의 출력 h 는 하위층에 있는 뉴런에 연결된 상위층에 있는 모든 뉴런 x 의 가중합(weighted sum)에 대해 활성화 함수를 수행하여 획득된 값이다. 출력은 다음과 같이 행렬을 사용하여 표현될 수 있다.

h = f( wx + b ) (1)

w 는 가중치 행렬이고, b 는 바이어스 벡터이며, f는 활성화 함수이다. 이 경우, 제 n 층 신경망의 출력 y 는 다음과 같이 재귀적으로 표현될 수 있다.

y = f _n ( w _n f _n-1 (…)+ b _n ) (2)

다시 말해서, 제1 신경망은 입력 x 로부터 출력 y 로의 매핑 관계로 이해될 수 있다. 신경망의 훈련 프로세스는 기존 데이터로부터 매핑 관계를 획득하는 프로세스, 즉, w 및 b 를 획득하는 프로세스이다. 제1 신경망의 훈련 결과는 신경망 파라미터 w 및 b 일 수 있다.

또한, AP는 그래디언트 하강 방법(gradient descent method)을 이용하여 신경망을 훈련시킬 수 있다. 그러므로, 신경망의 훈련 결과는 그래디언트일 수 있다. 그래디언트는 신경망 파라미터에 대한 신경망의 손실 함수의 바이어스, 즉, w 및 b 에 대한 신경망의 손실 함수의 바이어스이다.

신경망 파라미터/그래디언트는 대응하는 STA가 대응하는 제1 신경망을 업데이트하는데 사용되고, 즉 STA의 신경망 파라미터/그래디언트는 STA의 제1 신경망을 업데이트하는 데 사용된다. 예를 들어, 신경망 파라미터 #1이 STA 1에 대응하는 신경망 파라미터이면, 신경망 파라미터 #1은 STA 1가 STA 1의 제1 신경망을 업데이트하는 데 사용된다.

선택적인 구현예에서, AP가, N개의 동작 정보에 기초하여, 각각의 STA의 제1 신경망의 훈련 결과를 결정하는 것은 다음과 같다. AP는 각각의 STA의 상태 정보를 대응하는 STA의 제1 신경망에 입력하여, 제1 신경망의 출력을 획득하고; AP는 각각의 제1 신경망의 출력을 제2 신경망에 입력하여, 제2 신경망의 출력을 획득하되, 여기서, 제2 신경망의 출력은 사전 설정된 시간 내에서의 기대 보상을 나타내며; AP는 제2 신경망의 출력과 보상 함수에 기초하여 제3 신경망을 훈련시키고, 제3 신경망의 손실 함수를 최소화하여 각각의 제1 신경망의 훈련 결과를 결정하되, 여기서, 제3 신경망은 각각의 제1 신경망과 제2 신경망을 포함한다.

각각의 STA에 의해 보고되는 동작 정보를 획득한 후에, AP는 각각의 동작 정보에 기초하여, 캐리어 감지 결과 정보 또는 패킷 전송 결과 정보를 결정하고, 그런 다음, N개의 동작 정보 및 N개의 캐리어 감지 결과 정보에 기초하여, 상태 정보를 결정하거나, 또는 N개의 동작 정보 및 N개의 패킷 전송 결과 정보에 기초하여, 상태 정보를 결정하는 것으로 이해될 수 있다. 캐리어 감지 결과 정보 또는 패킷 전송 결과 정보는 및 을 포함한다.

= 0이면, 이는 송신 스키핑(skipping sending)을 나타내고; 혹은 = 1이면, 송신을 나타낸다. 는 캐리어 감지 결과 또는 패킷 전송 결과를 나타낸다. 의 경우, = 0이면, 는 캐리어 감지 결과를 나타내고, 즉, 제T 슬롯에서 STA i의 캐리어 감지 결과를 나타내며, = 0은 채널이 유휴 상태인 것을 나타내거나, = 1은 채널이 사용중인 것을 나타낸다. 의 경우, = 1이면, 는 패킷 전송 결과 정보, 즉, 제T 슬롯에서 STA i에 의해 패킷을 송신하는 결과를 나타내며, = 0은 패킷이 성공적으로 송신된다는 것을 나타내거나, = 1은 패킷을 송신하는 데 실패한다는 것을 나타낸다. 다시 말해서, 는 의 값에 기초하여 상이한 의미를 나타낼 수 있다. = 0이면, 이는 캐리어 감지 결과를 나타내고, 혹은 = 1이면, 이는 패킷 전송 결과를 나타낸다.

는 및 의 지속 시간을 나타낸다. 는 STA i가 이전의 제2 응답 정보를 수신하는 시점과 제T 슬롯 사이의 지속 시간을 나타낸다. 는 STA j가 이전의 제2 응답 정보를 수신하는 시점과 제T 슬롯 사이의 지속 시간을 나타내고, 여기서, STA j는 STA i가 아닌 임의의 STA이다.

도 8에 도시된 바와 같이, 는 STA i가 이전의 제2 응답 정보를 수신한 시점과 제T 슬롯 사이의 지속 시간을 나타내고, 즉, 는 현재 시점과 STA i가 마지막으로 패킷을 성공적으로 송신한 시점 사이의 지속 시간을 나타낸다. 는 STA j가 이전의 제2 응답 정보를 수신하는 시점과 제T 슬롯 사이의 지속 시간을 나타내며, 여기서, STA j는 STA i가 아닌 임의의 STA이며, 즉, 는 현재 시점과 STA i가 아닌 임의의 STA가 마지막으로 패킷을 성공적으로 송신할 때의 시간 사이의 지속 시간을 나타낸다. 및 는 채널 상에서의 응답을 감지함으로써 STA i에 의해 획득될 수 있다. STA가 패킷을 성공적으로 송신한다는 것을 표시하는 응답을 STA i가 감지하면, = 0이고; 혹은 STA가 패킷을 성공적으로 송신한다는 것을 표시하는 응답을 STA i가 감지하지 않으면, = +1이며, 즉, 현재 시점과 STA i가 마지막으로 패킷을 성공적으로 송신할 때의 시간 사이의 지속 시간이 계속해서 추가된다. STA i가 다른 STA에 대한 채널의 응답을 감지하면, = 0이고; 혹은 STA i가 다른 STA에 대한 채널의 응답을 감지하지 않으면, = +1이며, 즉, 현재 시점과 STA i가 아닌 임의의 STA가 마지막으로 패킷을 성공적으로 송신할 때의 시간 사이의 지속 시간이 계속해서 추가된다.

AP는 각각의 STA에 의해 보고되는 정보에 기초하여 획득된 상태 정보를 먼저 STA의 제1 신경망에 입력하여, 각각의 제1 신경망의 출력을 획득하고 나서, N개의 제1 신경망의 출력을 제2 신경망에 입력하여, 제2 신경망의 출력을 획득하고 나서, 손실 함수에 기초하여 제3 신경망을 훈련시켜, 최종적으로 제1 신경망의 훈련 결과를 획득한다는 것을 알 수 있다. 각각의 STA의 제1 신경망의 훈련 결과는 STA의 정보만이 아닌, N개의 STA에 의해 보고되는 정보에 기초하여 결정된다. 이것은 각각의 STA의 능력을 개선하여, 다른 STA의 채널 액세스 거동을 예측하는 데 도움을 준다.

AP에 의해 수행되는 훈련의 프로세스는 AP가 타겟 Q 신경망을 이용하여 각각의 제1 신경망을 훈련시키는 예를 이용하여 후술한다.

도 9는 타겟 Q 네트워크 훈련의 개략도이다. 도 9에는, 타겟 Q 네트워크(target Q network)와 예측 Q 네트워크(prediction Q network)가 포함된다. 타겟 Q 네트워크와 예측 Q 네트워크의 구조는 도 10에 도시된다. 도 10에 도시된 신경망은 에이전트 네트워크 1(agent network 1) 내지 에이전트 네트워크 N(agent network N) 및 믹싱 네트워크(Mixing network)를 포함한다. 에이전트 네트워크 1 내지 에이전트 네트워크 N은 STA 1 내지 STA N의 제1 신경망이고, 즉, 각각의 에이전트 네트워크는 하나의 STA에 대응한다. 믹싱 네트워크는 전술한 제2 신경망이다.

각각의 에이전트 네트워크의 입력은, 과거 일정 기간에, 대응하는 STA의 상태 정보이고, 즉, 이며, 여기서, 이고, 는 현재 시점 t 이전의 연속된 T 시점에 STA i의 상태 정보를 나타내며, 각각의 STA의 상태 정보는 STA에 의해 보고되는 동작 정보에 기초하여 획득된다. STA에 의해 보고되는 동작 정보는 이고, AP는 STA의 에 기초하여, 및 를 획득하여, STA가 상태 정보, 즉, , 및 에 기초하는 STA의 를 획득하도록 한다. 우선, AP는 각각의 STA의 상태 정보를 대응하는 에이전트 네트워크에 입력하여, 에이전트 네트워크의 출력을 획득하는데, 여기서, 에이전트 네트워크의 출력은이다. 각각의 에이전트 네트워크는 게이트 순환 유닛(Gated Recurrent Unit, GRU), 완전 연결된 신경망(fully connected neural network, FC) 및 모듈 π을 포함한다. 각각의 STA의 상태 정보가 GRU와 FC를 거친 후에, 모듈 π는 ε-그리디 알고리즘(ε-greedy algorithm)에 기초하여 동작을 선택하여, 를 결정하는데, 여기서, 는 사전 설정된 시간 내에서 STA i의 기대 보상을 나타낸다. 그런 다음, AP는 각각의 에이전트 네트워크의 출력을 믹싱 네트워크의 입력으로 사용하여, 제2 신경망의 출력을 획득하는데, 여기서, 제2 신경망의 출력은 이다. 믹싱 네트워크는 N개의 에이전트 네트워크의 출력을 요약하는 데 사용된다. AP에 의해 획득된 제2 신경망의 출력은 사전 설정된 시간 내에서 전체 네트워크의 기대 보상을 나타낸다. 또한, 제2 신경망의 신경망 파라미터는 N개의 동작 정보에 기초하여 획득되고, 즉, 제2 신경망의 신경망 파라미터는 N개의 동작 정보에 기초하여 결정된다. 도 10에서, GRU 32는 GRU의 은닉 상태(숨겨진 상태)가 32개의 뉴런을 포함하는 것을 표시하고, FC 32는 FC가 32개의 뉴런을 포함하는 것을 표시하며, 마찬가지로 FC 2는 FC가 2개의 뉴런을 포함하는 것을 표시한다.

AP는 보상 함수와 믹싱 네트워크의 출력에 기초하여 제3 신경망의 손실 함수를 계산하고, 손실 함수를 최소화함으로써 제3 신경망을 훈련시키고, 즉, 각각의 에이전트 네트워크와 믹싱 네트워크를 훈련시켜, 각 에이전트 네트워크의 신경망 파라미터를 결정한다. 제3 신경망의 손실 함수는 다음과 같다.

(3)

r(t)는 보상 함수를 나타내며, γ는 할인 요인(discount factor), 일반적으로, γ = 0.9를 나타내고, e _t 는 경험(experience)을 나타내고, E는 경험 풀(experience pool)을 나타내고, 는 경험 풀 내의 경험의 수량 e _t 를 나타내고, , 및 는 도 8의 타겟 Q 네트워크의 출력을 나타내고, θ ^-는 타겟 Q 네트워크의 신경망 파라미터이고, 는 도 8의 예측 Q 네트워크의 출력을 나타내고, θ는 예측 Q 네트워크의 신경망 파라미터이며, 믹싱 네트워크의 신경망 파라미터는 s(t)에 의해 결정된다.

AP에 의해 제3 신경망을 훈련시키는 프로세스에 대해서는 도 9에 도시된 개략도를 참조한다. 즉, AP는 소형 배치 그래디언트 하강 방법(small-batch gradient descent method)을 사용하여 Q 네트워크의 신경망 파라미터를 업데이트한다. AP는 매번 θ ^-를 고정하고, 그런 다음 손실 함수와 믹싱 네트워크의 출력을 이용하여 예측 신경망의 신경망 파라미터 θ를 훈련시킨다. C 번 동안 훈련이 완료될 때마다, 신경망 파라미터 θ는 타겟 신경망의 고정 파라미터 θ ^-로 사용되고, 그런 다음, 예측 Q 네트워크의 신경망 파라미터는 반복적으로 훈련된다. 각 에이전트 네트워크의 훈련 데이터는 제3 신경망의 손실 함수를 최소화하는 것에 의해 결정된다. 일반적으로, C=100이다.

제3 신경망의 보상 함수를 계산하기 위해서는 다음과 같은 몇몇 선택적인 구현예가 있다.

1. 제3 신경망의 보상 함수를 1로 설정한다.

동작 정보에 기초하여, 제1 STA가 패킷을 성공적으로 송신하는 것으로 결정하면, AP는 제3 신경망의 보상 함수를 1로 설정하는 것으로 이해될 수 있다. 제1 STA는, N개의 STA 중에서, 마지막으로 제2 응답 정보가 성공적으로 수신된 시점과 현재 시점 사이에서 시간 간격이 가장 긴 STA이고, 즉, 제1 STA는 마지막으로 패킷이 성공적으로 송신된 시점부터 지속 시간이 가장 긴 STA이다.

다시 말해서, AP가, N개의 동작 정보에 기초하여, 마지막으로 패킷이 성공적으로 송신될 때의 시간부터 지속 시간이 가장 긴 STA가 복수의 슬롯에서 패킷을 성공적으로 송신한다고 결정하면, 보상 함수는 1로 설정된다. 즉, r _t = 1, 이고, 는 STA i가 이전의 제2 응답 정보를 수신하는 시점과 제T 슬롯 사이의 지속 시간을 나타내고, arg max는 값들 중 최대값에 대응하는 i가 선택되었다는 것을 나타낸다.

2. 보상 함수를 제1 지속 시간 빼기 1로 설정한다.

N개의 동작 정보에 기초하여, 제2 STA가 성공적으로 패킷을 송신하는 것으로 결정하면, AP는 보상 함수를 제1 지속 시간 빼기 1로 설정하고, 즉, r _t = -1인데, 여기서, 이다. 제2 STA는 N개의 STA 중에서 제1 STA가 아닌 STA이며, 제1 STA는, N개의 STA 중에서, 마지막으로 제2 응답 정보가 성공적으로 수신된 시점과 현재 시점 사이에서 시간 간격이 가장 긴 STA이다. 제1 지속 시간은 제2 STA가 마지막으로 제2 응답 정보를 성공적으로 수신한 시점과 현재 시점 사이의 지속 시간이다. 다시 말해서, AP가, N개의 동작 정보에 기초하여, 해당 STA가 아닌 마지막으로 패킷이 성공적으로 송신되는 시점부터 지속 시간이 가장 긴 STA가 복수의 슬롯 중 하나의 슬롯 내의 패킷을 성공적으로 송신한다고 결정했을 때, AP는 보상 함수를 제1 지속 시간 빼기 1로 설정한다.

3. 보상 함수를 -1로 설정한다.

N개의 동작 정보에 기초하여, N개의 STA 중 M개의 STA가 동일한 슬롯에서 패킷을 송신한다고 결정하면, AP는 보상 함수를 -1로 설정하고, 즉, r _t = -1인 것으로 이해될 수 있다. M은 N 이하의 양의 정수이다. 다시 말해서, AP가, N개의 동작 정보에 기초하여, N개 STA 중 일부 STA가 동일한 슬롯에서 패킷을 송신한다고 결정하면, 일부 STA가 슬롯에서 패킷을 송신하고 일부 STA는 패킷을 성공적으로 송신할 수 없을 경우, 즉, 보상 함수가 감산되는 경우, 구체적으로는, 보상 함수가 1만큼 감산되는 경우에 채널 충돌이 발생한다는 것을 표시한다.

4. 보상 함수를 0으로 설정한다.

N개의 동작 정보에 기초하여, N개의 STA 중 어느 것도 하나의 슬롯에서 패킷을 송신하지 않는다고 결정하면, AP는 보상 함수를 0으로 설정하고, 즉, r _t = 0인 것으로 이해될 수 있다. 다시 말해서, AP가, N개의 동작 정보에 기초하여, 모든 STA 중 어느 것도 하나의 슬롯에 패킷을 송신하지 않는다고 결정하면, 향후의 기대 보상은 없고, 그에 따라 보상 함수는 1로 설정된다.

또한, 전술한 4가지 경우에 더하여, AP는 또한 보상 함수를 0으로 설정할 수 있다.

본 출원의 이러한 실시예에서, 각각의 STA가 상이한 시간에 동작 정보를 보고하거나, N개의 STA 중 일부 STA가 상이한 시간에 동작 정보를 보고하면, AP가 현재 시점에 신경망을 훈련시킬 때, 일부 STA는 동작 정보를 보고하지 않고, 단지 일부 STA만 최신 동작 정보를 보고할 수 있다. 이 경우, 각각의 STA의 신경망을 훈련시킬 때, AP는 현재 시점에 보고되는 동작 정보와, 현재 시점에 동작 정보를 보고하지 않은 STA에 의해 마지막으로 보고되는 동작 정보를 이용하여, 각각의 STA의 제1 신경망을 훈련시켜, 각각의 STA의 제1 신경망의 중앙 집중식 훈련(centralized training)을 구현한다. 또한, 이러한 방식으로, 현재 시점에 동작 정보가 변경되지 않는 STA는 동작 정보를 보고할 필요가 없으므로, 통신 시스템의 시그널링 오버헤드를 감소시킬 수 있다.

STA에 의해 관찰된 송신 거동 및 패킷 전송 지속 시간에 기초하여, STA가 STA의 신경망을 훈련시키는 현재 솔루션과 비교하면, 본 출원의 이러한 실시예에서, AP는 N개의 STA의 N개의 동작 정보에 기초하여, 각각의 STA의 제1 신경망을 훈련시키고, 즉, AP는 각각의 STA의 제1 신경망을 훈련시킬 때, N개의 STA의 동작 정보를 참조하여, AP가 각각의 제1 신경망을 더 잘 훈련시킬 수 있고, 더 나은 훈련 결과를 획득할 수 있다. 이것은 제1 신경망의 예측 능력을 더 좋게 만든다.

S104: AP는 각각의 STA의 제1 신경망의 훈련 결과를 대응하는 STA로 송신한다.

S105: 각각의 STA에 대해, STA는 AP로부터 제1 신경망의 훈련 결과를 수신한다.

S106: 각각의 STA에 대해, STA는, 제1 신경망의 훈련 결과에 기초하여, 제1 신경망을 업데이트하고, 채널이 유휴 상태인 것을 감지할 때, 업데이트된 제1 신경망 및 STA의 현재 상태 정보에 기초하여, 채널에 액세스할지 여부를 결정한다.

STA의 현재 상태 정보는 과거의 일정 기간에서의 STA의 동작, 캐리어 감지 결과 및 패킷 전송 결과를 포함한다.

전술한 바와 같이, 선택적인 구현예에서, 제1 신경망의 훈련 결과는 제1 신경망의 신경망 파라미터이다. 이 경우, STA가, 제1 신경망의 훈련 결과에 기초하여, 제1 신경망을 업데이트한다는 것은 STA가 제1 신경망의 이전의 신경망 파라미터를 수신된 신경망 파라미터로 업데이트하여, 업데이트된 제1 신경망을 획득한다는 것을 표시한다.

다른 선택적인 구현예에서, 전술한 바와 같이, 제1 신경망의 훈련 결과는 제1 신경망의 그래디언트이다. 이 경우, STA가, 제1 신경망의 훈련 결과에 기초하여, 제1 신경망을 업데이트한다는 것은 STA가 그래디언트에 대한 계산 처리를 수행하여 제1 신경망의 신경망 파라미터를 획득하고, 그런 다음, 제1 신경망의 원래의 신경망 파라미터를 해당 신경망 파라미터로 대체하여, 업데이트된 신경망 파라미터를 획득한다는 것을 표시한다. STA가 그래디언트에 대한 계산 처리를 수행하는 프로세스는 θ' = θ+γg로 표현되는데, 여기서, θ'는 업데이트 후의 제1 신경망의 신경망 파라미터이고, θ는 업데이트 전의 제1 신경망의 신경망 파라미터이고, γ는 제1 신경망의 학습 효율성이며, g는 그래디언트이다.

선택적인 구현예에서, STA가, 제1 신경망의 훈련 결과에 기초하여, 제1 신경망을 업데이트하고, 채널이 유휴 상태인 것을 감지할 때, 업데이트된 제1 신경망과 감지된 동작 정보에 기초하여, 채널에 액세스할지 여부를 결정하는 것은 다음을 포함한다. STA는 업데이트된 제1 신경망에 동작 정보를 입력하여, 제1 값과 제2 값을 출력하는데, 여기서, 제1 값은 채널에 액세스함으로써 획득되는 기대 보상을 나타내고, 제2 값은 채널에 액세스를 스킵함으로써 획득되는 기대 보상을 나타낸다. STA는, 제1 값이 제2 값보다 크면, 채널에 액세스하는 것으로 결정하고; 혹은 STA는, 제1 값이 제2 값보다 작으면, 채널에의 액세스를 스킵하는 것으로 결정한다. 구체적으로, 채널이 유휴 상태인 것을 감지할 때, STA는, 업데이트된 제1 신경망에 의해 출력된 제1 값 및 제2 값에 기초하여, 채널에 액세스할지 여부를 결정한다.

STA의 제1 신경망이 Q 신경망의 일부인 예는, 채널이 유휴 상태인 것을 감지할 때, STA가, 제1 신경망의 훈련 결과와 현재 시점에 검출된 동작 정보에 기초하여, 채널에 액세스할지 여부를 결정하는 구현예를 설명하는 데 사용된다. 이 경우, STA의 제1 신경망의 구조는 도 10에 도시된다. STA는 현재 시점에 채널을 감지함으로써 STA에 의해 획득된 동작 정보를 에이전트 네트워크의 입력으로 사용하여, Q(,0) 및 Q(,1), 즉, 제1 값 및 제2 값을 획득한다. Q(,0)이 Q(,1)보다 크면, STA가 채널에 액세스함으로써 획득되는 기대 보상이 더 커서 STA가 채널에 액세스하는 것으로 결정한다는 것을 나타내고; 혹은 Q(,0)이 Q(,1)보다 작으면, STA이 채널에의 액세스를 스킵함으로써 획득되는 기대 보상이 더 커서 STA가 채널에의 액세스를 스킵하는 것으로 결정했다는 것을 나타낸다.

본 출원의 이러한 실시예에서, 채널이 유휴 상태인 것을 감지하면, STA는, AP에 의해 훈련된 제1 신경망의 훈련 결과와 현재 시점에 STA에 의해 감지된 동작 정보에 기초하여, 채널에 접속하는지 여부를 결정할 수 있다. 제1 신경망의 훈련 결과는 또한, 각각의 STA의 동작 정보에 기초하여, 제1 신경망을 훈련시킴으로써 AP에 의해 획득된다. 제1 신경망은 예측 가능성이 높다. 그러므로, 이러한 방식에서는, STA가 채널에 액세스하는 것으로 결정했을 때에 패킷을 성공적으로 송신할 확률이 높고, 즉, 채널 충돌의 확률이 낮다. 이것은 시스템 스루풋을 개선하고, 통신 시스템의 대기 시간을 감소시킬 수 있다.

본 출원의 이러한 실시예의 구현에 대한 블록도에 대해서는 도 11을 참조한다. AP에 대응하는 중앙 집중식 훈련 부분과 STA에 대응하는 분산 실행 부분은 도 11의 구현 블록도에 포함된다. AP에 대응하는 중앙 집중식 훈련 부분과 STA에 대응하는 분산 실행 부분 둘 모두는 각각의 STA의 제1 신경망을 포함하며, 제1 신경망의 신경망 파라미터는 θ _i 이다.

AP에 대응하는 중앙 집중식 훈련은 AP가, N개의 STA에 의해 보고되는 N개의 동작 정보에 기초하여 획득된 N개의 상태 정보에 기초하여, 각각의 제1 신경망을 훈련시켜, 각각의 제1 신경망의 훈련 결과를 획득하는 것을 표시한다. 다시 말해서, 각각의 제1 신경망의 훈련 결과는 N개의 동작 정보에 기초하여 획득된다. 이것은 제1 신경망의 예측 가능성을 개선할 수 있다. 동작 정보의 각각은 이력 환경을 관찰함으로써 각각의 STA에 의해 획득된다.

각각의 STA에 대응하는 분산 실행은, 각각의 STA가 AP에 의해 반송된 제1 신경망의 훈련 결과를 획득한 후에, STA가 훈련 결과를 이용하여 STA의 제1 신경망을 업데이트하고, 그런 다음, 채널이 유휴 상태인 것을 감지할 때, STA는, 감지된 동작 정보와 업데이트된 제1 신경망에 기초하여, STA에 의해 채널에 액세스할지 여부를 결정하는 것을 표시한다. 업데이트된 제1 신경망에 기초하여, STA가 채널에 액세스할지 여부를 결정하는 방식으로, STA는 채널에 액세스할지 여부를 보다 정확하게 결정할 수 있다. 이것은 시스템 스루풋을 개선하고, 시스템 통신 대기 시간을 감소시킬 수 있다.

본 출원의 이러한 실시예는 중앙 집중식 훈련 분포에 의해 실행되는 모든 다중 에이전트 강화 학습 알고리즘, 예를 들어, Aho-Corasick 오토마톤 알고리즘(Aho-Corasick automaton algorithm), 근거리 정책 최적화(Proximal Policy Optimization, PPO) 알고리즘 및 다중 에이전트 심층 결정적 정책 그래디언트(Multi-Agent Deep Deterministic Policy Gradient, MADDPG) 알고리즘에 적용될 수 있다는 것을 이해할 것이다.

본 출원의 실시예에서, N개의 STA는 동작 정보를 AP에 보고한다. AP는 N개의 STA에 의해 보고되는 N개의 동작 정보에 기초하여, 각각의 STA의 제1 신경망의 훈련 결과를 결정하고, 각각의 STA의 제1 신경망의 훈련 결과를 대응하는 STA로 송신하여, 각각의 STA가, 제1 신경망의 훈련 결과에 기초하여, 제1 신경망을 업데이트하고, 채널이 유휴 상태인 것을 감지할 때, 업데이트된 제1 신경망과 감지된 동작 정보에 기초하여, 채널에 액세스할지 여부를 결정할 수 있도록 한다. AP는 N개의 동작 정보에 기초하여, 각각의 STA의 제1 신경망을 훈련시켜, 제1 신경망이 더 나은 예측 가능성을 갖고, 그에 따라 다른 STA의 채널 액세스 거동을 예측하는 각각의 STA의 능력을 개선하는 데 도움을 주도록 한다. 즉, 각각의 STA가 패킷을 송신할 때, STA의 채널 충돌의 확률이 낮다. 이것은 시스템 스루풋을 개선하고 통신 대기 시간을 감소시킨다.

또한, STA가, 네트워크 내의 모든 STA의 이력 동작 정보에 기초하여, STA의 신경망을 훈련시키는 현재 연구의 구현예와 비교하여, 본 출원의 이러한 실시예에서, 각각의 STA는, STA가 아닌 다른 STA의 동작 정보에 의존하지 않고, AP에 의해 반송된 제1 신경망과 STA에 의해 감지된 이력 동작 정보의 훈련 결과에 기초하여, 채널에 액세스할지 여부를 독립적으로 결정한다. 그러므로, 각각의 STA의 실제 운용성은 더 좋다.

현재 연구에서, 각각의 STA는 또한 STA의 신경망을 훈련시키고, 훈련을 통해 획득된 신경망 파라미터를 AP에 보고할 수 있다. 그런 다음, AP는 모든 STA의 신경망 파라미터를 처리하여, 새로운 신경망 파라미터를 획득하고, 새로운 신경망 파라미터를 각각의 STA에 브로드캐스팅한다. 그런 다음, STA는, 새로운 신경망 파라미터에 기초하여, 채널에 액세스할지 여부를 결정한다. 연구와 비교하여, 본 출원의 이러한 실시예에서, 각각의 STA의 신경망은 AP에 의해 중앙 집중식으로 훈련되어, 네트워크 내의 각각의 STA는 STA의 신경망을 훈련할 필요가 없고, 즉, 네트워크 내의 각각의 STA는 신경망을 독립적으로 훈련시킬 수 있는 능력을 필요로 하지 않는다. 이것은 각각의 STA와 AP 사이의 상호작용을 감소시키고, 시스템의 컴퓨팅 성능 및 시그널링 오버헤드를 감소시킬 수 있다.

도 12는 본 출원의 이러한 실시예에서의 시스템 스루풋과 채널 충돌이 CSMA/CA 기술을 사용하여 해결될 때의 시스템 스루풋 사이의 비교도이다. 본 출원의 이러한 실시예에서의 시스템 스루풋은 채널 충돌이 CSMA/CA 기술을 사용하여 해결될 때의 스루풋보다 더 많다. 도 13은 본 출원의 이러한 실시예에서의 시스템의 평균 대기 시간과 채널 충돌이 CSMA/CA 기술을 이용하여 해결될 때의 시스템의 평균 대기 시간 사이의 비교도이다. 본 출원의 이러한 실시예의 평균 대기 시간은 채널 충돌이 CSMA/CA 기술을 이용하여 해결될 때의 평균 대기 시간보다 더 짧다. 도 14는 본 출원의 이러한 실시예에서의 시스템의 대기 시간 지터와 채널 충돌이 CSMA/CA 기술을 이용하여 해결될 때의 시스템의 대기 시간 지터 사이의 비교도이다. 본 출원의 이러한 실시예에서의 대기 시간 지터는 채널 충돌이 CSMA/CA 기술을 사용하여 해결될 때의 대기 시간 지터보다 낮다.

4. 각각의 STA는 동작 정보와 캐리어 감지 결과 정보를 보고하거나, 각각의 STA는 동작 정보와 패킷 전송 결과 정보를 보고한다.

동작 정보를 보고하는 것에 더하여, 각각의 STA는 또한 캐리어 감지 결과 정보 또는 패킷 전송 결과 정보도 보고할 수 있는 것으로 이해될 수 있다. 구현예는 다음과 같다:

1. 각각의 STA는 동작 정보와 캐리어 감지 결과 정보를 보고한다.

다시 말해서, 동작 정보에 더하여, 각각의 STA는 또한 캐리어 감지 결과 정보도 보고한다. 캐리어 감지 결과 정보는, STA가 마지막으로 동작 정보를 성공적으로 보고한 후에, 현재 시점 내의 복수의 슬롯 각각에 대한 캐리어 감지 결과를 포함한다. AP는 N개의 STA에 의해 개별적으로 보고되는 동작 정보와 캐리어 감지 결과 정보를 수신한다.

이 경우, N개의 동작 정보와 N개의 캐리어 감지 결과 정보는 STA에 의해 보고되는 제1 프레임의 동작 상세 필드로 반송된다. 제1 프레임의 프레임 구조는 도 5에 도시된다. 상세는 다시 설명되지 않는다. 동작 상세 필드는 시간 표시 서브필드, 및 데이터 1 서브필드 내지 데이터 T 서브필드를 포함하는데, 여기서, T는 양의 정수이다. 시간 표시 서브필드는 STA가 마지막으로 제1 응답 정보를 성공적으로 수신하는 시점을 표시한다. 제1 응답 정보는 AP가 STA에 의해 송신된 동작 정보를 성공적으로 수신할 때에 송신되는 응답 정보이다. 이 경우, 시간 표시 서브필드는 STA가 마지막으로 동작 정보를 성공적으로 보고하는 시점을 표시한다.

데이터 1 서브필드는 STA가 마지막으로 제1 응답 정보를 성공적으로 수신한 후에 제1 슬롯에서 수행되는 캐리어 감지 결과 및 동작을 표시한다. 데이터 T 서브필드는 STA가 마지막으로 제1 응답 정보를 성공적으로 수신한 후에 제T 슬롯에서 수행되는 동작 및 캐리어 감지 결과를 표시한다. 데이터 1 서브필드는 마지막으로 STA가 동작 정보를 성공적으로 보고한 이후에 캐리어 감지 결과 및 제1 슬롯에서 수행되는 동작을 표시하는 것으로 이해될 수 있다. 데이터 T 서브필드는 STA가 마지막으로 동작 정보를 성공적으로 보고한 후에 제T 슬롯에서 수행되는 동작 및 캐리어 감지 결과를 표시한다.

AP가, N개의 동작 정보에 기초하여, 각각의 STA의 제1 신경망의 훈련 결과를 결정하는 전술한 S103은 다음과 같을 수 있다. AP는 N개의 동작 정보와 N개의 캐리어 감지 결과 정보에 기초하여, 각각의 STA의 제1 신경망의 훈련 결과를 결정한다. AP는 동작 정보에 기초하여, 캐리어 감지 결과 정보를 결정할 필요가 없고, 수신된 동작 정보와 수신된 캐리어 감지 결과 정보에 기초하여, STA의 제1 신경망의 훈련 결과를 직접 결정할 수 있는 것으로 이해될 수 있다. 이것은 AP의 처리 복잡성을 감소시킨다.

선택적으로, AP가, N개의 동작 정보에 기초하여, 각각의 STA의 제1 신경망의 훈련 결과를 결정하는 전술한 S103은 다음과 같을 수 있다. AP는 N개의 동작 정보와 N개의 동작 정보에 기초하여 결정된 N개의 캐리어 감지 결과 정보에 기초하여, 각각의 STA의 제1 신경망의 훈련 결과를 결정한다. 다시 말해서, 본 구현예에서, STA가 캐리어 감지 결과 정보를 보고하더라도, AP는 동작 정보에 기초하여 결정된 캐리어 감지 결과 정보에 기초하여, 제1 신경망의 훈련 결과를 여전히 결정할 수 있다.

2. 각각의 STA는 동작 정보와 패킷 전송 결과 정보를 보고한다.

다시 말해서, 동작 정보에 더하여, 각각의 STA는 또한 패킷 전송 결과 정보도 보고한다. 패킷 전송 결과 정보는, STA가 마지막으로 동작 정보를 성공적으로 보고한 후에, 현재 시점 내의 복수의 슬롯에 패킷을 송신할 때에 획득된 패킷 전송 결과를 포함한다. AP는 N개의 STA에 의해 개별적으로 보고되는 동작 정보와 캐리어 감지 결과 정보를 수신한다.

이 경우, N개의 동작 정보와 N개의 패킷 전송 결과 정보는 STA에 의해 보고되는 제1 프레임의 동작 상세 필드로 반송된다. 제1 프레임의 프레임 구조는 도 5에 도시된다. 상세는 다시 설명되지 않는다. 동작 상세 필드는 시간 표시 서브필드, 및 데이터 1 서브필드 내지 데이터 T 서브필드를 포함하는데, 여기서, T는 양의 정수이다. 시간 표시 서브필드는 STA가 마지막으로 제1 응답 정보를 성공적으로 수신하는 시점을 표시한다. 제1 응답 정보는 AP가 STA에 의해 송신된 동작 정보를 성공적으로 수신할 때에 송신되는 응답 정보이다. 이 경우, 시간 표시 서브필드는 STA가 마지막으로 동작 정보를 성공적으로 보고하는 시점을 표시한다.

데이터 1 서브필드는 STA가 마지막으로 제1 응답 정보를 성공적으로 수신한 후에 제1 슬롯에서 수행되는 동작 및 패킷 전송 결과를 표시한다. 데이터 T 서브필드는 STA가 마지막으로 제1 응답 정보를 성공적으로 수신한 후에 제T 슬롯에서 수행되는 동작 및 패킷 전송 결과를 표시한다. 데이터 1 서브필드는 마지막으로 STA가 동작 정보를 성공적으로 보고한 이후에 패킷 전송 결과 및 제1 슬롯에서 수행되는 동작을 표시하는 것으로 이해될 수 있다. 데이터 T 서브필드는 STA가 마지막으로 동작 정보를 성공적으로 보고한 후에 제T 슬롯에서 수행되는 동작 및 패킷 전송 결과를 표시한다.

AP가, N개의 동작 정보에 기초하여, 각각의 STA의 제1 신경망의 훈련 결과를 결정하는 전술한 S103은 다음과 같을 수 있다. AP는 N개의 동작 정보와 N개의 패킷 전송 결과 정보에 기초하여, 각각의 STA의 제1 신경망의 훈련 결과를 결정한다. AP는 동작 정보에 기초하여, 패킷 전송 결과 정보를 결정할 필요가 없고, 수신된 동작 정보와 수신된 패킷 전송 결과 정보에 기초하여, STA의 제1 신경망의 훈련 결과를 직접 결정할 수 있다고 이해될 수 있다. 이것은 AP의 처리 복잡성을 감소시킨다.

선택적으로, AP가, N개의 동작 정보에 기초하여, 각각의 STA의 제1 신경망의 훈련 결과를 결정하는 전술한 S103은 다음과 같을 수 있다. AP는 N개의 동작 정보와 N개의 동작 정보에 기초하여 결정된 N개의 패킷 전송 결과 정보에 기초하여, 각각의 STA의 제1 신경망의 훈련 결과를 결정한다. 다시 말해서, 본 구현예에서, STA가 패킷 전송 결과 정보를 보고하더라도, AP는 동작 정보에 기초하여 결정된 패킷 전송 결과 정보에 기초하여, 제1 신경망의 훈련 결과를 여전히 결정할 수 있다.

각각의 STA가 동작 정보와 캐리어 감지 결과 정보를 보고하거나, 동작 정보와 패킷 전송 결과 정보를 보고할 때, AP가 N개의 STA에 의해 보고되는 N개의 동작 정보와 N개의 캐리어 감지 결과 정보 또는 N개의 동작 정보와 N개의 패킷 전송 결과 정보를 처리하는 방식은 채널 액세스 방법(100)에서의 처리 방식과 동일하다는 것이 이해될 수 있다. 상세는 여기에 다시 설명되지 않는다. 예를 들어, S103에서, 각각의 STA가 동작 정보와 캐리어 감지 결과 정보를 보고할 때, STA의 상태 정보는 STA의 캐리어 감지 결과 정보와 동작 정보에 기초하여 획득되고, 제2 신경망의 신경망 파라미터는 N개의 동작 정보와 N개의 캐리어 감지 결과 정보에 기초하여 획득되며, 보상 함수는 N개의 동작 정보와 N개의 캐리어 감지 결과 정보에 기초하여 결정된다.

5. AP가 제1 신경망의 훈련 결과를 각각의 STA로 반송하는 구현예

N개의 STA에 대응하는 제1 신경망의 신경망 파라미터가 동일하거나 상이할 때, AP가 각각의 STA에 제1 신경망의 훈련 결과를 반송하는 구현예는 상이할 수 있다. 다음은 AP가 제1 신경망의 훈련 결과를 N개의 STA로 반송하는 몇몇 선택적인 구현예를 설명한다.

1. N개의 STA는 신경망 파라미터를 공유한다.

N개의 STA가 신경망 파라미터를 공유할 때, AP가 각각의 STA의 제1 신경망의 훈련 결과를 대응하는 STA로 송신하는 것은 다음과 같은 것으로 이해될 수 있다. AP는 제1 신경망의 훈련 결과를 N개의 STA에 브로드캐스팅한다.

다시 말해서, 각각의 STA의 제1 신경망의 신경망 파라미터가 동일할 때, N개의 STA에 의해 보고되는 동작 정보에 기초하여, AP에 의해 결정된, 각각의 제1 신경망의 훈련 결과도 동일하다. 구체적으로, AP는 N개의 STA에 의해 보고되는 동작 정보에 기초하여, 하나의 제1 신경망의 훈련 결과를 결정한다. AP는 멀티캐스팅을 통해, 제1 신경망의 결정된 훈련 결과를 N개의 STA로 반송할 수 있다. 이것은 시스템 오버헤드를 감소시킬 수 있다.

2. N개의 STA 중 S개의 STA는 신경망 파라미터를 공유한다.

N개의 STA 중 S개의 STA는 신경망 파라미터를 공유하며, S는 N 이하의 양의 정수인 것으로 이해될 수 있다. 이 경우, AP가 각각의 STA의 제1 신경망의 훈련 결과를 대응하는 STA에 송신한다는 것은 다음과 같다. AP는 S개의 STA에 대응하는 제1 신경망의 훈련 결과를 S개의 STA에 멀티캐스팅하고, (N-S)개의 제1 신경망의 훈련 결과를 대응하는 STA에 유니캐스팅한다.

다시 말해서, N개의 STA 중 일부 STA가 신경망 파라미터를 공유하며 다른 STA가 신경망 파라미터를 공유하지 않을 때, AP는 신경망 파라미터를 공유하는 STA의 제1 신경망의 훈련 결과를 멀티캐스팅을 통해 일부 STA로 반송하고, 신경망 파라미터를 공유하지 않는 STA의 제1 신경망의 훈련 결과를 대응하는 STA에 유니캐스팅한다. 이러한 방식은 또한 시스템 오버헤드를 감소시킬 수 있다.

3. N개의 STA는 신경망 파라미터를 공유하지 않는다.

N개의 STA에 대응하는 N개의 제1 신경망의 신경망 파라미터가 상이할 때, N개의 STA에 의해 보고되는 정보에 기초하여 AP에 의해 결정된 제1 신경망의 훈련 결과도 상이하다고 이해될 수 있다. 그러므로, 제1 신경망의 훈련 결과는 대응하는 STA에 유니캐스팅된다.

선택적인 구현예에서, 각각의 STA는 STA와 다른 STA가 신경망 파라미터를 공유하는지 여부를 표시하는 정보를 AP에 보고하여, AP가, STA에 의해 보고되는 표시 정보에 기초하여, 일부 STA 또는 N개의 STA 모두가 신경망 파라미터를 공유하는지 여부를 결정할 수 있고, 또한 제1 신경망의 훈련 결과를 각각의 STA로 반송하는 구현예를 결정하도록 할 수 있다.

선택적인 구현예에서, 각각의 STA가 동작 정보를 보고하기 전, 또는 AP가 각각의 제1 신경망의 훈련 결과를 대응하는 STA로 송신하기 전에, AP는 각각의 STA의 제1 신경망의 구조를 각각의 STA로 반송하여, 각각의 STA가 STA의 제1 신경망의 구조를 획득하도록 한다.

또 다른 선택적인 구현예에서, 각각의 STA의 제1 신경망은 AP에 의해 사전 정의된다. 구체적으로, 각각의 STA는 STA의 제1 신경망의 구조와 제1 신경망의 신경망 파라미터를 사전에 알고 있으며, AP는 시그널링을 이용하여 각각의 STA에 통지할 필요가 없다. 이것은 AP의 시그널링 오버헤드를 감소시킬 수 있다.

또 다른 선택적인 구현예에서, 각각의 STA가 동작 정보를 보고하기 전, 또는 AP가 각각의 제1 신경망의 훈련 결과를 대응하는 STA로 송신하기 전에, AP는 복수의 제1 신경망의 구조를 각각의 STA로 반송한다. 제1 신경망의 구조를 사용하기로 결정했을 때, STA는 제1 신경망의 결정된 구조를 AP에 보고하여, AP가 각각의 STA에 의해 특별히 사용되는 제1 신경망의 구조를 획득하도록 한다. 이러한 방식으로, 각각의 STA는 AP에 의해 반송된 복수의 제1 신경망의 구조 중에서 STA에 의해 사용되는 제1 신경망의 구조를 유연하게 선택할 수 있다.

본 출원의 실시예에서, 각각의 STA는 AP에 요청하여 STA의 제1 신경망의 훈련 결과를 업데이트할 수 있고; STA로부터 요청 정보를 수신할 때, AP는 STA의 제1 신경망의 훈련 결과를 STA로 송신할 수 있다.

N개의 STA의 제1 신경망의 훈련 결과에 대해, 각각의 제1 신경망의 훈련 결과는 제2 프레임으로 반송된다. 제2 프레임의 프레임 구조에 대해서는 도 15를 참조한다. 제2 프레임은 요소 ID 서브필드, 길이 서브필드, 요소 ID 확장 서브필드 및 훈련 결과(신경망 파라미터 또는 그래디언트)를 포함한다. 제2 프레임은 기존 관리 프레임일 수 있고, 새로 추가된 관리 프레임일 수 있다. 구체적인 구현예에 대해서는, 제1 프레임의 구현예를 참조한다. 상세는 다시 설명되지 않는다.

6. 통신 장치

본 출원의 실시예에서 제공된 방법의 기능을 구현하기 위해, AP 또는 STA는 하드웨어 구조 및/또는 소프트웨어 모듈을 포함하여, 하드웨어 구조, 소프트웨어 모듈 또는 하드웨어 구조와 소프트웨어 모듈의 조합을 사용하여 전술한 기능을 구현할 수 있다. 전술한 기능들 내의 기능이 하드웨어 구조, 소프트웨어 모듈, 또는 하드웨어 구조와 소프트웨어 모듈의 조합을 사용하여 수행되는지 여부는 기술적 솔루션의 특정 애플리케이션 및 설계 제약에 따라 달라진다.

도 16에 도시된 바와 같이, 본 출원의 실시예는 통신 장치(1600)를 제공한다. 통신 장치(1600)는 AP의 구성요소(예를 들어, 집적회로 또는 칩)일 수 있고, STA의 구성요소(예를 들어, 집적회로 또는 칩)일 수 있다. 대안적으로, 통신 장치(1600)는 본 출원의 방법 실시예에서의 방법을 구현하도록 구성된 또 다른 통신 유닛일 수 있다. 통신 장치(1600)는 트랜시버 유닛(1601)과 처리 유닛(1602)을 포함할 수 있다. 선택적으로, 장치는 저장 유닛(1603)을 더 포함할 수 있다.

가능한 설계에서, 도 16의 하나 이상의 유닛은 하나 이상의 프로세서에 의해 구현될 수 있거나, 하나 이상의 프로세서 및 메모리에 의해 구현될 수 있거나, 하나 이상의 프로세서 및 트랜시버에 의해 구현될 수 있거나, 또는 하나 이상의 프로세서, 메모리 및 트랜시버에 의해 구현될 수 있다. 이것은 본 출원의 이러한 실시예로 제한되는 것은 아니다. 프로세서, 메모리 및 트랜시버는 개별적으로 배치될 수 있거나, 통합될 수 있다.

통신 장치(1600)는 본 출원의 실시예에서 설명된 AP를 구현하는 기능을 포함한다. 선택적으로, 통신 장치(1600)는 본 출원의 실시예에 설명된 STA를 구현하는 기능을 포함한다. 예를 들어, 통신 장치(1600)는 AP에 의해 본 출원의 실시예에서 AP의 단계를 수행하는 것에 대응하는 모듈, 유닛 또는 수단(means)을 포함한다. 기능이나 유닛이나 수단(means)은 소프트웨어로 구현될 수 있거나, 하드웨어로 구현될 수 있거나, 대응하는 소프트웨어를 실행하는 하드웨어로 구현될 수 있거나, 소프트웨어와 하드웨어의 조합으로 구현될 수 있다. 상세에 대해서는 전술한 대응하는 방법 실시예의 대응하는 설명을 참조한다.

가능한 설계에서, 통신 장치(1600)는 다음을 포함한다.

N개의 스테이션(station, STA)에 의해 개별적으로 보고되는 동작 정보를 수신하도록 구성된 통신 유닛(1601) - N개의 동작 정보는 각각의 STA의 제1 신경망의 훈련 결과를 결정하는 데 사용되며, N은 양의 정수임 - ; 및

N개의 동작 정보에 기초하여, 각각의 STA의 제1 신경망의 훈련 결과를 결정하도록 구성된 처리 유닛(1602)을 포함하되,

통신 유닛(1601)은 또한 각각의 STA의 제1 신경망의 훈련 결과를 대응하는 STA로 송신하도록 구성된다.

선택적인 구현예에서, 동작 정보는 일정 기간의 동작을 표시하며, 동작은 송신 또는 송신 스키핑(skipping sending)이다.

선택적인 구현예에서, 통신 유닛(1601)은 N개의 STA에 의해 개별적으로 보고되는 캐리어 감지 결과 정보 또는 패킷 전송 결과 정보를 수신하도록 추가로 구성되며; N개의 동작 정보에 기초하여, 각각의 STA의 제1 신경망의 훈련 결과를 결정하면, 처리 유닛(1602)은 구체적으로, N개의 동작 정보와 N개의 캐리어 감지 결과 정보에 기초하여, 각각의 STA의 제1 신경망의 훈련 결과를 결정하도록 구성되거나; 또는 N개의 동작 정보와 N개의 패킷 전송 결과 정보에 기초하여, 각각의 STA의 제1 신경망의 훈련 결과를 결정하도록 구성될 수 있다.

선택적인 구현예에서, 훈련 결과는 신경망 파라미터 또는 그래디언트이고, 신경망 파라미터/그래디언트는 대응하는 STA가 대응하는 제1 신경망을 업데이트하는 데 사용된다.

선택적인 구현예에서, 동작 정보는 STA에 의해 보고되는 제1 프레임의 동작 상세 필드로 반송된다. 동작 상세 필드는 시간 표시 서브필드, 및 데이터 1 서브필드 내지 데이터 T 서브필드를 포함하는데, 여기서, T는 양의 정수이다.

시간 표시 서브필드는 STA가 마지막으로 제1 응답 정보를 성공적으로 수신하는 시점을 표시한다. 제1 응답 정보는 AP가 STA에 의해 송신된 동작 정보를 성공적으로 수신할 때에 송신되는 응답 정보이다. 데이터 1 서브필드는 STA가 마지막으로 제1 응답 정보를 성공적으로 수신한 후에 제1 슬롯에서 수행되는 동작을 표시한다. 데이터 T 서브필드는 STA가 마지막으로 제1 응답 정보를 성공적으로 수신한 후에 제T 슬롯에서 수행되는 동작을 표시한다.

또 다른 선택적인 구현예에서, 동작 정보는 STA에 의해 보고되는 제1 프레임의 동작 상세 필드로 반송된다. 동작 상세 필드는 시간 표시 서브필드, 동작 1 서브필드, 시간 1 서브필드, …, 동작 P 서브필드, 시간 P 서브필드를 포함하는데, 여기서, P는 양의 정수이다.

시간 표시 서브필드는 STA가 마지막으로 제1 응답 정보를 성공적으로 수신하는 시점을 표시한다. 제1 응답 정보는 AP가 STA에 의해 송신된 동작 정보를 성공적으로 수신할 때에 송신되는 응답 정보이다. 동작 1 서브필드는 STA가 마지막으로 제1 응답 정보를 성공적으로 수신한 후의 제1 동작을 표시한다. 시간 1 서브필드는 동작 1의 지속 시간 또는 동작 1의 종료 시각을 표시한다. 동작 P 서브필드는 STA가 마지막으로 제1 응답 정보를 성공적으로 수신한 시점과 현재 시점 사이의 제P 동작을 표시한다. 시간 P 서브필드는 동작 P의 지속 시간 또는 동작 P의 종료 시각을 표시한다.

또 다른 선택적인 구현예에서, 동작 정보는 STA에 의해 보고되는 제1 프레임의 동작 상세 필드로 반송된다. 동작 상세 필드는 시간 1 표시 서브필드, 동작 1 서브필드, …, 시간 P 표시 서브필드 및 동작 P 서브필드를 포함하는데, 여기서, P는 양의 정수이다.

시간 1 표시 서브필드는 동작 1의 시작 시각을 표시한다. 동작 1 서브필드는 STA가 마지막으로 제1 응답 정보를 성공적으로 수신한 후의 제1 동작을 표시한다. 제1 응답 정보는 AP가 STA에 의해 송신된 동작 정보를 성공적으로 수신할 때에 송신되는 응답 정보이다. 시간 P 표시 서브필드는 동작 P의 시작 시각을 표시한다. 동작 P 서브필드는 STA가 마지막으로 제1 응답 정보를 성공적으로 수신한 시점과 현재 시점 사이의 제P 동작을 표시한다.

또 다른 선택적인 구현예에서, 동작 정보는 STA에 의해 보고되는 제1 프레임의 동작 상세 필드로 반송된다. 동작 상세 필드는 시간 1 표시 서브필드, 지속 시간 1 서브필드, …, 시간 K 표시 서브필드, 지속 시간 K 서브필드를 포함하는데, 여기서, K는 양의 정수이다.

시간 1 표시 서브필드는 동작 1의 시작 시각/종료 시각을 표시한다. 동작 1은 STA가 처음으로 패킷을 송신하고 마지막으로 제1 응답 정보를 성공적으로 수신한 후에 제2 응답 정보를 수신하지 않을 때의 송신 동작이다. 제1 응답 정보는 AP가 STA에 의해 송신된 동작 정보를 성공적으로 수신할 때에 송신되는 응답 정보이다. 제2 응답 정보는 AP가 STA에 의해 송신된 패킷을 성공적으로 수신할 때에 송신되는 응답 정보이다. 지속 시간 1 서브필드는 동작 1의 지속 시간을 표시한다.

시간 K 표시 서브필드는 동작 K의 시작 시각/종료 시각을 표시한다. 동작 K는 STA가 제K 시간에 대한 패킷을 송신하고 마지막으로 제1 응답 정보를 성공적으로 수신한 후에 제2 응답 정보를 수신하지 않을 때의 송신 동작이다. 지속 시간 K 서브필드는 동작 K의 지속 시간을 표시한다.

또 다른 선택적인 구현예에서, 동작 정보는 STA에 의해 보고되는 제1 프레임의 동작 상세 필드로 반송된다. 동작 상세 필드는 제1 시간 1 표시 서브필드, 제2 시간 1 표시 서브필드, …, 제1 시간 K 표시 서브필드 및 제2 시간 K 표시 서브필드를 포함하는데, 여기서, K는 양의 정수이다.

제1 시간 1 표시 서브필드는 동작 1의 시작 시각을 표시한다. 동작 1은 STA가 처음으로 패킷을 송신하고 마지막으로 제1 응답 정보를 성공적으로 수신한 후에 제2 응답 정보를 수신하지 않을 때의 송신 동작이다. 제1 응답 정보는 AP가 STA에 의해 송신된 동작 정보를 성공적으로 수신할 때에 송신되는 응답 정보이다. 제2 응답 정보는 AP가 STA에 의해 송신된 패킷을 성공적으로 수신할 때에 송신되는 응답 정보이다. 제2 시간 1 표시 서브필드는 동작 1의 종료 시각을 표시한다.

제1 시간 K 표시 서브필드는 동작 K의 시작 시각을 표시한다. 동작 K는 STA가 제K 시간에 대한 패킷을 송신하고 마지막으로 제1 응답 정보를 성공적으로 수신한 후에 제2 응답 정보를 수신하지 않을 때의 송신 동작이다. 제2 시간 K 표시 서브필드는 동작 K의 종료 시각을 표시한다.

추가의 선택적인 구현예에서, 동작 정보 및 캐리어 감지 결과 정보는 STA에 의해 보고되는 제1 프레임의 동작 상세 필드 내로 반송된다. 동작 상세 필드는 시간 표시 서브필드, 및 데이터 1 서브필드 내지 데이터 T 서브필드를 포함하는데, 여기서, T는 양의 정수이다.

추가의 선택적인 구현예에서, 동작 정보 및 패킷 전송 결과 정보는 STA에 의해 보고되는 제1 프레임의 동작 상세 필드 내로 반송된다. 동작 상세 필드는 시간 표시 서브필드, 및 데이터 1 서브필드 내지 데이터 T 서브필드를 포함하는데, 여기서, T는 양의 정수이다.

선택적인 구현예에서, N개의 동작 정보에 기초하여, 각각의 STA의 제1 신경망의 훈련 결과를 결정하면, 처리 유닛(1602)은, 구체적으로, 각각의 STA의 상태 정보를 대응하는 STA의 제1 신경망에 입력하여, 제1 신경망의 출력을 획득하고; 각각의 제1 신경망의 출력을 제2 신경망에 입력하여, 제2 신경망의 출력을 획득하되, 여기서, 제2 신경망의 출력은 사전 설정된 시간 내에 기대 보상을 나타내며; 또한 제2 신경망의 출력과 보상 함수에 기초하여, 제3 신경망을 훈련시키고, 제3 신경망의 손실 함수를 최소화하여 각각의 제1 신경망의 훈련 결과를 결정하되, 여기서, 제3 신경망은 각각의 제1 신경망과 제2 신경망을 포함하도록 구성된다.

선택적인 구현예에서, 처리 유닛(1602)은 또한 N개의 동작 정보에 기초하여, 제1 STA가 패킷을 성공적으로 송신한다고 결정하면, 보상 함수의 값을 1로 설정하도록 구성되는데, 여기서, 제1 STA는, N개의 STA 중에서, 마지막으로 제2 응답 정보가 성공적으로 수신된 시점과 현재 시점 사이에서 시간 간격이 가장 긴 STA이다.

다른 선택적인 구현예에서, 처리 유닛(1602)은 또한 N개의 동작 정보에 기초하여, 제2 STA가 패킷을 성공적으로 송신한다고 결정하면, 보상 함수의 값을 제1 지속 시간 빼기 1로 설정하도록 구성되는데, 여기서, 제2 STA는 N개의 STA 중에서 제1 STA가 아닌 STA이고, 제1 STA는, N개의 STA 중에서, 마지막으로 제2 응답 정보가 성공적으로 수신된 시점과 현재 시점 사이에서 시간 간격이 가장 긴 STA이며; 제1 지속 시간은 제2 STA가 마지막으로 제2 응답 정보를 성공적으로 수신한 시점과 현재 시점 사이의 지속 시간이다.

또 다른 선택적인 구현예에서, 처리 유닛(1602)은 또한 N개의 동작 정보에 기초하여, N개의 STA 중 M개의 STA가 동일한 슬롯에서 패킷을 송신한다고 결정하면, 보상 함수의 값을 -1로 설정하도록 구성되는데, 여기서, M은 N 이하의 양의 정수이다.

또 다른 선택적인 구현예에서, 처리 유닛(1602)은 또한 N개의 동작 정보에 기초하여, N개의 STA 중 어느 것도 동일한 슬롯에서 패킷을 송신하지 않는다고 결정하면, 보상 함수의 값을 0으로 설정하도록 구성된다.

선택적인 구현예에서, N개의 STA는 신경망 파라미터를 공유하고; 각각의 STA의 제1 신경망의 훈련 결과를 대응하는 STA로 송신할 때, 통신 유닛(1601)은, 구체적으로, 제1 신경망의 훈련 결과를 N개의 STA에 브로드캐스팅하도록 구성된다.

다른 선택적인 구현예에서, N개의 STA 중 S개의 STA는 신경망 파라미터를 공유하며, S는 N 이하의 양의 정수이며; 각각의 STA의 제1 신경망의 훈련 결과를 대응하는 STA로 송신할 때, 통신 유닛(1601)은 구체적으로 S개의 STA에 대응하는 제1 신경망의 훈련 결과를 S개의 STA에 멀티캐스팅하며, (N-S)개의 제1 신경망의 훈련 결과를 대응하는 STA에 유니캐스팅하도록 구성된다.

본 출원의 이러한 실시예와 전술한 방법 실시예는 동일한 개념에 기초하며, 동일한 기술적 효과를 가져온다. 구체적인 원리에 대해서는, 전술한 실시예의 설명을 참조한다. 상세는 다시 설명되지 않는다.

다른 가능한 설계에서, 통신 장치(1600)는 다음을 포함한다.

액세스 포인트(access point, AP)에 동작 정보를 보고하도록 구성된 통신 유닛(1601) - 동작 정보는 처리 유닛의 제1 신경망의 훈련 결과를 결정하는 데 사용되고,

통신 유닛(1601)은 또한 AP로부터 제1 신경망의 훈련 결과를 수신하도록 구성되는데, 여기서, 제1 신경망의 훈련 결과는 제1 신경망을 업데이트하는 데 사용되어, 처리 유닛이 채널에 액세스할지 여부를 결정함 - ; 및

제1 신경망의 훈련 결과에 기초하여, 제1 신경망을 업데이트하고, 채널이 유휴 상태인 것을 감지할 때, 업데이트된 제1 신경망 및 처리 유닛의 현재 상태 정보에 기초하여 채널에 액세스할지 여부를 결정하도록 구성된 처리 유닛(1602)을 포함한다.

선택적인 구현예에서, 통신 유닛(1601)은 또한 캐리어 감지 결과 정보 또는 패킷 전송 결과 정보를 AP에 보고하도록 구성되며, 여기서, 캐리어 감지 결과 정보 또는 패킷 전송 결과 정보는 처리 유닛의 제1 신경망의 훈련 결과를 결정하는 데 사용된다.

선택적인 구현예에서, 훈련 결과는 신경망 파라미터 또는 그래디언트이고, 신경망 파라미터/그래디언트는 처리 유닛(1602)이 제1 신경망을 업데이트하는 데 사용된다.

선택적인 구현예에서, 동작 정보는 처리 유닛(1602)에 의해 보고되는 제1 프레임의 동작 상세 필드로 반송된다. 동작 상세 필드는 시간 표시 서브필드, 및 데이터 1 서브필드 내지 데이터 T 서브필드를 포함하는데, 여기서, T는 양의 정수이다.

시간 표시 서브필드는 처리 유닛(1602)이 마지막으로 제1 응답 정보를 성공적으로 수신하는 시점을 표시한다. 제1 응답 정보는 AP가 처리 유닛(1602)에 의해 송신된 동작 정보를 성공적으로 수신할 때에 송신되는 응답 정보이다. 데이터 1 서브필드는 처리 유닛(1602)이 마지막으로 제1 응답 정보를 성공적으로 수신한 후에 제1 슬롯에서 수행되는 동작을 표시한다. 데이터 T 서브필드는 처리 유닛(1602)이 마지막으로 제1 응답 정보를 성공적으로 수신한 후에 제T 슬롯에서 수행되는 동작을 표시한다.

다른 선택적인 구현예에서, 동작 정보는 처리 유닛(1602)에 의해 보고되는 제1 프레임의 동작 상세 필드로 반송된다. 동작 상세 필드는 시간 표시 서브필드, 동작 1 서브필드, 시간 1 서브필드, …, 동작 P 서브필드, 시간 P 서브필드를 포함하는데, 여기서, P는 양의 정수이다.

시간 표시 서브필드는 처리 유닛(1602)이 마지막으로 제1 응답 정보를 성공적으로 수신하는 시점을 표시한다. 제1 응답 정보는 AP가 처리 유닛(1602)에 의해 송신된 동작 정보를 성공적으로 수신할 때에 송신되는 응답 정보이다. 동작 1 서브필드는 처리 유닛(1602)이 마지막으로 제1 응답 정보를 성공적으로 수신한 후의 제1 동작을 표시한다. 시간 1 서브필드는 동작 1의 지속 시간 또는 동작 1의 종료 시각을 표시한다. 동작 P 서브필드는 처리 유닛(1602)이 마지막으로 제1 응답 정보를 성공적으로 수신한 시점과 현재 시점 사이의 제P 동작을 표시한다. 시간 P 서브필드는 동작 P의 지속 시간 또는 동작 P의 종료 시각을 표시한다.

또 다른 선택적인 구현예에서, 동작 정보는 처리 유닛(1602)에 의해 보고되는 제1 프레임의 동작 상세 필드로 반송된다.

동작 상세 필드는 시간 1 표시 서브필드, 동작 1 서브필드, …, 시간 P 표시 서브필드 및 동작 P 서브필드를 포함하는데, 여기서, P는 양의 정수이다.

시간 1 표시 서브필드는 동작 1의 시작 시각을 표시한다. 동작 1 서브필드는 처리 유닛(1602)이 마지막으로 제1 응답 정보를 성공적으로 수신한 후의 제1 동작을 표시한다. 제1 응답 정보는 AP가 STA에 의해 송신된 동작 정보를 성공적으로 수신할 때에 송신되는 응답 정보이다.

시간 P 표시 서브필드는 동작 P의 시작 시각을 표시한다. 동작 P 서브필드는 처리 유닛(1602)이 마지막으로 제1 응답 정보를 성공적으로 수신한 시점과 현재 시점 사이의 제P 동작을 표시한다.

동작 상세 필드는 시간 1 표시 서브필드, 지속 시간 1 서브필드, …, 시간 K 표시 서브필드, 지속 시간 K 서브필드를 포함하는데, 여기서, K는 양의 정수이다.

시간 1 표시 서브필드는 동작 1의 시작 시각/종료 시각을 표시한다. 동작 1은 STA가 처음으로 패킷을 송신하고 마지막으로 제1 응답 정보를 성공적으로 수신한 후에 제2 응답 정보를 수신하지 않을 때의 송신 동작이다. 제1 응답 정보는 AP가 처리 유닛(1602)에 의해 송신된 동작 정보를 성공적으로 수신할 때에 송신되는 응답 정보이다. 제2 응답 정보는 AP가 처리 유닛(1602)에 의해 송신된 패킷을 성공적으로 수신할 때에 송신되는 응답 정보이다. 지속 시간 1 서브필드는 동작 1의 지속 시간을 표시한다.

시간 K 표시 서브필드는 동작 K의 시작 시각/종료 시각을 표시한다. 동작 K는 처리 유닛(1602)이 제K 시간에 대한 패킷을 송신하고 마지막으로 제1 응답 정보를 성공적으로 수신한 후에 제2 응답 정보를 수신하지 않을 때의 송신 동작이다. 지속 시간 K 서브필드는 동작 K의 지속 시간을 표시한다.

동작 상세 필드는 제1 시간 1 표시 서브필드, 제2 시간 1 표시 서브필드, …, 제1 시간 K 표시 서브필드 및 제2 시간 K 표시 서브필드를 포함하는데, 여기서, K는 양의 정수이다.

제1 시간 1 표시 서브필드는 동작 1의 시작 시각을 표시한다. 동작 1은 처리 유닛(1602)이 처음으로 패킷을 송신하고 마지막으로 제1 응답 정보를 성공적으로 수신한 후에 제2 응답 정보를 수신하지 않을 때의 송신 동작이다. 제1 응답 정보는 AP가 처리 유닛(1602)에 의해 송신된 동작 정보를 성공적으로 수신할 때에 송신되는 응답 정보이다. 제2 응답 정보는 AP가 처리 유닛(1602)에 의해 송신된 패킷을 성공적으로 수신할 때에 송신되는 응답 정보이다. 제2 시간 1 표시 서브필드는 동작 1의 종료 시각을 표시한다.

제1 시간 K 표시 서브필드는 동작 K의 시작 시각을 표시한다. 동작 K는 처리 유닛(1602)이 제K 시간에 대한 패킷을 송신하고 마지막으로 제1 응답 정보를 성공적으로 수신한 후에 제2 응답 정보를 수신하지 않을 때의 송신 동작이다. 제2 시간 K 표시 서브필드는 동작 K의 종료 시각을 표시한다.

추가의 선택적인 구현예에서, 동작 정보 및 캐리어 감지 결과 정보는 처리 유닛(1602)에 의해 보고되는 제1 프레임의 동작 상세 필드 내로 반송된다. 동작 상세 필드는 시간 표시 서브필드, 및 데이터 1 서브필드 내지 데이터 T 서브필드를 포함하는데, 여기서, T는 양의 정수이다.

시간 표시 서브필드는 처리 유닛(1602)이 마지막으로 제1 응답 정보를 성공적으로 수신하는 시점을 표시한다. 제1 응답 정보는 AP가 처리 유닛(1602)에 의해 송신된 동작 정보를 성공적으로 수신할 때에 송신되는 응답 정보이다.

데이터 1 서브필드는 처리 유닛(1602)이 마지막으로 제1 응답 정보를 성공적으로 수신한 후에 제1 슬롯에서 수행되는 동작 및 캐리어 감지 결과를 표시한다.

데이터 T 서브필드는 처리 유닛(1602)이 마지막으로 제1 응답 정보를 성공적으로 수신한 후에 제T 슬롯에서 수행되는 동작 및 캐리어 감지 결과를 표시한다.

추가의 선택적인 구현예에서, 동작 정보 및 패킷 전송 결과 정보는 처리 유닛(1602)에 의해 보고되는 제1 프레임의 동작 상세 필드 내로 반송된다. 동작 상세 필드는 시간 표시 서브필드, 및 데이터 1 서브필드 내지 데이터 T 서브필드를 포함하는데, 여기서, T는 양의 정수이다.

데이터 1 서브필드는 처리 유닛(1602)이 마지막으로 제1 응답 정보를 성공적으로 수신한 후에 제1 슬롯에서 수행되는 동작 및 패킷 전송 결과를 표시한다.

데이터 T 서브필드는 처리 유닛(1602)이 마지막으로 제1 응답 정보를 성공적으로 수신한 후에 제T 슬롯에서 수행되는 동작 및 패킷 전송 결과를 표시한다.

선택적인 구현예에서, 제1 신경망의 훈련 결과에 기초하여 제1 신경망을 업데이트할 때, 및 채널이 유휴 상태인 것을 감지할 때, 업데이트된 제1 신경망 및 처리 유닛의 현재 상태 정보에 기초하여, 채널에 액세스할지 여부를 결정하는 경우, 처리 유닛(1602)은, 구체적으로, 처리 유닛의 현재 상태 정보를 업데이트된 제1 신경망에 입력하여, 제1 값과 제2 값을 출력하도록 구성되는데, 여기서, 제1 값은 채널에 액세스함으로써 획득되는 기대 보상을 나타내고, 제2 값은 채널에의 액세스를 스킵함으로써 획득되는 기대 보상을 나타내며; 제1 값이 제2 값보다 크면 채널에 액세스하는 것으로 결정하고; 혹은 제1 값이 제2 값보다 작으면 채널에의 액세스를 스킵하는 것으로 결정한다.

본 출원의 실시예는 통신 장치(1700)를 추가로 제공한다. 도 17은 통신 장치(1700)의 구조의 개략도이다. 통신 장치(1700)는 AP 또는 STA일 수 있거나, 전술한 방법을 구현함에 있어 AP를 지원하는 칩, 칩 시스템, 프로세서 등일 수 있거나, 또는 전술한 방법을 구현함에 있어 STA를 지원하는 칩, 칩 시스템, 프로세서 등일 수 있다. 장치는 전술한 방법 실시예에서 설명된 방법을 구현하도록 구성될 수 있다. 상세에 대해서는, 전술한 방법 실시예의 설명을 참조한다.

통신 장치(1700)는 하나 이상의 프로세서(1701)를 포함할 수 있다. 프로세서(1701)는 범용 프로세서, 전용 프로세서 등일 수 있다. 예를 들어, 프로세서는 베이스밴드 프로세서, 디지털 신호 프로세서, 주문형 집적 회로(application-specific integrated circuit), 필드 프로그램 가능 게이트 어레이(field programmable gate array) 또는 다른 프로그램 가능 로직 디바이스, 이산 게이트 또는 트랜지스터 로직 디바이스, 이산 하드웨어 구성요소 또는 중앙 처리 유닛(central processing unit, CPU)일 수 있다. 베이스밴드 프로세서는 통신 프로토콜과 통신 데이터를 처리하도록 구성될 수 있다. 중앙 처리 유닛은 통신 장치(예를 들어, 기지국, 베이스밴드 칩, 단말, 단말 칩, DU 또는 CU)를 제어하고, 소프트웨어 프로그램을 실행하며, 소프트웨어 프로그램의 데이터를 처리하도록 구성될 수 있다.

선택적으로, 통신 장치(1700)는 하나 이상의 메모리(1702)를 포함할 수 있다. 메모리(1702)는 명령어(1704)를 저장할 수 있고, 명령어는 프로세서(1701)에서 구동되어, 통신 장치(1700)가 전술한 방법 실시예에서 설명된 방법을 수행하도록 할 수 있다. 선택적으로, 메모리(1702)는 또한 데이터를 저장할 수 있다. 프로세서(1701)와 메모리(1702)는 개별적으로 배치될 수 있거나, 함께 통합될 수 있다.

메모리(1702)는 하드 디스크 드라이브(hard disk drive, HDD) 또는 솔리드 스테이트 드라이브(solid-state drive, SSD)와 같은 비휘발성 메모리, 랜덤 액세스 메모리(Random Access Memory, RAM), 삭제 가능한 프로그래밍 가능한 읽기 전용 메모리(Erasable Programmable ROM, EPROM), 읽기 전용 메모리(Read-Only Memory, ROM) 또는 휴대용 읽기 전용 메모리(Compact Disc Read-Only Memory, CD-ROM)를 포함할 수 있으나, 이들로 제한되는 것은 아니다.

선택적으로, 통신 장치(1700)는 트랜시버(1705) 및 안테나(1706)를 더 포함할 수 있다. 트랜시버(1705)는 통신 유닛, 트랜시버 머신, 트랜시버 회로 등으로 지칭될 수 있으며, 트랜시버 기능을 구현하도록 구성된다. 트랜시버(1705)는 수신기 및 전송기를 포함할 수 있다. 수신기는 수신기 머신, 수신기 회로 등으로 지칭될 수 있으며, 수신 기능을 구현하도록 구성된다. 전송기는 전송기 머신, 전송기 회로 등으로 지칭될 수 있으며, 송신 기능을 구현하도록 구성된다.

통신 장치(1700)가 AP일 때, 트랜시버(1705)는 채널 액세스 방법(100)에서 S102 및 S104를 수행하도록 구성되고, 프로세서(1701)는 채널 액세스 방법(100)에서 S103을 수행하도록 구성된다.

통신 장치(1700)가 STA일 때, 프로세서(1701)는 채널 액세스 방법(100)에서 S106을 수행하도록 구성되고, 트랜시버(1705)는 채널 액세스 방법(100)에서 S101 및 S105를 수행하도록 구성된다.

다른 가능한 설계에서, 프로세서(1701)는 수신 및 송신 기능을 구현하도록 구성된 트랜시버를 포함할 수 있다. 예를 들어, 트랜시버는 트랜시버 회로, 인터페이스 또는 인터페이스 회로일 수 있다. 트랜시버 회로, 인터페이스, 또는 수신 및 송신 기능을 구현하도록 구성된 인터페이스 회로는 분리될 수 있거나, 또는 함께 통합될 수 있다. 트랜시버 회로, 인터페이스 또는 인터페이스 회로는 코드/데이터를 읽고 쓰도록 구성될 수 있거나; 또는 트랜시버 회로, 인터페이스 또는 인터페이스 회로는 신호 전송 또는 전송을 수행하도록 구성될 수 있다.

또 다른 가능한 설계에서, 메모리(1701)는, 선택적으로, 명령어(1703)를 저장할 수 있고, 명령어는 프로세서(1701)에서 구동되어, 통신 장치(1700)가 전술한 방법 실시예에서 설명된 방법을 수행하도록 한다. 명령어(1703)는 프로세서(1701)에 고정될 수 있다. 이 경우, 프로세서(1701)는 하드웨어로 구현될 수 있다.

또 다른 가능한 설계에서, 통신 장치(1700)는 회로를 포함할 수 있다. 회로는 전술한 방법 실시예에서 송신, 수신 또는 통신 기능을 구현할 수 있다. 본 출원의 이러한 실시예에 설명된 프로세서 및 트랜시버는 집적 회로(integrated circuit, IC), 아날로그 IC, 라디오 주파수 집적 회로(radio frequency integrated circuit, RFIC), 하이브리드 신호 IC, 주문형 집적 회로(application-specific integrated circuit, ASIC), 인쇄 회로 기판(printed circuit board, PCB), 전자 디바이스 등에 구현될 수 있다. 프로세서 및 트랜시버는 대안적으로 다양한 IC 기술, 예를 들어, 상보형 금속 산화물 반도체(complementary metal oxide semiconductor, CMOS), N형 금속 산화물 반도체(n Metal-oxide-semiconductor, NMOS), P형 금속 산화물 반도체(positive channel metal oxide semiconductor, PMOS), 바이폴라 접합 트랜지스터(Bipolar Junction Transistor, BJT), 바이폴라 CMOS(BiCMOS), 실리콘 게르마늄(SiGe) 및 갈륨비소(GaAs)를 사용하여 제작될 수 있다.

본 출원의 이러한 실시예와 채널 액세스 방법(100)에 도시된 방법 실시예는 동일한 개념에 기초하며, 동일한 기술적 효과를 가져온다. 구체적인 원리에 대해서는, 채널 액세스 방법(100)에 도시된 실시예의 설명을 참조한다. 상세는 다시 설명되지 않는다.

본 출원은 또한 컴퓨터 소프트웨어 명령어를 저장하도록 구성된 컴퓨터 판독 가능 저장 매체를 제공한다. 명령어가 통신 장치에 의해 실행될 때, 전술한 방법 실시예 중 어느 한 실시예의 기능이 구현된다.

본 출원은 또한 컴퓨터 소프트웨어 명령어를 저장하도록 구성된 컴퓨터 프로그램 제품을 제공한다. 명령어가 통신 장치에 의해 실행될 때, 전술한 방법 실시예 중 어느 한 실시예의 기능이 구현된다.

본 출원은 또한 컴퓨터 프로그램 제품을 제공한다. 컴퓨터 프로그램이 컴퓨터에서 구동될 때, 전술한 방법 실시예 중 어느 한 실시예의 기능이 구현된다.

전술한 실시예의 전부 또는 일부는 소프트웨어, 하드웨어, 펌웨어 또는 이들의 임의의 조합을 사용하여 구현될 수 있다. 실시예를 구현하기 위해 소프트웨어가 사용될 때, 실시예의 전부 또는 일부는 컴퓨터 프로그램 제품의 형태로 구현될 수 있다. 컴퓨터 프로그램 제품에는 하나 이상의 컴퓨터 명령이 포함된다. 컴퓨터 명령어가 컴퓨터상에서 로딩되어 실행될 때, 본 출원의 실시예에 따른 상호작용이나 기능은 전부 또는 부분적으로 생성된다. 컴퓨터는 범용 컴퓨터, 전용 컴퓨터, 컴퓨터 네트워크 또는 다른 프로그램 가능 장치일 수 있다. 컴퓨터 명령은 컴퓨터 판독 가능 저장 매체에 저장될 수 있거나, 컴퓨터 판독 가능 저장 매체로부터 다른 컴퓨터 판독 가능 저장 매체로 전송될 수 있다. 예를 들어, 컴퓨터 명령은 웹 사이트, 컴퓨터, 서버 또는 데이터 센터로부터 유선(예컨대, 동축 케이블, 광섬유 또는 DSL(Digital Subscriber Line))이나 무선(예컨대, 적외선, 라디오 또는 마이크로파) 방식으로 다른 웹 사이트, 컴퓨터, 서버 또는 데이터 센터로 전송될 수 있다. 컴퓨터 판독 가능 저장 매체는 컴퓨터에 의해 액세스 가능한 임의의 사용 가능한 매체, 또는 데이터 저장 디바이스, 예를 들어, 하나 이상의 사용 가능한 매체를 통합하는 서버나 데이터 센터일 수 있다. 사용 가능한 매체는 자기 매체(예컨대, 플로피 디스크, 하드 디스크 또는 자기 테이프), 광학 매체(예컨대, 고밀도 디지털 비디오 디스크(digital video disc, DVD)), 반도체 매체(예컨대, 솔리드 스테이트 드라이브(solid state drive, SSD)) 등일 수 있다.

전술한 설명은 본 출원의 특정 구현예일 뿐이며, 본 출원의 보호 범주를 제한하려는 것은 아니다. 본 출원에 개시된 기술 범위 내에서 당업자에 의해 용이하게 이해되는 임의의 변형 또는 대체는 본 출원의 보호 범주 내에 있다. 그러므로, 본 출원의 보호 범주는 특허 청구 범위의 보호 범주에 종속되어야 한다.

Claims

채널 액세스 방법으로서,
액세스 포인트(access point, AP)에 의해, N개의 스테이션(station, STA)에 의해 개별적으로 보고되는 동작 정보를 수신하는 단계 - N개의 동작 정보는, 각각의 STA의 제1 신경망의 훈련 결과를 결정하는 데 사용되며, N은 양의 정수임 - ,
상기 AP에 의해, 상기 N개의 동작 정보에 기초하여, 각각의 STA의 상기 제1 신경망의 상기 훈련 결과를 결정하는 단계, 및
상기 AP에 의해, 각각의 STA의 상기 제1 신경망의 상기 훈련 결과를 대응하는 STA로 송신하는 단계
를 포함하는 채널 액세스 방법.
제1항에 있어서,
상기 동작 정보는 일정 기간의 동작을 표시하며,
상기 동작은 송신(sending) 또는 송신 스키핑(skipping sending)인,
채널 액세스 방법.
제1항 또는 제2항에 있어서,
상기 AP에 의해, 상기 N개의 STA에 의해 개별적으로 보고되는 캐리어 감지 결과 정보 또는 패킷 전송 결과 정보를 수신하는 단계를 더 포함하고,
상기 AP에 의해, 상기 N개의 동작 정보에 기초하여 각각의 STA의 상기 제1 신경망의 상기 훈련 결과를 결정하는 상기 단계는,
상기 AP에 의해, 상기 N개의 동작 정보 및 상기 N개의 캐리어 감지 결과 정보에 기초하여, 각각의 STA의 상기 제1 신경망의 상기 훈련 결과를 결정하는 단계, 또는
상기 AP에 의해, 상기 N개의 동작 정보 및 상기 N개의 패킷 전송 결과 정보에 기초하여, 각각의 STA의 상기 제1 신경망의 상기 훈련 결과를 결정하는 단계를 포함하는 것인,
채널 액세스 방법.
제1항 내지 제3항 중 어느 한 항에 있어서,
상기 훈련 결과는 신경망 파라미터 또는 그래디언트이며,
상기 신경망 파라미터/그래디언트는 상기 STA가 상기 제1 신경망을 업데이트하는 데 사용되는,
채널 액세스 방법.
제1항 또는 제2항에 있어서,
상기 동작 정보는 상기 STA에 의해 보고되는 제1 프레임의 동작 상세 필드로 반송되고,
상기 동작 상세 필드는 시간 표시 서브필드 및 데이터 1 서브필드 내지 데이터 T 서브필드를 포함하는데, 여기서, T는 양의 정수이고,
상기 시간 표시 서브필드는 상기 STA가 마지막으로 제1 응답 정보를 성공적으로 수신하는 시점을 표시하며, 상기 제1 응답 정보는 상기 AP가 상기 STA에 의해 송신된 동작 정보를 성공적으로 수신할 때에 송신되는 응답 정보이고,
상기 데이터 1 서브필드는 상기 STA가 마지막으로 상기 제1 응답 정보를 성공적으로 수신한 후에 제1 슬롯에서 수행되는 동작을 표시하며,
상기 데이터 T 서브필드는 상기 STA가 마지막으로 상기 제1 응답 정보를 성공적으로 수신한 후에 제T 슬롯에서 수행되는 동작을 표시하는,
채널 액세스 방법.
제1항 또는 제2항에 있어서,
상기 동작 정보는 상기 STA에 의해 보고되는 제1 프레임의 동작 상세 필드로 반송되고,
상기 동작 상세 필드는 시간 표시 서브필드, 동작 1 서브필드, 시간 1 서브필드, …, 동작 P 서브필드 및 시간 P 서브필드를 포함하는데, 여기서 P는 양의 정수이고,
상기 시간 표시 서브필드는 상기 STA가 마지막으로 제1 응답 정보를 성공적으로 수신하는 시점을 표시하며, 상기 제1 응답 정보는 상기 AP가 상기 STA에 의해 송신된 동작 정보를 성공적으로 수신할 때에 송신되는 응답 정보이고,
상기 동작 1 서브필드는 상기 STA가 마지막으로 상기 제1 응답 정보를 성공적으로 수신한 후의 제1 동작을 표시하고, 상기 시간 1 서브필드는 상기 동작 1의 지속 시간 또는 상기 동작 1의 종료 시각을 표시하며,
상기 동작 P 서브필드는 상기 STA가 마지막으로 상기 제1 응답 정보를 성공적으로 수신한 시점과 현재 시점 사이의 제P 동작을 표시하며, 상기 시간 P 서브필드는 상기 동작 P의 지속 시간 또는 상기 동작 P의 종료 시각을 표시하는,
채널 액세스 방법.
제1항 또는 제2항에 있어서,
상기 동작 정보는 상기 STA에 의해 보고되는 제1 프레임의 동작 상세 필드로 반송되고,
상기 동작 상세 필드는 시간 1 표시 서브필드, 동작 1 서브필드, …, 시간 P 표시 서브필드 및 동작 P 서브필드를 포함하는데, 여기서, P는 양의 정수이고,
상기 시간 1 표시 서브필드는 동작 1의 시작 시각을 표시하고, 상기 동작 1 서브필드는 상기 STA가 마지막으로 제1 응답 정보를 성공적으로 수신한 후의 제1 동작을 표시하며, 상기 제1 응답 정보는 상기 AP가 상기 STA에 의해 송신된 동작 정보를 성공적으로 수신할 때에 송신되는 응답 정보이며,
상기 시간 P 표시 서브필드는 동작 P의 시작 시각을 표시하며, 상기 동작 P 서브필드는 상기 STA가 마지막으로 상기 제1 응답 정보를 성공적으로 수신한 시점과 현재 시점 사이의 제P 동작을 표시하는,
채널 액세스 방법.
제1항 또는 제2항에 있어서,
상기 동작 정보는 상기 STA에 의해 보고되는 제1 프레임의 동작 상세 필드로 반송되고,
상기 동작 상세 필드는 시간 1 표시 서브필드, 지속 시간 1 서브필드, …, 시간 K 표시 서브필드 및 지속 시간 K 서브필드를 포함하는데, 여기서, K는 양의 정수이고,
상기 시간 1 표시 서브필드는 동작 1의 시작 시각/종료 시각을 표시하고, 상기 동작 1은 STA가 처음으로 패킷을 송신하고 마지막으로 제1 응답 정보를 성공적으로 수신한 후에 제2 응답 정보를 수신하지 않을 때의 송신 동작이고, 상기 제1 응답 정보는 상기 AP가 상기 STA에 의해 송신된 동작 정보를 성공적으로 수신할 때에 송신되는 응답 정보이고, 상기 제2 응답 정보는 상기 AP가 상기 STA에 의해 송신된 상기 패킷을 성공적으로 수신할 때에 송신되는 응답 정보이며, 상기 지속 시간 1 서브필드는 상기 동작 1의 지속 시간을 표시하며,
상기 시간 K 표시 서브필드는 동작 K의 시작 시각/종료 시각을 표시하고, 상기 동작 K는 상기 STA가 상기 제K 시간에 대한 패킷을 송신하고 마지막으로 상기 제1 응답 정보를 성공적으로 수신한 후에 상기 제2 응답 정보를 수신하지 않을 때의 송신 동작이며, 상기 지속 시간 K 서브필드는 상기 동작 K의 지속 시간을 표시하는,
채널 액세스 방법.
제1항 또는 제2항에 있어서,
상기 동작 정보는 상기 STA에 의해 보고되는 제1 프레임의 동작 상세 필드로 반송되고,
상기 동작 상세 필드는 제1 시간 1 표시 서브필드, 제2 시간 1 표시 서브필드, …, 제1 시간 K 표시 서브필드 및 제2 시간 K 표시 서브필드를 포함하는데, 여기서, K는 양의 정수이고,
상기 제1 시간 1 표시 서브필드는 동작 1의 시작 시각을 표시하고, 상기 동작 1은 상기 STA가 처음으로 패킷을 송신하고 마지막으로 제1 응답 정보를 성공적으로 수신한 후에 제2 응답 정보를 수신하지 않을 때의 송신 동작이고, 상기 제1 응답 정보는 상기 AP가 상기 STA에 의해 송신된 동작 정보를 성공적으로 수신할 때에 송신되는 응답 정보이고, 상기 제2 응답 정보는 상기 AP가 상기 STA에 의해 송신된 상기 패킷을 성공적으로 수신할 때에 송신되는 응답 정보이며, 상기 제2 시간 1 표시 서브필드는 상기 동작 1의 종료 시각을 표시하며,
상기 제1 시간 K 표시 서브필드는 동작 K의 시작 시각을 표시하고, 상기 동작 K는 상기 STA가 상기 제K 시간에 대한 패킷을 송신하고 마지막으로 상기 제1 응답 정보를 성공적으로 수신한 후에 상기 제2 응답 정보를 수신하지 않을 때의 송신 동작이며, 상기 제2 시간 K 표시 서브필드는 상기 동작 K의 종료 시각을 표시하는,
채널 액세스 방법.
제3항에 있어서,
상기 동작 정보 및 상기 캐리어 감지 결과 정보는 상기 STA에 의해 보고되는 제1 프레임의 동작 상세 필드로 반송되고,
상기 동작 상세 필드는 시간 표시 서브필드 및 데이터 1 서브필드 내지 데이터 T 서브필드를 포함하는데, 여기서, T는 양의 정수이고,
상기 시간 표시 서브필드는 상기 STA가 마지막으로 제1 응답 정보를 성공적으로 수신하는 시점을 표시하며, 상기 제1 응답 정보는 상기 AP가 상기 STA에 의해 송신된 동작 정보를 성공적으로 수신할 때에 송신되는 응답 정보이고,
상기 데이터 1 서브필드는 상기 STA가 마지막으로 상기 제1 응답 정보를 성공적으로 수신한 후에 제1 슬롯에서 수행되는 동작 및 캐리어 감지 결과를 표시하며,
상기 데이터 T 서브필드는 상기 STA가 마지막으로 상기 제1 응답 정보를 성공적으로 수신한 후에 제T 슬롯에서 수행되는 동작 및 캐리어 감지 결과를 표시하는,
채널 액세스 방법.
제3항에 있어서,
상기 동작 정보 및 상기 패킷 전송 결과 정보는 상기 STA에 의해 보고되는 제1 프레임의 동작 상세 필드로 반송되고,
상기 동작 상세 필드는 시간 표시 서브필드 및 데이터 1 서브필드 내지 데이터 T 서브필드를 포함하는데, 여기서, T는 양의 정수이고,
상기 시간 표시 서브필드는 상기 STA가 마지막으로 제1 응답 정보를 성공적으로 수신하는 시점을 표시하며, 상기 제1 응답 정보는 상기 AP가 상기 STA에 의해 송신된 동작 정보를 성공적으로 수신할 때에 송신되는 응답 정보이고,
상기 데이터 1 서브필드는 상기 STA가 마지막으로 상기 제1 응답 정보를 성공적으로 수신한 후에 제1 슬롯에서 수행되는 동작 및 패킷 전송 결과를 표시하며,
상기 데이터 T 서브필드는 상기 STA가 마지막으로 상기 제1 응답 정보를 성공적으로 수신한 후에 제T 슬롯에서 수행되는 동작 및 패킷 전송 결과를 표시하는,
채널 액세스 방법.
제1항 내지 제11항 중 어느 한 항에 있어서,
상기 AP에 의해, 상기 N개의 동작 정보에 기초하여, 각각의 STA의 상기 제1 신경망의 상기 훈련 결과를 결정하는 상기 단계는,
상기 AP에 의해, 각각의 STA의 상태 정보를 대응하는 STA의 상기 제1 신경망에 입력하여, 상기 제1 신경망의 출력을 획득하는 단계,
상기 AP에 의해, 각각의 제1 신경망의 상기 출력을 제2 신경망에 입력하여, 상기 제2 신경망의 출력을 획득하는 단계 - 상기 제2 신경망의 상기 출력은 사전 설정된 시간 내에서의 기대 보상을 나타냄 -, 및
상기 AP에 의해, 상기 제2 신경망의 상기 출력과 보상 함수에 기초하여 제3 신경망을 훈련시키고, 상기 제3 신경망의 손실 함수를 최소화함으로써 각각의 제1 신경망의 상기 훈련 결과를 결정하는 단계 - 상기 제3 신경망은, 각각의 제1 신경망과 상기 제2 신경망을 포함함 - 를 포함하되,
상기 STA의 상기 상태 정보는 상기 STA의 상기 동작 정보에 기초하여 획득되고, 상기 제2 신경망의 신경망 파라미터는 상기 N개의 동작 정보에 기초하여 획득되며, 상기 보상 함수는 상기 N개의 동작 정보에 기초하여 결정되고,
상기 STA의 상기 상태 정보는 상기 STA의 상기 캐리어 감지 결과 정보와 상기 동작 정보에 기초하여 획득되고, 상기 제2 신경망의 신경망 파라미터는 상기 N개의 동작 정보와 상기 N개의 캐리어 감지 결과 정보에 기초하여 획득되며, 상기 보상 함수는 상기 N개의 동작 정보와 상기 N개의 캐리어 감지 결과 정보에 기초하여 결정되거나, 또는
상기 STA의 상기 상태 정보는 상기 STA의 상기 동작 정보와 상기 패킷 전송 결과 정보에 기초하여 획득되고, 상기 제2 신경망의 신경망 파라미터는 상기 N개의 동작 정보와 상기 N개의 패킷 전송 결과 정보에 기초하여 획득되며, 상기 보상 함수는 상기 N개의 동작 정보와 상기 N개의 패킷 전송 결과 정보에 기초하여 결정되는,
채널 액세스 방법.
제12항에 있어서,
상기 N개의 동작 정보에 기초하여, 제1 STA가 패킷을 성공적으로 송신한다고 결정하면, 상기 AP에 의해, 상기 보상 함수의 값을 1로 설정하는 단계를 더 포함하되,
상기 제1 STA는 상기 N개의 STA 중에서, 마지막으로 상기 제2 응답 정보가 성공적으로 수신된 시점과 상기 현재 시점 사이에서 시간 간격이 가장 긴 STA인,
채널 액세스 방법.
제12항에 있어서,
상기 N개의 동작 정보에 기초하여 제2 STA가 패킷을 성공적으로 송신한다고 결정하면, 상기 AP에 의해, 상기 보상 함수의 값을 제1 지속 시간 빼기 1로 설정하는 단계를 더 포함하되,
상기 제2 STA는 상기 N개의 STA에서 제1 STA가 아닌 STA이며, 상기 제1 STA는 상기 N개의 STA 중에서, 마지막으로 상기 제2 응답 정보가 성공적으로 수신된 시점과 상기 현재 시점 사이에서 시간 간격이 가장 긴 STA이며,
상기 제1 지속 시간은 상기 제2 STA가 마지막으로 상기 제2 응답 정보를 성공적으로 수신하는 시점과 상기 현재 시점 사이의 지속 시간인,
채널 액세스 방법.
제12항에 있어서,
상기 N개의 동작 정보에 기초하여 상기 N개의 STA 중 M개의 STA가 동일한 슬롯에서 패킷을 송신한다고 결정하면, 상기 AP에 의해, 상기 보상 함수의 값을 -1로 설정하는 단계를 더 포함하되, M은 N 이하의 양의 정수인,
채널 액세스 방법.
제12항에 있어서,
상기 N개의 동작 정보에 기초하여 상기 N개의 STA 중 어느 것도 동일한 슬롯에서 패킷을 송신하지 않는다고 결정하면, 상기 AP에 의해, 상기 보상 함수의 값을 0으로 설정하는 단계
를 더 포함하는 채널 액세스 방법.
제1항 내지 제16항 중 어느 한 항에 있어서,
상기 N개의 STA는 신경망 파라미터를 공유하며, 상기 AP에 의해, 각각의 STA의 상기 제1 신경망의 상기 훈련 결과를 대응하는 STA로 송신하는 상기 단계는,
상기 AP에 의해, 상기 제1 신경망의 상기 훈련 결과를 상기 N개의 STA에 브로드캐스팅하는 단계를 포함하는,
채널 액세스 방법.
제1항 내지 제16항 중 어느 한 항에 있어서,
상기 N개의 STA 중 S개의 STA는 신경망 파라미터를 공유하고, S는 N 이하의 양의 정수이며, 상기 AP에 의해, 각각의 STA의 상기 제1 신경망의 상기 훈련 결과를 대응하는 STA로 송신하는 상기 단계는,
상기 AP에 의해, 상기 S개의 STA에 대응하는 상기 제1 신경망의 상기 훈련 결과를 상기 S개의 STA로 멀티캐스팅하는 단계, 및 (N-S)개의 제1 신경망의 상기 훈련 결과를 상기 대응하는 STA로 유니캐스팅하는 단계를 포함하는,
채널 액세스 방법.
제1항 내지 제16항 중 어느 한 항에 있어서,
상기 N개의 STA가 신경망 파라미터를 공유하지 않을 때, 각각의 제1 신경망의 상기 훈련 결과는 상기 대응하는 STA에 유니캐스팅되는,
채널 액세스 방법.
채널 액세스 방법으로서,
스테이션(station, STA)에 의해, 동작 정보를 액세스 포인트(access point, AP)에 보고하는 단계 - 상기 동작 정보는, 상기 STA의 제1 신경망의 훈련 결과를 결정하는 데 사용됨 - ,
상기 STA에 의해, 상기 AP로부터 상기 제1 신경망의 상기 훈련 결과를 수신하는 단계 - 상기 제1 신경망의 상기 훈련 결과는, 상기 제1 신경망을 업데이트하는 데 사용하여, 상기 STA가 채널에 액세스할지 여부를 결정함 -, 및
상기 STA에 의해, 상기 제1 신경망의 훈련 결과에 기초하여, 상기 제1 신경망을 업데이트하며, 상기 채널이 유휴 상태인 것을 감지할 때, 업데이트된 제1 신경망 및 상기 STA의 현재 상태 정보에 기초하여, 상기 채널에 액세스할지 여부를 결정하는 단계
를 포함하는 채널 액세스 방법.
제20항에 있어서,
상기 동작 정보는 일정 기간의 동작을 표시하며,
상기 동작은 송신(sending) 또는 송신 스키핑(skipping sending)인,
채널 액세스 방법.
제20항 또는 제21항에 있어서,
상기 STA에 의해, 캐리어 감지 결과 정보 또는 패킷 전송 결과 정보를 상기 AP에 보고하는 단계를 더 포함하되,
상기 캐리어 감지 결과 정보 또는 상기 패킷 전송 결과 정보는 상기 STA의 상기 제1 신경망의 상기 훈련 결과를 결정하는 데 사용되는,
채널 액세스 방법.
제20항 내지 제22항 중 어느 한 항에 있어서,
상기 훈련 결과는 신경망 파라미터 또는 그래디언트이며,
상기 신경망 파라미터/그래디언트는 상기 STA가 상기 제1 신경망을 업데이트하는 데 사용되는,
채널 액세스 방법.
제20항 또는 제21항에 있어서,
상기 동작 정보는 상기 STA에 의해 보고되는 제1 프레임의 동작 상세 필드로 반송되고,
상기 동작 상세 필드는 시간 표시 서브필드 및 데이터 1 서브필드 내지 데이터 T 서브필드를 포함하는데, 여기서, T는 양의 정수이고,
상기 시간 표시 서브필드는 상기 STA가 마지막으로 제1 응답 정보를 성공적으로 수신하는 시점을 표시하며, 상기 제1 응답 정보는 상기 AP가 상기 STA에 의해 송신된 동작 정보를 성공적으로 수신할 때에 송신되는 응답 정보이고,
상기 데이터 1 서브필드는 상기 STA가 마지막으로 상기 제1 응답 정보를 성공적으로 수신한 후에 제1 슬롯에서 수행되는 동작을 표시하며,
상기 데이터 T 서브필드는 상기 STA가 마지막으로 상기 제1 응답 정보를 성공적으로 수신한 후에 제T 슬롯에서 수행되는 동작을 표시하는,
채널 액세스 방법.
제20항 또는 제21항에 있어서,
상기 동작 정보는 상기 STA에 의해 보고되는 제1 프레임의 동작 상세 필드로 반송되고,
상기 동작 상세 필드는 시간 표시 서브필드, 동작 1 서브필드, 시간 1 서브필드, …, 동작 P 서브필드, 시간 P 서브필드를 포함하는데, 여기서, P는 양의 정수이고,
상기 시간 표시 서브필드는 상기 STA가 마지막으로 제1 응답 정보를 성공적으로 수신하는 시점을 표시하며, 상기 제1 응답 정보는 상기 AP가 상기 STA에 의해 송신된 동작 정보를 성공적으로 수신할 때에 송신되는 응답 정보이고,
상기 동작 1 서브필드는 상기 STA가 마지막으로 상기 제1 응답 정보를 성공적으로 수신한 후의 제1 동작을 표시하고, 상기 시간 1 서브필드는 상기 동작 1의 지속 시간 또는 상기 동작 1의 종료 시각을 표시하며,
상기 동작 P 서브필드는 상기 STA가 마지막으로 상기 제1 응답 정보를 성공적으로 수신한 시점과 현재 시점 사이의 제P 동작을 표시하며, 상기 시간 P 서브필드는 상기 동작 P의 지속 시간 또는 상기 동작 P의 종료 시각을 표시하는,
채널 액세스 방법.
제20항 또는 제21항에 있어서,
상기 동작 정보는 상기 STA에 의해 보고되는 제1 프레임의 동작 상세 필드로 반송되고,
상기 동작 상세 필드는 시간 1 표시 서브필드, 동작 1 서브필드, …, 시간 P 표시 서브필드 및 동작 P 서브필드를 포함하는데, 여기서, P는 양의 정수이고,
상기 시간 1 표시 서브필드는 동작 1의 시작 시각을 표시하고, 상기 동작 1 서브필드는 상기 STA가 마지막으로 제1 응답 정보를 성공적으로 수신한 후의 제1 동작을 표시하며, 상기 제1 응답 정보는 상기 AP가 STA에 의해 송신된 동작 정보를 성공적으로 수신할 때에 송신되는 응답 정보이며,
상기 시간 P 표시 서브필드는, 동작 P의 시작 시각을 표시하며, 상기 동작 P 서브필드는 상기 STA가 마지막으로 상기 제1 응답 정보를 성공적으로 수신한 시점과 현재 시점 사이의 제P 동작을 표시하는,
채널 액세스 방법.
제20항 또는 제21항에 있어서,
상기 동작 정보는 상기 STA에 의해 보고되는 제1 프레임의 동작 상세 필드로 반송되고,
상기 동작 상세 필드는 시간 1 표시 서브필드, 지속 시간 1 서브필드, …, 시간 K 표시 서브필드 및 지속 시간 K 서브필드를 포함하는데, 여기서, K는 양의 정수이고,
상기 시간 1 표시 서브필드는 동작 1의 시작 시각/종료 시각을 표시하고, 상기 동작 1은 상기 STA가 처음으로 패킷을 송신하고 마지막으로 제1 응답 정보를 성공적으로 수신한 후에 제2 응답 정보를 수신하지 않을 때의 송신 동작이고, 상기 제1 응답 정보는 상기 AP가 상기 STA에 의해 송신된 동작 정보를 성공적으로 수신할 때에 송신되는 응답 정보이고, 상기 제2 응답 정보는 상기 AP가 상기 STA에 의해 송신된 상기 패킷을 성공적으로 수신할 때에 송신되는 응답 정보이며, 상기 지속 시간 1 서브필드는 상기 동작 1의 지속 시간을 표시하며,
상기 시간 K 표시 서브필드는 동작 K의 시작 시각/종료 시각을 표시하고, 상기 동작 K는 상기 STA가 상기 제K 시간에 대한 패킷을 송신하고 마지막으로 상기 제1 응답 정보를 성공적으로 수신한 후에 상기 제2 응답 정보를 수신하지 않을 때의 송신 동작이며, 상기 지속 시간 K 서브필드는 상기 동작 K의 지속 시간을 표시하는,
채널 액세스 방법.
제20항 또는 제21항에 있어서,
상기 동작 정보는 상기 STA에 의해 보고되는 제1 프레임의 동작 상세 필드로 반송되고,
상기 동작 상세 필드는, 제1 시간 1 표시 서브필드, 제2 시간 1 표시 서브필드, …, 제1 시간 K 표시 서브필드 및 제2 시간 K 표시 서브필드를 포함하는데, 여기서, K는 양의 정수이고,
상기 제1 시간 1 표시 서브필드는 동작 1의 시작 시각을 표시하고, 상기 동작 1은 상기 STA가 처음으로 패킷을 송신하고 마지막으로 제1 응답 정보를 성공적으로 수신한 후에 제2 응답 정보를 수신하지 않을 때의 송신 동작이고, 상기 제1 응답 정보는 상기 AP가 상기 STA에 의해 송신된 동작 정보를 성공적으로 수신할 때에 송신되는 응답 정보이고, 상기 제2 응답 정보는 상기 AP가 상기 STA에 의해 송신된 패킷을 성공적으로 수신할 때에 송신되는 응답 정보이며, 상기 제2 시간 1 표시 서브필드는 동작 1의 종료 시각을 표시하며,
상기 제1 시간 K 표시 서브필드는 동작 K의 시작 시각을 표시하고, 상기 동작 K는 상기 STA가 상기 제K 시간에 대한 패킷을 송신하고 마지막으로 상기 제1 응답 정보를 성공적으로 수신한 후에 상기 제2 응답 정보를 수신하지 않을 때의 송신 동작이며, 상기 제2 시간 K 표시 서브필드는 상기 동작 K의 종료 시각을 표시하는,
채널 액세스 방법.
제22항에 있어서,
상기 동작 정보 및 상기 캐리어 감지 결과 정보는 상기 STA에 의해 보고되는 제1 프레임의 동작 상세 필드로 반송되고,
상기 동작 상세 필드는 시간 표시 서브필드 및 데이터 1 서브필드 내지 데이터 T 서브필드를 포함하는데, 여기서, T는 양의 정수이고,
상기 시간 표시 서브필드는 상기 STA가 마지막으로 제1 응답 정보를 성공적으로 수신하는 시점을 표시하며, 상기 제1 응답 정보는 상기 AP가 상기 STA에 의해 송신된 동작 정보를 성공적으로 수신할 때에 송신되는 응답 정보이고,
상기 데이터 1 서브필드는 상기 STA가 마지막으로 상기 제1 응답 정보를 성공적으로 수신한 후에 제1 슬롯에서 수행되는 동작 및 캐리어 감지 결과를 표시하며,
상기 데이터 T 서브필드는 상기 STA가 마지막으로 상기 제1 응답 정보를 성공적으로 수신한 후에 제T 슬롯에서 수행되는 동작 및 캐리어 감지 결과를 표시하는,
채널 액세스 방법.
제22항에 있어서,
상기 동작 정보 및 상기 패킷 전송 결과 정보는 상기 STA에 의해 보고되는 제1 프레임의 동작 상세 필드로 반송되고,
상기 동작 상세 필드는 시간 표시 서브필드 및 데이터 1 서브필드 내지 데이터 T 서브필드를 포함하는데, 여기서, T는 양의 정수이고,
상기 시간 표시 서브필드는 상기 STA가 마지막으로 제1 응답 정보를 성공적으로 수신하는 시점을 표시하며, 상기 제1 응답 정보는 상기 AP가 상기 STA에 의해 송신된 동작 정보를 성공적으로 수신할 때에 송신되는 응답 정보이고,
상기 데이터 1 서브필드는 상기 STA가 마지막으로 상기 제1 응답 정보를 성공적으로 수신한 후에 제1 슬롯에서 수행되는 동작 및 패킷 전송 결과를 표시하며,
상기 데이터 T 서브필드는 상기 STA가 마지막으로 상기 제1 응답 정보를 성공적으로 수신한 후에 제T 슬롯에서 수행되는 동작 및 패킷 전송 결과를 표시하는,
채널 액세스 방법.
제20항 내지 제30항 중 어느 한 항에 있어서,
상기 STA에 의해, 상기 제1 신경망의 상기 훈련 결과에 기초하여, 상기 제1 신경망을 업데이트하며, 상기 채널이 유휴 상태인 것을 감지할 때, 업데이트된 제1 신경망 및 상기 STA의 현재 상태 정보에 기초하여, 상기 채널에 액세스할지 여부를 결정하는 상기 단계는,
상기 STA에 의해, 상기 STA의 상기 현재 상태 정보를 상기 업데이트된 제1 신경망에 입력하여, 제1 값과 제2 값을 출력하는 단계 - 상기 제1 값은 상기 채널에 액세스함으로써 획득되는 기대 보상을 나타내고, 상기 제2 값은 채널에의 액세스를 스킵함으로써 획득되는 기대 보상을 나타냄 -, 및
상기 제1 값이 상기 제2 값보다 크면, 상기 STA에 의해 상기 채널에 액세스하는 것으로 결정하고, 혹은 상기 제1 값이 상기 제2 값보다 작으면, 상기 STA에 의해 상기 채널에의 액세스를 스킵하는 것으로 결정하는 단계를 포함하는,
채널 액세스 방법.
통신 장치로서,
N개의 스테이션(station, STA)에 의해 개별적으로 보고되는 동작 정보를 수신하도록 구성된 통신 유닛 - N개의 동작 정보는, 각각의 STA의 제1 신경망의 훈련 결과를 결정하는 데 사용되며, N은 양의 정수임 - ; 및
상기 N개의 동작 정보에 기초하여, 각각의 STA의 상기 제1 신경망의 상기 훈련 결과를 결정하도록 구성된 처리 유닛을 포함하되,
상기 통신 유닛은, 또한 각각의 STA의 상기 제1 신경망의 상기 훈련 결과를 대응하는 STA로 송신하도록 구성되는,
통신 장치.
제32항에 있어서,
상기 동작 정보는 일정 기간의 동작을 표시하며,
상기 동작은 송신(sending) 또는 송신 스키핑(skipping sending)인,
통신 장치.
제32항 또는 제33항에 있어서,
상기 통신 유닛은 상기 N개의 STA에 의해 개별적으로 보고되는 캐리어 감지 결과 정보 또는 패킷 전송 결과 정보를 수신하도록 더 구성되며,
상기 N개의 동작 정보에 기초하여 각각의 STA의 상기 제1 신경망의 상기 훈련 결과를 결정하면, 상기 처리 유닛은,
상기 N개의 동작 정보 및 상기 N개의 캐리어 감지 결과 정보에 기초하여, 각각의 STA의 상기 제1 신경망의 상기 훈련 결과를 결정하거나, 또는
상기 N개의 동작 정보와 상기 N개의 패킷 전송 결과 정보에 기초하여, 각각의 STA의 상기 제1 신경망의 상기 훈련 결과를 결정하도록 구성되는,
통신 장치.
제32항 내지 제34항 중 어느 한 항에 있어서,
상기 훈련 결과는 신경망 파라미터 또는 그래디언트이며,
상기 신경망 파라미터/그래디언트는 상기 STA가 상기 제1 신경망을 업데이트하는 데 사용되는,
통신 장치.
제32항 또는 제33항에 있어서,
상기 동작 정보는 상기 STA에 의해 보고되는 제1 프레임의 동작 상세 필드로 반송되고,
상기 동작 상세 필드는 시간 표시 서브필드 및 데이터 1 서브필드 내지 데이터 T 서브필드를 포함하는데, 여기서, T는 양의 정수이고,
상기 시간 표시 서브필드는 상기 STA가 마지막으로 제1 응답 정보를 성공적으로 수신하는 시점을 표시하며, 상기 제1 응답 정보는 상기 AP가 상기 STA에 의해 송신된 동작 정보를 성공적으로 수신할 때에 송신되는 응답 정보이고,
상기 데이터 1 서브필드는 상기 STA가 마지막으로 상기 제1 응답 정보를 성공적으로 수신한 후에 제1 슬롯에서 수행되는 동작을 표시하며,
상기 데이터 T 서브필드는 상기 STA가 마지막으로 상기 제1 응답 정보를 성공적으로 수신한 후에 제T 슬롯에서 수행되는 동작을 표시하는,
통신 장치.
제32항 또는 제33항에 있어서,
상기 동작 정보는 상기 STA에 의해 보고되는 제1 프레임의 동작 상세 필드로 반송되고,
상기 동작 상세 필드는 시간 표시 서브필드, 동작 1 서브필드, 시간 1 서브필드, …, 동작 P 서브필드 및 시간 P 서브필드를 포함하는데, 여기서, P는 양의 정수이고,
상기 시간 표시 서브필드는 상기 STA가 마지막으로 제1 응답 정보를 성공적으로 수신하는 시점을 표시하며, 상기 제1 응답 정보는 상기 AP가 상기 STA에 의해 송신된 동작 정보를 성공적으로 수신할 때에 송신되는 응답 정보이고,
상기 동작 1 서브필드는 상기 STA가 마지막으로 상기 제1 응답 정보를 성공적으로 수신한 후의 제1 동작을 표시하며, 상기 시간 1 서브필드는 상기 동작 1의 지속 시간 또는 상기 동작 1의 종료 시각을 표시하며,
상기 동작 P 서브필드는 상기 STA가 마지막으로 상기 제1 응답 정보를 성공적으로 수신한 시점과 현재 시점 사이의 제P 동작을 표시하며, 상기 시간 P 서브필드는 상기 동작 P의 지속 시간 또는 상기 동작 P의 종료 시각을 표시하는,
통신 장치.
제32항 또는 제33항에 있어서,
상기 동작 정보는 상기 STA에 의해 보고되는 제1 프레임의 동작 상세 필드로 반송되고,
상기 동작 상세 필드는 시간 1 표시 서브필드, 동작 1 서브필드, …, 시간 P 표시 서브필드 및 동작 P 서브필드를 포함하는데, 여기서, P는 양의 정수이고,
상기 시간 1 표시 서브필드는 동작 1의 시작 시각을 표시하고, 상기 동작 1 서브필드는 상기 STA가 마지막으로 제1 응답 정보를 성공적으로 수신한 후의 제1 동작을 표시하며, 상기 제1 응답 정보는 AP가 상기 STA에 의해 송신된 동작 정보를 성공적으로 수신할 때에 송신되는 응답 정보이며,
상기 시간 P 표시 서브필드는, 동작 P의 시작 시각을 표시하며, 상기 동작 P 서브필드는 상기 STA가 마지막으로 상기 제1 응답 정보를 성공적으로 수신한 시점과 현재 시점 사이의 제P 동작을 표시하는,
통신 장치.
제32항 또는 제33항에 있어서,
상기 동작 정보는 상기 STA에 의해 보고되는 제1 프레임의 동작 상세 필드로 반송되고,
상기 동작 상세 필드는 시간 1 표시 서브필드, 지속 시간 1 서브필드, …, 시간 K 표시 서브필드 및 지속 시간 K 서브필드를 포함하는데, 여기서, K는 양의 정수이고,
상기 시간 1 표시 서브필드는 동작 1의 시작 시각/종료 시각을 표시하고, 상기 동작 1은 상기 STA가 처음으로 패킷을 송신하고 마지막으로 제1 응답 정보를 성공적으로 수신한 후에 제2 응답 정보를 수신하지 않을 때의 송신 동작이고, 상기 제1 응답 정보는 AP가 상기 STA에 의해 송신된 동작 정보를 성공적으로 수신할 때에 송신되는 응답 정보이고, 상기 제2 응답 정보는 상기 AP가 상기 STA에 의해 송신된 상기 패킷을 성공적으로 수신할 때에 송신되는 응답 정보이며, 상기 지속 시간 1 서브필드는 상기 동작 1의 지속 시간을 표시하며,
상기 시간 K 표시 서브필드는 동작 K의 시작 시각/종료 시각을 표시하고, 상기 동작 K는 상기 STA가 상기 제K 시간에 대한 패킷을 송신하고 마지막으로 상기 제1 응답 정보를 성공적으로 수신한 후에 상기 제2 응답 정보를 수신하지 않을 때의 송신 동작이며, 상기 지속 시간 K 서브필드는 상기 동작 K의 지속 시간을 표시하는,
통신 장치.
제32항 또는 제33항에 있어서,
상기 동작 정보는 상기 STA에 의해 보고되는 제1 프레임의 동작 상세 필드로 반송되고,
상기 동작 상세 필드는, 제1 시간 1 표시 서브필드, 제2 시간 1 표시 서브필드, …, 제1 시간 K 표시 서브필드 및 제2 시간 K 표시 서브필드를 포함하는데, 여기서, K는 양의 정수이고,
상기 제1 시간 1 표시 서브필드는 동작 1의 시작 시각을 표시하고, 상기 동작 1은 상기 STA가 처음으로 패킷을 송신하고 마지막으로 제1 응답 정보를 성공적으로 수신한 후에 제2 응답 정보를 수신하지 않을 때의 송신 동작이고, 상기 제1 응답 정보는 AP가 상기 STA에 의해 송신된 동작 정보를 성공적으로 수신할 때에 송신되는 응답 정보이고, 상기 제2 응답 정보는 상기 AP가 상기 STA에 의해 송신된 상기 패킷을 성공적으로 수신할 때에 송신되는 응답 정보이며, 상기 제2 시간 1 표시 서브필드는 상기 동작 1의 종료 시각을 표시하며,
상기 제1 시간 K 표시 서브필드는 동작 K의 시작 시각을 표시하고, 상기 동작 K는 상기 STA가 상기 제K 시간에 대한 패킷을 송신하고 마지막으로 상기 제1 응답 정보를 성공적으로 수신한 후에 상기 제2 응답 정보를 수신하지 않을 때의 송신 동작이며, 상기 제2 시간 K 표시 서브필드는 상기 동작 K의 종료 시각을 표시하는,
통신 장치.
제34항에 있어서,
상기 동작 정보 및 상기 캐리어 감지 결과 정보는 상기 STA에 의해 보고되는 제1 프레임의 동작 상세 필드로 반송되고,
상기 동작 상세 필드는 시간 표시 서브필드 및 데이터 1 서브필드 내지 데이터 T 서브필드를 포함하는데, 여기서, T는 양의 정수이고,
상기 시간 표시 서브필드는 상기 STA가 마지막으로 제1 응답 정보를 성공적으로 수신하는 시점을 표시하며, 상기 제1 응답 정보는 상기 AP가 상기 STA에 의해 송신된 동작 정보를 성공적으로 수신할 때에 송신되는 응답 정보이고,
상기 데이터 1 서브필드는 상기 STA가 마지막으로 상기 제1 응답 정보를 성공적으로 수신한 후에 제1 슬롯에서 수행되는 동작 및 캐리어 감지 결과를 표시하며,
상기 데이터 T 서브필드는 상기 STA가 마지막으로 상기 제1 응답 정보를 성공적으로 수신한 후에 제T 슬롯에서 수행되는 동작 및 캐리어 감지 결과를 표시하는,
통신 장치.
제34항에 있어서,
상기 동작 정보 및 상기 패킷 전송 결과 정보는 상기 STA에 의해 보고되는 제1 프레임의 동작 상세 필드로 반송되고,
상기 동작 상세 필드는 시간 표시 서브필드 및 데이터 1 서브필드 내지 데이터 T 서브필드를 포함하는데, 여기서, T는 양의 정수이고,
상기 시간 표시 서브필드는 상기 STA가 마지막으로 제1 응답 정보를 성공적으로 수신하는 시점을 표시하며, 상기 제1 응답 정보는 상기 AP가 상기 STA에 의해 송신된 동작 정보를 성공적으로 수신할 때에 송신되는 응답 정보이고,
상기 데이터 1 서브필드는 상기 STA가 마지막으로 상기 제1 응답 정보를 성공적으로 수신한 후에 제1 슬롯에서 수행되는 동작 및 패킷 전송 결과를 표시하며,
상기 데이터 T 서브필드는 상기 STA가 마지막으로 상기 제1 응답 정보를 성공적으로 수신한 후에 제T 슬롯에서 수행되는 동작 및 패킷 전송 결과를 표시하는,
통신 장치.
제32항 내지 제42항 중 어느 한 항에 있어서,
상기 N개의 동작 정보에 기초하여 각각의 STA의 상기 제1 신경망의 상기 훈련 결과를 결정하면, 상기 처리 유닛은,
각각의 STA의 상태 정보를 상기 대응하는 STA의 상기 제1 신경망에 입력하여, 상기 제1 신경망의 출력을 획득하고,
각각의 제1 신경망의 상기 출력을 제2 신경망에 입력하여, 상기 제2 신경망의 출력을 획득하되, 상기 제2 신경망의 상기 출력은 사전 설정된 시간 내에서의 기대 보상을 나타내며,
상기 제2 신경망의 상기 출력과 보상 함수에 기초하여 제3 신경망을 훈련시키고, 상기 제3 신경망의 손실 함수를 최소화함으로써 각각의 제1 신경망의 상기 훈련 결과를 결정하되, 상기 제3 신경망은, 각각의 제1 신경망과 상기 제2 신경망을 포함하도록 더 구성되되,
상기 STA의 상기 상태 정보는 상기 STA의 상기 동작 정보에 기초하여 획득되고, 상기 제2 신경망의 신경망 파라미터는 상기 N개의 동작 정보에 기초하여 획득되며, 상기 보상 함수는 상기 N개의 동작 정보에 기초하여 결정되고,
상기 STA의 상기 상태 정보는 상기 STA의 상기 캐리어 감지 결과 정보와 상기 동작 정보에 기초하여 획득되고, 상기 제2 신경망의 신경망 파라미터는 상기 N개의 동작 정보와 상기 N개의 캐리어 감지 결과 정보에 기초하여 획득되며, 상기 보상 함수는 상기 N개의 동작 정보와 상기 N개의 캐리어 감지 결과 정보에 기초하여 결정되거나, 또는
상기 STA의 상기 상태 정보는 상기 STA의 상기 동작 정보와 상기 패킷 전송 결과 정보에 기초하여 획득되고, 상기 제2 신경망의 신경망 파라미터는 상기 N개의 동작 정보와 상기 N개의 패킷 전송 결과 정보에 기초하여 획득되며, 상기 보상 함수는 상기 N개의 동작 정보와 상기 N개의 패킷 전송 결과 정보에 기초하여 결정되는,
통신 장치.
제43항에 있어서,
상기 처리 유닛은,
상기 N개의 동작 정보에 기초하여 제1 STA가 패킷을 성공적으로 송신한다고 결정하면, 상기 보상 함수의 값을 1로 설정하도록 더 구성되되, 상기 제1 STA는 상기 N개의 STA 중에서, 마지막으로 상기 제2 응답 정보가 성공적으로 수신된 시점과 상기 현재 시점 사이에서 시간 간격이 가장 긴 STA인,
통신 장치.
제43항에 있어서,
상기 처리 유닛은,
상기 N개의 동작 정보에 기초하여 제2 STA가 패킷을 성공적으로 송신한다고 결정하면, 상기 보상 함수의 값을 제1 지속 시간 빼기 1로 설정하도록 더 구성되되,
상기 제2 STA는 상기 N개의 STA 중에서 제1 STA가 아닌 STA이며, 상기 제1 STA는 상기 N개의 STA 중에서, 마지막으로 상기 제2 응답 정보가 성공적으로 수신된 시점과 상기 현재 시점 사이에서 시간 간격이 가장 긴 STA이고,
상기 제1 지속 시간은 상기 제2 STA가 마지막으로 상기 제2 응답 정보를 성공적으로 수신하는 시점과 상기 현재 시점 사이의 지속 시간인,
통신 장치.
제43항에 있어서,
상기 처리 유닛은 상기 N개의 동작 정보에 기초하여 상기 N개의 STA 중 M개의 STA가 동일한 슬롯에서 패킷을 송신한다고 결정하면, 보상 함수의 값을 -1로 설정하도록 더 구성되되, M은 N 이하의 양의 정수인,
통신 장치.
제43항에 있어서,
상기 처리 유닛은, 상기 N개의 동작 정보에 기초하여 상기 N개의 STA 중 어느 것도 동일한 슬롯에서 패킷을 송신하지 않는다고 결정하면, 상기 보상 함수의 값을 0으로 설정하도록 구성되는,
통신 장치.
제32항 내지 제47항 중 어느 한 항에 있어서,
상기 N개의 STA는 신경망 파라미터를 공유하며, 각각의 STA의 상기 제1 신경망의 상기 훈련 결과를 상기 대응하는 STA로 송신할 때, 상기 처리 유닛은,
상기 제1 신경망의 상기 훈련 결과를 상기 N개의 STA에 브로드캐스팅하도록 더 구성되는,
통신 장치.
제32항 내지 제47항 중 어느 한 항에 있어서,
상기 N개의 STA 중 S개의 STA는 신경망 파라미터를 공유하고, S는, N 이하의 양의 정수이며, 또한 각각의 STA의 상기 제1 신경망의 상기 훈련 결과를 상기 대응하는 STA로 송신할 때, 상기 처리 유닛은,
상기 S개의 STA에 대응하는 상기 제1 신경망의 상기 훈련 결과를 상기 S개의 STA에 멀티캐스팅하고, (N-S)개의 제1 신경망의 훈련 결과를 상기 대응하는 STA에 유니캐스팅하도록 더 구성되는,
통신 장치.
제32항 내지 제47항 중 어느 한 항에 있어서,
상기 N개의 STA가 신경망 파라미터를 공유하지 않을 때, 각각의 제1 신경망의 상기 훈련 결과는 상기 대응하는 STA에 유니캐스팅되는,
통신 장치.
통신 장치로서,
액세스 포인트(access point, AP)에 동작 정보를 보고하도록 구성된 통신 유닛 - 상기 동작 정보는, 처리 유닛의 제1 신경망의 훈련 결과를 결정하는 데 사용되고, 상기 통신 유닛은 상기 AP로부터 상기 제1 신경망의 상기 훈련 결과를 수신하도록 더 구성되는데, 여기서 상기 제1 신경망의 상기 훈련 결과는, 상기 제1 신경망을 업데이트하는 데 사용되어, 상기 처리 유닛이 채널에 액세스할지 여부를 결정함 - ; 및
상기 제1 신경망의 상기 훈련 결과에 기초하여, 상기 제1 신경망을 업데이트하며, 상기 채널이 유휴 상태인 것을 감지하면, 업데이트된 제1 신경망 및 상기 처리 유닛의 현재 상태 정보에 기초하여 상기 채널에 액세스할지 여부를 결정하도록 구성된 처리 유닛
을 포함하는 통신 장치.
제51항에 있어서,
상기 동작 정보는 일정 기간의 동작을 표시하고,
상기 동작은 송신(sending) 또는 송신 스키핑(skipping sending)인,
통신 장치.
제51항 또는 제52항에 있어서,
상기 통신 유닛은 캐리어 감지 결과 정보 또는 패킷 전송 결과 정보를 상기 AP에 보고하도록 더 구성되며, 상기 캐리어 감지 결과 정보 또는 상기 패킷 전송 결과 정보는 STA의 상기 제1 신경망의 상기 훈련 결과를 결정하는 데 사용되는,
통신 장치.
제51항 내지 제53항 중 어느 한 항에 있어서,
상기 훈련 결과는 신경망 파라미터 또는 그래디언트이며,
상기 신경망 파라미터/그래디언트는 상기 STA가 상기 제1 신경망을 업데이트하는 데 사용되는,
통신 장치.
제51항 또는 제52항에 있어서,
상기 동작 정보는 STA에 의해 보고되는 제1 프레임의 동작 상세 필드로 반송되고,
상기 동작 상세 필드는 시간 표시 서브필드 및 데이터 1 서브필드 내지 데이터 T 서브필드를 포함하는데, 여기서, T는 양의 정수이고,
상기 시간 표시 서브필드는 상기 STA가 마지막으로 제1 응답 정보를 성공적으로 수신하는 시점을 표시하며, 상기 제1 응답 정보는 상기 AP가 상기 STA에 의해 송신된 동작 정보를 성공적으로 수신할 때에 송신되는 응답 정보이고,
상기 데이터 1 서브필드는 상기 STA가 마지막으로 상기 제1 응답 정보를 성공적으로 수신한 후에 제1 슬롯에서 수행되는 동작을 표시하며,
상기 데이터 T 서브필드는 상기 STA가 마지막으로 상기 제1 응답 정보를 성공적으로 수신한 후에 제T 슬롯에서 수행되는 동작을 표시하는,
통신 장치.
제51항 또는 제52항에 있어서,
상기 동작 정보는 STA에 의해 보고되는 제1 프레임의 동작 상세 필드로 반송되고,
상기 동작 상세 필드는 시간 표시 서브필드, 동작 1 서브필드, 시간 1 서브필드, …, 동작 P 서브필드 및 시간 P 서브필드를 포함하는데, 여기서, P는 양의 정수이고,
상기 시간 표시 서브필드는 상기 STA가 마지막으로 제1 응답 정보를 성공적으로 수신하는 시점을 표시하며, 상기 제1 응답 정보는 상기 AP가 상기 STA에 의해 송신된 동작 정보를 성공적으로 수신할 때에 송신되는 응답 정보이고,
상기 동작 1 서브필드는 상기 STA가 마지막으로 상기 제1 응답 정보를 성공적으로 수신한 후의 제1 동작을 표시하며, 상기 지속 시간 1 서브필드는 상기 동작 1의 지속 시간 또는 상기 동작 1의 종료 시각을 표시하며,
상기 동작 P 서브필드는 상기 STA가 마지막으로 상기 제1 응답 정보를 성공적으로 수신한 시점과 현재 시점 사이의 제P 동작을 표시하며, 상기 지속 시간 P 서브필드는 상기 동작 P의 지속 시간 또는 상기 동작 P의 종료 시각을 표시하는,
통신 장치.
제51항 또는 제52항에 있어서,
상기 동작 정보는 STA에 의해 보고되는 제1 프레임의 동작 상세 필드로 반송되고,
상기 동작 상세 필드는 시간 1 표시 서브필드, 동작 1 서브필드, …, 시간 P 표시 서브필드 및 동작 P 서브필드를 포함하는데, 여기서, P는 양의 정수이고,
상기 시간 1 표시 서브필드는 동작 1의 시작 시각을 표시하고, 상기 동작 1 서브필드는 상기 STA가 마지막으로 제1 응답 정보를 성공적으로 수신한 후의 제1 동작을 표시하며, 상기 제1 응답 정보는 상기 AP가 상기 STA에 의해 송신된 동작 정보를 성공적으로 수신할 때에 송신되는 응답 정보이며,
상기 시간 P 표시 서브필드는, 동작 P의 시작 시각을 표시하며, 상기 동작 P 서브필드는 상기 STA가 마지막으로 상기 제1 응답 정보를 성공적으로 수신한 시점과 현재 시점 사이의 제P 동작을 표시하는,
통신 장치.
제51항 또는 제52항에 있어서,
상기 동작 정보는 STA에 의해 보고되는 제1 프레임의 동작 상세 필드로 반송되고,
상기 동작 상세 필드는 시간 1 표시 서브필드, 지속 시간 1 서브필드, …, 시간 K 표시 서브필드 및 지속 시간 K 서브필드를 포함하는데, 여기서, K는 양의 정수이고,
상기 시간 1 표시 서브필드는 동작 1의 시작 시각/종료 시각을 표시하고, 상기 동작 1은 상기 STA가 처음으로 패킷을 송신하고 마지막으로 제1 응답 정보를 성공적으로 수신한 후에 제2 응답 정보를 수신하지 않을 때의 송신 동작이고, 상기 제1 응답 정보는 상기 AP가 상기 STA에 의해 송신된 동작 정보를 성공적으로 수신할 때에 송신되는 응답 정보이고, 상기 제2 응답 정보는 상기 AP가 상기 STA에 의해 송신된 상기 패킷을 성공적으로 수신할 때에 송신되는 응답 정보이며, 상기 지속 시간 1 서브필드는 동작 1의 지속 시간을 표시하며,
상기 시간 K 표시 서브필드는 동작 K의 시작 시각/종료 시각을 표시하고, 상기 동작 K는 상기 STA가 상기 제K 시간에 대한 패킷을 송신하고 마지막으로 상기 제1 응답 정보를 성공적으로 수신한 후에 상기 제2 응답 정보를 수신하지 않을 때의 송신 동작이며, 상기 지속 시간 K 서브필드는 상기 동작 K의 지속 시간을 표시하는,
통신 장치.
제51항 또는 제52항에 있어서,
상기 동작 정보는 STA에 의해 보고되는 제1 프레임의 동작 상세 필드로 반송되고,
상기 동작 상세 필드는, 제1 시간 1 표시 서브필드, 제2 시간 1 표시 서브필드, …, 제1 시간 K 표시 서브필드 및 제2 시간 K 표시 서브필드를 포함하는데, 여기서, K는 양의 정수이고,
상기 제1 시간 1 표시 서브필드는 동작 1의 시작 시각을 표시하고, 상기 동작 1은 상기 STA가 처음으로 패킷을 송신하고 마지막으로 제1 응답 정보를 성공적으로 수신한 후에 제2 응답 정보를 수신하지 않을 때의 송신 동작이고, 상기 제1 응답 정보는 상기 AP가 상기 STA에 의해 송신된 동작 정보를 성공적으로 수신할 때에 송신되는 응답 정보이고, 상기 제2 응답 정보는 상기 AP가 상기 STA에 의해 송신된 상기 패킷을 성공적으로 수신할 때에 송신되는 응답 정보이며, 상기 제2 시간 1 표시 서브필드는 상기 동작 1의 종료 시각을 표시하며,
상기 제1 시간 K 표시 서브필드는 동작 K의 시작 시각을 표시하고, 상기 동작 K는 상기 STA가 상기 제K 시간에 대한 패킷을 송신하고 마지막으로 상기 제1 응답 정보를 성공적으로 수신한 후에 상기 제2 응답 정보를 수신하지 않을 때의 송신 동작이며, 상기 제2 시간 K 표시 서브필드는 상기 동작 K의 종료 시각을 표시하는,
통신 장치.
제53항에 있어서,
상기 동작 정보 및 상기 캐리어 감지 결과 정보는 상기 STA에 의해 보고되는 제1 프레임의 동작 상세 필드로 반송되고,
상기 동작 상세 필드는 시간 표시 서브필드 및 데이터 1 서브필드 내지 데이터 T 서브필드를 포함하는데, 여기서, T는 양의 정수이고,
상기 시간 표시 서브필드는 상기 STA가 마지막으로 제1 응답 정보를 성공적으로 수신하는 시점을 표시하며, 상기 제1 응답 정보는 상기 AP가 상기 STA에 의해 송신된 동작 정보를 성공적으로 수신할 때에 송신되는 응답 정보이고,
상기 데이터 1 서브필드는 상기 STA가 마지막으로 상기 제1 응답 정보를 성공적으로 수신한 후에 제1 슬롯에서 수행되는 동작 및 캐리어 감지 결과를 표시하며,
상기 데이터 T 서브필드는 상기 STA가 마지막으로 상기 제1 응답 정보를 성공적으로 수신한 후에 제T 슬롯에서 수행되는 동작 및 캐리어 감지 결과를 표시하는,
통신 장치.
제53항에 있어서,
상기 동작 정보 및 상기 패킷 전송 결과 정보는 상기 STA에 의해 보고되는 제1 프레임의 동작 상세 필드로 반송되고,
상기 동작 상세 필드는 시간 표시 서브필드 및 데이터 1 서브필드 내지 데이터 T 서브필드를 포함하는데, 여기서, T는 양의 정수이고,
상기 시간 표시 서브필드는 상기 STA가 마지막으로 제1 응답 정보를 성공적으로 수신하는 시점을 표시하며, 상기 제1 응답 정보는 상기 AP가 상기 STA에 의해 송신된 동작 정보를 성공적으로 수신할 때에 송신되는 응답 정보이고,
상기 데이터 1 서브필드는 상기 STA가 마지막으로 상기 제1 응답 정보를 성공적으로 수신한 후에 제1 슬롯에서 수행되는 동작 및 패킷 전송 결과를 표시하며,
상기 데이터 T 서브필드는 상기 STA가 마지막으로 상기 제1 응답 정보를 성공적으로 수신한 후에 제T 슬롯에서 수행되는 동작 및 패킷 전송 결과를 표시하는,
통신 장치.
제51항 내지 제61항 중 어느 한 항에 있어서,
상기 제1 신경망의 훈련 결과에 기초하여 상기 제1 신경망을 업데이트할 때, 및 상기 채널이 유휴 상태인 것을 감지할 때, 상기 업데이트된 제1 신경망 및 상기 STA의 상기 현재 상태 정보에 기초하여, 상기 채널에 액세스할지 여부를 결정하면, 상기 처리 유닛은,
상기 STA의 상기 현재 상태 정보를 상기 업데이트된 제1 신경망에 입력하여, 제1 값과 제2 값을 출력하되 - 상기 제1 값은, 상기 채널에 액세스함으로써 획득되는 기대 보상을 나타내고, 상기 제2 값은 상기 채널에의 액세스를 스킵함으로써 획득되는 기대 보상을 나타냄 - ,
상기 제1 값이 상기 제2 값보다 크면 상기 채널에 액세스하는 것으로 결정하고, 혹은
상기 제1 값이 상기 제2 값보다 작으면 상기 채널에의 액세스를 스킵하는 것으로 결정하도록 더 구성되는,
통신 장치.
통신 장치로서,
프로세서 및 트랜시버를 포함하되, 상기 트랜시버는 다른 통신 장치와 통신하도록 구성되고, 상기 프로세서는 프로그램을 구동해서 상기 통신 장치가 제1항 내지 제19항 중 어느 한 항에 따른 방법을 구현하거나, 또는 상기 통신 장치가 제20항 내지 제31항 중 어느 한 항에 따른 방법을 구현하게 하도록 구성되는,
통신 장치.
컴퓨터 판독 가능 저장 매체로서,
명령어를 저장하고, 상기 명령어가 컴퓨터 상에서 구동될 때, 제1항 내지 제19항 중 어느 한 항에 따른 방법이 수행되거나, 제20항 내지 제31항 중 어느 한 항에 따른 방법이 수행되는,
컴퓨터 판독 가능 저장 매체.
명령어를 포함하는 컴퓨터 프로그램 제품으로서,
상기 컴퓨터 프로그램 제품이 컴퓨터상에서 구동될 때, 제1항 내지 제19항 중 어느 한 항에 따른 방법이 수행되거나, 제20항 내지 제31항 중 어느 한 항에 따른 방법이 수행되는,
컴퓨터 프로그램 제품.
통신 시스템으로서,
제32항 내지 제50항 중 어느 한 항에 따른 통신 장치 및 제51항 내지 제62항 중 어느 한 항에 따른 통신 장치를 포함하는,
통신 시스템.