KR20220031001A - 실시간 통신에서의 강화 학습 - Google Patents

실시간 통신에서의 강화 학습 Download PDF

Info

Publication number
KR20220031001A
KR20220031001A KR1020227000677A KR20227000677A KR20220031001A KR 20220031001 A KR20220031001 A KR 20220031001A KR 1020227000677 A KR1020227000677 A KR 1020227000677A KR 20227000677 A KR20227000677 A KR 20227000677A KR 20220031001 A KR20220031001 A KR 20220031001A
Authority
KR
South Korea
Prior art keywords
computing device
real
reinforcement learning
network
time communication
Prior art date
Application number
KR1020227000677A
Other languages
English (en)
Inventor
조이스 에스 팡
마틴 엘리스
로스 개럿 커틀러
데이비드 위엥 자오
탕 두옹
Original Assignee
마이크로소프트 테크놀로지 라이센싱, 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 filed Critical 마이크로소프트 테크놀로지 라이센싱, 엘엘씨
Publication of KR20220031001A publication Critical patent/KR20220031001A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/80Responding to QoS
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/043Distributed expert systems; Blackboards
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L1/00Arrangements for detecting or preventing errors in the information received
    • H04L1/004Arrangements for detecting or preventing errors in the information received by using forward error control
    • H04L1/0041Arrangements at the transmitter end
    • H04L1/0042Encoding specially adapted to other signal generation operation, e.g. in order to reduce transmit distortions, jitter, or to improve signal shape
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/065Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving logical or physical relationship, e.g. grouping and hierarchies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/50Network service management, e.g. ensuring proper service fulfilment according to agreements
    • H04L41/5003Managing SLA; Interaction between SLA and QoS
    • H04L41/5009Determining service level performance parameters or violations of service level contracts, e.g. violations of agreed response time or mean time between failures [MTBF]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/50Network service management, e.g. ensuring proper service fulfilment according to agreements
    • H04L41/5061Network service management, e.g. ensuring proper service fulfilment according to agreements characterised by the interaction between service providers and their network customers, e.g. customer relationship management
    • H04L41/5067Customer-centric QoS measurements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/04Network management architectures or arrangements
    • H04L41/046Network management architectures or arrangements comprising network management agents or mobile agents therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Environmental & Geological Engineering (AREA)
  • Databases & Information Systems (AREA)
  • Information Transfer Between Computers (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

에이전트는 송신 컴퓨팅 장치 및 수신 컴퓨팅 장치와 상호작용하여, 네트워크 상태 및/또는 애플리케이션 요구 사항의 변경에 대응하여 단방향 또는 양방향 실시간 오디오 및 실시간 비디오 전송 파라미터를 자동으로 조정한다. 에이전트는 전송 파라미터를 조정하여 미래 보상의 합계의 기대값을 최대화하는 강화 학습 모델을 포함하며, 미래 보상의 합계의 최대값은 송신 컴퓨팅의 현재 상태, 송신 컴퓨팅 장치에서의 현재 동작(가령, 전송 파라미터의 현재 세트), 및 수신 컴퓨팅 장치에 의해 제공되는 보상에 기초한다. 보상은 수신 컴퓨팅 장치에서의 사용자 인식 경험 품질을 나타낸다.

Description

실시간 통신에서의 강화 학습
실시간 통신(가령, 음성 및 영상 회의)에 관한 대역폭 예측, 혼잡 제어(congestion control), 및 비디오 품질 최적화는 네트워크 조건과 애플리케이션 요구 사항이 종종 바뀌기 때문에 어려운 문제이다. 고품질 및 고신뢰도(가령, 최종 사용자의 경험 품질)을 갖춘 실시간 미디어를 제공하려면 새로운 애플리케이션 요구 사항 및 네트워크 동작에 대응하기 위한 지속적인 업데이트가 요구된다. 지속적인 업데이트 프로세스는 최종 사용자 경험을 저하시키는 저속의 프로세스일 수 있다.
본 개시의 다양한 양태가 이들 및 다양한 고려사항에 관하여 만들어졌다. 또한, 상대적으로 특정한 문제 및 이러한 문제를 해결하는 예시가 본 명세서에서 논의될 수 있지만, 이 예시가 배경기술 또는 본 개시의 다른 곳에서 식별된 특정 문제를 해결하는 것으로 제한되어서는 안 된다고 이해되어야 한다.
본 개시는 일반적으로 실시간 통신에서의 강화 학습을 구현하는 시스템 및 방법에 관한 것이다. 본 개시의 특정 양태는 실시간 오디오 및 비디오 통신의 사용자 인식 품질을 최적화하는 강화 학습에 관한 것이다. 에이전트는 송신 컴퓨팅 장치 및 수신 컴퓨팅 장치와 인터페이스하여, 네트워크 조건 및/또는 애플리케이션 요구 사항의 변화에 대응하여 실시간 오디오 및 비디오 전송을 자동으로 조정한다. 송신 컴퓨팅 장치는 실시간 오디오 및/또는 비디오 데이터를 전송한다. 수신 컴퓨팅 장치는 송신 컴퓨팅 장치로부터 실시간 오디오 및 비디오 전송을 수신하며, 에이전트에게 보상으로 제공되는 실제 사용자 인식 경험 품질(user-perceived quality of experience)을 결정한다. 에이전트는 제어 정책과 상태-동작 값 함수를 포함하는 강화 학습 모델을 포함한다. 에이전트는 송신 컴퓨팅 장치의 현재 상태를 관찰하고 현재 상태, 현재 동작(가령, 송신 컴퓨팅 장치에서 전송 파라미터에 대한 현재 조정 또는 조정의 세트) 및 수신 컴퓨팅 장치가 제공하는 보상에 기초하여 미래 보상의 합계의 기대값의 추정을 결정한다. 미래 보상의 합계의 기대값을 최대화하는 목표에 기초하여, 에이전트는 제어 정책을 조정한다. 제어 정책의 조정은 실시간 오디오 및/또는 비디오 데이터에 적용되는 동작을 변경한다.
본 개시의 일 양태는 실시간 통신에서 기대 사용자 인식 QoE를 최적화하는 방법, 시스템 및 제조 물건에 관한 것이다. 이 양태는 송신 컴퓨팅 장치의 현재 상태 및 송신 컴퓨팅 장치의 현재 동작을 결정하는 단계를 포함하며, 현재 동작은 복수의 전송 파라미터를 포함한다. 이 양태는 송신 컴퓨팅 장치에서 수신 컴퓨팅 장치로 실시간 통신을 전송하는 단계를 더 포함한다. 실시간 통신은 실시간 오디오 통신 및 실시간 비디오 통신 중 하나 또는 둘 모두를 포함한다. 또한, 가령 QoE 메트릭과 같은 보상이, 수신 컴퓨팅 장치에서 수신된 전송된 실시간 통신의 하나 이상의 파라미터에 기초하여 수신 컴퓨팅 장치에서 결정된다. 미래 보상의 합계의 기대값은 현재 상태, 현재 동작 및 보상에 기초하여 결정되며, 송신 컴퓨팅 장치의 복수의 전송 파라미터 중 적어도 하나는 미래 보상의 합계의 기대값을 최대화하기 위해 변경된다.
본 개시의 일 양태는 실시간 통신에서 기대 사용자 인식 QoE를 최적화하는 강화 학습 모델을 훈련하는 방법, 시스템 및 제조 물건에 관한 것이다. 이 양태는 송신기의 현재 상태를 결정하는 단계와, 송신기와 통신하는 에이전트에 현재 상태를 제공하는 단계를 포함한다. 이 양태는 송신기의 현재 동작을 결정하는 단계를 더 포함하며, 현재 동작은 에이전트가 알고 있으며 복수의 전송 파라미터를 포함한다. 이 양태는 송신기에서 수신기로 실시간 통신을 전송하는 단계를 더 포함한다. 이 실시간 통신은 실시간 오디오 전송 또는 실시간 비디오 전송 중 하나 또는 둘 다를 포함한다. 이 양태는 수신기에서 결정된 보상을, 수신기로부터, 에이전트에서 수신하는 것을 더 포함한다. 이 보상은 수신기에서 수신된 실시간 통신에 관한 하나 이상의 파라미터에 기초한다. 에이전트는 현재 상태, 현재 동작 및 보상에 기초하여 미래 보상의 합계의 기대값을 결정하며, 에이전트는 미래 보상의 합계에 대한 기대값을 최대화하기 위해 복수의 전송 파라미터 중 적어도 하나의 변경을 지시한다. 이 훈련은 시뮬레이션된 환경, 에뮬레이트된 환경 또는 실제 네트워크 환경에서 수행할 수 있다.
이 발명의 내용 란은 개념의 선택을 간략화된 형식으로 소개하기 위해 제공되며, 아래의 발명을 실시하기 위한 구체적인 내용 란에서 더 설명된다. 이 발명의 내용 란은 청구된 특허 대상의 주요 특징 또는 필수 특징을 식별하기 위한 것으로 의도된 것이 아닐 뿐 아니라, 청구된 특허 대상의 범위를 한정하기 위해 사용되는 것으로 의도된 것이 아니다. 예시의 추가적인 양태, 특징 및/또는 이점은 이어지는 설명에서 부분적으로 설명될 것이고, 부분적으로는 설명으로부터 명백하거나, 본 개시 내용의 실시에 의해 학습될 수 있다.
비한정적이고 비제한적인 예시가 다음의 도면을 참조하여 설명된다.
도 1은 본 명세서에서 개시된 실시간 통신에서의 강화 학습의 환경을 도시한다.
도 2a 내지 2c는 본 명세서의 실시간 통신에서의 강화 학습의 환경이 실시될 수 있는 추가적인 세부 사항을 도시한다.
도 3은 실시간 통신에서의 사용자 인식 경험 품질(QoE)을 최대화하기 위한 강화 학습의 시뮬레이션된 훈련 환경을 도시한다.
도 4는 실시간 통신에서의 사용자 인식 QoE를 최대화하기 위한 강화 학습의 에뮬레이트된 훈련 환경을 도시한다.
도 5는 실시간 통신에서의 사용자 인식 QoE를 최대화하기 위한 강화 학습의 실제 네트워크 훈련 환경을 도시한다.
도 6은 본 개시 내용의 양태들이 실시될 수 있는 컴퓨팅 장치의 예시적인 물리 컴포넌트를 도시하는 블록도이다.
도 7a 및 7b는 본 개시 내용의 양태가 실시될 수 있는 모바일 컴퓨팅 장치의 단순화된 블록도이다.
도 8은 본 개시 내용의 양태가 실시될 수 있는 분산 컴퓨팅 장치의 단순화된 블록도이다.
도 9는 본 개시 내용의 하나 이상의 양태를 실행하는 태블릿 컴퓨팅 장치를 도시한다.
본 개시의 다양한 양태는 본 명세서의 일부를 형성하는 첨부된 도면을 참조하여 아래에서 보다 자세히 설명된다. 본 개시 내용의 다양한 양태는 여러 다양한 형태로 구현될 수 있으며, 본 명세서에서 설명된 양태로 제한되는 것으로 해석되어서는 안된다. 오히려, 이러한 양태는 본 개시 내용이 철저하고 완전할 수 있도록 제공되며, 양태들의 범위를 당업자에게 완전히 전달하게 한다. 양태들은 방법, 시스템 또는 장치로 실시될 수 있다. 따라서, 양태들은 하드웨어 구현의 형태, 완전한 소프트웨어 구현 또는 소프트웨어 및 하드웨어 양태를 조합하는 구현의 형태를 취할 수 있다. 다음의 상세한 설명은 따라서 제한적인 의미로 받아들여서는 안된다.
본 개시는 일반적으로 실시간 통신에서의 강화 학습을 구현하기 위한 시스템 및 방법에 관한 것이다. 본 개시의 특정 양태는 실시간 오디오 및 비디오 통신에서의 사용자 인식 품질을 최적화하기 위한 강화 학습에 관한 것이다. 에이전트는 네트워크 상태 및/또는 애플리케이션 요구 사항의 변화에 대응하여 실시간 오디오 및 비디오 전송 파라미터를 자동으로 조정하기 위해 송신 컴퓨팅 장치 및 수신 컴퓨팅 장치와 인터페이스한다. 송신 컴퓨팅 장치는 실시간 오디오 및/또는 비디오 데이터를 전송한다. 수신 컴퓨팅 장치는 송신 장치로부터 실시간 오디오 및 비디오 전송을 수신하고, 에이전트에게 보상으로 제공되는 실제 사용자 인식 경험 품질(QoE)을 결정한다. 에이전트는 제어 정책과 상태-동작 값 함수를 포함하는 강화 학습 모델을 포함한다. 에이전트는 송신 컴퓨팅 장치의 현재 상태를 관찰하고 현재 상태, 현재 동작(가령, 송신 컴퓨팅 장치에서 전송 파라미터에 대한 현재 조정 또는 조정의 세트) 및 수신 컴퓨팅 장치가 제공하는 보상에 기초하여 미래 보상의 합계의 기대값의 추정을 결정한다. 미래 보상의 합계의 기대값을 최대화하는 목표에 기초하여, 에이전트는 제어 정책을 조정한다. 제어 정책의 조정은 실시간 오디오 및/또는 비디오 데이터에 적용되는 동작을 변경한다.
따라서, 본 개시는 미래 보상의 합계의 기대값을 최대화하는 목표에 기초하여 송신 컴퓨팅 장치의 실시간 오디오 및 비디오 전송 파라미터를 조정하는 것에 즉각적으로 대응하여 지속적으로 업데이트되는 강화 학습 모델을 포함하는, 하지만 이에 국한되지는 않는, 다수의 기술적 이점을 제공한다. 실시간 오디오 및 비디오 전송 파라미터는 네트워크 상태 및/또는 애플리케이션 요구사항의 변화에 대응하여 즉각적으로 조정된다. 품질 저하의 반작용으로서 이전에 데이터 전송 파라미터에 대한 사용된 수동 코딩 반응 업데이트 프로세스 하에서 발생할 수 있는, 전송된 실시간 오디오 및 비디오 스트림의 품질 저하가 최소화된다.
도 1을 참조하면 실시간 통신에서의 강화 학습을 실시하기 위한 환경(100)이 도시되어 있다. 환경(100)은 복수의 컴퓨팅 장치(104)가 다양한 통신 링크(106)를 통해 통신하는 네트워크(102)를 포함한다. "실시간"이라는 용어는 수신된 데이터가 컴퓨팅 장치에 의해 거의 즉시 처리되는 데이터 프로세싱을 의미하며, 가령 사용자가 충분히 즉각적으로 감지하거나 컴퓨팅 장치가 몇몇 외부 프로세스를 따라갈 수 있도록 하는 컴퓨팅 장치의 응답성 수준을 의미한다.
네트워크(102)는 음성 및 비디오 트래픽을 전송하고, 수신하며, 교환할 수 있는 유선 및/또는 무선 네트워크의 임의의 유형이다. 네트워크의 예시는 단일 도메인에서 엔드포인트를 상호 연결하는 로컬 영역 네트워크(LAN)와, 복수의 LAN, 서브네트워크, 도시권 네트워크(metropolitian area network), 스토리지 영역 네트워크, 개인 네트워크(PAN), 무선 로컬 영역 네트워크(WLAN), 캠퍼스 네트워크(CAN), 가상 사설 네트워크(VPN), 수동 광통신망 등을 상호 연결하는 광대역 통신망(WAN)을 포함한다.
컴퓨팅 장치(104)는 네트워크(102)의 엔드포인트를 포함한다. 컴퓨팅 장치(104)는 하나 이상의 범용 컴퓨팅 장치 또는 특수 목적용 컴퓨팅 장치를 포함할 수 있다. 그러한 장치는 가령 개인 컴퓨터, 서버 컴퓨터, 핸드헬드(hand-held) 또는 랩탑 장치, 멀티프로세서 시스템, 마이크로프로세서 기반 시스템, 셋톱박스, 프로그래머블 소비자 전자 제품, 네트워크 PC, 미니컴퓨터, 메인프레임 컴퓨터, 휴대폰, 개인 정보 단말기(PDA), 게이밍 장치, 프린터, 가전 제품, 미디어 센터, 자동차에 탑재되거나 부착된 컴퓨팅 장치, 기타 모바일 장치, 임의의 위 시스템 또는 장치를 포함하는 분산 컴퓨팅 환경 등을 포함할 수 있다. 컴퓨팅 장치에 관한 추가적인 세부 사항은 도 6 내지 9에 설명되어 있다.
컴퓨팅 장치(104) 간의 통신은 링크(106)를 통해 이동한다. 링크는 데이터, 음성 및/또는 비디오를 하나의 컴퓨팅 장치(104)에서 다른 장치로 전송할 수 있는 임의의 유형의 유도 또는 비유도 전송 매체를 포함할 수 있다. 가이드 매체(guided media)는 물리적 경로를 따라 신호를 전송한다. 가이드 매체의 예시는 트위스티드 페어 케이블(twisted pair cable), 동축 케이블, 광섬유 등을 포함한다. 비-가이드 매체는 신호가 취하는 경로를 정의하는 물리적 수단을 사용하지 않고 신호를 전송한다. 비유도 매체의 예시는 전파, 마이크로파, 적외선 등을 포함한다.
도 2a 및 2b는 링크(206)를 통해 네트워크(202) 상에서 실시간으로 통신하는 단일 송신 컴퓨팅 장치(204S) 및 단일 수신 컴퓨팅 장치(204R)를 포함하는 환경(200)을, 설명의 목적으로 도시한다. 송신 컴퓨팅 장치(204S)가 송신 능력만을 포함하는 것으로 도시되어 있지만, 송신 컴퓨팅 장치(204S)가 수신 컴퓨팅 장치로도 동작할 수 있다는 것을 인식해야 한다. 유사하게, 수신 컴퓨팅 장치(204R)는 송신 컴퓨팅 장치로도 동작할 수 있다. 이와 같이, 송신 컴퓨팅 장치(204S)와 수신 컴퓨팅 장치(204R) 사이에서 양방향 실시간 통신이 일어날 수 있다. 환경(200)은 에이전트(206)와 실시간으로 통신하여 음성 데이터 및 비디오 데이터를 포함할 수 있는 데이터의 실시간 통신에 기초한 강화 학습을 구현한다. 강화 학습은 미래 보상의 합계의 기대값을 최대화함으로써 실시간 통신에서의 기대 사용자 인식 품질을 최적화한다. 에이전트(206)는 또한 송신 컴퓨팅 장치(204S) 및 수신 컴퓨팅 장치(204R) 중 하나 또는 둘 다에 있는 애플리케이션 또는 코딩을 포함할 수 있다. 에이전트(206)는 또한 서버 컴퓨팅 장치, 클라우드 컴퓨팅 장치 등과 같이, 송신 컴퓨팅 장치(204S) 또는 수신 컴퓨팅 장치(204R)와 별개의 컴퓨팅 장치에 있는 애플리케이션 또는 코딩을 포함할 수 있다.
도시된 바와 같이, 송신 컴퓨팅 장치(204S)는 데이터 캡처 모듈(210), 데이터 인코더 모듈(212) 및 데이터 송신기 모듈(214)을 포함한다. 데이터 캡처 모듈(210)은 송신 컴퓨팅 장치(204S)의 현재 관찰된 상태를 나타내는 상태 데이터를 캡처한다. 실시간 오디오 및 비디오 통신의 문맥에서, 현재 관찰된 상태는 실시간 오디오 데이터 및 실시간 비디오 데이터의 전송에 영향을 미치는 관찰된 송신 파라미터를 포함할 수 있다. 관찰된 송신 파라미터는, 가령, 해상도, 비트레이트, 프레임레이트, 송신 스트림, 코덱(인코딩/디코딩), 사용자의 물리적 환경(가령, 명암도, 배경 노이즈, 모션 등) 또는 실시간 데이터 전송에 영향을 미칠 수 있는 다른 파라미터를 포함할 수 있다. 송신 컴퓨팅 장치(204S)의 데이터 인코더 모듈(212)은 상태 데이터를 네트워크(202) 상에서의 실시간 전송을 위한 특정 형식으로 변환한다. 데이터 송신기 모듈(214)은 포맷된 상태 데이터를 네트워크(202) 상에 실시간으로 송신한다.
수신 컴퓨팅 장치(240R)는 데이터 수신기 모듈(220), 데이터 디코더 모듈(222) 및 QoE 메트릭 모듈(224)을 포함한다. 데이터 수신기 모듈(220)은 포맷된 상태 데이터를 네트워크(202)로부터 실시간으로 수신하며 네트워크 통계를 에이전트(206)로 출력한다. 네트워크 통계의 예시는 손실, 지터(jitter), 네트워크 지연으로도 알려진 왕복 시간(RTT), 수신 속도, 패킷 크기, 패킷 유형, 수신 타임스탬프, 송신기 타임스탬프, 패킷 손실의 버스트 길이, 패킷 손실 또는 수신된 오디오 및 비디오 데이터의 품질을 평가하는 데 사용될 수 있는 임의의 기타 네트워크 통계 사이의 갭을 포함한다. 데이터 디코더 모듈(222)은 데이터 인코더 모듈(212)의 반대를 수행하며 포맷된 상태 데이터로부터 실시간으로 수신된 상태 데이터를 추출한다.
QoE 메트릭 모듈(224)은 추출된 상태 데이터에 기초하여 하나 이상의 경험 품질(Quality of Experience, QoE) 메트릭을 결정한다. QoE 메트릭은 가령 심층 신경망(deep neural network, DNN) 또는 다른 적절한 모델과 같은 QoE 머신 러닝 모델에 의해 결정된 수신된 상태 데이터의 사용자 인식 품질을 나타낸다. QoE 머신 러닝 모델은 수신된 오디오 및 비디오 데이터 스트림의 페이로드와 같은 다양한 수신 파라미터를 분석하며, 이러한 페이로드는 실제 의도된 메시지인 수신 데이터의 일부이다. 오디오 및 비디오 스트림의 페이로드의 분석은 주관적 품질 평가(가령, 품질에 대한 인간 관찰자의 평가)의 결과를 근사하는 하나 이상의 사전 정의된 객관적 모델의 사용을 포함할 수 있다. 특정 예시에서, 객관적 모델은 실시간 오디오 품질을 평가하는 하나 이상의 모델(가령, PEAQ(Perception Evaluation of Audio Quality) 모델, PEMO-Q 모델, 신호 대 노이즈 비율(PSNR) 모델 또는 수신된 실시간 오디오 신호를 평가할 수 있는 임의의 기타 객관적 모델)을 포함할 수 있다. 특정 예시에서, 객관적 모델은 실시간 비디오 품질(가령, FR(Full reference) 모델, RR(Recuded Reference) 모델, NR(No-Reference) 모델, 피크 신호 대 노이즈 비율(PSNR) 모델, SSIM(Structual Similarity Index) 모델 또는 수신된 실시간 비디오 신호를 평가할 수 있는 임의의 기타 객관적 모델)을 평가하기 위한 하나 이상의 모델을 포함할 수 있다.
특정 양태에서, QoE 머신 러닝 모델은 추가적으로 하나 이상의 QoE 메트릭을 결정하기 위한 수신 파라미터로서 수신 컴퓨팅 장치(204R)의 통계 및 네트워크 통계를 분석할 수 있다. 본 명세서에서 언급된 바와 같이, 네트워크 통계의 예시는 손실, 지터(jitter), 네트워크 지연으로도 알려진 왕복 시간(RTT), 수신 속도, 패킷 크기, 패킷 유형, 수신 타임스탬프, 송신기 타임스탬프, 패킷 손실의 버스트 길이, 패킷 손실 또는 수신된 오디오 및 비디오 데이터의 품질을 평가하는 데 사용될 수 있는 임의의 기타 네트워크 통계 사이의 갭을 포함한다. 수신 컴퓨팅 장치(204R)의 통계의 예시는 디스플레이 크기, 디스플레이 윈도우 크기, 장치 유형, 하드웨어 또는 소프트웨어 인코더/디코더가 사용되었는지 여부 등을 포함한다. 특정 양태에서, QoE 머신 러닝 모델은 추가적으로 하나 이상의 QoE 메트릭의 결정을 위한 수신 파라미터로서 사용자(가령, 인간) 피드백을 분석할 수 있다. 사용자 피드백은, 가령, 예를 들어 수신 컴퓨팅 장치(204R)에서 수신된 오디오 및 비디오의 품질에 대해 사용자가 어떻게 생각하는지와 같은, 그들의 사용자 경험 품질을 표시하는 사용자 평가 또는 설문조사를 통해 제공될 수 있다. 에이전트(206)는 사용자 인식 오디오 및/또는 비디오 품질을 나타내는 결정된 하나 이상의 QoE 메트릭을 통신한다.
에이전트(206)는 상태 모듈(230) 및 강화 학습 모델(232)을 포함한다. 특정 측면에서, 강화 학습 모델(232)은 임의의 적절한 강화 학습 알고리즘(동작이 일어나고, 결과가 관찰되며, 보상 신호에 기초하여 제1 동작의 결과로 다음 동작을 고려하는 학습 알고리즘)을 포함할 수 있다. 강화 학습 알고리즘은, 예를 들어, 행위자-비평가(actor-critic), q-학습(q-learning), 정책 그래디언트(policy gradient), 시간차 학습(temporal difference) 몬테 카를로 트리 검색 또는 관련된 데이터에 적합한 임의의 기타 강화 학습 알고리즘을 포함할 수 있다. 강화 학습 모델(232)은 실시간으로 송신 컴퓨팅 장치(204S)의 데이터 전송 파라미터를 동적으로 제어한다.
도 2b는 제어 정책(234)과 상태-동작 값 함수(236)를 포함하는 행위자-비평가 강화 학습 모델(232)의 예시를 도시하며, 도 2c는 행위자-비평가 아키텍처의 예시를 제공한다. 행위자-비평가 강화 학습은 제어 정책(234)이 추정 상태-값 함수(236)와 독립적인 시간차 학습 방법이며, 이는 현재 컨텍스트에서 미래 보상의 합의 기대값이다. 제어 정책(234)은 가령 송신 컴퓨팅 장치의 데이터 전송 파라미터와 같은 동작을 선택하는 데 사용되는 행위자(actor)를 포함하며, 상태-값 함수(236)는 제어 정책(234)에 의해 수행된 동작을 비판하기 때문에 비평가(critic)이다. 상태-값 함수(236)는 현재 제어 정책(234)에 대해 학습하고 비평한다.
제어 정책(234)은 에이전트(206) 내에 신경망과 같은 제1 머신 러닝 모델을 포함하며, 에이전트(206)는 송신 컴퓨팅 장치(204S)에 의해 사용되는 하나 이상의 데이터 전송 파라미터에 대한 하나 이상의 변경의 형태로 하나 이상의 출력 동작을 생성한다. 출력 동작은 상태-동작 값 함수(236)에 의해 결정된 미래 보상의 합계의 기대값의 최대화에 기초하여 오디오 및 비디오 데이터의 기대 사용자 인식 품질(QoE)을 최적화하도록 설계된다. 데이터 전송 파라미터의 예시는 송신 속도, 해상도, 프레임레이트, 양자화 파라미터(Quantization Parameter, QP)에 제공되는 객체 이벤트, 순방향 오류 정정(FEC), 또는 송신 컴퓨팅 장치(204S)에서 수신 컴퓨팅 장치(204R)로의 상태 데이터의 전송 품질을 수정하는 데 사용될 수 있는 임의의 기타 제어 가능한 파라미터를 포함한다.
상태-동작 값 함수(236)는 신경망과 같은 에이전트(206) 내에 제2 머신 러닝 모델을 포함하며, 에이전트(206)의 값 함수는 미래 보상의 합계의 기대값을 예측하거나 추정하기 위해 훈련된다. 미래 보상의 합계의 기대값은 송신 컴퓨팅 장치의 현재 상태, 현재 동작(가령, 실시간 오디오 및/또는 비디오 데이터를 전송하는 데 사용되는 현재 전송 파라미터) 및 수신 컴퓨팅 장치가 제공하는 보상에 기초하여 결정된다. 제어 정책은 기대값 결정에 대응하여 출력 동작을 조정한다. 제어 정책(234)은 상태-동작 값 함수(236)와 함께 훈련될 수도 있고, 이미 훈련된 상태-동작 값 함수(236)에 기초하여 획득될 수도 있다.
특정 양태에서, 도 2b 및 2c의 행위자-비평가 강화 학습 모델(232)의 훈련 동안, 에이전트(206)는 언제나 제어 정책(234)의 동작을 따를 필요는 없다. 오히려, 에이전트(206)는 에이전트(206)가 강화 학습 모델(232)을 개선할 수 있는 다른 동작(가령, 송신 컴퓨팅 장치(204S)의 데이터 전송 파라미터에 대한 다른 수정)을 탐색할 수 있다. 에이전트(206)는 가령 입실론 그리디(epsilon-greedy)와 같은 하나 이상의 탐색 전략을 통해 다른 동작을 탐색할 수 있다.
특정 양태에서, 강화 학습 모델(232)의 제어 정책(234)은 학습 환경으로부터 분리될 수 있으며 클라이언트(가령, 송신 컴퓨팅 장치 및/또는 수신 컴퓨팅 장치)에 실시간 모델로서 배치될 수 있다. 실시간 모델로의 전송은 ONNX(Open Neural Network Exchange), tflite (TensorFlow Lite) 등과 같은 하나 이상의 모델 전송 도구를 통해 달성할 수 있다.
도 3 내지 도 5를 참조하면, 에이전트(206)는 시뮬레이션된 환경(300), 에뮬레이트된 환경(400) 및 실제 네트워크 환경(500) 중 하나를 사용하여 훈련될 수 있다. 어떤 환경이 사용되는지는 데이터 수집 속도 및 데이터 다양성 요구사항에 따라 달라진다. 도 3의 시뮬레이션된 환경(300)에서, (데이터 캡처 모델(210), 데이터 인코더 모듈(212) 및 데이터 송신기 모듈(214)을 포함하는) 송신 컴퓨팅 장치(204S)의 모든 프로세스, (데이터 수신기 모듈(220), 데이터 디코더 모듈(222) 및 QoE 메트릭 모듈(224)을 포함하는) 수신 컴퓨팅 장치(204R)의 모든 프로세스 및 네트워크(202)가 시뮬레이션된다. 도 4의 에뮬레이트된 환경(400)에서, 송신 컴퓨팅 장치(204S)는 에뮬레이션 송신 프로세스(404S)를 포함하는 제1 에뮬레이션에 복제되며, 수신 컴퓨팅 장치(204R)는 에뮬레이션 수신 프로세스(404R)를 포함하는 제2 에뮬레이션에 복제되고, 네트워크(202)는 네트워크 에뮬레이션(402)을 포함하는 제3 에뮬레이션에 복제된다. 특정 양태에서, 물리적 송신 컴퓨팅 장치와 물리적 수신 컴퓨팅 장치는 에뮬레이트된 네트워크와 함께 사용될 수 있다. 도 5의 실제 네트워크 환경(500)에서, 물리적 송신 컴퓨팅 장치(204S)와 물리적 수신 컴퓨팅 장치(204R) 및 물리적 네트워크(202)가 사용된다.
에이전트(206)를 훈련하기 위해 어떤 환경을 사용할지는 데이터 수집 속도 및 데이터 수집 다양성 요구사항에 따라 달라진다. 예를 들어, (불연속 이벤트 네트워크 시뮬레이터인) ns-2 또는 ns-3과 같은 네트워크 시뮬레이션 도구는 빠른 데이터 수집 및 훈련을 위해 시뮬레이션된 환경(300)에서 사용될 수 있다. (선택된 네트워크 인터페이스에서 나가는 전송 패킷의 지연, 패킷 손실, 복제 및 기타 특성을 추가할 수 있는 리눅스 트래픽 제어 기능의 향상인) NetEm과 같은 네트워크 에뮬레이션 도구는 에뮬레이트된 환경(400)에서 사용되어 실제 코드가 제어된 환경에서 실행되도록 할 수 있다. 이러한 제어된 환경을 통해 (가령, Skype, Microsoft Teams, WhatsApp, WeChat 등과 같은) 통신 애플리케이션은 네트워크 조건을 재현할 수 있는 환경에서 테스트될 수 있다. 실제 네트워크 환경(500)에서 실제 인터넷 서비스 제공자(ISP)를 사용하는 실제 네트워크(가령, 셀룰러, Wi-Fi, 이더넷 등)는 가장 현실적인 테스트 환경을 제공하며 최종 사용자가 경험하는 상태를 온라인으로 학습할 수 있다. 특정 측면에서, 동일한 강화 학습 정책은 시뮬레이션된 네트워크 환경, 에뮬레이트된 네트워크 환경, 또는 실제 네트워크 환경에서 사용될 수 있으나, 각 환경은 다른 성능을 제공할 것이다. 에이전트(206)는, 대안적으로 또는 추가적으로, 전이 학습(transfer learning)을 사용하여 훈련될 수 있으며, 실시간 오디오 및 비디오 데이터 스트리밍에 관한 새로운 애플리케이션 요구사항 및/또는 네트워크 동작에 대응하여 이전에 생성된 수동 코딩된 규칙은 에이전트(206)를 훈련하는 데 사용된다.
훈련된 경우, 에이전트(206)는 실시간 오디오 및 비디오 통신을 위한 라이브 네트워크 환경에 적용된다. 라이브 네트워크 내에서, 강화 학습 모델(232)은 장치(204S)와 같은 송신 컴퓨팅 장치에서 장치(204R)와 같은 수신 컴퓨팅 장치로의 실시간 오디오 및 비디오 데이터 스트림의 전송에 기초하여 지속적으로 업데이트된다. 특정 양태에서, 장치(204S)와 같은 송신 컴퓨팅 장치는, 각 에이전트가 오직 하나의 데이터 전송 파라미터를 수정하거나, 복수의 데이터 전송 파라미터를 수정함으로써, 실시간 오디오 및 비디오 데이터 전송 파라미터를 수정하도록 작동하는 단일 에이전트(206) 또는 복수의 에이전트(206)를 포함할 수 있다. 특정 양태에서, 장치(204R)와 같은 수신 컴퓨팅 장치는 하나의 QoE 또는 복수의 QoE를 결정할 수 있다. 하나 또는 복수의 QoE는 단일 에이전트(206) 또는 복수의 에이전트(206)에 제공될 수 있다.
따라서, 네트워크 조건의 변화 및/또는 애플리케이션 요구 사항의 변화에 대응하기 위해 수동 코딩만 사용되는 환경의 컨텍스트의 결과로 품질이 저하된 실시간 오디오 및 비디오 전송을 겪는 것 대신에, 에이전트(206)의 지속적인 라이브 업데이트에 기초하여, 에이전트(206) 및 송신 컴퓨팅 장치(204S)는 즉시(가령, 실시간으로) 업데이트되어, 미래 보상의 합계의 기대값의 최대화를 통해, 실시간 오디오 및 비디오 통신에서의 기대 사용자 인식 품질을 지속적으로 최적화한다.
도 6 내지 도 9 및 관련 설명은 개시 내용의 양태가 실시될 수 있는 다양한 작동 환경의 논의를 제공한다. 그러나, 도 6 내지 도 9에 관해 설명되고 논의된 장치 및 시스템은 예시 및 설명의 목적이며 본 명세서에서 설명된 개시 내용의 양태를 실시하기 위해 이용될 수 있는 방대한 수의 컴퓨팅 장치 구성을 한정하지 않는다.
도 6은 개시 내용의 양태가 실시될 수 있는 컴퓨팅 장치(600)의 물리적 컴포넌트(가령, 하드웨어)를 설명하는 블록도이다. 아래에서 설명되는 컴퓨팅 장치 컴포넌트에는 컴퓨팅 장치(가령, 송신 컴퓨팅 장치(204S) 및 수신 컴퓨팅 장치(204R))의 실시간 통신에서 사용자 인식 QoE를 최대화하기 위한 강화 학습을 구현하기 위한 컴퓨터 실행 가능 명령어와, 본 명세서에서 개시된 방법을 구현하기 위해 실행될 수 있는 강화 학습 애플리케이션(620)을 위한 컴퓨터 실행 가능 명령어가 있을 수 있다. 기본 구성으로, 컴퓨팅 장치(600)는 적어도 하나의 프로세싱 유닛(602) 및 시스템 메모리(604)를 포함할 수 있다. 컴퓨팅 장치의 유형 및 구성에 따라, 시스템 메모리(604)는 휘발성 저장소(가령, 랜덤 액세스 메모리), 비휘발성 저장소(가령, 판독 전용 메모리), 플래시 메모리, 또는 그러한 메모리의 모든 조합을 포함할 수 있으나, 이에 국한되는 것은 아니다. 시스템 메모리(604)는 운영체제(605)와, 가령 도 2에 관한 하나 이상의 컴포넌트 및, 특히, 데이터 캡처, 데이터 인코더, 및 데이터 송신기 모듈(611)(가령, 데이터 캡처 모듈(210), 데이터 인코더 모듈(212), 및 데이터 송신기 모듈(214)), 데이터 수신기, 데이터 디코더 및 QoE 메트릭 모듈(613)(가령, 데이터 수신기 모듈(220), 데이터 디코더 모듈(222) 및 QoE 메트릭 모듈(224)) 및/또는 에이전트 모듈(615)(가령, 에이전트(206)와 같은 하나 이상의 프로그램 모듈(606)을 포함할 수 있다.
운영체제(605)는, 예를 들어, 컴퓨팅 장치(600)의 동작을 제어하는 데 적합할 수 있다. 또한, 본 개시 내용의 실시예는 그래픽 라이브러리, 기타 운영체제, 또는 기타 임의의 애플리케이션 프로그램과 함께 실시될 수 있으며, 임의의 특정한 애플리케이션 또는 시스템에 한정되지 않는다. 이러한 기본 구성의 컴포넌트들은 도 6의 점선(608) 안에 도시되어 있다. 컴퓨팅 장치(600)는 추가적인 특징 또는 기능을 가질 수 있다. 컴퓨팅 장치(600)는 또한, 예를 들어, 자기 디스크, 광 디스크 또는 테이프와 같은 (소거 가능 및/또는 소거 불가능한) 추가적인 데이터 저장 장치를 포함할 수 있다. 이러한 추가 저장소는 도 6에 소거 가능 저장 장치(609) 및 소거 불가능 저장 장치(610)로 도시되어 있다. 임의의 수의 프로그램 모듈 및 데이터 파일이 시스템 메모리(604)에 저장될 수 있다. 프로세싱 유닛(602) 상에서 실행하는 동안, 프로그램 모듈(606)(가령, 강화 학습 애플리케이션(620))은 본 명세서에 설명된 양태를 포함하는(허나 이에 국한되지는 않음) 프로세스를 수행할 수 있다.
또한, 본 개시 내용의 실시예는 개별 전자 소자를 포함하는 전기 회로, 논리 게이트를 포함하는 패키지되거나 집적된 전자 칩, 마이크로프로세서를 사용하는 회로, 또는 전자 소자 또는 마이크로프로세서를 포함하는 단일 칩에서 실행될 수 있다. 예를 들어, 본 개시 내용의 실시예는 도 6에 도시된 컴포넌트 각각 또는 컴포넌트 다수가 단일 집적 회로에 집적될 수 있는 시스템-온-칩(SOC)을 통해 실시될 수 있다. 그러한 SOC 장치는 하나 이상의 프로세싱 유닛, 그래픽 유닛, 통신 유닛, 시스템 가상화 유닛 및 다양한 애플리케이션 기능을 포함할 수 있으며, 이들 모두는 단일 집적 회로로서 칩 기판에 통합(또는 "연결(burn)")된다. SOC를 통해 동작하는 경우, 본 명세서에서 설명된, 프로토콜을 바꾸기 위한 클라이언트의 능력에 관한 기능은 단일 집적 회로(칩)에서 컴퓨팅 장치(600)의 다른 컴포넌트와 통합된 특정 용도용 논리를 통해 동작할 수 있다. 개시 내용의 실시예는, 가령, AND, OR 및 NOT과 같은 논리 동작을 수행할 수 있는, 기계 기술, 광 기술, 유체 기술 및 양자 기술을 포함하는 (허나 이에 국한되지는 않는) 다른 기술을 사용하여 실시될 수도 있다. 또한, 본 개시의 실시예는 범용 컴퓨터 내에서 또는 임의의 다른 회로 또는 시스템에서 실시될 수 있다.
컴퓨팅 장치(600)는 또한 키보드, 마우스, 펜, 사운드 또는 음성 입력 디바이스, 터치 또는 스와이프 입력 디바이스 등과 같은 하나 이상의 장치(612)를 가질 수 있다. 출력 디바이스(614)에는 디스플레이, 스피커, 프린터 등과 같은 장치도 포함될 수 있다. 전술한 장치는 예시이며 다른 장치가 사용될 수 있다. 컴퓨팅 장치(600)는 다른 컴퓨팅 장치(650)와의 통신을 허용하는 하나 이상의 통신 연결부(616)를 포함할 수 있다. 적절한 통신 연결(616)의 예시는 무선 주파수(RF) 송신기, 수신기, 및/또는 트랜시버 회로, 범용 직렬 버스(USB), 병렬 및/또는 직렬 포트를 포함하지만, 이에 국한되는 것은 아니다.
본 명세서에서 사용되는 컴퓨터 판독 가능 매체라는 용어는 컴퓨터 저장 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독 가능 명령어, 데이터 구조, 또는 프로그램 모듈과 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현되는 휘발성 및 비휘발성, 이동식 및 비이동식 매체를 포함할 수 있다. 시스템 메모리(604), 이동식 저장 장치(609), 및 비이동식 저장 장치(610)는 모두 컴퓨터 저장 매체(가령, 메모리 저장 장치)이다. 컴퓨터 저장 매체에는 RAM, ROM, 전기적 소거 가능 판독 전용 메모리(EEPROM), 플래시 메모리 또는 기타 메모리 기술, CD-ROM, DVD(디지털 다목적 디스크) 또는 기타 광학 저장 장치, 자기 카세트, 자기 테이프, 자기 디스크 저장 장치 또는 기타 자기 저장 장치, 또는 정보를 저장하는 데 사용될 수 있고 컴퓨팅 장치(600)에 의해 액세스될 수 있는 기타 제조 물품을 포함할 수 있다. 이러한 임의의 컴퓨터 저장 매체는 컴퓨팅 장치(600)의 일부일 수 있다. 컴퓨터 저장 매체에는 반송파 또는 기타 전파되거나 변조된 데이터 신호가 포함되지 않는다.
통신 매체는 컴퓨터 판독 가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파 또는 기타 전송 메커니즘과 같은 변조된 데이터 신호의 기타 데이터에 의해 구현될 수 있으며, 임의의 정보 전달 매체를 포함한다. "변조된 데이터 신호"라는 용어는 신호의 정보를 인코딩하는 방식으로 설정되거나 변경된 하나 이상의 특성 특성을 갖는 신호를 설명할 수 있다. 예로서, 통신 매체는 유선 네트워크 또는 직접 유선 연결과 같은 유선 매체, 및 음향, 무선 주파수(RF), 적외선 및 기타 무선 매체와 같은 무선 매체를 포함할 수 있지만 이에 국한되지는 않는다.
도 7a와 7b는 본 개시 내용의 실시예에서 실시될 수 있는 모바일 컴퓨팅 장치(700), 가령, 모바일 전화, 스마트폰, (스마트 워치와 같은) 웨어러블 컴퓨터, 태블릿 컴퓨터, 랩탑 컴퓨터 등을 설명한다. 몇몇 양태에서, 클라이언트는 모바일 컴퓨팅 장치일 수 있다. 도 7a를 참조하면, 양태들을 구현하기 위한 모바일 컴퓨팅 장치(700)의 일 양태가 도시된다. 기본 구성으로, 모바일 컴퓨팅 장치(700)는 입력 요소 및 출력 요소를 모두 갖는 핸드헬드 컴퓨터이다. 모바일 컴퓨팅 장치(700)는 일반적으로 디스플레이(705)와, 사용자가 모바일 컴퓨팅 장치(700)에 정보를 입력할 수 있게 하는 하나 이상의 입력 버튼(710)을 포함한다. 모바일 컴퓨팅 장치(700)의 디스플레이(705)는 입력 장치(가령, 터치 스크린 디스플레이)로도 기능할 수 있다. 선택적인 측면 입력 구성요소는, 포함된다면, 추가적인 사용자 입력을 허용한다. 측면 입력 구성요소(715)는 회전 스위치, 버튼 또는 임의의 기타 수동 입력 구성요소 유형일 수 있다. 대안적인 양태에서, 모바일 컴퓨팅 장치(700)는 입력 구성요소를 보다 많거나 보다 적게 포함할 수 있다. 예를 들어, 디스플레이(705)는 일부 실시예에서 터치 스크린이 아닐 수 있다. 다른 대안적인 실시예에서, 모바일 컴퓨팅 장치(700)는 가령 셀룰러 폰과 같은 포터블 전화 시스템이다. 모바일 컴퓨팅 장치(700)는 또한 선택적인 키패드(735)를 포함할 수 있다. 선택적인 키보드(735)는 물리적 키패드 또는 터치 스크린 디스플레이 상에 생성되는 "소프트" 키패드일 수 있다. 다양한 실시예에서, 출력 구성요소는 그래픽 유저 인터페이스(GUI)를 표시하기 위한 디스플레이(705), 시각적 표시자(720)(가령, 발광 다이오드) 및/또는 오디오 변환기(725)(가령, 스피커)를 포함한다. 일부 양태에서, 모바일 컴퓨팅 장치(700)는 사용자에게 촉각 피드백을 제공하기 위한 진동 변환기를 포함한다. 다른 양태에서, 모바일 컴퓨팅 장치(700)는, 가령 오디오 입력(가령, 마이크로폰 잭), 오디오 출력(가령, 헤드폰 잭), 및 비디오 출력(가령, HDMI 포트)와 같이, 외부 장치로부터 신호를 송신하거나 수신하기 위한 입력 및/또는 출력 포트를 포함한다.
도 7b는 모바일 컴퓨팅 장치의 일 양태의 아키텍처를 설명하는 블록도이다. 즉, 모바일 컴퓨팅 장치(700)는 일부 양태를 구현하기 위한 시스템(가령, 아키텍처)(702)를 포함할 수 있다. 일 실시예에서, 시스템(702)은 하나 이상의 애플리케이션(가령, 브라우저, 이메일, 캘린더, 연락처 관리자, 메시징 클라이언트, 게임 및 미디어 클라이언트/플레이어)을 실행할 수 있는 "스마트폰"으로서 구현된다. 일부 양태에서, 시스템(702)은 가령 통합 개인 정보 단말기(PDA) 및 무선 전화와 같은 컴퓨팅 장치로서 통합된다.
하나 이상의 애플리케이션 프로그램(766)은 메모리(762)에 로드되며, 운영체제(764) 상에서 또는 운영체제(764)와 관련하여 실행될 수 있다. 애플리케이션 프로그램의 예시는 전화 걸기 프로그램, 이메일 프로그램, 개인 정보 관리(PIM) 프로그램, 워드 프로세싱 프로그램, 스프레드시트 프로그램, 인터넷 브라우저 프로그램, 메시징 프로그램 등을 포함한다. 시스템(702)은 또한 메모리(762) 내에 비휘발성 저장 공간(768)을 포함한다. 비휘발성 저장 공간(768)은 시스템(702)의 전원이 꺼진 경우 손실되지 않아야 하는 지속 정보를 저장하는 데 사용될 수 있다. 애플리케이션 프로그램(766)은 가령 이메일 애플리케이션 등에 의해 사용되는 이메일 또는 다른 메시지와 같은 정보를 비휘발성 메모리 공간(768)에 저장하거나 사용할 수 있다. 동기화 애플리케이션(도시되지 않음) 또한 시스템(702)에 있으며, 호스트 컴퓨터에 있는 해당 동기화 애플리케이션과 상호작용하여 프로그래밍된다. 본 명세서에서 설명된 합의 결정 애플리케이션(가령, 메시지 구문 해석기, 제안 해석기, 의견 해석기 및/또는 합의 발표자 등)을 제공하기 위한 명령을 포함하는 다른 애플리케이션이 메모리(762)에 로드되고 모바일 컴퓨팅 장치(700)에서 실행될 수 있다는 것을 이해하여야 한다.
시스템(702)은 하나 이상의 배터리로서 구현될 수 있는 전원 장치(770)를 갖는다. 전원 장치(770)는 또한 AC 어댑터 또는 배터리를 보충하거나 재충전하는 전원 도킹 크래들과 같은 외부 전력 공급원을 포함할 수 있다.
시스템(702)은 또한 무선 주파수 통신을 전송 및 수신하는 기능을 수행하는 무선 인터페이스 레이어(772)를 포함할 수 있다. 무선 인터페이스 레이어(772)는 통신 캐리어 또는 서비스 제공자를 통해 시스템(702)과 "외부 세계" 사이의 무선 연결을 용이하게 한다. 무선 인터페이스 레이어(772)에 대한 전송 및 무선 인터페이스 레이어(772)로부터의 전송은 운영체제(764)의 제어 하에 수행된다. 즉, 무선 인터페이스 레이어(772)에 의해 수신된 통신은 운영체제(764)를 통해 애플리케이션 프로그램(766)에 전달될 수 있으며, 그 반대로도 전달될 수 있다.
시각적 표시기(720)는 시각적 알림을 제공하는 데 사용될 수 있으며, 및/또는 오디오 인터페이스(774)는 오디오 변환기(725)(가령, 도 7a에 도시된 오디오 변환기(725))를 통해 가청(audible) 알림을 제공하기 위해 사용될 수 있다. 도시된 실시예에서, 시각적 표시자(720)는 발광 다이오드(LED)이며 오디오 변환기(725)는 스피커이다. 이들 장치는 전원 장치(770)와 직접적으로 연결될 수 있어서, 활성화되는 경우, 프로세서 및 기타 컴포넌트가 배터리 전원을 절약하기 위해 종료되더라도 알림 메커니즘에 의해 지시된 시간 동안 켜진 상태로 유지된다. LED는 사용자가 장치의 파워 온 상태를 나타내기 위한 조치를 취할 때까지 계속 켜져 있도록 프로그래밍될 수 있다. 오디오 인터페이스(774)는 가청 신호를 제공하고 사용자로부터 가청 신호를 수신하는 데 사용된다. 예를 들어, 오디오 변환기(725)와 커플링되는 것에 더해서, 오디오 인터페이스(774)는 또한, 가령 전화 통화를 가능하게 하기 위해, 마이크로폰에 커플링되어 가청 입력을 수신한다. 본 개시 내용의 실시예에 따르면, 마이크로폰은 또한, 아래에서 설명되는 바와 같이, 알림의 제어를 용이하게 하는 오디오 센서의 역할을 할 수 있다. 시스템(702)은 정지 이미지, 비디오 스트림 등을 기록하기 위해 주변 장치(730)(가령, 온보드 카메라)의 작동을 가능하게 하는 비디오 인터페이스(776)를 더 포함할 수 있다. 오디오 인터페이스(774), 비디오 인터페이스(776), 및 키보드(735)는 본 명세서에서 설명된 하나 이상의 메시지를 생성하도록 작동될 수 있다.
시스템(702)을 구현하는 모바일 컴퓨팅 장치(700)는 추가적인 특징 또는 기능을 가질 수 있다. 예를 들어, 모바일 컴퓨팅 장치(700)는 가령 자기 디스크, 광 디스크 또는 테이프와 같은 추가적인 데이터 저장 장치(소거 가능 및/또는 소거 불가능)를 포함할 수 있다. 이러한 추가적인 저장소는 도 7b에 비휘발성 저장 공간(768)으로 도시되어 있다.
모바일 컴퓨팅 장치(700)에 의해 생성되거나 캡처되고 시스템(702)을 통해 저장된 데이터/정보는, 위에서 설명된 바와 같이 모바일 컴퓨팅 장치(700)에 로컬로 저장될 수도 있고, 또는 데이터는 장치에 의해 무선 인터페이스 레이어(772) 또는 모바일 컴퓨팅 장치(700) 및, 가령 인터넷과 같은 분산 컴퓨팅 네트워크의 서버 컴퓨터와 같은 모바일 컴퓨팅 장치(700)와 연관된 별개의 컴퓨팅 장치 사이의 유선 연결을 통해 액세스될 수 있는 임의의 수의 저장 매체에 저장될 수도 있다. 그러한 데이터/정보는 모바일 컴퓨팅 장치(700)를 통해, 또는 무선 인터페이스 레이어(772)를 통해, 또는 분산 컴퓨팅 네트워크를 통해 액세스될 수 있다는 것에 유의해야 한다. 비슷하게, 그러한 데이터/정보는 전자 메일 및 협력 데이터/정보 공유 시스템을 포함하는 잘 알려진 데이터/정보 전송 및 저장 수단에 따라, 전송 및 저장을 위한 컴퓨팅 장치 간에 쉽게 전송될 수 있다.
도 7a 및 7b는 본 방법 및 시스템의 설명의 목적으로 설명되었으며, 본 개시 내용을 특정 단계의 시계열, 또는 하드웨어 또는 소프트웨어 컴포넌트의 특정 결합으로 한정하도록 의도되지 않는다는 것을 이해하여야 한다.
도 8은 위에서 설명된 가령 범용 컴퓨팅 장치(804)(가령, 개인 컴퓨터), 태블릿 컴퓨팅 장치(806), 또는 모바일 컴퓨팅 장치(808)와 같은 원격 소스로부터 컴퓨팅 시스템에 수신된 데이터를 프로세싱하는 시스템의 아키텍처의 일 양태를 도시한다. 서버 장치(802)에 표시되는 컨텐츠는 여러 통신 채널 또는 기타 저장 유형에 저장될 수 있다. 예를 들어, 디렉토리 서비스(822), 웹 포털(824), 메일함 서비스(826), 인스턴트 메시징 스토어(828), 또는 소셜 네트워킹 서비스(830)를 사용하여 다양한 메시지를 수신하거나 및/또는 저장할 수 있다. 강화 학습 애플리케이션(821)은 서버 장치(802)와 통신하는 클라이언트에 의해 사용될 수 있거나, 및/또는 강화 학습 애플리케이션(821)은 서버 장치(802)에 의해 사용될 수 있다. 서버 장치(802)는 네트워크(815)를 통해 데이터를 범용 컴퓨팅 장치(804), 태블릿 컴퓨팅 장치(806) 및/또는 모바일 컴퓨팅 장치(808)(가령, 스마트폰)과 같은 클라이언트 컴퓨팅 장치에, 또는 클라이언트 컴퓨팅 장치로부터 제공할 수 있다. 예를 들어, 위에서 설명된 컴퓨팅 시스템은 범용 컴퓨팅 장치(804)(가령, 개인용 컴퓨터), 태블릿 컴퓨팅 장치(806) 및/또는 모바일 컴퓨팅 장치(808)(가령, 스마트폰)로 구현될 수 있다. 컴퓨팅 장치의 이러한 실시예 중 임의의 것은 그래픽 생성 시스템에서 사전 처리되거나 수신 컴퓨팅 시스템에서 사후 처리되는데 사용할 수 있는 그래픽 데이터를 수신하는것 외에도 스토어(816)로부터 컨텐츠를 획득할 수 있다.
도 8은 본 방법 및 시스템의 설명의 목적으로 설명되었으며, 본 개시 내용을 특정 단계의 시계열, 또는 하드웨어 또는 소프트웨어 컴포넌트의 특정 결합으로 한정하도록 의도되지 않는다는 것을 이해하여야 한다.
도 9는 본 명세서에 개시된 하나 이상의 측면을 실행할 수 있는 예시적인 태블릿 컴퓨팅 장치(900)를 도시한다. 또한, 본 명세서에 설명된 양태 및 기능은 분산 시스템(가령, 클라우드 기반 컴퓨팅 시스템)에서 작동할 수 있으며, 애플리케이션 기능, 메모리, 데이터 저장 및 검색 및 다양한 프로세싱 기능은 인터넷 또는 인트라넷과 같은 분산 컴퓨팅 네트워크를 통해 서로 원격으로 작동될 수 있다. 다양한 유형의 사용자 인터페이스 및 정보는 온보드 컴퓨팅 장치 디스플레이를 통해, 또는 하나 이상의 컴퓨팅 장치와 연관된 원격 디스플레이 유닛을 통해 표시될 수 있다. 예를 들어, 다양한 유형의 사용자 인터페이스 및 정보가 투영된 벽면에 다양한 유형의 사용자 인터페이스 및 정보가 표시되고 상호작용할 수 있다. 본 개시의 실시예가 실시될 수 있는 다수의 컴퓨팅 시스템과의 상호작용은 키스트로크 입력, 터치 스크린 입력, 음성 및 기타 오디오 입력, 제스처 입력 - 연관된 컴퓨팅 장치에 컴퓨팅 장치의 기능을 제어하기 위한 사용자 제스처를 캡처하고 해석하기 위한 감지 기능이 장착됨 - 등을 포함한다.
도 9는 본 방법 및 시스템의 설명의 목적으로 설명되었으며, 본 개시 내용을 특정 단계의 시계열, 또는 하드웨어 또는 소프트웨어 컴포넌트의 특정 결합으로 한정하도록 의도되지 않는다는 것을 이해하여야 한다.
본 출원에서 제공되는 하나 이상의 양태의 설명 및 예시는 어떠한 방식으로는 청구된 개시 내용의 범위를 한정하거나 제한하도록 의도되지 않는다. 본 출원에서 제공되는 양태, 예시 및 세부 사항은 내용을 전달하고 다른 사람들이 청구된 개시 내용의 최상의 상태를 만들고 사용할 수 있도록 하기에 충분한 것으로 고려된다. 청구된 개시 내용은 본 출원에서 제공된 임의의 양태, 예시 또는 세부 사항에 한정되는 것으로 해석되어서는 안된다. 조합하여, 또는 별도로 도시되고 설명되었는지 여부와는 관계없이, 다양한 특징(구조적 및 방법론적 특징 모두)은 특징의 특정한 세트를 갖는 실시예를 생성하기 위해 선택적으로 포함되거나 생략되도록 의도된다. 본 출원의 설명 및 예시가 제공됨에 따라, 당업자는 청구된 개시 내용의 넓은 범위를 벗어나지 않는, 본 출원에 구현된 일반적인 발명 개념의 넓은 양태의 사상 내에 속하는 변형, 수정 및 대안적 양태를 생각할 수 있다.

Claims (15)

  1. 송신 컴퓨팅 장치 및 수신 컴퓨팅 장치 사이의 실시간 통신에서 기대 사용자 인식 경험 품질(expected user perceived QoE)을 최적화하는 방법에 있어서,
    상기 송신 컴퓨팅 장치의 현재 상태를 결정하는 단계와,
    상기 송신 컴퓨팅 장치의 현재 동작을 결정하는 단계 - 상기 현재 동작은 복수의 전송 파라미터를 포함함 - 와,
    상기 현재 동작에 따라, 상기 송신 컴퓨팅 장치로부터 상기 수신 컴퓨팅 장치로 실시간 통신을 전송하는 단계 - 상기 실시간 통신은 실시간 오디오 통신 및 실시간 비디오 통신 중 하나 이상을 포함함 - 와,
    상기 수신 컴퓨팅 장치로부터 보상을 수신하는 단계 - 상기 보상은 상기 수신 컴퓨팅 장치에서 수신된 상기 전송된 실시간 통신과 관련된 하나 이상의 수신 파라미터에 기초함 - 와,
    상기 현재 상태, 상기 현재 동작 및 상기 보상에 기초하여, 미래 보상의 합계의 기대값을 결정하는 단계와,
    상기 미래 보상의 합계의 상기 기대값을 최대화하기 위해 상기 복수의 전송 파라미터 중 적어도 하나를 변경하는 단계를 포함하는,
    기대 사용자 인식 경험 품질 최적화 방법.
  2. 제1항에 있어서,
    강화 학습 모델의 상태-동작 값 함수는 상기 미래 보상의 합계의 상기 기대값을 결정하는,
    기대 사용자 인식 경험 품질 최적화 방법.
  3. 제2항에 있어서,
    상기 강화 학습 모델의 제어 정책 학습 모델에 상기 상태-동작 값 함수의 출력을 제공하는 단계와,
    상기 제어 정책 학습 모델에 의해, 상기 상태-동작 값 함수의 상기 출력에 기초하여 상기 복수의 전송 파라미터 중 적어도 하나를 변경하는 단계를 더 포함하는,
    기대 사용자 인식 경험 품질 최적화 방법.
  4. 제1항에 있어서,
    상기 보상은 상기 수신 컴퓨팅 장치에서 수신된 상기 전송된 실시간 통신과 관련된 상기 하나 이상의 수신 파라미터에 기초한 사용자 인식 경험 품질(QoE) 메트릭을 포함하는,
    기대 사용자 인식 경험 품질 최적화 방법.
  5. 제4항에 있어서,
    QoE 머신 러닝 모델로 상기 사용자 인식 QoE를 결정하는 단계를 포함하되,
    상기 QoE 머신 러닝 모델은 상기 수신 컴퓨팅 장치에서 수신된 상기 전송된 실시간 통신의 페이로드를 평가하는,
    기대 사용자 인식 경험 품질 최적화 방법.
  6. 제4항에 있어서,
    QoE 머신 러닝 모델로 상기 사용자 인식 QoE를 결정하는 단계를 포함하되,
    상기 QoE 머신 러닝 모델은,
    상기 수신 컴퓨팅 장치의 네트워크 통계와,
    수신 컴퓨팅 장치 통계와,
    상기 수신 컴퓨팅 장치에서 수신된 상기 전송된 실시간 통신의 사용자 피드백
    중 하나 이상을 평가하는,
    기대 사용자 인식 경험 품질 최적화 방법.
  7. 제1항에 있어서,
    상기 복수의 전송 파라미터 중 상기 적어도 하나는, 송신 레이트 파라미터, 해상도 파라미터, 프레임 레이트 파라미터, 양자화 파라미터(QP), 및 순방향 오류 정정(FEC) 파라미터 중 하나 이상을 포함하는,
    기대 사용자 인식 경험 품질 최적화 방법.
  8. 제1항에 있어서,
    양방향 실시간 통신을 위해, 상기 송신 컴퓨팅 장치는 추가적으로 수신 컴퓨팅 장치로서 동작하며, 상기 수신 컴퓨팅 장치는 추가적으로 송신 컴퓨팅 장치로 동작하는,
    기대 사용자 인식 경험 품질 최적화 방법.
  9. 실시간 통신에서의 기대 사용자 인식 경험 품질(expected user perceived QoE)을 최적화하기 위한 강화 학습 모델 훈련 방법에 있어서,
    상기 방법은,
    송신기의 현재 상태를 결정하고, 상기 현재 상태를 상기 송신기와 통신하는 에이전트에 제공하는 단계와,
    상기 송신기의 현재 동작을 결정하는 단계 - 상기 현재 동작은 상기 에이전트에게 알려져 있으며, 상기 현재 동작은 복수의 전송 파라미터를 포함함 - 와,
    상기 현재 동작에 따라, 상기 송신기로부터 수신기로 실시간 통신을 전송하는 단계 - 상기 실시간 통신은 실시간 오디오 통신 및 실시간 비디오 통신 중 하나 이상을 포함함 - 와,
    상기 수신기로부터, 상기 수신기에서 결정된 보상을, 상기 에이전트에서 수신하는 단계 - 상기 보상은 상기 수신기에서 수신된 상기 실시간 통신과 연관된 하나 이상의 수신 파라미터에 기초함 - 와,
    상기 에이전트에서, 상기 현재 상태, 상기 현재동작 및 상기 보상에 기초하여, 미래 보상의 합계의 기대값을 결정하는 단계와,
    상기 미래 보상의 합계의 상기 기대값을 최대화하기 위해 상기 복수의 전송 파라미터 중 적어도 하나를 변경하는 단계를 포함하는,
    강화 학습 모델 훈련 방법.
  10. 제9항에 있어서,
    상기 송신기, 상기 수신기 및 네트워크는 시뮬레이션되는,
    강화 학습 모델 훈련 방법.
  11. 제10항에 있어서,
    상기 송신기, 상기 수신기 및 상기 네트워크는 불연속 이벤트로 시뮬레이션되는,
    강화 학습 모델 훈련 방법.
  12. 제9항에 있어서,
    네트워크는 송신 컴퓨팅 장치를 포함하는 상기 송신기와, 수신 컴퓨팅 장치를 포함하는 상기 수신기 사이에서 에뮬레이트되는,
    강화 학습 모델 훈련 방법.
  13. 제12항에 있어서,
    상기 송신 컴퓨팅 장치 및 상기 수신 컴퓨팅 장치 각각은 통신 애플리케이션을 실행하며, 상기 네트워크의 하나 이상의 상태는 하나 이상의 사전 결정 파라미터에 따라 제어되는,
    강화 학습 모델 훈련 방법.
  14. 제9항에 있어서,
    상기 송신기는 송신 컴퓨팅 장치를 포함하며, 상기 수신기는 수신 컴퓨팅 장치를 포함하며, 네트워크는 실제 라이브 네트워크를 포함하는,
    강화 학습 모델 훈련 방법.
  15. 제14항에 있어서,
    상기 송신기, 상기 수신기 및 상기 네트워크는 라이브 환경에 있으며,
    상기 방법은, 라이브 실시간 통신 전송에 기초하여 상기 에이전트를 지속적으로 훈련하는 단계를 더 포함하는,
    강화 학습 모델 훈련 방법.
KR1020227000677A 2019-07-10 2020-06-08 실시간 통신에서의 강화 학습 KR20220031001A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/507,933 2019-07-10
US16/507,933 US11373108B2 (en) 2019-07-10 2019-07-10 Reinforcement learning in real-time communications
PCT/US2020/036541 WO2021006972A1 (en) 2019-07-10 2020-06-08 Reinforcement learning in real-time communications

Publications (1)

Publication Number Publication Date
KR20220031001A true KR20220031001A (ko) 2022-03-11

Family

ID=71620506

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227000677A KR20220031001A (ko) 2019-07-10 2020-06-08 실시간 통신에서의 강화 학습

Country Status (6)

Country Link
US (2) US11373108B2 (ko)
EP (1) EP3997853A1 (ko)
JP (1) JP2022540137A (ko)
KR (1) KR20220031001A (ko)
CN (1) CN114128235A (ko)
WO (1) WO2021006972A1 (ko)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11558275B2 (en) * 2020-02-13 2023-01-17 Microsoft Technology Licensing, Llc Reinforcement learning for jitter buffer control
EP4133634A1 (en) * 2020-04-07 2023-02-15 Assia Spe, Llc Systems and methods for remote collaboration
CN114912041A (zh) * 2021-01-29 2022-08-16 伊姆西Ip控股有限责任公司 信息处理方法、电子设备和计算机程序产品
US20220014963A1 (en) * 2021-03-22 2022-01-13 Shu-Ping Yeh Reinforcement learning for multi-access traffic management
US20230048189A1 (en) * 2021-08-16 2023-02-16 Nvidia Corporation Machine learning of encoding parameters for a network using a video encoder
EP4258730A1 (en) * 2022-04-05 2023-10-11 Mavenir Systems, Inc. Method and apparatus for programmable and customized intelligence for traffic steering in 5g networks using open ran architectures
CN115412437A (zh) * 2022-08-17 2022-11-29 Oppo广东移动通信有限公司 数据处理方法及装置、设备、存储介质

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7400588B2 (en) 2003-08-01 2008-07-15 Thomson Licensing Dynamic rate adaptation using neural networks for transmitting video data
WO2010069372A1 (en) * 2008-12-17 2010-06-24 Telefonaktiebolaget Lm Ericsson (Publ) Monitoring media services in telecommunications networks
US9538220B2 (en) * 2009-06-12 2017-01-03 Wi-Lan Labs, Inc. Video streaming quality of experience degradation control using a video quality metric
US8792347B2 (en) * 2012-06-01 2014-07-29 Opera Software Ireland Limited Real-time network monitoring and subscriber identification with an on-demand appliance
EP2747357B1 (en) 2012-12-21 2018-02-07 Alcatel Lucent Robust content-based solution for dynamically optimizing multi-user wireless multimedia transmission
US11044153B1 (en) * 2018-03-07 2021-06-22 Amdocs Development Limited System, method, and computer program for damping a feedback load-change in a communication network managed by an automatic network management system
US10445653B1 (en) * 2014-08-07 2019-10-15 Deepmind Technologies Limited Evaluating reinforcement learning policies
US10465931B2 (en) 2015-01-30 2019-11-05 Schneider Electric It Corporation Automated control and parallel learning HVAC apparatuses, methods and systems
US10530826B2 (en) * 2015-08-27 2020-01-07 Cavium, Llc Method and apparatus for providing a low latency transmission system using adjustable buffers
US20180082213A1 (en) * 2016-09-18 2018-03-22 Newvoicemedia, Ltd. System and method for optimizing communication operations using reinforcement learning
US11062207B2 (en) 2016-11-04 2021-07-13 Raytheon Technologies Corporation Control systems using deep reinforcement learning
US10977551B2 (en) 2016-12-14 2021-04-13 Microsoft Technology Licensing, Llc Hybrid reward architecture for reinforcement learning
US11088947B2 (en) * 2017-05-04 2021-08-10 Liveu Ltd Device, system, and method of pre-processing and data delivery for multi-link communications and for media content
US10234848B2 (en) 2017-05-24 2019-03-19 Relativity Space, Inc. Real-time adaptive control of additive manufacturing processes using machine learning
KR102061345B1 (ko) * 2017-12-18 2019-12-31 경희대학교 산학협력단 강화 학습 기반 암호화 및 복호화 수행 방법 및 이를 수행하는 클라이언트, 서버 시스템
CN108737382B (zh) 2018-04-23 2020-10-09 浙江工业大学 基于Q-Learning的SVC编码HTTP流媒体自适应方法
WO2019222746A1 (en) * 2018-05-18 2019-11-21 Google Llc Reinforcement learning in combinatorial action spaces
CN109255443A (zh) * 2018-08-07 2019-01-22 阿里巴巴集团控股有限公司 训练深度强化学习模型的方法及装置
US10726134B2 (en) * 2018-08-14 2020-07-28 Intel Corporation Techniques to detect perturbation attacks with an actor-critic framework
US11238372B2 (en) * 2018-08-27 2022-02-01 Vmware, Inc. Simulator-training for automated reinforcement-learning-based application-managers
CN109243021B (zh) 2018-08-28 2021-09-17 余利 基于用户体验分析的深度强化学习式智能门锁系统及装置
US11509703B2 (en) * 2018-09-26 2022-11-22 Vmware, Inc. System and method for widescale adaptive bitrate selection
US10581736B1 (en) * 2018-11-13 2020-03-03 At&T Intellectual Property I, L.P. Traffic matrix prediction and fast reroute path computation in packet networks
US20200162535A1 (en) * 2018-11-19 2020-05-21 Zhan Ma Methods and Apparatus for Learning Based Adaptive Real-time Streaming
US11138378B2 (en) * 2019-02-28 2021-10-05 Qualtrics, Llc Intelligently summarizing and presenting textual responses with machine learning
US11362920B2 (en) * 2019-06-13 2022-06-14 Hughes Network Systems, Llc Enhanced network communication using multiple network connections
US11635995B2 (en) * 2019-07-16 2023-04-25 Cisco Technology, Inc. Systems and methods for orchestrating microservice containers interconnected via a service mesh in a multi-cloud environment based on a reinforcement learning policy
US11153375B2 (en) * 2019-09-30 2021-10-19 Adobe Inc. Using reinforcement learning to scale queue-based services
KR20210121842A (ko) * 2020-03-31 2021-10-08 엘지전자 주식회사 강화 학습을 이용한 차량 충전 방법 및 그 시스템
US20210397959A1 (en) * 2020-06-22 2021-12-23 Google Llc Training reinforcement learning agents to learn expert exploration behaviors from demonstrators

Also Published As

Publication number Publication date
JP2022540137A (ja) 2022-09-14
US20220300841A1 (en) 2022-09-22
US11699084B2 (en) 2023-07-11
EP3997853A1 (en) 2022-05-18
US11373108B2 (en) 2022-06-28
WO2021006972A1 (en) 2021-01-14
CN114128235A (zh) 2022-03-01
US20210012227A1 (en) 2021-01-14

Similar Documents

Publication Publication Date Title
KR20220031001A (ko) 실시간 통신에서의 강화 학습
Guo et al. An adaptive wireless virtual reality framework in future wireless networks: A distributed learning approach
CN114449282B (zh) 视频传输控制方法及装置、设备、存储介质
US20200162535A1 (en) Methods and Apparatus for Learning Based Adaptive Real-time Streaming
CN109891935B (zh) 重新定位方法、移动边缘控制节点、移动终端及移动边缘系统
WO2015058656A1 (zh) 直播控制方法,及主播设备
Xu et al. Impact of flow-level dynamics on QoE of video streaming in wireless networks
US20230007328A1 (en) Method and apparatus for managing over-the-top video rate
CN109862377B (zh) 视频传输方法、装置、系统及计算机可读存储介质
US20230138038A1 (en) Reinforcement learning for jitter buffer control
CN113422751B (zh) 基于在线强化学习的流媒体处理方法、装置及电子设备
US20230041242A1 (en) Performing network congestion control utilizing reinforcement learning
Vega et al. Cognitive streaming on android devices
CN114616810A (zh) 网络路径重定向
US20240108980A1 (en) Method, apparatuses and systems directed to adapting user input in cloud gaming
CN114401253A (zh) 一种基于WebRTC的模拟网络中视频传输方法
CN114747225B (zh) 用于选择流送媒体内容项的格式的方法、系统和介质
Jiménez et al. The upstream matters: impact of uplink performance on YouTube 360 live video streaming in LTE
US11648467B2 (en) Streaming channel personalization
Rege et al. Generation of realistic cloud access times for mobile application testing using transfer learning
CN114844872B (zh) 一种云手机动态码流调整方法及系统
Anmulwar Frame Synchronisation for Multi-Source Holographic Teleportation Applications
Nasir Monitoring Network Congestion in Wi-Fi, based on QoE in HTTP Video Steaming Services
Ni et al. A Context‐Aware Adaptive Streaming Media Distribution System in a Heterogeneous Network with Multiple Terminals
Sandhu Frame allocation for smart phone based games using clouds