KR102626555B1

KR102626555B1 - 원격 회의를 위한 방법 및 장치

Info

Publication number: KR102626555B1
Application number: KR1020227016374A
Authority: KR
Inventors: 로히트 압히셰크; 이라지 소다가르
Original assignee: 텐센트 아메리카 엘엘씨
Priority date: 2020-10-06
Filing date: 2021-06-22
Publication date: 2024-01-18
Also published as: KR20230048107A; WO2022076183A1; CN116018782A; EP4165830A1; KR20220080184A; EP4165830A4; JP2023508130A; US11847377B2; EP4042673A1; WO2022076046A1; JP2023538548A; US20220109758A1; US20230229384A1; US11914922B2; US20240069855A1; CN114667727A; US20220107779A1; US11662975B2; EP4042673A4

Abstract

본 개시내용의 양태들은 원격 회의를 위한 방법들 및 장치들을 제공한다. 일부 예들에서, 원격 회의를 위한 장치는 처리 회로를 포함한다. 제1 디바이스의 처리 회로는 제1 오디오를 운반하는 제1 미디어 스트림, 및 제2 오디오를 운반하는 제2 미디어 스트림을 수신한다. 처리 회로는 제1 오디오를 가중하기 위한 제1 오디오 가중치 및 제2 오디오를 가중하기 위한 제2 오디오 가중치를 수신하고, 제1 오디오 가중치에 기반한 가중된 제1 오디오와 제2 오디오 가중치에 기반한 가중된 제2 오디오를 결합함으로써 혼합된 오디오를 생성한다.

Description

원격 회의를 위한 방법 및 장치

참조 포함

본 출원은, 2020년 10월 6일자로 출원된 미국 가출원 제63/088,300호, "NETWORK BASED MEDIA PROCESSING FOR AUDIO AND VIDEO MIXING FOR TELECONFERENCING AND TELEPRESENCE FOR REMOTE TERMINALS", 및 2020년 12월 11일자로 출원된 미국 가출원 제63/124,261호, "AUDIO MIXING METHODS FOR TELECONFERENCING AND TELEPRESENCE FOR REMOTE TERMINALS"에 대한 우선권의 이익을 주장하는, 2021년 5월 21일자로 출원된 미국 특허 출원 제17/327,400호, "METHOD AND APPARATUS FOR TELECONFERENCE"에 대한 우선권의 이익을 주장한다. 이러한 선출원들의 전체 개시내용들은 그 전체가 본 명세서에 참조로 포함된다.

본 개시내용은 일반적으로 원격 회의(teleconference)에 관련된 실시예들을 설명한다.

본 명세서에 제공된 배경 설명은 본 개시내용의 맥락을 일반적으로 제시하기 위한 것이다. 현재 호명된 발명자들의 연구가 이 배경기술 부분에서 설명되는 한 그 연구 뿐만 아니라, 출원 시에 종래 기술로서의 자격이 없을 수 있는 설명의 양태들은, 명백하게도 또는 암시적으로도 본 개시내용에 대한 종래 기술로서 인정되지 않는다.

원격 회의 시스템들은 2개 이상의 원격 위치에서 사용자들이 비디오 스트림들, 오디오 스트림들, 또는 둘 다와 같은 미디어 스트림들을 통해 서로 상호작용적으로 통신할 수 있게 한다. 일부 원격 회의 시스템들은 또한 사용자들이 이미지들, 텍스트, 비디오, 애플리케이션들 등과 같은 디지털 문서들을 교환할 수 있게 한다.

본 개시내용의 양태들은 원격 회의를 위한 방법들 및 장치들을 제공한다. 일부 예들에서, 원격 회의를 위한 장치는 처리 회로를 포함한다. 제1 디바이스(예를 들어, 네트워크 기반 미디어 처리를 위한 사용자 디바이스 또는 서버)의 처리 회로는, 제2 디바이스로부터, 제1 오디오를 운반하는 제1 미디어 스트림, 및 제2 오디오를 운반하는 제2 미디어 스트림을 수신한다. 처리 회로는, 제2 디바이스로부터, 제1 오디오를 가중하기 위한 제1 오디오 가중치(audio weight) 및 제2 오디오를 가중하기 위한 제2 오디오 가중치를 수신하고, 제1 오디오 가중치에 기반한 가중된 제1 오디오와 제2 오디오 가중치에 기반한 가중된 제2 오디오를 결합함으로써 혼합된 오디오를 생성한다.

일부 실시예들에서, 제1 디바이스는 사용자 디바이스이다. 제1 디바이스는, 제1 디바이스와 연관된 스피커를 통해, 혼합된 오디오를 재생할 수 있다.

예에서, 제1 디바이스는 맞춤화 파라미터들에 기반하여 제1 오디오 가중치 및 제2 오디오 가중치를 맞춤화하기 위한 맞춤화 파라미터들을 제2 디바이스에 전송한다.

일부 예들에서, 제1 오디오 가중치 및 제2 오디오 가중치는 제1 오디오 및 제2 오디오의 사운드 강도들에 기반하여 제2 디바이스에 의해 결정된다.

일부 예들에서, 제1 오디오 및 제2 오디오는 오버레이 오디오들(overlay audios)이고, 처리 회로는 제1 오디오 및 제2 오디오의 오버레이 우선순위들에 기반하여 제2 디바이스에 의해 결정되는 제1 오디오 가중치 및 제2 오디오 가중치를 수신한다.

일부 예들에서, 제1 오디오 가중치 및 제2 오디오 가중치는 액티브 스피커(active speaker)의 검출에 기반하여 제2 디바이스에 의해 조정된다.

일부 예들에서, 제1 미디어 스트림은 몰입형 미디어 콘텐츠를 포함하고, 제2 미디어 스트림은 오버레이 미디어 콘텐츠를 포함하고, 제1 오디오 가중치는 제2 오디오 가중치와 상이하다.

일부 실시예들에서, 제1 디바이스는 네트워크 기반 미디어 처리 디바이스이다. 처리 회로는 혼합된 오디오를 제3 미디어 스트림으로 인코딩하고, 디바이스의 인터페이스 회로를 통해, 제3 미디어 스트림을 사용자 디바이스에 전송한다. 일부 예들에서, 처리 회로는 인터페이스 회로를 통해, 제3 미디어 스트림 및 몰입형 미디어 콘텐츠를 포함하는 제4 미디어 스트림을 전송한다. 제3 미디어 스트림은 제4 미디어 스트림에 대한 오버레이이다.

본 개시내용의 일부 양태들에 따르면, 제1 디바이스(예를 들어, 네트워크 기반 미디어 처리를 위한 서버 디바이스)의 처리 회로는 원격 회의 세션의 제1 미디어 콘텐츠를 운반하는 제1 미디어 스트림 및 원격 회의 세션의 제2 미디어 콘텐츠를 운반하는 제2 미디어 스트림을 수신한다. 처리 회로는 제1 미디어 콘텐츠와 제2 미디어 콘텐츠를 혼합하는 제3 미디어 콘텐츠를 생성하고, 전송 회로를 통해, 제3 미디어 콘텐츠를 운반하는 제3 미디어 스트림을 제2 디바이스에 전송한다.

일부 실시예들에서, 제1 디바이스의 처리 회로는 제1 오디오에 할당된 제1 오디오 가중치 및 제2 오디오에 할당된 제2 오디오 가중치에 기반하여 제1 미디어 콘텐츠 내의 제1 오디오와 제2 미디어 콘텐츠 내의 제2 오디오를 혼합하여 제3 오디오를 생성한다. 일부 예들에서, 제1 오디오 가중치 및 제2 오디오 가중치는 제1 미디어 스트림 및 제2 미디어 스트림을 전송하는 호스트 디바이스로부터 수신된다. 일부 예들에서, 제1 디바이스는 제1 오디오 가중치 및 제2 오디오 가중치를 결정할 수 있다.

일부 예들에서, 제1 미디어 스트림은 몰입형 미디어 스트림이고, 제2 미디어 스트림은 오버레이 미디어 스트림이고, 제1 디바이스의 처리 회로는 상이한 값들인 제1 오디오 가중치 및 제2 오디오 가중치에 기반하여 제1 오디오를 제2 오디오와 혼합한다.

일부 예들에서, 제1 미디어 스트림 및 제2 미디어 스트림은 오버레이 미디어 스트림들이고, 제1 디바이스의 처리 회로는 동일한 값의 제1 오디오 가중치 및 제2 오디오 가중치에 기반하여 제1 오디오를 제2 오디오와 혼합한다.

일부 예들에서, 제1 미디어 스트림 및 제2 미디어 스트림은 오버레이 미디어 스트림들이고, 제1 디바이스의 처리 회로는 제1 미디어 스트림 및 제2 미디어 스트림의 오버레이 우선순위들과 연관되는 제1 오디오 가중치 및 제2 오디오 가중치에 기반하여 제1 오디오를 제2 오디오와 혼합한다.

본 개시내용의 일부 양태들에 따르면, 제1 디바이스(예를 들어, 몰입형 미디어 콘텐츠를 생성하는 호스트 디바이스)는 제1 오디오를 운반하는 제1 미디어 스트림 및 제2 오디오를 운반하는 제2 미디어 스트림을 제2 디바이스에 전송할 수 있다. 제1 디바이스는 제1 오디오를 가중하기 위한 제1 오디오 가중치 및 제2 오디오를 가중하기 위한 제2 오디오 가중치를 결정하고, 제1 오디오와 제2 오디오를 혼합하기 위한 제1 오디오 가중치 및 제2 오디오 가중치를 제2 디바이스에 전송할 수 있다.

일부 예들에서, 제1 디바이스는 세션 설명 프로토콜에 기반한 맞춤화 파라미터들을 수신하고, 맞춤화 파라미터들에 기반하여 제1 오디오 가중치 및 제2 오디오 가중치를 결정한다.

일부 예들에서, 제1 디바이스는 제1 오디오 및 제2 오디오의 사운드 강도들에 기반하여 제1 오디오 가중치 및 제2 오디오 가중치를 결정한다.

일부 예들에서, 제1 오디오 및 제2 오디오는 오버레이 오디오들이고, 제1 디바이스는 제1 오디오 및 제2 오디오의 오버레이 우선순위들에 기반하여 제1 오디오 가중치 및 제2 오디오 가중치를 결정한다.

일부 예들에서, 제1 디바이스는 제1 오디오 및 제2 오디오 중 하나에서의 액티브 스피커의 검출에 기반하여 제1 오디오 가중치 및 제2 오디오 가중치를 결정한다.

일부 예들에서, 제1 미디어 스트림은 몰입형 미디어 콘텐츠를 포함하고, 제2 미디어 스트림은 오버레이 미디어 콘텐츠를 포함한다. 제1 디바이스는 제1 오디오 가중치 및 제2 오디오 가중치에 대해 상이한 값들을 결정한다.

본 개시내용의 양태들은 또한 원격 회의를 위해 컴퓨터에 의해 실행될 때 컴퓨터로 하여금 원격 회의를 위한 방법을 수행하게 하는 명령어들을 저장하는 비일시적 컴퓨터 판독가능한 매체를 제공한다.

개시된 주제의 추가의 특징들, 본질 및 다양한 이점들이 다음의 상세한 설명 및 첨부 도면들로부터 더 명백할 것이다.
도 1은 본 개시내용의 일부 예들에 따른 원격 회의 시스템을 도시한다.
도 2는 본 개시내용의 일부 예들에 따른 다른 원격 회의 시스템을 도시한다.
도 3은 본 개시내용의 일부 예들에 따른 다른 원격 회의 시스템을 도시한다.
도 4는 본 개시내용의 일부 예들에 따른 프로세스를 개략적으로 나타내는 흐름도를 도시한다.
도 5는 본 개시내용의 일부 예들에 따른 프로세스를 개략적으로 나타내는 흐름도를 도시한다.
도 6은 본 개시내용의 일부 예들에 따른 프로세스를 개략적으로 나타내는 흐름도를 도시한다.
도 7은 실시예에 따른 컴퓨터 시스템의 개략적인 예시이다.

본 개시내용의 양태들은 원격 회의를 위한 오디오 혼합, 비디오 혼합 등과 같은 미디어 혼합의 기술들을 제공한다. 일부 예들에서, 원격 회의는 오디오 원격 회의일 수 있고, 원격 회의의 참가자들은 오디오 스트림들을 통해 통신한다. 일부 예들에서, 원격 회의는 화상 회의이고, 원격 회의의 참가자들은 비디오 및/또는 오디오를 포함할 수 있는 미디어 스트림들을 통해 통신할 수 있다. 일부 예들에서, 미디어 혼합은 서버 디바이스 등과 같은 네트워크 기반 미디어 처리 요소에 의해 수행된다. 일부 예들에서, 미디어 혼합은 최종 사용자 디바이스(사용자 디바이스라고도 지칭됨)에 의해 수행된다.

본 개시내용의 일부 양태들에 따르면, 미디어 혼합 기술들은 다양한 원격 회의 시스템들에서 수행될 수 있다. 도 1 내지 도 3은 일부 원격 회의 시스템들을 도시한다.

도 1은 본 개시내용의 일부 예들에 따른 원격 회의 시스템(100)을 나타낸 것이다. 원격 회의 시스템(100)은 서브 시스템(110), 및 사용자 디바이스들(120 및 130)과 같은 복수의 사용자 디바이스들을 포함한다. 서브 시스템(110)은 회의실 A와 같은 위치에 설치되어 있다. 일반적으로, 서브 시스템(110)은 사용자 디바이스들(120 및 130)보다 비교적 더 높은 대역폭을 갖도록 구성되어 있고 원격 회의 세션의 호스트 서비스(원격 회의 호출이라고도 함)를 제공할 수 있다. 서브 시스템(110)은 회의실 A에 있는 사용자들 또는 참가자들이 원격 회의 세션에 참가하게 할 수 있고, 사용자 디바이스(120)의 사용자 B 및 사용자 디바이스(130)의 사용자 C와 같은 일부 원격 사용자들이 원격 위치들로부터 원격 회의 세션에 참가하게 할 수 있다. 일부 예들에서, 서브 시스템(110) 및 사용자 디바이스들(120 및 130)은 원격 회의 세션에서의 단말기들로서 지칭된다.

일부 실시예들에서, 서브 시스템(110)은 회의실에 적합한 다양한 오디오, 비디오 및 제어 구성요소들을 포함한다. 다양한 오디오, 비디오 및 제어 구성요소들은 디바이스에 통합될 수 있거나, 또는 적합한 통신 기술들을 통해 함께 결합되는 분산형 구성요소들일 수 있다. 일부 예들에서, 서브 시스템(110)은 비교적 넓은 시야를 갖는 어안 카메라, 전방향성 카메라 등과 같은 광각 카메라(111)를 포함한다. 예를 들어, 전방향성 카메라는 거의 전체 구를 커버하는 시야를 갖도록 구성될 수 있고, 전방향성 카메라에 의해 촬영된 비디오는 전방향성 비디오 또는 360도 비디오로 지칭될 수 있다.

또한, 일부 예들에서, 서브 시스템(110)은 거의 임의의 방향으로부터 음파들을 캡처할 수 있는 전방향성(무지향성이라고도 함) 마이크로폰과 같은 마이크로폰(112)을 포함한다. 서브 시스템(110)은 회의실 A의 사용자들이 회의실 A 이외의 위치들에서 사용자들의 비디오 및 오디오에 대응하는 멀티미디어를 재생할 수 있게 하는 디스플레이 스크린(114), 스피커 디바이스 등을 포함할 수 있다. 예에서, 스피커 디바이스는 마이크로폰(112)과 통합될 수 있거나 또는 별개의 구성요소(도시되지 않음)일 수 있다.

일부 예들에서, 서브 시스템(110)은 제어기(113)를 포함한다. 랩톱 컴퓨팅 디바이스가 제어기(113)로서 도 1에 도시되어 있지만, 데스크톱 컴퓨터, 태블릿 컴퓨터 등과 같은 다른 적합한 디바이스가 제어기(113)로서 이용될 수 있다. 예에서, 제어기(113)는 서브 시스템(110) 내의 다른 구성요소와 함께 통합될 수 있다는 것에 또한 유의한다.

제어기(113)는 서브 시스템(110)의 다양한 제어 기능들을 수행하도록 구성될 수 있다. 예를 들어, 제어기(113)는 원격 회의 세션을 개시하고, 서브 시스템(110)과 사용자 디바이스들(120 및 130) 사이의 통신들을 관리하는데 이용될 수 있다. 예에서, 제어기(113)는 비디오 및/또는 오디오를 운반하기 위한 미디어 스트림을 생성하기 위해 회의실 A에서 캡처된(예컨대, 카메라(111) 및 마이크로폰(112)에 의해 캡처된) 비디오 및/또는 오디오를 인코딩할 수 있고, 미디어 스트림이 사용자 디바이스들(120 및 130)로 전송되게 할 수 있다.

또한, 일부 예들에서, 제어기(113)는 원격 회의 시스템(100) 내의 사용자 디바이스들(예를 들어, 사용자 디바이스들(120 및 130)) 각각으로부터, 각각의 사용자 디바이스들에서 캡처된 오디오 및/또는 비디오를 운반하는 미디어 스트림들을 수신할 수 있다. 제어기(113)는 수신된 미디어 스트림들을 원격 회의 시스템(100) 내의 다른 사용자 디바이스들에 어드레싱 및 전송할 수 있다. 예를 들어, 제어기(113)는 사용자 디바이스(120)로부터 미디어 스트림을 수신하고, 미디어 스트림을 사용자 디바이스(130)에 어드레싱 및 전송할 수 있고, 사용자 디바이스(130)로부터 다른 미디어 스트림을 수신하고, 다른 미디어 스트림을 사용자 디바이스(120)에 어드레싱 및 전송할 수 있다.

또한, 일부 예들에서, 제어기(113)는 오디오, 비디오 혼합 파라미터들 등과 같은 적절한 원격 회의 파라미터들을 결정하고, 원격 회의 파라미터들을 사용자 디바이스들(120 및 130)에 전송할 수 있다.

일부 예들에서, 제어기(113)는 디스플레이 스크린(114), 랩톱 컴퓨팅 디바이스의 스크린 등과 같은 스크린 상의 사용자 인터페이스의 디스플레이가 회의실 A에서의 사용자 입력들을 용이하게 하도록 할 수 있다.

사용자 디바이스들(120 및 130) 각각은, 데스크톱 컴퓨터, 랩톱 컴퓨터, 태블릿 컴퓨터, 웨어러블 디바이스, 핸드헬드 디바이스, 스마트폰, 모바일-유형 디바이스, 임베디드-유형 디바이스, 게임 콘솔, 게임 디바이스, PDA(personal data assistant), 원격통신 디바이스, GPS(global positioning system) 디바이스, 가상 현실(VR) 디바이스, 증강 현실(AR) 디바이스, 이식된 컴퓨팅 디바이스, 자동차 컴퓨터, 네트워크-가능 텔레비전, 사물 인터넷(IoT) 디바이스, 워크 스테이션, 미디어 플레이어, PVR(personal video recorder), 셋톱 박스, 카메라, 컴퓨팅 디바이스에 포함시키기 위한 통합 구성요소(예컨대, 주변 디바이스), 기기, 또는 임의의 다른 종류의 컴퓨팅 디바이스와 같은, 임의의 적절한 원격 회의 가능 장비일 수 있다.

도 1의 예에서, 사용자 디바이스(120)는 사용자 B와 같은 사용자가 원격 회의 세션에 참가할 수 있게 하는 웨어러블 멀티미디어 구성요소들을 포함한다. 예를 들어, 사용자 디바이스(120)는 사용자 B의 머리에 착용될 수 있는 HMD(head mounted display)를 포함한다. HMD는 비디오를 재생하기 위해 사용자 B의 한 눈 또는 두 눈 앞에 디스플레이 광학계를 포함할 수 있다. 다른 예에서, 사용자 디바이스(120)는 사용자 B에 의해 착용될 수 있는 헤드셋(도시되지 않음)을 포함한다. 헤드셋은 사용자 음성을 캡처하기 위한 마이크로폰을 포함할 수 있고 오디오 사운드를 출력하기 위한 하나 또는 두 개의 이어폰을 포함할 수 있다. 사용자 디바이스(120)는 또한 미디어 스트림들을 전송 및/또는 수신할 수 있는 적합한 통신 구성요소들(도시되지 않음)을 포함한다.

도 1의 예에서, 사용자 디바이스(130)는 사용자 C와 같은 사용자가 원격 회의 세션에 참가할 수 있게 하는 통신 구성요소들, 영상화 구성요소들, 오디오 구성요소들 등을 함께 통합시키는 스마트폰 등과 같은 모바일 디바이스일 수 있다.

도 1의 예에서, 서브 시스템(110), 사용자 디바이스(120) 및 사용자 디바이스(130)는 네트워크(101)와 인터페이싱할 수 있는 적절한 통신 구성요소들(도시되지 않음)을 포함한다. 통신 구성요소들은 네트워크(101) 등과 같은 네트워크를 통해 통신들 및/또는 데이터를 전송 및 수신하는 하나 이상의 NIC(network interface controller) 또는 다른 유형들의 트랜시버 회로를 포함할 수 있다.

네트워크(101)는, 예를 들어, 인터넷과 같은 공중 네트워크들, 기관용 및/또는 개인용 인트라넷과 같은 사설 네트워크들, 또는 사설 및 공중 네트워크들의 일부 조합을 포함할 수 있다. 네트워크(108)는 또한, 근거리 네트워크("LAN")들, 광역 네트워크("WAN")들, 위성 네트워크들, 케이블 네트워크들, Wi-Fi 네트워크들, WiMax 네트워크들, 모바일 통신 네트워크들(예를 들어, 3G, 4G, 5G 등) 또는 이들의 임의의 조합을 포함하지만 이들로 제한되지 않는 임의의 유형의 유선 및/또는 무선 네트워크를 포함할 수 있다. 네트워크(101)는, 인터넷 프로토콜("IP"), 전송 제어 프로토콜("TCP"), 사용자 데이터그램 프로토콜("UDP"), 또는 다른 유형들의 프로토콜들과 같은 패킷 기반 및/또는 데이터그램 기반 프로토콜들을 포함하는 통신 프로토콜들을 이용할 수 있다. 또한, 네트워크(101)는 또한, 네트워크 통신들을 용이하게 하고/하거나 네트워크들에 대한 하드웨어 기반을 형성하는 다수의 디바이스들, 예컨대 스위치들, 라우터들, 게이트웨이들, 액세스 포인트들, 방화벽들, 기지국들, 중계기들, 백본 디바이스들 등을 포함할 수 있다. 일부 예들에서, 네트워크(101)는, 무선 액세스 포인트("WAP")와 같은, 무선 네트워크로의 접속을 가능하게 하는 디바이스들을 추가로 포함할 수 있다.

도 1의 예에서, 서브 시스템(110)은 피어-투-피어 기술들을 이용하여 원격 회의 세션을 호스팅할 수 있다. 예를 들어, 사용자 디바이스(120)가 원격 회의 세션에 합류한 후에, 사용자 디바이스(120)는 (예컨대, 서브 시스템(110)에 대한 IP 어드레스를 이용하여) 패킷들을 적절히 어드레싱하고 패킷들을 서브 시스템(110)에 전송할 수 있고, 서브 시스템(110)은 (예컨대, 사용자 디바이스(120)에 대한 IP 어드레스를 이용하여) 패킷들을 적절히 어드레싱하고 패킷들을 사용자 디바이스(120)에 전송할 수 있다. 패킷들은 미디어 스트림들, 확인응답들, 제어 파라미터들 등과 같은 다양한 정보 및 데이터를 운반할 수 있다.

일부 예들에서, 원격 회의 시스템(100)은 몰입형 원격 회의의 원격 회의 세션들을 제공할 수 있다. 예를 들어, 원격 회의 세션 동안, 서브 시스템(110)은 전방향성 카메라 및/또는 전방향성 마이크로폰을 이용하여 전방향성 비디오/오디오와 같은 몰입형 미디어를 생성하도록 구성된다. 예에서, 사용자 디바이스(120) 내의 HMD는 사용자 B의 머리 움직임들을 검출하고, 머리 움직임들에 기반하여 사용자 B의 뷰포트 배향을 결정할 수 있다. 사용자 디바이스(120)는 사용자 B의 뷰포트 배향을 서브 시스템(110)에 전송할 수 있고, 서브 시스템(110)은 차례로, 사용자 B의 뷰포트 배향에 기반하여 맞춤화되는 비디오 스트림(사용자 B의 뷰포트 배향에 기반하여 맞춤화되는 비디오를 운반하는 미디어 스트림), 사용자 B의 뷰포트 배향에 기반하여 맞춤화되는 오디오 스트림(사용자 B의 뷰포트 배향에 기반하여 맞춤화되는 비디오를 운반하는 미디어 스트림) 등과 같은 뷰포트 종속 스트림을 사용자 디바이스(120)에서 재생하기 위해 사용자 디바이스(120)에 전송할 수 있다.

다른 예에서, 사용자 C는 (예를 들어, 스마트폰의 터치 스크린을 이용하여) 사용자 C의 뷰포트 배향을 입력하기 위해 사용자 디바이스(130)를 이용할 수 있다. 사용자 디바이스(130)는 사용자 C의 뷰포트 배향을 서브 시스템(110)에 전송할 수 있고, 서브 시스템(110)은 차례로, 사용자 C의 뷰포트 배향에 기반하여 맞춤화되는 비디오 스트림(사용자 C의 뷰포트 배향에 기반하여 맞춤화되는 비디오를 운반하는 미디어 스트림), 사용자 C의 뷰포트 배향에 기반하여 맞춤화되는 오디오 스트림(사용자 C의 뷰포트 배향에 기반하여 맞춤화되는 오디오를 운반하는 미디어 스트림) 등과 같은 뷰포트 종속 스트림을 사용자 디바이스(130)에서 재생하기 위해 사용자 디바이스(130)에 전송할 수 있다.

유의할 점은, 원격 회의 세션 동안, 사용자 B 및/또는 사용자 C의 뷰포트 배향들이 변할 수 있다는 것이다. 뷰포트 배향들의 변경이 서브 시스템(110)에 통보될 수 있고, 서브 시스템(110)은 사용자 디바이스(120) 및 사용자 디바이스(130)에 각각 전송되는 각각의 뷰포트 종속 스트림들에서의 뷰포트 배향을 조정할 수 있다.

설명의 용이함을 위해, 몰입형 미디어는 전방향성 비디오, 전방향성 오디오와 같은 광각 미디어를 지칭하는데, 그리고 광각 미디어에 기반하여 생성되는 뷰포트 종속 미디어를 지칭하는데 사용된다. 본 개시내용에서, 360도 비디오, 360도 오디오 등과 같은 360도 미디어는 원격 회의를 위한 기술들을 예시하는데 이용되고, 원격 회의 기술들은 360도 미만의 몰입형 미디어에 이용될 수 있다는 점에 유의한다.

도 2는 본 개시내용의 일부 예들에 따른 다른 원격 회의 시스템(200)을 나타낸 것이다. 원격 회의 시스템(200)은 회의실 A 내지 회의실 Z에 각각 설치되어 있는 서브 시스템들(210A 내지 210Z)과 같은 복수의 서브 시스템들 및 사용자 디바이스들(220 및 230)과 같은 복수의 사용자 디바이스들을 포함한다. 서브 시스템들(210A 내지 210Z) 중 하나는 원격 회의 세션을 개시할 수 있고 다른 서브 시스템들 및 사용자 디바이스들, 예컨대 사용자 디바이스(220) 및 사용자 디바이스(230)가 원격 회의 세션에 합류하게 할 수 있으며, 따라서 회의실들 A 내지 Z에서의 사용자들, 사용자 디바이스(220)의 사용자 B 및 사용자 디바이스(230)의 사용자 C와 같은 사용자들이 원격 회의 세션에 참가할 수 있다. 일부 예들에서, 서브 시스템들(210A 내지 210Z) 및 사용자 디바이스들(220 및 230)은 원격 회의 세션에서의 단말기들이라고 지칭된다.

일부 실시예들에서, 서브 시스템들(210A 내지 210Z) 각각은 전술한 서브 시스템(110)과 유사하게 동작한다. 또한, 서브 시스템(210A 내지 210Z) 각각은 서브 시스템(110)에서 이용되는 것들과 동일하거나 동등한 특정 구성요소들을 이용하며, 이러한 구성요소들의 설명은 위에서 제공되었고 명확성을 위해 여기서는 생략될 것이다. 서브 시스템들(210A 내지 210Z)은 서로 상이하게 구성될 수 있음에 유의한다.

사용자 디바이스들(220 및 230)은 위에서 설명된 사용자 디바이스들(120 및 130)과 유사하게 구성되고, 네트워크(201)는 네트워크(101)와 유사하게 구성된다. 이러한 구성요소들의 설명은 위에서 제공되었고 명확성을 위해 여기서는 생략될 것이다.

일부 실시예들에서, 서브 시스템들(210A 내지 210Z) 중 하나는 원격 회의 세션을 개시할 수 있고, 서브 시스템들(210A 내지 210Z)의 다른 것 및 사용자 디바이스들(220 및 230)은 원격 회의 세션에 합류할 수 있다.

본 개시내용의 양태에 따르면, 몰입형 원격 회의의 원격 회의 세션 동안, 서브 시스템들(210A 내지 210Z) 내의 복수의 서브 시스템은 각각의 몰입형 미디어를 생성할 수 있고, 사용자 디바이스들(220 및 230)은 몰입형 미디어를 제공하기 위해 서브 시스템들(210A 내지 210Z) 중 하나를 선택할 수 있다. 일반적으로, 서브 시스템들(210A 내지 210Z)은 비교적 높은 대역폭을 갖도록 구성되고, 몰입형 미디어를 제공하기 위한 호스트로서 각각 동작할 수 있다.

예에서, 사용자 디바이스(220)가 원격 회의 세션에 합류한 후에, 사용자 디바이스(220)는 몰입형 미디어의 호스트로서, 서브 시스템(210A)과 같이 서브 시스템들(210A 내지 210Z) 중 하나를 선택할 수 있다. 사용자 디바이스(220)는 패킷들을 어드레싱하고 패킷들을 서브 시스템(210A)에 전송할 수 있고, 서브 시스템(210A)은 패킷들을 어드레싱하고 패킷들을 사용자 디바이스(220)에 전송할 수 있다. 패킷들은 미디어 스트림, 제어 파라미터들 등과 같은 임의의 적절한 정보/데이터를 포함할 수 있다. 일부 예들에서, 서브 시스템(210A)은 맞춤화된 미디어 정보를 사용자 디바이스(220)에 전송할 수 있다. 사용자 디바이스들(220)은 원격 회의 세션 동안 서브 시스템들(210A 내지 210Z)의 선택을 변경할 수 있다는 점에 유의한다.

예에서, 사용자 디바이스(220) 내의 HMD는 사용자 B의 머리 움직임들을 검출하고, 머리 움직임들에 기반하여 사용자 B의 뷰포트 배향을 결정할 수 있다. 사용자 디바이스(220)는 사용자 B의 뷰포트 배향을 서브 시스템(210A)에 전송할 수 있고, 서브 시스템(210A)은 차례로, 사용자 B의 뷰포트 배향에 기반하여 맞춤화되는 비디오 스트림, 사용자 B의 뷰포트 배향에 기반하여 맞춤화되는 오디오 스트림 등과 같은 뷰포트 종속 미디어 스트림을 사용자 디바이스(220)에서 재생하기 위해 사용자 디바이스(220)에 전송할 수 있다.

다른 예에서, 사용자 디바이스(230)가 원격 회의 세션에 합류한 후에, 사용자 디바이스(230)는 몰입형 미디어의 호스트로서, 서브 시스템(210Z)과 같이 서브 시스템들(210A 내지 210Z) 중 하나를 선택할 수 있다. 사용자 디바이스(230)는 패킷들을 어드레싱하고 패킷들을 서브 시스템(210Z)에 전송할 수 있고, 서브 시스템(210Z)은 패킷들을 어드레싱하고 패킷들을 사용자 디바이스(230)에 전송할 수 있다. 패킷들은 미디어 스트림, 제어 파라미터들 등과 같은 임의의 적절한 정보/데이터를 포함할 수 있다. 일부 예들에서, 서브 시스템(210Z)은 맞춤화된 미디어 정보를 사용자 디바이스(230)에 전송할 수 있다. 사용자 디바이스들(230)은 원격 회의 세션 동안 서브 시스템들(210A 내지 210Z)의 선택을 변경할 수 있다는 점에 유의한다.

다른 예에서, 사용자 C는 (예를 들어, 스마트폰의 터치 스크린을 이용하여) 사용자 C의 뷰포트 배향을 입력하기 위해 사용자 디바이스(230)를 이용할 수 있다. 사용자 디바이스(230)는 사용자 C의 뷰포트 배향을 서브 시스템(210Z)에 전송할 수 있고, 서브 시스템(210Z)은 차례로, 사용자 C의 뷰포트 배향에 기반하여 맞춤화되는 비디오 스트림, 사용자 C의 뷰포트 배향에 기반하여 맞춤화되는 오디오 스트림 등과 같은 뷰포트 종속 미디어 스트림을 사용자 디바이스(230)에서 재생하기 위해 사용자 디바이스(230)에 전송할 수 있다.

유의할 점은, 원격 회의 세션 동안, 사용자(예컨대, 사용자 B, 사용자 C)의 뷰포트 배향들이 변할 수 있다는 것이다. 예를 들어, 사용자 B의 뷰포트 배향의 변경이 사용자 B에 의해, 선택된 서브 시스템에 통보될 수 있고, 사용자 B에 의한 선택된 서브 시스템은 그에 따라 사용자 디바이스(220)에 전송되는 뷰포트 종속 스트림에서의 뷰포트 배향을 조정할 수 있다.

도 3은 본 개시내용의 일부 예들에 따른 다른 원격 회의 시스템(300)을 나타낸 것이다. 원격 회의 시스템(300)은 네트워크 기반 미디어 처리 서버(340), 회의실 A 내지 회의실 Z에 각각 설치되어 있는 서브 시스템들(310A 내지 310Z)과 같은 복수의 서브 시스템들, 및 사용자 디바이스들(320 및 330)과 같은 복수의 사용자 디바이스들을 포함한다. 네트워크 기반 미디어 처리 서버(340)는 원격 회의 세션을 설정할 수 있고, 서브 시스템들(310A 내지 310Z) 및 사용자 디바이스들(320 및 330)과 같은 사용자 디바이스들이 원격 회의 세션에 합류하게 할 수 있으며, 따라서 회의실들 A 내지 Z에서의 사용자들, 사용자 디바이스(320)의 사용자 B 및 사용자 디바이스(330)의 사용자 C와 같은 사용자들이 원격 회의 세션에 참가할 수 있다.

일부 예들에서, 서브 시스템들(310A 내지 310Z) 및 사용자 디바이스들(320 및 330)은 원격 회의 세션에서의 단말기들로서 지칭되고, 네트워크 기반 미디어 처리 서버(340)는 원격 회의 세션에서 단말기들을 브릿징할 수 있다. 일부 예들에서, 네트워크 기반 미디어 처리 서버(340)는 미디어 인식 네트워킹 요소로 지칭된다. 네트워크 기반 미디어 처리 서버(340)는 미디어 리소스 기능들(MRF)을 수행할 수 있고 미디어 제어 유닛(MCU)으로서 미디어 제어 기능들을 수행할 수 있다.

일부 실시예들에서, 서브 시스템들(310A 내지 310Z) 각각은 전술한 서브 시스템(110)과 유사하게 동작한다. 또한, 서브 시스템(310A 내지 310Z) 각각은 서브 시스템(110)에서 이용되는 것들과 동일하거나 동등한 특정 구성요소들을 이용하고, 이러한 구성요소들의 설명은 위에서 제공되었고 명확성을 위해 여기서는 생략될 것이다. 서브 시스템들(310A 내지 310Z)은 서로 상이하게 구성될 수 있음에 유의한다.

사용자 디바이스들(320 및 330)은 전술한 사용자 디바이스들(320 및 330)과 유사하게 구성되고, 네트워크(301)는 네트워크(101)와 유사하게 구성된다. 이러한 구성요소들의 설명은 위에서 제공되었고 명확성을 위해 여기서는 생략될 것이다.

일부 예들에서, 네트워크 기반 미디어 처리 서버(340)는 원격 회의 세션을 개시할 수 있다. 예를 들어, 서브 시스템들(310A 내지 310Z) 중 하나 및 사용자 디바이스들(320 및 330)은 원격 회의 세션을 개시하기 위해 네트워크 기반 미디어 처리 서버(340)에 액세스할 수 있다. 서브 시스템들(310A 내지 310Z) 및 사용자 디바이스들(320 및 330)은 원격 회의 세션에 합류할 수 있다. 또한, 네트워크 기반 미디어 처리 서버(340)는 원격 회의 세션에서 단말기들을 브릿징하기 위한 미디어 관련 기능들을 제공하도록 구성된다. 예를 들어, 서브 시스템들(310A 내지 310Z)은 각각, 비디오 및 오디오와 같은 각각의 미디어 정보를 운반하는 패킷들을 어드레싱하고, 패킷들을 네트워크 기반 미디어 처리 서버(340)에 전송할 수 있다. 네트워크 기반 미디어 처리 서버(340)에 전송되는 미디어 정보는 뷰포트 독립적이라는 점에 유의한다. 예를 들어, 서브 시스템들(310A 내지 310Z)은 각각의 비디오들, 예컨대 전체 360도 비디오들을 네트워크 기반 미디어 처리 서버(340)에 전송할 수 있다. 또한, 네트워크 기반 미디어 처리 서버(340)는 사용자 디바이스들(320 및 330)로부터 뷰포트 배향을 수신하고, 미디어를 맞춤화하기 위해 미디어 처리를 수행하고, 맞춤화된 미디어 정보를 각각의 사용자 디바이스들에 전송할 수 있다.

예에서, 사용자 디바이스(320)가 원격 회의 세션에 합류한 후에, 사용자 디바이스(320)는 패킷들을 어드레싱하고 패킷들을 네트워크 기반 미디어 처리 서버(340)에 전송할 수 있고, 네트워크 기반 미디어 처리 서버(340)는 패킷들을 어드레싱하고 패킷들을 사용자 디바이스(320)에 전송할 수 있다. 패킷들은 미디어 스트림, 제어 파라미터들 등과 같은 임의의 적절한 정보/데이터를 포함할 수 있다. 예에서, 사용자 B는 회의실 내의 서브 시스템으로부터 비디오를 보기 위해 사용자 디바이스(320)를 이용하여 회의실을 선택할 수 있다. 예를 들어, 사용자 B는 회의실 A에 설치된 서브 시스템(310A)으로부터 캡처된 비디오를 보기 위해 사용자 디바이스(320)를 이용하여 회의실 A를 선택할 수 있다. 또한, 사용자 디바이스(320) 내의 HMD는 사용자 B의 머리 움직임들을 검출하고, 머리 움직임들에 기반하여 사용자 B의 뷰포트 배향을 결정할 수 있다. 사용자 디바이스(320)는 회의실 A의 선택 및 사용자 B의 뷰포트 배향을 네트워크 기반 미디어 처리 서버(340)에 전송할 수 있고, 네트워크 기반 미디어 처리 서버(340)는 서브 시스템(310A)으로부터 전송된 미디어를 처리하고, 사용자 B의 뷰포트 배향에 기반하여 맞춤화되는 비디오 스트림, 사용자 B의 뷰포트 배향에 기반하여 맞춤화되는 오디오 스트림 등과 같은 뷰포트 종속 스트림을 사용자 디바이스(320)에서 재생하기 위해 사용자 디바이스(320)에 전송할 수 있다. 일부 예들에서, 사용자 디바이스(320)가 회의실 A를 선택할 때, 사용자 디바이스(320), 서브 시스템(310A) 및 네트워크 기반 미디어 처리 서버(340)는 세션 설명 프로토콜(SDP)에 기반하여 서로 통신할 수 있다.

다른 예에서, 사용자 디바이스(330)가 원격 회의 세션에 합류한 후에, 사용자 디바이스(330)는 패킷들을 어드레싱하고 패킷들을 네트워크 기반 미디어 처리 서버(340)에 전송할 수 있고, 네트워크 기반 미디어 처리 서버(340)는 패킷들을 어드레싱하고 패킷들을 사용자 디바이스(330)에 전송할 수 있다. 패킷들은 미디어 스트림, 제어 파라미터들 등과 같은 임의의 적절한 정보/데이터를 포함할 수 있다. 일부 예들에서, 네트워크 기반 미디어 처리 서버(340)는 맞춤화된 미디어 정보를 사용자 디바이스(330)에 전송할 수 있다. 예를 들어, 사용자 C는 사용자 디바이스(330)를 이용하여 회의실 Z와 같은 회의실의 선택 및 사용자 C의 뷰포트 배향을 (예를 들어, 스마트폰의 터치 스크린을 이용하여) 입력할 수 있다. 사용자 디바이스(330)는 회의실 Z의 선택 정보 및 사용자 C의 뷰포트 배향을 네트워크 기반 미디어 처리 서버(340)에 전송할 수 있고, 네트워크 기반 미디어 처리 서버(340)는 서브 시스템(310Z)으로부터 전송된 미디어를 처리하고, 사용자 C의 뷰포트 배향에 기반하여 맞춤화되는 비디오 스트림, 사용자 C의 뷰포트 배향에 기반하여 맞춤화되는 오디오 스트림 등과 같은 뷰포트 종속 스트림을 사용자 디바이스(330)에서 재생하기 위해 사용자 디바이스(330)에 전송할 수 있다. 일부 예들에서, 사용자 디바이스(330)가 회의실 Z를 선택할 때, 사용자 디바이스(330), 서브 시스템(310Z) 및 네트워크 기반 미디어 처리 서버(340)는 세션 설명 프로토콜(SDP)에 기반하여 서로 통신할 수 있다.

유의할 점은, 원격 회의 세션 동안, 사용자(예컨대, 사용자 B, 사용자 C)의 뷰포트 배향들이 변할 수 있다는 것이다. 예를 들어, 사용자 B의 뷰포트 배향의 변경이 사용자 B에 의해 네트워크 기반 미디어 처리 서버(340)에 통보될 수 있고, 네트워크 기반 미디어 처리 서버(340)는 그에 따라 사용자 디바이스(320)에 전송되는 뷰포트 종속 스트림에서의 뷰포트 배향을 조정할 수 있다.

유의할 점은, 회의실 선택이 원격 회의 세션 동안 변경될 수 있다는 것이다. 예에서, 사용자 디바이스(320), 사용자 디바이스(330) 등과 같은 사용자 디바이스는 액티브 스피커에 기반하여 하나의 회의실로부터 다른 회의실로의 전환을 트리거링할 수 있다. 예를 들어, 액티브 스피커가 회의실 A에 있는 것에 응답하여, 사용자 디바이스(330)는 회의실의 선택을 회의실 A로 전환하기로 결정하고, 회의실 A의 선택을 네트워크 기반 미디어 처리 서버(340)에 전송할 수 있다. 이어서, 네트워크 기반 미디어 처리 서버(340)는 서브 시스템(310A)으로부터 전송된 미디어를 처리하고, 사용자 C의 뷰포트 배향에 기반하여 맞춤화되는 비디오 스트림, 사용자 C의 뷰포트 배향에 기반하여 맞춤화되는 오디오 스트림 등과 같은 뷰포트 종속 스트림을 사용자 디바이스(330)에서 재생하기 위해 사용자 디바이스(330)에 전송할 수 있다.

일부 예들에서, 네트워크 기반 미디어 처리 서버(340)는 임의의 액티브 사용자들을 갖지 않는 임의의 회의실로부터의 비디오 스트림의 수신을 일시정지할 수 있다. 예를 들어, 네트워크 기반 미디어 처리 서버(340)는 회의실 Z에 임의의 액티브 사용자가 없다고 결정하고, 그 후 네트워크 기반 미디어 처리 서버(340)는 서브 시스템(310Z)의 비디오 스트림의 수신을 일시정지할 수 있다.

일부 예들에서, 네트워크 기반 미디어 처리 서버(340)는 분산형 컴퓨팅 리소스들을 포함할 수 있고, 네트워크(301)를 통해 서브 시스템들(310A 내지 310Z) 및 사용자 디바이스들(320 및 330)과 통신할 수 있다. 일부 예들에서, 네트워크 기반 미디어 처리 서버(340)는 하나 이상의 원격 회의 세션의 양태들을 관리하는 일을 맡고 있는 독립적 시스템일 수 있다.

다양한 예들에서, 네트워크 기반 미디어 처리 서버(340)는 리소스들을 공유하고, 부하의 균형을 유지하고, 성능을 증가시키고, 페일-오버(fail-over) 지원 또는 리던던시를 제공하기 위해, 또는 다른 목적들을 위해 클러스터 또는 다른 그룹화된 구성으로 동작하는 하나 이상의 컴퓨팅 디바이스를 포함할 수 있다. 예를 들어, 네트워크 기반 미디어 처리 서버(340)는 전통적인 서버-유형 디바이스들, 데스크톱 컴퓨터-유형 디바이스들, 및/또는 모바일-유형 디바이스들과 같은 다양한 부류들의 디바이스들에 속할 수 있다. 따라서, 단일 유형의 디바이스-서버 유형 디바이스로서 예시되지만, 네트워크 기반 미디어 처리 서버(340)는 다양한 여러 디바이스 유형들을 포함할 수 있고 특정 유형의 디바이스에 제한되지 않는다. 네트워크 기반 미디어 처리 서버(340)는 서버 컴퓨터들, 데스크톱 컴퓨터들, 웹-서버 컴퓨터들, 개인용 컴퓨터들, 모바일 컴퓨터들, 랩톱 컴퓨터들, 태블릿 컴퓨터들, 또는 임의의 다른 종류의 컴퓨팅 디바이스를 나타낼 수 있지만, 이에 제한되지 않는다.

본 개시내용의 양태에 따르면, 네트워크 기반 미디어 처리 서버(340)는 사용자 디바이스(320), 사용자 디바이스(330) 등과 같은 단말기들에서의 처리 부담들을 완화하기 위해 특정 미디어 기능들을 수행할 수 있다. 예를 들어, 사용자 디바이스(320) 및/또는 사용자 디바이스(330)는 제한된 미디어 처리 용량을 가질 수 있거나 복수의 비디오 스트림들을 인코딩 및 렌더링하는데 어려움을 가질 수 있고, 네트워크 기반 미디어 처리 서버(340)는 사용자 디바이스들(320 및 330)에서의 미디어 처리를 오프로드하기 위해 오디오 및 비디오 스트림들 등을 디코딩/인코딩하는 것과 같은 미디어 처리를 수행할 수 있다. 일부 예들에서, 사용자 디바이스들(320 및 330)은 배터리 전력공급형 디바이스들이고, 미디어 처리가 사용자 디바이스들(320 및 330)로부터 네트워크 기반 미디어 처리 서버(340)로 오프로드되었을 때, 사용자 디바이스들(320 및 330)의 배터리 수명이 증가될 수 있다.

상이한 소스들로부터의 미디어 스트림들은 처리 및 혼합될 수 있다. 국제 표준화 기구(ISO) 23090-2에서와 같은 일부 예들에서, 오버레이는 제1 미디어 위에 렌더링된 제2 미디어로서 정의될 수 있다. 본 개시내용의 양태에 따르면, 몰입형 원격 회의의 원격 회의 세션에 대해, 추가 미디어 콘텐츠(예를 들어, 비디오 및/또는 오디오)가 몰입형 미디어 콘텐츠 상에 오버레이될 수 있다. 추가 미디어(또는 미디어 콘텐츠)는 몰입형 미디어(또는 몰입형 미디어 콘텐츠)에 대한 오버레이 미디어(또는 오버레이 미디어 콘텐츠)로서 지칭될 수 있다. 예를 들어, 오버레이 콘텐츠는 전방향성 비디오 또는 이미지 아이템 위에 또는 뷰포트 위에 렌더링된 시각적/오디오 미디어의 단편일 수 있다.

도 2를 예로서 이용하면, 프리젠테이션이 회의실 A 내의 참가자에 의해 공유될 때, 회의실 A 내의 서브 시스템(210A)에 의해 표시되는 것 외에, 프리젠테이션은 또한 서브 시스템(210Z), 사용자 디바이스(220), 사용자 디바이스(230) 등과 같은 다른 참가 당사자들에게 스트림(오버레이 스트림이라고도 지칭됨)으로서 브로드캐스팅된다. 예를 들어, 사용자 디바이스(220)는 회의실 A를 선택하고, 서브 시스템(210A)은 서브 시스템(210A)에 의해 캡처된 360도 비디오와 같은 몰입형 미디어의 제1 스트림 및 오버레이 스트림을 사용자 디바이스(220)에 전송할 수 있다. 사용자 디바이스(220)에서, 프리젠테이션은 서브 시스템(210A)에 의해 캡처된 360도 비디오 위에 오버레이될 수 있다. 다른 예에서, 사용자 디바이스(230)는 회의실 Z를 선택하고, 서브 시스템(210Z)은 서브 시스템(210Z)에 의해 캡처된 360도 비디오와 같은 몰입형 미디어를 운반하는 제1 스트림 및 오버레이 스트림을 사용자 디바이스(220)에 전송할 수 있다. 사용자 디바이스(230)에서, 프리젠테이션은 서브 시스템(210Z)에 의해 캡처된 360도 비디오 위에 오버레이될 수 있다. 프리젠테이션은 일부 예들에서 2D 비디오 위에 오버레이될 수 있다는 점에 유의한다. 프리젠테이션은 일부 예들에서 2D 비디오 위에 오버레이될 수 있다는 점에 유의한다.

다른 시나리오에서, 사용자 C는 원격 스피커일 수 있고, 사용자 C의 말(speech)에 대응하는 오디오를 운반하는 미디어 스트림(오버레이 스트림이라고 지칭됨)은 사용자 디바이스(230)로부터, 예를 들어, 서브 시스템(210Z)으로 전송되고, 서브 시스템(210A)과 같은 다른 참가 당사자들에게 브로드캐스팅될 수 있다. 예를 들어, 사용자 디바이스(220)는 회의실 A를 선택하고, 서브 시스템(210A)은 서브 시스템(210A)에 의해 캡처된 360도 비디오와 같은 몰입형 미디어의 제1 스트림 및 오버레이 스트림을 사용자 디바이스(220)에 전송할 수 있다. 사용자 디바이스(220)에서, 사용자 U의 말에 대응하는 오디오는 서브 시스템(210A)에 의해 캡처된 360도 비디오와 오버레이될 수 있다. 사용자 C의 말에 대응하는 오디오를 운반하는 미디어 스트림은 예에서 오버레이 스트림이라고 지칭될 수 있고, 오디오는 예에서 오버레이 오디오라고 지칭될 수 있다.

본 개시내용의 일부 양태들은 오디오 및 비디오 혼합을 위한 기술들, 및 보다 구체적으로는, 몰입형 스트림 및 하나 이상의 오버레이 스트림과 같은, 복수의 미디어 스트림들의 오디오 및/또는 비디오를 결합시키기 위한 기술들을 제공한다. 본 개시내용의 양태에 따르면, 오디오 및/또는 비디오 혼합은, 네트워크 기반 미디어 처리 서버(340) 등과 같은, 네트워크 기반 미디어 처리 요소에 의해 수행될 수 있고, 사용자 디바이스(120), 사용자 디바이스(130), 사용자 디바이스(220), 사용자 디바이스(230), 사용자 디바이스(320), 사용자 디바이스(330) 등과 같은, 최종 사용자 디바이스에 의해 수행될 수 있다.

도 1의 예에서, 서브 시스템(110)은 미디어(오디오 및/또는 비디오)를 각각 운반하는 복수의 미디어 스트림들을 전송할 수 있는 전송자로서 지칭되고, 사용자 디바이스들(120 및 130)은 수신자들로서 지칭된다. 도 2의 예에서, 서브 시스템들(210A 내지 210Z)은 미디어(오디오 및/또는 비디오)를 각각 운반하는 복수의 미디어 스트림들을 전송할 수 있는 전송자들로서 지칭되고, 사용자 디바이스들(220 및 230)은 수신자들로서 지칭된다. 도 3의 예에서, 네트워크 기반 미디어 처리 서버(340)는 미디어(오디오 및/또는 비디오)를 각각 운반하는 복수의 미디어 스트림들을 전송할 수 있는 전송자로서 지칭되고, 사용자 디바이스들(320 및 330)은 수신자들로서 지칭된다.

본 개시내용의 일부 양태들에 따르면, 오디오 가중치들과 같은 혼합 레벨들은 오디오 혼합을 위해 몰입형 원격 회의에서 오버레이 스트림 및 몰입형 스트림에 할당될 수 있다. 또한, 일부 실시예들에서, 오디오 가중치들은 적절하게 조정될 수 있고, 조정된 오디오 가중치는 오디오 혼합에 이용될 수 있다. 일부 예들에서, 오디오 혼합은 오디오 다운믹싱이라고도 지칭된다.

몰입형 원격 회의와 같은 일부 예들에서, 오버레이 미디어가 몰입형 미디어 상에 중첩될 때, 오버레이 소스, 오버레이 렌더링 유형, 오버레이 렌더링 특성들, 사용자 상호작용 특성들 등과 같은 오버레이 정보가 제공될 필요가 있을 수 있다. 일부 예들에서, 오버레이 소스는 오버레이로서 이용되는 이미지, 오디오 또는 비디오와 같은 미디어를 지정하고, 오버레이 렌더링 유형은 오버레이가 뷰포트 또는 구에 대해 앵커링되는지를 설명하고, 오버레이 렌더링 특성들은 불투명도 레벨, 투명도 레벨 등을 포함할 수 있다.

도 2의 예에서, 각각의 전방향성 카메라들을 갖는 복수의 회의실들이 원격 회의 세션에 참가할 수 있다. 사용자 B와 같은 사용자는, 사용자 디바이스(220)를 통해, 각각의 전방향성 카메라들을 갖는 복수의 회의실들 중 하나와 같은 몰입형 미디어의 소스를 선택할 수 있다. 몰입형 미디어를 갖는 오디오 또는 비디오와 같은 추가적인 미디어를 추가하기 위해, 추가적인 미디어는 몰입형 미디어와는 별도로, 추가적인 미디어를 운반하는 오버레이 스트림으로서, 사용자 디바이스(220)에 전송될 수 있다. 몰입형 미디어는 몰입형 미디어를 운반하는 스트림(몰입형 스트림이라고 지칭됨)으로서 전송될 수 있다. 사용자 디바이스(220)는 몰입형 스트림 및 오버레이 스트림을 수신할 수 있고, 추가적인 미디어를 몰입형 미디어와 오버레이할 수 있다.

본 개시내용의 양태에 따르면, 사용자 디바이스(220), 사용자 디바이스(230) 등과 같은 사용자 디바이스는 원격 회의 세션에서 각각의 오디오들을 운반하는 복수의 미디어 스트림들을 수신할 수 있다. 사용자 디바이스는 미디어 스트림을 디코딩하여 오디오들을 검색하고 미디어 스트림들로부터 디코딩된 오디오들을 혼합할 수 있다. 일부 예들에서, 몰입형 원격 회의의 원격 회의 동안, 선택된 회의실 내의 서브 시스템은 복수의 미디어 스트림들을 전송할 수 있고 복수의 미디어 스트림들에서 운반된 오디오들에 대한 혼합 파라미터들을 제공할 수 있다. 예에서, 사용자 B는, 사용자 디바이스(220)를 통해, 서브 시스템(210A)에 의해 캡처된 360도 몰입형 비디오를 운반하는 몰입형 스트림을 수신하기 위해 회의실 A를 선택할 수 있다. 서브 시스템(210A)은 하나 이상의 오버레이 스트림과 함께 몰입형 스트림을 사용자 디바이스(220)에 전송할 수 있다. 서브 시스템(210A)은, 예를 들어, 세션 설명 프로토콜(SDP)에 기반하여, 몰입형 스트림 및 하나 이상의 오버레이 스트림에서 운반된 오디오들에 대한 혼합 레벨들을 제공할 수 있다. 서브 시스템(210A)은 또한 원격 회의 세션 동안 오디오들의 혼합 레벨들을 업데이트할 수 있고, SDP에 기반하여 업데이트된 혼합 레벨들을 통보하기 위한 신호들을 사용자 디바이스(220)에 전송할 수 있다는 점에 유의한다.

예에서, 오디오에 대한 혼합 레벨들은 오디오 혼합 가중치들을 이용하여 정의된다. 예를 들어, 각각의 오디오들을 운반하는 몰입형 스트림 및 오버레이 스트림(들)을 전송하는 서브 시스템(210A)은 각각의 오디오들에 대한 오디오 혼합 가중치들을 결정할 수 있다. 예에서, 서브 시스템(210A)은 사운드 강도들에 기반하여 디폴트 오디오 혼합 가중치들을 결정한다. 사운드 강도는 단위 영역에 수직인 방향으로 단위 영역당 음파들에 의해 운반되는 전력으로서 정의될 수 있다. 예를 들어, 서브 시스템(210A)의 제어기는 각각의 오디오들의 사운드 강도들을 나타내는 전기 신호들을 수신하고, 전기 신호들에 기반하여, 예컨대 전기 신호들의 신호 레벨들, 전력 레벨들 등에 기반하여 디폴트 오디오 혼합 가중치들을 결정할 수 있다.

다른 예에서, 서브 시스템(210A)은 오버레이 우선순위에 기반하여 오디오 혼합 가중치들을 결정한다. 예를 들어, 서브 시스템(210A)의 제어기는, 몰입형 스트림 및 오버레이 스트림(들)으로부터, 액티브 스피커의 오디오를 운반하는 특정 미디어 스트림을 검출할 수 있다. 서브 시스템(210A)의 제어기는 특정 미디어 스트림에 대해 더 높은 오버레이 우선순위를 결정할 수 있고, 특정 미디어 스트림에 의해 운반되는 오디오에 대해 더 높은 혼합 가중치를 결정할 수 있다.

다른 예에서, 최종 사용자는 오버레이 우선순위를 맞춤화할 수 있다. 예를 들어, 사용자 B는 SDP에 기반하여 맞춤화 파라미터들을 서브 시스템(210A)에 전송하기 위해 사용자 디바이스(220)를 이용할 수 있다. 맞춤화 파라미터들은, 예를 들어, 사용자 B가 포커싱하고자 하는 오디오를 운반하는 특정 미디어 스트림을 나타낼 수 있다. 이어서, 서브 시스템(210A)은 특정 미디어 스트림에 대해 더 높은 오버레이 우선순위를 결정할 수 있고, 특정 미디어 스트림에 의해 운반되는 오디오에 대해 더 높은 혼합 가중치를 결정할 수 있다.

일부 실시예들에서, 오버레이 우선순위가 이용될 때, 서브 시스템(210A)과 같은 전송자는 서브 시스템(210Z)과 같은 다른 전송자들의 모든 오버레이, 및 원격 회의 세션에서의 이러한 오버레이들의 우선순위들에 관해 통보받을 수 있고, 그에 따라 가중치들을 할당한다. 따라서, 사용자 디바이스가 상이한 서브 시스템으로 전환할 때, 오디오 혼합 가중치들이 적절히 결정될 수 있다.

일부 실시예들에서, 오디오 혼합 가중치들은 최종 사용자에 의해 맞춤화될 수 있다. 시나리오에서, 최종 사용자는 미디어 스트림에 의해 운반되는 하나의 특정 오디오를 청취하거나 이에 포커싱하기를 원할 수 있다. 다른 시나리오에서, 디폴트 오디오 혼합 가중치에 의한 다운믹싱된 오디오의 품질이 오디오 레벨, 오디오 품질에서의 변동 또는 불량한 신호 대 잡음비(SNR) 채널들과 같은 이유들로 인해 허용가능하지 않다면, 오디오 혼합 가중치들이 맞춤화될 수 있다. 예에서, 사용자 B가 특정 미디어 스트림으로부터의 오디오에 포커싱하기를 원한다면, 사용자 B는 사용자 디바이스(220)를 이용하여, 오디오 혼합 가중치들을 조정하기 위한 맞춤화 파라미터들을 표시할 수 있다. 예를 들어, 맞춤화 파라미터들은 특정 미디어 스트림 내의 오디오에 대한 오디오 혼합 가중치의 증가를 표시한다. 사용자 디바이스(220)는 SDP에 기반하여 원격 회의 세션 동안 서브 시스템(210A)과 같은, 미디어 스트림들의 전송자에게 맞춤화 파라미터들을 전송할 수 있다. 맞춤화 파라미터들에 기반하여, 서브 시스템(210A)의 제어기는 특정 미디어 스트림 내의 오디오에 대한 오디오 혼합 가중치를 증가시키기 위해 오디오 혼합 가중치들을 조정할 수 있고, 서브 시스템(210A)은 조정된 오디오 혼합 가중치들을 사용자 디바이스(220)에 전송할 수 있다. 따라서, 사용자 디바이스(220)는 조정된 오디오 혼합 가중치들에 기반하여 오디오들을 혼합할 수 있다.

또한, 일부 예들에서, 사용자 디바이스(120), 사용자 디바이스(130), 사용자 디바이스(220), 사용자 디바이스(230), 사용자 디바이스(320), 사용자 디바이스(330) 등과 같은 사용자 디바이스는 사용자의 선호도로 인해 수신된 오디오 혼합 가중치들을 상이한 값들로 덮어쓰기할 수 있다는 점에 유의한다.

도 3의 예에서, 각각의 전방향성 카메라들을 갖는 복수의 회의실들이 원격 회의 세션에 참가할 수 있다. 사용자 B와 같은 사용자는, 사용자 디바이스(320)를 통해, 각각의 전방향성 카메라들을 갖는 복수의 회의실들 중 하나와 같은 몰입형 미디어의 소스를 선택할 수 있다. 몰입형 미디어를 갖는 오디오 또는 비디오와 같은 추가적인 미디어를 추가하기 위해, 추가적인 미디어는 몰입형 미디어와는 별도로, 추가적인 미디어를 운반하는 오버레이 스트림으로서 사용자 디바이스(320)에 전송될 수 있다. 일부 실시예들에서, 네트워크 기반 미디어 처리 서버(340)는 참가 당사자들(예를 들어, 서브 시스템들(310A 내지 310Z))로부터 미디어 스트림들을 수신하고, 원격 회의에서의 사용자 디바이스들(320 및 330)은 미디어 스트림들을 처리하고, 적절한 처리된 미디어 스트림들을 참가 당사자들에게 전송한다. 예를 들어, 네트워크 기반 미디어 처리 서버(340)는 서브 시스템(310A)에서 캡처된 몰입형 미디어를 운반하는 몰입형 스트림 및 오버레이 미디어를 운반하는 오버레이 스트림을 사용자 디바이스(320)에 전송할 수 있다. 사용자 디바이스(320)는 몰입형 스트림 및 오버레이 스트림을 수신할 수 있고, 일부 실시예들에서 오버레이 미디어를 몰입형 미디어와 중첩시킬 수 있다.

본 개시내용의 양태에 따르면, 사용자 디바이스(320), 사용자 디바이스(330) 등과 같은 사용자 디바이스는 원격 회의 세션에서 각각의 오디오들을 운반하는 복수의 미디어 스트림들을 수신할 수 있다. 사용자 디바이스는 미디어 스트림을 디코딩하여 오디오들을 검색하고 미디어 스트림들로부터 디코딩된 오디오들을 혼합할 수 있다. 일부 예들에서, 몰입형 원격 회의의 원격 회의 동안, 네트워크 기반 미디어 처리 서버(340)는 복수의 미디어 스트림들을 최종 사용자 디바이스들에 전송할 수 있다. 예에서, 사용자 B는, 사용자 디바이스(320)를 통해, 서브 시스템(310A)에 의해 캡처된 360도 몰입형 비디오를 운반하는 몰입형 스트림을 수신하기 위해 회의실 A를 선택할 수 있다. 본 개시내용의 양태에 따르면, 음량(loudness)과 같은 오디오 혼합 파라미터들은 몰입형 미디어의 전송자에 의해 정의되거나 최종 사용자에 의해 맞춤화될 수 있다. 일부 예들에서, 서브 시스템(310A)은 하나 이상의 오버레이 스트림에서 운반된 오디오에 대한 혼합 레벨들을, 예를 들어 세션 설명 프로토콜(SDP)에 기반한 신호들을 통해 네트워크 기반 미디어 처리 서버(340)에 제공할 수 있다. 서브 시스템(310A)은 또한 원격 회의 세션 동안 오디오들의 혼합 레벨들을 업데이트할 수 있고, SDP에 기반하여 업데이트된 혼합 레벨들을 통보하기 위한 신호들을 네트워크 기반 미디어 처리 서버(340)에 전송할 수 있다는 점에 유의한다.

예에서, 오디오에 대한 혼합 레벨들은 오디오 혼합 가중치들을 이용하여 정의된다. 예에서, 서브 시스템(310A)은 오디오 혼합 가중치들을 결정하고, SDP에 기반하여 네트워크 기반 미디어 처리 서버(340)에 전송할 수 있다. 예에서, 서브 시스템(310A)은 사운드 강도들에 기반하여 디폴트 오디오 혼합 가중치들을 결정한다.

다른 예에서, 서브 시스템(310A)은 오버레이 우선순위에 기반하여 오디오 혼합 가중치들을 결정한다. 예를 들어, 서브 시스템(310A)은 액티브 스피커의 오디오를 운반하는 특정 미디어 스트림을 검출할 수 있다. 서브 시스템(310A)은 특정 미디어 스트림에 대해 더 높은 오버레이 우선순위를 결정할 수 있고, 특정 미디어 스트림에 의해 운반되는 오디오에 대해 더 높은 혼합 가중치를 결정할 수 있다.

다른 예에서, 최종 사용자는 오버레이 우선순위를 맞춤화할 수 있다. 예를 들어, 사용자 B는 SDP에 기반하여 맞춤화 파라미터들을 서브 시스템(310A)에 전송하기 위해 사용자 디바이스(320)를 이용할 수 있다. 맞춤화 파라미터들은, 예를 들어, 사용자 B가 포커싱하고자 하는 오디오를 운반하는 특정 미디어 스트림을 나타낼 수 있다. 이어서, 서브 시스템(310A)은 특정 미디어 스트림에 대해 더 높은 오버레이 우선순위를 결정할 수 있고, 특정 미디어 스트림에 의해 운반되는 오디오에 대해 더 높은 혼합 가중치를 결정할 수 있다.

일부 실시예들에서, 오버레이 우선순위가 이용될 때, 서브 시스템(310A)과 같은 전송자는 서브 시스템(310Z)과 같은 다른 전송자들의 모든 오버레이, 및 원격 회의 세션에서의 이러한 오버레이들의 우선순위들에 관해 통보받을 수 있고 그에 따라 가중치들을 할당한다. 따라서, 사용자 디바이스가 상이한 서브 시스템으로 전환할 때, 오디오 혼합 가중치들이 적절히 결정될 수 있다.

일부 실시예들에서, 오디오 혼합 가중치들은 최종 사용자에 의해 맞춤화될 수 있다. 시나리오에서, 최종 사용자는 미디어 스트림에 의해 운반되는 하나의 특정 오디오를 청취하거나 이에 포커싱하기를 원할 수 있다. 다른 시나리오에서, 디폴트 오디오 혼합 가중치에 의한 다운믹싱된 오디오의 품질이 오디오 레벨, 오디오 품질에서의 변동 또는 불량한 신호 대 잡음비(SNR) 채널들과 같은 이유들로 인해 허용가능하지 않다면, 오디오 혼합 가중치들이 맞춤화될 수 있다. 예에서, 사용자 B가 특정 미디어 스트림으로부터의 오디오에 포커싱하기를 원한다면, 사용자 B는 사용자 디바이스(320)를 이용하여, 오디오 혼합 가중치들을 조정하기 위한 맞춤화 파라미터들을 표시할 수 있다. 예를 들어, 맞춤화 파라미터들은 특정 미디어 스트림 내의 오디오에 대한 오디오 혼합 가중치의 증가를 표시한다. 사용자 디바이스(320)는 SDP에 기반하여 원격 회의 세션 동안 서브 시스템(310A)과 같은 미디어 스트림들의 전송자에게 맞춤화 파라미터들을 전송할 수 있다. 맞춤화 파라미터들에 기반하여, 서브 시스템(310A)은 특정 미디어 스트림 내의 오디오에 대한 오디오 혼합 가중치를 증가시키기 위해 오디오 혼합 가중치들을 조정할 수 있고, 조정된 오디오 혼합 가중치들을 네트워크 기반 미디어 처리 서버(340)에 전송할 수 있다. 예에서, 네트워크 기반 미디어 처리 서버(340)는 조정된 오디오 혼합 가중치들을 사용자 디바이스(320)에 전송할 수 있다. 따라서, 사용자 디바이스(320)는 조정된 오디오 혼합 가중치들에 기반하여 오디오들을 혼합할 수 있다. 다른 예에서, 네트워크 기반 미디어 처리 서버(340)는 조정된 오디오 혼합 가중치들에 따라 오디오들을 혼합할 수 있다.

예에서, 서브 시스템들(210A 내지 210Z) 중 하나, 서브 시스템들(310A 내지 310Z) 중 하나와 같은 전송자로부터 몰입형 스트림 및 하나 이상의 오버레이 스트림이 제공되고, N은 오버레이 스트림들의 수를 나타내고, 양의 정수이다. 또한, a0은 몰입형 스트림에서 운반되는 오디오를 나타내고; a1-aN은 각각 오버레이 스트림들에서 운반되는 오디오들을 나타내고; r0-rN은 각각 a0-aN에 대한 오디오 혼합 가중치들을 각각 나타낸다. 일부 예들에서, 디폴트 오디오 혼합 가중치들 r0-RN의 합은 1과 동일하다. 혼합된 오디오(오디오 출력이라고도 지칭됨)는 수학식 1에 따라 생성될 수 있다:

[수학식 1]

오디오 출력 =

일부 실시예들에서, 오디오 혼합은 오디오 혼합 가중치들에 기반하여, 예를 들어, 수학식 1에 따라, 사용자 디바이스(220), 사용자 디바이스(230), 사용자 디바이스(320), 사용자 디바이스(330) 등과 같은 최종 사용자 디바이스들에 의해 수행될 수 있다. 최종 사용자 디바이스는 수학식 1에 따라, 수신된 미디어 스트림들을 디코딩하여 오디오들 및 혼합된 오디오들을 검색함으로써 재생을 위한 오디오 출력을 생성할 수 있다.

일부 실시예들에서, 오디오 혼합 또는 오디오 혼합의 일부는 MRF 또는 MCU에 의해, 예를 들어, 네트워크 기반 미디어 처리 서버(340)에 의해 수행될 수 있다. 도 3을 참조하면, 일부 예들에서, 네트워크 기반 미디어 처리 서버(340)는 오디오들을 운반하는 다양한 미디어 스트림들을 수신한다. 또한, 네트워크 기반 미디어 처리 서버(340)는 오디오 혼합 가중치들에 기반한 오디오 혼합과 같은 미디어 혼합을 수행할 수 있다. 서브 시스템(310A) 및 사용자 디바이스(330)를 예들로서 이용하면(예를 들어, 사용자 디바이스(330)가 회의실 A를 선택함), 사용자 디바이스(330)가 저전력 상태에 있거나 제한된 미디어 처리 능력을 가질 때, 오디오 혼합 또는 오디오 혼합의 일부는 네트워크 기반 미디어 처리 서버(340)에 오프로드될 수 있다. 예에서, 네트워크 기반 미디어 처리 서버(340)는 사용자 디바이스(330)에 전송하기 위한 미디어 스트림들 및 미디어 스트림들에 오디오들을 혼합하기 위한 오디오 혼합 가중치들을 수신할 수 있다. 그 후, 네트워크 기반 미디어 처리 서버(340)는 미디어 스트림들을 디코딩하여 수학식 1에 따라 오디오들 및 혼합된 오디오들을 검색하여 혼합된 오디오를 생성할 수 있다. 네트워크 기반 미디어 처리 서버(340)는 미디어 스트림들의 비디오 부분들을 혼합된 비디오로 적절히 혼합할 수 있다는 점에 유의한다. 네트워크 기반 미디어 처리 서버(340)는 혼합된 오디오 및/또는 혼합된 비디오를 다른 스트림(혼합된 미디어 스트림이라고 지칭됨)에서 인코딩하고 혼합된 미디어 스트림을 사용자 디바이스(330)에 전송할 수 있다. 사용자 디바이스(330)는 혼합된 미디어 스트림을 수신하고, 혼합된 미디어 스트림을 디코딩하여 혼합된 오디오 및/또는 혼합된 비디오를 검색하고 혼합된 오디오/비디오를 재생할 수 있다.

다른 예에서, 네트워크 기반 미디어 처리 서버(340)는 사용자 디바이스(330)에 미디어 콘텐츠를 제공하기 위한 몰입형 미디어 스트림 및 복수의 오버레이 미디어 스트림들, 및 몰입형 미디어 스트림 및 복수의 오버레이 미디어 스트림들에서의 오디오들을 혼합하기 위한 오디오 혼합 가중치들을 수신한다. 복수의 오버레이 미디어 스트림들이 전송될 필요가 있을 때, 네트워크 기반 미디어 처리 서버(340)는, 예를 들어, 수학식 2에 따라, 복수의 오버레이 미디어 스트림들을 디코딩하여 오디오들을 검색하고 오디오들을 혼합함으로써 혼합된 오버레이 오디오를 생성할 수 있다:

[수학식 2]

혼합된 오버레이 오디오 =

네트워크 기반 미디어 처리 서버(340)는 오버레이 미디어 스트림들의 비디오 부분들을 혼합된 오버레이 비디오로 적절히 혼합할 수 있다는 점에 유의한다. 네트워크 기반 미디어 처리 서버(340)는 혼합된 오버레이 오디오 및/또는 혼합된 오버레이 비디오를 다른 스트림(혼합된 오버레이 미디어 스트림이라고 지칭됨)에서 인코딩하고, 몰입형 미디어 스트림과 함께 혼합된 오버레이 미디어 스트림을 사용자 디바이스(330)에 전송할 수 있다. 사용자 디바이스(330)는 몰입형 미디어 스트림 및 혼합된 미디어 스트림을 수신하고, 몰입형 미디어 스트림 및 혼합된 미디어 스트림을 디코딩하여 몰입형 미디어의 오디오(a0), 혼합된 오버레이 오디오 및/또는 혼합된 오버레이 비디오를 검색할 수 있다. 몰입형 미디어의 오디오(a0) 및 혼합된 오버레이 오디오에 기반하여, 사용자 디바이스(330)는, 예를 들어, 수학식 3에 따라 재생을 위한 혼합된 오디오(오디오 출력이라고도 지칭됨)를 생성할 수 있다:

[수학식 3]

오디오 출력 = + 혼합된 오버레이 오디오

예에서, 오버레이 미디어 스트림들 또는 몰입형 미디어 스트림으로부터의 임의의 오디오들로부터 배경 잡음 또는 교란이 존재하지 않을 때(몰입형 미디어 스트림으로부터의 오디오는 일부 예들에서 배경으로 지칭될 수 있음), 또는 모든 미디어 스트림들의 오디오 강도 레벨이 거의 동일하거나 또는 변동이 비교적 작을 때, 예컨대 미리 정의된 임계값보다 작을 때, 오디오 혼합은 (예를 들어, 각각 1의 동일한 혼합 가중치들을 이용하여) 오버레이 미디어 스트림들 및 몰입형 미디어 스트림과 같은 모든 스트림들로부터 검색되는 오디오들을 함께 추가하여 집성된 오디오를 생성함으로써 수행될 수 있고, 집성된 오디오는 정규화될 수 있다(예를 들어, 오디오들의 수로 나누어질 수 있다). 이 예에서의 오디오 혼합은 사용자 디바이스(120), 사용자 디바이스(130), 사용자 디바이스(220), 사용자 디바이스(230), 사용자 디바이스(320), 사용자 디바이스(330), 및 네트워크 기반 미디어 처리 서버(340)와 같은 최종 사용자 디바이스에 의해 수행될 수 있다는 점에 유의한다.

일부 실시예들에서, 오디오 가중치들은 혼합을 위해 오디오들의 일부분을 선택하는데 이용될 수 있다. 예에서, 많은 수의 오디오들이 집성된 다음 정규화될 때, 하나의 오디오 스트림을 다른 오디오 스트림과 구별하는 것이 어려울 수 있다. 오디오 가중치들을 이용하여, 선택된 수의 오디오들이 집성된 다음 정규화될 수 있다. 예를 들어, 오디오의 총 수가 10일 때, 5개의 선택된 오디오에 대한 오디오 가중치들은 0.2일 수 있고, 5개의 선택되지 않은 오디오에 대한 오디오 가중치들은 0일 수 있다. 오디오들의 선택은 알고리즘에 의해 정의된 혼합 가중치에 기반할 수 있거나 오버레이 우선순위에 기반할 수 있다는 점에 유의한다.

일부 실시예들에서, 사용자 디바이스는 각각의 오디오 혼합 가중치들을 변경하거나 심지어 미디어 스트림들의 서브세트를 이용하여 오디오들을 검색하고 오디오들을 혼합함으로써 혼합될 미디어 스트림들로부터 오디오들의 선택을 변경하도록 선택할 수 있다.

일부 실시예들에서, 미디어 스트림들 내의 오디오들의 사운드 강도에서의 변화가 클 때, 오버레이 오디오 및 몰입형 오디오에 대한 오디오 혼합 가중치들은 동일한 레벨로 설정될 수 있다.

일부 실시예들에서, 사용자 디바이스는 제한된 리소스 용량을 갖거나 상이한 회의실들로부터의 오디오들을 구별하는데 어려움을 가지며, 따라서 다운믹싱될 오디오들의 수가 제한될 수 있다. 이러한 제한이 적용되는 경우, 전송자 디바이스, 예컨대 서브 시스템들(210A 내지 210Z), 네트워크 기반 미디어 처리 서버(340)는 사운드 강도 또는 오버레이 우선순위에 기반하여 오디오 다운믹싱될 미디어 스트림들을 선택할 수 있다. 사용자 디바이스는 SDP에 기반하여 원격 회의 세션 동안 그 선택을 변경하기 위해 맞춤화 파라미터들을 전송할 수 있다는 점에 유의한다.

일부 시나리오들에서, 원격 회의 세션 동안, 말하는/제시하는 사람이 포커싱될 필요가 있다. 따라서, 말하는 사람의 오디오를 갖는 미디어 스트림에는 비교적 큰 오디오 혼합 가중치가 할당될 수 있고, 다른 미디어 스트림들 내의 다른 오디오들에 대한 오디오 혼합 가중치들이 감소될 수 있다.

일부 시나리오들에서, 원격 사용자가 제시하고 있을 때, 몰입형 미디어 스트림 내의 몰입형 오디오는 배경 잡음을 갖는다. 서브 시스템들(210A 내지 210Z), 네트워크 기반 미디어 처리 서버(340)와 같은 전송자는 몰입형 오디오에 대한 오디오 혼합 가중치를 원격 사용자와 연관된 오버레이 오디오보다 작게 감소시킬 수 있다. 이것은 원격 회의 세션 동안 오디오 가중치들을 감소시킴으로써 이미 세션에 있는 최종 사용자에 의해 맞춤화될 수 있지만, 전송자로부터 제공되는 디폴트 오디오 혼합 가중치를 변경하는 것은 회의에 막 합류한 새로운 원격 사용자가 전송자로부터의 오디오 스트림들에 대한 디폴트 오디오 혼합 가중치들을 획득하여 양호한 사운드 품질로 오디오들을 다운믹싱하게 할 수 있다.

실시예에서, 오디오 혼합 가중치들과 같은 오디오 혼합 파라미터들은 서브 시스템들(310A 내지 310Z) 등과 같은 전송자 디바이스에 의해 정의되고, 전송자 디바이스는 오디오 스트림들을 동일한 음량 레벨로 설정하기 위한 오디오 혼합 가중치들을 결정할 수 있다. 오디오 혼합 파라미터들(오디오 혼합 가중치들)은 SDP 시그널링을 통해 전송자 디바이스로부터 네트워크 기반 미디어 처리 서버(340)로 전송될 수 있다.

다른 실시예에서, 서브 시스템들(310A 내지 310Z) 등과 같은 전송자 디바이스는 몰입형 미디어 콘텐츠 내의 오디오에 대한 오디오 혼합 가중치를 오버레이 미디어 스트림들 내의 다른 오버레이 오디오들에 대한 오디오 혼합 가중치들보다 높게 설정할 수 있다. 예에서, 오버레이 오디오들은 동일한 오디오 혼합 가중치들을 가질 수 있다. 오디오 혼합 파라미터들(오디오 혼합 가중치들)은 SDP 시그널링을 통해 전송자 디바이스로부터 네트워크 기반 미디어 처리 서버(340)로 전송될 수 있다.

다른 실시예에서, 서브 시스템들(310A 내지 310Z)과 같은 전송자 디바이스는 몰입형 미디어 콘텐츠 내의 오디오에 대한 오디오 혼합 가중치를 오버레이 미디어 스트림들 내의 오버레이 오디오들에 대한 오디오 혼합 가중치들보다 높게 설정할 수 있다. 오디오 혼합 파라미터들(오디오 혼합 가중치들)은 SDP 시그널링을 통해 전송자 디바이스로부터 네트워크 기반 미디어 처리 서버(340)로 전송될 수 있다.

일부 예들에서, 예를 들어, 최종 사용자 디바이스들이 충분한 처리 용량을 갖지 않을 수 있을 때, 네트워크 기반 미디어 처리 서버(340)는 동일한 오디오 스트림들을 복수의 최종 사용자 디바이스들에 전송할 수 있다.

일부 예들에서, 예를 들어, 오디오 혼합 파라미터들이 사용자 정의되거나 사용자 맞춤화될 때, 개별 오디오 스트림들은 각각의 사용자 디바이스에 대해 전송자 디바이스에 의해 또는 네트워크 기반 미디어 처리 서버(340)에 의해 인코딩될 수 있다. 예에서, 오디오 혼합 파라미터들은 사용자의 시야(FoV)에 기반할 수 있고, 예를 들어, FoV 내에 있는 오버레이들에 대한 오디오 스트림들은 다른 스트림들에 비해 더 큰 음량으로 혼합될 수 있다. 오디오 혼합 파라미터들(오디오 혼합 가중치들)은 SDP 시그널링을 통해 전송자 디바이스, 사용자 디바이스 및 네트워크 기반 미디어 처리 서버(340)에 의해 협상될 수 있다.

실시예에서, 예를 들어, 최종 디바이스가 인터넷 프로토콜 멀티미디어 서브시스템(MTSI)을 위한 멀티미디어 전화 서비스를 지원하지만, MTSI ITT4RT(immersive teleconferencing and telepresence for remote terminals)를 지원하지 않을 때, 네트워크 기반 미디어 처리 서버(340)는 오디오들 및 비디오들 둘 다를 혼합하여 혼합된 오디오 및 비디오를 생성하고, 혼합된 오디오 및 비디오를 운반하는 미디어 스트림을 최종 사용자 디바이스에 제공함으로써, MTSI 단말기들에 대한 하위 호환성을 제공할 수 있다.

다른 실시예에서, 예를 들어, 최종 디바이스의 능력이 제한될 때, 네트워크 기반 미디어 처리 서버(340)는 오디오들 및 비디오들 둘 다를 혼합하여 혼합된 오디오 및 비디오를 생성하고, 혼합된 오디오 및 비디오를 운반하는 미디어 스트림을 최종 사용자 디바이스에 제공할 수 있다.

다른 실시예에서, 네트워크 기반 미디어 처리 서버(340)가 제한된 능력들을 갖고, 일부 최종 사용자 디바이스들이 제한된 능력들을 갖는 MSTI 디바이스들일 때, 네트워크 기반 미디어 처리 서버(340)는 동일한 전송자 디바이스로부터의 오디오들 및 비디오들 둘 다를 혼합하여 혼합된 오디오 및 비디오를 생성하고, 혼합된 오디오 및 비디오를 운반하는 미디어 스트림을 제한된 능력들을 갖는 MSTI 디바이스들인 최종 사용자 디바이스들에 제공할 수 있다.

다른 실시예에서, 네트워크 기반 미디어 처리 서버(340)는 SDP 시그널링을 이용하여 오디오 혼합을 위한 공통 구성의 세트를 MSTI 디바이스들인 최종 사용자 디바이스들의 전부 또는 서브세트와 협상할 수 있다. 공통 구성의 세트는 몰입형 미디어 및 다양한 오버레이 미디어의 단일 비디오 조성을 위한 것이다. 그 후, 공통 구성의 세트에 기반하여, 네트워크 기반 미디어 처리 서버(340)는 오디오 혼합 및/또는 비디오 혼합을 수행하여 혼합된 오디오 및 비디오를 생성하고, 혼합된 오디오 및 비디오를 운반하는 미디어 스트림을 MSTI 디바이스들인 최종 디바이스들의 전부 또는 서브세트에 제공할 수 있다.

도 4는 본 개시내용의 실시예에 따른 프로세스(400)를 개략적으로 나타내는 흐름도를 도시한다. 다양한 실시예들에서, 프로세스(400)는 사용자 디바이스(120), 사용자 디바이스(130), 사용자 디바이스(220), 사용자 디바이스(230), 사용자 디바이스(320), 사용자 디바이스(330), 네트워크 기반 미디어 처리 서버(340) 등 내의 처리 회로와 같은 디바이스 내의 처리 회로에 의해 실행될 수 있다. 일부 실시예들에서, 프로세스(400)는 소프트웨어 명령어들로 구현되고, 따라서 처리 회로가 소프트웨어 명령어들을 실행할 때, 처리 회로는 프로세스(400)를 수행한다. 프로세스는 (S401)에서 시작하고 (S410)으로 진행한다.

(S410)에서, 제1 오디오를 운반하는 제1 미디어 스트림 및 제2 오디오를 운반하는 제2 미디어 스트림이 수신된다.

(S420)에서, 제1 오디오를 가중하기 위한 제1 오디오 가중치 및 제2 오디오를 가중하기 위한 제2 오디오 가중치가 수신된다.

(S430)에서, 제1 오디오 가중치에 기반한 가중된 제1 오디오 및 제2 오디오 가중치에 기반한 가중된 제2 오디오가 결합되어 혼합된 오디오를 생성한다.

일부 예들에서, 디바이스는 사용자 디바이스이고, 사용자 디바이스의 처리 회로는 예를 들어, 몰입형 콘텐츠에 대한 호스트 디바이스(예를 들어, 서브 시스템들(110, 210A 내지 210Z, 310A 내지 310Z))에 의해 결정되는 제1 오디오 가중치 및 제2 오디오 가중치를 수신하고, 사용자 디바이스는 사용자 디바이스와 연관된 스피커를 통해 혼합 오디오를 재생할 수 있다. 예에서, 오디오 가중치들을 맞춤화하기 위해, 사용자 디바이스는 맞춤화 파라미터들에 기반하여 제1 오디오 가중치 및 제2 오디오 가중치를 맞춤화하기 위한 맞춤화 파라미터들을 호스트 디바이스에 전송할 수 있다.

일부 예들에서, 호스트 디바이스는 제1 오디오 및 제2 오디오의 사운드 강도들에 기반하여 제1 오디오 가중치 및 제2 오디오 가중치를 결정할 수 있다.

일부 예들에서, 제1 오디오 및 제2 오디오는 오버레이 오디오들이고, 호스트 디바이스는 제1 오디오 및 제2 오디오의 오버레이 우선순위들에 기반하여 제1 오디오 가중치 및 제2 오디오 가중치를 결정할 수 있다.

일부 예들에서, 호스트 디바이스는 액티브 스피커의 검출에 기반하여 제1 오디오 가중치 및 제2 오디오 가중치를 결정할 수 있다.

일부 예들에서, 제1 미디어 스트림은 몰입형 미디어 콘텐츠를 포함하고, 제2 미디어 스트림은 오버레이 미디어 콘텐츠에 대응하고, 호스트 디바이스는 제1 오디오 가중치를 제2 오디오 가중치와 상이한 것으로 결정할 수 있다.

일부 실시예들에서, 프로세스(400)는 사용자 디바이스들로부터 오프로드된 미디어 처리를 수행하는 네트워크 기반 미디어 처리 서버에 의해 수행된다. 네트워크 기반 미디어 처리 서버는 혼합된 오디오를 제3 미디어 스트림으로 인코딩하고, 제3 미디어 스트림을 사용자 디바이스에 전송할 수 있다. 일부 예들에서, 프로세스(400)는 사용자 디바이스들로부터 오프로드된 오버레이 미디어 처리를 수행하는 네트워크 기반 미디어 처리 서버에 의해 수행된다. 네트워크 기반 미디어 처리 서버는 제3 미디어 스트림 및 몰입형 미디어 콘텐츠를 포함하는 제4 미디어 스트림을 전송할 수 있다. 제3 미디어 스트림은 몰입형 미디어 콘텐츠에 대한 오버레이 미디어 콘텐츠를 포함한다.

다음으로, 프로세스는 (S499)로 진행하여 종료한다.

도 5는 본 개시내용의 실시예에 따른 프로세스(500)를 개략적으로 나타내는 흐름도를 도시한다. 다양한 실시예들에서, 프로세스(500)는 네트워크 기반 미디어 처리 서버(340) 등과 같은 네트워크 기반 미디어 처리를 위한 디바이스 내의 처리 회로에 의해 실행될 수 있다. 일부 실시예들에서, 프로세스(500)는 소프트웨어 명령어들로 구현되고, 따라서 처리 회로가 소프트웨어 명령어들을 실행할 때, 처리 회로는 프로세스(500)를 수행한다. 프로세스는 (S501)에서 시작하고 (S510)으로 진행한다.

(S510)에서, 제1 미디어 콘텐츠를 운반하는 제1 미디어 스트림 및 제2 미디어 콘텐츠를 운반하는 제2 미디어 스트림이 수신된다.

(S520)에서, 제1 미디어 콘텐츠와 제2 미디어 콘텐츠를 혼합하는 제3 미디어 콘텐츠가 생성된다.

일부 예들에서, 제1 미디어 콘텐츠 내의 제1 오디오는 제2 미디어 콘텐츠 내의 제2 오디오와 혼합되어 제3 오디오를 생성한다. 제1 오디오는 제1 오디오에 할당된 제1 오디오 가중치에 기반하여 가중되고, 제2 오디오는 제2 오디오에 할당된 제2 오디오 가중치에 기반하여 가중된다. 예에서, 제1 오디오 가중치 및 제2 오디오 가중치는 몰입형 미디어 콘텐츠를 제공하는 호스트 디바이스에 의해 결정되고 호스트 디바이스로부터 네트워크 기반 미디어 처리 서버로 전송된다.

예에서, 제1 미디어 스트림은 몰입형 미디어 스트림이고, 제2 미디어 스트림은 오버레이 미디어 스트림이고, 이어서 제1 오디오 가중치 및 제2 오디오 가중치는 상이한 값들이다.

예에서, 제1 미디어 스트림 및 제2 미디어 스트림은 오버레이 미디어 스트림들이고, 제1 오디오 가중치 및 제2 오디오 가중치는 동일한 값이다.

다른 예에서, 제1 미디어 스트림 및 제2 미디어 스트림은 오버레이 미디어 스트림들이고, 제1 오디오 가중치 및 제2 오디오 가중치는 제1 미디어 스트림 및 제2 미디어 스트림의 오버레이 우선순위들에 의존한다.

(S530)에서, 제3 미디어 콘텐츠를 운반하는 제3 미디어 스트림이 사용자 디바이스에 전송된다.

그 후, 프로세스는 (S599)로 진행하여 종료한다.

도 6은 본 개시내용의 실시예에 따른 프로세스(600)를 개략적으로 나타내는 흐름도를 도시한다. 다양한 실시예들에서, 프로세스(600)는 서브 시스템들(110, 210A 내지 210Z, 310A 내지 310Z) 등 내의 처리 회로와 같은, 몰입형 미디어 콘텐츠에 대한 호스트 디바이스 내의 처리 회로에 의해 실행될 수 있다. 일부 실시예들에서, 프로세스(600)는 소프트웨어 명령어들로 구현되고, 따라서 처리 회로가 소프트웨어 명령어들을 실행할 때, 처리 회로는 프로세스(600)를 수행한다. 프로세스는 (S601)에서 시작하고 (S610)으로 진행한다.

(S610)에서, 제1 오디오를 운반하는 제1 미디어 스트림 및 제2 오디오를 운반하는 제2 미디어 스트림이 전송된다.

(S620)에서, 제1 오디오를 가중하기 위한 제1 오디오 가중치 및 제2 오디오를 가중하기 위한 제2 오디오 가중치가 결정된다.

일부 예들에서, 호스트 디바이스는 세션 설명 프로토콜에 기반한 맞춤화 파라미터들을 수신하고, 맞춤화 파라미터들에 기반하여 제1 오디오 가중치 및 제2 오디오 가중치를 결정한다.

일부 예들에서, 호스트 디바이스는 제1 오디오 및 제2 오디오의 사운드 강도들에 기반하여 제1 오디오 가중치 및 제2 오디오 가중치를 결정한다.

일부 예들에서, 호스트 디바이스는 제1 오디오 및 제2 오디오 중 하나에서의 액티브 스피커의 검출에 기반하여 제1 오디오 가중치 및 제2 오디오 가중치를 결정한다.

일부 예들에서, 제1 미디어 스트림은 몰입형 미디어 콘텐츠를 포함하고, 제2 미디어 스트림은 오버레이 미디어 콘텐츠를 포함하고, 호스트 디바이스는 제1 오디오 가중치 및 제2 오디오 가중치에 대해 상이한 값들을 결정한다.

(S630)에서, 제1 오디오와 제2 오디오를 혼합하기 위한 제1 오디오 가중치 및 제2 오디오 가중치가 전송된다.

그 후, 프로세스는 (S699)로 진행하여 종료한다.

위에서 설명된 기술들은 컴퓨터 판독가능한 명령어들을 이용하여 컴퓨터 소프트웨어로서 구현되고 하나 이상의 컴퓨터 판독가능한 매체에 물리적으로 저장될 수 있다. 예를 들어, 도 7은 개시된 주제의 특정 실시예들을 구현하기에 적합한 컴퓨터 시스템(700)을 도시한다.

컴퓨터 소프트웨어는, 하나 이상의 컴퓨터 중앙 처리 유닛(CPU) 등에 의해, 직접, 또는 해석, 마이크로-코드 실행 등을 통해 실행될 수 있는 명령어들을 포함하는 코드를 생성하기 위해 어셈블리, 컴파일(compilation), 링킹(linking), 또는 유사한 메커니즘들에 의해 처리될 수 있는 임의의 적절한 머신 코드 또는 컴퓨터 언어를 이용하여 코딩될 수 있다.

명령어들은, 예를 들어, 개인용 컴퓨터들, 태블릿 컴퓨터들, 서버들, 스마트폰들, 게임 디바이스들, 사물 인터넷 디바이스들 등을 포함하여, 다양한 유형의 컴퓨터들 또는 그 구성요소들 상에서 실행될 수 있다.

컴퓨터 시스템(700)에 대해 도 7에 도시된 구성요소들은 본질상 예시적인 것이고, 본 개시내용의 실시예들을 구현하는 컴퓨터 소프트웨어의 이용 또는 기능의 범위에 대한 임의의 제한을 암시하도록 의도되지 않는다. 구성요소들의 구성이 컴퓨터 시스템(700)의 예시적인 실시예에서 예시된 구성요소들 중 임의의 하나 또는 이들의 조합과 관련하여 임의의 종속성 또는 요건을 갖는 것으로 해석되어서도 안된다.

컴퓨터 시스템(700)은 특정 인간 인터페이스 입력 디바이스들을 포함할 수 있다. 이러한 인간 인터페이스 입력 디바이스는, 예를 들어, 촉각 입력(예를 들어, 키스트로크(keystroke)들, 스와이프(swipe)들, 데이터 글러브 움직임(data glove movement)들), 오디오 입력(예를 들어, 음성, 손뼉(clapping)), 시각적 입력(예를 들어, 제스처들), 후각적 입력(묘사되지 않음)을 통한 하나 이상의 인간 사용자에 의한 입력에 응답할 수 있다. 인간 인터페이스 디바이스들은 또한 오디오(예를 들어, 말, 음악, 주변 사운드), 이미지들(예를 들어, 스캐닝된 이미지들, 스틸 이미지 카메라로부터 획득된 사진 이미지들), 비디오(예를 들어, 2차원 비디오, 입체적 비디오를 포함하는 3차원 비디오)와 같은, 인간에 의한 의식적인 입력과 반드시 직접적으로 관련되는 것은 아닌 특정 미디어를 캡처하는데 이용될 수 있다.

입력 인간 인터페이스 디바이스들은, 키보드(701), 마우스(702), 트랙패드(703), 터치 스크린(710), 데이터-글러브(도시되지 않음), 조이스틱(705), 마이크로폰(706), 스캐너(707), 카메라(708) 중 하나 이상(각각의 하나만이 묘사됨)을 포함할 수 있다.

컴퓨터 시스템(700)은 특정 인간 인터페이스 출력 디바이스들을 또한 포함할 수 있다. 이러한 인간 인터페이스 출력 디바이스들은, 예를 들어, 촉각 출력, 사운드, 광, 및 냄새/맛을 통해 하나 이상의 인간 사용자의 감각들을 자극하고 있을 수 있다. 이러한 인간 인터페이스 출력 디바이스들은 촉각 출력 디바이스들(예를 들어, 터치-스크린(710), 데이터-글러브(도시되지 않음), 또는 조이스틱(705)에 의한 촉각 피드백이지만, 입력 디바이스들로서 역할을 하지 않는 촉각 피드백 디바이스들도 있을 수 있음), 오디오 출력 디바이스들(예를 들어, 스피커들(709), 헤드폰들(묘사되지 않음)), 시각적 출력 디바이스들(예를 들어, CRT 스크린들, LCD 스크린들, 플라즈마 스크린들, OLED 스크린들을 포함하는 스크린들(710)) - 각각은 터치-스크린 입력 능력이 있거나 없고, 각각은 촉각 피드백 능력이 있거나 없고, 이들 중 일부는 스테레오그래픽 출력과 같은 수단을 통해 2차원 시각적 출력 또는 3보다 많은 차원의 출력을 출력할 수 있음 -; 가상 현실 안경(묘사되지 않음), 홀로그래픽 디스플레이들 및 스모크 탱크들(smoke tanks)(묘사되지 않음)), 및 프린터들(묘사되지 않음)을 포함할 수 있다.

컴퓨터 시스템(700)은 인간 액세스가능한 저장 디바이스들 및 그것들과 연관된 매체들, 예컨대, CD/DVD 등의 매체(721)를 갖는 CD/DVD ROM/RW(720)를 포함하는 광학 매체, 썸-드라이브(thumb-drive)(722), 이동식 하드 드라이브 또는 솔리드 스테이트 드라이브(723), 테이프 및 플로피 디스크(묘사되지 않음)와 같은 레거시 자기 매체, 보안 동글들(묘사되지 않음)과 같은 특수화된 ROM/ASIC/PLD 기반 디바이스들 등을 또한 포함할 수 있다.

관련 기술분야의 통상의 기술자는 현재 개시된 주제와 관련하여 사용되는 용어 "컴퓨터 판독가능한 매체"가 전송 매체, 반송파들, 또는 다른 일시적 신호들을 포함하지 않는다는 점을 또한 이해할 것이다.

컴퓨터 시스템(700)은 하나 이상의 통신 네트워크(755)에 대한 인터페이스(754)를 또한 포함할 수 있다. 네트워크들은, 예를 들어, 무선, 유선(wireline), 광학일 수 있다. 네트워크들은 추가로 로컬, 광역, 대도시, 차량 및 산업, 실시간, 지연-허용(delay-tolerant) 등일 수 있다. 네트워크들의 예들은 로컬 영역 네트워크들, 예컨대, 이더넷, 무선 LAN들, GSM, 3G, 4G, 5G, LTE 등을 포함하는 셀룰러 네트워크들, 케이블 TV, 위성 TV 및 지상 방송 TV를 포함하는 TV 유선 또는 무선 광역 디지털 네트워크들, CANBus를 포함하는 차량 및 산업 등을 포함한다. 특정 네트워크들은 일반적으로 특정 범용 데이터 포트들 또는 주변 버스들(749)(예를 들어, 컴퓨터 시스템(700)의 USB 포트들과 같은 것)에 부착된 외부 네트워크 인터페이스 어댑터들을 요구하고, 다른 것들은 일반적으로 아래에 설명되는 바와 같은 시스템 버스(예를 들어, PC 컴퓨터 시스템으로의 이더넷 인터페이스 또는 스마트폰 컴퓨터 시스템으로의 셀룰러 네트워크 인터페이스)에 대한 부착에 의해 컴퓨터 시스템(700)의 코어에 통합된다. 이들 네트워크들 중 임의의 것을 이용하여, 컴퓨터 시스템(700)은 다른 엔티티들과 통신할 수 있다. 이러한 통신은 단방향성 수신 전용(예를 들어, 방송 TV), 단방향성 전송 전용(예를 들어, CANbus 대 특정 CANbus 디바이스들), 또는 예를 들어, 로컬 또는 광역 디지털 네트워크들을 이용하는 다른 컴퓨터 시스템들과의 양방향성일 수 있다. 위에서 설명된 바와 같은 네트워크들 및 네트워크 인터페이스들 각각에 대해 특정 프로토콜들 및 프로토콜 스택들이 이용될 수 있다.

전술한 인간 인터페이스 디바이스들, 인간 액세스가능한 저장 디바이스들, 및 네트워크 인터페이스들은 컴퓨터 시스템(700)의 코어(740)에 부착될 수 있다.

코어(740)는 하나 이상의 중앙 처리 유닛(CPU)(741), 그래픽 처리 유닛(GPU)(742), FPGA(Field Programmable Gate Areas)(743)의 형태로 특수화된 프로그래머블 처리 유닛들, 특정 작업들들에 대한 하드웨어 가속기들(744), 그래픽 어댑터들(750) 등을 포함할 수 있다. 이들 디바이스들은, 판독 전용 메모리(ROM)(745), 내부 비-사용자 액세스가능한 하드 드라이브들, SSD들 등과 같은 내부 대용량 저장소(747)와 함께, 시스템 버스(748)를 통해 접속될 수 있다. 일부 컴퓨터 시스템들에서, 시스템 버스(748)는 추가적인 CPU들, GPU 등에 의한 확장들을 가능하게 하기 위해 하나 이상의 물리적 플러그의 형태로 액세스가능할 수 있다. 주변 디바이스들은 코어의 시스템 버스(748)에 직접, 또는 주변 버스(749)를 통해 부착될 수 있다. 예에서, 스크린(710)은 그래픽 어댑터(750)에 접속될 수 있다. 주변 버스를 위한 아키텍처들은 PCI, USB 등을 포함한다.

CPU들(741), GPU들(742), FPGA들(743), 및 가속기들(744)은, 조합하여, 전술한 컴퓨터 코드를 구성할 수 있는 특정 명령어들을 실행할 수 있다. 해당 컴퓨터 코드는 ROM(745) 또는 RAM(746)에 저장될 수 있다. 과도적인 데이터가 또한 RAM(746)에 저장될 수 있는 반면, 영구 데이터는, 예를 들어, 내부 대용량 저장소(747)에 저장될 수 있다. 메모리 디바이스들 중 임의의 것에 대한 고속 저장 및 검색은, 하나 이상의 CPU(741), GPU(742), 대용량 저장소(747), ROM(745), RAM(746) 등과 밀접하게 연관될 수 있는, 캐시 메모리의 이용을 통해 가능하게 될 수 있다.

컴퓨터 판독가능한 매체는 다양한 컴퓨터에 의해 구현되는 동작들을 수행하기 위한 컴퓨터 코드를 그 위에 가질 수 있다. 매체 및 컴퓨터 코드는 본 개시내용의 목적들을 위해 특별히 설계되고 구성된 것들일 수 있거나, 또는 그것들은 컴퓨터 소프트웨어 기술분야의 기술자들에게 잘 알려져 있고 이용가능한 종류의 것일 수 있다.

제한이 아니라 예로서, 도 7에 도시된 아키텍처를 갖는 컴퓨터 시스템(700), 및 구체적으로 코어(740)는 프로세서(들)(CPU들, GPU들, FPGA, 가속기들 등을 포함함)가 하나 이상의 유형의(tangible) 컴퓨터 판독가능한 매체에서 구현된 소프트웨어를 실행하는 결과로서의 기능을 제공할 수 있다. 이러한 컴퓨터 판독가능한 매체는 위에 소개된 바와 같은 사용자 액세스가능한 대용량 저장소 뿐만 아니라, 코어-내부 대용량 저장소(747) 또는 ROM(745)과 같은 비일시적인 본질의 것인 코어(740)의 특정 저장소와 연관된 매체일 수 있다. 본 개시내용의 다양한 실시예들을 구현하는 소프트웨어가 이러한 디바이스들에 저장되고 코어(740)에 의해 실행될 수 있다. 컴퓨터 판독가능한 매체는 특정 필요에 따라 하나 이상의 메모리 디바이스 또는 칩을 포함할 수 있다. 소프트웨어는 코어(740) 및 구체적으로 그 내부의 프로세서들(CPU, GPU, FPGA 등을 포함함)로 하여금, RAM(746)에 저장된 데이터 구조들을 정의하는 것 및 소프트웨어에 의해 정의된 프로세스들에 따라 이러한 데이터 구조들을 수정하는 것을 포함하여, 본 명세서에 설명된 특정 프로세스들 또는 특정 프로세스들의 특정 부분들을 실행하게 할 수 있다. 추가로 또는 대안으로서, 컴퓨터 시스템은, 본 명세서에 설명된 특정 프로세스들 또는 특정 프로세스들의 특정 부분들을 실행하기 위해 소프트웨어 대신에 또는 그와 함께 동작할 수 있는, 회로(예를 들어, 가속기(744))에 하드와이어링되거나 다른 방식으로 구현된 로직의 결과로서 기능을 제공할 수 있다. 소프트웨어에 대한 참조는, 적절한 경우, 로직을 포함할 수 있고, 그 반대도 가능하다. 컴퓨터 판독가능한 매체에 대한 참조는, 적절한 경우, 실행을 위한 소프트웨어를 저장하는 회로(예를 들어, 집적 회로(IC)), 또는 실행을 위한 로직을 구현하는 회로, 또는 둘 다를 포함할 수 있다. 본 개시내용은 하드웨어 및 소프트웨어의 임의의 적절한 조합을 포함한다.

본 개시내용이 몇몇 예시적인 실시예들을 설명하였지만, 본 개시내용의 범위 내에 드는 변경들, 치환들, 및 다양한 대체 등가물들이 있다. 따라서, 관련 기술분야의 통상의 기술자는, 본 명세서에 명시적으로 도시되거나 설명되지는 않았지만, 본 개시내용의 원리들을 구현하고 따라서 본 개시내용의 사상 및 범위 내에 있는 수많은 시스템들 및 방법들을 안출할 수 있을 것이라는 점이 이해될 것이다.

Claims

원격 회의(teleconference)를 위한 방법으로서,
제1 디바이스의 처리 회로에 의해 그리고 제2 디바이스로부터, 제1 오디오를 운반하는 제1 미디어 스트림 및 제2 오디오를 운반하는 제2 미디어 스트림을 수신하는 단계 - 상기 제1 미디어 스트림 및 상기 제2 미디어 스트림은 몰입형 미디어 콘텐츠의 미디어 스트림에 대한 오버레이 미디어 스트림들임 - ;
맞춤화 파라미터들을 상기 제2 디바이스에 전송하는 단계;
상기 제2 디바이스로부터, 상기 제1 오디오를 가중하기 위한 제1 오디오 가중치 및 상기 제2 오디오를 가중하기 위한 제2 오디오 가중치를 수신하는 단계 - 상기 제1 오디오 가중치 및 상기 제2 오디오 가중치는 상기 맞춤화 파라미터들에 적어도 기반하여 결정되고 상기 제1 오디오 가중치는 상기 제2 오디오 가중치와 상이함 - ; 및
상기 제1 디바이스의 처리 회로에 의해, 상기 제1 오디오 가중치에 기반한 가중된 제1 오디오와 상기 제2 오디오 가중치에 기반한 가중된 제2 오디오를 결합함으로써 혼합된 오디오를 생성하는 단계
를 포함하는, 방법.
제1항에 있어서,
상기 제1 디바이스와 연관된 스피커를 통해, 상기 혼합된 오디오를 재생하는 단계를 더 포함하는, 방법.
삭제
제1항에 있어서,
상기 제1 오디오 가중치 및 상기 제2 오디오 가중치는 상기 제1 오디오 및 상기 제2 오디오의 사운드 강도들에 추가로 기반하여 상기 제2 디바이스에 의해 결정되는, 방법.
제1항에 있어서,
상기 제1 오디오 가중치 및 상기 제2 오디오 가중치는 상기 제1 오디오 및 상기 제2 오디오의 오버레이 우선순위들에 추가로 기반하여 상기 제2 디바이스에 의해 결정되는, 방법.
제1항에 있어서,
액티브 스피커(active speaker)의 검출에 기반하여 상기 제2 디바이스에 의해 조정되는 상기 제1 오디오 가중치 및 상기 제2 오디오 가중치를 수신하는 단계를 더 포함하는, 방법.
삭제
제1항에 있어서,
상기 처리 회로에 의해, 상기 혼합된 오디오를 제3 미디어 스트림으로 인코딩하는 단계; 및
상기 제1 디바이스의 인터페이스 회로를 통해, 상기 제3 미디어 스트림을 제3 디바이스에 전송하는 단계
를 더 포함하는, 방법.
제8항에 있어서,
상기 제1 디바이스의 인터페이스 회로를 통해, 상기 제3 미디어 스트림 및 몰입형 미디어 콘텐츠를 포함하는 제4 미디어 스트림을 전송하는 단계를 더 포함하고, 상기 제3 미디어 스트림은 상기 제4 미디어 스트림에 대한 오버레이 미디어 스트림인, 방법.
원격 회의를 위한 방법으로서,
제1 디바이스의 처리 회로에 의해, 원격 회의 세션의 제1 미디어 콘텐츠를 운반하는 제1 미디어 스트림 및 상기 원격 회의 세션의 제2 미디어 콘텐츠를 운반하는 제2 미디어 스트림을 수신하는 단계;
상기 제1 디바이스의 처리 회로에 의해, 상기 제1 미디어 콘텐츠와 상기 제2 미디어 콘텐츠를 혼합하는 제3 미디어 콘텐츠를 생성하는 단계; 및
상기 제1 디바이스의 전송 회로를 통해, 상기 제3 미디어 콘텐츠를 운반하는 제3 미디어 스트림을 제2 디바이스에 전송하는 단계
를 포함하고,
상기 제3 미디어 콘텐츠를 생성하는 단계는, 상기 제1 디바이스의 처리 회로에 의해, 제1 오디오에 할당된 제1 오디오 가중치 및 제2 오디오에 할당된 제2 오디오 가중치에 기반하여 상기 제1 미디어 콘텐츠 내의 상기 제1 오디오를 상기 제2 미디어 콘텐츠 내의 상기 제2 오디오와 혼합하여 상기 제3 미디어 콘텐츠 내의 제3 오디오를 생성하는 단계를 포함하고,
상기 제1 미디어 스트림 및 상기 제2 미디어 스트림은 몰입형 미디어 콘텐츠의 미디어 스트림에 대한 오버레이 미디어 스트림들이고, 상기 제1 오디오 가중치 및 상기 제2 오디오 가중치는 상기 제2 디바이스에 의해 제공되는 맞춤화 파라미터들에 적어도 기반하여 결정되며, 상기 제1 오디오 가중치는 상기 제2 오디오 가중치와 상이한, 방법.
삭제
삭제
삭제
제10항에 있어서,
상기 제1 오디오 가중치 및 상기 제2 오디오 가중치는 상기 제1 미디어 스트림 및 상기 제2 미디어 스트림의 오버레이 우선순위들에 추가로 기반하여 결정되는, 방법.
원격 회의를 위한 방법으로서,
제1 디바이스에 의해 그리고 제2 디바이스에, 제1 오디오를 운반하는 제1 미디어 스트림 및 제2 오디오를 운반하는 제2 미디어 스트림을 전송하는 단계;
세션 설명 프로토콜에 기반하여 맞춤화 파라미터들을 수신하는 단계;
상기 제1 디바이스에 의해, 상기 맞춤화 파라미터들에 적어도 기반하여 상기 제1 오디오를 가중하기 위한 제1 오디오 가중치 및 상기 제2 오디오를 가중하기 위한 제2 오디오 가중치를 결정하는 단계 - 상기 제1 미디어 스트림 및 상기 제2 미디어 스트림은 몰입형 미디어 콘텐츠의 미디어 스트림에 대한 오버레이 미디어 스트림들이고, 상기 제1 오디오 가중치는 상기 제2 오디오 가중치와 상이함 -; 및
상기 제1 디바이스에 의해 그리고 상기 제2 디바이스에, 상기 제1 오디오와 상기 제2 오디오를 혼합하기 위한 상기 제1 오디오 가중치 및 상기 제2 오디오 가중치를 전송하는 단계
를 포함하는, 방법.
삭제
제15항에 있어서,
상기 제1 오디오 가중치 및 상기 제2 오디오 가중치는 상기 제1 오디오 및 상기 제2 오디오의 사운드 강도들에 추가로 기반하여 결정되는, 방법.
제15항에 있어서,
상기 제1 오디오 가중치 및 상기 제2 오디오 가중치는 상기 제1 오디오 및 상기 제2 오디오의 오버레이 우선순위들에 추가로 기반하여 결정되는, 방법.
제15항에 있어서,
상기 제1 오디오 가중치 및 상기 제2 오디오 가중치는 상기 제1 오디오 및 상기 제2 오디오 중 하나에서의 액티브 스피커의 검출에 추가로 기반하여 결정되는, 방법.
삭제