KR20170049512A

KR20170049512A - 상호작용 비디오 회의

Info

Publication number: KR20170049512A
Application number: KR1020177006065A
Authority: KR
Inventors: 오즈구르 오이만; 쟝-삐에르 기아깔론; 이반 폭스
Original assignee: 인텔 코포레이션
Priority date: 2014-10-02
Filing date: 2015-08-07
Publication date: 2017-05-10
Also published as: JP2021052415A; JP7114684B2; KR101936944B1; US10791261B2; US20190037131A1; US9516220B2; TW201742447A; JP2017536713A; TW201633776A; EP3202137A1; EP3202137B1; US20160100099A1; WO2016053477A1; US9832369B2; KR20190006069A; TWI590664B; CN106797448A; KR102211546B1; US20180054563A1; TWI630825B

Abstract

원격 사용자 장비(UE)와 비디오 회의를 수행하도록 동작 가능한 로컬 UE에 대한 기술이 개시된다. 로컬 UE는 원격 UE의 카메라의 시야 내에 관심 영역(ROI)을 정의할 수 있다. 로컬 UE는 ROI를 하나 이상의 팬, 틸트, 줌 및 포커스(PTZF) 커맨드에 매핑할 수 있다. 로컬 UE는 하나 이상의 PTZF 커맨드를 원격 UE에 송신할 수 있으며, 원격 UE는 하나 이상의 PTZF 커맨드에 기초하여 ROI를 식별하도록 구성된다. 로컬 UE는 원격 UE로부터 ROI 내의 인코딩된 비디오를 수신할 수 있다. 인코딩된 비디오는 ROI 내의 인코딩된 비디오가 로컬 UE에서 렌더링 및 표시될 수 있도록 정의된 품질 레벨을 실질적으로 유지하면서 증가된 줌 레벨로 ROI 내의 영역들을 포함할 수 있다.

Description

상호작용 비디오 회의{INTERACTIVE VIDEO CONFERENCING}

스트리밍 및 대화식 서비스를 포함하는 멀티미디어 서비스의 성장은 새로운 이동 광대역 기술 및 표준으로의 진화의 핵심 동인 중 하나이다. 디지털 비디오 콘텐츠는 이동 디바이스에서 점점 더 많이 소비된다. 일상생활에서 이동 디바이스에서 광범위하게 사용되는 많은 비디오 애플리케이션이 있다. 예를 들어, 온라인 비디오 스트리밍은 YouTube 및 Hulu와 같은 인기있는 서비스를 포함한다. 비디오 녹화 및 비디오 회의는 Skype 및 Google Hangout과 같은 서비스를 포함한다. 2011년에, YouTube는 1조 초과의 글로벌 뷰를 가졌다. 뷰의 10%는 이동 전화 또는 태블릿을 통해 액세스되었다. 더 많은 스마트폰, 태블릿 및 기타 이동 컴퓨팅 디바이스가 구매됨에 따라, 비디오 녹화 및 비디오 회의를 위한 그들의 사용이 현저히 증가할 것이다. 미디어 압축 및 무선 네트워크 기반구조의 개발과 결합된 멀티미디어 서비스에 대한 그러한 높은 소비자 수요에 따라, 미래의 셀룰러 및 이동 광대역 시스템의 멀티미디어 서비스 능력을 향상시키고 소비자에게 높은 체험의 질(QoE)을 제공하여, 임의의 디바이스 및 기술을 이용하여 언제 어디서나 비디오 콘텐츠 및 서비스에 대한 유비쿼터스 액세스를 보장하는 것이 관심 대상이다.

본 개시내용의 특징 및 이점은 첨부 도면들과 관련하여 이루어지는 다음의 상세한 설명으로부터 명백해질 것이며, 첨부 도면들은 함께 본 개시내용의 특징을 예시적으로 도시한다. 도면들에서:
도 1은 일례에 따른, 관심 영역(ROI) 줌잉 특징을 지원하는 IMS를 통한 멀티미디어 전화 통신 서비스(multimedia telephony services over IMS: MTSI) 기반 비디오 회의 시스템을 도시한다.
도 2는 일례에 따른, 팬, 틸트, 줌 및 포커스(pan, tilt, zoom and focus: PTZF) 커맨드를 생성하고, 원단 카메라 제어(far end camera control: FECC) 프로토콜을 통해 PTZF 커맨드를 시그널링하기 위한 사용자 인터페이스를 도시한다.
도 3은 일례에 따른, 사용자 정의 관심 영역(ROI)을 하나 이상의 팬, 틸트, 줌 및 포커스(PTZF) 커맨드에 매핑하기 위한 기술을 도시한다.
도 4는 일례에 따른, IMS를 통한 멀티미디어 전화 통신 서비스(MTSI) 기반 비디오 회의 애플리케이션에서 관심 영역(ROI) 줌잉 특징을 개시하기 위한 원격 사용자 장비(UE)와 로컬 UE 간의 통신을 도시하는 흐름도이다.
도 5a는 일례에 따른, 실시간 전송 프로토콜(RTP) 헤더 확장 기술에 기초하는 향상된 원단 카메라 제어(FECC) 프로토콜 능력을 지시하는 세션 설명 프로토콜(SDP) 제의 메시지를 도시한다.
도 5b는 일례에 따른, 실시간 전송 프로토콜(RTP) 헤더 확장 기술에 기초하는 향상된 원단 카메라 제어(FECC) 프로토콜 능력을 수용하는 세션 설명 프로토콜(SDP) 응답 메시지를 도시한다.
도 6a는 일례에 따른, 실시간 전송 제어 프로토콜(RTCP) 피드백 기술에 기초하는 향상된 원단 카메라 제어(FECC) 프로토콜 능력을 지시하는 세션 설명 프로토콜(SDP) 제의 메시지를 도시한다.
도 6b는 일례에 따른, 실시간 전송 제어 프로토콜(RTCP) 피드백 기술에 기초하는 향상된 원단 카메라 제어(FECC) 프로토콜 능력을 수용하는 세션 설명 프로토콜(SDP) 응답 메시지를 도시한다.
도 7은 일례에 따른, 원격 UE와 비디오 회의를 수행하도록 동작 가능한 로컬 사용자 장비(UE)의 기능을 도시한다.
도 8은 일례에 따른, 상호작용 줌잉 특징을 지원하는 비디오 회의 애플리케이션을 로컬 사용자 장비(UE)에서 동작시키기 위한 명령어가 구현된 적어도 하나의 비일시적 머신 판독 가능 저장 매체의 흐름도를 도시한다.
도 9는 일례에 따른, 원격 UE와 비디오 회의를 수행하도록 동작 가능한 로컬 사용자 장비(UE)의 기능을 도시한다.
도 10은 일례에 따른, 로컬 UE와 비디오 회의를 수행하도록 동작 가능한 원격 사용자 장비(UE)의 기능을 도시한다.
도 11은 일례에 따른 무선 디바이스(예컨대, UE)의 도면을 도시한다.
이제, 도시된 예시적인 실시예가 참조될 것이며, 이를 설명하기 위해 특정 언어가 본 명세서에서 사용될 것이다. 그러나 그에 의해 본 발명의 범위를 제한하는 것은 의도하지 않는다는 것이 이해될 것이다.

본 발명이 개시되고 설명되기 전에, 본 발명은 본 명세서에 개시된 특정 구조, 프로세스 단계 또는 재료로 제한되는 것이 아니라, 관련 기술분야의 통상의 기술자에 의해 인식될 바와 같은 그들의 균등물로 확장된다는 것을 이해해야 한다. 본 명세서에서 사용된 용어는 특정 예를 설명하기 위한 목적으로만 사용되며, 제한하려는 의도가 아니라는 것도 이해해야 한다. 상이한 도면 내의 동일한 참조 번호는 동일한 요소를 나타낸다. 흐름도 및 프로세스에서 제공되는 숫자는 단계 및 동작을 설명하는 데 있어서의 명확성을 위해 제공되며, 반드시 특정 순서 또는 시퀀스를 지시하지는 않는다.

예시적인 실시예

기술 실시예의 초기 개요가 아래에 제공되며, 이어서 특정 기술 실시예가 나중에 더 상세하게 설명된다. 이 초기 요약은 독자가 기술을 더 빨리 이해할 수 있도록 돕기 위한 것이지만, 기술의 핵심 특징이나 필수 특징을 식별하는 것을 의도하지 않으며, 청구 주제의 범위를 제한하는 것도 의도하지 않는다.

상호작용 줌잉 특징을 지원하는 비디오 회의 애플리케이션을 로컬 사용자 장비(UE)에서 동작시키는 기술이 설명된다. 로컬 UE의 로컬 사용자는 비디오 회의 애플리케이션을 사용하여 원격 UE의 원격 사용자와 통신할 수 있다. 로컬 UE의 디스플레이 스크린 상에서 비디오 회의 애플리케이션을 통해 장면을 보는 로컬 사용자는 장면 내의 영역을 선택할 수 있다. 이 영역은 원격 UE의 시야 내의 관심 영역(ROI)으로 지칭될 수 있다. 로컬 사용자가 ROI 내의 콘텐츠의 더 상세한 표현을 원할 때, 로컬 사용자는 ROI를 선택할 수 있다. 로컬 사용자는 상호작용 줌잉 특징을 사용하여 장면의 비디오 피드로부터 장면 내의 선택된 영역(즉, ROI)으로 동적으로 전환할 수 있다. ROI는 하나 이상의 팬, 틸트, 줌 및 포커스(PTZF) 커맨드에 매핑될 수 있다. 즉, PTZF 커맨드는 로컬 UE의 로컬 사용자에 의해 선택된 ROI를 설명하거나 특성화할 수 있다. 로컬 UE는 실시간 전송 제어 프로토콜(RTCP) 피드백 메시지를 통해 또는 대안적으로 실시간 전송 프로토콜(RTP) 헤더 확장을 사용하여 PTZF 커맨드를 원격 UE로 통신할 수 있다. 원격 UE는 ROI를 식별하기 위해 PTZF 커맨드를 처리할 수 있다. 원격 UE는 ROI 내의 비디오를 캡처할 수 있다. 또한, 원격 UE는 ROI 내의 비디오를 인코딩할 수 있다. 인코딩된 비디오는 ROI 내의 영역을 포함할 수 있으며, ROI 외부의 영역을 제외할 수 있다. 원격 UE는 인코딩된 비디오를 로컬 UE로 전송할 수 있다. 인코딩된 비디오는 정의된 품질 레벨을 실질적으로 유지하면서, 증가된 줌 레벨에서 ROI 내의 영역을 포함할 수 있다. 즉, 원격 UE는 인코딩된 ROI 내의 비디오를 제공하여 로컬 UE에서의 인코딩된 비디오의 재생을 가능하게 할 수 있다. 원격 UE가 장면의 선택된 영역(즉, ROI)만을 로컬 UE로 전송하고, 장면의 비선택 영역을 전송으로부터 제외함으로써, 비디오 회의 애플리케이션은 이용 가능한 대역폭을 더 효율적으로 사용할 수 있다.

멀티미디어가 이동 컴퓨팅 디바이스로, 그로부터 또는 그 사이에서 통신될 수 있도록 개발된 다수의 멀티미디어 표준이 존재해왔다. 예를 들어 스트리밍 비디오에서, 3세대 파트너십 프로젝트(3GPP)는 주문형 또는 라이브 콘텐츠의 유니캐스트 스트리밍을 위한 실시간 스트리밍 프로토콜(RTSP)에 기초하는 패킷 교환 스트리밍 서비스(PSS)를 설명하는 기술 사양(TS) 26.234(예로서, 릴리스 11.0.0)를 개발하였다. 또한, 프로그레시브 다운로드 및 HTTP를 통한 동적 적응 스트리밍(DASH)을 포함하는 하이퍼텍스트 전송 프로토콜(HTTP) 기반 스트리밍 서비스가 3GPP TS 26.247(예로서, 릴리스 11.0.0)에 설명되어 있다. 3GPP 기반 멀티미디어 브로드캐스트 및 멀티캐스트 서비스(MBMS) 사양 TS 26.346(예로서, 릴리스 11.0.0)은 멀티캐스트/브로드캐스트 콘텐츠 배포를 위한 스트리밍 및 다운로드 기술을 지정한다. 따라서, 사용자 장비(UE)와 같은 DASH/PSS/MBMS 기반 이동 컴퓨팅 디바이스는 UE 디바이스에서 스트리밍 비디오를 디코딩하고 렌더링한다. 3GPP TS 26.244(예로서, 릴리스 11.0.0)에서의 3GP 파일 포맷에 대한 지원이 이러한 모든 사양에서 파일 다운로드 및 HTTP 기반 스트리밍 사용 예를 지원하기 위해 요구된다.

비디오 회의와 같은 대화식 비디오 통신을 위한 표준의 일례가 3GPP TS 26.114(예로서, 11.0.0)에서 제공된다. 이 표준은 인터넷 프로토콜(IP) 멀티미디어 서브시스템(IMS) 기반 네트워크를 통한 진보된 멀티미디어 대화식 서비스 및 콘텐츠의 전달을 가능하게 하는 IMS를 통한 멀티미디어 전화 통신 서비스(MTSI)를 설명한다. IMS는 3GPP TS 26.140(예로서, 릴리스 11.0.0)에서 표준화된다. 3GPP TS 26.140은 미디어 제어, 미디어 코덱, 및 미디어 및 제어 데이터의 전송을 포함하는 미디어 처리 및 상호작용을 기술한다. 또한, 3GPP TS 26.140은 3GP 파일 포맷에 대한 지원을 제공하는 멀티미디어 공유 서비스(MMS)를 사용하여 비디오 공유를 가능하게 한다.

이하에서 더 상세히 설명되는 바와 같이, MTSI 호출은 호출에 관련된 UE 간의 제어 평면 시그널링을 리라우팅하기 위해 호출 세션 제어 기능(CSCF) 메커니즘을 사용할 수 있다(예를 들어, 비디오 회의 애플리케이션). 제어 평면에는, 애플리케이션 서버(AS)가 존재할 수 있으며, 호출 보류 또는 재개, 호출 전달 및 다자 호출 등과 같은 보완 서비스를 제공할 수 있다.

MTSI 기반 송신기 UE 단말기는 비디오를 캡처 및 녹화하고, 이어서 3GPP 네트워크를 통해 MTSI 기반 수신기 UE 단말기로 비디오를 전송할 수 있다. 이어서, 수신기 UE 단말기는 비디오를 디코딩하고 렌더링할 수 있다. MTSI에서, 세션 개시 프로토콜(SIP)은 비디오 회의, 인터넷 전화 통신 호출 등과 같은 대화식 멀티미디어 세션을 설정, 변경 및 종료하기 위한 애플리케이션 계층 제어 프로토콜의 역할을 할 수 있다. 송신 단말기와 수신 단말기 사이의 세션 설명 프로토콜(SDP) 기반 시그널링은 코덱, 비트 레이트, 해상도 등을 포함하는 미디어 관련 능력 협상에서의 제의/응답 고려사항을 참작할 수 있다. MTSI에서의 미디어의 전송은 UDP/IP를 통한 (IETF RFC 3550에 의해 지정된) 실시간 전송 프로토콜(RTP)에 기초한다.

캡처 디바이스, 및 이에 따라 압축 비디오의 해상도가 급속히 증가하고 있다. 예를 들어, 최근의 고효율 비디오 코딩(HEVC) 표준을 사용하여, 4K 콘텐츠를 동작 제품의 일부로서 전송 및 저장할 수 있다. 4k x 2k 해상도를 갖는 카메라가 현재 광범위하게 이용 가능하다. 라이브 스트리밍 비디오는 8k x 4k의 해상도를 갖는 것으로 입증되었다. 픽셀 수의 관점에서 향후 해상도가 높아질 가능성이 있다. 이러한 매우 높은 해상도의 콘텐츠와 더불어, 이제 상호작용 줌잉 특징과 같은 비디오 스트리밍의 새로운 용도가 가능하다.

MTSI와 같이 현재 시장에 존재하는 대화식 비디오 서비스는 대역폭, 공간 해상도, 배향 등의 관점에서 비디오의 동적 적응을 가능하게 한다. 그러나 이러한 대화식 비디오 서비스는 사용자가 스트리밍되고 있는 비디오에서 사용자 선택 영역으로 동적으로 전환하고, 이 사용자 선택 영역에 대한 인코딩을 최적화하는 것을 가능하게 하지 못한다. 결과적으로, 비디오 호출에서 상호작용 줌 특징을 사용하는 동안 달성 가능한 비디오 해상도가 제한될 수 있다. 수신기 애플리케이션은 관심 영역(ROI)을 줌인하고, (예를 들어, 사용자 인터페이스로부터의 커맨드에 응답하여) 비디오의 원하지 않는 부분을 잘라낼 수 있지만, 현재 시스템의 하나의 한계는 송신 단말기가 수신 단말기로부터의 임의의 ROI 시그널링의 부재 시에는 여전히 전체 비디오 프레임을 인코딩하고 전송할 것이라는 것이다.

일례에서, MTSI 수신기로부터 MTSI 송신기로의 ROI 정보의 시그널링은 MTSI 송신기가 더 높은 품질의 스트림을 전달하는 것을 가능하게 할 수 있다. MTSI 송신기는 비디오의 ROI 부분을 인코딩할 때, 협상된 비트 레이트를 전적으로 또는 중점적으로 사용할 수 있다. 이를 가능하게 하기 위해, 양방향 시그널링이 수행될 수 있다. MTSI 송신기는 능력을 표현하기 위한 메시지를 MTSI 수신기로 전송할 수 있으며, MTSI 수신기는 원하는 ROI를 표현하기 위한 메시지를 MTSI 송신기로 전송할 수 있다.

도 1은 관심 영역(ROI) 줌잉 특징을 지원하는 예시적인 IMS를 통한 멀티미디어 전화 통신 서비스(MTSI) 기반 비디오 회의 시스템을 도시한다. 원격 사용자 장비(UE)(128)(예를 들어, 이동 전화, 태블릿 컴퓨터, 데스크탑 컴퓨터 또는 다른 적절한 디바이스)와 관련된 사용자(예를 들어, 사용자 A)는 로컬 UE(148)와 관련된 다른 사용자(예로서, 사용자 B)와 비디오 회의를 하고 있을 수 있다. 즉, 원격 UE(128) 및 로컬 UE(148) 양자는 양방향 비디오 회의 애플리케이션(160)을 실행하고 있을 수 있다. 사용자 A는 (예로서, 원격 UE(128)의 정면에서) 원격 UE(128)에 근접할 수 있고, 사용자 B는 (예로서, 로컬 UE(148)의 정면에서) 로컬 UE(148)에 근접할 수 있다. 원격 UE(128) 및 로컬 UE(148) 양자는 각각 비디오 회의 애플리케이션(160)이 실행되는 동안 사용자가 서로 볼 수 있게 하는 카메라를 포함할 수 있다. 원격 UE(128)는 원격 카메라를 포함할 수 있고, 로컬 UE(148)는 로컬 카메라를 포함할 수 있다. 원격 UE(128)는 동작 중에 사용자 A의 비디오를 캡처하는 카메라 및 동작 중에 사용자 B의 비디오를 사용자 A에게 표시하는 디스플레이 스크린을 포함할 수 있다. 유사하게, 로컬 UE(148)는 동작 중에 사용자 B의 비디오를 캡처하는 카메라 및 동작 중에 사용자 A의 비디오를 사용자 B에게 표시하는 디스플레이 스크린을 포함할 수 있다. 즉, 사용자 A는 원격 UE(128) 상의 디스플레이 스크린을 통해 사용자 B를 볼 수 있고, 사용자 B는 로컬 UE(148) 상의 디스플레이 스크린을 통해 사용자 A를 볼 수 있다.

일례에서, 비디오 회의 애플리케이션(160)은 MTSI 기반 대화식 비디오 시스템을 통할 수 있다. 즉, 비디오 회의 애플리케이션(160)은 원격 UE(128) 및 로컬 UE(148)를 서로 그리고 전화 네트워크에 접속하는 3GPP 기반 멀티미디어 전화 통신 서비스를 통해 동작할 수 있다.

원격 UE(128)는 무선 액세스 네트워크(RAN)(126), 서빙 범용 패킷 무선 서비스(GPRS) 지원 노드(SGSN)(124) 및/또는 게이트웨이 GPRS 지원 노드(GGSN)(122)를 통해 코어 네트워크에 접속할 수 있다. 원격 UE(128)는 프록시 호출 세션 제어 기능(P-CSCF)(120)을 통해 데이터를 송수신할 수 있다. P-CSCF(120)는 서빙 호출 세션 제어 기능(S-CSCF)(114)을 이용하여 데이터를 송수신할 수 있다. 일부 예에서, S-CSCF(114)는 호출 보류/재개, 호출 전달 및 다자 호출 등과 같은 보완 서비스를 제공할 수 있는 애플리케이션 서버(AS)(122)로부터 데이터를 송수신할 수 있다. 이 예에서, RAN(126), SGSN(124), GGSN(122), P-CSCF(120), S-CSCF(114) 및 AS(112)는 운영자 A(110)와 관련될 수 있다. S-CSCF(114)는 코어 네트워크의 다른 요소로부터 데이터를 송수신할 수 있다. 예를 들어, 운영자 A(110)와 관련된 S-CSCF(114)는 운영자 B(130)와 관련된 질문 CSCF(I-CSCF)(136)와 통신할 수 있다.

로컬 UE(148)는 그 자신의 무선 액세스 네트워크(RAN)(146), 서빙 범용 패킷 무선 서비스(GPRS) 지원 노드(SGSN)(144) 및 게이트웨이 GPRS 지원 노드(GGSN)(142)를 통해 코어 네트워크에 접속할 수 있다. 로컬 UE(148)는 프록시 호출 세션 제어 기능(P-CSCF)(140)을 통해 데이터를 송수신할 수 있다. P-CSCF(140)는 서빙 호출 세션 제어 기능(S-CSCF)(134)을 이용하여 데이터를 송수신할 수 있다. 일부 예에서, S-CSCF(134)는 호출 보류/재개, 호출 전달 및 다자 호출 등과 같은 보완 서비스를 제공할 수 있는 애플리케이션 서버(AS)(132)로부터 데이터를 송수신할 수 있다. S-CSCF(114) 및 S-CSCF(134)는 각각 질문 CSCF(I-CSCF)(136)와 통신할 수 있다. 즉, 운영자 A(110)는 S-CSCF(114)와 I-CSCF(136) 간의 통신을 통해 운영자 B(130)와 통신할 수 있다. I-CSCF(134)는 홈 가입자 서버(HSS)(138) 및/또는 가입자 위치 기능(SLF)(138)에 대해 판독 및 기록할 수 있다. 이 예에서, RAN(146), SGSN(144), GGSN(142), P-CSCF(140), HSS/SLF(138), I-CSCF(136), S-CSCF(134) 및 AS(132)는 운영자 B(130)와 관련될 수 있다.

하나의 구성에서, 비디오 회의 애플리케이션(160)은 줌잉 특징을 지원할 수 있다. 예를 들어, 로컬 UE(148)는 원격 카메라(즉, 원격 UE(128)와 관련된 카메라)의 시야 내의 특정 특징 또는 위치를 줌인할 수 있다. 로컬 UE(148)에서, 사용자 B는 원격 UE(128)의 시야 내에 관심 영역(ROI)(150)을 정의할 수 있다. 비한정적인 예로서, 원격 UE(128)에서, 사용자 A는 원격 UE(128)의 디스플레이 스크린 상에서 사용자 B의 머리를 볼 수 있다. 로컬 UE(148)에서, 사용자 B는 로컬 UE(148)의 디스플레이 스크린 상에서 사용자 A의 머리 및 몸통을 볼 수 있다. 사용자 B는 사용자 A의 향상된 보기를 원할 수 있다(예를 들어, 사용자 B는 사용자 A의 얼굴을 줌인하기를 원할 수 있다). 사용자 B는 ROI(150)가 사용자 A의 얼굴을 포함하도록 로컬 UE(150)에서 ROI(150)를 정의할 수 있다. ROI(150)는 예를 들어 그래픽 사용자 인터페이스를 사용하여 로컬 UE(150)에서 정의될 수 있다. 즉, 사용자 B는 컴퓨터 마우스 또는 터치스크린과 같은 입력 디바이스를 이용하여 영역을 선택할 수 있다. ROI(150)는 원격 카메라의 시야 내에 다른 적절한 영역을 포함할 수 있다. 예를 들어, 사용자 B는 사용자 A의 몸통, 사용자 A 뒤의 나무 등을 포함하도록 ROI(150)를 정의할 수 있다. 다른 예로서, ROI(150)는 (원격 카메라의 적절한 시야에 대응하는) 로컬 UE(148)의 디스플레이 스크린의 우상 영역, 로컬 UE(148)의 디스플레이 스크린의 좌하 영역 등을 포함할 수 있다.

일례에서, 사용자 B는 원격 카메라의 시야 내에서 임의의 크기 및 위치를 갖도록 ROI(150)를 정의할 수 있다. 다른 예에서, 원격 UE(128)는 ROI(150)가 정의될 때 정지 상태로 유지될 수 있으며, 따라서 ROI(150)의 선택은 원격 카메라의 시야를 이동시키거나 변경하지 않는다. 또 다른 예에서, 사용자 B는 뜻대로 새로운 ROI(150)를 선택할 수 있다. 또한, (원격 UE(128)의) 사용자 A는 또한 (로컬 UE(148)의) 사용자 B를 줌인할 유사한 ROI를 선택할 수 있다.

아래에서 더 상세히 설명되는 바와 같이, ROI(150)는 하나 이상의 팬, 틸트, 줌 및 포커스(PTZF) 커맨드에 매핑될 수 있다. PTZF 커맨드는 사용자 B에 의해 선택되는 ROI(150)를 특성화 또는 설명할 수 있다. 일례에서, PTZF 커맨드의 시리즈 또는 시퀀스는 ROI(150)를 설명하는 데 사용될 수 있다. PTZF 커맨드는 H.281/H.224 프로토콜에서 더 정의될 수 있다. PTZF 커맨드는 특정 좌표를 사용하는 것과는 대조적으로 ROI(150)를 특성화하기 위한 대안 해결책일 수 있다. ROI(150)를 설명하는 PTZF 커맨드는 로컬 UE(148)로부터 원격 UE(128)로 전송될 수 있다. 아래에서 더 상세히 설명되는 바와 같이, ROI(150)를 설명하는 PTZF 커맨드는 실시간 전송 제어 프로토콜(RTCP) 피드백 메시지를 사용하여 통신될 수 있다. 대안 해결책에서, ROI(150)를 설명하는 PTZF 커맨드는 캡처된 로컬 비디오(즉, 로컬 UE(148)에서 캡처된 비디오) 내의 적어도 하나의 실시간 전송 프로토콜(RTP) 헤더 확장 내에 내장될 수 있다. RTCP 피드백 메시지 또는 RTP 헤더 확장은 원격 UE(128)에게 ROI(110) 내의 비디오를 캡처하도록 지시할 수 있다.

일부 예에서, 원격 UE(128)는 ROI(150)만을 포함하고 ROI(150) 외부의 영역을 배제하는 비디오를 캡처할 수 있다. 비한정적인 예로서, (ROI(150)를 설명하는 PTZF 커맨드를 포함하는) RTP 헤더 확장 또는 RTCP 피드백 메시지는 원격 UE(128)에게 사용자 A의 턱에 있는 상처를 캡처하도록 지시할 수 있다. 즉, 원격 UE의 카메라는 사용자 A의 턱에 있는 상처만을 캡처할 수 있고, 사용자 A의 턱을 둘러싸는 다른 영역은 캡처하지 않는다.

ROI(150)에 따라 비디오를 캡처하면, 원격 UE(128)는 예를 들어 비교적 낮은 압축을 갖는 인코딩 방식을 사용하여 비디오를 인코딩할 수 있다. 따라서, 비디오는 정의된 품질 레벨을 실질적으로 유지하면서 ROI(150)의 비교적 클로즈업되고 상세화된 보기를 제공할 수 있다. 원격 UE(128)는 손실이 더 적은 인코딩 방식을 이용하여 (ROI(150)를 갖는) 비디오를 인코딩할 수 있는데, 이는 전체 시야를 인코딩하기 위해 이전에 사용된 리소스가 이제는 단지 ROI(150)를 인코딩하는 데에만 사용되기 때문이다. 원격 UE(128)는 (ROI만을 갖는) 인코딩된 비디오를 로컬 UE(148)로 전송할 수 있다. 원격 UE(128)는 (원격 UE(128)와 관련된) 원격 카메라의 전체 시야와는 대조적으로 (ROI(150)만을 갖는) 인코딩된 비디오를 전송할 때 실질적으로 동일한 양의 대역폭을 소비할 수 있으므로, 인코딩된 비디오는 실질적으로 높은 품질을 가질 수 있다. 즉, ROI의 인코딩된 비디오는 비교적 선명하며, 거칠거나 흐릿하지 않을 수 있다. 이와 관련하여, 본 명세서에 설명된 기술은 사용자(예를 들어, 사용자 B)가 디스플레이 스크린 상에 표시된 프레임을 수동으로 줌인함에 따라 품질 레벨을 저하시킬 수 있는 이전의 기술보다 우수하다. 현재의 해결책에서, 원격 UE(128)는 캡처된 전체 프레임이 아니라 ROI(150)만을 협의된 해상도로 인코딩할 수 있으며, 이는 로컬 UE(148)에서 더 높은 전체 해상도 및 더 나은 사용자 경험을 유도할 것이다.

비한정적인 예로서, 원격 UE(128)는 사용자 A의 턱에 있는 상처의 비디오를 인코딩할 수 있다. 원격 UE(128)는 사용자 A의 턱을 비교적 큰 해상도 및 선명도 레벨로 볼 수 있도록 비교적 낮은 압축을 갖는 인코딩 방식을 사용할 수 있다. 즉, 인코딩된 비디오는 사용자 A의 턱의 줌인 표현일 수 있지만, 여전히 비교적 높은 품질 레벨(예를 들어, 거칠지 않음)을 유지한다. 또한, 전체 대역폭이 사용자 A의 턱의 인코딩된 비디오를 전송하는 데 사용될 수 있으며, 이는 사용자 A의 턱의 비교적 명확하고 상세한 표현을 초래할 수 있다. 이러한 표현은 사용자 A의 얼굴 전체가 인코딩된 비디오의 일부로 포함되는 경우와는 대조적으로 사용자 A의 얼굴의 추가 상세를 제공할 수 있다.

대안 구성에서, 원격 UE(128)는 (원격 UE(128)와 관련된) 원격 카메라의 전체 시야를 포함하는 비디오를 캡처할 수 있다. 그러나, 원격 UE(108)는 ROI(150)를 포함하는 비디오의 일부만을 인코딩할 수 있다. 또한, 원격 UE(108)는 ROI(150)만을 포함하고 ROI(150) 외부의 영역을 배제하는 인코딩된 비디오를 전송할 수 있다.

로컬 UE(148)는 원격 UE(128)로부터 인코딩된 비디오를 수신할 수 있으며, 인코딩된 비디오는 ROI(150) 내의 영역을 포함하고 ROI(150) 외부의 영역을 배제한다. 로컬 UE(148)는 로컬 UE(148)와 관련된 디스플레이 스크린 상에 인코딩된 비디오를 렌더링 및 표시할 수 있다. 비한정적인 예로서, 로컬 UE(148) 앞에 앉아 있는 사용자 B는 사용자 A의 턱에 있는 상처의 상세한 클로즈업 표현을 볼 수 있다. 사용자 B는 언제나 사용자 A의 이전 보기로 복귀할 수 있는데, 예를 들어, 사용자 B는 로컬 UE(148)의 디스플레이 스크린 상에서 사용자 A의 전체 얼굴 및 몸통을 볼 수 있도록 언줌잉(un-zooming) 및 복귀할 수 있다.

실시간 전송 프로토콜(RTP) 기반 멀티미디어 서비스를 위한 국제 전기 통신 연합(ITU) 전기 통신 표준화 부문(ITU-T) 원단 카메라 제어는 ITU-T 사양 H.224/H.281 및 인터넷 엔지니어링 태스크 포스(IETF: Internet Engineering Task Force) 코멘트 요청(RFC) 4573에서 스택 인터넷 프로토콜(IP)/사용자 데이터그램 프로토콜(UDP)/RTP/H.224/H.281을 사용하여 정의된다.

원단 카메라 제어(FECC) 프로토콜에서, 관심 영역(ROI) 및 특정 ROI에 대한 줌잉의 지시는 ITU-T H.281에 의해 표준화된 바와 같은 PTZF(팬, 틸트, 줌 및 포커스) 커맨드의 시그널링에 의해 달성될 수 있다. 예를 들어, START ACTION 메시지의 메시지 포맷은 다음과 같을 수 있다.

START ACTION 메시지는 팬(P)에 대해 우측(R)에 대한 제1 값 및 좌측(L)에 대한 제2 값을 포함할 수 있다. START ACTION 메시지는 팬(T)에 대해 업(U)에 대한 제1 값 및 다운(D)에 대한 제2 값을 포함할 수 있다. START ACTION 메시지는 줌(Z)에 대해 인(I)에 대한 제1 값 및 아웃(O)에 대한 제2 값을 포함할 수 있다. START ACTION 메시지는 포커스(F)에 대해 인(I)에 대한 제1 값 및 아웃(O)에 대한 제2 값을 포함할 수 있다.

FECC 프로토콜은 H.224를 통한 ITU-T H.281에 의존한다. 따라서, ROI 정보는 H.224 프레임을 운반하는 RTP 패킷을 통해 시그널링될 수 있다. FECC는 H.224 프레임의 내부에 있을 수 있으며, H.224 패킷의 클라이언트 ID 필드에 의해 식별될 수 있다. 또한, RFC 4573은 H.224를 사용하여 원단 카메라 제어 프로토콜을 지원하는 데 사용되는 세션 설명 프로토콜(SDP) 파라미터의 신택스 및 시맨틱을 정의한다. SDP 제의/응답은 2개의 MTSI 클라이언트 간의 능력 협상을 가능하게 할 수 있다.

3GPP MTSI의 경우에, 카메라는 디바이스(예를 들어, 태블릿 또는 스마트폰)에 고정될 수 있고, 실제로 독립적으로 제어될 어떠한 능력도 갖지 않을 수 있다. 팬/틸트 능력이 없는 고정 카메라의 경우, 팬 커맨드는 좌/우 이동/병진에 매핑될 수 있고, 틸트 커맨드는 2차원(2D) 이미지 평면을 통한 업/다운 이동/병진에 매핑될 수 있다. 따라서, PTZ 커맨드의 조합은 임의의 관심 영역의 줌인을 가능하게 할 수 있다. 이러한 기능을 vPTZ(가상 PTZ)라고 한다. 카메라 모션은 카메라의 입력 버퍼를 변경함으로써 에뮬레이션될 수 있는데, 예를 들어 팬 또는 틸트가 전체 이미지에 적용될 때, 어떠한 수정도 행해지지 않는다. 카메라가 줌잉될 때, 더 작은 직사각형 영역이 선택될 수 있으며, 이어서 선택한 직사각형을 병진시킴으로써 틸트 및 팬이 수용될 수 있다.

일례에서, ROI 시그널링의 목적을 위한 FECC 프로토콜의 직접적인 사용은 잠재적으로 열악한 대역폭을 갖는 동적 가변 링크 특성을 갖는 이동 통신 환경에서의 레이턴시 관점에서 불리할 수 있다. FECC는 사용자가 원하는 ROI를 갖는 스트림을 획득할 때까지 수신기(예를 들어, 사용자가 ROI를 선택하는 로컬 UE)에 의해 PTZF 커맨드의 연속 전송을 이용하는 프로그레시브 프로토콜이다. 즉, 송신기(예를 들어, 인코딩이 발생하는 원격 UE)는 정확한 ROI 정보를 갖지 않는다. 또한, 수신기(예를 들어, ROI 정보를 생성하는 사용자 인터페이스를 갖는 로컬 UE)는 송신기(예를 들어, 원격 UE)가 수신된 PTZF 커맨드를 처리하는 데 사용할 스텝 크기를 알지 못한다. 스텝 크기는 주어진 P 및 T 커맨드로부터 생성되는 업/다운 및 좌/우 병진의 픽셀 수를 나타낼 수 있다. 스텝 크기는 Z 커맨드의 전송 후에 발생하는 줌잉의 양을 나타낼 수도 있다. 이러한 불확실성의 인자는 원하는 ROI를 갖는 스트림이 수신될 수 있을 때까지 FECC 프로토콜을 사용하여 PTZF 커맨드 시퀀스를 전송할 것을 요구할 수 있다.

비한정적인 예로서, ROI는 13개의 PTZF 커맨드를 사용하여 설명될 수 있다. 즉, 13개의 PTZF 커맨드는 사용자가 수신기(또는 로컬 UE)에서 선택한 ROI를 설명할 수 있다. 13개의 PTZF 커맨드는 수신기(예를 들어, 로컬 UE)로부터 송신기(예를 들어, 원격 UE)로 전송될 수 있다. 전통적인 기술에서, 13개의 PTZF 커맨드를 전송하기 위한 시간의 양은 새 PTZF 커맨드를 발행하기 위한 왕복 시간(RTT) 및 사용자 인터페이스 지연(UI_delay)에 기초할 수 있다. 비한정적인 예로서, 왕복 시간은 300 밀리초(ms)일 수 있고, 사용자 인터페이스 지연은 100 ms일 수 있다. 따라서, 13개의 PTZF 커맨드를 전송하기 위한 시간(즉, 레이턴시)은 13 x UI_delay + RTT(또는 1.6초)와 13 x RTT(또는 3.9초) 사이로 제한될 수 있다. 즉, 이 예에서 PTZF 커맨드 시퀀스를 전송할 때의 레이턴시는 1.6초와 3.9초 사이일 수 있다. 따라서, 요청된 ROI에 대응하는 스트림을 보기 위해 사용자가 경험하는 레이턴시는 전통적인 기술을 사용할 때 3.9초 정도로 클 수 있으며 이는 열악한 사용자 경험을 유발할 수 있다.

여기에 설명된 새로운 기술은 이전의 FECC 프로토콜로 확장되며, 따라서 비디오 수신기(예를 들어, 로컬 UE)는 단일 RTP 패킷(즉, 단일 송신) 내의 다수의 PTZF 커맨드의 그룹화된 시퀀스를 비디오 송신기 또는 원단 단말기(예로서, 원격 UE)로 전송할 수 있다. 대안 해결책에서, 비디오 수신기는 단일 RTCP 패킷 내의 다수의 PTZF 커맨드의 그룹화된 시퀀스를 비디오 송신기로 전송할 수 있다. 다수의 PTZF 커맨드가 비디오 송신기에서 순차적으로 실행될 수 있으며, 이는 비디오 송신기가 메시지를 앞뒤로 교환하면서 원하는 ROI에 신속하게 수렴할 수 있게 한다. 이러한 FECC 프로토콜의 확장 버전을 향상된 FECC(eFECC)라고 한다. 즉, 향상된 FECC 지원은 비디오 수신기(예를 들어, 로컬 UE)가 단일 송신으로 PTZF 커맨드의 시퀀스를 전송하도록 구성되고, 비디오 송신기(예를 들어, 원격 UE)가 PTZF 커맨드의 시퀀스를 처리하고, PTZF 커맨드에 기초하여 ROI를 식별하고, 이에 따라 ROI 내에서 비디오를 인코딩하도록 구성된다는 것을 지시할 수 있다.

이전의 예에서, 전통적인 기술을 사용할 때, 13개의 PTZF 커맨드를 송신하기 위한 시간의 양은 1.6초와 3.9초 사이일 수 있다. 향상된 FECC를 사용함으로써, 동일한 13개의 PTZF 커맨드를 송신하기 위한 시간의 양을 줄일 수 있다. 요청된 ROI에 대응하는 스트림을 보기 위해 사용자가 겪는 레이턴시는 UI_delay + RTT에 의해 결정될 수 있다. 이 예에서, UI_delay는 300 ms이고, RTT는 100이므로, 레이턴시는 400 ms(또는 0.4초)일 수 있다. 이동 상황에서의 이전의 FECC 프로토콜의 맹목적 사용은 사용자가 요청한 ROI에 대응하는 스트림을 보기 전에 견딜 수 없는 레벨의 레이턴시를 겪게 할 수 있다. 향상된 FECC를 사용함으로써 레이턴시의 양을 줄일 수 있다.

도 2는 팬, 틸트, 줌 및 포커스(PTZF) 커맨드를 생성하고 원단 카메라 제어(FECC) 프로토콜을 통해 PTZF 커맨드를 시그널링하기 위한 예시적인 사용자 인터페이스(240)를 도시한다. 사용자 인터페이스(240)는 로컬 사용자 장비(UE)(220)에 있을 수 있다. 로컬 UE(220)의 제1 사용자(210)는 제2 사용자(230)와 비디오 회의를 할 수 있다. 제2 사용자(230)는 원격 UE(도 2에 도시되지 않음)를 사용하여 제1 사용자(210)와 비디오 회의를 수행할 수 있다. 따라서, 제1 사용자(210)는 로컬 UE(220) 상에서 실행중인 비디오 회의 애플리케이션을 통해 제2 사용자(230)를 볼 수 있다. 제1 사용자(210)는 로컬 UE(220) 상의 사용자 인터페이스(240)를 통해 관심 영역(ROI)(250)을 선택할 수 있다. 예를 들어, 제1 사용자(210)는 제2 사용자의 얼굴의 영역을 선택할 수 있다. 제1 사용자(210)에 의해 선택된 이 영역은 ROI(250)를 나타낼 수 있다. ROI(250)의 선택에 기초하여, 로컬 UE(220)는 PTZF 커맨드의 시퀀스를 생성할 수 있다. 로컬 UE(220)는 PTZF 커맨드의 시퀀스를 원격 UE로 전송할 수 있다. 원격 UE는 PTZF 커맨드의 시퀀스에 기초하여 ROI(250)를 식별할 수 있다. 원격 UE는 ROI(250)를 포함하는 인코딩된 비디오만을 전송할 수 있다. 따라서, 로컬 UE(220)의 사용자 인터페이스(240)는 ROI(250)를 제1 사용자(210)에게 더 상세히 표시할 수 있다.

도 3은 사용자 정의 관심 영역(ROI)(330)을 하나 이상의 팬, 틸트, 줌 및 포커스(PTZF) 커맨드에 매핑하기 위한 예시적인 기술을 도시한다. 사용자 인터페이스(310)는 원격 사용자(320)를 표시할 수 있다. 사용자 인터페이스(310)는 로컬 사용자 장비(UE)와 관련될 수 있고, 원격 사용자(320)는 원격 UE와 관련될 수 있다. 일례에서, 로컬 UE와 관련된 로컬 사용자는 1080p 및 1920x1080의 협상된 해상도에서 원격 사용자(320)와의 비디오 회의를 행할 수 있다. 로컬 UE의 로컬 사용자는 원격 사용자의 얼굴을 줌인하기를 원할 수 있다. 즉, 로컬 UE의 로컬 사용자는 원격 사용자의 얼굴이 사용자 인터페이스(310)의 증가된 부분을 더 상세하게(즉, 더 큰 줌 레벨로) 채우기를 원할 수 있다. 이 경우, 로컬 사용자는 로컬 UE 상의 사용자 인터페이스(310)를 통해 관심 영역(ROI)(330)을 선택할 수 있다. 예를 들어, 로컬 사용자는 원격 사용자의 얼굴을 포함하도록 ROI(330)를 선택할 수 있다.

도 3에 도시된 바와 같이, 사용자 인터페이스(310)는 X 방향 및 Y 방향으로 선택된 수의 타일로 분할될 수 있다. ROI(330)의 사용자 선택은 로컬 UE로부터 원격 UE로 전송될 PTZF 커맨드의 시퀀스로 변환될 수 있다. 일례에서 Z 커맨드는 X 및 Y 차원 양자에서 약 90%의 중심 줌을 유발할 수 있으며, 이는 X 및 Y 차원에서 원본 이미지의 약 10%를 배제할 수 있다. P 커맨드는 중심 타일(340) 주위의 타일을 가로지르는 좌/우 이동을 그리고 각각의 P 커맨드에 대해 x 타일 크기의 1/4의 스텝을 유발할 수 있다. T 커맨드는 중심 타일(340) 주변의 타일을 가로지르는 업/다운 이동을 그리고 각각의 T 커맨드에 대해 y 타일 크기의 1/4의 스텝을 유발할 수 있다.

도 3에 도시된 바와 같이, 사용자 정의 ROI(330)는 (1080, 1560)의 X 좌표 및 (540, 810)의 Y 좌표와 관련될 수 있다. 사용자 인터페이스(310)의 좌하 코너는 (0, 0)의 X 및 Y 좌표를 갖는 원점일 수 있다. PTZF 커맨드의 시퀀스를 사용하여 ROI(330)를 나타내기 위해, 적어도 8개의 줌 커맨드(도 3에 실선 화살표로 도시됨)가 중심 타일(340)을 획득하는 데 사용될 수 있다. 8개의 줌 커맨드는 X(720, 1200) 및 Y(405, 675)의 X-Y 좌표로 줌잉한 후에 중심 타일(340)을 얻는 데 사용될 수 있고, 대응하는 중심 타일(340)은 480x270의 치수를 갖는다. 다시 말하면, 중심 타일(340)은 480 픽셀의 X 타일 크기 및 270 픽셀의 Y 타일 크기를 갖는다. 또한, (도 3에서 점선 화살표로 도시된 바와 같이) ROI(330)를 획득하기 위해 상측 방향의 적어도 2개의 커맨드 및 우측 방향의 적어도 3개의 커맨드가 사용될 수 있다. 따라서, 총 13개의 PTZF 커맨드가 ROI(330)를 설명하거나 특성화하는 데 사용될 수 있다. PTZF 커맨드는 로컬 UE로부터 원격 UE로 전송될 수 있다. 원격 UE는 PTZF 커맨드에 기초하여 ROI(330)를 식별할 수 있고, 그에 따라 ROI(330) 내의 비디오를 로컬 UE에 제공할 수 있다.

도 4는 IMS를 통한 멀티미디어 전화 통신 서비스(MTSI) 기반 비디오 회의 애플리케이션에서 관심 영역(ROI) 줌잉 특징을 개시하기 위한 원격 사용자 장비(UE)(402)와 로컬 UE(404) 간의 통신을 나타내는 예시적인 흐름도이다. 일례에서, 원격 UE(402)는 송신 클라이언트로서 지칭될 수 있고, 로컬 UE(404)는 수신 클라이언트로서 지칭될 수 있다. 원격 UE(402) 및 로컬 UE(404)는 각각 원격 UE(402)와 관련된 원격 사용자가 로컬 UE(404)와 관련된 로컬 사용자와 통신할 수 있게 하는 비디오 회의 애플리케이션을 실행할 수 있다.

원격 UE(402)와 로컬 UE(404) 간의 세션 설명 프로토콜(SDP) 기반 시그널링은 향상된 원단 카메라 제어(FECC) 프로토콜 지원을 위한 미디어 관련 능력 협상에서 제의/응답 고려 사항을 참작할 수 있다. 향상된 FECC 프로토콜 지원은 단일 실시간 전송 제어 프로토콜(RTCP) 피드백 메시지 내에서 그리고/또는 RTP 헤더 확장 메커니즘을 사용하는 단일 실시간 전송 프로토콜(RTP) 패킷 내에서 H.281/H.224 FECC 프로토콜을 사용하여 팬, 틸트, 줌 및 포커스(PTZF) 커맨드의 그룹화된 시퀀스를 송신하는 로컬 UE(404)(또는 수신기)의 능력을 지시할 수 있다. 또한, 향상된 FECC 프로토콜 지원은 PTZF 커맨드의 시퀀스를 처리하고, PTZF 커맨드에 기초하여 관심 영역(ROI)을 식별하고, 이에 따라 ROI 내의 비디오를 인코딩하는 원격 UE(402)(또는 송신기)의 능력을 지시할 수 있다.

원격 UE(402)는 SDP 제의 메시지를 로컬 UE(404)로 전송할 수 있다. SDP 제의 메시지는 앞서 설명한 바와 같이 원격 UE(402)가 향상된 FECC 프로토콜을 지원함을 나타낼 수 있다. 로컬 UE(404)는 원격 UE(402)로부터 SDP 제의 메시지를 수신할 수 있고, 이에 응답하여, 향상된 FECC 프로토콜 능력을 수용하는 SDP 응답 메시지를 전송할 수 있다.

하나의 구성에서, 원격 UE(402)는 스텝 크기를 로컬 UE(404)로 전송할 수 있다. 다시 말해서, 스텝 크기는 원격 UE(402) 및 로컬 UE(404)로부터의 시그널링에 포함될 수 있다. 로컬 UE(404)는 초기에 원격 UE(402)가 수신된 PTZF 커맨드를 처리하는 데 사용할 스텝 크기를 알지 못한다. 따라서, 원격 UE(402)는 스텝 크기를 로컬 UE(404)로 전송할 수 있다. 원격 UE(402)는 전용 RTP 헤더 확장 속성으로서 스텝 크기를 전송할 수 있다. 스텝 크기는 주어진 P 및 T 커맨드로부터 발생하는 업/다운 및 좌/우 병진의 픽셀 수를 나타낼 수 있다. 또한, 스텝 크기는 Z 커맨드의 전송 후에 발생하는 줌잉의 양을 나타낼 수 있다. 그 결과, 로컬 UE(404)는 PTZF 커맨드가 원격 UE(402)에서 어떻게 처리될지를 결정할 수 있고, 로컬 UE(404)는 그에 따라 PTZF 커맨드를 선택할 수 있다.

로컬 UE(404)는 원격 UE(402)로부터 이전에 수신된 스텝 크기에 기초하여 PTZF 커맨드의 시퀀스를 도출할 수 있다. PTZF 커맨드는 사용자 정의 관심 영역(ROI)에 대응할 수 있다. 즉, ROI는 로컬 UE(404)의 로컬 사용자에 의해 정의될 수 있다. 로컬 UE(404)는 PTZF 커맨드의 시퀀스를 원격 UE(402)에 시그널링할 수 있다. 일 구성에서, PTZF 커맨드의 시퀀스는 로컬 UE(404)로부터 원격 UE(402)로 단일 송신으로 송신될 수 있다. 다시 말해서, PTZF 커맨드는 함께 그룹화되어 동시에 원격 UE(402)로 전송될 수 있다. 예를 들어, PTZF 커맨드의 시퀀스는 단일 RTCP 패킷으로 전송될 수 있다. 대안으로, PTZF 커맨드의 시퀀스는 단일 RTP 패킷에서 RTP 헤더 확장으로서 전송될 수 있다. 로컬 UE(404)는 역방향 비디오 스트림에 대한 RTP 헤더 확장을 사용하여 PTZF 커맨드의 시퀀스를 원격 UE(402)로 통신할 수 있다.

원격 UE(402)는 로컬 UE(404)로부터 PTZF 커맨드의 시퀀스를 수신할 수 있다. 원격 UE(402)는 PTZF 커맨드의 시퀀스에 기초하여 ROI를 식별할 수 있다. PTZF 커맨드가 단일 송신으로 함께 그룹화되기 때문에, 원격 UE(402)는 PTZF 커맨드를 신속하게 처리할 수 있고, 낮은 레이턴시로 원하는 ROI에 대응하는 스트림을 전달할 수 있다. 원격 UE(402)는 ROI만을 포함하고 ROI 외부의 영역을 배제하는 비디오를 캡처할 수 있다. 원격 UE(402)는 ROI만을 포함하는 비디오를 인코딩할 수 있다. 원격 UE(402)는 인코딩된 비디오를 로컬 UE(404)로 전송할 수 있다. 일례에서, 원격 UE(402)는 또한 순방향 비디오 스트림에 대한 RTP 헤더 확장에서 실제 전송된 ROI를 나타낼 수 있다. 로컬 UE(404)는 ROI를 포함하는 인코딩된 비디오를 수신하고 로컬 UE(404)에서 비디오를 재생할 수 있다.

PTZF 커맨드(예를 들어, ROI 정보)가 RTP 헤더 확장 메시지를 사용하여 로컬 UE(404)로부터 원격 UE(402)로 시그널링될 때, (전술한 바와 같이) 향상된 FECC 특징을 지원하는 MTSI 클라이언트는 비디오를 포함하는 모든 미디어 스트림에 대해 SDP 메시지에서 향상된 FECC를 제의할 수 있다. 향상된 FECC는 관련 미디어 라인 범위 아래에 향상된 FECC URN(uniform resource name)을 나타내는 a=extmap 속성을 포함시킴으로써 제의될 수 있다. 예를 들어, 향상된 FECC URN은 urn:3gpp:efecc로 설정될 수 있다. 이 URN을 포함하는 미디어 라인의 예는 a=extmap:7 urn:3gpp:efecc이다. 미디어 라인의 위의 예에서, 숫자 7은 1과 14의 범위 내의 임의의 숫자로 대체될 수 있다.

PTZF 커맨드(예를 들어, ROI 정보)가 RTCP 메시지를 사용하여 로컬 UE(404)로부터 원격 UE(402)로 시그널링될 때, 향상된 FECC 특징을 지원하는 MTSI 클라이언트는 비디오를 포함하는 모든 미디어 스트림에 대해 SDP 메시지에서 eFECC를 제의할 수 있다. 향상된 FECC 특징은 관련 미디어 라인 범위 아래에 새로운 eFECC 유형을 갖는 a=rtcp-fb 속성을 포함시킴으로써 제의할 수 있다. 예를 들어, RTCP 피드백 기술과 결합된 eFECC 유형은 파라미터 3gpp:efecc로 표현될 수 있다. 와일드카드 페이로드 유형("*")은 RTCP 피드백 속성 향상된 FECC가 모든 페이로드 유형에 적용됨을 나타내는 데 사용될 수 있다. 여러 유형의 ROI 피드백이 지원되고/되거나 동일한 ROI 피드백이 페이로드 유형의 서브세트에 대해 지정될 경우, 여러 "a=rtcp-fb" 라인이 사용될 수 있다. RTCP 피드백 기술에 기초하여 미디어 라인에 대한 eFECC를 시그널링하기 위한 이 속성의 예시적인 사용은 a=rtcp-fb:*3gpp-efecc이다.

RTCP 피드백 기술은 즉각적인 피드백 및 초기(early) RTCP 모드들 둘 다에서 PTZF 커맨드(예를 들어, ROI 정보)의 시그널링을 포함할 수 있다. eFECC에 대한 새로운 RTCP 피드백 유형은 3gpp-efecc의 값 이름, 향상된 원단 카메라 제어의 긴 이름 및 3세대 파트너십 프로젝트(3GPP) 기술 사양(TS) 26.114의 참조를 포함할 수 있다.

향상된 FECC 능력은 SDP 능력 협상 동안에 특징을 지원하기 위해 클라이언트가 협상하는 방법에 따라 양방향 또는 단방향으로 지원될 수 있다. 비대칭 능력(예로서, PTZF 커맨드 또는 ROI 정보를 처리할 수 있지만 ROI 정보를 검출/시그널링하지 못하는 능력)이 있는 단말기의 경우, "sendonly"및 "recvonly" 속성을 사용할 수 있다. 단말기는 충분히 명확한 방식으로 각 방향에서의 그의 능력을 표현해야 하며, 따라서 신호는 유용한 정보를 표현할 뿐만 아니라 수신자에 의해 처리될 수 있는 정도까지만 각 방향으로 전송된다.

향상된 FECC 특징은 PTZF 커맨드의 시퀀스에서의 (원격 UE(402)와 관련된) 수신 사용자의 현재 ROI의 시그널링을 포함할 수 있다. PTZF 커맨드의 시그널링은 H.281/H.224 프로토콜에 따를 수 있다. PTZF 커맨드는 원격 UE(402)(예를 들어, 송신기)로 전송될 수 있으며, 따라서 원격 UE(402)는 ROI 내에서 캡처된 비디오를 최적으로 인코딩하고 전송할 수 있다. 향상된 FECC는 성공적으로 협상될 때 MTSI 클라이언트에 의해 시그널링될 수 있다. PTZF 커맨드의 시퀀스의 시그널링은 RTP 헤더 확장을 사용하여 단일 RTCP 메시지 또는 단일 RTP 패킷을 통해 그룹화된 방식으로 발생할 수 있다.

RTCP 피드백 메시지를 사용할 때, 로컬 UE(404)(즉, 수신 단말기)는 원격 UE(402)(즉, 송신 단말기)로 전송되는 RTCP 피드백 메시지 내의 수신 사용자의 현재 ROI 정보에 대응하는 PTZF 커맨드의 시퀀스를 포함할 수 있다. RTP 헤더 확장을 사용할 때, 로컬 UE(404)(즉, 수신 단말기)는 원격 UE(402)(즉, 송신 단말기)로 전송되는 RTP 패킷 내의 수신 사용자의 현재 ROI 정보에 대응하는 PTZF 커맨드의 시퀀스를 포함할 수 있다. 이러한 RTP 패킷은 비디오 스트림을 역방향으로 운반할 수 있으며, 이는 MTSI에서의 양방향 비디오 통신에 사용될 수 있다.

도 5a는 예시적인 세션 설명 프로토콜(SDP) 제의 메시지를 도시한다. SDP 제의 메시지는 원격 사용자 장비(UE)로부터 로컬 UE로 통신될 수 있다. SDP 제의 메시지는 실시간 전송 프로토콜(RTP) 헤더 확장 기술에 기초할 수 있다. SDP 제의 메시지는 원격 UE에서의 향상된 원단 카메라 제어(FECC) 프로토콜 능력을 나타낼 수 있다. 특히, 향상된 FECC 프로토콜 능력은 로컬 UE로부터 수신된 팬, 틸트, 줌 및 포커스(PTZF) 커맨드의 시퀀스를 처리하고, PTZF 커맨드의 시퀀스로부터 관심 영역(ROI)을 식별하고, 그에 따라 ROI 내의 비디오를 인코딩할 수 있는 원격 UE의 능력을 나타낼 수 있다 다. 일례로, SDP 제의 메시지는 "a=extmap"의 속성 및 "4 urn:3gpp:efecc"의 관련 값을 포함할 수 있다.

도 5b는 예시적인 세션 설명 프로토콜(SDP) 응답 메시지를 도시한다. SDP 응답 메시지는 로컬 사용자 장비(UE)로부터 원격 UE로 통신될 수 있다. SDP 응답 메시지는 실시간 전송 프로토콜(RTP) 헤더 확장 기술에 기초할 수 있다. SDP 응답 메시지는 원격 UE의 향상된 원단 카메라 제어(FECC) 프로토콜 능력을 수용할 수 있다. 일례로, SDP 응답 메시지는 "a=extmap"의 속성 및 "4 urn:3gpp:efecc"의 관련 값을 포함할 수 있다.

도 6a는 예시적인 세션 설명 프로토콜(SDP) 제의 메시지를 도시한다. SDP 제의 메시지는 원격 사용자 장비(UE)로부터 로컬 UE로 통신될 수 있다. SDP 제의 메시지는 실시간 전송 제어 프로토콜(RTCP) 피드백 기술에 기초할 수 있다. SDP 제의 메시지는 원격 UE에서의 향상된 원단 카메라 제어(FECC) 프로토콜 능력을 나타낼 수 있다. 특히, 향상된 FECC 프로토콜 능력은 로컬 UE로부터 수신된 팬, 틸트, 줌 및 포커스(PTZF) 커맨드의 시퀀스를 처리하고, PTZF 커맨드의 시퀀스로부터 관심 영역(ROI)을 식별하고, 그에 따라 ROI 내의 비디오를 인코딩할 수 있는 원격 UE의 능력을 나타낼 수 있다. 일례로, SDP 제의 메시지는 "a=rtcp-fb"의 속성 및 "3gpp:efecc"의 관련 값을 포함할 수 있다.

도 6b는 예시적인 세션 설명 프로토콜(SDP) 응답 메시지를 도시한다. SDP 응답 메시지는 로컬 사용자 장비(UE)로부터 원격 UE로 통신될 수 있다. SDP 응답 메시지는 실시간 전송 제어 프로토콜(RTCP) 피드백 기술에 기초할 수 있다. SDP 응답 메시지는 원격 UE의 향상된 원단 카메라 제어(FECC) 프로토콜 능력을 수용할 수 있다. 일례로, SDP 응답 메시지는 "a=extmap"의 속성 및 "4 urn:3gpp:efecc"의 관련 값을 포함할 수 있다.

다른 예는 도 7의 흐름도에 도시된 바와 같이 원격 UE와 비디오 회의를 수행하도록 동작할 수 있는 로컬 사용자 장비(UE)의 기능(700)을 제공한다. 기능은 방법으로서 구현될 수 있거나, 기능은 머신 상에서 명령어로서 실행될 수 있으며, 명령어는 적어도 하나의 컴퓨터 판독 가능 매체 또는 하나의 비일시적 머신 판독 가능 저장 매체에 포함된다. 로컬 UE는 블록 710에서와 같이 로컬 UE에서 원격 UE의 카메라의 시야 내의 관심 영역(ROI)을 정의하도록 구성된 하나 이상의 프로세서를 가질 수 있다. 하나 이상의 프로세서는 블록 720에서와 같이 ROI를 하나 이상의 팬, 틸트, 줌 및 포커스(PTZF) 커맨드에 매핑하도록 구성될 수 있다. 블록 730에서와 같이, 하나 이상의 프로세서는 로컬 UE로부터 원격 UE로 하나 이상의 PTZF 커맨드를 전송하도록 구성될 수 있으며, 원격 UE는 하나 이상의 PTZF 커맨드에 기초하여 ROI를 식별하도록 구성된다. 블록 740에서와 같이, 하나 이상의 프로세서는 원격 UE로부터 ROI 내의 인코딩된 비디오를 수신하도록 구성될 수 있고, 인코딩된 비디오는 ROI 내의 영역을 포함하고 ROI 밖의 영역을 배제하며, 인코딩된 비디오는 ROI 내의 인코딩된 비디오가 로컬 UE에서 렌더링 및 표시되는 것을 가능하기 위해 정의된 품질 레벨을 실질적으로 유지하면서 증가된 줌 레벨로 ROI 내의 영역을 포함한다.

하나의 구성에서, 제1 프로세서가 블록 710 및 720에서의 동작을 수행할 수 있다. 제1 프로세서는 단일 프로세서일 수 있거나, 대안으로서 제1 프로세서는 하나 이상의 개별 프로세서로 구성될 수 있다. 하나의 구성에서, 제2 프로세서가 블록 730 및 740에서의 동작을 수행할 수 있다. 제2 프로세서의 일례는 기저 대역 프로세서이다.

일례에서, 하나 이상의 PTZF 커맨드는 국제 전기 통신 연합(ITU) H.281/H.224 프로토콜에 따른다. 다른 예에서, 하나 이상의 프로세서는 단일 송신으로 하나 이상의 PTZF 커맨드를 원격 UE에 송신하도록 구성된다. 또 다른 예에서, ROI는 로컬 UE와 상호작용하는 사용자에 의해 선택된다. 또한, 하나 이상의 프로세서는 실시간 전송 제어 프로토콜(RTCP) 피드백 메시지를 사용하여 하나 이상의 PTZF 커맨드를 원격 UE로 전송하도록 구성된다.

일례에서, 하나 이상의 프로세서는 적어도 하나의 실시간 전송 프로토콜(RTP) 헤더 확장에 하나 이상의 PTZF 커맨드를 내장하고; 캡처된 로컬 비디오를 원격 UE로 전송하도록 구성되며, 캡처된 로컬 비디오는 하나 이상의 PTZF 커맨드를 갖는 RTP 헤더 확장을 포함한다. 다른 예에서, 하나 이상의 프로세서는 로컬 UE로부터 전송된 하나 이상의 PTZF 커맨드를 처리하기 위해 원격 UE에서 사용되는 하나 이상의 스텝 크기를 원격 UE로부터 수신하도록 더 구성된다.

일례에서, 하나 이상의 스텝 크기는 전용 실시간 전송 프로토콜(RTP) 헤더 확장 속성으로서 시그널링된다. 다른 예에서, 인코딩된 비디오는 원격 UE의 고정된 비이동 카메라를 사용하여 캡처된다. 또 다른 예에서, 하나 이상의 PTZF 커맨드는 원단 카메라 제어(FECC) 프로토콜에 따라 원격 UE로 전송된다. 또한, 하나 이상의 프로세서는 원격 UE가 하나 이상의 PTZF 커맨드를 수신하기 위한 향상된 원단 카메라 제어(FECC) 프로토콜을 지원함을 나타내는 세션 설명 프로토콜(SDP) 제의 메시지를 원격 UE로부터 수신하도록 더 구성된다.

일례에서, 하나 이상의 프로세서는 로컬 UE가 하나 이상의 PTZF 커맨드를 전송하기 위한 향상된 원단 카메라 제어(FECC) 프로토콜을 지원한다는 것을 확인하는 세션 설명 프로토콜(SDP) 응답 메시지를 전송하도록 더 구성된다. 다른 예에서, 하나 이상의 프로세서는 하나 이상의 PTZF 커맨드를 원격 UE에 전송하도록 구성되며, 원격 UE는 하나 이상의 PTZF 커맨드에 대응하는 ROI 내의 비디오를 캡처하도록 구성되고, ROI 내의 비디오만을 인코딩한다. 또 다른 예에서, 하나 이상의 프로세서는 ROI 기반 상호작용 줌잉 특징을 지원하는 비디오 회의 애플리케이션을 원격 UE와 함께 동작시키도록 더 구성된다.

도 8의 흐름도에 도시된 다른 예는 상호작용 줌잉 특징을 지원하는 비디오 회의 애플리케이션을 로컬 사용자 장비(UE)에서 동작시키기 위한 명령어가 구현된 적어도 하나의 비일시적 머신 판독 가능 저장 매체의 기능(800)을 제공한다. 명령어는 실행될 때 블록 810에서와 같이 로컬 UE로 하여금 로컬 UE의 적어도 하나의 프로세서를 사용하여 원격 UE의 카메라의 시야 내의 사용자 정의 관심 영역(ROI)을 식별하는 것을 수행하게 할 수 있다. 명령어는 실행될 때 블록 820에서와 같이 로컬 UE로 하여금 로컬 UE의 적어도 하나의 프로세서를 사용하여 ROI를 하나 이상의 팬, 틸트, 줌 및 포커스(PTZF) 커맨드에 매핑하는 것을 수행하게 할 수 있다. 명령어는 실행될 때 블록 830에서와 같이 로컬 UE로 하여금 로컬 UE의 적어도 하나의 프로세서를 사용하여 로컬 UE로부터 원격 UE로 하나 이상의 PTZF 커맨드를 송신하는 것을 수행하게 할 수 있으며, 원격 UE는 하나 이상의 PTZF 커맨드에 기초하여 ROI를 식별하도록 구성된다. 명령어는 실행될 때 블록 840에서와 같이 로컬 UE로 하여금 로컬 UE의 적어도 하나의 프로세서를 사용하여 원격 UE로부터 ROI 내의 인코딩된 비디오를 수신하는 것을 수행하게 할 수 있으며, 인코딩된 비디오는 ROI 내의 영역을 포함하고 ROI 밖의 영역을 배제하며, 인코딩된 비디오는 정의된 품질 레벨을 실질적으로 유지하면서 증가된 줌 레벨로 ROI 내의 영역을 포함한다. 명령어는 실행될 때 블록 850에서와 같이 로컬 UE로 하여금 로컬 UE의 적어도 하나의 프로세서를 사용하여 ROI 내의 인코딩된 비디오를 로컬 UE에서의 렌더링 및 표시를 위해 제공하는 것을 수행하게 할 수 있다.

일례에서, 하나 이상의 PTZF 커맨드는 국제 전기 통신 연합(ITU) H.281/H.224 프로토콜에 따른다. 다른 예에서, 적어도 하나의 비일시적 머신 판독 가능 저장소는 로컬 UE의 적어도 하나의 프로세서에 의해 실행될 때 로컬 UE로 하여금 단일 송신으로 하나 이상의 PTZF 커맨드를 원격 UE로 송신하는 것을 수행하게 하는 명령어를 더 포함할 수 있다. 또 다른 예에서, 적어도 하나의 비일시적 머신 판독 가능 저장소는 로컬 UE의 적어도 하나의 프로세서에 의해 실행될 때 로컬 UE로 하여금 실시간 전송 제어 프로토콜(RTCP) 피드백 메시지를 사용하여 하나 이상의 PTZF 커맨드를 원격 UE로 송신하는 것을 수행하게 하는 명령어를 더 포함할 수 있다.

일례에서, 적어도 하나의 비일시적 머신 판독 가능 저장소는 로컬 UE의 적어도 하나의 프로세서에 의해 실행될 때 로컬 UE로 하여금 적어도 하나의 실시간 전송 프로토콜(RTP) 헤더 확장에 하나 이상의 PTZF 커맨드를 내장하는 것; 및 캡처된 로컬 비디오를 원격 UE로 전송하는 것을 수행하게 하는 명령어를 더 포함할 수 있으며, 캡처된 로컬 비디오는 하나 이상의 PTZF 커맨드를 갖는 RTP 헤더 확장을 포함한다. 다른 예에서, 적어도 하나의 비일시적 머신 판독 가능 저장소는 로컬 UE의 적어도 하나의 프로세서에 의해 실행될 때 로컬 UE로 하여금 로컬 UE로부터 전송된 하나 이상의 PTZF 커맨드를 처리하기 위해 원격 UE에서 사용되는 하나 이상의 스텝 크기를 원격 UE로부터 수신하는 것을 수행하게 하는 명령어를 더 포함할 수 있고, 하나 이상의 스텝 크기는 전용 실시간 전송 프로토콜(RTP) 헤더 확장 속성으로서 시그널링된다. 또한, 하나 이상의 PTZF 커맨드는 원단 카메라 제어(FECC) 프로토콜에 따라 원격 UE로 전송된다.

다른 예는 도 9의 흐름도에 도시된 바와 같이 원격 UE(950)와 비디오 회의를 수행하도록 동작 가능한 로컬 사용자 장비(UE)(900)의 기능을 제공한다. 로컬 UE(900)는 원격 UE(950)의 카메라의 시야 내에서 사용자 정의 ROI를 식별하도록 구성된 관심 영역(ROI) 모듈(910)을 포함할 수 있다. 로컬 UE(900)는 ROI를 하나 이상의 팬, 틸트, 줌 및 포커스(PTZF) 커맨드에 매핑하도록 구성된 매핑 모듈(920)을 포함할 수 있으며, 하나 이상의 PTZF 커맨드는 국제 전기 통신 연합(ITU) H.281/H.224 프로토콜에 따라 정의된다. 로컬 UE(900)는 단일 송신으로 로컬 UE로부터의 원격 UE(950)로 하나 이상의 PTZF 커맨드를 송신하고 - 원격 UE는 하나 이상의 PTZF 커맨드에 기초하여 ROI를 식별하도록 구성됨 -; 원격 UE로부터 ROI 내의 인코딩된 비디오를 수신하도록 구성된 통신 모듈(930)을 포함할 수 있으며, 인코딩된 비디오는 ROI 내의 영역을 포함하고 ROI 외부의 영역을 배제하며, 인코딩된 비디오는 정의된 품질 레벨을 실질적으로 유지하면서 증가된 줌 레벨로 ROI 내의 영역을 포함한다. 로컬 UE(900)는 로컬 UE에서의 렌더링 및 디스플레이를 위해 ROI 내의 인코딩된 비디오를 제공하도록 구성된 디스플레이 모듈(940)을 포함할 수 있다.

일례에서, 통신 모듈(930)은 원격 UE가 하나 이상의 PTZF 커맨드를 수신하기 위한 향상된 원단 카메라 제어(FECC) 프로토콜을 지원한다는 것을 나타내는 세션 설명 프로토콜(SDP) 제의 메시지를 원격 UE(950)로부터 수신하고; 로컬 UE가 하나 이상의 PTZF 커맨드를 전송하기 위한 향상된 원단 카메라 제어(FECC) 프로토콜을 지원함을 확인하는 세션 설명 프로토콜(SDP) 응답 메시지를 송신하도록 더 구성될 수 있다.

일례에서, 통신 모듈(930)은 하나 이상의 PTZF 커맨드를 원격 UE(950)로 전송하도록 더 구성될 수 있으며, 원격 UE는 하나 이상의 PTZF 커맨드에 대응하는 ROI 내의 비디오를 캡처하도록 구성되고, ROI 내의 비디오만을 인코딩한다. 다른 예에서, 통신 모듈(930)은 실시간 전송 제어 프로토콜(RTCP) 피드백 메시지를 사용하여 하나 이상의 PTZF 커맨드를 원격 UE로 전송하도록 더 구성될 수 있다.

다른 예는 도 10의 흐름도에 도시된 바와 같이 로컬 UE와 비디오 회의를 수행하도록 동작 가능한 원격 사용자 장비(UE)의 기능(1000)을 제공한다. 기능은 방법으로서 구현될 수 있거나, 기능은 머신 상에서 명령어로서 실행될 수 있으며, 명령어는 적어도 하나의 컴퓨터 판독 가능 매체 또는 하나의 비일시적 머신 판독 가능 저장 매체에 포함된다. 원격 UE는 블록 1010에서와 같이 로컬 UE로부터 하나 이상의 팬, 틸트, 줌 및 포커스(PTZF) 커맨드를 수신하도록 구성된 하나 이상의 프로세서를 가질 수 있다. 하나 이상의 프로세서는 블록 1020에서와 같이 원격 UE에서 하나 이상의 PTZF 커맨드에 기초하여 관심 영역(ROI)을 식별하도록 구성될 수 있고, ROI는 원격 UE의 카메라의 시야 내에 있다. 하나 이상의 프로세서는 블록 1030에서와 같이 ROI 내의 인코딩된 비디오를 생성하도록 구성될 수 있으며, 인코딩된 비디오는 ROI 내의 영역을 포함하고 ROI 밖의 영역을 배제하며, 인코딩된 비디오는 정의된 품질 레벨을 실질적으로 유지하면서 증가된 줌 레벨로 ROI 내의 영역을 포함한다. 하나 이상의 프로세서는 블록 1040에서와 같이 로컬 UE가 ROI 내의 인코딩된 비디오를 렌더링하고 표시할 수 있게 하기 위해 ROI 내의 인코딩된 비디오를 로컬 UE로 전송하도록 구성될 수 있다.

일 구성에서, 제1 프로세서가 블록 1010, 1020 및 1030에서의 동작을 수행할 수 있다. 제1 프로세서는 단일 프로세서일 수 있거나, 대안적으로 제1 프로세서는 하나 이상의 개별 프로세서로 구성될 수 있다. 일 구성에서, 제2 프로세서가 블록 1040에서의 동작을 수행할 수 있다. 제2 프로세서의 일례는 기저 대역 프로세서이다.

일례에서, 하나 이상의 PTZF 커맨드는 국제 전기 통신 연합(ITU) H.281/H.224 프로토콜에 따른다. 다른 예에서, 하나 이상의 프로세서는 단일 송신으로 로컬 UE로부터 하나 이상의 PTZF 커맨드를 수신하도록 구성된다. 또 다른 예에서, 하나 이상의 프로세서는 실시간 전송 제어 프로토콜(RTCP) 피드백 메시지를 사용하여 로컬 UE로부터 하나 이상의 PTZF 커맨드를 수신하도록 구성된다. 또한, 하나 이상의 프로세서는 하나 이상의 스텝 크기를 로컬 UE로 전송하도록 더 구성되며, 스텝 크기는 원격 UE에서 하나 이상의 PTZF 커맨드를 처리하기 위해 사용되며, 하나 이상의 스텝 크기는 전용 실시간 전송 프로토콜(RTP) 헤더 확장 속성으로서 시그널링된다.

도 11은 사용자 장비(UE), 이동국(MS), 이동 무선 디바이스, 이동 통신 디바이스, 태블릿, 핸드셋 또는 다른 유형의 무선 디바이스와 같은 무선 디바이스의 예시적 도면을 제공한다. 무선 디바이스는 노드, 또는 송신국, 예컨대 기지국(BS), 진화된 노드 B(eNB), 기저대역 유닛(BBU), 원격 라디오 헤드(RRH), 원격 라디오 장비(RRE), 중계국(RS), 라디오 장비(RE), 원격 라디오 유닛(RRU), 중심 처리 모듈(CPM) 또는 다른 유형의 무선 광역 네트워크(WWAN) 액세스 포인트와 통신하도록 구성된 하나 이상의 안테나를 포함할 수 있다. 무선 디바이스는 3GPP LTE, WiMAX, 고속 패킷 액세스(HSPA), 블루투스 및 WiFi를 포함하는 적어도 하나의 무선 통신 표준을 사용하여 통신하도록 구성될 수 있다. 무선 디바이스는 각각의 무선 통신 표준을 위한 개별 안테나 또는 다수의 무선 통신 표준을 위한 공유 안테나를 이용하여 통신할 수 있다. 무선 디바이스는 무선 근거리 네트워크(WLAN), 무선 개인 영역 네트워크(WPAN) 및/또는 WWAN에서 통신할 수 있다.

도 11은 또한 무선 디바이스로부터의 오디오 입력 및 출력을 위해 사용될 수 있는 마이크 및 하나 이상의 스피커의 예시를 제공한다. 디스플레이 스크린은 액정 디스플레이(LCD) 스크린, 또는 유기 발광 다이오드(OLED) 디스플레이와 같은 다른 유형의 디스플레이 스크린일 수 있다. 디스플레이 스크린은 터치스크린으로서 구성될 수 있다. 터치스크린은 용량성, 저항성 또는 다른 유형의 터치스크린 기술을 이용할 수 있다. 처리 및 표시 능력을 제공하기 위해 애플리케이션 프로세서 및 그래픽 프로세서가 내부 메모리에 결합될 수 있다. 사용자에게 데이터 입출력 선택권을 제공하기 위해 비휘발성 메모리 포트가 사용될 수도 있다. 비휘발성 메모리 포트는 또한 무선 디바이스의 메모리 능력들을 확장하는 데 사용될 수 있다. 추가적인 사용자 입력을 제공하기 위해 키보드가 무선 디바이스와 통합되거나, 무선 디바이스에 무선 접속될 수 있다. 가상 키보드가 또한 터치스크린을 이용하여 제공될 수 있다.

다양한 기술, 또는 그의 특정 양태 또는 부분은 플로피 디스켓, 컴팩트 디스크 판독 전용 메모리(CD-ROM), 하드 드라이브, 비일시적 컴퓨터 판독 가능 저장 매체 또는 임의의 다른 머신 판독 가능 저장 매체와 같은 유형적인 매체 내에 구현된 프로그램 코드(즉, 명령어)의 형태를 취할 수 있으며, 프로그램 코드가 컴퓨터와 같은 머신에 로딩되어 그에 의해 실행될 때, 머신은 다양한 기술을 실시하기 위한 장치가 된다. 회로는 하드웨어, 펌웨어, 프로그램 코드, 실행가능 코드, 컴퓨터 명령어 및/또는 소프트웨어를 포함할 수 있다. 비일시적 컴퓨터 판독 가능 저장 매체는 신호를 포함하지 않는 컴퓨터 판독 가능 저장 매체일 수 있다. 프로그래밍 가능 컴퓨터 상에서 프로그램 코드를 실행하는 경우에, 컴퓨팅 디바이스는 프로세서, 프로세서에 의해 판독 가능한 저장 매체(휘발성 및 비휘발성 메모리 및/또는 저장 요소를 포함함), 적어도 하나의 입력 디바이스 및 적어도 하나의 출력 디바이스를 포함할 수 있다. 휘발성 및 비휘발성 메모리 및/또는 저장 요소는 랜덤 액세스 메모리(RAM), 소거 및 프로그래밍 가능 판독 전용 메모리(EPROM), 플래시 드라이브, 광 드라이브, 자기 하드 드라이브, 솔리드 스테이트 드라이브, 또는 전자 데이터를 저장하기 위한 다른 매체일 수 있다. 노드 및 무선 디바이스는 또한 송수신기 모듈(즉, 송수신기), 카운터 모듈(즉, 카운터), 처리 모듈(즉, 프로세서) 및/또는 클럭 모듈(즉, 클럭) 또는 타이머 모듈(타이머)을 포함할 수 있다. 본 명세서에서 설명된 다양한 기술을 구현 또는 사용할 수 있는 하나 이상의 프로그램은 애플리케이션 프로그래밍 인터페이스(API), 재사용 가능 제어 등을 사용할 수 있다. 이러한 프로그램은 컴퓨터 시스템과 통신하기 위해 하이 레벨 절차 또는 객체 지향 프로그래밍 언어로 구현될 수 있다. 그러나, 요구되는 경우에, 프로그램(들)은 어셈블리 또는 기계어로 구현될 수 있다. 어느 경우에나, 언어는 컴파일 또는 해석 언어이며, 하드웨어 구현과 결합될 수 있다.

본 명세서에서 사용되는 바와 같이, 프로세서라는 용어는 범용 프로세서, VLSI, FPGA 또는 다른 유형의 특수 프로세서와 같은 특수 프로세서는 물론, 송수신기에서 무선 통신을 송신, 수신 및 처리하는 데 사용되는 기저대역 프로세서도 포함할 수 있다.

본 명세서에서 설명된 많은 기능 유닛은 그들의 구현 독립성을 더 특별히 강조하기 위해 모듈로서 라벨링되었다는 것을 이해해야 한다. 예를 들어, 모듈은 맞춤형 대규모 집적(VLSI) 회로 또는 게이트 어레이, 기성 반도체, 예로서 논리 칩, 트랜지스터 또는 다른 개별 컴포넌트를 포함하는 하드웨어 회로로서 구현될 수 있다. 모듈은 필드 프로그래밍 가능 게이트 어레이, 프로그래밍 가능 어레이 논리, 프로그래밍 가능 논리 디바이스 등과 같은 프로그래밍 가능 하드웨어 디바이스로 구현될 수도 있다.

일례에서는, 본 명세서에서 설명되는 기능 유닛을 구현하기 위해 다수의 하드웨어 회로 또는 다수의 프로세서가 사용될 수 있다. 예로서, 제1 하드웨어 회로 또는 제1 프로세서가 처리 동작을 수행하는 데 사용될 수 있고, 제2 하드웨어 회로 또는 제2 프로세서(예로서, 송수신기)가 다른 엔티티와 통신하는 데 사용될 수 있다. 제1 하드웨어 회로 및 제2 하드웨어 회로는 단일 하드웨어 회로로 통합될 수 있거나, 대안으로서 제1 하드웨어 회로 및 제2 하드웨어 회로는 개별 하드웨어 회로일 수 있다.

모듈은 다양한 유형의 프로세서에 의한 실행을 위해 소프트웨어로 구현될 수도 있다. 실행 가능 코드의 식별된 모듈은 예를 들어 컴퓨터 명령어의 하나 이상의 물리 또는 논리 블록을 포함할 수 있으며, 이들은 예를 들어 객체, 절차 또는 함수로서 체계화될 수 있다. 그러나, 식별된 모듈의 실행 가능물들은 물리적으로 함께 위치할 필요는 없고, 상이한 위치에 저장된 이종의 명령어를 포함할 수 있으며, 이들은 논리적으로 함께 결합될 때 모듈을 포함하고 모듈에 대한 지정된 목적을 달성한다.

실제로, 실행 가능 코드의 모듈은 단일 명령어 또는 다수의 명령어일 수 있고, 심지어는 수 개의 상이한 코드 세그먼트에 걸쳐, 상이한 프로그램 사이에 그리고 수 개의 메모리 디바이스에 걸쳐 분산될 수 있다. 유사하게, 동작 데이터는 본 명세서에서 모듈 내에서 식별 및 예시될 수 있으며, 임의의 적합한 형태로 구현되고 임의의 적합한 유형의 데이터 구조 내에 체계화될 수 있다. 동작 데이터는 단일 데이터 세트로서 수집될 수 있거나, 상이한 저장 디바이스를 포함하는 상이한 위치에 걸쳐 분산될 수 있으며, 적어도 부분적으로는 단지 시스템 또는 네트워크 상에 전자 신호로서 존재할 수 있다. 모듈은 수동형 또는 능동형일 수 있으며, 원하는 기능을 수행하도록 동작 가능한 에이전트를 포함할 수 있다.

본 명세서 전반에서의 "일례" 또는 "예시적인"에 대한 언급은 그 예와 관련하여 설명되는 특정 특징, 구조 또는 특성이 본 발명의 적어도 하나의 실시예에 포함된다는 것을 의미한다. 따라서, 본 명세서 전반의 다양한 곳에서의 "일례에서"라는 문구 또는 "예시적인"이라는 단어의 출현은 모두가 반드시 동일한 실시예를 지칭하지는 않는다.

본 명세서에서 사용되는 바와 같이, 복수의 아이템, 구조 요소, 구성 요소 및/또는 재료는 편의를 위해 공통 리스트 내에 제시될 수 있다. 그러나, 이러한 리스트는 리스트의 각각의 멤버가 별개의 고유 멤버로서 개별적으로 식별되는 것처럼 해석되어야 한다. 따라서, 그러한 리스트의 어떠한 개별 멤버도 반대로 지시되지 않는 한은 단지 공통 그룹 내의 그들의 제시에 기초하여 동일 리스트의 임의의 다른 멤버의 사실상의 균등물로서 해석되지 않아야 한다. 또한, 본 발명의 다양한 실시예 및 예는 본 명세서에서 그들의 다양한 컴포넌트에 대한 대안과 함께 언급될 수 있다. 이러한 실시예, 예 및 대안은 서로의 사실상의 균등물로서 해석될 게 아니라, 본 발명의 별개의 자주적인 표현으로 간주되어야 한다는 것을 이해한다.

또한, 설명된 특징, 구조 또는 특성은 하나 이상의 실시예에서 임의의 적합한 방식으로 조합될 수 있다. 아래의 설명에서, 본 발명의 실시예의 완전한 이해를 제공하기 위해, 레이아웃, 거리, 네트워크 예 등의 예와 같은 다수의 특정한 상세가 제공된다. 그러나, 관련 기술분야의 기술자는 본 발명이 특정 상세들 중 하나 이상의 상세 없이도 또는 다른 방법, 컴포넌트, 레이아웃 등을 이용하여 실시될 수 있다는 것을 인식할 것이다. 다른 예에서, 잘 알려진 구조, 재료 또는 동작은 본 발명의 양태를 불명확하게 하지 않기 위해 상세히 도시 또는 설명되지 않는다.

전술한 예는 하나 이상의 특정 응용에서의 본 발명의 원리를 예시하지만, 구현의 형태, 사용 및 상세에 있어서의 다수의 변경이 발명 능력의 발휘 없이 그리고 본 발명의 원리 및 개념을 벗어나지 않고서 이루어질 수 있다는 것이 이 기술분야의 통상의 기술자에게 명백할 것이다. 따라서, 본 발명은 아래에 제시되는 청구범위에 의한 것 외에는 제한되는 것을 의도하지 않는다.

Claims

원격 사용자 장비(UE)와 비디오 회의를 수행하도록 동작 가능한 로컬 UE로서, 상기 로컬 UE는 하나 이상의 프로세서를 갖고, 상기 하나 이상의 프로세서는,
상기 로컬 UE에서, 상기 원격 UE의 카메라의 시야(field of view) 내의 관심 영역(ROI)을 정의하고;
상기 ROI를 하나 이상의 팬, 틸트, 줌 및 포커스(pan, tilt, zoom and focus)(PTZF) 커맨드에 매핑하고;
상기 로컬 UE로부터 상기 원격 UE에 상기 하나 이상의 PTZF 커맨드를 송신하고 - 상기 원격 UE는 상기 하나 이상의 PTZF 커맨드에 기초하여 상기 ROI를 식별하도록 구성됨 -;
상기 원격 UE로부터 상기 ROI 내의 인코딩된 비디오를 수신
하도록 구성되고, 상기 인코딩된 비디오는 상기 ROI 내의 영역들을 포함하고 상기 ROI 밖의 영역들을 배제하며, 상기 인코딩된 비디오는 상기 ROI 내의 상기 인코딩된 비디오가 상기 로컬 UE에서 렌더링 및 표시되는 것을 가능하게 하기 위해 정의된 품질 레벨을 실질적으로 유지하면서 증가된 줌 레벨로 상기 ROI 내의 상기 영역들을 포함하는, 로컬 UE.
제1항에 있어서, 상기 하나 이상의 PTZF 커맨드는 국제 전기 통신 연합(ITU) H.281/H.224 프로토콜에 따르는, 로컬 UE.
제1항에 있어서, 상기 하나 이상의 프로세서는 단일 송신으로 상기 하나 이상의 PTZF 커맨드를 상기 원격 UE에 송신하도록 구성되는, 로컬 UE.
제1항에 있어서, 상기 ROI는 상기 로컬 UE와 상호작용하는 사용자에 의해 선택되는, 로컬 UE.
제1항에 있어서, 상기 하나 이상의 프로세서는 실시간 전송 제어 프로토콜(real-time transport control protocol)(RTCP) 피드백 메시지를 사용하여 상기 하나 이상의 PTZF 커맨드를 상기 원격 UE에 송신하도록 구성되는, 로컬 UE.
제1항에 있어서, 상기 하나 이상의 프로세서는,
적어도 하나의 실시간 전송 프로토콜(RTP) 헤더 확장(header extension)에 상기 하나 이상의 PTZF 커맨드를 내장(embed)하고;
캡처된 로컬 비디오를 상기 원격 UE에 송신
하도록 구성되고, 상기 캡처된 로컬 비디오는 상기 하나 이상의 PTZF 커맨드를 갖는 상기 RTP 헤더 확장을 포함하는, 로컬 UE.
제1항에 있어서, 상기 하나 이상의 프로세서는 상기 로컬 UE로부터 송신되는 상기 하나 이상의 PTZF 커맨드를 처리하기 위해 상기 원격 UE에서 사용되는 하나 이상의 스텝 크기(step size)를 상기 원격 UE로부터 수신하도록 더 구성되는, 로컬 UE.
제7항에 있어서, 상기 하나 이상의 스텝 크기는 전용 실시간 전송 프로토콜(RTP) 헤더 확장 속성들로서 시그널링되는, 로컬 UE.
제1항에 있어서, 상기 인코딩된 비디오는 상기 원격 UE의 고정된 비이동 카메라(fixed non-moving camera)를 사용하여 캡처되는, 로컬 UE.
제1항에 있어서, 하나 이상의 PTZF 커맨드는 원단 카메라 제어(far end camera control)(FECC) 프로토콜에 따라 상기 원격 UE에 송신되는, 로컬 UE.
제1항에 있어서, 상기 하나 이상의 프로세서는 상기 원격 UE가 상기 하나 이상의 PTZF 커맨드를 수신하기 위한 향상된 원단 카메라 제어(FECC) 프로토콜을 지원함을 나타내는 세션 설명 프로토콜(session description protocol)(SDP) 제의(offer) 메시지를 상기 원격 UE로부터 수신하도록 더 구성되는, 로컬 UE.
제1항에 있어서, 상기 하나 이상의 프로세서는 상기 로컬 UE가 상기 하나 이상의 PTZF 커맨드를 송신하기 위한 향상된 원단 카메라 제어(FECC) 프로토콜을 지원함을 확인하는(acknowledging) 세션 설명 프로토콜(SDP) 응답(answer) 메시지를 송신하도록 더 구성되는, 로컬 UE.
제1항에 있어서, 상기 하나 이상의 프로세서는 상기 하나 이상의 PTZF 커맨드를 상기 원격 UE에 송신하도록 구성되며, 상기 원격 UE는 상기 하나 이상의 PTZF 커맨드에 대응하는 상기 ROI 내의 비디오를 캡처하고, 상기 ROI 내의 상기 비디오만 인코딩하도록 구성되는, 로컬 UE.
제1항에 있어서, 상기 하나 이상의 프로세서는 ROI 기반 상호작용 줌잉 특징(ROI-based interactive zooming feature)을 지원하는 상기 원격 UE와의 비디오 회의 애플리케이션을 동작시키도록 더 구성되는, 로컬 UE.
상호작용 줌잉 특징을 지원하는 비디오 회의 애플리케이션을 로컬 사용자 장비(UE)에서 동작시키기 위한 명령어들이 구현된 적어도 하나의 비일시적 머신 판독 가능 저장 매체로서, 상기 명령어들은 실행될 때 상기 로컬 UE로 하여금:
상기 로컬 UE의 적어도 하나의 프로세서를 사용하여, 상기 원격 UE의 카메라의 시야 내의 사용자 정의(user-defined) 관심 영역(ROI)을 식별하는 것;
상기 로컬 UE의 상기 적어도 하나의 프로세서를 사용하여, 상기 ROI를 하나 이상의 팬, 틸트, 줌 및 포커스(PTZF) 커맨드에 매핑하는 것;
상기 로컬 UE의 상기 적어도 하나의 프로세서를 사용하여, 상기 로컬 UE로부터 상기 원격 UE에 상기 하나 이상의 PTZF 커맨드를 송신하는 것 - 상기 원격 UE는 상기 하나 이상의 PTZF 커맨드에 기초하여 상기 ROI를 식별하도록 구성됨 -;
상기 로컬 UE의 상기 적어도 하나의 프로세서를 사용하여, 상기 원격 UE로부터 상기 ROI 내의 인코딩된 비디오를 수신하는 것 - 상기 인코딩된 비디오는 상기 ROI 내의 영역들을 포함하고 상기 ROI 밖의 영역들을 배제하며, 상기 인코딩된 비디오는 정의된 품질 레벨을 실질적으로 유지하면서 증가된 줌 레벨로 상기 ROI 내의 상기 영역들을 포함함 -; 및
상기 로컬 UE의 상기 적어도 하나의 프로세서를 사용하여, 상기 로컬 UE에서의 렌더링 및 표시를 위해 상기 ROI 내의 상기 인코딩된 비디오를 제공하는 것
을 수행하게 하는, 적어도 하나의 비일시적 머신 판독 가능 저장 매체.
제15항에 있어서, 상기 하나 이상의 PTZF 커맨드는 국제 전기 통신 연합(ITU) H.281/H.224 프로토콜에 따르는, 적어도 하나의 비일시적 머신 판독 가능 저장 매체.
제15항에 있어서, 상기 로컬 UE의 상기 적어도 하나의 프로세서에 의해 실행될 때 상기 로컬 UE로 하여금:
단일 송신으로 상기 하나 이상의 PTZF 커맨드를 상기 원격 UE에 송신하는 것을 수행하게 하는 명령어들을 더 포함하는, 적어도 하나의 비일시적 머신 판독 가능 저장 매체.
제15항에 있어서, 상기 로컬 UE의 상기 적어도 하나의 프로세서에 의해 실행될 때 상기 로컬 UE로 하여금:
실시간 전송 제어 프로토콜(RTCP) 피드백 메시지를 사용하여 상기 하나 이상의 PTZF 커맨드를 상기 원격 UE에 송신하는 것을 수행하게 하는 명령어들을 더 포함하는, 적어도 하나의 비일시적 머신 판독 가능 저장 매체.
제15항에 있어서, 상기 로컬 UE의 상기 적어도 하나의 프로세서에 의해 실행될 때 상기 로컬 UE로 하여금:
적어도 하나의 실시간 전송 프로토콜(RTP) 헤더 확장에 상기 하나 이상의 PTZF 커맨드를 내장하는 것; 및
캡처된 로컬 비디오를 상기 원격 UE에 송신하는 것
을 수행하게 하는 명령어들을 더 포함하고, 상기 캡처된 로컬 비디오는 상기 하나 이상의 PTZF 커맨드를 갖는 상기 RTP 헤더 확장을 포함하는, 적어도 하나의 비일시적 머신 판독 가능 저장 매체.
제15항에 있어서, 상기 로컬 UE의 상기 적어도 하나의 프로세서에 의해 실행될 때 상기 로컬 UE로 하여금:
상기 로컬 UE로부터 송신되는 상기 하나 이상의 PTZF 커맨드를 처리하기 위해 상기 원격 UE에서 사용되는 하나 이상의 스텝 크기를 상기 원격 UE로부터 수신하는 것을 수행하게 하는 명령어들을 더 포함하고, 상기 하나 이상의 스텝 크기는 전용 실시간 전송 프로토콜(RTP) 헤더 확장 속성들로서 시그널링되는, 적어도 하나의 비일시적 머신 판독 가능 저장 매체.
제15항에 있어서, 상기 하나 이상의 PTZF 커맨드는 원단 카메라 제어(FECC) 프로토콜에 따라 상기 원격 UE에 송신되는, 적어도 하나의 비일시적 머신 판독 가능 저장 매체.
원격 사용자 장비(UE)와 비디오 회의를 수행하도록 동작 가능한 로컬 UE로서, 상기 로컬 UE는,
상기 원격 UE의 카메라의 시야 내의 사용자 정의 관심 영역(ROI)을 식별하도록 구성된 ROI 모듈;
상기 ROI를 하나 이상의 팬, 틸트, 줌 및 포커스(PTZF) 커맨드에 매핑하도록 구성된 매핑 모듈 - 상기 하나 이상의 PTZF 커맨드는 국제 전기 통신 연합(ITU) H.281/H.224 프로토콜에 따라 정의됨 -;
통신 모듈 - 상기 통신 모듈은,
단일 송신으로 상기 로컬 UE로부터 상기 원격 UE에 상기 하나 이상의 PTZF 커맨드를 송신하고 - 상기 원격 UE는 상기 하나 이상의 PTZF 커맨드에 기초하여 상기 ROI를 식별하도록 구성됨 -;
상기 원격 UE로부터 상기 ROI 내의 인코딩된 비디오를 수신 - 상기 인코딩된 비디오는 상기 ROI 내의 영역들을 포함하고 상기 ROI 밖의 영역들을 배제하며, 상기 인코딩된 비디오는 정의된 품질 레벨을 실질적으로 유지하면서 증가된 줌 레벨로 상기 ROI 내의 상기 영역들을 포함함 -
하도록 구성됨 -; 및
상기 로컬 UE에서의 렌더링 및 표시를 위해 상기 ROI 내에 상기 인코딩된 비디오를 제공하도록 구성된 디스플레이 모듈
을 포함하는, 로컬 UE.
제22항에 있어서, 상기 통신 모듈은,
상기 원격 UE가 상기 하나 이상의 PTZF 커맨드를 수신하기 위한 향상된 원단 카메라 제어(FECC) 프로토콜을 지원함을 나타내는 세션 설명 프로토콜(SDP) 제의 메시지를 상기 원격 UE로부터 수신하고;
상기 로컬 UE가 상기 하나 이상의 PTZF 커맨드를 송신하기 위한 향상된 원단 카메라 제어(FECC) 프로토콜을 지원함을 확인하는 세션 설명 프로토콜(SDP) 응답 메시지를 송신하도록 더 구성되는, 로컬 UE.
제22항에 있어서, 상기 통신 모듈은 상기 하나 이상의 PTZF 커맨드를 상기 원격 UE에 송신하도록 더 구성되며, 상기 원격 UE는 상기 하나 이상의 PTZF 커맨드에 대응하는 상기 ROI 내의 비디오를 캡처하고, 상기 ROI 내의 상기 비디오만을 인코딩하도록 구성되는, 로컬 UE.
제22항에 있어서, 상기 통신 모듈은 실시간 전송 제어 프로토콜(RTCP) 피드백 메시지를 사용하여 상기 하나 이상의 PTZF 커맨드를 상기 원격 UE에 송신하도록 더 구성되는, 로컬 UE.
로컬 사용자 장비(UE)와 비디오 회의를 수행하도록 동작 가능한 원격 UE로서, 상기 원격 UE는 하나 이상의 프로세서를 갖고, 상기 하나 이상의 프로세서는,
상기 로컬 UE로부터 하나 이상의 팬, 틸트, 줌 및 포커스(PTZF) 커맨드를 수신하고;
상기 원격 UE에서, 상기 하나 이상의 PTZF 커맨드에 기초하여 관심 영역(ROI)을 식별하고 - 상기 ROI는 상기 원격 UE의 카메라의 시야 내에 있음 -;
상기 ROI 내의 인코딩된 비디오를 생성하고 - 상기 인코딩된 비디오는 상기 ROI 내의 영역들을 포함하고 상기 ROI 밖의 영역들을 배제하며, 상기 인코딩된 비디오는 정의된 품질 레벨을 실질적으로 유지하면서 증가된 줌 레벨로 상기 ROI 내의 상기 영역들을 포함함 -;
상기 로컬 UE가 상기 ROI 내의 상기 인코딩된 비디오를 렌더링 및 표시하는 것을 가능하게 하기 위해 상기 ROI 내의 상기 인코딩된 비디오를 상기 로컬 UE에 송신하도록 구성되는, 원격 UE.
제26항에 있어서, 상기 하나 이상의 PTZF 커맨드는 국제 전기 통신 연합(ITU) H.281/H.224 프로토콜에 따르는, 원격 UE.
제26항에 있어서, 상기 하나 이상의 프로세서는 단일 송신으로 상기 로컬 UE로부터 상기 하나 이상의 PTZF 커맨드를 수신하도록 구성되는, 원격 UE.
제26항에 있어서, 상기 하나 이상의 프로세서는 실시간 전송 제어 프로토콜(RTCP) 피드백 메시지를 사용하여 상기 로컬 UE로부터 상기 하나 이상의 PTZF 커맨드를 수신하도록 구성되는, 원격 UE.
제26항에 있어서, 상기 하나 이상의 프로세서는 하나 이상의 스텝 크기를 상기 로컬 UE에 송신하도록 더 구성되며, 상기 스텝 크기는 상기 하나 이상의 PTZF 커맨드를 처리하기 위해 상기 원격 UE에서 사용되고, 상기 하나 이상의 스텝 크기는 전용 실시간 전송 프로토콜(RTP) 헤더 확장 속성들로서 시그널링되는, 원격 UE.