KR100972369B1 - 비디오 전화기를 위한 관심 영역 처리 - Google Patents
비디오 전화기를 위한 관심 영역 처리 Download PDFInfo
- Publication number
- KR100972369B1 KR100972369B1 KR20077023067A KR20077023067A KR100972369B1 KR 100972369 B1 KR100972369 B1 KR 100972369B1 KR 20077023067 A KR20077023067 A KR 20077023067A KR 20077023067 A KR20077023067 A KR 20077023067A KR 100972369 B1 KR100972369 B1 KR 100972369B1
- Authority
- KR
- South Korea
- Prior art keywords
- roi
- video
- remote
- far
- end video
- Prior art date
Links
- 238000012545 processing Methods 0.000 title claims abstract description 37
- 238000000034 method Methods 0.000 claims abstract description 101
- 238000004891 communication Methods 0.000 claims description 145
- 238000000605 extraction Methods 0.000 claims description 67
- 230000033001 locomotion Effects 0.000 claims description 22
- 230000011664 signaling Effects 0.000 claims description 18
- 230000001755 vocal effect Effects 0.000 claims description 11
- 238000012805 post-processing Methods 0.000 claims description 7
- 238000012544 monitoring process Methods 0.000 claims description 4
- 238000003672 processing method Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 29
- 230000008569 process Effects 0.000 description 22
- 230000005540 biological transmission Effects 0.000 description 11
- 230000000903 blocking effect Effects 0.000 description 8
- 238000001514 detection method Methods 0.000 description 8
- 238000013507 mapping Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 3
- 210000000887 face Anatomy 0.000 description 3
- 230000008921 facial expression Effects 0.000 description 3
- 230000002829 reductive effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/141—Systems for two-way working between two video terminals, e.g. videophone
- H04N7/147—Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/167—Position within a video image, e.g. region of interest [ROI]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/1066—Session management
- H04L65/1083—In-session procedures
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/40—Support for services or applications
- H04L65/403—Arrangements for multi-party communication, e.g. for conferences
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/61—Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio
- H04L65/613—Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio for the control of the source by the destination
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/75—Media network packet handling
- H04L65/762—Media network packet handling at the source
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/136—Incoming video signal characteristics or properties
- H04N19/137—Motion inside a coding unit, e.g. average field, frame or block difference
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/162—User input
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/46—Embedding additional information in the video signal during the compression process
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/472—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
- H04N21/4728—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for selecting a Region Of Interest [ROI], e.g. for requesting a higher resolution version of a selected region
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/478—Supplemental services, e.g. displaying phone caller identification, shopping application
- H04N21/4788—Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/16—Analogue secrecy systems; Analogue subscription systems
- H04N7/173—Analogue secrecy systems; Analogue subscription systems with two-way working, e.g. subscriber sending a programme selection signal
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- General Business, Economics & Management (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Telephonic Communication Services (AREA)
- Processing Of Color Television Signals (AREA)
- Picture Signal Circuits (AREA)
Abstract
본 개시물은 비디오 전화기(VT) 애플리케이션에 대한 관심 영역(ROI) 처리를 위한 기술에 관한 것이다. 개시된 기술들에 따라, 수신측 디바이스는 송신측 디바이스에 의해 전송된 비디오, 즉 파-엔드 비디오에 대하여 ROI 정보를 정의한다. 수신측 디바이스는 ROI 정보를 송신측 디바이스에 전송한다. 수신측 디바이스에 의해 전송된 ROI 정보를 사용하여, 송신측 디바이스는 비디오 장면 내의 ROI에 우선적인 인코딩을 적용한다. 상기 방식에서, 수신측 디바이스는 송신측 디바이스에 의한 파-엔드 비디오 정보의 ROI 인코딩을 원격으로 제어할 수 있다.
Description
본 출원은 "비디오 전화기를 위한 관심 영역 추출"이라는 명칭으로 2005년 3월 9일에 제출된 미국 임시 출원 60/660,200 및 2005년 7월 15일에 제출된 계류중인 미국 특허 출원 번호 11/182,432의 우선권을 청구한다.
본 발명은 디지털 비디오 인코딩 및 디코딩에 관한 것이며, 특히 비디오 전화기(VT) 응용들을 위한 관심 영역(ROI) 처리에 대한 기술에 관한 것이다.
다수의 서로 다른 비디오 인코딩 표준들이 디지털 비디오 시퀀스들을 인코딩하기 위해 형성되었다. 동영상 전문가 그룹(MPEG)은 MPEG-1, MPEG-2 및 MPEG4를 포함하는 다수의 표준들을 개발하였다. 다른 예들은 국제 원격 통신 협회(ITU) H.263 표준 및 신흥 ITU H.264 표준을 포함한다. 상기 비디오 인코딩 표준들은 일반적으로 압축 방식으로 데이터를 인코딩함으로써 비디오 시퀀스들의 개선된 전송 효율을 지원한다.
비디오 전화기(VT)는 비디오 회의와 같은 응용들을 지원하기 위해 비디오 및 오디오 정보를 사용자들이 공유하도록 허가한다. 예시적인 비디오 전화기 표준은 세션 초기화 프로토콜(SIP), ITU H.323 표준, 및 ITU H.324 표준에 의해 정의되는 표준들을 포함한다. VT 시스템에서, 사용자들은 비디오 정보를 송수신하거나, 비디오 정보를 수신하기만 하거나, 비디오 정보를 송신하기만 할 수 있다. 수신자는 일반적으로 송신자로부터 전송된 형식으로 수신된 비디오 정보를 볼 수 있다.
비디오 정보의 선택된 부분의 우선적인 인코딩이 제안된다. 예를 들어, 송신자는 수신자로의 전송을 위해 더 높은 품질로 인코딩될 관심 영역(ROI)을 규정할 수 있다. 송신자는 원격 수신자에게 ROI를 강조할 것을 희망할 수 있다. ROI의 일반적인 예는 인간의 얼굴이지만, 송신자는 비디오 장면 내의 다른 물체들로의의 집중을 강조하기를 원할 수 있다. ROI의 우선적인 인코딩을 사용하여, 수신자는 비-ROI 영역들보다 더 명확하게 ROI를 볼 수 있다.
본 개시물은 비디오 전화기(VT)에 대한 관심 영역(ROI) 처리를 위한 기술에 관한 것이다. 개시된 기술들에 의하면, 로컬 수신측 디바이스는 원격 송신측 디바이스에 의해 인코딩되고 전송된 비디오, 즉 파-엔드(far-end) 비디오에 대하여 ROI 정보를 정의한다. 로컬 수신측 디바이스는 ROI 정보를 원격 송신측 디바이스에 전송한다. 수신측 디바이스에 의해 전송된 ROI 정보를 사용하여, 송신측 디바이스는 비디오 장면 내에서 ROI에 더 높은 품질 인코딩 또는 에러 보호와 같은 우선적인 인코딩을 적용한다. 상기 방식에서, 수신측 디바이스는 송신측 디바이스에 의해 인코딩된 파-엔드 비디오의 ROI 인코딩을 원격으로 제어할 수 있다.
파-엔드 비디오를 수신하는데 추가하여, 수신자는 비디오, 즉 니어-엔드(near-end) 비디오를 송신하는 설비를 갖출 수 있다. 따라서, VT 통신에 참여하는 디바이스들은 비디오 정보의 송신자 및 수신자 모두로 동시에 동작할 수 있다. 수신자로 동작할 때, 각각의 디바이스는 송신자로서의 원격 디바이스에 의해 인코딩된 비디오에 대해 파-엔드 ROI 정보를 정의할 수 있다. 송신자로서 동작할 때, 각각의 디바이스는 수신자로서의 다른 디바이스로 전송되는 비디오 정보를 위한 니어-엔드 ROI 정보를 정의할 수 있다. 송신 또는 수신측 디바이스는 ROI 비디오 인코딩의 원격 제어를 지원하기 위해 또다른 디바이스에 의해 제공된 ROI 정보를 처리할 수 있다는 관점에서 "ROI-인식형(aware)"으로 지칭될 수 있다.
파-엔드 ROI 정보는 수신된 비디오 장면 내의 물체들 또는 영역들을 더 명확하게 보기 위해 송신측 디바이스에 의한 원격 ROI 인코딩을 수신측이 제어하도록 허용한다. 니어-엔드 ROI 정보는 송신된 비디오 장면 내의 물체들 또는 영역들을 강조하기 위해 로컬 ROI 인코딩을 송신자가 제어하도록 허용한다. 따라서, 송신자에 의한 ROI의 우선적인 인코딩은 수신자 또는 송신자에 의해 발생된 ROI 정보에 기초할 수 있다. 부가적으로, 수신측 디바이스는 에러 숨김, 블럭킹 차단 또는 벨울림 차단 기술들과 같은 더 높은 품질의 사후-처리의 응용에 의한 것과 같이 ROI 정보에 기초하여 ROI를 우선적으로 디코딩할 수 있다.
ROI 프로세싱을 용이하게 하기 위해, 본 개시물은 추가로 ROI 선택, ROI 맵핑, ROI 추출, ROI 시그널링, ROI 트래킹 및 송신측 디바이스에 의한 ROI 인코딩의 원격 제어를 허용하도록 수신측 디바이스들의 액세스 인증을 위한 기술들을 고려한다. ROI 선택은 미리 정의된 ROI 패턴들, 구두형 또는 문서형 ROI 설명들, 또는 사용자에 의한 ROI 그림(drawing)에 따라 결정될 수 있다. ROI 맵핑은 비디오 인코더에 의한 사용에 적합한 매크로블럭(MB) 맵의 형태를 취할 수 있는 ROI 맵으로 선택된 ROI 패턴의 변환을 포함한다.
ROI 시그널링은 수신측으로부터 송신측 디바이스로의 ROI 정보의 대역 내(in-band) 또는 대역 외(out-of-band) 시그널링을 포함한다. ROI 트래킹은 ROI 모션에 응답하여 ROI 맵의 동적 조정을 포함한다. 액세스 인증은 원격 ROI 제어를 위해 수신측 디바이스들로의 액세스 권리 및 레벨들의 허가뿐만 아니라 로컬 사용자들과 원격 사용자들 사이, 또는 다수의 원격 사용자들에서 ROI 제어 충돌들의 해결을 포함한다.
ROI 추출은 설명에 기초하여 ROI를 규정하는 정보를 발생시키기 위해 관심 영역(ROI)의 사용자 설명을 처리하는 것을 포함할 수 있다. 니어-엔드 비디오는 니어-엔드 비디오의 비-ROI 영역들과 관련하여 ROI의 이미지 품질을 개선하기 위해 ROI를 규정하는 정보에 기초하여 인코딩될 수 있다. 사용자 설명은 문서형, 그래픽 또는 음성에 기반할 수 있다. 추출 모듈은 사용자 설명으로부터 발생된 ROI 정보에 적절한 처리를 적용한다. 추출 모듈은 비디오 통신 디바이스에 국부적으로 상주하거나 ROI 추출을 위해 구성된 개별 중간 서버 내에 상주할 수 있다.
일 실시예에서, 본 개시물은 로컬 디바이스에 의해 인코딩되고 원격 디바이스에 의해 수신된 니어-엔드 비디오 내의 관심 영역(ROI)을 규정하는 정보를 원격 디바이스로부터 수신하는 단계 및 상기 비디오의 비-ROI 영역들에 비해 ROI의 이미지 품질을 개선하기 위해 ROI에 기초하여 니어-엔드 비디오를 인코딩하는 단계를 포함하는 방법을 제공한다.
또다른 실시예에서, 본 개시물은 원격 디바이스로 전송된 니어-엔드 비디오 내의 관심 영역(ROI)을 규정하는 원격 비디오 통신 디바이스로부터의 정보를 수신하는 관심 영역(ROI) 엔진 및 상기 비디오의 비-ROI 영역들과 관련하여 ROI의 이미지 품질을 개선하기 위해 니어-엔드 비디오를 인코딩하는 비디오 인코더를 포함하는 비디오 인코딩 디바이스를 제공한다.
또다른 실시예에서, 본 개시물은 원격 디바이스에 의해 전송되고 로컬 디바이스에 의해 수신된 파-엔드 비디오 내의 관심 영역(ROI)을 규정하는 정보를 발생하는 단계 및 상기 비디오의 비-ROI 영역들과 관련하여 ROI의 이미지 품질을 개선하기 위해 ROI에 기초하여 파-엔드 비디오를 인코딩하는데 사용하기 위한 정보를 원격 디바이스에 전송하는 단계를 포함하는 방법을 제공한다.
추가 실시예에서, 본 개시물은 원격 디바이스로부터 수신된 파-엔드 비디오 내의 관심 영역(ROI)을 규정하는 정보를 발생시키는 관심 영역(ROI) 엔진, 및 니어-엔드 비디오를 인코딩하고, 상기 파-엔드 비디오의 비-ROI 영역들에 비해 ROI의 이미지 품질을 개선하기 위해 ROI에 기초하여 파-엔드 비디오를 인코딩하는데 있어서 원격 디바이스에 의한 사용을 위해 상기 인코딩된 니어-엔드 비디오와 함께 ROI를 규정하는 정보를 전송하는 비디오 인코더를 포함하는 비디오 인코딩 디바이스를 제공한다.
또다른 실시예에서, 본 개시물은 로컬 디바이스에 의해 발생된 니어-엔드 비디오 내의 관심 영역(ROI)의 설명을 사용자로부터 수신하는 단계, 상기 설명에 기초하여 ROI를 규정하는 정보를 발생하는 단계 및 니어-엔드 비디오의 비-ROI 영역들과 관련하여 ROI의 이미지 품질을 개선하기 위해 ROI를 규정하는 정보에 기초하여 니어-엔드 비디오를 인코딩하는 단계를 포함하는 방법을 제공한다.
추가 실시예에서, 본 개시물은 비디오 인코딩 디바이스에 의해 인코딩된 니어-엔드 비디오 내의 관심 영역(ROI)의 설명을 수신하고, 상기 설명에 기초하여 ROI를 규정하는 정보를 발생하는 관심 영역(ROI) 엔진 및 상기 비디오의 비-ROI 영역들과 관련하여 ROI의 이미지 품질을 개선하기 위해 니어-엔드 비디오를 인코딩하는 비디오 인코더를 포함하는 비디오 인코딩 디바이스를 제공한다.
추가 실시예에서, 본 개시물은 니어-엔드 비디오를 인코딩하는 제 1 비디오 통신 디바이스, 상기 제 1 비디오 통신 디바이스로부터의 상기 니어-엔드 비디오를 수신하고, 상기 제 1 비디오 통신 디바이스로부터 발생된 상기 니어-엔드 비디오 내의 관심 영역(ROI)의 사용자 설명을 발생시키는 제 2 비디오 통신 디바이스, 및 상기 제 1 및 제 2 비디오 통신 디바이스와 구조적으로 구별되며, 상기 설명에 기초하여 상기 ROI를 규정하는 정보를 발생하는 중간 서버를 포함하는 비디오 인코딩 시스템을 제공하며, 상기 제 1 비디오 통신 디바이스는 상기 니어-엔드 비디오의 비-ROI 영역들과 관련하여 상기 ROI의 이미지 품질을 개선하기 위해 상기 ROI를 규정하는 정보에 기초하여 상기 니어-엔드 비디오를 인코딩한다.
본 명세서에 개시된 기술들은 하드웨어, 소프트웨어, 펌웨어 또는 이들의 조합에서 구현될 수 있다. 소프트웨어에서 구현되는 경우에, 상기 기술들은 실행될 때, 본 명세서에 개시된 하나 또는 그 이상의 방법들을 수행하도록 지시하는 명령을 포함하는 컴퓨터 코드를 구비한 컴퓨터로 읽을 수 있는 매체에 의해 부분적으로 실행될 수 있다.
일 또는 그 이상의 실시예들의 세부 설명들이 하기의 도면을 참조로 하여 설명된다. 다른 특징들, 목적들 및 장점들은 하기의 설명, 도면 및 청구항으로부터명백할 것이다.??
도 1은 ROI-인식형 비디오 인코더-디코더들(CODECs)을 포함하는 비디오 인코딩 및 디코딩 시스템을 도시하는 블럭 다이어그램이다.
도 2는 무선 통신 디바이스와 결합된 디스플레이에 표현되는 비디오 장면 내에서 ROI의 정의를 도시하는 다이어그램이다.
도 3은 ROI-인식 CODEC을 포함하는 통신 디바이스를 도시하는 블럭 다이어그램이다.
도 4는 ROI-인식 CODEC을 구비하며 추가로 ROI 추출 모듈을 통합하는 또다른 통신 디바이스를 도시하는 블럭 다이어그램이다.
도 5는 중간 추출 서버를 통해 분포된 ROI 추출을 도시하는 블럭 다이어그램이다.
도 6은 다수의 비디오 전화기 세션들을 위해 분포된 ROI 추출을 도시하는 블럭 다이어그램이다.
도 7A-7D는 사용자에 의한 선택을 위해 미리-정의된 ROI 패턴들을 도시하는 다이어그램들이다.
도 8은 원격 송신측 디바이스에서 니어-엔드 비디오의 우선적인 ROI 인코딩 을 제어하기 위해 수신측 디바이스에서 ROI 정보의 발생을 설명하는 흐름도이다.
도 9는 ROI 트래킹과 함께 송신측 디바이스에서 니어-엔드 비디오의 우선적인 ROI 인코딩을 위해 수신측 디바이스로부터 ROI 정보를 처리하는 것을 설명하는 흐름도이다.
도 10은 사용자 인증과 함께 송신측 디바이스에서 니어-엔드 비디오의 우선적인 ROI 인코딩을 위해 수신측 디바이스로부터 ROI 정보를 처리하는 것을 설명하는 흐름도이다.
도 11은 미리 정의된 ROI 패턴들의 선택을 설명하는 흐름도이다.
도 12는 ROI 템플릿의 확대 및 축소에 의해 디스플레이된 비디오 장면에서 ROI 패턴의 정의를 도시하는 다이어그램이다.
도 13은 ROI 템플릿을 드래그함으로써 디스플레이된 비디오 장면에서 ROI 패턴의 정의를 도시하는 다이어그램이다.
도 14는 스타일러스 사용하여 터치 스크린상에 ROI 영역을 그림으로써 디스플레이된 비디오 장면에서 ROI 패턴의 정의를 도시하는 다이어그램이다.
도 15는 규정된 ROI 물체들이 동적으로 추출되고 트래킹되는 드롭-다운 메뉴를 사용하여 디스플레이된 비디오 장면에서 ROI 패턴의 정의를 도시하는 다이어그램이다.
도 16은 도 7A-7D에서와 같이 규정된 ROI 물체들이 미리 정의된 ROI 패턴들로 맵핑되는 드롭-다운 메뉴를 사용하여 디스플레이된 비디오 장면에서 ROI 패턴의 정의를 도시하는 다이어그램이다.
도 17은 ROI 설명 인터페이스를 사용하여 디스플레이된 비디오 장면에서 ROI 패턴의 정의를 도시하는 흐름도이다.
도 18은 송신측 및 수신측 디바이스들 사이에서 ROI 충돌들의 해결을 설명하는 흐름도이다.
도 19는 파-엔드 비디오 내의 ROI 매크로 블럭들의 우선적인 디코딩을 설명하는 흐름도이다.
도 1은 ROI-인식형 비디오 인코더-디코더들(CODECs)을 통합하는 비디오 인코딩 및 디코딩 시스템(10)을 도시하는 블럭 다이어그램이다. 도 1에 도시된 것과 같이, 시스템(10)은 제 1 비디오 통신 디바이스(12) 및 제 2 비디오 통신 디바이스(14)를 포함한다. 통신 디바이스들(12, 14)은 전송 채널(16)에 의해 접속된다. 전송 채널(16)은 유선 또는 무선 매체가 될 수 있다. 시스템(10)은 비디오 전화기를 위한 비디오 통신 디바이스들(12, 14) 사이에서 양방향 비디오 전송을 지원한다. 디바이스들(12, 14)은 실질적으로 대칭하는 방식으로 동작한다. 그러나 몇몇 실시예들에서, 비디오 통신 디바이스들(12, 14) 중 하나 또는 둘 다는 ROI-인식형 비디오 스트리밍을 지원하기 위해 단 한 방향의 통신을 위해 구성될 수 있다.
양방향 응용들을 위해, 상호 인코딩, 디코딩, 멀티플렉싱(MUX) 및 디멀티플렉싱(DEMUX) 구성요소들이 채널(16)의 반대측 단부들에 제공될 수 있다. 도 1의 예에서, 비디오 통신 디바이스(12)는 MUX/DEMUX 구성요소(18), ROI-인에이블된 비디오 코덱(20) 및 오디오 코덱(22)을 포함한다. 유사하게, 비디오 통신 디바이스(14)는 MUX/DEMUX 구성요소(26), ROI-인에이블된 비디오 코덱(28) 및 오디오 코덱(30)을 포함한다. 각각의 코덱(20, 28)은 또다른 비디오 통신 디바이스(12, 14) 로부터 원격으로 제공되거나 자신의 비디오 통신 디바이스로부터 국부적으로 제공된 ROI 정보를 처리할 수 있다는 관점에서 "ROI-인식형"이다.
비디오 통신 디바이스들(12, 14)은 비디오 스트리밍, 비디오 전화기 또는 둘 다를 위해 구비되는 무선 이동 단말기들 또는 유선 단말기들로 구현될 수 있다. 이를 위해, 비디오 통신 디바이스들(12, 14)은 무선 통신을 지원하기 위한 적절한 송신기, 수신기, 모뎀 및 프로세싱 전자기기들을 추가로 포함할 수 있다. 무선 이동 단말기들의 예들은 이동 무선 전화기들, 이동 개인 디지털 보조 장치들(PDAs), 이동 컴퓨터들, 또는 무선 통신 성능들 및 비디오 인코딩 및/또는 디코딩 성능들이 구비된 다른 이동 디바이스들을 포함한다. 유선 단말기들의 예들은 데스크탑 컴퓨터들, 비디오 전화기들, 네트워크 기기들, 셋-톱 박스들, 대화형 텔레비전 등등을 포함한다. 비디오 통신 디바이스(12, 14)는 비디오 정보를 전송하거나, 비디오 정보를 수신하거나, 비디오 정보를 송수신하기 위해 구성될 수 있다.
비디오 전화기 응용들을 위해, 디바이스(12)가 비디오 전송 및 수신 성능들 모두를 지원하는 것이 바람직하다. 그러나, 비디오 애플리케이션들을 스트리밍하는 것은 고려되어야 한다. 비디오 전화기, 특히 무선 통신에 의한 이동 비디오 전화기에서, 대역폭은 매우 중요하다. 따라서, ROI에 대한 추가 인코딩 비트들의 선택적인 할당 또는 다른 우선적인 인코딩 단계들은 전체 인코딩 효율을 유지하면서 비디오의 일부분의 이미지 품질을 개선할 수 있다. 우선적인 인코딩을 위해, 추가의 비트들이 ROI에 할당될 수 있고, 감소된 개수의 비트들이 비디오 장면 내의 배경과 같은 비-ROI 영역들에 할당될 수 있다.
일반적으로, 시스템(10)은 비디오 전화기(VT) 응용들을 위해 관심 영역(ROI) 프로세싱을 위한 기술들을 사용한다. 그러나, 상기 기술들은 전술된 것과 같이 비디오 스트리밍 응용들에 적용할 수 있다. 설명을 위해, 각각의 비디오 통신 디바이스(12, 14)는 비디오 정보의 송신자 및 수신자 모두로서 동작할 수 있고, 따라서 VT 세션의 전체 참여자로서 동작할 수 있다. 비디오 정보가 비디오 통신 디바이스(12)로부터 비디오 통신 디바이스(14)로 전송되기 위해, 비디오 통신 디바이스(12)는 송신측 디바이스이고, 비디오 통신 디바이스(14)는 수신측 디바이스이다. 대조적으로, 비디오 정보가 비디오 통신 디바이스(14)로부터 비디오 통신 디바이스(12)로 전송되기 위해, 비디오 통신 디바이스(12)는 수신측 디바이스이고, 비디오 통신 디바이스(14)는 송신측 디바이스이다. 로컬 비디오 통신 디바이스(12, 14)에 의해 인코딩되어 전송될 비디오 정보를 논의할 때, 비디오 정보는 "니어-엔드" 비디오로 지칭될 수 있다. 원격 비디오 통신 디바이스(12, 14)로부터 인코딩되고 수신될 비디오 정보를 논의할 때, 비디오 정보는 "파-엔드" 비디오로 지칭될 수 있다.
개시된 기술들에 따라, 수신측 디바이스로 동작할 때, 비디오 통신 디바이스(12 또는 14)는 송신측 디바이스로부터 수신된 파-엔드 비디오 정보를 위한 ROI 정보를 정의한다. 다시, 송신측 디바이스로부터 수신된 비디오 정보는 통신 디바이스의 파 엔드에 위치된 다른 (송신측) 디바이스로부터 수신된다는 의미에서 "파- 엔드" 비디오 정보로 간주될 것이다. 유사하게, 송신측 디바이스로부터 수신된 비디오 정보에 대하여 정의된 ROI 정보는 "파-엔드" ROI 정보로 간주될 것이다. 파-엔드 ROI는 일반적으로 파-엔드 비디오의 수신자가 가장 관심을 가지는 파-엔드 비디오 내의 영역을 지칭한다. 수신측 디바이스는 파-엔드 비디오 정보를 디코딩하고 디스플레이 디바이스를 통해 디코딩된 파-엔드 비디오를 사용자에게 나타낸다. 사용자는 파-엔드 비디오에 의해 표현된 비디오 장면 내에서 ROI를 선택한다.
수신측 디바이스는 사용자에 의해 선택된 ROI에 기초하여 파-엔드 ROI 정보를 발생하고, 상기 파-엔드 ROI 정보를 송신측 디바이스에 전송한다. 파-엔드 ROI 정보는 ROI 내에 상주하는 MB들과 관련하여 ROI를 정의하는 ROI 매크로 블럭(MB) 맵의 형식을 취할 수 있다. ROI MB 맵은 ROI 내에 있는 MB들을 1로 플래그하고 ROI 밖에 있는 MB들을 0으로 플래그하여, ROI 내에 포함(1) 및 제외(0)된 MB들을 용이하게 식별하게 한다. MB는 하나의 프레임의 일부분을 형성하는 비디오 프레임이다. MB의 크기는 16×16 픽셀들이 될 수 있다. 그러나, 다른 MB 크기들이 가능할 수 있다. 따라서, MB는 MPEG-1, MPEG-2 및 MPEG4, ITU H.263, ITU H.264 또는 임의의 다른 표준과 같은 특정 비디오 코딩 표준 내에서 정의된 것과 같은 매크로 블럭을 포함하지만 이에 제한되지 않는 임의의 비디오 블럭을 지칭할 수 있다.
수신측 디바이스에 의해 전송된 파-엔드 ROI 정보를 사용하여, 송신측 디바이스는 비디오 장면 내의 상응하는 ROI에 우선적인 인코딩을 적용한다. 특히, 추가의 인코딩 비트들아 ROI에 할당될 수 있는 반면, 감소된 양의 인코딩 비트들이 비-ROI 영역들에 할당될 수 있으며, 그로 인해 ROI의 이미지 품질을 개선한다. 상기 방식에서, 수신측 디바이스는 송신측 디바이스에 의한 파-엔드 비디오 정보의 ROI 인코딩을 원격으로 제어할 수 있다. 우선적인 인코딩은 ROI 영역 내의 우선적인 비트 할당 또는 우선적인 양자화에 의해 비디오 장면의 비-ROI 영역들보다 ROI 영역에 더 높은 품질의 인코딩을 적용한다. 우선적으로 인코딩된 ROI는 수신측 디바이스의 사용자가 물체 또는 영역을 더 명확하게 보는 것을 허용한다. 예를 들어, 수신측 디바이스의 사용자는 비디오 장면의 배경 영역들보다 더 명확하게 얼굴 또는 임의의 다른 물체를 볼 수 있는 것을 원할 수 있다.
송신측 디바이스로 동작할 때, 비디오 통신 디바이스(12 또는 14)는 송신측 디바이스에 의해 전송되는 비디오 정보를 위한 ROI 정보를 정의할 수 있다. 다시, 송신측 디바이스에서 발생된 비디오 정보는 통신 채널의 니어-엔드에서 발생된다는 의미에서 "니어-엔드" 비디오로 지칭될 것이다. 송신측 디바이스에 의해 발생된 ROI 정보는 "니어-엔드" ROI 정보로 지칭될 것이다. 니어-엔드 ROI는 일반적으로 송신자가 수신자에게 강조할 것을 원하는 니어-엔드 비디오의 영역을 지칭한다. 따라서, ROI는 수신측 디바이스 사용자에 의해 파-엔드 ROI 정보로 규정되거나 송신측 디바이스 사용자에 의해 니어-엔드 ROI 정보로 규정될 수 있다. 송신측 디바이스는 디스플레이 디바이스를 통해 사용자에게 니어-엔드 비디오를 표현한다. 송신측 디바이스와 연관된 사용자는 니어-엔드 비디오에 의해 표현되는 비디오 장면 내에서 ROI를 선택한다. 송신측 디바이스는 사용자-선택된 ROI를 사용하여 니어-엔드 비디오를 인코딩하며, 따라서 니어-엔드 비디오 내의 ROI는 비-ROI 영역들과 관련하여 더 높은 품질 인코딩을 사용하여 우선적으로 인코딩된다.
송신측 디바이스에서 로컬 사용자에 의해 선택되거나 정의되는 니어-엔드 ROI는 송신측 디바이스의 사용자가 비디오 장면 내의 영역들 또는 물체들을 강조하도록 하며, 따라서 상기 영역들 또는 물체들이 수신측 디바이스 사용자의 주의를 끌게한다. 특히, 송신측 디바이스 사용자에 의해 선택된 니어-엔드 ROI는 수신측 디바이스에 전송될 필요가 없다. 대신에, 송신측 디바이스는 수신측 디바이스에 전송되기 전에 니어-엔드 비디오를 국부적으로 인코딩하기 위해 선택된 니어-엔드 ROI 정보를 사용한다. 그러나, 몇몇 실시예들에서, 송신측 디바이스는 에러 숨김과 같은 더 높은 품질의 에러 정정 또는 블럭킹 차단 및 벨울림 차단과 같은 사후-프로세싱처럼 우선적인 디코딩 기술들의 적용을 허용하기 위해 ROI 정보를 수신측 디바이스에 전송할 수 있다.
만약 ROI 정보가 송신측 디바이스 및 수신측 디바이스 모두에 의해 제공되면, 송신측 디바이스는 수신측 디바이스로부터의 수신된 파-엔드 ROI 정보 및 니어-엔드 비디오를 인코딩하기 위해 국부적으로 발생된 니어-엔드 ROI 정보를 적용한다. ROI 충돌들은 송신측 디바이스 및 수신측 디바이스에 의해 제공되는 니어-엔드 및 파-엔드 ROI 선택들 사이에서 발생할 수 있다. 상기 충돌들은 본 개시물에 설명되는 것과 같이 로컬 사용자에 의한 활동적인 해결 또는 규정된 액세스 권리들 및 레벨들에 따른 해결과 같은 해결을 요구할 수 있다. 상기 경우에, 송신측 디바이스는 송신측 디바이스에 의해 국부적으로 또는 수신측 디바이스에 의해 원격으로 제공된 니어-엔드 ROI 정보에 기초하여 ROI를 우선적으로 인코딩한다.
ROI 프로세싱을 용이하게 하기 위해, 본 개시물은 추가로 ROI 선택, ROI 맵 핑, ROI 추출, ROI 시그널링, ROI 트래킹 및 송신측 디바이스에 의한 ROI 인코딩의 원격 제어를 허용하도록 수신측 디바이스들의 액세스 인증을 위한 기술들을 고려한다. 설명되는 것과 같이, 수신측 디바이스 또는 송신측 디바이스에 의해 적용된 서로 다른 ROI 선택 기술들은 미리 정의된 ROI 패턴들, 구두형 또는 문서형 ROI 설명들, 또는 사용자에 의한 ROI 그림의 선택을 포함할 수 있다. 수신측 디바이스에서, ROI 맵핑은 비디오 인코더에 의한 사용에 적합한 매크로 블럭(MB) 맵의 형태를 취할 수 있는 ROI 맵으로 선택된 파-엔드 또는 니어-엔드 ROI 패턴의 변환을 포함한다. ROI 시그널링은 수신측 디바이스로부터 송신측 디바이스로의 ROI 정보의 대역 내(in-band) 또는 대역 외(out-of-band) 시그널링을 포함한다. ROI 트래킹은 ROI 모션에 응답하여 수신측 디바이스에 의해 발생된 파-엔드 ROI 맵 또는 송신측 자체에 의해 발생된 로컬 니어-엔드 ROI의 동적 조정을 포함한다. 액세스 인증은 원격 파-엔드 ROI 제어를 위해 수신측 디바이스들로의 액세스 권리 및 레벨들의 허가뿐만 아니라 로컬 사용자들과 원격 사용자들 사이의 ROI 제어 충돌들의 해결을 포함한다.
시스템(10)은 세션 초기화된 프로토콜(SIP), ITU H.323 표준, ITU H.324 표준, 또는 다른 표준들에 따라 비디오 전화기를 지원할 수 있다. 각각의 비디오 코덱(20, 28)은 MPEG-2, MPEG-4, ITU H.263 또는 ITU H.264와 같은 비디오 압축 표준에 따라 인코딩된 비디오 데이터를 발생한다. 도 1에 추가로 도시된 것과 같이, 비디오 코덱들(20, 28)은 개별 오디오 코덱들(22, 30)과 통합될 수 있고, 데이터 스트림의 오디오 및 비디오 부분을 처리하기 위해 적절한 MUX/DEMUX 구성요소(18, 26)들을 포함한다. MUX-DEMUX 유니트들(18, 26)은 사용자 데이터그램 프로토콜(UDP)과 같은 다른 프로토콜들 또는 ITU H.223 멀티플렉서 프로토콜을 따를 수 있다.
도 2는 무선 통신 디바이스(38)와 결합된 디스플레이(36) 상에 표현된 비디오 장면(34) 내에서 ROI(32)의 정의를 도시하는 다이어그램이다. 도 2의 예에서, ROI(32)는 비디오 장면(34) 내에 표현된 사람의 얼굴(39)을 포함하는 직사각형 영역이지만, ROI는 개선되거나 증진된 인코딩이 요구되는 임의의 이미지 또는 물체를 포함할 수 있다. VT 응용들에서, 비디오 장면(34) 내에 표현된 사람은 일반적으로 수신측 디바이스로서 동작하는 무선 통신 디바이스(38)의 사용자와 비디오 회의에 참여하는 원격 송신측 디바이스의 사용자가 될 수 있다. ROI(32)는 원격 송신측 디바이스로부터 전송된 비디오 장면 내에서 ROI를 정의하는 파-엔드 ROI를 구성한다. 상기 개시물에 따라, 파-엔드 ROI(32)는 ROI 내의 비디오 장면의 영역의 우선적인 인코딩을 규정하기 위해 송신측 디바이스에 전송된다. 상기 방식에서, 수신측 디바이스(38)의 로컬 사용자는 파-엔드 ROI(32)의 이미지 품질을 원격으로 제어할 수 있다. 설명되는 것과 같이, 파-엔드 ROI(32)의 크기, 모양 및 위치는 고정되거나 조정가능하며, 다양한 방식들로 정의되거나, 설명되거나, 조정될 수 있다.
ROI(32)는 사람의 얼굴(39)과 같은 비디오 장면(34) 내의 개별 물체들을 수신측 디바이스 사용자가 더 명확하게 볼 수 있게 허용한다. ROI(32) 내의 얼굴(39)은 비디오 장면(34)의 배경 영역과 같은 비-ROI 영역들과 관련하여 더 높은 이미지 품질로 인코딩된다. 상기 방식에서, 사용자는 얼굴 표정들, 입술의 이동, 눈의 이동 등등을 더 명확히 볼 수 있다. 그러나, ROI(32)는 얼굴이 아닌 임의의 물체들을 규정하기 위해 선택적으로 사용될 수 있다. 일반적으로 말해서, VT 응용들에서 ROI는 매우 주관적이며, 사용자로부터 사용자로 달라질 수 있다. 요구되는 ROI는 VT가 사용되는 방식에 따라 결정된다. 몇몇 경우들에서, VT는 비디오 회의와는 달리 물체들을 보고 평가하기 위해 사용될 수 있다.
예를 들어, 남편은 그가 공항의 선물 가게에서 사려고 하는 선물들을 VT 애플리케이션을 사용하여 볼 수 있다. 남편은 그의 와이프로부터 적시에 대화형 방식으로 제 2 옵션을 획득하려고 할 수 있다. 이를 수행함으로써, 그의 비행기가 출발하려고 할 때 즉시 결정을 내릴 수 있다. 상기 경우에, ROI는 남편이 고려하는 선물들을 커버하는 영역이다. 와이프(또는 남편)이 ROI를 선택하는 것을 허용함으로써, 특정 ROI에 대하여 양호한 인코딩 또는 양호한 서비스 품질을 달성할 수 있고, 따라서 와이프가 선물들을 더 명확하게 볼 수 있도록 한다.
또다른 예로서, 둘 또는 그 이상의 엔지니어들은 화이트 보드 상에 다양한 공식들 또는 도면들의 표현 및 논의를 포함하는 VT 호출을 수행할 수 있다. 상기 경우에, 원격 사용자는 공식의 세부 부분을 더 명확하게 보기 위해 더 우수한 이미지 품질로 화이트 보드의 일부분을 보기를 원할 수 있다. 이를 위해, 원격 사용자는 상기 식을 포함하는 ROI를 선택한다. 또한, 엔지니어가 화이트 보드에 추가할 때, 원격 사용자는 화이트 보드에 새로 추가되는 내용을 트래킹하기 위해 ROI를 이동하기를 원할 수 있다. 원격 사용자가 ROI를 규정하는 능력은 기술 회의에서 정보의 교환을 현저히 향상시킬 수도 있다.
본 명세서에 개시된 ROI 기술들은 ROI의 비디오 품질을 개선할 뿐만 아니라 2명의 사용자들 사이에서 비디오 대화들을 개선한다. 일반적으로, 종래의 VT 애플리케이션들은 2개의 일방향 비디오 전송들을 결합하였고 임의의 대화가 음성으로 수행되었다. 종래의 VT 애플리케이션들에서, 일반적으로 대화는 비디오 측면에서 존재하지 않았다. 수신측 디바이스 사용자로 하여금 VT 호출 동안 송신측 디바이스로부터 수신된 비디오 컨텐츠에 대해 적어도 제한된 제어를 허용하는 것은 비디오 상호 작용의 증가를 가능하게 한다.
상기 방식에서, VT 애플리케이션은 수신측 디바이스 사용자들이 ROI를 선택하고, 더 많은 인코딩 비트들의 할당 또는 예컨데 MB내 전환(refreshment)과 같은 더 강한 에러 보호를 사용하여 더 높은 품질의 인코딩과 같은 ROI의 우선적인 취급을 위해 송신측 디바이스에 ROI 정보를 다시 전송한다. 사실상, 파-엔드 ROI를 규정함으로써, 수신측 디바이스는 송신측 디바이스 인코더를 원격으로 제어할 수 있다. 부가적으로, 파-엔드 ROI 정보는 에러 숨김, 블럭킹 차단, 또는 벨울림 차단와 같은 양호한 사후-처리를 위해 파-엔드 비디오를 수신하는 디바이스에서 ROI-인식 비디오 디코더에 의해 사용될 수 있다. 인코딩된 비디오의 수신자에 의한 비디오 인코더의 원격 제어는 원격 카메라의 팬, 틸트, 줌 또는 포커스를 제어하는 것과는 다르다. 이와 대조적으로 원격 ROI 프로세싱을 사용하여, 사용자는 특정 영역 또는 영역들에 적용된 인코딩 품질에 영향을 미칠 수 있다. 그러나 몇몇 실시예들에서, 원격 카메라 제어는 원격 비디오 인코더 제어와 함께 제공될 수 있다.
도 3은 ROI-인식형 CODEC을 포함하는 비디오 통신 디바이스(12)를 도시하는 블럭 다이어그램이다. 도 3은 도 1의 비디오 통신 디바이스(12)를 도시하지만, 비디오 통신 디바이스(14)가 유사하게 구성될 수 있다. 한편, 비디오 통신 디바이스(12 또는 14)는 송신측 디바이스, 수신측 디바이스, 및 바람직하게 송수신 디바이스 모두로 기능할 수 있다. 도 3에 도시된 것과 같이, 비디오 통신 디바이스(12)는 ROI-인식형 CODEC(20), 비디오 포착 디바이스(40) 및 사용자 인터페이스(42)를 포함한다. 채널(16)이 도 3에 도시되어 있지만, MUX-DEMUX 및 오디오 구성요소들은 설명의 용이함을 위해 생략되었다. 비디오 포착 디바이스(40)는 비디오 통신 디바이스(12)와 통합되거나 동작가능하게 결합된 비디오 카메라가 될 수 있다. 몇몇 실시예들에서, 예를 들어, 비디오 포착 디바이스(40)는 이른바 비디오 카메라 전화기를 형성하기 위해 이동 전화기와 통합될 수 있다. 상기 방식에서, 비디오 포착 디바이스(40)는 이동 VT 애플리케이션들을 지원할 수 있다.
사용자 인터페이스(42)는 액정 디스플레이(LCD), 플라즈마 스크린, 프로젝터 디스플레이 또는 비디오 통신 디바이스(12)와 통합되거나 동작가능하게 결합될 수 있는 임의의 다른 디스플레이 디바이스와 같은 디스플레이 디바이스를 포함한다. 디스플레이 디바이스는 비디오 통신 디바이스(12)의 사용자에게 비디오 이미지를 제공한다. 비디오 이미지는 송신측 디바이스에 의해 원격으로 전송된 파-엔드 비디오와 함께 비디오 포착 디바이스(40)에 의해 국부적으로 획득된 니어-엔드 비디오를 포함한다. 부가적으로, 사용자 인터페이스(42)는 비디오 통신 디바이스(12)의 사용자에 의한 정보의 입력을 위해 하드 키(key)들, 소프트 키(key)들, 다양한 포인팅 디바이스들, 스타일러스 등등을 포함하는 다양한 사용자 입력 매체 중 몇몇을 포함할 수 있다. 몇몇 실시예들에서, 사용자 인터페이스(42)의 디스플레이 디바이스 및 사용자 입력 매체는 이동 전화기와 통합될 수 있다. 비디오 통신 디바이스(12)의 사용자는 파-엔드 비디오 및 선택적으로 니어-엔드 비디오를 보기 위해 사용자 인터페이스(42)에 의존한다. 부가적으로, 사용자는 파-엔드 ROI 및 선택적으로 니어-엔드 ROI의 정의 또는 선택을 위한 정보를 입력하기 위해 사용자 인터페이스(42)에 의존한다.
도 3에 추가로 도시된 것과 같이, ROI-인식형 CODEC(20)은 ROI 엔진(44), ROI-인식형 비디오 인코더(46) 및 ROI-인식형 비디오 디코더(48)를 포함한다. ROI-인식형 비디오 인코더(46)는 원격 수신측 디바이스로의 전송을 위해 비디오 포착 디바이스(40)로부터 획득된 니어-엔드 비디오("NEAR-END VIDEO")를 인코딩한다. 다시, 용어 "니어-엔드"는 비디오 통신 디바이스(14)와 같은 원격 비디오 통신 디바이스로부터 수신된 "파-엔드" 비디오와는 달리 비디오 통신 디바이스(13) 내에서 국부적으로 발생되는 비디오를 지정한다. 도 3의 예에서, ROI-인식 비디오 인코더(46)는 니어-엔드 ROI를 우선적으로 인코딩하기 위해 원격 수신기로부터 획득된 니어-엔드 ROI 정보("REMOTE NEAR-END ROI")를 사용한다. 원격 수신기는 원격 비디오 통신 디바이스(14)와 결합된 사용자이다.
원격 사용자의 관점에서, 원격 니어-엔드 ROI는 원격 디바이스(14)에 의해 전송될 때 원격 파-엔드 ROI이고, 수신될 때 디바이스(12)의 로컬 사용자의 관점에서 원격 니어-엔드 ROI로 지칭된다. 즉, 송신자 또는 수신자로서, 디바이스(12, 14)의 관점은 비디오 및 ROI가 니어-엔드 또는 파-엔드 비디오에 적용가능한 것으로 고려되는지를 결정한다. 또한, 원격 디바이스(14)에서 인코딩한 비디오를 원격으로 제어하는 로컬 디바이스(12)의 사용자는 파-엔드 ROI를 규정한다. 원격 디바이스(14)의 사용자가 파-엔드 ROI를 수신하기 때문에, 원격 니어-엔드 ROI는 원격 디바이스(14)에 의해 인코딩되는 니어-엔드 비디오에 속하는 것으로 고려된다. 일반적으로, 본 개시물에서 사용되는 명칭들을 위해, 관점은 중요하다.
선택적으로, ROI-인식형 비디오 인코더(46)는 비디오 통신 디바이스(14)의 로컬 사용자로부터 획득된 니어-엔드 ROI 정보("LOCAL NEAR-END ROI")를 사용할 수 있다. 로컬 니어-엔드 ROI는 또한 인코딩된 니어-엔드 비디오의 송신자에 의해 발생되기 때문에 송신측-운영 ROI로 지칭될 수 있다. 로컬 니어-엔드 ROI 정보는 원격 디바이스(14) 내의 비디오 인코더가 송신측 디바이스(12)의 사용자에 의해 규정된 니어-엔드 ROI에 우선적인 디코딩을 적용하도록 설계되지 않는다면 로컬 인코더(46)에 의해 사용되고 다른 비디오 통신 디바이스(14)에 전송되지 않는다. 원격 니어-엔드 ROI는 또한 인코딩된 니어-엔드 비디오의 원격 수신자에 의해 발생되기 때문에 수신측-운영 ROI로 지칭될 수 있다. 원격 니어-엔드 ROI는 비디오 통신 디바이스(12)에 의해 발생된 비디오의 수신자가 ROI-인식형 인코더(46)에 의한 ROI 인코딩을 제어하도록 허용하는 반면, 로컬 니어-엔드 ROI는 비디오 통신 디바이스(12)에 의해 발생된 비디오의 송신자가 ROI-인식형 인코더(46)에 의한 ROI 인코딩을 제어하도록 허용한다. 몇몇 경우들에서, 원격 및 로컬 ROI 정의들은 충돌할 수 있으며 이하에 설명되는 것과 같이 충돌 해결을 필요로 한다.
로컬 및 원격 니어-엔드 ROI 정보는 ROI-인식형 인코더(46)에 니어-엔드 ROI 매크로블럭(MB) 맵("NEAR-END ROI MB MAP")으로 제공될 수 있다. 니어-엔드 ROI MB 맵은 수신측 니어-엔드 ROI 또는 송신측 니어-엔드 ROI 내에 상주하는 특정 MB들을 식별한다. ROI-인식형 인코더(46)는 더 높은 품질의 인코딩, 더 강한 에러 보호 또는 원격 비디오 통신 디바이스(14)와 같은 원격 사용자에 의해 관찰될 때 ROI의 이미지 품질을 개선하기 위해 니어-엔드 비디오 내의 ROI를 우선적으로 인코딩한다. ROI에 대한 양호한 에러 보호는 무선 전화기 애플리케이션들에서 특히 바람직할 수 있다. 결과적으로 인코딩된 니어-엔드 비디오("ENCODED NEAR-END VEDIO")는 그후에 원격 디바이스(14)로 전송된다.
설명되는 것과 같이, ROI-인식형 비디오 인코더(46)는 원격 비디오 통신 디바이스(14)로부터 수신된 파-엔드 비디오를 위해 비디오 통신 디바이스(12)의 로컬 사용자에 의해 발생된 파-엔드 ROI 정보("FAR-END ROI")를 전송한다. 파-엔드 ROI는 원격 비디오 통신 디바이스(14)에 의해 인코딩된 비디오를 위해 수신측-구동 ROI로 제공된다. 사실상, 비디오 통신 디바이스(12)에 의해 전송된 파-엔드 ROI 정보는 ROI-인식형 디코더(48)에 의해 수신된 원격 니어-엔드 ROI가 ROI-인식형 비디오 인코더(46)를 제어하기 위해 비디오 통신 디바이스(12)에 의해 사용되기 때문에 원격 비디오 통신 디바이스(14)에 의해 발생된 파-엔드 비디오의 인코더의 적어도 부분적인 제어를 허용한다. 상기 방식에서, 각각의 비디오 통신 디바이스(12, 14)는 다른 디바이스에 의해 발생된 파-엔드 비디오에서 ROI 인코딩에 영향을 줄 수 있다.
비디오 통신 디바이스(12)에 의해 전송된 파-엔드 ROI 정보는 대역 내 또는 대역 외 시그널링 정보로서 전송될 수 있다. 대역 내 시그널링의 경우에, 파-엔드 ROI 정보는 원격 비디오 통신 디바이스(14)에 전송되는 인코딩된 니어-엔드 비디오 비트스트림 내에 삽입될 수 있다. MPEG4 비트 스트림 포맷에서, 예를 들어, 상기 비트스트림을 설명하는 정보를 삽입하는데 사용될 수 있는 "사용자_데이터"라 불리는 필드가 존재한다. "사용자_데이터" 필드 또는 다른 비트스트림 포맷들에서의 유사 필드는 비트스트림 컴플라이언스를 위반하지 않고 파-엔드 ROI 정보를 삽입하는데 사용될 수 있다. 선택적으로, ROI 정보는 스테가노그래피(Steganography)와 같은 이른바 데이터 은닉 기술들에 의해 비디오 비트스트림 내에 삽입될 수 있다.
ROI-인식형 비디오 디코더(48)는 사용자_데이터 필드 내의 또는 원격 디바이스로부터 입력된 파-엔드 비디오 내에서 ROI 정보를 찾도록 구성된다. 대역 외 시그널링의 경우에, ITU H.245 또는 SIP와 같은 시그널링 프로토콜은 파-엔드 ROI 정보를 전달하기 위해 사용될 수 있다. 상기 경우에, 파-엔드 ROI 정보는 파-엔드 ROI의 위치 및/크기를 정의하는 물리적인 좌표들 또는 ROI MB 맵의 형태를 취할 수 있다. 디코더(48)가 파-엔드 비디오 비트스트림을 수신하면, 원격 송신측 디바이스와의 합의된 포맷에 기초하여 ROI 정보를 검색하며, 원격 니어-엔드 ROI를 비디오 인코더(56)에 제공하기 전에 니어-엔드 ROI 제어를 위한 액세스 허가를 획득하기 위해 상기 ROI 정보를 액세스 인증 모듈(58)에 제공한다.
파-엔드 비디오 내의 ROI를 우선적으로 인코딩하기 위해 원격 비디오 인코더를 제어하는데 부가하여, 파-엔드 ROI 정보는 파-엔드 비디오 내의 ROI내에서 MB들을 우선적으로 디코딩하기 위한 로컬 비디오 디코더에 적용될 수 있다. 예를 들 어, 도 3에 도시된 것과 같이, 원격 인코더로의 전송을 위해 ROI 맵퍼(54)에 의해 발생된 동일한 파-엔드 ROI MB 맵은 ROI-인식형 비디오 디코더(48)에 제공될 수 있다. ROI-인식형 비디오 디코더(48)는 원격 비디오 통신 디바이스(14)로부터 수신된 파-엔드 비디오 내의 MB들을 우선적으로 디코딩하기 위해 ROI MB 맵을 사용한다. 예를 들어, ROI-인식형 비디오 디코더(48)는 비-ROI MB들 보다 양호한 사후-처리를 ROI MB들에 적용할 수 있다. 부가적으로, 또는 선택적으로, ROI-인식형 비디오 디코더(48)는 비-ROI MB들 보다 더 견고한 에러 숨김 기술들을 ROI MB들에 적용할 수 있다. 상기 방식에서, ROI-인식형 비디오 디코더(48)는 개선된 이미지 품질을 위해 입력되는 파-엔드 비디오의 ROI 부분을 우선적으로 디코딩하기 위해 로컬 사용자에 의해 발생된 파-엔드 ROI 정보에 의존한다.
ROI-인식형 비디오 디코더(48)는 예를 들면, 도 1의 비디오 통신 디바이스(14)와 같은 원격 비디오 통신 디바이스로부터 입력되는 파-엔드 비디오를 수신한다. ROI-인식형 비디오 디코더(48)는 디스플레이 디바이스 상에 로컬 사용자에 대한 표현을 위해 파-엔드 비디오를 디코딩하고, 디코딩된 비디오를 사용자 인터페이스(42)에 제공한다. 부가적으로, 전송된 것과 같이, ROI-인식형 비디오 디코더(48)는 원격 비디오 통신 디바이스(14)로부터 원격 니어-엔드 ROI 정보("REMOTE NEAR-END ROI")를 수신한다. ROI-인식형 비디오 디코더(48)로부터 수신된 니어-엔드 ROI 정보는 비디오 통신 디바이스(12)에 의해 전송된 비디오 내의 ROI를 규정하기 위해 원격 비디오 통신 디바이스(14)의 사용자에 의해 발생된다. 전술된 것과같이, ROI-인식형 비디오 디코더(48)에 의해 수신된 원격 니어-엔드 ROI 정보는 비디오 통신 디바이스(12)에 의해 발생된 니어-엔드 비디오에서 ROI를 우선적으로 인코딩하기 위해 ROI-인식형 비디오 인코더(46)를 원격으로 제어하는데 사용된다. 원격 니어-엔드 ROI는 전술된 것과 같이, 대역 내 또는 대역 외 시그널링 기술들에 의해 전송된다.
도 3을 참조로 하면, ROI-인식형 비디오 인코더(46) 및 ROI-인식형 비디오 디코더(48)는 ROI 엔진(44)과 상호작용한다. ROI 엔진(44)은 비디오 포착 디바이스(40)로부터 니어-엔드 비디오 비트스트림의 인코딩 및 전송을 위해 로컬 및 원격의 니어-엔드 ROI 정보를 처리한다. 부가적으로, ROI 엔진(44)은 원격 비디오 통신 디바이스(14)로의 인코딩 및 전송을 위해 사용자 인터페이스(42)를 통해 제공된 파-엔드 ROI 정보를 처리한다. ROI 엔진(44)은 ROI 제어기(52), ROI 맵퍼(54), ROI 트래킹 모듈(56) 및 인증 모듈(58)을 포함한다. 몇몇 실시예들에서, ROI 트래킹 모듈(56) 및 인증 모듈(58)은 선택적일 수 있다.
ROI-인식형 비디오 인코더(46), ROI-인식형 비디오 디코더(48), ROI 제어기(52), ROI 맵퍼(54), ROI 트래킹 모듈(56) 및 인증 모듈(58)은 다양한 방식들로 각각의 모듈에 속하는 기능을 함축하는 이산 기능 모듈들 또는 모놀리식 모듈로 형성될 수 있다. 임의의 경우에, ROI 엔진(44), 비디오 인코더(46) 및 비디오 디코더(48)를 포함하여 ROI-인식형 CODEC(20)의 다양한 구성요소들은 하드웨어, 소프트웨어, 펌웨어 또는 이들의 조합으로 구현될 수 있다. 예를 들어, 상기 구성요소들은 하나 또는 그 이상의 마이크로 프로세서들 또는 디지털 신호 처리기들(DSPs), 하나 또는 그 이상의 애플리케이션용 집적 회로들(ASICs), 하나 또는 그 이상의 현 장 프로그램 가능한 게이트 어레이들(FPGAs), 또는 다른 등가의 집적 또는 이산 로직 회로에서 실행하는 소프트웨어 프로세스들로서 동작할 수 있다. 소프트웨어에서 구현되는 경우에, 기술들은 프로세서 또는 DSP에서 실행될 때 본 명세서에 개시된 방법들 중 하나 또는 그 이상을 수행하는 명령들을 가지는 프로그램 코드를 포함하는 컴퓨터로 읽을 수 있는 매체에 의해 부분적으로 구현될 수 있다.
동작에서, 비디오 통신 디바이스(12)의 사용자는 비디오 포착 디바이스(40)에 의해 발생된 니어-엔드 비디오 또는 사용자 인터페이스(42)와 연관된 디스플레이 디바이스에서 보기 위한 ROI-인식형 비디오 디코더(48)에 의해 디코딩된 파-엔드 비디오를 선택한다. 몇몇 실시예들에서, 픽처-인-픽처(PIP) 기능은 사용자가 니어-엔드 비디오와 파-엔드 비디오를 동시에 볼 수 있게 한다. ROI 정의를 위해 니어-엔드 또는 파-엔드 비디오를 보기 위해, 사용자는 ROI 정의 모드를 불러내기 위해 사용자 인터페이스(42)를 조작할 수 있다. 디폴트(default)에 의해, 비디오 통신 디바이스(12)는 ROI 고려 사항들 없이 비디오 인코딩 및 디코딩을 처리할 수 있다. ROI 정의 모드에 진입함으로써, 사용자는 비디오 통신 디바이스(12)의 ROI- 인식형 인코딩 및 디코딩 양상들을 활성화한다. 선택적으로, ROI-인식형 인코딩 및 디코딩은 디폴트 모드가 될 수 있다.
파-엔드 비디오의 표현시, 사용자는 하기에서 상세히 설명되는 다양한 기술들 중 일부를 사용하여 파-엔드 비디오 내에 ROI를 표시한다. 파-엔드 ROI는 비디오 장면 내에서 사용자에게 관심이 되고, 더 높은 이미지 품질이 요구되는 영역 또는 물체를 강조한다. 사용자 인터페이스(42)는 사용자 입력에 기초하여 파-엔드 ROI 표시를 발생한다. ROI 정보는 비디오 통신 디바이스(14)로의 전송을 위해 파-엔드 ROI 정보를 발생하도록 ROI 엔진에 의해 추가로 처리될 수 있다.
사용자는 ROI 정의를 위해 비디오 포착 디바이스(40)로부터 획득된 니어-엔드 비디오를 선택할 수 있다. 니어-엔드 비디오의 표현시, 사용자는 파-엔드 비디오 내의 ROI 표시를 위해 사용된 것과 유사하거나 동일한 기술들을 사용하여 니어-엔드 비디오 내에 ROI를 표시할 수 있다. 니어-엔드 ROI 또는 파-엔드 ROI는 VT 호출의 시작에서 먼저 또는 VT 호출의 코스 동안 임의의 시간에 규정될 수 있다. 몇몇 실시예들에서, 초기 ROI는 원격 사용자 또는 로컬 사용자에 의해 업데이트되거나 ROI 트래킹 모듈(56)에 의해 자동으로 업데이트될 수 있다. ROI가 자동으로 업데이트되는 경우에, 사용자가 ROI 정보를 계속해서 입력해야할 필요는 없다. 대신에, ROI는 사용자가 ROI를 변경하거나 중단할 때까지 사용자에 의한 초기 입력에 기초하여 유지될 것이다.
사용자 인터페이스(42)는 사용자에 의해 제공된 표시에 기초하여 로컬 니어-엔드 ROI 표시를 발생한다. 파-엔드 ROI와 유사하게, 니어-엔드 ROI 표시는 ROI 엔진(44)에 의해 추가 처리될 수 있다. 니어-엔드 ROI 표시는 비디오 장면 내에서 사용자가 원격 사용자에게 강조하기 원하는 영역 또는 물체들을 증가된 이미지 품질에 의해 강조한다. 로컬 사용자는 사용자 인터페이스(42)를 통해 ROI 패턴을 그리거나 미리 정의된 ROI 패턴들을 선택함으로써 니어-엔드 ROI 또는 파-엔드 ROI를 선택할 수 있다. ROI 패턴을 그리는 것은 스타일러스를 사용한 프리-핸드 드로잉, 또는 디폴트 ROI 패턴의 크기 조정 및 위치 조정을 포함할 수 있다.
도 3의 예에서, 사용자 인터페이스(42)는, 제공되는 경우에, 로컬 니어-엔드 ROI 표시 및 파-엔드 ROI 표시를 ROI 엔진(44) 내의 ROI 제어기(52)로 제공한다. 부가적으로, ROI 제어기(52)는 인증 모듈(58)을 통해 ROI-인식형 비디오 디코더(48)로부터 원격 니어-엔드 ROI를 수신한다. 특히, ROI-인식형 비디오 디코더(48)는 수신된 파-엔드 비디오 스트림 내에서 또는 대역외 시그널링을 통해 원격 니어-엔드 ROI 정보의 존재를 검출하며, 원격 니어-엔드 ROI 정보를 인증 모듈(58)에 제공한다. 로컬 니어-엔드 ROI 및 파-엔드 ROI 표시는 개별 니어-엔드 비디오 또는 파-엔드 비디오의 비디오 프레임 내의 좌표들과 관련하여 표현될 수 있다. ROI의 좌표들은 비디오 프레임 내의 x-y 좌표들이 될 수 있다. 그러나, x-y 좌표들은 설명되는 것과 같이 인코더(46) 또는 디코더(48)에 의한 사용을 위해 ROI MB 맵을 발생하도록 처리된다.
ROI 제어기(54)는 로컬 니어-엔드 ROI, 원격 니어-엔드 ROI 및 파-엔드 ROI를 처리하고, 이를 ROI 맵퍼(54)에 적용한다. ROI 맵퍼(54)는 개별 ROI 좌표들을 매크로블럭(MB) 맵들로 변환한다. 특히, ROI 맵퍼(54)는 로컬 사용자에 의해 표시된 파-엔드 ROI에 상응하는 파-엔드 비디오 내의 MB들을 규정하는 파-엔드 MB 맵을 발생한다. 또한, ROI 맵퍼(54)는 로컬 니어-엔드 ROI, 원격 니어-엔드 ROI, 또는 이들의 조합에 상응하는 니어-엔드 비디오 내에서 MB들을 규정하는 니어-엔드 ROI MB 맵을 발생한다.
미리 정의된 ROI 패턴들을 위해, ROI 맵핑은 간단하다. 각각의 미리 정의된 ROI 패턴은 미리 정의된 지정된 MB 맵핑을 가질 수 있다. 그러나, 그려지거나, 위치 조정되거나, 크기 조정된 ROI 패턴들을 위해, ROI 맵퍼(54)는 사용자에 의해 규정된 ROI 패턴의 좌표들을 가장 유사하게 따르는 MB 경계들을 선택한다. 예를 들어, 만약 규정된 ROI가 MB를 가로지르면, ROI 맵퍼(54)는 ROI 경계를 적절한 MB의 외부 에지 또는 내부 에지에 배치시킨다. 다시 말해서, ROI 맵퍼(54)는 ROI MB 맵내에서 ROI 내에 전체적으로 존재하는 MB들을 포함하거나 ROI 내에 부분적으로 존재하는 MB들을 포함하도록 구성될 수 있다. 상기 경우에, ROI는 규정된 ROI를 가장 인접하게 근사화하는 전체 MB들의 세트를 포함한다. 다시 말해서, 비디오 인코더(46) 또는 비디오 디코더(48)는 MB 레벨에서 동작하며, ROI의 MB 맵으로의 변환을 요구할 것이다. 개별 MB들을 ROI 내에 포함되거나 이로부터 제외되는 것으로 지정함으로써, ROI MB 맵은 불규칙하거나 직사각형이 아닌 모양들을 가지는 ROI들의 정의를 허용한다.
ROI-인식형 비디오 인코더(46)는 인코딩된 니어-엔드 비디오 내에서 또는 대역 외 시그널링에 의해 파-엔드 ROI MB 맵을 원격 비디오 통신 디바이스(14)로 전송한다. 니어-엔드 ROI MB 맵은 원격 비디오 통신 디바이스로 전송되지 않는다. 대신에, 니어-엔드 ROI MB 맵은 ROI-인식형 비디오 인코더(46)에 의해 원격 비디오 통신 디바이스(14)로의 전송 이전에 더 강한 에러 보호 또는 더 높은 품질의 인코딩으로 니어-엔드 비디오 내에 규정된 MB들을 우선적으로 디코딩하는데 사용된다. 따라서, ROI-인식형 비디오 인코더(46)는 우선적으로 인코딩된 ROI를 가지는 인코딩된 니어-엔드 비디오와 함께 파-엔드 ROI 정보를 원격 비디오 통신 디바이스(14)로 전송한다.
ROI 트래킹 모듈(56)은 니어-엔드 비디오의 ROI 영역들에서 변경들을 트래킹한다. 만약 VT 애플리케이션이 이동 비디오 통신 디바이스 내에 상주하면, 예를 들어, 사용자는 시간에 따라 이동하며, 따라서 이전에 규정된 ROI와 관련하여 사용자의 위치에서 변경이 발생한다. 또한, 사용자 위치가 고정된 때에도, ROI 내의 다른 물체들은 ROI 영역들 밖으로 이동할 수 있다. 예를 들어, 호수 위의 보트는 파도의 움직임에 따라 위아래로 움직이거나 좌우로 이동할 수 있다. 이동이 발생할 때 사용자가 ROI를 다시 정의해야 하는 필요성을 방지하기 위해, ROI 트래킹 모듈(56)은 ROI 영역들 내에서 물체들을 자동으로 트래킹하도록 제공될 수 있다.
도 3의 예에서, ROI 트래킹 모듈(56)은 ROI-인식형 비디오 인코더(46)에 의해 발생된 인코딩된 니어-엔드 비디오로부터 모션 정보를 수신한다. 모션 정보는 인코딩된 니어-엔드 비디오 내에서 MB들을 위한 모션 벡터들의 형태를 취할 수 있고, ROI 맵퍼(54)에 의한 ROI MB 맵 정의의 폐루프 제어를 허용한다. 모션 정보에 기초하여, ROI 트래킹 모듈(56)은 니어-엔드 ROI 맵에 대하여 증분하는 위치 조정치들을 발생하고, 상기 조정치들을 ROI 맵퍼(54)에 제공한다. 위치 조정치들은 ROI에 포함되거나 이로부터 제외됨에 따른 MB 상태의 변화하는 형태가 될 수도 있다.
ROI MB 맵에서 MB의 상태는 모션 정보가 ROI의 후속 이동을 표시하는 경우에 변경될 수 있다. 일반적으로, 상태는 ROI 외부 경계에서 MB들에 대하여 발생할 것이다. 위치 조정치들에 응답하여, ROI 맵퍼(54)는 니어-엔드 ROI MB 맵에 의해 규정된 ROI를 쉬프트하며, 따라서 ROI 위치는 프레임 기준으로 인코딩된 니어-엔드 비디오 내의 움직임에 적응한다. ROI 트래킹 모듈(56) 및 ROI 맵퍼(54)은 모션이 비디오 장면 내에서 검출될 때마다 ROI 위치를 자동으로 조정하도록 함께 동작한다. 상기 방식에서, ROI 엔진(44)은 ROI 내의 이동하는 물체들을 트래킹하기 위해 ROI를 조정한다.
인증 모듈(58)은 개별 사용자들의 권리들 및 다수 사용자들 사이의 권리들의 우선순위를 포함하여 원격 사용자들의 ROI 권리들을 해결하기 위해 제공된다. ROI-인식형 비디오 디코더(48)가 원격 비디오 통신 디바이스(14)로부터 원격 니어-엔드 ROI를 수신할 때, 원격 니어-엔드 ROI를 ROI 엔진(44)으로 제공한다. 그러나 몇몇 경우들에서, 원격 사용자에 의해 규정된 원격 니어-엔드 ROI는 로컬 사용자에 의해 규정된 로컬 니어-엔드 ROI와 충돌할 수 있다. 예를 들어, 원격 및 로컬 사용자들은 비디오 장면 내에서 오버래핑하는 ROI들 또는 전체적으로 서로 다른 ROI들을 규정할 수 있다. 상기 경우에, 인증 모듈(58)은 ROI 충돌을 해결하기 위해 제공될 수 있다.
인증 모듈(58)은 몇몇 실시예들에서, 어떤 니어-엔드 ROI 정보(로컬 또는 원격의)가 주어진 시간에 사용될 수 있는지를 조정하기 위해 이른바 "마스터-슬레이브" 메카니즘을 적용할 수 있다. 특히, 송신자가 수신측-구동 ROI 정보를 수신하기 전에, 송신자는 니어-엔드 ROI 마스터이고, 니어-엔드 ROI를 제어한다. 다시 말해서, 원격 니어-엔드 ROI가 비디오 통신 디바이스(12)에서 수신되기 전에, 로컬 사용자는 니어-엔드 ROI를 제어한다. 원격 사용자는 그후에 니어-엔드 ROI "슬레이브"가 되며, 마스터, 즉 로컬 사용자가 니어-엔드 ROI를 제어하기 위한 액세스 권리들을 허가하지 않으면 니어-엔드 ROI를 제어하지 못한다.
로컬 사용자가 원격 사용자에 대해 액세스 권리를 허가하면, 로컬 사용자는 더이상 니어-엔드 ROI를 제어하지 않는다. 대신에, 비디오 통신 디바이스(14)와 연관된 원격 사용자는 비디오 통신 디바이스(12)에 의해 발생된 니어-엔드 비디오에 대하여 니어-엔드 ROI의 제어를 획득하고, 니어-엔드 ROI의 마스터가 된다. 원격 사용자는 로컬 사용자가 액세스 특권을 명백하게 취소하거나 원격 사용자에 의한 액세스를 거절할 때까지 제어를 유지하거나, 또는 원격 사용자는 마스터 ROI 제어가 로컬 사용자로 다시 복귀할 수 있는 경우에 ROI 선택을 중단한다.
ROI-인식형 비디오 디코더(48)가 임의의 경우에 인코딩된 파-엔드 비디오를 수신하면, 송신자와의 합의된 포맷에 기초하여 비디오 비트스트림으로부터 원격 니어-엔드 ROI 정보를 검색한다. 다시 말해서, 니어-엔드 ROI 정보는 대역 외 시그널링에 의해 전송되거나 인코딩된 파-엔드 비디오에 삽입될 수 있다. 상기 경우에, ROI-인식형 비디오 디코더(48)는 원격 니어-엔드 ROI가 ROI 제어기(52) 또는 ROI 맵퍼(54)를 통해 ROI-인식형 비디오 인코더(46)로 전송되기 전에 액세스 허가를 획득하기 위해 원격 니어-엔드 ROI를 인증 모듈(58)에 전송한다. 인증 모듈(58)은 특정 사용자들에 대한 액세스 권리들을 제한하며, 따라서 인코딩 프로세서는 로컬 사용자에 의한 인증 없이 사용자들에 의해 제어될 수 없다.
인증 모듈(58)은 하나 또는 그 이상의 원격 사용자들 사이에서 액세스 권리들 및 레벨들을 허가하고 관리하도록 구성될 수 있다. 예를 들어, 로컬 사용자는 선택된 원격 사용자들에게 액세스 권리들을 허가할 수 있다. 결과적으로, 로컬 사용자는 몇몇 원격 사용자들이 니어-엔드 ROI를 제어하도록 허용하고, 다른 원격 사용자들이 니어-엔드 ROI를 제어하는 것을 금지할 수 있다. 또한, 로컬 사용자는 원격 사용자들에게 관련된 액세스 레벨들 또는 우선순위들을 할당할 수 있다. 상기 방식에서, 로컬 사용자는 원격 사용자들 사이에서 액세스 레벨들의 계층을 규정할 수 있고, 따라서 몇몇 원격 사용자들은 다수의 원격 사용자들이 ROI 제어를 동시에 요청하는 경우에 니어-엔드 ROI를 제어할 때 다른 원격 사용자들에 대하여 우선순위를 가질 수 있다. 예를 들어, 다수의 원격 사용자들은 다수-인원의 비디오 회의 중에 ROI 제어를 동시에 요청할 수 있다. 상기 경우들에서, ROI 제어는 일반적으로 한 명의 사용자에게 로컬 사용자에게, 또는 제어가 로컬 사용자에 의해 허가되는 경우에 원격 사용자들 중 선택된 한 명에게 독점적으로 허가될 것이다.
몇몇 실시예들에서, 인증 모듈(58)은 로컬 비디오 통신 디바이스(12)가 ROI-인식형 비디오 처리를 가능하게 하는 능력을 가지는지의 여부를 결정하기 위해 자원 모니터링해야할 책임이 있을 수 있다. 만약 로컬 디바이스가 임의의 주어진 시간에 원격 ROI 제어를 지원하거나 특정 형태의 ROI 요청을 서비스하기 위해 충분한 처리 자원들을 가지고 있지 않다면, 인증 모듈(58)은 원격 ROI 제어 액세스 권리들을 폐지하거나 ROI 요청을 거절한다. 일 예로서, 통신 채널에 의해 부과되는 대역폭 제한들 또는 로컬 처리 부하들은 원격 ROI 제어를 거절하는 결과를 발생할 수 있다. 추가의 예로서, 상기 제한들은 미리 구성된 ROI 패턴들의 사용은 허가하지만, 그려지거나 설명된 ROI 패턴들의 사용은 허가하지 않는다. 인증 모듈(58)은 원격 디바이스로 전송될 출력되는 인코딩된 니어-엔드 비디오에 상태 메세지를 삽 입함으로써 ROI 결정을 원격 디바이스에 통지할 수 있다.
부가적으로, 개별 원격 사용자들은 원격 사용자가 니어-엔드 ROI를 제어할 수 있는 정도를 제어하기 위해 서로 다른 액세스 레벨들이 허가될 수 있다. 예를 들어, 원격 사용자는 미리 정의된 ROI 패턴들의 세트의 선택, 특정 ROI 위치 또는 크기, 또는 로컬 사용자의 승인시에만 ROI의 규정이 제한될 수 있다. 따라서, 인증 모듈(58)은 로컬 사용자와의 대화에 의해 원격 사용자에 의한 니어-엔드 ROI 제어의 능동적인 승인을 협상하거나 니어-엔드 ROI의 원격 사용자 제어를 자동으로 해결할 수 있다. 예를 들어, 원격 사용자가 니어-엔드 ROI를 제어하기 위한 액세스를 요청할 때, 인증 모듈(58)은 원격 사용자 ROI 제어의 승인을 요청하기 위해 사용자 인터페이스(42)를 통해 로컬 사용자에게 질의를 제공할 수 있다.
인증 모듈(58)은 임의의 다양한 방식으로 원격 사용자들을 위한 액세스 레벨들을 트래킹할 수 있다. 전술된 것과 같이, 로컬 사용자는 원격 사용자로부터 니어-엔드 ROI를 제어하기 위한 요청을 능동적으로 승인할 수 있고, 원격 사용자에게 허가될 액세스 레벨들을 능동적으로 제어할 수 있다. 선택적으로, 로컬 사용자는 액세스 권리들 또는 레벨들을 포함하여 원격 사용자들과 연관된 정보를 저장하는 비디오 통신 디바이스(12) 내의 메모리 내에 어드레스 북을 보유할 수 있다. 어드레스 북은 원격 사용자들 및 연관된 액세스 레벨들의 리스트를 가지는 데이터 베이스의 형태를 취할 수 있다. 원격 사용자가 니어-엔드 ROI 제어를 요청할 때, 인증 모듈(58)은 어드레스 북으로부터 적절한 액세스 권리 정보를 검색하고, 로컬 사용자, 원격 사용자들 및 가능하면 몇몇 원격 사용자들 사이에서 ROI 제어를 해결하기 위해 자동으로 인증 프로세스를 적용한다. 만약 원격 사용자가 어드레스 북에 열거되지 않으면, 로컬 사용자는 적용가능한 액세스 권리들을 가지는 원격 사용자를 어드레스 북에 부가할 것을 선택할 수 있다.
몇몇 경우들에서, 로컬 사용자는 어드레스 북 내의 특정 원격 사용자들에 대하여 규정된 디폴트 액세스 레벨들을 무시할 수 있다. 예를 들어, 인증 모듈(58)은 로컬 사용자들이 VT 호출 동안 서로 다른 원격 사용자들 사이에서 ROI 제어 우선순위들을 능동적으로 재정렬하거나 로컬 사용자로서 독점적으로 니어-엔드 ROI의 제어를 회복하는 것을 중재하도록 허가할 수도 있다. 어드레스 북을 유지하거나 ROI 제어 요청들을 능동적으로 관리할 때 로컬 사용자와 인증 모듈(58) 사이의 대화는 도 3의 ACCESS CONTROL INFO에 의해 표시된다.
원격 사용자를 위한 니어-엔드 ROI 제어의 자동화된 또는 능동적인 승인이 수행되면, 인증 모듈(58)은 ROI 맵퍼(54)에 의한 처리 및 맵핑을 위해 원격 니어-엔드 ROI를 ROI 제어기(52)로 전송한다. 선택적으로, ROI 제어기(52)는 사용자 인터페이스(42)를 통해 로컬 사용자에 의해 제공된 로컬 니어-엔드 ROI를 처리하며, 즉 어떤 원격 니어-엔드 ROI도 제공되지 않거나 로컬 사용자가 원격 사용자들을 제외하도록 니어-엔드 ROI를 제어하도록 선택된다.
인증 모듈(58)은 원격 및 로컬 사용자들 사이의 ROI 충돌들을 해결하기 위해 제공된다. 디폴트에 의해, 인증 모듈(58)은 로컬 사용자가 니어-엔드 ROI 제어를 수행하는 마스터-슬레이브 개념을 적용한다. 원격 사용자에게 최고 레벨을 가지는 액세스 권리를 허가하면, 원격 사용자는 비디오 통신 디바이스(12)의 ROI-인식형 비디오 인코더(46)로부터 니어-엔드 ROI 선택의 전체 제어를 수용한다. 그렇지 않 다면, 로컬 사용자는 원격 사용자에 의해 수행된 임의의 니어-엔드 ROI를 무시하는니어-엔드 ROI 제어를 수행한다.
원격 사용자에게 액세스 권리들이 허가될 수 있지만, 로컬 사용자는 원격사용자의 액세스 권리들이 보통 로컬 사용자의 액세스 권리들보다 더 낮은 레벨이기 때문에 니어-엔드 ROI 제어에서 우세할 것이다. 따라서, 만약 로컬 사용자가 니어-엔드 ROI를 규정할 것을 선택하면, 원격 사용자에 의해 실행된 임의의 니어-엔드 ROI 선택은 무시될 것이다. 그렇지 않고, 만약 로컬 사용자가 니어-엔드 ROI를 규정하지 않으면, 원격 사용자에게 할당된 액세스 권리들의 레벨은 유효하며, 원격 사용자는 니어-엔드 ROI를 제어할 수 있다. 그럼에도 불구하고, 전술된 것과 같이, 로컬 사용자는 여전히 디폴트 마스터-슬레이브 관계를 무시하고 로컬 사용자에게 최고 레벨의 액세스 권리들을 양보한다.
도 4는 ROI-인식형 CODEC를 가지고, 추가로 ROI 추출 모듈(60)을 포함하는 또다른 비디오 통신 디바이스(12')를 도시하는 블럭 다이어그램이다. 도 4의 비디오 통신 디바이스(12')는 도 3의 비디오 통신 디바이스(12')와 거의 동일하다. 그러나, 비디오 통신 디바이스(12')는 추가로 사용자로부터의 입력에 기초하여 로컬 니어-엔드 ROI 및 파-엔드 ROI를 형성하기 위한 ROI 추출 모듈(60)을 포함한다. 미리 구성된 ROI 패턴들의 선택을 간단히 처리하거나 사용자가 디폴트 ROI를 그리거나, 위치 조정하거나, 크기 조정하는 것에 부가하여, ROI 추출 모듈(60)은 로컬 사용자가 구두형 또는 문서형의 ROI 설명에 의해 ROI를 규정하도록 허가한다. 특 히, ROI 추출 모듈(60)은 로컬 사용자에 의해 제공된 ROI 설명에 기초하여 로컬 니어-엔드 ROI 또는 파-엔드 ROI를 발생한다.
ROI 설명들의 예들은 "얼굴", "이동중인 물체", "입술", "인간", "배경" 등등과 같은 용어들의 문서형 또는 구두형 입력을 포함한다. 상기 물체들의 우선적인 인코딩은 매우 바람직할 수 있다. 예를 들어, 입술 또는 얼굴의 우선적인 인코딩은 얼굴 표정들, 단어들의 발성 등등을 더 양호하게 표현할 수 있다. 문서형 입력은 사용자 인터페이스(42)에 의해 제공된 메뉴에 입력되거나 상기 메뉴에서 선택될 수 있다. 구두형 입력은 비디오 통신 디바이스(12')와 결합된 마이크로폰에 말을 함으로써 제공될 수 있다. 각각의 경우에, 로컬 사용자는 ROI를 선택하거나 그리는 대신에 ROI를 "설명"한다. ROI 추출 모듈(60)은 상기 설명을 적용가능한 니어-엔드 또는 파-엔드 비디오 장면 내에 좌표들의 세트로 변환한다. 구두형 ROI 설명이 사용되는 경우에, 사용자 인터페이스(42) 또는 ROI 추출 모듈(60)은 종래의 음성 인식 능력들을 통합할 수 있다. 특히, ROI 추출 모듈(60)은 하나 또는 그 이상의 인식된 용어들에 기초하여 ROI를 규정하는 정보를 발생할 수 있다.
ROI 추출 모듈(60)은 원하는 ROI를 검출하도록 구성된 종래의 사전-인코딩 프로세싱 알고리즘의 애플리케이션에 의해 자동으로 ROI 좌표들을 선택한다. 특히, ROI 추출 모듈은 비디오 ROI 처리 분야에서 당업자에게 공지된 종래의 기술들에 따라 얼굴 검출, 특징 추출, 물체 세분화 또는 트래킹을 위한 알고리즘을 적용할 수 있다. 예를 들어, ROI 추출 모듈(60)은 비디오 입력 데이터의 픽셀들의 명도 또는 색도 값들에 기초하여 ROI 식별에 의존하는 종래의 기술들을 적용할 수 있 다.
종래의 얼굴 검출 방식은 일반적으로 얼굴 대 비-얼굴 픽셀들을 식별하기 위한 척도로서 피부색의 사용을 포함한다. 종래의 얼굴 검출 방식들의 예들은 C.-W, Lin, Y.-J. Chang and Y.-C. Chen, "a low-complexity face assisted coding scheme for low bit-rate video telephony", IEICE Trans. Inf.&Styst., vol.E86-D, no.1, Jan.2003, pp.101-108 and D. Chai and K.N.Ngan, "Face segmentation using skin-color map in videophone applications", IEEE Trans. On Circuits and Systems for Video Technology, vol.9, no.4, Jan.1999, pp.551-564에 개시된다.
로컬 사용자들이 "얼굴"과 관련하여 ROI를 설명할 때, ROI 추출 모듈(60)은 얼굴을 식별하기 위해 니어-엔드 또는 파-엔드 비디오들을 적용가능한 것으로 분석하고, 식별된 얼굴과 연관된 좌표들을 ROI로 지정한다. ROI 추출 모듈(60)은 ROI 맵퍼(54)에 의한 처리 및 맵핑을 위해 ROI 제어기(52)에 좌표들을 제공한다. 특히, ROI 추출 모듈(60)은 로컬 니어-엔드 ROI 설명 또는 파-엔드 ROI 설명을 적용가능한 것으로 처리하고, 상기 설명을 적절한 추출 알고리즘으로 맵핑하며, 적절한 ROI를 자동으로 추출하기 위해 적용가능한 미리 인코딩된 니어-엔드 비디오 또는 디코딩된 파-엔드 비디오를 자동으로 분석한다.
자동 ROI 검출을 지원하기 위해, ROI 추출 모듈(60)은 비디오 포착 디바이스(40)로부터의 니어-엔드 비디오 또는 ROI-인식형 비디오 디코더(48)로부터의 파-엔드 비디오를 수신한다. 사용자 인터페이스(42)로부터 로컬 니어-엔드 ROI 설명 또는 파-엔드 ROI 설명 뿐만 아니라 자동화된 검출 알고리즘을 사용하여, ROI 추출 모듈(60)은 ROI 제어기(52)로의 응용을 위해 적용가능한 로컬 니어-엔드 ROI 및 파-엔드 ROI를 발생한다. 각각의 경우에, ROI 추출 모듈(60)은 로컬 니어-엔드 ROI 설명 또는 파-엔드 ROI 설명을 적용가능한 설명에 가장 적합한 좌표들로 변환한다. 상기 경우에, 사용자가 ROI를 그릴 필요는 없다. 부가적으로, 사용자는 미리 정의된 ROI 패턴들의 세트에 제한되지 않는다. 대신에, ROI 제어기(52)는 ROI 설명과 매치되는 니어-엔드 비디오 내의 적절한 영역을 능동적으로 검출한다.
ROI 맵퍼(54)는 ROI 좌표들을 비디오 프레임 내의 적절한 매크로 블럭들(MBs)로 맵핑하며, 니어-엔드 또는 파-엔드 ROI MB 맵을 발생시킨다. 사실상, ROI 맵퍼(54)는 ROI 제어기(52)로부터의 ROI 좌표들을 비디오 인코더(46)가 이해할 수 있는 포맷으로 변환한다. 특히, 비디오 인코더(46)는 MB 기준으로 MB 레벨에서 인코딩을 처리하는 능력을 구비한다. 이를 위해, ROI 맵퍼(54)는 니어-엔드 또는 파-엔드 비디오를 위해 ROI MB를 발생한다. ROI MB 맵은 지정된 ROI 내에 존재하는 MB들을 식별하며, 따라서 비디오 인코더(46)는 상기 MB들에 우선적인 인코딩을 적용할 수 있다.
ROI 설명들을 처리하는데 부가하여, ROI 추출 모듈(60)이, 미리 결정된 패턴들의 세트로부터 사용자에 의해 선택되거나, 로컬 사용자에 의해 그려지거나 위치 조정되거나 크기 조정된 ROI 패턴들을 처리하기 위해 구비될 수 있다. 따라서, 비디오 통신 디바이스(12')는 도 3의 비디오 통신 디바이스(12)와 관련하여 설명된 것과 같이 실질적으로 ROI 정보를 발생하지만, 로컬 사용자에 의해 문서형 또는 구두형으로 입력된 ROI 설명들을 처리하기 위해 추가로 ROI 추출 모듈(60)을 포함한다. ROI 추출 모듈(60)은 로컬 사용자에 의한 사용의 용이함과 관련하여 바람직할 수 있다. 그러나, 몇몇 비디오통신 디바이스들은 ROI 추출 모듈(60)을 지원하기에 불충분한 처리 전력을 가질 수 있다. 따라서, ROI 추출 모듈(60)은 본 개시물에 따라 비디오 통신 디바이스의 바람직하지만 선택적인 구성요소들을 표시한다.
몇몇 실시예들에서, ROI 추출 모듈(60)은 로컬 사용자 뿐만 아니라 원격 사용자에 의해 발생된 ROI 설명들을 처리할 수 있다. 상기 방식에서, 추출 기능은 몇몇 디바이스에서 국부적으로 보다는 원격으로 수행될 수 있다. 예를 들면, 특정 비디오 통신 디바이스(14)는 상기 디바이스(14)의 사용자에 의해 제공된 ROI 설명들에 대한 ROI 추출을 지원할 수 있는 능력들 또는 불충분한 로컬 자원들을 가질 수 있다. 그러나, 또다른 비디오 통신 디바이스(12)는 ROI 추출을 위해 더 양호할 수 있다. 상기 경우에, 로컬 ROI 추출은 원격 비디오 통신 디바이스에 제거되거나 분포될 수 있다.
원격 추출을 지원하기 위해, ROI 설명은 다양한 방식들로 원격 디바이스에 제공될 수 있다. 예를 들어, 구두형 설명들은 원격 디바이스에 전송된 오디오 스트림 내에 포함될 수 있다. 문서형 ROI 설명들은 물론, 미리 정의된 ROI 패턴들 또는 그려진 ROI 패턴들도 마찬가지로, 예를 들면, 인코딩된 비디오 스트림에 상기 정보를 삽입함으로써 원격 디바이스로 전송될 수 있다. 따라서, 하나의 디바이스로부터 또다른 디바이스로 전송된 ROI 정보는 원격 인코더로의 적용 이전에 원격 디바이스에서 처리를 요구하는 표시들 또는 설명들을 포함하여 미리 처리된 ROI MB 맵 또는 임의의 다른 ROI의 표시 또는 설명을 취할 수 있다.
도 5는 중간 추출 서버(61)를 통해 분포된 ROI 추출을 도시하는 블럭 다이어그램이다. 도 5에 도시된 것과 같이, 비디오 통신 디바이스(12, 14)는 중간 추출 서버(61)에 충분한 정보를 제공하여 ROI가 추출될 수 있게 한다. 예를 들어, 각각의 디바이스(12, 14)는 개별 로컬 니어-엔드 ROI 설명, 파-엔드 ROI 설명, 인코딩되거나 원래의 가공되지 않은 니어-엔드 비디오 및 인코딩된 파-엔드 비디오를 제공할 수 있다. 니어-엔드 디바이스로부터 인코딩된 파-엔드 비디오를 제공하는데 대한 대안으로, ROI 추출 서버(61)는 파-엔드 디바이스로부터 직접 파-엔드 비디오를 수신할 수 있다. 상기 정보를 사용하여, 추출 서버(61)는 파-엔드 ROI와 로컬 니어-엔드 ROI 중 하나 또는 둘 다를 발생하고, 이들을 개별 디바이스(12, 14)에 제공한다. 추출 서버(61)는 통신 네트워크 내의 임의의 위치에 위치된 서버가 될 수 있고, 유선 매체, 무선 매체 또는 이들의 조합에 의해 디바이스들(12, 14)에 결합될 수 있다. 추출 서버(61)는 비디오 통신 디바이스들(12, 14)로부터 원격으로 배치되거나 디바이스들(12, 14) 중 하나와 함께 배치될 수 있다. 그러나, 다수의 경우들에서, 추출 서버(61)는 원격 서버가 될 수 있다. 일반적으로, 추출 서버(61)는 비디오 통신 디바이스들(12, 14)로부터 구조적으로 떨어져 있다.
추출 서버(61)는 추출 모듈(60)과 매우 유사하게 기능하지만, 원격의 분산된 기준으로 동작하며, 따라서 ROI 추출은 디바이스(12, 14) 내에서 국부적으로 수행될 필요는 없다. 상기 방식에서, ROI 추출의 처리 비용은 더 많은 처리 전력을 가지는 서로 다른 디바이스로 분산될 수 있다. ROI 추출 모듈(60)과 유사하게, 추출 서버(61)는 사용자에 의해 구두형, 문서형 또는 그래픽 설명들과 같은 서로 다른 종류의 ROI 설명들을 처리할 수 있다. 이를 위해, ROI 추출 서버(61)는 설명들을 처리하기 위해 음성 인식 성능들과 같은 적절한 성능들을 포함할 수 있다. 부가적으로, ROI 추출 서버(61)는 비디오의 분석 및 ROI의 추출을 허용하는 비디오 디코딩 성능들과 함께 요구되는 경우에, 비디오를 다시 인코딩하고 ROI 정보를 삽입하기 위한 인코딩 성능들을 구비할 수 있다.
도 6은 다수의 비디오 전화기 세션들을 위해 분포된 ROI 추출을 도시하는 블럭 다이어그램이다. 도 6의 예에서, ROI 추출 서버(61)는 다수의 비디오 통신 디바이스들(12A-14A, 12B-14B, 12C-14C 내지 12N-14N) 사이에서 VT 세션들을 위한 ROI 추출을 처리하도록 동작한다. 상기 방식에서, ROI 추출 서버(61)는 주어진 통신 네트워크에서 수행되는 다양한 VT 세션들을 지원하기 위해 다수의 ROI 추출 작업들을 병렬로 수행한다.
도 7A-7D는 로컬 또는 원격 사용자에 의한 선택을 위해 미리 정의된 ROI 패턴들을 도시하는 다이어그램들이다. 도 7A-7D의 ROI 패턴들은 예를 위한 것이며, 제한을 위해 고려되는 것은 아니다. 도 7A는 무선 통신 디바이스(38)와 결합된 디스플레이(36)에 표현된 비디오 장면(34) 내의 ROI(62)를 도시한다. ROI(62)는 비디오 장면 내에 실질적으로 중심에 위치된 기본의 정사각형이다. 직사각형 ROI(62)의 주 길이는 비디오 장면(34) 내에서 수직으로 연장한다. 대부분의 경우들에서, 미리 정의된 중심에 위치된 직사각형(62)은 인간의 얼굴, 즉 VT 호출에 참여한 원격 사용자의 얼굴을 포착하는데 유효할 것이다.
도 7B는 비디오 장면(34) 내에서 수평으로 연장하는 주 길이를 가지는 직사각형 형태의 또다른 ROI(64)를 도시한다. ROI(64)는 비디오 장면(34) 내에 실질적으로 중심에 위치되며, 차량들, 보트들, 제품들, 프리젠테이션들 등등과 같은 물체들을 포착하는데 유효하다.
도 7C는 VT 호출에 참여한 원격 사용자의 얼굴과 어깨를 포착하도록 설계된 모양을 가지는 또다른 ROI(66)를 도시한다. 선택적으로, ROI(66)는 예를 들면 한방향 비디오 스트리밍 애플리케이션에서, 뉴스 방송의 통신원, 모임의 사회자, 또는 회의의 연설자의 얼굴 및 어깨를 포착할 수 있다. 임의의 경우에, 미리 정의된 OI(66)는 인간 VT 참여자 또는 제출자에 집중하며, 상기 참여자 또는 제출자의 물리적인 특징들에 대한 우선적인 코딩을 달성한다.
도 7D는 비디오 장면(34) 내에 나란히 제공된 ROI들(68, 70)의 이중 세트를 도시한다. 도 5D의 예에서, ROI들(68, 70)은 나란히 앉아있거나 서 있는 2명의 사람들의 얼굴들을 포착하는데 유효할 수 있다. 상기 방식에서, 2명의 참여자들의 얼굴은 얼굴 표정들 및 움직임에 대하여 더 높은 이미지 품질을 지원하기 위해 우선적으로 인코딩될 수 있다.
도 7A-7D에 도시된 미리 정의된 ROI 패턴들은 설명을 위한 것이다. 선택적인 위치들 또는 모양들을 가지는 다른 미리 정의된 ROI 패턴들이 제공될 수 있다. 예를 들어, 몇몇 ROI 패턴들은 패턴들이 MB 경계들로 맵핑될 수 있는 경우에 둥글거나 불규칙한 모양을 가질 수 있다.
몇몇 실시예들에서, 사용자는 선택된 ROI 패턴을 크기 조정하거나 위치 조정 하도록 허용될 수 있다. 종래의 커서 및 코너 드래그 기술들은 위치 조정 및 크기 조정을 달성하기 위해 사용될 수 있다. 부가적으로, ROI 크기를 다시 스케일링하는 것은 코너 드래그를 수행하거나 또는 스케일 퍼센트율을 명백하게 규정함으로써 달성될 수 있다. 물론, ROI가 더 커질수록, 우선적인 코딩의 정도는 대역폭 제한들로 인해 감소된다. 따라서, 몇몇 경우들에서, 최대 ROI 사이즈는 비디오 통신 디바이스(12) 내에서 강제될 수 있다.
도 8은 송신측 디바이스에서 니어-엔드 비디오 내의 우선적인 ROI 인코딩을 제어하기 위해 수신측 디바이스에서 파-엔드 ROI 정보의 발생을 설명하는 흐름도이다. 도 8에 도시된 프로세스는 도 4의 비디오 통신 디바이스(12')와 도 3의 비디오 통신 디바이스(12) 내에서 구현될 수 있다. 동작시에, 비디오 통신 디바이스(12) 내의 ROI-인식형 비디오 디코더(48)는 비디오 통신 디바이스(12;도 1)와 같은 원격 송신측 디바이스(72)로부터 파-엔드 비디오를 디코딩한다. 파-엔드 비디오를 디코딩하면, 수신측 디바이스(12)의 사용자 인터페이스(42)는 로컬 사용자(74)에 의한 관찰을 위해 파-엔드 비디오를 디스플레이한다.
만약 로컬 사용자가 ROI 선택(76)을 요청하지 않으면, 어떤 동작도 수행되지 않으며, 파-엔드 비디오의 다음 프레임은 디코딩된다(72). 그러나, 만약 ROI 선택이 요청되면(76), 사용자 인터페이스(42)는 로컬 사용자로부터 파-엔드 ROI 정보를 수신한다(78). ROI 제어기(52) 및 ROI 맵퍼(54)는 파-엔드 ROI MB 맵을 발생하도록 함께 동작한다(80). ROI-인식형 인코더(46)는 인코딩된 니어-엔드 비디오 내에 파-엔드 ROI MB 맵을 삽입하며, 따라서 파-엔드 ROI 맵을 파-엔드 비디오를 인코딩 하는 원격 송신측 디바이스(14)로 전송한다(82). 파-엔드 ROI MB 맵은 원격 비디오 통신 디바이스(14)와 결합된 인코더가 비디오 통신 디바이스(12)에 전송될 파-엔드 비디오의 적절한 ROI 내의 MB들에 우선적인 코딩을 적용해야함을 규정할 수 있다.
도 9는 ROI 트래킹과 함께 송신측에서 니어-엔드 비디오 내의 우선적인 ROI 인코딩을 위해 수신측 디바이스로부터 니어-엔드 ROI 정보의 처리를 설명하는 흐름도이다. 도 9의 예에서, 사용자 인터페이스(42)는 비디오 포착 디바이스(40)에 의해 발생된 니어-엔드 비디오 스트림을 수신하여 니어-엔드 비디오를 로컬 사용자(84)에게 제공한다. 만약 로컬 사용자 또는 원격 사용자가 니어-엔드 ROI 선택을 요청하지 않으면(86), 각각의 비디오 프레임 내의 모든 MB들은 정상적으로 즉, ROI 내의 MB들의 임의의 우선적인 인코딩 없이 인코딩된다(88). 인코딩된 니어-엔드 비디오는 원격 수신측 디바이스(14)로 전송된다(89).
만약 니어-엔드 ROI 선택이 원격 사용자 또는 로컬 사용자에 의해 요청되면(86), ROI 제어기(52) 및 ROI 맵퍼(54)는 니어-엔드 ROI MB 맵을 발생하기 위해 적절한 니어-엔드 ROI 정보를 처리한다(90). 만약 니어-엔드 ROI가 로컬 사용자 및 원격 사용자 모두에 의해 규정되면, 인증 모듈(58)은 ROI들 중 하나를 위해 충돌을 해결하도록 중재할 수도 있다. 니어-엔드 ROI MB 맵을 수신하면(90), ROI-인식형 비디오 인코더(46)는 더 높은 품질의 인코딩, 더 강한 에러 보호 또는 두가지 모두를 적용함으로써 ROI 내에서 MB들을 우선적으로 인코딩한다(92).
트래킹 모듈(56)은 ROI-인식형 비디오 인코더(46)에 의해 발생된 모션 정보 를 모니터함으로써 니어-엔드 비디오 내의 ROI의 위치를 트래킹한다(94). 만약 ROI 내에서 쉬프트가 검출되지 않으면(96), 현존하는 ROI 맵은 니어-엔드 비디오 내의 ROI MB들을 인코딩하도록 적용되며(100), 인코딩된 니어-엔드 비디오는 원격 수신측 디바이스에 전송된다(102). 만약 ROI내에서 쉬프트가 검출되면(96), 비디오 트래킹 모듈(56)은 니어-엔드 비디오를 인코딩(100)하기 전에 모션 정보에 기초하여 ROI MB 맵을 조정한다(98).
도 10은 사용자 인증과 함께 송신측 디바이스에서 니어-엔드 비디오 내의 우선적인 ROI 인코딩을 위해 수신측 디바이스로부터 ROI 정보를 처리하는 것을 설명하는 흐름도이다. 도 10은 원격 사용자가 니어-엔드 ROI를 제어하는 것을 허용할 때 도 3 또는 도 4의 인증 모듈(58)의 동작을 도시하며, 간략화를 위해, 어떤 로컬 니어-엔드 ROI도 규정되지 않는다고 가정한다. 도 10에 도시된 것과 같이, 비디오 통신 디바이스(12) 내의 비디오 포착 디바이스(40)에 의해 발생된 니어-엔드 비디오 스트림에 대하여(104), 인증 모듈(58)은 원격 니어-엔드 ROI가 비디오 통신 디바이스(14)의 원격 사용자에 의해 요청되는지(106)의 여부를 결정한다.
만약 어떤 원격 니어-엔드 ROI도 요청되지 않고(106), 어떤 로컬 니어-엔드 ROI도 규정되지 않으면, 니어-엔드 비디오 내의 모든 MB들은 정상적으로 인코딩된다(110). 그러나, 만약 원격 니어-엔드 ROI가 요청되면(106), 인증 모듈(58)은 다음에 니어-엔드 ROI를 요청한 원격 사용자가 인증되는지의 여부를 결정한다(108). 특히, 인증 모듈(58)은 비디오 통신 디바이스(12)에 국부적으로 저장된 어드레스 북을 참조하여 원격 사용자의 액세스 권리들을 자동으로 결정할 수 있다. 선택적 으로, 인증 모듈(58)은 원격 사용자에 의한 니어-엔드 ROI 제어를 위한 액세스 권리들의 승인 또는 거부를 획득하기 위해 사용자 인터페이스(42)를 통해 로컬 사용자에게 능동적으로 질의할 수 있다.
만약 원격 사용자가 인증되지 않으면(108), 니어-엔드 비디오 내의 모든 MB들은 정상적으로 인코딩된다(110). 그러나, 만약 원격 사용자가 인증되면(108), 원격 사용자는 니어-엔드 ROI 제어가 승인된다. 상기 경우에, ROI 제어기(52) 및 ROI 맵퍼(54)는 원격 사용자로부터의 니어-엔드 ROI 정보를 처리하고, 니어-엔드 MB 맵(112)을 발생한다. 니어-엔드 MB 맵을 사용하여, ROI-인식형 인코더(46)는 니어-엔드 MB 맵에 의해 식별된 MB들을 우선적으로 인코딩한다(114). 비디오 통신 디바이스(12)는 원격 비디오 통신 디바이스(14)에 인코딩된 니어-엔드 비디오를 전송한다(116).
도 11은 미리-정의된 ROI 패턴들의 선택을 설명하는 흐름도이다. 일단 ROI-인식형 비디오 디코더(48)가 원격 비디오 통신 디바이스(14)로부터 파-엔드 비디오를 디코딩하면(118), 파-엔드 비디오는 사용자 인터페이스(42)를 통해 로컬 사용자에게 디스플레이된다(120). 만약 로컬 사용자가 ROI 선택을 요청하면(122), 사용자 인터페이스(42)는 도 7A-7D에 도시된 ROI 패턴들과 같은 미리 정의된 ROI 패턴들의 메뉴를 디스플레이한다(124). 선택적으로, 사용자는 ROI 설명을 제공하거나 ROI 패턴을 그리거나, 위치 조정하거나, 크기 조정할 수 있다. 그러나 도 11의 예에서, 동작은 미리 정의된 ROI 패턴들의 표현에 집중된다. 로컬 사용자에 의한 미리 정의된 ROI 패턴의 선택시(126), ROI 제어기(52) 및 ROI 맵퍼(54)는 선택된 패턴에 기초하여 ROI MB 맵을 정의한다(128). ROI-인식형 비디오 인코더(46)는 인코딩된 니어-엔드 비디오 내에 ROI MB 맵을 삽입하며, 파-엔드 비디오 내의 ROI의 우선적인 인코딩에서 사용하기 위한 상기 ROI MB 맵을 원격 비디오 통신 디바이스(14)로 전송한다(130).
도 12는 ROI 템플릿(132)의 확대 및 축소에 의해 디스플레이된 비디오 장면(34)에서 ROI 패턴의 정의를 도시하는 다이어그램이다. 도 12는 실질적으로 도 2와 일치하지만, 사용자에 의해 크기가 조정될 수 있는 ROI 템플릿(132)의 표현을 도시한다. 도 12의 예에서, ROI 템플릿(132)은 ROI 템플릿을 확대 및 축소하기 위해 ROI 템플릿의 코너들 중 하나를 코너 드래그함으로써 크기가 조정될 수 있다. ROI 템플릿(132)을 확장하기 위해 코너 드래그한 결과는 확장된 ROI 템플릿(134)에 의해 표현된다. 코너 드래그는 ROI 템플릿(132)의 크기를 증가 또는 감소시키지만, 상대적인 길이 대 폭 비율 스케일링을 유지한다. 그러나 몇몇 실시예들에서, 사용자는 ROI 템플릿의 크기를 감소 또는 증가시키면서 길이 대 폭 비율 스케일링을 변경하기 위해 ROI 템플릿(132)의 측면을 드래그하도록 허용될 수 있다. 드래그는 터치스크린과 결합된 스타일러스 또는 비디오 통신 디바이스(12)의 사용자 인터페이스(42)와 연관된 또다른 포인팅 디바이스를 사용하여 달성될 수 있다. 다른 포인팅 디바이스들은 조이스틱들, 터치패드들, 스크롤 휠들, 트랙볼들 등등을 포함할 수 있다.
도 13은 ROI 템플릿(132)을 드래그함으로써 디스플레이된 비디오 장면 내의 ROI 패턴의 정의를 도시하는 다이어그램이다. 특히, 도 13은 비디오 장면(34) 내 의 또다른 위치(135)로 ROI 템플릿을 드래그함으로써 ROI 테플릿의 위치를 조정하는 것을 도시한다. 드래그는 사용자 인터페이스(42)와 연관된 스타일러스 및 터치 스크린 또는 또다른 포인팅 디바이스에 의해 수행될 수 있다.
도 14는 스타일러스(138)를 사용하여 터치스크린에 ROI 패턴(136)을 그림으로써 디스플레이된 비디오 장면에 ROI 패턴의 정의를 도시하는 다이어그램이다. 도 14의 예에서, ROI 패턴(136)은 프리-핸드 드로잉에 의해 발생된다. ROI 제어기(52) 및 ROI 맵퍼(54)는 그려진 ROI 패턴과 연관된 좌표들을 대략적으로 ROI 패턴(136) 내에 존재하는 비디오 장면(34) 내의 MB들을 식별하는 MB 맵으로 변환하도록 함께 동작한다. 도 12, 13, 14에 도시된 것과 같은 ROI 패턴의 정의는 니어-엔드 비디오 또는 파-엔드 비디오 내의 ROI를 위해 적용될 수 있다.
도 15는 규정된 ROI 물체들이 동적으로 트래킹되는 드롭-다운 메뉴(140)를 사용하여 디스플레이된 비디오 장면 내의 ROI 패턴의 정의를 도시하는 다이어그램이다. 도 15에 도시된 것과 같이, 사용자 인터페이스(42)는 "얼굴", "입술", "배경", "운동"과 같은 ROI 설명들을 표현하는 드롭-다운 메뉴(140)를 제공한다. 로컬 사용자는 요구되는 ROI 설명으로서 드롭-다운 메뉴 내의 입력들 중 하나를 선택한다. 이에 응답하여, ROI 추출 모듈(60; 도 4)은 상기 설명과 일치하는 ROI 패턴을 검출하기 위해 적용가능하게 니어-엔드 비디오 또는 파-엔드 비디오를 분석한다. 드롭-다운 메뉴(140)에 대한 대안으로서, 사용자는 사용자 인터페이스(42)를 통해 텍스트를 입력하거나 텍스트를 마이크로폰에 구두로 입력할 수 있다. 각각의 경우에, 선택된 ROI는 스킨-톤 검출, 물체 세분화 등등과 같은 종래의 특징 검출 알고리즘들을 사용하여 적절한 ROI 패턴에 매치된다. ROI 패턴의 선택시, ROI 제어기(52) 및 ROI 맵퍼(54)는 적절한 ROI MB 맵을 발생한다. 도 15의 프로세스는 각각의 ROI 설명이 고려중에 특정 비디오 장면 내의 ROI 패턴과 동적으로 매치되어야 한다는 점에서 '동적인" 것으로 간주된다.
도 16은 도 7A-7D에서와 같이 미리 정의된 ROI 패턴들로 맵핑된 규정된 ROI 물체들을 가지는 드롭-다운 메뉴(142)를 사용하여 디스플레이된 비디오 장면 내에 ROI 패턴의 정의를 도시하는 다이어그램이다. 도 16에 도시된 것과 같이, 사용자 인터페이스(42)는 "단일 얼굴", "이중 얼굴", "머리/어깨" 및 "물체"와 같은 ROI 설명들을 표현하는 드롭-다운 메뉴(142)를 제공한다. 로컬 사용자는 드롭-다운 메뉴 내의 입력들 중 하나를 요구되는 ROI 패턴으로 선택한다. 이에 응답하여, ROI 제어기(52)는 도 7A-7D에 도시된 것과 같은 상응하는 미리 정의된 ROI 패턴에 선택된 ROI 패턴을 매치한다. 따라서, 도 15에 도시된 ROI 설명들과 달리, 고정된 ROI 패턴들은 어떤 비디오 분석도 요구하지 않는다. 대신에, ROI 제어기(52) 및 ROI 맵퍼(54)는 드롭-다운 메뉴(142)에서 선택들에 상응하는 미리 구성된 ROI MB 맵들을 발생한다. 다시 말해서, 드롭-다운 메뉴(142)에 대한 대안으로서, 사용자는 사용자 인터페이스(42)를 통해 텍스트를 입력할 수 있거나 텍스트를 마이크로전화기에 구두로 입력할 수 있다. 도 15의 프로세스는 각각의 ROI 패턴이 미리 정의된 ROI 패턴 및 MB 맵과 일치한다는 관점에서 "정적인" 것으로 간주된다.
도 17은 ROI 설명 인터페이스를 사용하여 디스플레이된 비디오 장면에서 ROI 패턴의 정의를 설명하는 흐름도이다. 도 17에 도시된 프로세스는 도 15의 드롭-다 운 메뉴 또는 다른 입력 매체와 함께 사용될 수 있다. 도 17에 도시된 것과 같이, ROI-인식형 비디오 디코더(48)는 원격 송신측 디바이스(14)로부터 수신된 파-엔드 비디오를 디코딩한다(144). 사용자 인터페이스(42)는 파-엔드 비디오를 로컬 사용자에게 디스플레이한다(146). 만약 로컬 사용자가 파-엔드 비디오에 대한 ROI 선택을 요청하지 않으면(148), 어떤 ROI 정보도 원격 비디오 통신 디바이스(14)로 전송되지 않는다. 만약 ROI 선택이 요청되면(148), 사용자 인터페이스(42)는 도 17의 드롭-다운 메뉴와 같은 ROI 설명 인터페이스(150)를 제공한다.
로컬 사용자 ROI 설명의 수신시(152), ROI 제어기(52) 및 ROI 맵퍼(54)는 상기 설명에 기초하여 ROI 패턴을 선택하고(154) 선택된 ROI 패턴에 기초하여 ROI MB 맵을 정의한다(156). 다시 말해서, 선택된 ROI 패턴은 종래의 검출 기술들을 사용하여 파-엔드 비디오를 분석하고, ROI 설명을 파-엔드 비디오 내의 특정 MB들에 매칭하여 결정될 수 있다. 파-엔드 ROI MB 맵의 발생시, ROI-인식형 비디오 인코더(12)는 인코딩된 니어-엔드 비디오 내에 파-엔드 ROI MB 맵을 삽입하고, 파-엔드 ROI의 우선적인 인코딩을 위해 원격 비디오 통신 디바이스(14)로 전송한다.
도 18은 송신측 및 수신측 디바이스들(12, 14) 사이에서 ROI 충돌들이 해결을 설명하는 흐름도이다. 특히, 도 18은 로컬 사용자에 의해 지정된 니어-엔드 ROI와 원격 사용자에 의해 지정된 니어-엔드 ROI 사이의 충돌들을 해결할 때 인증 모듈(58; 도 3 또는 도 4)의 동작을 도시한다. 송신측 디바이스에서 니어-엔드 비디오의 발생시(160), 인증 모듈(58)은 니어-엔드 ROI가 로컬 사용자 또는 원격 사용자에 의해 요청되는지의 여부를 결정한다(162). 만약 아니라면, 모든 MB들은 ROI를 우선적으로 인코딩하지 않고 정상적으로 인코딩되며(164), 그 결과 인코딩된 비디오들은 수신측 비디오 통신 디바이스(14)로 전송된다(166).
만약 니어-엔드 ROI가 요청되면(162), 인증 모듈(58)은 로컬 사용자에 의해 규정된 니어-엔드 ROI와 원격 사용자에 의해 규정된 니어-엔드 ROI 사이에 충돌이 발생하는지의 여부를 결정한다(168). 만약 어떠한 규정된 원격 니어-엔드 ROI도 존재하지 않거나, 로컬 및 원격 니어-엔드 ROI가 일치하면, 인증은 처리를 위해 ROI제어기(52)로 선택된 니어-엔드 ROI를 전송할 수 있다.
만약 어떤 로컬 니어-엔드 ROI도 존재하지 않지만, 원격 니어-엔드 ROI가 선택되면, 인증 모듈(58)은 원격 니어-엔드 ROI가 적용되도록 허용할 수 있다. 선택적으로, 몇몇 실시예들에서, 인증 모듈(58)은 로컬 사용자 상호 작용 또는 어드레스 북내에 기록된 액세스 레벨에 의해 원격 사용자에게 허가된 명백한 액세스가 존재하는 경우에만 원격 니어-엔드 ROI가 적용되도록 허용할 수 있다. 만약 어떤 ROI 충돌도 존재하지 않으면, ROI 맵퍼(54)는 적용가능한 니어-엔드 ROI에 기초하여 니어-엔드 MB 맵을 발생하고, 이를 ROI-인식형 비디오 인코더(46)에 적용한다. ROI-인식형 비디오 인코더(46)는 그후에 니어-엔드 비디오의 ROI 내의 MB들을 우선적으로 인코딩한다(172).
만약 로컬 및 원격 니어-엔드 ROI 사이에 충돌이 존재하면(168), 인증 모듈(58)은 비디오 통신 디바이스(12) 내에 국부적으로 저장된 어드레스북 내에 액세스레벨들이 이미 할당되었는지(174)의 여부를 결정한다. 만약 액세스 레벨들이 할당되었으면(174), 인증 모듈(58)은 액세스 레벨들에 따라 ROI 충돌을 해결한 다(176). 예를 들어, 원격 사용자를 위해 저장된 액세스 레벨은 원격 사용자가 로컬 사용자에 대하여 ROI 제어가 승인되어야 한다고 표시할 수 있다. 만약 액세스 레벨들이 할당되지 않으면(174), 인증 모듈(58)은 로컬 사용자로부터 원격 ROI 제어의 승인을 획득한다(178). 특히, 인증 모듈(58)은 원격 사용자에 의한 니어-엔드 ROI 제어의 승인을 요청하기 위해 사용자 인터페이스(42)를 통해 질의를 제공할 수 있다.
만약 로컬 사용자에 의해 승인이 제공되면, 인증 모듈(58)은 처리를 위해 원격 니어-엔드 ROI를 ROI 제어기(52)에 제공한다. 만약 승인이 제공되지 않으면, ROI 제어기(52)는 로컬 니어-엔드 ROI를 처리한다. 상기 경우에, ROI-인식 비디오 인코더(46)는 ROI 내에 존재하는 니어-엔드 비디오 내의 MB들을 우선적으로 인코딩하기 위해 선택된 ROI를 사용하고(172), 인코딩된 니어-엔드 비디오를 원격 수신측 디바이스(14)로 전송한다(166). 몇몇 경우들에서, 인증 모듈(58)은 로컬 사용자와 원격 사용자 사이뿐만 아니라 가능하면 몇몇 원격 사용자들 사이에서 ROI 충돌들을 해결할 수 있다. 로컬 사용자는 원격 사용자들 중 한 명에게 니어-엔드 ROI를 제어하기 위한 액세스 권리들을 능동적으로 허가하거나, 다양한 원격 사용자들의 ROI 제어 권리들을 우선시키는 관련 액세스 레벨들을 할당할 수 있다. 일반적으로, ROI를 제어하기 위한 액세스 권리들은 예를 들면, 로컬 사용자 또는 원격 사용자들 중 한 명과 같이 한 명의 사용자에게만 독점적으로 허가된다.
도 19는 파-엔드 비디오 내의 ROI 매크로 블럭들의 우선적인 디코딩을 설명하는 흐름도이다. 도 19에 도시된 것과 같이, 원격 송신측 디바이스(14)로부터 파-엔드 비디오의 수신시(180), 로컬 수신측 디바이스(12) 내의 ROI-인식형 비디오 디코더(48)는 파-엔드 ROI가 로컬 사용자에 의해 규정되는지를 결정(182)한다. 만약 아니라면, ROI-인식형 비디오 디코더(48)는 파-엔드 비디오 내에서 모든 MB들을 정상적으로 인코딩(184)한다. 그러나 만약 파-엔드 ROI 정보가 로컬 사용자에 의해 규정되면, ROI-인식형 비디오 디코더(48)는 수신된 파-엔드 비디오 내에 있는 ROI MB들을 우선적으로 디코딩한다(186). ROI MB들은 비-ROI MB들에 적용된 보간식들 및 에러 숨김 기술들과 관련하여 더 높은 품질의 보간식들 또는 더 견고한 에러 숨김 기술들을 적용함으로써 우선적으로 디코딩될 수 있다. 우선적인 디코딩은 더 높은 품질의 블럭킹 차단 또는 벨울림 차단 필터들과 같은 우선적인 사후-처리를 포함할 수 있다.
본 명세서에 개시된 기술들은 하드웨어, 소프트웨어, 펌웨어 또는 이들의 임의의 조합에서 구현될 수 있다. 소프트웨어에서 구현되는 경우에, 기술들은 실행될 때 전술된 하나 또는 그 이상의 방법들을 수행하는 명령들을 포함하는 프로그램 코드를 포함하는 컴퓨터로 읽을 수 있는 매체에 의해 부분적으로 구현될 수 있다. 상기 경우에, 컴퓨터로 읽을 수 있는 매체는 동기식 동적 랜덤 액세스 메모리(SDRAM)와 같은 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 비휘발성 랜덤 액세스 메모리(NVRAM), 전기적으로 소거 가능한 프로그래밍 가능한 판독 전용 메모리(EEPROM), FLASH 메모리 자기 또는 광학 데이터 저장 매체 등등을 포함할 수 있다.
프로그램 코드는 하나 또는 그 이상의 디지털 신호 처리기들(DSPs), 범용 마 이크로프로세서들, 애플리케이션용 집적 회로들(ASICs), 현장 프로그램 가능한 로직 어레이들(FPGAs), 또는 다른 등가의 집적 또는 이산 로직 회로에 의해 실행될 수 있다. 몇몇 실시예들에서, 본 명세서에 개시된 기능은 인코딩 및 디코딩을 위해 형성된 지정된 소프트웨어 모듈들 또는 하드웨어 유니트들 내에서 제공되거나 결합된 비디오 인코더-디코더(CODEC)에 통합될 수 있다.
다양한 실시예들이 개시되었다. 상기 및 다른 실시예들은 하기의 청구항들의 사상 내에 있다.
Claims (57)
- 전송 채널에 의해 접속된 적어도 두 개의 비디오 통신 장치들(12, 14)―상기 비디오 통신 장치들 각각은 비디오 인코더-디코더를 포함함―을 포함하는 비디오 전화 시스템에서 관심 영역 프로세싱을 위한 방법으로서,인코딩된 니어-엔드(near-end) 비디오를 원격 디바이스로 전송하는 단계;상기 원격 디바이스에 의해 수신된 상기 인코딩된 니어-엔드 비디오 내의 관심 영역(ROI)을 규정하는, 상기 원격 디바이스로부터의 정보를 로컬 디바이스에서 수신하는 단계; 및상기 비디오의 비-ROI 영역들에 비해 상기 ROI의 이미지 품질을 개선하기 위해 상기 ROI에 기초하여 상기 니어-엔드 비디오를 상기 로컬 디바이스에서 인코딩하는 단계를 포함하는,관심 영역 프로세싱 방법.
- 제 1항에 있어서,상기 인코딩된 니어-엔드 비디오를 상기 원격 디바이스로 전송하는 단계; 및상기 로컬 디바이스에서, 상기 원격 디바이스에 의해 인코딩된 파-엔드 비디오를 수신하는 단계를 더 포함하는, 관심 영역 프로세싱 방법.
- 제 1항에 있어서,상기 원격 디바이스로부터 수신된 인코딩된 파-엔드 비디오와 함께 상기 ROI를 규정하는 정보를 수신하는 단계를 더 포함하며, 상기 ROI를 규정하는 정보는 상기 인코딩된 파-엔드 비디오 내에 삽입되는, 관심 영역 프로세싱 방법.
- 제 1항에 있어서,상기 원격 디바이스로부터의 대역 외(out-of-band) 시그널링에 의해 상기 ROI를 규정하는 정보를 수신하는 단계를 더 포함하는, 관심 영역 프로세싱 방법.
- 제 1항에 있어서,상기 로컬 디바이스에서, 상기 원격 디바이스에 의해 인코딩된 파-엔드 비디오를 수신하는 단계;상기 인코딩된 파-엔드 비디오 내에서 ROI를 규정하는 정보를 생성하는 단계; 및상기 ROI 정보를 상기 인코딩된 니어-엔드 비디오와 함께 상기 원격 디바이스로 전송하는 단계를 더 포함하는, 관심 영역 프로세싱 방법.
- 제 1항에 있어서,상기 로컬 디바이스에서, 상기 원격 디바이스에 의해 인코딩된 파-엔드 비디오를 수신하는 단계;상기 파-엔드 비디오의 비-ROI 영역들에 비해 상기 파-엔드 비디오의 상기 ROI의 이미지 품질을 개선하기 위해 상기 원격 디바이스로부터 수신된 상기 인코딩된 파-엔드 비디오를 디코딩하는 단계를 더 포함하는, 관심 영역 프로세싱 방법.
- 제 6항에 있어서,상기 인코딩된 파-엔드 비디오를 디코딩하는 단계는, 상기 파-엔드 비디오의 비-ROI 영역들에 비해 상기 파-엔드 비디오의 상기 ROI에 더 높은 품질의 사후-처리 또는 에러 숨김 기술들을 적용하는 단계를 포함하는, 관심 영역 프로세싱 방법.
- 제 1항에 있어서,상기 ROI를 규정하는 정보에 기초하여 상기 ROI 내에 존재하는 매크로블럭(MB)들을 식별하는 매크로블럭(MB) 맵을 생성하는 단계를 더 포함하는, 관심 영역 프로세싱 방법.
- 제 1항에 있어서,상기 니어-엔드 비디오를 인코딩하는 단계는, 상기 니어-엔드 비디오의 비-ROI 영역들에 비해 상기 니어-엔드 비디오의 상기 ROI에 더 높은 품질의 인코딩 또는 에러 보호 기술들을 적용하는 단계를 포함하는, 관심 영역 프로세싱 방법.
- 제 1항에 있어서,상기 ROI에 기초하여 상기 니어-엔드 비디오를 인코딩하기 전에 상기 원격 디바이스와 연관된 원격 사용자를 인증하는 단계를 더 포함하는, 관심 영역 프로세싱 방법.
- 제 10항에 있어서,상기 인증 단계는, 상기 원격 사용자가 상기 ROI에 기초하여 상기 니어-엔드 비디오의 인코딩을 제어하도록 허가되는지의 여부를 결정하는 단계를 포함하는, 관심 영역 프로세싱 방법.
- 제 10항에 있어서,상기 인증 단계는 상기 원격 사용자가 상기 ROI에 기초하여 상기 니어-엔드 비디오의 인코딩을 제어하도록 하는 허가를 상기 로컬 디바이스와 연관된 로컬 사용자에게 요청하는 단계를 포함하는, 관심 영역 프로세싱 방법.
- 제 1항에 있어서,상기 원격 디바이스로부터 정보를 수신하는 단계는, 다수의 원격 디바이스들로부터 상기 니어-엔드 비디오 내의 다수의 ROI들을 규정하는 정보를 수신하는 단계를 포함하며,상기 방법은 개별 ROI에 기초하여 상기 니어-엔드 비디오의 인코딩을 제어하기 위해 상기 원격 사용자들 중 한 명을 선택하도록 상기 원격 디바이스들과 연관된 원격 사용자들을 인증하는 단계를 더 포함하는, 관심 영역 프로세싱 방법.
- 제 1항에 있어서,상기 인코딩된 니어-엔드 비디오와 연관된 모션 정보를 모니터하는 단계;상기 모션 정보에 기초하여 상기 ROI를 조정하는 단계; 및상기 조정된 ROI에 기초하여 상기 니어-엔드 비디오를 인코딩하는 단계를 더 포함하는, 관심 영역 프로세싱 방법.
- 제 14항에 있어서,상기 ROI를 규정하는 정보에 기초하여 상기 ROI 내에 존재하는 MB들을 식별하는 매크로블럭(MB) 맵을 생성하는 단계를 더 포함하며, 상기 ROI를 조정하는 단계는 상기 MB들의 상태를 상기 모션 정보에 기초하여 상기 ROI 내에 포함되거나 상기 ROI로부터 제외되는 것으로 수정하는 단계를 포함하는, 관심 영역 프로세싱 방법.
- 제 1항에 있어서,상기 ROI를 규정하는 정보는 문서형 또는 구두형 정보를 포함하며,상기 방법은 상기 문서형 또는 구두형 정보에 기초하여 상기 ROI를 정의하는 단계를 더 포함하는, 관심 영역 프로세싱 방법.
- 제 16항에 있어서,상기 ROI를 정의하는 단계는, 상기 로컬 디바이스 및 상기 원격 디바이스 중 적어도 하나와 통신하는 중간 서버에서 상기 ROI를 정의하는 단계를 포함하는, 관심 영역 프로세싱 방법.
- 비디오 인코딩 디바이스(12, 14)로서,원격 비디오 통신 디바이스로부터 상기 원격 디바이스로 전송된 니어-엔드(near-end) 비디오 내의 관심 영역(ROI)을 규정하는 정보를 수신하는 관심 영역(ROI) 엔진(44); 및상기 비디오의 비-ROI 영역들에 비해 상기 ROI의 이미지 품질을 개선하기 위해 상기 니어-엔드 비디오를 인코딩하는 비디오 인코더(46)를 포함하는,비디오 인코딩 디바이스.
- 제 18항에 있어서,상기 비디오 인코더는 상기 인코딩된 니어-엔드 비디오를 상기 원격 디바이스로 전송하고,상기 비디오 인코딩 디바이스는 상기 원격 디바이스에 의해 인코딩된 파-엔드 비디오를 수신하는 비디오 디코더를 더 포함하는, 비디오 인코딩 디바이스.
- 제 19항에 있어서,상기 비디오 디코더는 상기 원격 디바이스로부터 수신된 인코딩된 파-엔드 비디오와 함께 상기 ROI를 규정하는 정보를 수신하며, 상기 ROI를 규정하는 정보는 상기 원격 디바이스로부터 수신된 상기 인코딩된 파-엔드 비디오 내에 삽입되는, 비디오 인코딩 디바이스.
- 제 18항에 있어서,상기 원격 디바이스에 의해 인코딩된 파-엔드 비디오를 수신하는 비디오 디코더를 더 포함하며, 상기 비디오 디코더는 상기 원격 디바이스로부터의 대역 외(out-of-band) 시그널링에 의해 상기 ROI를 규정하는 정보를 수신하는, 비디오 인코딩 디바이스.
- 제 21항에 있어서,상기 ROI 엔진은 상기 인코딩된 파-엔드 비디오 내에 ROI를 규정하는 정보를 생성하고, 상기 비디오 인코더는 상기 ROI 정보를 상기 인코딩된 니어-엔드 비디오와 함께 상기 원격 디바이스로 전송하는, 비디오 인코딩 디바이스.
- 제 21항에 있어서,상기 파-엔드 비디오의 비-ROI 영역들에 비해 상기 파-엔드 비디오 내의 상기 ROI의 이미지 품질을 개선하기 위해 상기 원격 디바이스로부터 수신된 상기 인코딩된 파-엔드 비디오를 디코딩하는 비디오 디코더(48)를 더 포함하는, 비디오 인코딩 디바이스.
- 제 23항에 있어서,상기 비디오 디코더는 상기 파-엔드 비디오의 비-ROI 영역들에 비해 상기 파-엔드 비디오 내의 상기 ROI에 더 높은 품질의 사후-처리 또는 에러 숨김 기술들을 적용하는, 비디오 인코딩 디바이스.
- 제 18항에 있어서,상기 ROI를 규정하는 정보에 기초하여 상기 ROI 내에 존재하는 매크로블럭(MB)들을 식별하는 매크로블럭(MB) 맵을 생성하는 ROI 맵퍼 모듈(54) 및 상기 ROI 맵퍼 모듈로의 적용을 위해 상기 ROI를 규정하는 정보를 처리하는 ROI 제어기(52)를 더 포함하는, 비디오 인코딩 디바이스.
- 제 18항에 있어서,상기 비디오 인코더는 상기 니어-엔드 비디오의 비-ROI 영역들에 비해 상기 니어-엔드 비디오 내의 상기 ROI에 더 높은 품질의 인코딩 또는 에러 보호 기술들을 적용하는, 비디오 인코딩 디바이스.
- 제 18항에 있어서,상기 니어-엔드 비디오가 상기 ROI에 기초하여 인코딩되기 전에 상기 원격 디바이스와 연관된 원격 사용자를 인증하는 인증 모듈(58)을 더 포함하며, 상기 인증 모듈은 상기 원격 사용자가 상기 ROI에 기초하여 상기 니어-엔드 비디오의 인코딩을 제어하도록 허가되는지의 여부를 결정하는, 비디오 인코딩 디바이스.
- 제 27항에 있어서,상기 인증 모듈은 상기 원격 사용자가 상기 ROI에 기초하여 상기 니어-엔드 비디오의 인코딩을 제어하기 위한 허가를 상기 디바이스와 연관된 로컬 사용자에게 요청하는, 비디오 인코딩 디바이스.
- 제 18항에 있어서,상기 원격 디바이스로부터 수신된 정보는, 상기 니어-엔드 비디오 내의 다수의 ROI들을 규정하는, 다수의 원격 디바이스들로부터의 정보를 포함하며,상기 비디오 인코딩 디바이스는 개별 ROI에 기초하여 상기 니어-엔드 비디오의 인코딩을 제어하기 위해 상기 원격 사용자들 중 한 명을 선택하도록 상기 원격 디바이스들과 연관된 원격 사용자들을 인증하는 인증 모듈을 더 포함하는, 비디오 인코딩 디바이스.
- 제 18항에 있어서,상기 니어-엔드 비디오와 연관된 모션 정보를 모니터하고, 상기 모션 정보에 기초하여 상기 ROI를 조정하는 트래킹 모듈(56)을 더 포함하며, 상기 인코더는 상기 조정된 ROI에 기초하여 상기 니어-엔드 비디오를 인코딩하는, 비디오 인코딩 디바이스.
- 제 30항에 있어서,상기 ROI를 규정하는 정보에 기초하여 상기 ROI 내에 존재하는 MB들을 식별하는 매크로블럭(MB) 맵을 생성하는 ROI 맵퍼 모듈(54)을 더 포함하며, 상기 트래킹 모듈에 의한 상기 ROI의 조정은 상기 MB들의 상태를 상기 모션 정보에 기초하여 상기 ROI 내에 포함되거나 상기 ROI로부터 제외되는 것으로 수정하는 것을 포함하는, 비디오 인코딩 디바이스.
- 제 18항에 있어서,상기 ROI를 규정하는 정보는 문서형 또는 구두형 정보를 포함하며,상기 비디오 인코딩 디바이스는, 상기 문서형 또는 구두형 정보에 기초하여 상기 ROI를 정의하는 추출 모듈(60)을 더 포함하는, 비디오 인코딩 디바이스.
- 제 18항에 있어서,상기 ROI를 규정하는 정보는 문서형 또는 구두형 정보를 포함하며,상기 비디오 인코딩 디바이스는, 상기 비디오 통신 디바이스 및 상기 원격 비디오 통신 디바이스로부터 원격으로 위치되고, 상기 문서형 또는 구두형 정보에 기초하여 상기 ROI를 정의하는 중간 추출 서버를 더 포함하는, 비디오 인코딩 디바이스.
- 프로세서로 하여금 청구항1항 내지 15항 중 어느 한 항에 따른 방법을 실행하게 하는 명령들을 포함하는, 컴퓨터로 읽을 수 있는 매체.
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 전송 채널에 의해 접속된 적어도 두 개의 비디오 통신 장치들(12, 14)―상기 비디오 통신 장치들 각각은 비디오 인코더-디코더를 포함함―을 포함하는 비디오 전화 시스템에서 관심 영역 프로세싱을 위한 방법으로서,원격 디바이스에 의해 전송되고 로컬 디바이스에 의해 수신되는 파-엔드(far-end) 비디오 내의 관심 영역(ROI)을 규정하는 정보를 생성하는 단계; 및상기 비디오의 비-ROI 영역들에 비해 상기 ROI의 이미지 품질을 개선하기 위해 상기 ROI에 기초하여 상기 파-엔드 비디오를 인코딩하는데 사용하기 위한 정보를 상기 원격 디바이스로 전송하는 단계를 포함하는,관심 영역 프로세싱을 위한 방법.
- 삭제
- 삭제
- 삭제
- 비디오 인코딩 디바이스로서,원격 디바이스로부터 수신된 파-엔드 비디오 내의 관심 영역(ROI)을 규정하는 정보를 생성하는 관심 영역(ROI) 엔진(44); 및니어-엔드 비디오를 인코딩하고, 상기 파-엔드 비디오의 비-ROI 영역들에 비해 상기 ROI의 이미지 품질을 개선하기 위해 상기 ROI에 기초하여 상기 파-엔드 비디오를 인코딩시 상기 원격 디바이스에 의한 사용을 위해 상기 인코딩된 니어 엔드 비디오와 함께 상기 ROI를 규정하는 정보를 전송하는 비디오 인코더(46)를 포함하는,비디오 인코딩 디바이스.
- 제 51항에 있어서,상기 ROI를 규정하는 정보는 상기 원격 디바이스로 전송되는 상기 니어-엔드 비디오 내에 삽입되는, 비디오 인코딩 디바이스.
- 제 51항에 있어서,상기 ROI를 규정하는 정보는 상기 원격 디바이스로의 대역 외 시그널링에 의해 전송되는, 비디오 인코딩 디바이스.
- 제 51항에 있어서,상기 ROI를 규정하는 정보는 상기 ROI 내에 존재하는 매크로블럭(MB)들을 식별하는 MB 맵을 포함하는, 비디오 인코딩 디바이스.
- 제 47항에 있어서,상기 ROI를 규정하는 정보는 상기 로컬 디바이스로 전송되는 상기 파-엔드 비디오 내에 삽입되는, 관심 영역 프로세싱을 위한 방법.
- 제 47항에 있어서,상기 ROI를 규정하는 정보는 상기 로컬 디바이스로의 대역 외 시그널링에 의해 전송되는, 관심 영역 프로세싱을 위한 방법.
- 제 47항에 있어서,상기 ROI를 규정하는 정보는 상기 ROI 내에 존재하는 매크로블럭(MB)들을 식별하는 MB 맵을 포함하는, 관심 영역 프로세싱을 위한 방법.
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US66020005P | 2005-03-09 | 2005-03-09 | |
US60/660,200 | 2005-03-09 | ||
US11/182,432 | 2005-07-15 | ||
US11/182,432 US8977063B2 (en) | 2005-03-09 | 2005-07-15 | Region-of-interest extraction for video telephony |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20070118629A KR20070118629A (ko) | 2007-12-17 |
KR100972369B1 true KR100972369B1 (ko) | 2010-07-26 |
Family
ID=36361998
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR20077023067A KR100972369B1 (ko) | 2005-03-09 | 2006-03-08 | 비디오 전화기를 위한 관심 영역 처리 |
Country Status (8)
Country | Link |
---|---|
US (1) | US8977063B2 (ko) |
EP (1) | EP1856914B1 (ko) |
JP (2) | JP2008533838A (ko) |
KR (1) | KR100972369B1 (ko) |
AT (1) | ATE456904T1 (ko) |
DE (1) | DE602006012018D1 (ko) |
ES (1) | ES2338455T3 (ko) |
WO (1) | WO2006115591A1 (ko) |
Families Citing this family (61)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7760908B2 (en) * | 2005-03-31 | 2010-07-20 | Honeywell International Inc. | Event packaged video sequence |
US7801328B2 (en) * | 2005-03-31 | 2010-09-21 | Honeywell International Inc. | Methods for defining, detecting, analyzing, indexing and retrieving events using video image processing |
US20070071404A1 (en) * | 2005-09-29 | 2007-03-29 | Honeywell International Inc. | Controlled video event presentation |
US8208758B2 (en) | 2005-10-05 | 2012-06-26 | Qualcomm Incorporated | Video sensor-based automatic region-of-interest detection |
US8019170B2 (en) | 2005-10-05 | 2011-09-13 | Qualcomm, Incorporated | Video frame motion-based automatic region-of-interest detection |
EP2074588A1 (en) * | 2006-10-20 | 2009-07-01 | Thomson Licensing | Method, apparatus and system for generating regions of interest in video content |
US8315466B2 (en) * | 2006-12-22 | 2012-11-20 | Qualcomm Incorporated | Decoder-side region of interest video processing |
CN101652999B (zh) * | 2007-02-02 | 2016-12-28 | 霍尼韦尔国际公司 | 用于管理实况视频数据的系统和方法 |
US8515194B2 (en) | 2007-02-21 | 2013-08-20 | Microsoft Corporation | Signaling and uses of windowing information for images |
US8446454B2 (en) * | 2007-05-21 | 2013-05-21 | Polycom, Inc. | Dynamic adaption of a continuous presence videoconferencing layout based on video content |
US8059865B2 (en) | 2007-11-09 | 2011-11-15 | The Nielsen Company (Us), Llc | Methods and apparatus to specify regions of interest in video frames |
US8878931B2 (en) | 2009-03-04 | 2014-11-04 | Honeywell International Inc. | Systems and methods for managing video data |
US8310523B2 (en) * | 2009-08-27 | 2012-11-13 | Sony Corporation | Plug-in to enable CAD software not having greater than 180 degree capability to present image from camera of more than 180 degrees |
KR101583088B1 (ko) * | 2009-11-11 | 2016-01-07 | 엘지전자 주식회사 | 화상 회의 시스템에서 데이터를 공유하는 방법 및 장치 |
CN102170552A (zh) * | 2010-02-25 | 2011-08-31 | 株式会社理光 | 一种视频会议系统及其中使用的处理方法 |
US8874090B2 (en) * | 2010-04-07 | 2014-10-28 | Apple Inc. | Remote control operations in a video conference |
JP2012010222A (ja) * | 2010-06-28 | 2012-01-12 | Kyocera Corp | 携帯無線通信端末装置 |
US9407876B1 (en) * | 2010-09-14 | 2016-08-02 | Pixia Corp. | Method and system for encoding and decoding multiple wide-area surveillance area-of-interest video codestreams |
IT1402430B1 (it) | 2010-09-17 | 2013-09-04 | St Microelectronics Srl | "procedimento e dispositivo per l'elaborazione di segnali video, trasmettitore o prodotto informatico relativi" |
CN103190156A (zh) * | 2010-09-24 | 2013-07-03 | 株式会社Gnzo | 视频比特流的传输系统 |
JP2012138823A (ja) * | 2010-12-27 | 2012-07-19 | Brother Ind Ltd | テレビ会議装置、テレビ会議方法、およびテレビ会議プログラム |
US8838680B1 (en) | 2011-02-08 | 2014-09-16 | Google Inc. | Buffer objects for web-based configurable pipeline media processing |
US8681866B1 (en) | 2011-04-28 | 2014-03-25 | Google Inc. | Method and apparatus for encoding video by downsampling frame resolution |
US9106787B1 (en) | 2011-05-09 | 2015-08-11 | Google Inc. | Apparatus and method for media transmission bandwidth control using bandwidth estimation |
US8913103B1 (en) | 2012-02-01 | 2014-12-16 | Google Inc. | Method and apparatus for focus-of-attention control |
US8782271B1 (en) | 2012-03-19 | 2014-07-15 | Google, Inc. | Video mixing using video speech detection |
US9185429B1 (en) | 2012-04-30 | 2015-11-10 | Google Inc. | Video encoding and decoding using un-equal error protection |
KR101758684B1 (ko) * | 2012-07-23 | 2017-07-14 | 한화테크윈 주식회사 | 객체 추적 장치 및 방법 |
CA2886910A1 (en) * | 2012-10-01 | 2014-04-10 | Ilya Polyakov | Robotic stand and systems and methods for controlling the stand during videoconference |
US9172740B1 (en) | 2013-01-15 | 2015-10-27 | Google Inc. | Adjustable buffer remote access |
US9311692B1 (en) | 2013-01-25 | 2016-04-12 | Google Inc. | Scalable buffer remote access |
US9225979B1 (en) | 2013-01-30 | 2015-12-29 | Google Inc. | Remote access encoding |
CN105144768B (zh) | 2013-04-26 | 2019-05-21 | 英特尔Ip公司 | 频谱共享情境中的共享频谱重新分配 |
US9386275B2 (en) * | 2014-01-06 | 2016-07-05 | Intel IP Corporation | Interactive video conferencing |
US10567765B2 (en) * | 2014-01-15 | 2020-02-18 | Avigilon Corporation | Streaming multiple encodings with virtual stream identifiers |
US9438853B2 (en) * | 2014-07-29 | 2016-09-06 | Qualcomm Incorporated | Receiver driven up-switching in video telephony |
US9516220B2 (en) | 2014-10-02 | 2016-12-06 | Intel Corporation | Interactive video conferencing |
CN105592285B (zh) * | 2014-10-21 | 2020-04-21 | 华为技术有限公司 | Roi视频实现方法及装置 |
US10021346B2 (en) * | 2014-12-05 | 2018-07-10 | Intel IP Corporation | Interactive video conferencing |
WO2016123353A1 (en) * | 2015-01-30 | 2016-08-04 | Qualcomm Incorporated | Exchanging portions of a video stream via different links during a communication session |
CN105979304A (zh) * | 2016-05-31 | 2016-09-28 | 北京奇艺世纪科技有限公司 | 一种视频推送方法及装置 |
EP3485639A4 (en) * | 2016-07-18 | 2020-03-04 | Glide Talk, Ltd. | SYSTEM AND METHOD FOR PROVIDING OBJECT-ORIENTED ZOOM IN MULTIMEDIA MESSAGING |
US11553157B2 (en) | 2016-10-10 | 2023-01-10 | Hyperconnect Inc. | Device and method of displaying images |
KR101932844B1 (ko) | 2017-04-17 | 2018-12-27 | 주식회사 하이퍼커넥트 | 영상 통화 장치, 영상 통화 방법 및 영상 통화 중개 방법 |
US10810414B2 (en) | 2017-07-06 | 2020-10-20 | Wisconsin Alumni Research Foundation | Movement monitoring system |
US11450148B2 (en) | 2017-07-06 | 2022-09-20 | Wisconsin Alumni Research Foundation | Movement monitoring system |
US10482613B2 (en) | 2017-07-06 | 2019-11-19 | Wisconsin Alumni Research Foundation | Movement monitoring system |
US10303967B2 (en) * | 2017-08-21 | 2019-05-28 | Lifesize, Inc. | Identifying active areas of interest within video data |
KR102044242B1 (ko) * | 2017-12-27 | 2019-11-13 | 주식회사 하이퍼커넥트 | 영상 통화 서비스를 제공하는 단말 및 서버 |
KR102132341B1 (ko) * | 2017-12-27 | 2020-07-09 | 주식회사 하이퍼커넥트 | 영상 통화 서비스를 제공하는 단말 및 서버 |
CN109040651B (zh) * | 2018-09-25 | 2021-03-09 | 北京小米移动软件有限公司 | 视频通信的方法及装置 |
KR102282963B1 (ko) | 2019-05-10 | 2021-07-29 | 주식회사 하이퍼커넥트 | 단말기, 서버 및 그것의 동작 방법 |
KR102311603B1 (ko) | 2019-10-01 | 2021-10-13 | 주식회사 하이퍼커넥트 | 단말기 및 그것의 동작 방법 |
US11587361B2 (en) | 2019-11-08 | 2023-02-21 | Wisconsin Alumni Research Foundation | Movement monitoring system |
KR102293422B1 (ko) | 2020-01-31 | 2021-08-26 | 주식회사 하이퍼커넥트 | 단말기 및 그것의 동작 방법 |
US11367199B2 (en) * | 2020-06-12 | 2022-06-21 | Adobe Inc. | System for automatic object mask and hotspot tracking |
WO2022089259A1 (zh) * | 2020-10-31 | 2022-05-05 | 华为技术有限公司 | 设备通信方法、系统和装置 |
US11451745B2 (en) * | 2021-02-24 | 2022-09-20 | Gn Audio A/S | Conference device with multi-videostream control |
US11876844B2 (en) * | 2021-04-01 | 2024-01-16 | Active Video Networks, Inc. | Systems and methods of alternative networked application services for video-conferencing applications |
US12058476B2 (en) | 2021-04-16 | 2024-08-06 | Hyperconnect Inc. | Methods, systems, and computer program products for providing video call service |
US11936881B2 (en) | 2021-09-30 | 2024-03-19 | Hewlett-Packard Development Company, L.P. | Region of interest based image data enhancement in a teleconference |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20000023278A (ko) * | 1998-09-18 | 2000-04-25 | 구자홍 | 비디오 압축을 위한 인트라-프레임 양자화기 선택 방법 |
US6178204B1 (en) | 1998-03-30 | 2001-01-23 | Intel Corporation | Adaptive control of video encoder's bit allocation based on user-selected region-of-interest indication feedback from video decoder |
US6775412B1 (en) | 1997-10-10 | 2004-08-10 | Telefonaktiebolaget Lm Ericsson (Publ) | Lossless region of interest coding |
US20050024487A1 (en) * | 2003-07-31 | 2005-02-03 | William Chen | Video codec system with real-time complexity adaptation and region-of-interest coding |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2915248B2 (ja) | 1993-05-07 | 1999-07-05 | 沖電気工業株式会社 | 画像通信システム |
JPH0865647A (ja) | 1994-08-22 | 1996-03-08 | Toshiba Corp | 携帯テレビ電話装置 |
US6122005A (en) * | 1995-04-14 | 2000-09-19 | Canon Kabushiki Kaisha | Camera control system having list of camera names updated in accordance with frequency of use and other ease of use features |
JPH09130767A (ja) | 1995-11-06 | 1997-05-16 | Hitachi Ltd | 画像伝送装置 |
US6618444B1 (en) * | 1997-02-14 | 2003-09-09 | At&T Corp. | Scene description nodes to support improved chroma-key shape representation of coded arbitrary images and video objects |
JP3803476B2 (ja) | 1997-11-05 | 2006-08-02 | Necエンジニアリング株式会社 | 画像伝送システム及び画像符号化装置 |
JP2937180B2 (ja) | 1997-11-22 | 1999-08-23 | 日本電気株式会社 | 映像符号化方法およびこの映像符号化方法による符号データが格納された記録媒体 |
US6380968B1 (en) | 1998-01-06 | 2002-04-30 | Intel Corporation | Method and apparatus for controlling a remote video camera in a video conferencing system |
JP3544852B2 (ja) | 1998-03-12 | 2004-07-21 | 株式会社東芝 | 映像符号化装置 |
WO1999049413A1 (en) | 1998-03-20 | 1999-09-30 | Mitsubishi Electric Corp. | Lossy/lossless region-of-interest image coding |
US6850565B2 (en) * | 1998-12-18 | 2005-02-01 | Intel Corporation | Real time bit rate control system |
US6643387B1 (en) * | 1999-01-28 | 2003-11-04 | Sarnoff Corporation | Apparatus and method for context-based indexing and retrieval of image sequences |
AU4221000A (en) | 1999-04-08 | 2000-10-23 | Internet Pictures Corporation | Remote controlled platform for camera |
US7020697B1 (en) * | 1999-10-01 | 2006-03-28 | Accenture Llp | Architectures for netcentric computing systems |
US6368277B1 (en) * | 2000-04-05 | 2002-04-09 | Siemens Medical Solutions Usa, Inc. | Dynamic measurement of parameters within a sequence of images |
US7024046B2 (en) * | 2000-04-18 | 2006-04-04 | Real Time Image Ltd. | System and method for the lossless progressive streaming of images over a communication network |
JP4665372B2 (ja) * | 2000-05-29 | 2011-04-06 | ソニー株式会社 | 画像処理装置及び方法、通信システム及び方法、並びに記録媒体 |
JP4854156B2 (ja) | 2000-12-27 | 2012-01-18 | パナソニック株式会社 | リンクマークの位置情報の伝送方法と、その表示方法及びシステム |
US20040006575A1 (en) * | 2002-04-29 | 2004-01-08 | Visharam Mohammed Zubair | Method and apparatus for supporting advanced coding formats in media files |
US6757434B2 (en) * | 2002-11-12 | 2004-06-29 | Nokia Corporation | Region-of-interest tracking method and device for wavelet-based video coding |
JP2004187023A (ja) | 2002-12-04 | 2004-07-02 | Nec Corp | 動画像符号化装置及び動画像復号化装置 |
JP2004208125A (ja) | 2002-12-26 | 2004-07-22 | Minolta Co Ltd | 通信端末装置、通信システムおよび通信プログラム |
GB2401272B (en) * | 2003-04-30 | 2007-11-21 | Hewlett Packard Development Co | Method and apparatus for enhancing user interest in static digital images |
US7559026B2 (en) * | 2003-06-20 | 2009-07-07 | Apple Inc. | Video conferencing system having focus control |
KR101099884B1 (ko) * | 2004-04-23 | 2011-12-28 | 히또시 기야 | 동화상데이터의 부호화방법, 복호화방법, 이들을 실행하는단말장치, 및 쌍방향 대화형 시스템 |
US8019175B2 (en) * | 2005-03-09 | 2011-09-13 | Qualcomm Incorporated | Region-of-interest processing for video telephony |
-
2005
- 2005-07-15 US US11/182,432 patent/US8977063B2/en active Active
-
2006
- 2006-03-08 EP EP06737619A patent/EP1856914B1/en active Active
- 2006-03-08 AT AT06737619T patent/ATE456904T1/de not_active IP Right Cessation
- 2006-03-08 JP JP2008500929A patent/JP2008533838A/ja not_active Withdrawn
- 2006-03-08 ES ES06737619T patent/ES2338455T3/es active Active
- 2006-03-08 DE DE602006012018T patent/DE602006012018D1/de active Active
- 2006-03-08 WO PCT/US2006/008458 patent/WO2006115591A1/en active Application Filing
- 2006-03-08 KR KR20077023067A patent/KR100972369B1/ko not_active IP Right Cessation
-
2011
- 2011-12-02 JP JP2011264926A patent/JP5450574B2/ja not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6775412B1 (en) | 1997-10-10 | 2004-08-10 | Telefonaktiebolaget Lm Ericsson (Publ) | Lossless region of interest coding |
US6178204B1 (en) | 1998-03-30 | 2001-01-23 | Intel Corporation | Adaptive control of video encoder's bit allocation based on user-selected region-of-interest indication feedback from video decoder |
KR20000023278A (ko) * | 1998-09-18 | 2000-04-25 | 구자홍 | 비디오 압축을 위한 인트라-프레임 양자화기 선택 방법 |
US20050024487A1 (en) * | 2003-07-31 | 2005-02-03 | William Chen | Video codec system with real-time complexity adaptation and region-of-interest coding |
Also Published As
Publication number | Publication date |
---|---|
ATE456904T1 (de) | 2010-02-15 |
JP2012100282A (ja) | 2012-05-24 |
DE602006012018D1 (de) | 2010-03-18 |
JP2008533838A (ja) | 2008-08-21 |
JP5450574B2 (ja) | 2014-03-26 |
KR20070118629A (ko) | 2007-12-17 |
EP1856914B1 (en) | 2010-01-27 |
ES2338455T3 (es) | 2010-05-07 |
WO2006115591A1 (en) | 2006-11-02 |
EP1856914A1 (en) | 2007-11-21 |
US8977063B2 (en) | 2015-03-10 |
US20060215752A1 (en) | 2006-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100972369B1 (ko) | 비디오 전화기를 위한 관심 영역 처리 | |
KR100946813B1 (ko) | 비디오 전화기를 위한 관심 영역 추출 | |
CN101171841B (zh) | 用于视频电话的关注区提取 | |
US8737489B2 (en) | Picture-in-picture processing for video telephony | |
US7508413B2 (en) | Video conference data transmission device and data transmission method adapted for small display of mobile terminals | |
US8570359B2 (en) | Video region of interest features | |
JP2007150921A (ja) | 通信端末および通信システム、並びに通信端末の表示方法 | |
JP7334470B2 (ja) | 映像処理装置、ビデオ会議システム、映像処理方法、およびプログラム | |
US11877084B2 (en) | Video conference user interface layout based on face detection | |
JP4508029B2 (ja) | 動画像情報の符号化装置 | |
TW532036B (en) | Video transcoding method of facial assistance information | |
WO2024133011A1 (en) | Data compression with controllable semantic loss |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E902 | Notification of reason for refusal | ||
E90F | Notification of reason for final refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20130628 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20140627 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20160629 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20170629 Year of fee payment: 8 |
|
LAPS | Lapse due to unpaid annual fee |