KR20140122275A - 비디오 인터페이스 제어 방법, 비디오 인터페이스 동작 방법, 얼굴 방위 검출기, 및 화상 회의 서버 - Google Patents

비디오 인터페이스 제어 방법, 비디오 인터페이스 동작 방법, 얼굴 방위 검출기, 및 화상 회의 서버 Download PDF

Info

Publication number
KR20140122275A
KR20140122275A KR1020147025401A KR20147025401A KR20140122275A KR 20140122275 A KR20140122275 A KR 20140122275A KR 1020147025401 A KR1020147025401 A KR 1020147025401A KR 20147025401 A KR20147025401 A KR 20147025401A KR 20140122275 A KR20140122275 A KR 20140122275A
Authority
KR
South Korea
Prior art keywords
video
face
orientation
user
focus area
Prior art date
Application number
KR1020147025401A
Other languages
English (en)
Inventor
미하이 파가다르-코스마
미구엘 카사스-산체즈
Original Assignee
알까뗄 루슨트
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 알까뗄 루슨트 filed Critical 알까뗄 루슨트
Publication of KR20140122275A publication Critical patent/KR20140122275A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/167Detection; Localisation; Normalisation using comparisons between temporally consecutive images
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals

Abstract

본 발명은 회의 상황들 등에서 사용하기 위해 사용자(12)와 연관된 비디오 인터페이스(4)를 제어하기 위한 방법에 관한 것이고, 상기 방법은, 사용자(12)로부터 발생된 비디오 스트림의 프레임(11)을 캡처하는 단계, 비디오 스트림(11)으로부터 사용자(12)의 얼굴(10)을 인식하는 단계, 비디오 프레임(11)내 사용자(12)의 얼굴(10)의 방위를 검출하는 단계, 및 얼굴(10)의 방위를 나타내는 제어 신호를 제공하는 단계를 포함한다. 본 발명은 또한 상기 제어 방법의 단계, 제어 신호에 기초하여 얼굴(10)의 방위를 비디오 인터페이스(4)의 초점 영역(15)으로 맵핑하는 단계, 및 초점 영역(15)을 하이라이팅하는 단계를 포함하는 비디오 인터페이스(4)의 동작을 위한 방법에 관한 것이다. 본 발명은 또한 상기 방법을 수행하도록 구성되는 얼굴 방위 검출기(6) 및 화상 회의 서버(5)에 관한 것이다.

Description

비디오 인터페이스 제어 방법, 비디오 인터페이스 동작 방법, 얼굴 방위 검출기, 및 화상 회의 서버{METHOD FOR CONTROL OF A VIDEO INTERFACE, METHOD FOR OPERATION OF A VIDEO INTERFACE, FACE ORIENTATION DETECTOR, AND VIDEO CONFERENCING SERVER}
본 발명은 회의 환경들 등에 사용하기 위해 사용자에 연관된 비디오 인터페이스의 제어를 위한 방법에 관한 것이다. 본 발명은 또한 회의 환경들 등에서 사용을 위해 사용자에 연관된 비디오 인터페이스의 동작을 위한 방법에 관한 것이다. 본 발명은 또한 비디오 스트림을 수신하기 위한 비디오 입력부, 및 비디오 스트림내 얼굴의 방위를 나타내는 제어 신호를 제공하도록 구성된 시그널링 출력부를 포함하는 얼굴 방위 검출기에 관한 것이고, 얼굴 방위 검출기는 상기 방법을 수행하도록 구성된다. 본 발명은 또한 사용자에게 사용자 인터페이스를 제공하기 위한 화상 회의 서버에 관한 것이고, 화상 회의 서버는 상기 방법을 수행하도록 구성된다.
서로로부터 지역상으로 분리되는 사람들의 통신에 대한 필요가 증가하고 있다. 정보의 통신 및 교환을 용이하게 하기 위해, 화상 회의는 사용자들이 서로 대화하고, 서로를 보고, 및/또는 임의의 종류의 정보를 교환하는 것을 허용하기 위해 점점 더 중요해지고 있다. 회의 결과들을 개선하기 위해, 사용자들이 자연스러운 방식으로 서로 상호 작용할 수 있는 회의와 유사한 상황에서 임의의 사항을 논의할 수 있는 것이 바람직하다.
화상 회의들은 보통 참여자들 사이의 정보를 전달하기 위해 사용되는 상이한 사용자들 사이의 IP 접속에 기초한다. 이러한 정보는 보통 사용자를 지켜보고 사용자의 소리에 경청할 수 있게 하는 오디오/비디오 스트림, 및 추가적으로 회의 참여자들 사이에 공유될 임의의 종류의 디지털 문서들을 포함한다. 따라서, 화상 회의의 각각의 사용자는 다른 사용자들에게 제공되는 사용자의 오디오/비디오 스트림을 국부적으로 생성하기 위한 비디오 카메라를 구비하고, 사용자들의 오디오/비디오 스트림들 및 회의에서 사용되는 임의의 종류의 데이터의 재생을 위해 인터페이스 디바이스상에 국부적으로 디스플레이되는 비디오 인터페이스를 사용한다.
화상 회의 서버는 화상 회의의 모든 사용자들간에 정보를 분배하기 위해 제공된다. 따라서, 화상 회의 서버는 사용자들에게 비디오 인터페이스를 제공하여, 사용자들은 화상 회의에 참여하기 위해 임의의 종류의 인터페이스 디바이스, 예를 들면, 오디오/비디오 정보를 재생하기 위한 스크린 및 라우드스피커의 조합을 사용할 수 있다. 정보는, 예를 들면, 사용자들의 오디오/비디오 스트림들에 대해 개별적인 스트림들, 또는 개별적인 스트림을 포함하는 단일 스트림, 및 적용가능한 추가적인 문서들의 형태로 제공될 수 있다.
이러한 회의 환경들 등에서, 비디오 인터페이스와 사용자의 상호 작용은 수신된 정보의 표현을 개선하기 위해 사용된다. 하나의 가능성은 비디오 인터페이스 디바이스에 접속되는, 입력 디바이스, 예를 들면, 마우스의 상호 작용에 의존한다. 마우스는 사용자가 집중하고 있는 비디오 인터페이스의 부분들을 하이라이팅하고 조정하기 위해, 또는 화상 회의 자체를 구성하기 위해 개인 컴퓨터들로부터 알려진 휴먼-머신 인터페이스로서 사용될 수 있다. 이는 자연스런 상호작용의 느낌을 약화시키기 때문에, 실감 회의에 대하여, 만족스럽지 못하다. 이는 바람직한 상호 작용을 달성하기 위해 사용자가 상호 작용 디바이스의 동작에 순간적으로 집중하는 것을 요구하고 사용자의 초점을 회의와 유사한 상황의 실제 회의 흐름으로부터 멀리 이동시킨다. 화상 회의 서버는 사용자들로부터 제어 입력들을 수신하고 그에 따라 그들의 각각의 비디오 인터페이스를 갱신한다.
회의 상황에서 상호 작용을 위한 다른 방식은 주시 제어(gaze control)에 기초한다. 주시 제어는 사용자가 집중하는 스크린의 영역을 결정하기 위해 사람의 눈들의 위치를 모니터링하는 것을 말한다. 주시 제어는 사용자의 눈들을 모니터링하는 것에 의존하고, 이는 실감 화상 회의 등의 상황들에 대한 이러한 제어의 일반적인 사용을 방해하는 여러 결점들을 갖는다. 먼저, 주시 제어는 고해상도 카메라를 요구하고, 따라서 오늘날 사용되는 많은 공통 카메라에 대해 적합하지 않다. 예를 들면, 비디오 카메라들이 함께 장착된 공통 랩탑들 또는 스마트폰들은 주시 제어에 대해 충분한 해상도를 제공하지 않는다. 또한, 비디오 카메라의 비디오 스트림은 보통 IP 접속을 통한 송신을 위해 인코딩된다. 특히, 낮은 대역폭 또는 높은 레이턴시 접속들에서, 비디오 스트림의 품질이 감소될 수 있고, 이는 주시 제어의 정확성 및 성능에 부정적인 영향을 갖는다. 또한, 안경들 또는 선글라스와 같은 안경류의 사용은 주시 제어의 사용을 방해할 수 있다. 주시 제어가 고품질 비디오 정보를 요구하기 때문에, 이는 또한 이러한 정보를 처리하기 위한 높은 계산 능력을 요구한다. 따라서, 주시 제어는 단지 요구된 계산 능력을 제공하는 특별한 하드웨어로만 수행될 수 있다.
따라서, 본 발명의 목적은 상기 불리한 점들 및 제한들을 극복하는 비디오 인터페이스의 제어를 위한 방법 및 비디오 인터페이스의 동작을 위한 방법, 얼굴 방위 검출기, 화상 회의 서버를 제공하는 것이다.
이러한 목적은 독립 청구항들에 의해 달성된다. 이로운 실시예들은 종속 청구항들에서 제공된다.
특히, 회의 상황들 등에서 사용하기 위해 사용자와 연관된 비디오 인터페이스의 제어를 위한 방법이 제공되고, 상기 방법은, 사용자로부터 발생된 비디오 스트림의 프레임을 캡처하는 단계, 비디오 프레임내 사용자의 얼굴을 인식하는 단계, 비디오 프래임내 사용자의 얼굴의 방향을 검출하는 단계, 및 얼굴의 방향을 나타내는 제어 신호를 제공하는 단계를 포함한다.
또한, 회의 상황들 등에서 사용하기 위한 사용자와 연관된 비디오 인터페이스의 동작을 위한 방법이 제공되고, 상기 방법은 상술된 비디오 인터페이스의 제어 방법을 수행하는 단계, 제어 신호에 기초하여 얼굴의 방향을 비디오 인터페이스의 초점 영역에 맵핑하는 단계, 및 초점 영역을 하이라이팅하는 단계를 포함한다.
비디오 스트림을 수신하기 위한 비디오 입력부, 및 비디오 스트림 내 얼굴의 방향을 나타내는 제어 신호를 제공하도록 구성된 시그널링 출력부를 포함하는 얼굴 방위 검출기가 또한 제공되고, 얼굴 방위 검출기는 상기 방법을 수행하도록 구성된다.
또한, 사용자에게 사용자 인터페이스를 제공하기 위한 화상 회의 서버가 제공되고, 화상 회의 서버는 상기 방법을 수행하도록 구성된다.
기본적인 아이디어는 비디오 인터페이스를 제어하고 동작시키기 위한 얼굴의 방향을 검출하는 것이다. 얼굴 방위의 검출은 효과적인 하드웨어 요구 조건들, 예를 들면, 특별한 해상도를 갖는 비디오 스트림 생성 또는 특별한 계산 능력 제공에 대한 필요 없이 수행될 수 있다. 얼굴의 방향의 검출은, 대부분의 랩탑들, 스마트폰들, 또는 다른 데이터 처리 디바이스들의 일부분인, 저해상도 카메라들에 기초하여 행해질 수 있다. 이는 얼굴 검출기에 제공된 비디오 스트림이 인코딩될 때조차도 적용될 수 있다. 회의 상황들 등에서, 사람은 카메라 앞에 위치되는 것으로 가정되어, 저품질 비디오 스트림들의 데이터조차 얼굴의 방향의 검출에 대해 충분한 상세들을 보여준다. 얼굴을 단지 부분적으로 덮는 안경류 또는 얼굴에 착용하는 다른 것의 사용은 안경류 또는 얼굴에 착용하는 다른 것에 의해 덮이지 않은 얼굴의 부분들에 기초하여 얼굴의 방향의 검출을 가능하게 한다. 방법은 비디오 스트림이 얼굴의 방향의 검출을 수행하기 위해 낮은 데이터 레이트로 제공될 수 있기 때문에, 클라우드 내 또는 인터넷에 위치된 서버에 의해 사용하기에 적합하다. 비디오 스트림의 송신을 위해 높은 대역폭 요구 조건들은 존재하지 않는다.
얼굴 방위 검출기는 사용자측에 국부적으로 연결, 제공될 수 있는, 예를 들면, 비디오 스트림을 얼굴 방위 검출기로 직접 전달하기 위한 비디오 카메라에 일체형이 될 수 있는 디바이스이다. 따라서, 비디오 카메라는 그의 비디오 스트림과 함께 얼굴의 방향을 나타내는 제어 신호를 제공할 수 있다. 또한, 얼굴 방위 검출기는, 예를 들면, 인터넷에 위치된 네트워크 디바이스와 같이 사용자로부터 멀리 떨어져 위치될 수 있다. 얼굴 방위 검출기는 클라우드 서비스로서 실행될 수 있다.
얼굴 방위 검출기는 비디오 스트림을 수신하기 위한 비디오 입력을 요구하고, 상기 비디오 입력은 임의의 종류의 적절한 입력일 수 있다. 비디오 스트림은, 예를 들면, 비디오 카메라로부터 직접적으로 알려진 아날로그 비디오 접속기를 통한, 또는 비디오 카메라로부터 디지털 비디오 스트림으로서 IP 접속을 통한 아날로그 또는 디지털 비디오 스트림으로서 제공될 수 있다.
화상 회의 서버는 상술된 비디오 인터페이스를 생성한다. 비디오 인터페이스의 동작은 사용자의 얼굴의 방향에 의해 제어된다. 사용자는 보통, 예를 들면,비디오 스크린 또는 비디오 스크린의 프로젝션일 수 있는, 비디오 인터페이스를 도시하는 디스플레이 앞에 위치된다. 비디오 카메라는 보통 비디오 인터페이스에 위치되고 사용자를 마주하여, 사용자의 로컬 비디오 스트림은 화상 회의 서버로 제공될 수 있다. 이러한 가정에 의해, 제어 신호는, 예를 들면, 얼굴의 방향을 단순히 임의의 종류의 벡터로서, 또는 예를 들면, 미리 규정된 좌표계에서의 위치로서 나타낼 수 있다. 얼굴의 방향을 나타내는 제어 신호는 화상 회의 서버에 의해 얼굴의 방위의 초점 영역이라고 불리는 비디오 인터페이스의 영역에 대한 맵핑을 제공하기 위해 사용된다.
초점 영역은 사용자에 대해 가장 높은 관심 영역으로 생각되고, 따라서 이러한 영역에 디스플레이된 정보의 수신을 용이하기 위해 하이라이팅된다. 초점 영역은 단순히 디스플레이의 한 지점으로 또는 임의의 형태를 갖는 디스플레이의 한 영역으로 나타낼 수 있다. 예를 들면, 초점 영역은 특정 반경을 갖는 원형 영역, 또는 정사각형 또는 직사각형 영역일 수 있다. 초점 영역은 또한 비디오 인터페이스상에 도시된 화상 회의의 아이템들에 의해 규정될 수 있다. 이러한 아이템들은 예를 들면, 화상 회의의 사용자들의 비디오 스트림들의 표현들, 또는 로컬 사용자를 포함하는 화상 회의의 사용자들에 의해 제공된 임의의 종류의 정보의 재생들이다. 이러한 경우, 얼굴의 방향은 얼굴의 방향에 가장 매칭하는 아이템으로 맵핑된다.
얼굴 검출은 예를 들면, 비디오 스트림의 비디오 프레임들상에 적용되는 HAAR 분류기를 사용하여 수행될 수 있다. HAAR 분류기는 비디오 프레임내 다수의 얼굴들의 검출을 라벨링하고 얼굴들의 식별로서 경계 박스들을 제공한다. 바람직하게는, 가장 큰 크기를 갖는 경계 박스는 추가 처리를 위한 사용자의 얼굴로서 선택된다. 따라서, 많은 사람들이 비디오 스트림에서 보이는 사용자와 함께 있을 때조차, 사용자의 얼굴의 방향이 확실하게 검출될 수 있다. 얼굴 특징부들의 식별은 바람직하게는 에지 연산자, 예를 들면, 소벨 또는 캐니를 사용하고, SIFT 특징부 검출기 또는 "추적하기에 양호한 특징부들" 알고리즘을 적용한다.
바람직한 실시예는 비디오 프레임 내 적어도 하나의 얼굴의 식별을 검증하기 위해 피부 인식을 수행하는 추가적인 단계를 포함한다. 바람직하게는, 컬러 기반 피부 구분이, 예를 들면, HAAR 분류기에 의해 인식된 얼굴들의 타당성 검사(plausibility check)를 수행하기 위해 프레임에 적용된다. 인식된 얼굴의 출현이 피부 컬러 스팩트럼에 매칭해야 하기 때문에, 얼굴의 잘못된 출현들은 거부될 수 있다.
바람직한 실시예에 따라, 비디오 프레임 내 사용자의 얼굴의 방향을 검출하는 단계는 비디오 프레임내 인식된 얼굴의 적어도 하나의 얼굴 특징부를 식별하는 단계, 비디오 프레임내 적어도 하나의 얼굴 특징부의 현재 위치를 이전 비디오 프레임의 그의 위치와 비교하는 단계, 및 비디오 프레임내 적어도 하나의 얼굴 특징부와 이전 비디오 프레임 내 그의 위치와의 비교로부터 얼굴 방위를 도출하는 단계를 포함한다. 얼굴 특징부들은 쉽게 추적되는 얼굴의 부분들, 예를 들면, 코 끝, 턱, 입매들 또는 다른 것들을 말한다. 방법을 위해 사용될 얼굴 특징부들의 수 및 종류는, 예를 들면, 비디오 스트림 품질 또는 이용가능한 처리 능력에 의존하여 자유롭게 선택될 수 있다. 대체로, 방법은 이미 단일 얼굴 특징부로 작동한다. 그럼에도 불구하고, 더 큰 수의 얼굴 특징부들은 얼굴 방위의 검출의 신뢰성 및 정확성을 증가시킨다. 얼굴의 방향을 검출하기 위해, 이들 얼굴 특징부들의 위치는 상이한 비디오 프레임들 사이에서 추적된다. 비디오 프레임들은 연속하는 비디오 프레임들, 또는 지연이 취해진 비디오 프레임일 수 있다. 더 적은 비디오 프레임들이 처리될수록, 계산 노력은 더 낮아지고, 반면에 연속하는 비디오 프레임들의 처리는 얼굴의 방향의 검출의 신뢰성을 증가시킨다. 상이한 얼굴 특징부들의 위치들의 차이들에 기초하여, 얼굴 방위가 도출될 수 있다. 다수의 얼굴 특징부들이 평가될 때, 얼굴 방위는 상이한 얼굴 특징부들의 방향의 변경의 평균값으로서 제공될 수 있다.
바람직한 실시예는 인식된 얼굴의 얼굴 방위를 초기화하는 추가적인 단계를 포함한다. 초기화는 화상 회의의 시작시 또는 회의중 임의의 시간에 수행될 수 있다. 또한, 초기화는 화상 회의 중에 얼굴의 검출이 분실될 때, 또한 수행될 수 있다. 초기화는 사용자의 얼굴의 신뢰할 수 있는 검출을 가능하게 하고, 사용자의 얼굴의 방향을 미리 규정된 값들, 예를 들면, 중앙 영역에 대한 얼굴의 방향인 0값 표시로 설정한다.
바람직한 실시예에 따라, 비디오 프레임내 적어도 하나의 얼굴 특징부의 현재 위치를 이전 비디오 프레임에서 그의 위치와 비교하는 단계는 광학 흐름 추정법의 적용을 포함한다. 바람직하게는, 광학 흐름 추정법은 피라미드 루카스-카네이드 광학 흐름 추정법이다. 이러한 방법은 상이한 플랫폼들로 쉽게 이동가능하고, 또한 GPU 기반 실행에 적합해서, 방법은 클라우드 기반 실행들에서 잘 수행한다.
바람직한 실시예에 따라, 비디오 프레임내 적어도 하나의 얼굴 특징부와 이전 비디오 프레임의 그의 위치와의 비교로부터 얼굴 방위를 도출하는 단계는 각각의 얼굴 특징부에 대한 하나의 벡터를 포함하는 적어도 하나의 벡터 필드에 기초하여 방향 벡터를 계산하는 단계를 포함한다. 벡터 필드는 바람직하게는 얼굴의 회전을 나타내는 회전 성분, 카메라 쪽으로 또는 카메라로부터 멀어지는 얼굴의 움직임을 나타내는 발산 성분, 및 비디오 카메라의 평면에 평행한 병진 움직임들을 나타내는 방사 성분을 포함한다. 바람직하게는, 세 개의 성분들은 얼굴 특징부들의 광학 흐름 세트의 헬름홀츠-호지 분해에 의해 획득된다. 더 바람직하게, 칼만 필터는 잡음 효과들을 감소시키기 위해 채용된다.
바람직한 실시예에 따라, 얼굴의 방향을 초점 영역으로 맵핑하는 단계는 비디오 인터페이스에 따른 가상 격자를 제공하는 단계, 및 가상 격자의 적어도 하나의 메시를 초점 영역으로 맵핑하는 단계를 포함한다. 가상 격자는 비디오 인터페이스를 재생하기 위해 사용자에 의해 사용된 디스플레이에 관한 지식이 없어도 계산을 위해 제공 및 사용될 수 있다. 초점 영역의 하이라이팅은 바람직하게는 격자의 적어도 하나의 메시를 하이라이팅하는 단계를 포함한다. 따라서, 제어 신호는 하나의 메시를 식별함으로써 얼굴의 방향을 나타낼 수 있다. 가상 격자의 메시들은 화상 회의의 아이템들에 따라 설계될 수 있다.
바람직한 실시예에서, 초점 영역을 하이라이팅하는 단계는 초점 영역의 업스케일링 동작을 수행하는 단계를 포함한다. 업-스케일링 또는 줌-인은 초점 영역 그 자체상, 또는 초점 영역과 주변 영역상에 수행될 수 있다. 바람직하게, 업-스케일링 동작은 비디오 인터페이스상에 보여지는 화상 회의의 전체 아이템들에 관하여 수행된다.
바람직한 실시예에 따라, 초점 영역을 하이라이팅하는 단계는 초점 영역을 제외한 영역의 다운-스케일링 동작을 수행하는 단계를 포함한다. 업-스케일링 동작에 따라, 다운-스케일링 동작은 초점 영역 자체 주위, 또는 초점 영역과 주변 영역에 수행될 수 있다. 바람직하게, 또한, 다운-스케일링은 비디오 인터페이스상에 보여진 아이템들에 기초한다. 다운-스케일링은, 예를 들면, 초점 영역 주위의 경계 영역에서, 또는 초점 영역을 제외한 비디오 인터페이스의 전체 나머지 영역상에, 국부적으로 수행될 수 있다. 바람직하게는, 업-스케일링 및 다운-스케일링은 초점 영역의 효율적인 하이라이팅을 위해 조합된다.
바람직한 실시예에서, 초점 영역을 하이라이팅하는 단계는 비디오 인터페이스의 하이라이트 영역에 초점 영역의 콘텐트를 보여주는 단계를 포함한다. 업-스케일링에 따라, 초점 영역 자체 또는 초점 영역과 주변 영역은 하이라이트 영역에 보여질 수 있다. 하이라이트 영역은 그의 주요 부분들을 변경하지 않고 비디오 인터페이스의 동작을 허용한다. 예를 들면, 비디오 인터페이스의 적어도 하나의 부분, 예를 들면, 비디오 인터페이스의 경계 영역 또는 프레임은 화상 회의의 모든 아이템들을 보여줄 수 있고, 비디오 인터페이스의 다른 부분, 예를 들면, 그의 중심 영역은 초점 영역에 대응하는 아이템을 보여준다. 대안적인 실시예에서, 초점 영역의 콘텐트는 하이라이트 영역으로 이동된다.
바람직한 실시예에 따라, 화상 회의 서버는 상기 얼굴 방위 검출기를 추가로 포함한다.
본 발명에 따른 장치 및/또는 방법들의 몇몇 실시예들은 오로지 예로서, 및 첨부하는 도면들을 참조하여 여기에 기술된다.
본 발명은 상기 불리한 점들 및 제한들을 극복하는 비디오 인터페이스의 제어를 위한 방법 및 비디오 인터페이스의 동작을 위한 방법, 얼굴 방위 검출기, 화상 회의 서버를 제공한다.
도 1은 일 실시예에 따른 비디오 인터페이스의 제어 및 동작을 위한 방법의 흐름도.
도 2는 상기 방법에 따른 얼굴의 방향의 검출을 도시하는 도면.
도 3은 상기 방법에 따른 초점 영역에 대응하여 비디오 인터페이스의 아이템을 하이라이팅하는 것을 도시하는 도면.
도 4는 상기 방법에 따른 벡터 필드들에 기초하여 얼굴의 방향을 도출하는 것을 도시하는 도면.
도 5는 상기 방법에 따른 초점 영역에 대응하여 비디오 인터페이스의 아이템을 하이라이팅하는 것을 도시하는 다른 도면.
도 6은 제 1 실시예에 따른 비디오 카메라, 화상 회의 서버 및 얼굴 방위 검출기를 포함하는 화상 회의 시스템의 개략도.
도 6은 제 1 실시예에 따른 화상 회의 시스템(1)의 개략도를 도시한다. 화상 회의 시스템(1)은, 이러한 실시예에서, 비디오 인터페이스 디바이스(2), 및 디지털 비디오 카메라(3)를 포함한다. 이러한 실시예에서 LCD-디스플레이인, 비디오 인터페이스 디바이스(2)는 화상 회의 서버(5)로부터 제공된 비디오 인터페이스(4)를 재생한다. 화상 회의 시스템(1)은 또한 얼굴 방위 검출기(6)를 추가로 포함한다. 비디오 인터페이스 디바이스(2), 디지털 비디오 카메라(3), 화상 회의 서버(5), 및 얼굴 방위 검출기(6)가 IP-접속(7)을 통해 접속된다. 대안적인 실시예에서, 얼굴 방위 검출기(6)는 화상 회의 서버(5)와 일체형으로 제공된다.
얼굴 방위 검출기(6)는 IP-접속자(8)를 통해 디지털 비디오 카메라(3)로부터 비디오 스트림을 수신한다. 얼굴 방위 검출기(6)는 이하에 상세하기 기술된 바와 같이 얼굴(10)의 방향을 검출하고, IP-접속자(8)를 통해 얼굴의 방향을 나타내는 제어 신호를 화상 회의 서버(5)로 제공한다. 따라서, 얼굴 방위 검출기(6)의 IP-접속자(8)는 디지털 비디오 카메라(3)로부터 디지털 비디오 스트림을 수신하는 비디오 입력 및 비디오 프레임에 보여진 얼굴(10)의 방향을 나타내는 제어 신호를 제공하는 시그널링 출력의 역할을 한다.
화상 회의 서버(5)는 비디오 인터페이스(4), 즉, 회의 스트림내 화상 회의의 재생을 생성하고, IP-접속(7)을 통해 이를 비디오 인터페이스(4)의 재생이 보여지는 비디오 인터페이스 디바이스(2)로 제공한다.
도 1은 일 실시예에 따른 방법의 흐름도를 도시한다. 방법은 단계(S100)로 시작한다. 단계(S100)는, 이하에 상세히 설명되는 비디오 스트림에 보여진 얼굴 인식 및 얼굴(10)의 방향을 초기화하는 단계를 포함하는, 방법의 초기화를 포함한다.
초기화 단계(S100)에서, 예를 들면, 인텔의 OpenCV 라이브러리가 제공되는 정면 얼굴 HAAR 분류기는 디지털 비디오 카메라(3)의 비디오 프레임들(11)에 적용된다. 시간들(t0, t1)에 대응하는 개별적인 비디오 프레임들(11)이 도 2에 도시된다. 비디오 프레임들(11)은 비디오 인터페이스 디바이스(2)에서 디지털 비디오 카메라(3) 앞에 위치되어 비디오 인터페이스(2) 쪽으로 마주하는 회의 상황에서 디지털 비디오 카메라(3)에 의해 제공되는 화상 회의의 로컬 사용자(12)를 보여준다. 초기화는 사용자(12)의 얼굴(10)의 검출 및 얼굴(10)의 초기 위치를 포함한다. 얼굴 검출은 정면 얼굴 HAAR 분류기를 사용하여 실행된다. 정규의 정면 얼굴 HAAR 분류기가 훈련되는 방법은 사용자(12)의 얼굴(10)이 검출이 발생하도록 디지털 비디오 카메라(3)로 바로 지향되어야하는 것이 요구된다.
각각의 비디오 프레임(11)에 대하여, HAAR 분류기는 한 세트의 경계 박스들(BBi, i= 1..n)로서 얼굴 출현의 리스트를 제공하고, n은 검출된 얼굴 출현들의 수를 나타낸다. 각각의 BBi는 네 부분 <X, Y, W, H>으로 표현되고, <X, Y>는 프레임에서 BB 중심의 좌표들을 나타내고, <W, H>는 이미지 픽셀들에서 그의 크기를 나타낸다(폭, 높이). 도 2는 비디오 프레임(11)내 사용자(12)의 얼굴(10)을 나타내는 경계 박스(BB)를 도시한다.
추가로, 컬러 기반 피부 인식 및 구분이 비디오 프레임(11)에 적용되고 피부 패치들은 접속-성분 분석을 통해 결정된다. 최대 경계 박스(BBmax)는 이후 다음의 수식에 따라 선택된다:
Figure pct00001
여기서:
- SRi = 피부 비율 = 피부로서 라벨링된 픽셀들의 수/박스 영역에서 픽셀들의 총 수;
- A(BBi) = BBi.W × BBi.H = 경계 박스 영역의 범함수;
- TSR = 용도에 특정한 피부 비율 임계치(예를 들면, 0.8);
- arg max = 함수를 최대화하는 독립 변수.
이는 많은 사람들이 디지털 비디오 카메라(3)에 마주하는 장면내에 있는 경우, 디지털 비디오 카메라(3)에 가장 가까운 사람만이 다른 처리를 위해 선택되는 것을 보장한다. Haar 분류기로부터 잘못된 긍정 인식들에 의한 잘못된 출현들은 출현이 피부 컬러 스펙터럼과 매칭해야 하기 때문에 거부된다. 따라서, 피부 인식은 비디오 프레임(11)내 적어도 하나의 얼굴(10)의 식별의 검증을 제공한다.
BBmax가 비디오 프레임(11)에서 발견되는 경우, 얼굴 방위 벡터(V0)는 다음과 같이 초기화된다:
- 원점 = <BBmax.X, BBmax.Y>;
- 방향 = 프레임 평면에 수직;
- 크기 = BBmax.H / 픽셀들에서 프레임 높이;
단계 (S110)에서, 방법은 초기화에 관하여 상기에 기술된 바와 같이 비디오 프레임(11)에서 가장 큰 얼굴(10)의 검출로 계속된다.
단계 (S120)에서, 얼굴 특징부들(14)의 추적이 수행된다. 따라서, 도 2에서 I0로 또한 표시된 초기 얼굴 검출이 발생된 비디오 프레임(11)은 또한 I0라고도 불리는 초기 얼굴 검출이 발생되는 비디오 프레임(11)의 에지 이미지(E0)를 제공하기 위해 에지 연산자(예를 들면, 소벨 또는 캐니)를 통해 전달된다. 에지 이미지(E0)는 한 세트의 에지들(13)을 포함한다. 초기 얼굴 검출 후 임의의 시간(t)에서, 현재 비디오 프레임(11)은 It라고 불리고, Et는 그의 대응하는 에지 이미지이다.
추적될 수 있는 얼굴 특징부들(14)의 특징 세트(F0)는 SIFT 특징 검출기 또는 사이 토마시(Shi and Tomasi)의 "추적하기 양호한 특징들" 알고리즘이라고 불리는 알고리즘을 도 2에 도시된 바와 같이 BBmax로 정의된 관심 영역(ROI)내 E0로 적용함으로써 획득된다.
특징 세트(F0)는 이후 광학 흐름 알고리즘, 예를 들면, 피라미드 루카스-카네이드 흐름 추정법을 사용함으로써 다음 에지 이미지(E1)에서 추적된다. 일반적으로, 에지 이미지(Et)에 관하여 특징 세트(Ft)는 광학 흐름 알고리즘을 사용함으로써 세트(Ft-1)로부터 각각의 얼굴 특징부(14)의 위치들을 추정함으로써 생성된다.
특징 세트(Ft)는 다음과 같이 수학적으로 표현되고,
Ft = {fi | i = 1..nt} (2)
fi라고도 불리는 각각의 추적된 얼굴 특징부(14)는 네 부분 <x, y, x´, y´>으로서 표현되고, 여기서, <x, y>는 세트(Ft -1)에서 얼굴 특징부(14)의 이전 위치를 나타내고, <x´, y´>는 새롭게 추정된 위치를 나타낸다.
Δx = x´- x 및 Δy = y´- y를 고려하면, 얼굴 특징부(14)는:
- 원점 = <x, y>,
- 방향 = arctg(Δy/Δx),
- 속도 = sqrt((Δx)2 + (Δy)2)
를 갖는 벡터
Figure pct00002
의 형태로 나타낼 수 있다는 것이 즉시 분명하다.
알고리즘은 특정 수의 비디오 프레임들(11) 후 추적된 얼굴 특징부(14)가 사용자(12)의 얼굴(10)에 여전히 속하는 것을 보장해야 한다. 이는 잘못 추정된 특징들로서 잡음 또는 누적된 에러들에 의해 야기된 이상치들을 제거함으로써, 및 이상치들을 제거한 후 특징 세트(Ft)의 갯수의 감소를 피하기 위해 특징 세트(Ft)를 주기적으로 재생함으로써 달성된다.
이상치들은 프레임 차(ΔIt = It - It -1)에 관하여 특징 세트(Ft)를 제한함으로써 제거된다. 특징 세트(Ft)에서 얼굴 특징부들(14)은,
Figure pct00003
이도록 필터링된다.
특징 세트(Ft)는 다음 알고리즘에 따라 (Nf 개의 프레임들 후) 주기적으로 재생된다:
- 특징 세트(Ft)에 대하여, t는 다수의 Nf이고, 볼록 다각형 C(Ft)이 계산된다;
- C(Ft)는 에지 이미지(Et)에 대한 ROI로서 설정된다;
- 추적될 수 있는 얼굴 특징부들(14)의 세트(Ft´)는 이전에 고려된 ROI내 Et에 대해 재계산된다;
- t+1에서, 추적은 Ft´로부터 시작하여 계산된다.
GPU-기반 실행을 위해 피라미드 루카스-카네이드 흐름 추정법의 이식 가능성에 의해, 이러한 방법은 매우 빠르게 수행하고 서버측 구현들에 적합하다.
추적된 얼굴 특징부들(14)의 세트(Ft)가 디지털 비디오 카메라(3)의 커버리지 영역 밖으로 이동하는 사용자(12)의 얼굴(10)에 의해 분실되었는지의 여부가 단계 310에서 검증된다. 추적된 얼굴 특징부들(14)의 세트(Ft)가 분실된 경우, 방법은 가장 큰 얼굴(10)을 검출하는 단계(S110)로 리턴한다. 그렇지 않은 경우, 방법은 단계(S140)로 계속된다.
단계 410에서, 얼굴 방위 벡터(Vt)는 현재 분석된 비디오 프레임(11)에 따라 갱신된다.
광학 흐름 알고리즘의 출력은
Figure pct00004
에 따라 벡터 필드(u)와 유사한 추적가능한 특징들(Ft)의 세트를 갖는 도메인(Ω)에서(거의 모든 곳에서 리프시츠 연속) 벡터 필드(u)로서 모델링된다.
현재 시나리오에서, 도메인(Ω)은 광학 흐름이 계산되는 경계 박스(BB)에 의해 규정된 관심 영역에 의해 주어진다. 모든 벡터 필드(u)는 (이러한 경우에 충족되는 환경들의 임의의 세트 하에서) 다음과 같은 3 개의 벡터 필드들로 분해될 수 있고, 이는 도 4에 또한 도시된다:
u = d + r + h
여기서:
d = 컬이 없는 성분(즉, 비회전 필드임)
r = 발산하지 않는(완전 회전) 필드, 및
h = 조화 필드(즉, 변화도).
식(3)에 의해 주어진 추적된 얼굴 특징부들(14)의 광학 흐름 세트(Ft)의 헬름홀츠-호지 분해가 수행된다. 헬름홀츠-호지 분해는 세 개의 성분들을 산출한다:
- 얼굴(10)의 회전들을 나타내는 회전 성분;
- 디지털 비디오 카메라(3) 쪽으로 또는 그로부터 먼 쪽으로 얼굴(10)의 움직임들을 나타내는, 발산 성분, 및
- 카메라 평면에 평행한 순전한 병진 운동들을 나타내는, 변화 성분.
헬름홀츠-호지 분해는 선형계를 해석하는 것으로 이루어진 유체 역학으로부터 영감을 받은 무요소 알고리즘을 사용하여 실행된다.
벡터 필드(Ft)의 회전, 발산 및 조화 성분들은 이후 헤드 중앙 기준 프레임워크 주위의 회전들로서 투사된다. 이들 회전들은 즉:
- 회전: x축 주위를 회전
- 피치, y축 주위를 회전
- 편요각, z 축 주위를 회전
이고, 이전에 알려진 얼굴 방위(Vt -1)로부터의 각도차를 저장하는 {Δp, Δq, Δr} 삼중수로서 나타내어진다. 이들 값들로 Vt - 1를 갱신하는 것은 {p, q, r} 삼중항으로서 각도 형태로 또한 나타내어지는 현재 헤드 자세를 제공한다.
헤드 자세의 표시자(사용자(12)의 얼굴(10)이 초점되는 지점)로서 직접 이들 세 개의 회전 성분들은 사용하는 것은 잡음의 영향을 감소시키기 위해 개선될 수 있다. 잡음은 픽셀 기반 표현들의 부정확성으로부터 및 비디오 카메라(3)의 비선형성들로부터 유래한다.
잡음 효과를 제거하기 위해, 칼만 필터가 채용된다. 헤드 자세 벡터를 직접 추적하는 칼만 필터는 특이성({p, q, r} 삼중수의 각도 표현에 의해)을 포함할 것이고, 따라서, 구성는 4중수에 의해 발생한다. 4중수는 헤드 중심 기준 프레임워크 주위의 회전을 나타내는 R4 = {q1, q2, q3, q4}의 벡터이다. 4중수와 고전 R3 벡터들 사이의 변환들은 간단하고 본 기술의 숙련자에게 알려져 있다.
칼만 개념은 헤드의 절대 위치는 관심이 없고, 단지 그의 자세 벡터에 관심이 있는 단순화된 가정을 적용함으로써 비행 역학으로부터 취해지고 그로부터 적응될 수 있다. 따라서, 이산 칼만 필터의 내부 상태들은 4중수 방향에 의해 간단하게 모델링된다. 행렬들 [A], [B]는 강체의 역학들로부터 취해지고 적응되고, 에러 행렬들 [Q], [P] 및 [R](처리-, 추정-, 및 측정-에러 공분산 또는 잡음)은 [Q] = σ I4 ×4인 것으로 정의되고, [P]는 단지 t=0에 대해서만 요구되고, 측정들이 예를 들면, 상태 추적과는 반대로 추적자의 초기의 시간들에서 매우 중요하다는 것을 수학적으로 나타내는 대각에서 큰 값들의 행렬(예를 들면, 105)이 되도록 선택된다. 행렬 [R]은,
Figure pct00005
여기서 σ는 실험적으로 결정된다.
본 단계의 최종 부분에서, 칼만 필터로부터 획득된 결과는 3D 공간에서 Vt 벡터의 방향을 제공하고, 얼굴(10)의 경계 박스(BB)와 비디오 프레임(11)의 크기 사이의 비율은 그의 크기 |Vt|를 제공한다. 이러한 방식으로 획득된 벡터(Vt)는 사용자(12)의 얼굴(10)의 방향에 대한 표시이고, 이는 제어 신호에 의해 얼굴 검출기(6)로부터 화상 회의 서버(5)로 제공될 수 있다.
단계(S150)에서, 디스플레이(4)의 초점 영역(15)이 결정된다. 초점 영역(15)은 사용자(12)가 집중하는 비디오 인터페이스(4)상의 위치에 대응한다. 따라서, 얼굴 중심 방향 벡터(Vt)는 메시들이라고도 또한 불리는 N × M 개의 셀들(17)의 가상 격자(16)상에 투사된다. 가상 격자(16)는 도 2에 도시되는 비디오 프레임(11)의 상부에 오버레이된다. 투사를 계산하는 것은 벡터의 X 및 Y-축 성분들(VX t, VY t)만을 고려함으로써 간단하다.
XY 평면상에 Vt´의 투사에 의해 표시된 메시(17)는 비디오 인터페이스(4)상의 초점 영역(15)을 나타낸다. 또한, Af i는 도 3 및 도 5에 도시되고 이하에 또한 설명되는 것과 같이, 비디오 인터페이스(4)상에 도시된 실감 통신 대화식 장면(20)에서 아이템(18, 19)을 결정하기 위해 사용된다.
실감 화상 회의에서, 각각의 사용자(12) 또는 참여자(Pi)는 주문 제작될 수 있는 Si로 또한 나타낼 수 있는 그의 대화식 장면(20)으로 표현된다. 대화식 장면(20)은 다른 사용자들(12)의 비디오 스트림 스크린들(18), {Pj, j=1..n, j <> i}으로 또한 나타낼 수 있는 공유된 문서들(19), 및 그의 자체 비디오 스트림 스크린(18)을 포함하는 아이템들(18, 19)을 보여준다. 각각의 비디오 스트림은 배경으로부터 사용자(12)의 실루엣을 분리하고 이를 비디오 스트림에 렌더링하는 컷아웃 알고리즘이 행해진다. 이러한 레이아웃의 목적은 각각의 사용자(12)에게 동일한 공간에 있고 다른 참석자들을 마주하는 인상을 제공하는 것이다. 모든 처리는 클라우드에서 화상 회의 서버(5)상에 수행된다. 처리 파이프라인(PPL)은 경계 박스(BBj)로서 나타내어진 각각의 대화식 장면(20)(Si)에서 각각의 사용자(12)의 위치(Pj)로 기록을 유지한다.
상기 기술된 알고리즘을 통해 각각의 사용자(12)(Pi)의 얼굴 방위를 모니터링함으로써, PPL은 초점 영역(15; Af i)를 계산하고 도 3에 도시된 바와 같이 이를 대화식 장면(20)(Si)의 위에 오버레이한다. 사용자(12)는 얼굴(10)의 방향의 변화로서 등록되기 위해 특정 시간 간격(T) 동안 초점 영역(15)의 방향으로 그의 얼굴을 지향시켜야 한다. 일단 얼굴(10)의 방향이 등록되면, PPL은 상호 작용 장면(20)에서 아이템들(18, 19)의 경계 박스들과 최대 교차점에 대해 검사한다.
Figure pct00006
BBf로 나타내어진 포커스된 아이템(18, 19)은 이후 단계(S170)에서 하이라이팅된다. 따라서, 포커스된 아이템(18, 19)이 비디오 스트림 스크린(18)인 경우, 비디오 스트림 스크린(18)은 각각의 사용자(12; Pi)의 얼굴 방위 벡터 |Vi|의 크기에 비례하여 상향 크기 조정된다. 이러한 크기 조정은, 도 3에 도시된 바와 같이, 다른 사용자들(12)의 크기를 감소시키고, 평탄하고 짧은 변이하는 애니메이션을 통해 그들을 장면(20; Si)에 재배열함으로써 달성될 수 있다. PLL이 계속 |Vi|를 모니터링하기 때문에, 포커스된 비디오 스트림 스크린(18)의 크기는 카메라 앞의 로컬 사용자(12; Pi)가 비디오 인터페이스 디바이스(2)에 더 가깝거나 더 멀리 움직일 때 조정될 수 있다. 포커스된 아이템(18, 19)이 문서(19)인 경우, 상호 작용 장면(20)에서 그의 위치는 도 5에 도시된 바와 같이 문서(19)가 전체 상호 작용 장면(20)을 점유할 때까지 |Vi|에 비례적으로 크기 조정된다. 문서(19)가 전체 장면 크기로 크기 조정된 후(Pi가 비디오 인터페이스 디바이스(2)에 매우 가깝게 이동하는) |Vi|가 여전히 증가하고, |Vi| > Tzoom(Tzoom은 용도에 특정한 임계치)인 경우, 문서(19) 내용들상의 줌은 도 5에 또한 도시된 바와 같이 수행된다.
초점 영역(15)에 따라 아이템(18, 19)을 하이라이팅한 후, 방법은 단계(120)로 리턴한다.
본 발명은 다른 특정 장치 및/또는 방법들로 구현될 수 있다. 기술된 실시예들은 단지 예시적이고 제한적이 아닌 것으로 모든 양태들에서 고려될 것이다. 특히, 본 발명의 범위는 여기의 설명 및 도면들에 의해서라기보다는 오히려 첨부된 청구항들에 의해 나타내어진다. 청구항들의 의미 및 그의 동등물의 범위 내에 있는 모든 변경들은 그들의 범위 내에 포함되어야 한다.
1 : 화상 회의 시스템 2 : 비디오 인터페이스 디바이스
3 : 디지털 비디오 카메라 4 : 비디오 인터페이스
5 : 화상 회의 서버 6 : 얼굴 방위 검출기

Claims (14)

  1. 회의 상황들 등에 사용하기 위해 사용자(12)와 연관된 비디오 인터페이스(4)의 제어 방법에 있어서,
    상기 사용자(12)로부터 발생된 비디오 스트림의 프레임(11)을 캡처하는 단계,
    상기 비디오 프레임(11)내 상기 사용자(12)의 얼굴(10)을 인식하는 단계,
    상기 비디오 프레임(11)내 상기 사용자(12)의 상기 얼굴(10)의 방위를 검출하는 단계, 및
    상기 얼굴(10)의 상기 방위를 나타내는 제어 신호를 제공하는 단계를 포함하는, 비디오 인터페이스의 제어 방법.
  2. 제 1 항에 있어서,
    상기 비디오 프레임(11)내 적어도 하나의 얼굴(10)의 식별을 검증하기 위해 피부 인식을 수행하는 추가적인 단계를 포함하는, 비디오 인터페이스의 제어 방법.
  3. 제 1 항에 있어서,
    상기 비디오 프레임(11)내 상기 사용자(12)의 상기 얼굴(10)의 방위를 검출하는 단계는,
    상기 비디오 프레임(11)내 상기 인식된 얼굴(10)의 적어도 하나의 얼굴 특징부(14)를 식별하는 단계,
    상기 비디오 프레임(11)내 상기 적어도 하나의 얼굴 특징부(14)의 현재 위치를 이전 비디오 프레임(11)에서 그의 위치와 비교하는 단계, 및
    상기 비디오 프레임(11)내 상기 적어도 하나의 얼굴 특징부(14)의 이전 비디오 프레임(11)에서 그의 위치와의 비교로부터 얼굴 방위를 도출하는 단계를 포함하는, 비디오 인터페이스의 제어 방법.
  4. 제 3 항에 있어서,
    상기 인식된 얼굴(10)의 상기 얼굴 방위를 초기화하는 추가적인 단계를 포함하는, 비디오 인터페이스의 제어 방법.
  5. 제 3 항에 있어서,
    상기 비디오 프레임(11)내 상기 적어도 하나의 얼굴 특징부(14)의 현재 위치를 이전 비디오 프레임(11)의 그의 위치와 비교하는 단계는 광학 흐름 추정법의 적용을 포함하는, 비디오 인터페이스의 제어 방법.
  6. 제 3 항에 있어서,
    상기 비디오 프레임(11)내 상기 적어도 하나의 얼굴 특징부(14)의 이전 비디오 프레임(11)의 그의 위치와의 비교로부터 얼굴 방위를 도출하는 단계는 각각의 얼굴 특징부(14)에 대한 하나의 벡터를 포함하는 적어도 하나의 벡터 필드에 기초하여 방위 벡터(Vt)를 계산하는 단계를 포함하는, 비디오 인터페이스의 제어 방법.
  7. 회의 상황들 등에서 사용하기 위해 사용자(12)와 연관된 비디오 인터페이스(4)의 동작 방법에 있어서,
    제 1 항 내지 제 6 항 중 어느 한 항에 따른 비디오 인터페이스(4)의 제어 방법을 수행하는 단계,
    제어 신호에 기초하여 상기 얼굴(10)의 방위를 상기 비디오 인터페이스(4)의 초점 영역(15)에 맵핑하는 단계, 및
    상기 초점 영역(15)을 하이라이팅하는 단계를 포함하는, 비디오 인터페이스의 동작 방법.
  8. 제 7 항에 있어서,
    상기 얼굴(10)의 상기 방위를 상기 초점 영역(15)으로 맵핑하는 단계는,
    상기 비디오 인터페이스(2)에 따른 가상 격자(16)를 제공하는 단계, 및
    상기 가상 격자(16)의 적어도 하나의 메시(17)를 상기 초점 영역(15)으로 맵핑하는 단계를 포함하는, 비디오 인터페이스의 동작 방법.
  9. 제 7 항에 있어서,
    상기 초점 영역(15)을 하이라이팅하는 단계는 상기 초점 영역(15)의 업 스케일링 동작을 수행하는 단계를 포함하는, 비디오 인터페이스의 동작 방법.
  10. 제 7 항에 있어서,
    상기 초점 영역(15)을 하이라이팅하는 단계는 상기 초점 영역(15)을 제외한 영역의 다운스케일링 동작을 수행하는 단계를 포함하는, 비디오 인터페이스의 동작 방법.
  11. 제 7 항에 있어서,
    상기 초점 영역(15)을 하이라이팅하는 단계는 상기 초점 영역(15)의 콘텐트를 상기 비디오 인터페이스(2)의 하이라이트 영역에 보여주는 단계를 포함하는, 비디오 인터페이스의 동작 방법.
  12. 얼굴 방위 검출기(6)에 있어서,
    비디오 스트림을 수신하기 위한 비디오 입력부(8), 및
    상기 비디오 스트림내 얼굴(10)의 방위를 나타내는 제어 신호를 제공하도록 구성된 시그널링 출력부(8)를 포함하고, 이에 의해
    상기 얼굴 방위 검출기(6)는 제 1 항 내제 제 6 항 중 어느 한 항에 따른 상기 방법을 수행하도록 구성되는, 얼굴 방위 검출기.
  13. 사용자 인터페이스(4)를 사용자(12)에게 제공하기 위한 화상 회의 서버(5)에 있어서,
    제 1 항 내지 제 11 항 중 어느 한 항에 따른 방법을 수행하도록 구성된, 화상 회의 서버.
  14. 제 13 항에 있어서,
    제 12 항에 따른 얼굴 방위 검출기(6)를 추가로 포함하는, 화상 회의 서버.
KR1020147025401A 2012-03-12 2013-03-05 비디오 인터페이스 제어 방법, 비디오 인터페이스 동작 방법, 얼굴 방위 검출기, 및 화상 회의 서버 KR20140122275A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP12290086.3A EP2639674B1 (en) 2012-03-12 2012-03-12 Method for control of a video interface, face orientation detector, and video conferencing server
EP12290086.3 2012-03-12
PCT/EP2013/054331 WO2013135523A1 (en) 2012-03-12 2013-03-05 Method for control of a video interface, method for operation of a video interface, face orientation detector, and video conferencing server

Publications (1)

Publication Number Publication Date
KR20140122275A true KR20140122275A (ko) 2014-10-17

Family

ID=47780079

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020147025401A KR20140122275A (ko) 2012-03-12 2013-03-05 비디오 인터페이스 제어 방법, 비디오 인터페이스 동작 방법, 얼굴 방위 검출기, 및 화상 회의 서버

Country Status (6)

Country Link
US (1) US9402053B2 (ko)
EP (1) EP2639674B1 (ko)
JP (1) JP2015517239A (ko)
KR (1) KR20140122275A (ko)
CN (1) CN104169842B (ko)
WO (1) WO2013135523A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230142194A (ko) 2022-04-01 2023-10-11 주식회사 네트워크전자 비디오 인터페이스 방법

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2602692A1 (en) * 2011-12-05 2013-06-12 Alcatel Lucent Method for recognizing gestures and gesture detector
US10531048B2 (en) 2016-12-15 2020-01-07 Motorola Solutions, Inc. System and method for identifying a person, object, or entity (POE) of interest outside of a moving vehicle
US10726602B2 (en) * 2017-02-03 2020-07-28 Sony Corporation Apparatus and method to generate realistic three-dimensional (3D) model animation
US10423821B2 (en) * 2017-10-25 2019-09-24 Microsoft Technology Licensing, Llc Automated profile image generation based on scheduled video conferences
CN112995495A (zh) * 2019-12-17 2021-06-18 佛山市云米电器科技有限公司 显示设备的摄像头调节方法、显示设备及存储介质
EP4173304A4 (en) * 2020-06-29 2024-03-27 Hewlett Packard Development Co VIDEO CONFERENCE USER INTERFACE LAYOUT BASED ON FACE RECOGNITION
KR20220126107A (ko) * 2021-03-08 2022-09-15 삼성전자주식회사 화상 회의를 제공하는 전자 장치 및 그 방법
CN117372322A (zh) * 2022-06-30 2024-01-09 武汉联影智融医疗科技有限公司 人脸朝向的确定方法及装置、人脸图像的重建方法及装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4898026B2 (ja) * 2001-06-29 2012-03-14 本田技研工業株式会社 ステレオカメラを使用した顔・視線認識装置
KR20050084263A (ko) * 2002-12-11 2005-08-26 코닌클리케 필립스 일렉트로닉스 엔.브이. 비디오 폰 이미지에서 머리 자세를 보정하기 위한 방법 및장치
JP4111080B2 (ja) * 2003-06-27 2008-07-02 日産自動車株式会社 脇見状態検出装置
JP4305752B2 (ja) * 2003-10-24 2009-07-29 ソニー株式会社 映像配信システム、映像配信装置、映像配信方法及び映像配信プログラム
JP4496060B2 (ja) * 2004-11-11 2010-07-07 日本電信電話株式会社 遷移支援方法及び映像音声通信システム
US7710450B2 (en) 2006-04-20 2010-05-04 Cisco Technology, Inc. System and method for dynamic control of image capture in a video conference system
US8174558B2 (en) * 2007-04-30 2012-05-08 Hewlett-Packard Development Company, L.P. Automatically calibrating a video conference system
JP4160997B1 (ja) * 2007-06-01 2008-10-08 Sky株式会社 操作画像再生装置及び操作画像再生プログラム
JP2009080573A (ja) * 2007-09-25 2009-04-16 E Compute Kk 表示手法
AU2010221722A1 (en) * 2009-02-06 2011-08-18 Oculis Labs, Inc. Video-based privacy supporting system
JP2010224677A (ja) * 2009-03-19 2010-10-07 Seiko Epson Corp 画像評価方法、画像評価プログラムおよび印刷装置
US8179417B2 (en) * 2009-07-22 2012-05-15 Hewlett-Packard Development Company, L.P. Video collaboration
CN101808220A (zh) * 2010-02-05 2010-08-18 苏州科达科技有限公司 一种视频会议系统中控制视频模式的控制方法及相应装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230142194A (ko) 2022-04-01 2023-10-11 주식회사 네트워크전자 비디오 인터페이스 방법

Also Published As

Publication number Publication date
EP2639674B1 (en) 2016-06-01
JP2015517239A (ja) 2015-06-18
EP2639674A1 (en) 2013-09-18
CN104169842B (zh) 2017-04-05
WO2013135523A1 (en) 2013-09-19
CN104169842A (zh) 2014-11-26
US20150077504A1 (en) 2015-03-19
US9402053B2 (en) 2016-07-26

Similar Documents

Publication Publication Date Title
KR20140122275A (ko) 비디오 인터페이스 제어 방법, 비디오 인터페이스 동작 방법, 얼굴 방위 검출기, 및 화상 회의 서버
Gorodnichy et al. Nouse ‘use your nose as a mouse’perceptual vision technology for hands-free games and interfaces
US10157477B2 (en) Robust head pose estimation with a depth camera
Gauglitz et al. Integrating the physical environment into mobile remote collaboration
US10861159B2 (en) Method, system and computer program product for automatically altering a video stream
US20160358383A1 (en) Systems and methods for augmented reality-based remote collaboration
US10755438B2 (en) Robust head pose estimation with a depth camera
EP2901413B1 (en) Method of image processing for an augmented reality application
US9348422B2 (en) Method for recognizing gestures and gesture detector
US20170316582A1 (en) Robust Head Pose Estimation with a Depth Camera
KR20170031733A (ko) 디스플레이를 위한 캡처된 이미지의 시각을 조정하는 기술들
Sanches et al. Mutual occlusion between real and virtual elements in augmented reality based on fiducial markers
EP3912338B1 (en) Sharing physical writing surfaces in videoconferencing
CN107274491A (zh) 一种三维场景的空间操控虚拟实现方法
US20230326078A1 (en) Method and system for re-projecting and combining sensor data for visualization
US20230231983A1 (en) System and method for determining directionality of imagery using head tracking
Gelb et al. Augmented reality for immersive remote collaboration
Funes Mora et al. Eyediap database: Data description and gaze tracking evaluation benchmarks
Morais et al. A content-based viewport prediction model
EP4113982A1 (en) Method for sensing and communicating visual focus of attention in a video conference
Zhang Vision-based interaction with fingers and papers
Lee Novel video stabilization for real-time optical character recognition applications
Zhang et al. Semantic saliency driven camera control for personal remote collaboration
Leroy et al. 3d head pose estimation for tv setups
Besada et al. Design and user experience assessment of Kinect-based Virtual Windows

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application