KR20010079719A - 하이브리드 광학 및 가상 주밍 장치를 사용한 관심있는물체의 실시간 트래킹 - Google Patents

하이브리드 광학 및 가상 주밍 장치를 사용한 관심있는물체의 실시간 트래킹 Download PDF

Info

Publication number
KR20010079719A
KR20010079719A KR1020017002637A KR20017002637A KR20010079719A KR 20010079719 A KR20010079719 A KR 20010079719A KR 1020017002637 A KR1020017002637 A KR 1020017002637A KR 20017002637 A KR20017002637 A KR 20017002637A KR 20010079719 A KR20010079719 A KR 20010079719A
Authority
KR
South Korea
Prior art keywords
interest
camera
image
zooming operation
zoom
Prior art date
Application number
KR1020017002637A
Other languages
English (en)
Other versions
KR100711950B1 (ko
Inventor
코헨-솔랄에릭
이미-순
Original Assignee
요트.게.아. 롤페즈
코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 요트.게.아. 롤페즈, 코닌클리케 필립스 일렉트로닉스 엔.브이. filed Critical 요트.게.아. 롤페즈
Publication of KR20010079719A publication Critical patent/KR20010079719A/ko
Application granted granted Critical
Publication of KR100711950B1 publication Critical patent/KR100711950B1/ko

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/78Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using electromagnetic waves other than radio waves
    • G01S3/782Systems for determining direction or deviation from predetermined direction
    • G01S3/785Systems for determining direction or deviation from predetermined direction using adjustment of orientation of directivity characteristics of a detector or detector system to give a desired condition of signal derived from that detector or detector system
    • G01S3/786Systems for determining direction or deviation from predetermined direction using adjustment of orientation of directivity characteristics of a detector or detector system to give a desired condition of signal derived from that detector or detector system the desired condition being maintained automatically
    • G01S3/7864T.V. type tracking systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems

Abstract

비디오 프로세싱 시스템은 (i) 팬-틸트-줌(PTZ) 카메라와 (ii) 상기 카메라에 의해 발생된 영상의 가상 주밍의 하이브리드 결합을 사용하여 관심있는 물체를 트래킹한다. 상기 관심있는 물체(22-k)는 상기 카메라(18)에 의해 발생된 영상 (40)내에서 초기에 검출된다. 광학 주밍 동작(34)은 그다음에 상기 관심있는 물체 (22-k)를 프레임하기 위해 팬 및 틸트 세팅을 조절하고, 하나이상의 지정된 정지 기준이 만족될 때까지 상기 관심있는 물체(22-k) 상에서 줌 인 한다. 가상 주밍 동작(36)은 특정의 관심있는 영역(47)을 식별하고 추출하기 위해 상기 결과적인 광학적으로-주밍된 영상(44)을 프로세싱하고, 그다음에, 가상으로-주밍된 영상(46)을 발생시키기 위해 상기 추출된 관심있는 영역을 보간한다. 상기 지정된 정지 기준은, 예를들어, 상기 관심있는 물체(22-k)가 상기 결과적인 광학적으로-주밍된 영상의 고정된 또는 동적인 퍼센티지를 점유할 때까지 상기 광학 주밍을 계속된다는 것을 표시할 수 있다.

Description

하이브리드 광학 및 가상 주밍 장치를 사용한 관심있는 물체의 실시간 트래킹{Real-time tracking of an object of interest using a hybrid optical and virtual zooming mechanism}
관심있는 사람이나 다른 물체를 트래킹(tracking)하는 것은 비디오 회의 시스템과 비디오 감시 시스템과 같은 비디오 카메라에 기초한 시스템의 중요한 측면이다. 예를들어, 비디오 회의 시스템에서, 결과적인 출력 비디오 신호에서 특정 회의 참가자의 머리와 어깨를 프레임(frame)하는 것이 종종 바람직하며, 반면에 비디오 감시 시스템에서, 상기 시스템에 의해 감시되는 제한된 영역에 들어오거나 나가는, 예를들어,어떤 사람의 전체적 신체를 프레임하는 것이 바람직할 수 있다.
상기 시스템은 관심있는 물체의 트래킹을 수행하기 위해 2개의 구별되는 접근법중 하나를 일반적으로 이용한다. 제 1 접근법은 상기 트래킹 임무를 수행하기 위해 상기 시스템이 위치를 잡고 상기 카메라를 광학적으로 주밍하도록 허용하는 팬-틸트-줌(pan-tilt-zoom)(PTZ) 카메라를 사용한다. 상기 접근법과 관련된 문제는, 몇몇 경우에서, 상기 트래킹 장치는 관심있는 물체의 위치의 급격한 변화에 충분히 강하지 않다는 것이다. 이것은 상기 가메라가 상기 급격한 변화에 반응하기에는 너무 멀리 종종 주밍-인(zoom-in) 되고있다는 사실에 기인할 수 있다. 예를들어, 비디오 회의 시스템에서 참가자가 자신의 좌석에서, 예를들어, 앞쪽이나 뒤쪽으로 또는 한쪽이나 다른 쪽으로 기대기위해 움직이는 것은 흔한일이다. PTZ 카메라가 특정 참가자상에서 너무 멀리 주밍-인 된다면, 참가자의 상대적으로 작은 움직임은 상기 PTZ 카메라가 상기 참가자를 트래킹하지 못하게 하며, 상기 결과적인 출력 비디오 신호의 시청자에게 혼란을 줄 주밍-아웃 과 재-트래킹(re-track)을 필요하게 한다.
제 2 접근법은 가상 줌(Avirtual zoom) 또는 전자 줌(Aelectronic zoom)으로 언급된다. 상기 접근법에서, 하나이상의 카메라들로부터의 비디오 정보는 전자적으로 프로세싱되어서 관심있는 물체는 상기 물체가 임의의 특정 카메라의 시야의 중심에 있지 않을 수 있다는 사실에도 불구하고 상기 출력 비디오 신호내의 바람직한 구성에서 보이게 되도록 전자적으로 프로세싱된다. U.S. 특허 제 5,187,574 호는 상기 접근법의 예를 개시하는데, 여기서 도착하는 손님의 영상은 감시 시스템의 고정된 텔레비젼 카메라에 의해 픽업된다. 상기 영상은 손님의 머리 부분이 항상 상기 모니터 스크린의 중앙에서 디스플레이되도록 보장하기 위해 검출, 추출 (extraction), 및 보간(interpolation) 동작을 사용하여 프로세싱된다. 상기 접근법은 상기 비디오 출력이 팬(pan), 틸트(tilt), 또는 줌(zoom) 동작의 필요없이 바람직한 형태를 갖도록, 예를들어, 관심있는 물체의 중심에 있도록 보장한다. 결과로서, 상기 접근법은 고정된 카메라로 동작할 수 있으며, 이것은 상기 언급된 PTZ 카메라보다 일반적으로 상당히 가격이 싸다. 그러나, 상기 접근법은 많은 응용들에서 요구되는 출력 영상 품질을 제공하지 못한다. 예를들어, 상기 가상 주밍과 연관된 추출 및 보간 동작들은 결과적인 출력 비디오 신호에서 감소된 해상도와 영상 품질을 발생시키므로, 비디오 회의나 다른 유사한 응용들에서 적합하지 않을 수 있다.
상기로부터 분명한 바와같이, 상기 가상 줌 접근법의 유연성뿐아니라 상기 PTZ 카메라 접근법과 연관된 상기 출력 비디오 신호 품질 및 해상도를 제공할 수 있는 개선된 트래킹 기술을 위한 필요가 존재하지만, 반면에 상기 접근법들과 일반적으로 연관된 문제들을 회피하기위한 필요도 존재한다.
본 발명은 일반적으로 비디오 신호 프로세싱의 분야에 관한 것이며, 특히, 바람직한 비디오 출력이 달성되도록 비디오 카메라를 사용하여 관심있는 사람이나 다른 물체를 트래킹하기 위한 기술에 관한 것이다.
도 1은 본 발명의 예시적인 실시예에 따른 비디오 프로세싱 시스템의 블록도.
도 2는 도 1의 시스템에서 이행된 하이브리드 실시간 트래킹 비디오 프로세싱을 예시하는 기능 블록도.
본 발명은 (i) 팬-틸트-줌(PTZ) 카메라에 의한 광학 주밍과, (ii) 상기 카메라에 의해 발생된 영상의 가상 주밍의 하이브리드 결합을 사용하여, 비디오 프로세싱 시스템내에 관심있는 물체의 실시간 트래킹을 위한 방법 및 장치를 제공하는 것이다. 본 발명의 예시적인 실시에에서, 관심있는 물체는 상기 카메라에 의해 발생된 영상에서 초기에 검출된다. 광학 주밍 동작은 그다음에 관심있는 물체를 프레임하기 위해 팬 및 틸트 세팅을 조절하고 하나이상의 지정된 정지 기준(stopping criteria)이 맞추어질때까지 관심있는 물체내에서 주밍한다. 가상 주밍 동작은 관심있는 특정 영역을 식별하고 추출하기 위해 상기 결과적인 관학적으로 주밍된 영상을 프로세싱하고, 그다음에 가상으로 주밍된 영상을 발생시키기 위해 관심있는추출된 영역을 보간한다.
본 발명의 한 측면에 따라, 상기 지정된 정지 기준은, 예를들어, 관심있는 물체가 상기 결과적인 광학적으로 주밍된 영상의 고정된 또는 동적인 퍼센티지 (percentage)를 점유할 때까지 상기 광학 주밍은 계속된다는 것을 표시할 수 있다. 동적 퍼센티지의 경우에, 상기 퍼센티지는 관심있는 물체와 연관된 검출된 품질의 함수로서 변할 수 있다. 상기 검출된 품질들의 실시예들은 분명한 움직임의 레벨, 특정의 가청(audibly)-검출가능한 키워드 또는 다른 단서의 사용,및 세기(intensi -ty), 피치 (pitch) 또는 다른 음성 품질의 변화를 포함한다.
본 발명의 다른 측면에 따라, 관심있는 물체의 움직임의 레벨이 제 1 지정된 임계값을 초과한다면, 상기 광학 주밍 동작에서 설치된 동일한 팬, 틸트, 및 줌 세팅을 사용하여, 상기 결과적인 광학적으로 주밍된 영상에서 반복될 수 있다. 관심있는 물체의 움직임의 레벨이 상기 제1 임계값보다 높은 제 2 지정된 임계값을 초과한다면, 상기 카메라에 대한 새로운 팬, 틸트, 및 줌 세팅을 설정하기 위해 상기 광학 주밍 동작 자체는 반복될 수 있다.
본 발명의 상기 하이브리드 광학 및 가상 줌 장치는 종래의 접근법들에 대한 다수의 상당한 장점을 제공한다. 예를들어, 상기 하이브리드 장치는 새로운 광학 팬, 틸트, 및 줌 세팅을 결정할 필요없이 관심있는 물체의 어떤 양의 움직임을 수용하며, 또한 바람직한 출력 영상 품질 레벨을 제공한다. 상기 PTZ 카메라가 너무 멀리 주밍 인 하는것을 방지하여, 본 발명은 상기 PTZ 카메라 세팅이 덜 자주 조절되도록 보장하며, 그에의해 상기 시스템 프로세서상의 계산상의 부하(computational load)는 종래의 광학 줌 접근법에 의해 요구되는 것에 비하여 감소된다. 부가하면, 본 발명의 하이브리드 장치는 영상 전송을 위한 개선된 압축 속도를 제공한다. 본 발명의 상기 및 다른 특징들과 장점들은 첨부된 도면들과 다음의 상세한 설명에서 더 분명해질 것이다.
도 1은 본 발명의 예시적인 실시예에 따른 비디오 프로세싱 시스템(10)을 도시한다. 상기 시스템(10)은 프로세서(12), 메모리(14), 입력/출력(I/O) 장치(15), 및 제어기(16)를 포함하며, 모두 시스템 버스(17)를 통해 통신하도록 접속되어 있다. 상기 시스템(10)은 더욱이 도시된 바와같은 제어기(16)에 결합된 팬-틸트-줌 (PTZ) 카메라(18)를 포함한다. 상기 예시적인 실시예에서, 상기 PTZ 카메라(18)는 테이블(20)이 다수의 회의 참가자들(22-1,...,22-k,...,22-N)을 수용하는 비디오 회의 응용에서 이용된다. 동작에서, 상기 PTZ 카메라(18)는, 상기 프로세서(12)로부터 수신된 지시에 따라 상기 제어기(16)에 의해 관리되는 바와같이, 상기 실시예 응용에서 특정 참가자(22-k)에 대응하는 관심있는 물체를 트래킹한다. 상기 PTZ는 도 2와 연결되어 아래에 더 상세히 기술된 하이브리드 광학 및 가상 주밍 장치를사용하여 상기 실시간 트래킹 기능을 수행한다.
본 발명이 비디오 회의의 응용의 맥락에서 예시될 것이지만, 상기 비디오 프로세싱 시스템(10)은 다양한 종류의 다른 응용들에서 사용될 수 있다는 것이 이해되어야 한다. 예를들어, 상기 시스템(10)의 부분(24)은 비디오 감시 응용들, 및 다른 형식의 비디오 회의 응용들, 예를들어, 의회같은 좌석 배열, 원형 또는 직사각형 테이블 배열들을 포함하는 응용들에서 사용될 수 있다. 더 일반적으로, 시스템(10)의 상기 부분(24)은 하이브리드 광학 및 가상 주밍 장치에 의해 제공된 개선된 트래킹 기능으로부터 이득을 얻을수 있다. 상기 시스템(10)의 부분(26)은 그러므로, 예를들어, 상기 시스템(10)의 부분(24)을 사용하여 트래킹될, 다른 비디오 회의 배열, 비디오 감시 배열, 또는 하나이상의 관심있는 물체의 임의의 다른 배열로 대체될 수 있다. 본 발명이 PTZ 카메라들과 다른 영상 포착 장치와 함께 사용될 수 있다는 것도 명백할 것이다. 본 명세서에 사용된 바와같은 상기 용어 Acamera는 그러므로 하이브리드 광학 및 가상 주밍 장치와 결합하여 사용될 수 잇는 임의 형식의 영상 포착 장치를 포함하도록 의도된다.
상기 시스템(10)의 장치들 또는 장치의 그룹들은 상기 및 다른 프로세싱 자치들의 부분들 또는 결합뿐아니라 다른 종래의 데스크탑 또는 휴대용 컴퓨터의 대응하는 장치들을 나타낼 수 있다는 것을 유의해야 한다. 더욱이, 본 발명의 다른 실시예들에서, 상기 프로세서(12), 제어기(16), 또는 상기 시스템(10)의 다른 장치들의 몇몇 또는 모든 기능들은 단일 장치로 결합될 수 있다. 예를들어, 시스템(10)의 하나이상의 장치는 컴퓨터, 텔레비젼, 셋-톱 박스, 또는 다른 프로세싱 장치에통합될 응용 주문형 집적 회로(ASIC) 또는 회로 카드로서 이행될 수 있다. 본 명세서에 사용된 용어 프로세서는 소정의 데이터 프로세싱 장치에서 이용될 수 있는 마이크로 프로세서, 중앙처리장치, 마이크로제어기 또는 임의의 다른 데이터 프로세싱 장치를 포함하도록 의도된다. 부가하면, 상기 메모리(14)는 상기 및 다른 형식의 저장 장치들의 결합 또는 부분들 뿐아니라 전자 메모리, 광학 또는 자기 디스크에 기초한 메모리, 테이프에 기초한 메모리를 나타낼수 있다는 것을 유의해야 한다.
도 2는 도 1의 시스템(10)에서 수행된 하이브리드 광학 및 가상 줌 장치(30)를 예시하는 기능 블록도이다. 다시, 비디오 회의 응용의 맥락에서 예시되었지만, 서술된 상기 기술들은 임의의 다른 트래킹 응용에 쉽게 적용된다는 것이 분명할 것이다. 도 2에 도시된 바와같이, 상기 하이브리드 광학 및 가상 줌 장치(30)는 검출 및 트래킹 동작(32), 광학 주밍 동작(34), 및 가상 주밍 동작(36)을 포함한다. 상기 동작들은 시스템(10)의 부분(26)에서 예시적인 비디오 회의 응용을 위해 발생된 영상들에 대응하는 영상들(40,42,44,및 46)을 참조하여 기술될 것이다. 상기 동작들은(32,34,및 36) 프로세서(12)와 제어기(16)에 의해 시스템 (10)에서 수행될 수 있으며, 상기 메모리(14)에 저장되어 있거나 지역 또는 원격 저장 장치로부터 상기 I/O 장치(15)를 통해 액세스가능한 하나이상의 소프트웨어 프로그램들을 이용한다.
동작에서, PTZ 카메라(18)는 관심있는 물체, 즉 비디오 회의 참가자(22-k)와, 부가적 물체, 즉 상기 관심있는 물체에 인접한 다른 참가자(22-k+1)를 포함하는 영상(40)을 발생시킨다. 상기 영상(40)은 비디오 입력으로서 상기 검출 및 트래킹 동작(32)에 공급되고, 잘 공지된 종래의 검출 및 트래킹 기술들을 사용하여 상기 관심있는 물체(22-k)를 검출하고 트래킹한다.
예를들어, 상기 비디오 회의 응용에서, 관심있는 물체(22-k)는 현재의 발언자(speaker)에 대응할 수 있다. 상기 경우에서, 상기 검출 및 트래킹 동작(32)은 어떤 회의 참가자가 현재의 발언자인지를 결정하기 위해 오디오 위치와 같은 기술을 사용하고, 어떤 회의 참가자가 말하고, 제스처를 쓰고, 악수하고, 특정 방식으로 움직이고, 특정 방식으로 발언하는지등을 결정하기 위해 운동 검출과 같은 기술을 사용하여 관심있는 물체(22-k)를 검출하고 트래킹할 수 있다.
비디오 감시 응용에서, 관심있는 물체는 특정 행동을 하는, 예를들어, 제한된 영역에 들어오거나 나가는 또는 의심되는 행동을 시작하는 사람, 가정의 방내에서 이동하는 어린이, 주차장에 들어오거나 나가는 차량등일 수 있다. 상기 검출 및 트래킹 동작(32)의 출력은 상기 영상(42)내에서 빗금친것으로 도시된, 관심있는 특정 물체(22-k)를 식별하는 정보를 포함한다.
동작(32)에서 사용된 검출 및 트래킹 장치의 특정 형식은 상기 응용에 의존하여 일반적으로 변할 것이다. 동작(32)에서 사용될 수 있는 종래의 검출 및 트래킹 기술들은 예를들어, C.Wren, A.Azarbayejani, T.Darrell, A.Pentland, APfinder :Real-time Tracking of the Human Body,IEEE Trans.PAMI,19(7):780-785,July 1997;H.Rowley,S.Bluja,T.Kanade,ARotation Invariant Neural Network-Based Face Detection,Proc.IEEE Conf.on Computer Vision,pp.38-44, June 1998; and A.Lipton, H.Fujiyoshi, R.Patil,AMoving Target Classification and Trackingfrom Real-Time Video,Proc.IEEE Workshop on Application of Computer Vision,pp.8-14,Oct 1998.에 기술된 것을 포함한다.
도 2의 광학 주밍 동작(34)은 바람직한 출력 영상 품질이 달성되는 것을 보장하도록 충분한 양의 주밍을 제공하며, 반면에 또한 관심있는 물체의 어떤량의 움직임을 허용한다. 상기 광학 주밍 동작(34)은 상기 관심있는 물체(22-k)를 프레임하기 위한 팬 및 틸트 동작들을 가진 프레이밍(framing) 부분을 포함하며, 지정된 정지 기준이 만족될 때까지 계속되는 주밍동작을 가진 주밍 부분이 뒤따른다.
상기 카메라 렌즈의 방사상 왜곡(radial distortion)이 무시할만하다고 가정하면, 다음의 접근법이 동작(34)의 프레이밍 부분에서의 필요한 양의 팬 및 틸트를 판단하기 위해 사용될 수 있다. 관심있는 물체(22-k)가 영상(42)내의 화소 좌표 위치(x,y)에 위치한 바와같이 동작(32)에서 검출된다고 가정한다. 동작(34)의 프레이밍 부분은 관심있는 물체가 상기 영상의 중심(cx, cy)에 나타나도록 카메라(18)의 팬과 틸트를 조절한다. 카메라 줌 인자(zoom factor) ZF=1 일 때 미리 결정된바와같이, ZF를 현재의 줌 인자,αP C를 현재의 카메라 팬 각도, αT C를 현재의 카메라 틸트 각도, 및 D를 화소당 디그리 (degrees)의 수라고 한다. 상기 새로운 팬 각도 αP N과 새로운 틸트 각도 αT N은 그다음에 다음과 같이 주어진다:
αP N= αP C+ D*((x-cx)/ZF),
αT N= αT C+ D*((y-cy)/ZF).
다른 기술들도 동작(34)의 프레이밍 부분들을 위한 적절한 팬과 틸트 조절을 결정하는데 사용될 수 있다. 예를들어, 상기 카메라 렌즈의 방사상 왜곡의 존재하에서 팬과 틸트를 결정하기 위한 기술은 당업자에게 분명할 것이다.
동작(34)의 프레이밍 부분의 완료후에, 동작(34)의 주밍 부분이 시작된다. 이미 언급된 바와같이, 동작(34)의 상기 부분은 하나이상의 지정된 정지 기준이 만족될 때까지 계속되는 광학 주밍을 포함한다. 사용될 수 있는 다수의 서로다른 형식의 정지 기준이 있다. 고정된 정지 기준 접근법에서, 관심있는 물체가 영상의 고정된 퍼센티지를 점유할 때까지 상기 광학 주밍은 계속된다. 예를들어, 비디오 회의 시스템에서, 상기 광학 주밍은 상기 현재의 발언자의 머리가 상기 영상의 수직 크기의 25 % 과 35 % 사이에서 점유할 때까지 계속될 수 있다. 물론, 사용된 상기 특정 퍼센티지는 상기 프래킹 응용에 의존하여 변할 것이다. 특정한 응용에 적합한 상기 특정 퍼센티지들은 당업자에 의해 올바른 방식으로 결정될 수 있다.
동적 정지 기준 접근법에서, 상기 광학 주밍은 관심있는 물체가 상기 영상의 지정된 퍼센티지에 도달할 때까지 계속지만, 상기 접근법에서의 퍼센티지는 관심있는 물체와 연관된 다른 검출된 품질의 함수이다. 예를들어, 상기 퍼센티지는 분명한 움직임의 레벨, 특정 키워드 또는 다른 오디오 또는 음성 단서들의 사용, 세기의 변화, 피치 또는 다른 음성 품질등과 같은 품질들의 함수로서 변할 수 있다. 다시, 특정 퍼센티지 및 그것들이 상기 검출된 품질들에 기초하여 변하는 방식은 특정 트래킹 응용에 일반적으로 의존할 것이며 당업자에 의해 올바른 방식으로 결정될 수 있다.
상기 광학 주밍 동작(34)의 결과는 광학적으로-주밍된 영상(44)이며, 여기서 관심있는 물체(22-k)는 상기 영상내에 중심에 위치되고 상기된 고정 또는 동적 정지 기준에 기초하여 결정된 바와같이 상기 영상의 바람직한 퍼센티지를 점유한다. 상기 영상(44)은, 예를들어 메모리(14)내에서, 상기 시스템(10)에 의해 저장될 수 있다.
상기 가상 주밍 동작(36)은 그다음에 상기 광학적으로 주밍된 영상(44)상에서 수행된다. 상기 가상 주밍 동작은 우선 상기 영상(44)으로부터 관심있는 영역을 추출한다. 예를들어, 상기 비디오 회의 응용에서, 관심있는 영역(47)은 현재 관심있는 물체(22-k)의 머리와 어깨로서 식별될 수 있다. 비디오 감시 응용에서, 관심있는 영역은 관심있는 물체의 손, 발, 머리, 몸통, 또는 다른 지정된 부분일 수 있다. 관심있는 영역의 식별은 동적 프로세스일 수 있고, 예를들어 이것은 현재의 트래킹 목표에 기초하여 오퍼레이터에 의해 선택될 수 있다. 관심있는 영역은 공지된 기술들, 예를들어 관심있는 물체의 검출과 연결하여 상기된 참조문헌들에 서술된 기술들을 사용하여 식별되고 추출될 수 있다. 관심있는 상기 추출된 영역은 그다음에 가상으로-주밍된 영상(46)을 포함한는 비디오 출력을 발생시키기 위해 잘공지된 영상 보간 기술을 사용하여 보간된다. 상기 영상(46)은 그래서 상기 광학적으로-주밍된 영상(44)의 가상 줌을 나타낸다.
상기 가상 주밍 동작(36)은 상기 검출과 트래킹 동작(32) 및 광학 주밍 동작(34)과 다른 시스템에서 수행될 수 있다는 것을 유의해야 한다. 예를들어, 상기 영상(44)은 압축되고 그다음에 I/O 장치(15)를 통해 상기 시스템(10)으로부터 전송될 수 있으며, 상기 가상 주밍 동작은 대응하는 수신기의 신호 프로세싱 장치에서 수행된다.
유리하게, 상기 하이브리드 장치(30)는 관심있는 물체의 부분상의 어떤 양의 움직임을 허용하고, 반면에 상기 비디오 출력에서 바람직한 레벨의 영상 품질을 보존한다. 예를들어, 관심있는 물체(22-k)가 움직인다면, 상기 가상 주밍 동작(36)은 상기 광학 주밍 동작(34)에서 결정된 동일한 팬, 틸트, 및 줌 세팅을 사용하여 반복될 수 있다. 상기 경우에서, 상기 가상 줌의 추출 및 보간 동작들은 관심있는 물체(22-k)가 상기 영상의 중심에 실질적으로 있게되는 출력 영상을 발생시킬 수 있다.
상기 하이브리드 장치(30)는 언제 상기 가상 주밍 및 광학 주밍 작동이 반복되어야 하는지를 결정하기 위한 다수의 임계값들을 통합할 수 있다. 예를들어, 관심있는 물체의 소정 양의 움직임이 제 1 임계값을 초과한다면, 상기 가상 주밍 동작 (36)은 상기 카메라의 팬, 틸트, 및 줌 세팅이 변경되지 않은채로 반복될 수 있다. 상기 소정 양의 움직임이 제 2의 더높은 임계값을 초과한다면, 상기 광학 주밍 단계(34)는 새로운 팬, 틸트, 및 줌 세팅을 결정하기 위해 반복될 수 있고, 그다음에 상기 가상 주밍 동작(36)은 상기 바람직한 출력 영상(46)을 얻기 위해 반복된다. 피드백 경로(48)는 상기 광학 주밍 동작(34)과 상기 검출 및 트래킹 동작(32)사이에 포함되어서, 상기 검출 및 트래킹 동작은, 필요하다면, 예를들어, 상기 광학 주밍 동작이 관심있는 물체의 실질적 움직임을 검출하여 더이상 상기 물체를 트래킹하지 않을 경우에, 반복될 수 있다.
본 발명의 상기 하이브리드 광학 및 가상 줌 장치는 종래의 접근법들에 대한 다수의 중요한 장점들을 제공한다. 이미 서술된 바와같이, 상기 하이브리드 장치는 새로운 광학 팬, 틸트, 및 줌 세팅을 결정할 필요없이 관심있는 물체의 몇몇 움직임을 수용하며, 반면에 또한 바람직한 출력 영상 품질 레벨을 제공한다. 상기 PTZ 카메라가 너무 멀리 주밍 인 하는것을 방지하여, 본 발명은 상기 PTZ 카메라 세팅이 덜 자주 조절되며, 상기 시스템 프로세서상의 계산상의 부하가 그에의해 종래의 광학 줌 접근법에 의해 요구되는 것에 관하여 감소된다. 부가하면, 본 발명의 하이브리드 장치는 영상 전송을 위한 개선된 압축 속도를 제공할 수 있다. 예를들어, 상기된 바와같이, 상기 가상 줌 동작은 영상이 상기 I/O 장치(15)를 통해 상기 시스템(10)으로부터 수신기로 전송된 후에 수행될 수 있다. 결과적으로, 상기 전송된 영상내의 물체의 비율은 종래의 접근법을 사용했을때보다 더 낮으며, 그에의해 더적은 압축과 개선된 압축 속도를 허용한다.
본 발명의 상술된 실시예는 예시적인 것으로만 의도된다. 예를들어, 본 발명은 임의의 바람직한 관심있는 물체의 실시간 트래킹을 수행하는데 사용될 수 있고, 넓은 종류의 응용에서 비디오 회의 시스템, 비디오 감시 시스템, 및 다른 카메라에 기초한 시스템들을 포함한다. 부가하면, 단일 PTZ 카메라를 가진 시스템을 사용하는 것이 예시되었지만, 본 발명은 다수의 PTZ 카메라들을 가진 시스템들과 영상 포착 장치의 다른 형식 및 배열을 가진 시스템들에도 적용될 수 있다. 더욱이, 본 발명은 관심있는 물체를 검출하고 트래킹하며, 관심있는 영역을 추출하고 보간하기 위해 많은 서로다른 형식의 기술들을 이용할 수 있다. 본 발명은 전자, 자기, 또는 광학 매체 상에 저장되고 프로세싱 장치,예를들어 시스템(10)의 프로세서(12)에 의해 수행되는 하나이상의 소프트웨어 프로그램들의 형식으로 적어도 부분적으로 수행될 수 있다. 다음의 청구항의 범위내의 상기 및 다수의 다른 실시예들은 당업자에게 분명해질 것이다.

Claims (14)

  1. 비디오 프로세싱 시스템(10)에서 관심있는 물체(22-k)를 트래킹(tracking)하기 위한 방법에 있어서:
    카메라(18)에 의해 발생된 제 1 영상(40)에서 상기 관심있는 물체를 검출하는 단계와;
    상기 관심있는 물체에 기초한 하나 이상의 지정된 정지 기준(stopping criteria)에 따라 상기 카메라에 대한 적어도 하나의 줌(zoom) 세팅을 설정하기 위해 광학 주밍 동작(34)을 수행하는 단계와;
    상기 설정된 세팅에서 상기 카메라에 의해 발생된 제 2 영상(44)의 가상 주밍(virtual zooming) 동작(36)을 수행하는 단계를 포함하는, 트래킹 방법.
  2. 비디오 프로세싱 시스템(10)에서 관심있는 물체(22-k)를 트래킹하기 위한 장치에 있어서:
    카메라(18)와;
    상기 카메라에 결합되고, 상기 카메라에 의해 발생된 제 1 영상(40)에서 상기 관심있는 물체를 검출하기 위해 동작하는 프로세서(12)를 포함하며;
    상기 프로세서는,
    (i) 상기 관심있는 물체에 기초한 하나 이상의 지정된 정지 기준에 따라 상기 카메라에 대한 적어도 하나의 줌 세팅을 설정하기 위한 광학 주밍 동작(34)의수행과,
    (ii) 상기 설정된 세팅에서 상기 카메라에 의해 발생된 제 2 영상(44)의 가상 주밍 동작 (36)의 수행을 관리하는, 트래킹 장치.
  3. 제 2 항에 있어서,
    상기 카메라는 조절가능한 팬, 틸트, 및 줌 세팅들을 가지는 팬-틸트-줌 (pan-tilt-zoom)(PTZ) 카메라인, 트래킹 장치.
  4. 제 3 항에 있어서,
    상기 광학 주밍 동작은,
    상기 카메라의 팬 및 틸트 세팅을 조절하여 상기 관심있는 물체를 프레이밍 (framing)하는 단계와,
    상기 지정된 정지 기준이 만족될 때까지 상기 프레임된 관심있는 물체상에서 광학 줌을 수행하는 단계를 포함하는, 트래킹 장치.
  5. 제 2 항에 있어서,
    상기 지정된 정지 기준은 상기 관심있는 물체가 결과적인 영상의 퍼센티지 (percentage)를 점유할 때까지 상기 광학 주밍이 계속되는 것을 표시하는, 트래킹 장치.
  6. 제 5 항에 있어서,
    상기 퍼센티지는 고정된 퍼센티지인, 트래킹 장치.
  7. 제 5 항에 있어서,
    상기 퍼센티지는 상기 관심있는 물체와 연관된 검출된 품질의 함수로서 변화하는, 트래킹 장치.
  8. 제 7 항에 있어서,
    상기 관심있는 물체와 연관된 검출된 품질은 분명한 움직임의 레벨, 특정의 가청-검출가능한 단서의 사용, 및 음성 품질에서의 변화를 포함하는, 트래킹 장치.
  9. 제 2 항에 있어서,
    상기 가상 주밍 동작은,
    상기 제 2 영상내에서 관심있는 영역(47)을 식별하는 단계와,
    상기 관심있는 영역을 추출하는 단계와,
    제 3 영상(46)을 발생시키기 위해 상기 추출된 관심있는 영역을 보간하는 단계를 포함하는, 트래킹 장치.
  10. 제 3 항에 있어서,
    상기 프로세서는, 상기 관심있는 물체의 움직임의 레벨이 제 1 임계값을 초과한다면, 상기 광학 주밍 동작에서 설정된 팬, 틸트, 및 줌 세팅을 사용하여 상기 제 2 영상의 가상 주밍 동작의 반복을 관리하기 위해 더 동작하는, 트래킹 장치.
  11. 제 10 항에 있어서,
    상기 프로세서는, 상기 관심있는 물체의 움직임의 레벨이 상기 제 1 임계값보다 높은 제 2 임계값을 초과한다면, 상기 카메라에 대한 적어도 하나의 새로운 세팅을 설정하기 위해 상기 광학 주밍 동작의 반복을 관리하도록 더 동작하는, 트래킹 장치.
  12. 제 2 항에 있어서,
    상기 비디오 프로세싱 시스템은 비디오 회의 시스템을 포함하는, 트래킹 장치.
  13. 제 2 항에 있어서,
    상기 비디오 프로세싱 시스템은 비디오 감시 시스템을 포함하는, 트래킹 장치.
  14. 제조 물품으로서,
    프로세싱 시스템(10)에 의해 수행될 때:
    카메라(18)에 의해 발생된 제 1 영상(40)에서 관심있는 물체(22-k)를 검출하는 단계와;
    상기 관심있는 물체에 기초한 하나 이상의 지정된 정지 기준에 따라 상기 카메라에 대한 적어도 하나의 줌 세팅을 설정하기 위해 광학 주밍 동작(34)을 수행하는 단계와;
    상기 설정된 세팅에서 상기 카메라에 의해 발생된 제 2 영상(44)의 가상 주밍 동작(36)을 수행하는 단계를 이행하는 하나 이상의 프로그램을 저장하기 위한 저장 매체(14)를 포함하는, 제조 물품.
KR1020017002637A 1999-06-29 2000-06-27 하이브리드 광학 및 가상 주밍 장치를 사용한 관심있는물체의 실시간 트래킹 KR100711950B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US34364699A 1999-06-29 1999-06-29
US09/343,646 1999-06-29

Publications (2)

Publication Number Publication Date
KR20010079719A true KR20010079719A (ko) 2001-08-22
KR100711950B1 KR100711950B1 (ko) 2007-05-02

Family

ID=23346978

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020017002637A KR100711950B1 (ko) 1999-06-29 2000-06-27 하이브리드 광학 및 가상 주밍 장치를 사용한 관심있는물체의 실시간 트래킹

Country Status (4)

Country Link
EP (1) EP1110397A1 (ko)
JP (1) JP2003503910A (ko)
KR (1) KR100711950B1 (ko)
WO (1) WO2001001685A1 (ko)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1618400A1 (en) 2003-04-22 2006-01-25 Philips Intellectual Property & Standards GmbH Multiscale localization procedure
KR100585822B1 (ko) * 2004-04-26 2006-06-01 주식회사 일리시스 실시간 파노라마 비디오 영상을 이용한 감시 시스템 및 그시스템의 제어방법
US8803978B2 (en) 2006-05-23 2014-08-12 Microsoft Corporation Computer vision-based object tracking system
CN101534413B (zh) * 2009-04-14 2012-07-04 华为终端有限公司 一种远程呈现的系统、装置和方法
US8860775B2 (en) 2009-04-14 2014-10-14 Huawei Device Co., Ltd. Remote presenting system, device, and method
CN102611872B (zh) * 2011-01-19 2014-07-02 株式会社理光 基于感兴趣区域动态检测的场景影像转换系统和方法
US9100572B2 (en) 2013-05-24 2015-08-04 Xerox Corporation Methods and systems for confidence-based image processing
US11430084B2 (en) 2018-09-05 2022-08-30 Toyota Research Institute, Inc. Systems and methods for saliency-based sampling layer for neural networks
CN112347924A (zh) * 2020-11-06 2021-02-09 杭州当虹科技股份有限公司 一种基于人脸跟踪的虚拟导播改进方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5187674A (en) * 1989-12-28 1993-02-16 Honeywell Inc. Versatile, overpressure proof, absolute pressure sensor
JPH0771288B2 (ja) * 1990-08-24 1995-07-31 神田通信工業株式会社 自動視野調整方法及び装置
US5200818A (en) * 1991-03-22 1993-04-06 Inbal Neta Video imaging system with interactive windowing capability
US5185667A (en) * 1991-05-13 1993-02-09 Telerobotics International, Inc. Omniview motionless camera orientation system

Also Published As

Publication number Publication date
WO2001001685A1 (en) 2001-01-04
EP1110397A1 (en) 2001-06-27
JP2003503910A (ja) 2003-01-28
KR100711950B1 (ko) 2007-05-02

Similar Documents

Publication Publication Date Title
US6850265B1 (en) Method and apparatus for tracking moving objects using combined video and audio information in video conferencing and other applications
US10339386B2 (en) Unusual event detection in wide-angle video (based on moving object trajectories)
US6894714B2 (en) Method and apparatus for predicting events in video conferencing and other applications
US6931596B2 (en) Automatic positioning of display depending upon the viewer's location
US8614735B2 (en) Video conferencing
US20020140804A1 (en) Method and apparatus for audio/image speaker detection and locator
EP2311256B1 (en) Communication device with peripheral viewing means
EP1290882A1 (en) Method and apparatus for adaptive position determination in video conference and other applications
CN106470313B (zh) 影像产生系统及影像产生方法
EP1739966A1 (en) System for videoconferencing
US11477393B2 (en) Detecting and tracking a subject of interest in a teleconference
KR100711950B1 (ko) 하이브리드 광학 및 가상 주밍 장치를 사용한 관심있는물체의 실시간 트래킹
US20030044083A1 (en) Image processing apparatus, image processing method, and image processing program
WO2023164814A1 (zh) 媒体设备及其控制方法和装置、目标跟踪方法和装置
Huang et al. Networked omnivision arrays for intelligent environment
WO2024062971A1 (ja) 情報処理装置、情報処理方法および情報処理プログラム
US20220198620A1 (en) Camera system and method for determining a viewing frustum
CN117037271A (zh) 一种会议摄像头的发言人追踪方法、系统及存储介质
JP2001008191A (ja) 人物検出機能搭載装置
CN116437039A (zh) 环景影像会议系统及方法
JPH0568195A (ja) テレビドアフオン

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee