KR20150043818A - 영상처리장치 및 그 제어방법 - Google Patents

영상처리장치 및 그 제어방법 Download PDF

Info

Publication number
KR20150043818A
KR20150043818A KR20130122706A KR20130122706A KR20150043818A KR 20150043818 A KR20150043818 A KR 20150043818A KR 20130122706 A KR20130122706 A KR 20130122706A KR 20130122706 A KR20130122706 A KR 20130122706A KR 20150043818 A KR20150043818 A KR 20150043818A
Authority
KR
South Korea
Prior art keywords
mhi
area
data
image
divided
Prior art date
Application number
KR20130122706A
Other languages
English (en)
Inventor
정경부
미키야즈 테쇼메
이동호
이봉석
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR20130122706A priority Critical patent/KR20150043818A/ko
Priority to PCT/KR2014/008863 priority patent/WO2015056894A1/en
Priority to EP14854368.9A priority patent/EP3047654A4/en
Priority to US14/506,851 priority patent/US9477684B2/en
Publication of KR20150043818A publication Critical patent/KR20150043818A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/0304Detection arrangements using opto-electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts

Abstract

본 발명의 실시예에 따른 영상처리장치는, 오브젝트를 촬영하는 카메라와;
카메라에 의해 촬영된 영상 내에서의 오브젝트의 모션 방식을 판별하는 프로세서와; 소정의 제1방식에 따라서 복수 회 수행된 모션을 각기 촬영한 복수의 제1영상을 각각 MHI(motion history image)로 변환하고 각각의 MHI로부터 기 설정된 알고리즘에 따라서 산출된 각각의 MHI 데이터에서 공통적으로 나타나는 데이터를 공통정보로 취득하며, 카메라로부터 제2영상이 전달되는 경우에 제2영상의 MHI 데이터가 공통정보를 포함하는 것으로 판단되면 제2영상에서 발생하는 모션이 제1방식에 해당하는 것으로 판별하도록 프로세서를 제어하는 컨트롤러를 포함하는 것을 특징으로 한다.

Description

영상처리장치 및 그 제어방법 {IMAGE PROCESSING APPARATUS AND CONTROL METHOD THEREOF}
본 발명은 영상데이터를 영상으로 표시 가능하게 처리하는 영상처리장치 및 그 제어방법에 관한 것으로서, 상세하게는 카메라를 통해 수집된 다수의 모션 히스토리(motion history)에 기초하여 행동 방식을 학습(training)하고, 학습 결과를 이용하여 사용자의 행동 방식을 판별하는 구조의 영상처리장치 및 그 제어방법에 관한 것이다.
영상처리장치는 외부로부터 수신되는 영상신호/영상데이터를 다양한 영상처리 프로세스에 따라서 처리한다. 영상처리장치는 처리된 영상신호를 자체 구비한 디스플레이 패널 상에 영상으로 표시하거나, 또는 패널을 구비한 타 디스플레이장치에서 영상으로 표시되도록 이 처리된 영상신호를 해당 디스플레이장치에 출력할 수 있다. 즉, 영상처리장치는 영상신호를 처리 가능한 장치라면 영상을 표시 가능한 패널을 포함하는 경우 및 패널을 포함하지 않는 경우 모두 포함할 수 있는 바, 전자의 경우의 예시로는 TV가 있으며, 후자의 경우의 예시로는 셋탑박스(set-top box)가 있다.
영상처리장치는 기술의 발전에 따라서 다양한 기능의 추가 및 확장이 계속적으로 반영되고 있는 바, 예를 들면 영상처리장치는 카메라를 통해 전방에 있는 사용자를 촬영한 영상 내에서 사용자의 모션 방식 또는 패턴을 판단하고, 판단된 모션 방식에 대응하도록 기 설정된 영상처리장치의 기능을 실행할 수 있다.
이와 같은 모션 방식을 판단하는 방법에는 다양한 알고리즘이 적용될 수 있다. 예를 들면 모델링 기반(modeling based)의 분석방법은, 사람의 신체 구조를 3차원 영상 또는 2차원 영상으로 모델링하고, 이 모델링 결과로부터 모션의 정보를 추출 및 분석하여 동작을 인식하는 방법이다. 이 경우에는 정밀한 인식 결과를 기대할 수 있지만, 데이터 처리량이 많고 구현 난이도가 높으므로 일반적인 TV 등에 실제로 적용하는 것이 용이하지 않을 수 있다. 또한, 모델링 기반 분석방법은 하나 이상의 3차원 카메라 또는 복수의 2차원 카메라에 의한 촬영을 필요로 한다.
따라서, 하나의 2차원 카메라에 의한 촬영에 의해서, 보다 간단하고 용이하게 사용자의 동작 방식을 분석 및 판단할 수 있는 방법 및 구조가 요구된다.
본 발명의 실시예에 따른 영상처리장치는, 오브젝트를 촬영하는 카메라와; 상기 카메라에 의해 촬영된 영상 내에서의 상기 오브젝트의 모션 방식을 판별하는 프로세서와; 소정의 제1방식에 따라서 복수 회 수행된 모션을 각기 촬영한 복수의 제1영상을 각각 MHI(motion history image)로 변환하고 상기 각각의 MHI로부터 기 설정된 알고리즘에 따라서 산출된 각각의 MHI 데이터에서 공통적으로 나타나는 데이터를 공통정보로 취득하며, 상기 카메라로부터 제2영상이 전달되는 경우에 상기 제2영상의 MHI 데이터가 상기 공통정보를 포함하는 것으로 판단되면 상기 제2영상에서 발생하는 모션이 상기 제1방식에 해당하는 것으로 판별하도록 상기 프로세서를 제어하는 컨트롤러를 포함하는 것을 특징으로 한다.
여기서, 복수의 기 설정된 영역패턴이 저장된 스토리지를 더 포함하며, 상기 컨트롤러는, 상기 MHI의 전체 픽셀영역을 상기 복수의 영역패턴 중 제1영역패턴에 대응하게 분할하고 상기 분할된 각 픽셀영역마다 상기 제1영역패턴과의 연산을 수행함으로써 상기 제1영역패턴 별 연산데이터를 산출하며, 상기 MHI에 대해 상기 복수의 영역패턴 별로 산출된 각각의 상기 연산데이터 전체에 기초하여 상기 MHI 데이터를 산출할 수 있다.
여기서, 상기 컨트롤러는, 상기 영역패턴 별 MHI 데이터를 일렬로 연결함으로써 상기 MHI 데이터를 생성할 수 있다.
또한, 하나의 상기 영역패턴은 행렬 배치된 복수의 분할영역을 포함하며, 상기 복수의 분할영역 중 일부를 포함하는 제1영역 및 상기 복수의 분할영역 중 나머지를 포함하는 제2영역으로 구분되고, 상기 복수의 영역패턴 각각은 상기 분할영역의 분할 형태와, 상기 제1영역 및 상기 제2영역의 구분 형태 중 적어도 어느 하나가 상이할 수 있다.
여기서, 상기 분할영역의 크기는 상기 MHI의 하나 이상의 픽셀 크기에 대응할 수 있다.
또한, 하나의 상기 영역패턴은 행렬 배치된 복수의 분할영역을 포함하며, 상기 복수의 분할영역 중 일부를 포함하는 제1영역 및 상기 복수의 분할영역 중 나머지를 포함하는 제2영역으로 구분되고, 상기 컨트롤러는, 상기 제1영역의 평균 픽셀값 및 상기 제2영역의 평균 픽셀값의 비교 결과에 따라서 선택적으로 바이너리 값을 적용함으로써 상기 각 픽셀영역에 대한 상기 연산데이터를 산출할 수 있다.
여기서, 상기 컨트롤러는, 상기 분할영역 별로 상기 분할영역 내의 픽셀들에 대한 에지 정보를 산출하여 상기 연산데이터에 부가할 수 있다.
또한, 상기 컨트롤러는, 상기 복수의 제1영상 각각으로부터 산출된 복수의 상기 MHI 데이터의 바이너리 코드를 상호 비교하여 유사도가 높은 코드가 있는지 판단하고, 상기 유사도가 높다고 판단되는 코드를 상기 제1방식의 상기 공통정보로 판단할 수 있다.
여기서, 상기 컨트롤러는, 상기 복수의 MHI 데이터의 상호 대응하는 위치 구간에서 동일한 바이너리 값을 나타내는 빈도가 기 설정된 문턱값 이상이면 상기 위치 구간의 코드가 유사도가 높다고 판단할 수 있다.
또한, 상기 컨트롤러는, 상기 복수의 제1영상 및 상기 제2영상 각각의 상기 MHI들을 기 설정된 크기 또는 해상도로 정규화시키고, 정규화된 상기 MHI들로부터 각기 상기 MHI 데이터를 산출할 수 있다.
또한, 본 발명의 실시예에 따른 영상처리장치의 제어방법은, 소정의 제1방식에 따라서 복수 회 수행된 모션을 각기 촬영한 복수의 제1영상을 각각 MHI로 변환하는 단계와; 상기 각각의 MHI로부터 기 설정된 알고리즘에 따라서 산출된 각각의 MHI 데이터에서 공통적으로 나타나는 데이터를 공통정보로 취득하는 단계와; 카메라에 의해 촬영된 제2영상을 수신하여 MHI로 변환하는 단계와; 상기 제2영상의 MHI 데이터가 상기 공통정보를 포함하는 것으로 판단되면 상기 제2영상에서 발생하는 모션이 상기 제1방식에 해당하는 것으로 판별하는 단계를 포함하는 것을 특징으로 한다.
여기서, 상기 공통정보의 취득 단계는, 상기 MHI의 전체 픽셀영역을 복수의 기 설정된 영역패턴 중 제1영역패턴에 대응하게 분할하고 상기 분할된 각 픽셀영역마다 상기 제1영역패턴과의 연산을 수행함으로써 상기 제1영역패턴 별 연산데이터를 산출하는 단계와; 상기 MHI에 대해 상기 복수의 영역패턴 별로 산출된 각각의 상기 연산데이터 전체에 기초하여 상기 MHI 데이터를 산출하는 단계를 포함할 수 있다.
여기서, 상기 MHI 데이터는, 상기 영역패턴 별 MHI 데이터를 일렬로 연결함으로써 생성될 수 있다.
또한, 하나의 상기 영역패턴은 행렬 배치된 복수의 분할영역을 포함하며, 상기 복수의 분할영역 중 일부를 포함하는 제1영역 및 상기 복수의 분할영역 중 나머지를 포함하는 제2영역으로 구분되고, 상기 복수의 영역패턴 각각은 상기 분할영역의 분할 형태와, 상기 제1영역 및 상기 제2영역의 구분 형태 중 적어도 어느 하나가 상이할 수 있다.
여기서, 상기 분할영역의 크기는 상기 MHI의 하나 이상의 픽셀 크기에 대응할 수 있다.
또한, 하나의 상기 영역패턴은 행렬 배치된 복수의 분할영역을 포함하며, 상기 복수의 분할영역 중 일부를 포함하는 제1영역 및 상기 복수의 분할영역 중 나머지를 포함하는 제2영역으로 구분되고, 상기 연산데이터를 산출하는 단계는, 상기 제1영역의 평균 픽셀값 및 상기 제2영역의 평균 픽셀값의 비교 결과에 따라서 선택적으로 바이너리 값을 적용함으로써 상기 각 픽셀영역에 대한 상기 연산데이터를 산출하는 단계를 포함할 수 있다.
여기서, 상기 연산데이터를 산출하는 단계는, 상기 분할영역 별로 상기 분할영역 내의 픽셀들에 대한 에지 정보를 산출하여 상기 연산데이터에 부가하는 단계를 더 포함할 수 있다.
또한, 상기 공통정보의 취득 단계는, 상기 복수의 제1영상 각각으로부터 산출된 복수의 상기 MHI 데이터의 바이너리 코드를 상호 비교하여 유사도가 높은 코드가 있는지 판단하고, 상기 유사도가 높다고 판단되는 코드를 상기 제1방식의 상기 공통정보로 판단하는 단계를 포함할 수 있다.
여기서, 상기 공통정보의 판단 단계는, 상기 복수의 MHI 데이터의 상호 대응하는 위치 구간에서 동일한 바이너리 값을 나타내는 빈도가 기 설정된 문턱값 이상이면 상기 위치 구간의 코드가 유사도가 높다고 판단하는 단계를 포함할 수 있다.
또한, 상기 공통정보의 취득 단계는, 상기 복수의 제1영상 및 상기 제2영상 각각의 상기 MHI들을 기 설정된 크기 또는 해상도로 정규화시키고, 정규화된 상기 MHI들로부터 각기 상기 MHI 데이터를 산출하는 단계를 포함할 수 있다.
도 1은 본 발명의 제1실시예에 따른 영상처리장치의 예시도,
도 2는 도 1의 디스플레이장치의 구성 블록도,
도 3은 촬영영상 내의 소정 수의 영상프레임들을 시간 경과에 따라서 일렬로 배치한 모습을 나타내는 예시도,
도 4는 도 3의 영상프레임들을 중첩시켰을 때에 나타나는 오브젝트의 이동 모습의 예시도,
도 5는 도 3과 같이 나타나는 오브젝트의 이동에 따라서 생성되는 MHI의 개략적인 예시도,
도 6은 도 1의 디스플레이장치의 프로세서의 구성 블록도,
도 7은 도 6의 프로세서에 의해 참조되는 영역패턴의 예시도,
도 8은 도 7에 도시된 복수의 영역패턴 중에서 제1영역패턴으로 MHI에 대한 제1영역패턴 별 MHI 데이터를 도출하는 원리를 나타내는 예시도,
도 9는 도 7에 도시된 복수의 영역패턴 중에서 제2영역패턴으로 MHI에 대한 제2영역패턴 별 MHI 데이터를 도출하는 원리를 나타내는 예시도,
도 10은 도 7에 도시된 각 영역패턴 별 MHI 데이터에 기초하여 생성된 최종 MHI 데이터의 예시도,
도 11은 도 1의 디스플레이장치의 소정 모션 방식에 대한 학습 과정을 나타내는 플로우차트,
도 12는 도 1의 디스플레이장치의 소정 모션에 대한 판별 과정을 나타내는 플로우차트,
도 13은 본 발명의 제2실시예에 따른 프로세서의 구성 블록도이다.
이하에서는 첨부도면을 참조하여 본 발명에 대해 상세히 설명한다. 이하 실시예에서는 본 발명의 사상과 직접적인 관련이 있는 구성들에 관해서만 설명하며, 그 외의 구성에 관해서는 설명을 생략한다. 그러나, 본 발명의 사상이 적용된 장치 또는 시스템을 구현함에 있어서, 이와 같이 설명이 생략된 구성이 불필요함을 의미하는 것이 아님을 밝힌다.
도 1은 본 발명의 제1실시예에 따른 영상처리장치(100)의 예시도이다. 본 실시예에서의 영상처리장치(100)는 자체적으로 영상을 표시할 수 있는 구조의 디스플레이장치로 구현된다. 그러나, 본 발명의 사상은 셋탑박스와 같이 자체적으로 영상을 표시할 수 없는 장치의 경우에도 적용할 수 있는 바, 이 경우에 영상처리장치(100)는 별도의 외부 디스플레이장치에 로컬 접속됨으로써 외부 디스플레이장치에 영상이 표시되도록 할 수도 있다.
도 1에 도시된 바와 같이, 본 실시예에 따른 디스플레이장치(100)는 영상데이터를 처리하여 영상을 표시함으로써, 전방의 사용자에게 영상을 제공한다. 디스플레이장치(100)의 일반적인 구현 예시로 TV를 들 수 있으며 본 실시예에서는 디스플레이장치(100)가 TV인 경우를 전제로 하여 설명한다.
디스플레이장치(100)는 사용자로부터 입력되는, 또는 사용자에 의해 발생하는 다양한 형태의 이벤트에 따라서, 해당 이벤트에 대응하게 기 설정된 기능을 수행한다. 이벤트의 형태 중 하나로는 디스플레이장치(100)의 전방에 있는 사용자가 어떠한 모션을 취하고 있는지에 관한 감지 및 분석이 있는데, 이를 위하여 디스플레이장치(100)는 외부 환경을 촬영하는 카메라(150)를 포함한다.
디스플레이장치(100)는 카메라(150)에 의해 촬영된 촬영영상을 분석하여, 촬영영상 내에 나타난 사용자가 어떠한 방식의 모션을 취하고 있는지를 특정한다. 디스플레이장치(100)는 사용자가 취하는 모션 방식이 특정되면, 해당 모션 방식에 대응하도록 기 설정된 기능을 수행한다. 예를 들면, 디스플레이장치(100)는 소정 시간 동안에 촬영된 촬영영상 내에서 사용자가 오른손을 위로 올리는 동작을 취하는 것으로 분석되면, 영상의 볼륨을 소정 레벨 올린다. 또는, 디스플레이장치(100)는 촬영영상 내에서 사용자가 오른손을 우측으로 미는 동작을 취하는 것으로 분석되면, 방송영상의 채널번호를 하나 다음으로 전환시킨다.
이하, 디스플레이장치(100)의 구체적인 구성에 관해 설명한다.
도 2는 디스플레이장치(100)의 구성 블록도이다.
도 2에 도시된 바와 같이, 디스플레이장치(100)는 외부와 데이터/신호를 송수신하도록 통신하는 통신 인터페이스(interface)(110)와, 통신 인터페이스(110)에 수신되는 데이터를 기 설정된 프로세스(process)에 따라서 처리하는 프로세서(processor)(120)와, 프로세서(120)에서 처리되는 데이터가 영상데이터인 경우에 해당 영상데이터를 영상으로 표시하는 디스플레이(display)(130)와, 사용자에 의한 입력 동작이 수행되는 사용자 인터페이스(140)와, 디스플레이장치(100)의 외부 환경을 촬영하는 카메라(camera)(150)와, 데이터/정보가 저장되는 스토리지(storage)(160)와, 디스플레이장치(100)의 제반 동작을 제어하는 컨트롤러(controller)(170)를 포함한다.
통신 인터페이스(110)는 디스플레이장치(100)가 서버 등과 같은 외부장치(미도시)와 양방향 통신이 가능하도록 데이터의 송수신을 수행한다. 통신 인터페이스(110)는 기 설정된 통신 프로토콜(protocol)에 따라서, 유선/무선을 통한 광역/근거리 네트워크 또는 로컬 접속 방식으로 외부장치(미도시)에 접속한다.
통신 인터페이스(110)는 각 장치 별 접속 포트(port) 또는 접속 모듈(module)의 집합체에 의해 구현될 수 있는 바, 접속을 위한 프로토콜 또는 접속 대상이 되는 외부장치가 하나의 종류 또는 형식으로 한정되지 않는다. 통신 인터페이스(110)는 디스플레이장치(100)에 내장된 형태일 수 있으며, 전체 또는 일부의 구성이 디스플레이장치(100)에 애드-온(add-on) 또는 동글(dongle) 형태로 추가 설치되는 형식도 가능하다.
통신 인터페이스(110)는 접속된 각 장치 별로 지정된 프로토콜에 따라서 신호의 송수신이 이루어지는 바, 접속된 각 장치에 대해 개별적인 접속 프로토콜 기반으로 신호를 송수신할 수 있다. 영상데이터의 경우를 예로 들면, 통신 인터페이스(110)는 RF(radio frequency)신호, 컴포지트(composite)/컴포넌트(component) 비디오, 슈퍼 비디오(super video), SCART, HDMI(high definition multimedia interface), 디스플레이포트(DisplayPort), UDI(unified display interface), 또는 와이어리스(wireless) HD 등 다양한 규격을 기반으로 신호의 송수신이 가능하다.
프로세서(120)는 통신 인터페이스(110)에 수신되는 데이터/신호에 대해 다양한 프로세스를 수행한다. 통신 인터페이스(110)에 영상데이터가 수신되면, 프로세서(120)는 영상데이터에 대해 영상처리 프로세스를 수행하고, 이러한 프로세스가 수행된 영상데이터를 디스플레이(130)에 출력함으로써 디스플레이(130)에 해당 영상데이터에 기초하는 영상이 표시되게 한다. 통신 인터페이스(110)에 수신되는 신호가 방송신호인 경우, 프로세서(120)는 특정 채널로 튜닝된 방송신호로부터 영상, 음성 및 부가데이터를 추출하고, 영상을 기 설정된 해상도로 조정하여 디스플레이(130)에 표시되게 한다.
프로세서(120)가 수행하는 영상처리 프로세스의 종류는 한정되지 않으며, 예를 들면 영상데이터의 영상 포맷에 대응하는 디코딩(decoding), 인터레이스(interlace) 방식의 영상데이터를 프로그레시브(progressive) 방식으로 변환하는 디인터레이싱(de-interlacing), 영상데이터를 기 설정된 해상도로 조정하는 스케일링(scaling), 영상 화질 개선을 위한 노이즈 감소(noise reduction), 디테일 강화(detail enhancement), 프레임 리프레시 레이트(frame refresh rate) 변환 등을 포함할 수 있다.
프로세서(120)는 데이터의 종류, 특성에 따라서 다양한 프로세스를 수행할 수 있는 바, 프로세서(120)가 수행 가능한 프로세스를 영상처리 프로세스로 한정할 수 없다. 또한, 프로세서(120)가 처리 가능한 데이터가 통신 인터페이스(110)에 수신되는 것만으로 한정할 수 없다. 예를 들면, 프로세서(120)는 사용자 인터페이스(140)를 통해 사용자의 발화가 입력되면, 기 설정된 음성처리 프로세스에 따라서 해당 발화를 처리할 수 있다.
프로세서(120)는 이러한 여러 기능을 통합시킨 SOC(system-on-chip)가, 또는 이러한 각 프로세스를 독자적으로 수행할 수 있는 개별적인 칩셋(chip-set)들이 인쇄회로기판 상에 장착된 영상처리보드(미도시)로 구현되며, 디스플레이장치(100)에 내장된다.
디스플레이(130)는 프로세서(120)에 의해 처리된 영상신호/영상데이터를 영상으로 표시한다. 디스플레이(130)의 구현 방식은 한정되지 않는 바, 액정(liquid crystal), 플라즈마(plasma), 발광 다이오드(light-emitting diode), 유기발광 다이오드(organic light-emitting diode), 면전도 전자총(surface-conduction electron-emitter), 탄소 나노 튜브(carbon nano-tube), 나노 크리스탈(nano-crystal) 등의 다양한 디스플레이 방식으로 구현될 수 있다.
디스플레이(130)는 그 구현 방식에 따라서 부가적인 구성을 추가적으로 포함할 수 있다. 예를 들면, 액정 방식인 경우에, 디스플레이(130)는 액정 디스플레이 패널(미도시)과, 이에 광을 공급하는 백라이트유닛(미도시)과, 패널(미도시)을 구동시키는 패널구동기판(미도시) 등을 포함한다.
사용자 인터페이스(140)는 사용자의 조작 또는 입력에 따라서 기 설정된 다양한 제어 커맨드(command) 또는 정보를 컨트롤러(170)에 전달한다. 사용자 인터페이스(140)는 사용자의 의도에 따라서 사용자에 의해 발생하는 다양한 이벤트(event)를 정보화하여 컨트롤러(170)에 전달한다. 여기서, 사용자에 의해 발생하는 이벤트는 여러 가지 형태가 가능한 바, 예를 들면 사용자가 리모트 컨트롤러(미도시)를 조작하거나, 사용자의 발화 등이 가능하다.
카메라(150)는 디스플레이장치(100)의 외부 환경, 특히 사용자의 모습을 촬영하여 그 촬영 결과를 프로세서(120) 또는 컨트롤러(170)에 전달한다. 본 실시예에 따른 카메라(150)는 2차원 촬영 방식에 따라서 사용자의 모습을 촬영한 촬영영상을 프로세서(120) 또는 컨트롤러(170)에 제공함으로써, 컨트롤러(170)가 촬영영상의 영상프레임 내에서 사용자의 형상 및 모습을 특정할 수 있도록 한다.
스토리지(160)는 컨트롤러(170)의 제어에 따라서 다양한 데이터가 저장된다. 스토리지(160)는 시스템 전원의 제공 유무와 무관하게 데이터를 보존할 수 있도록, 플래시메모리(flash-memory), 하드디스크 드라이브(hard-disc drive)와 같은 비휘발성 메모리로 구현된다. 스토리지(150)는 컨트롤러(170)에 대해 억세스(access)됨으로써, 기 저장된 데이터의 독취, 기록, 수정, 삭제, 갱신 등이 수행된다.
컨트롤러(160)는 CPU로 구현되며, 소정 이벤트의 발생에 따라서 프로세서(120)를 비롯한 디스플레이장치(100)의 제반 구성의 동작을 제어한다. 본 실시예에서, 컨트롤러(170)는 카메라(150)로부터 촬영영상이 수신되면, 촬영영상의 영상프레임을 분석함으로써 사용자가 어떠한 모션을 취하고 있는지를 판단한다. 컨트롤러(160)는 판단 결과에 따라서 사용자가 취하는 모션에 대응하여 기 설정된 동작이 실행되도록 제어한다.
이와 같이 촬영영상 내에서 사용자가 취하는 모션의 방식을 판단하는 방법은 여러 가지 알고리즘이 적용될 수 있다. 본 실시예에서는 기본적으로 MHI(motion history image)라는 개념을 적용하여 모션 방식을 판단한다.
이하, MHI의 간단한 개념에 관해 설명한다.
도 3은 촬영영상 내의 소정 개수의 영상프레임들을 시간 경과에 따라서 일렬로 배치한 모습을 나타내는 예시도이다.
도 3에 도시된 바와 같이, 카메라(150)에 의해 소정 시간 T 동안에 촬영된 촬영영상은, 시간축 상에서 순차적으로 배치된 복수의 영상프레임을 포함한다. 시간적으로 가장 이후의 영상프레임을 t라고 하면, t로부터 영상프레임 단위로 시간상 하나 이전의 영상프레임은 t-1이며, t로부터 영상프레임 단위로 시간상 둘 이전의 영상프레임은 t-2이며, t로부터 영상프레임 단위로 시간상 n개 이전의 영상프레임은 t-n로 각각 나타낼 수 있다. 여기서, n은 상수이다.
즉, 시구간 T 동안의 촬영영상 내에서, 시간적으로 최초의 영상프레임은 t-n이며, 시간적으로 최후의 영상프레임은 t로 나타낼 수 있다.
이들 영상프레임 내에 소정의 오브젝트가 있으면, 시간의 경과에 따라서 오브젝트의 모션이 나타날 수 있다.
도 4는 도 3의 영상프레임들을 중첩시켰을 때에 나타나는 오브젝트의 이동 모습의 예시도이다.
도 4에 도시된 바와 같이, 시구간 T 동안의 영상프레임들을 시간적으로 중첩시켰을 때, 이들 영상프레임 내에서 오브젝트는 시간 경과에 따라서 이동하는 모습을 나타낸다. 시간적으로 최초인 영상프레임 t-n에서의 오브젝트의 위치를 B(t-n), 영상프레임 t에서의 오브젝트의 위치를 Bt라고 할 때, 해당 오브젝트는 B(t-n)에서 Bt까지 영상프레임 내의 왼쪽 위에서 오른쪽 아래로 곡선의 궤적에 따라서 이동하는 예시를 고려할 수 있다.
이 경우에, 시구간 T 동안의 영상프레임들로부터 추출되는 MHI는, 해당 시구간 동안의 각 영상프레임의 픽셀 위치별로 차분값을 누적하여 생성된 영상이다.
도 5는 도 3과 같이 나타나는 오브젝트의 이동에 따라서 생성되는 MHI(200)의 개략적인 예시도이다. 본 도면의 MHI(200)는 그 원리를 나타내기 위해 간략하게 표현한 것으로서, 실제로는 픽셀 단위로 보다 복잡한 형태를 나타낸다.
도 5에 도시된 바와 같이, MHI(200)는 공간 및 시간상에서의 동작 변화 정도를 표현한 명암도 영상으로서, 점점 밝아지는 영상의 명암은 동작 발생 시간에 비례한다. MHI(200)를 통하여, 동작이 어디에서 발생하였으며, 어느 방향으로 얼마의 시간만큼 진행하였는지에 관한 시공간적인 정보를 획득할 수 있다.
여기서, MHI(200)를 구성하는 각 픽셀별 픽셀값은 다음과 같은 수학식에 기초하여 생성될 수 있다.
Figure pat00001
본 수학식은 Aaron F. Bobick과 James W. Davis에 의해 정의된 MHI(200) 수학식이다. 이에 관한 자세한 설명은 공지된 기술 내용을 참조할 수 있는 바, 자세한 설명을 생략한다.
D(x,y,t)는 (t-1) 시간의 영상프레임 및 t 시간의 영상프레임 사이의 차영상(differential image)의 (x,y) 좌표의 바이너리 픽셀값이다. τ는 타임 스탬프(time stamp)로서, 이전 영상프레임과 현재 영상프레임 사이에 차이가 발생하였음을 표시하기 위하여 기 설정된 값이며, 0 내지 255 사이에서 실험적으로 결정되는 픽셀값이다. Hτ(x,y,t)는 t 시간의 τ 타임 스탬프에서, MHI(200)의 (x,y) 좌표의 픽셀값이다.
위 수학식의 Hτ(x,y,t-1)-1에서, 마지막의 상수 1은 설계 방식에 따라서는 1이 아닌 임의의 상수 k로 대체될 수 있다. 즉 위 수학식의 Hτ(x,y,t-1)-1은 Hτ(x,y,t-1)-k로 표현될 수도 있다.
D(x,y,t)는 이전 영상과 현재 영상 사이에서 차이가 발생하는 경우에 해당 픽셀에 1을 부여하며, 차이가 발생하지 않는 경우에 해당 픽셀에 0을 부여함으로써 설정된다. 도 4에 도시된 바와 같이 오브젝트가 왼쪽 상측에서 오른쪽 하측으로 이동하였을 경우에, 위 수학식에 따라서 생성된 MHI(200)는 도 5에 도시된 바와 같이 가장 최근에 발생한 모션은 가장 밝은 값으로 표현되고 이전에 발생한 모션일수록 어두운 값으로 표현된다. 이는 시간적으로 인접한 두 영상프레임 사이의 차영상을 축적시킴에 따라서 소정 픽셀에 대한 픽셀값의 차감이 누적되기 때문이다.
따라서, 임의의 시구간 T 동안의 오브젝트의 모션이 하나의 영상인 MHI(200)으로 표현될 수 있다.
이러한 원리의 MHI와 관련하여, 본 실시예는 크게 학습(training) 과정 및 판별 과정의 두 가지 과정을 포함한다. 학습 과정은, 동일한 방식으로 수행된 모션들로부터 각기 MHI를 추출하고, 추출된 복수의 MHI를 사용한 학습을 통해 특정 MHI에 대응하는 모션 방식을 획득 및 저장하는 과정이다. 판별 과정은, 촬영영상의 MHI를 학습 과정을 통해 획득 및 저장된 결과에 대비시켜, 해당 MHI가 어떠한 모션 방식에 해당하는지 판별하는 과정이다. 즉, 본 발명은 학습 과정을 통해 특정 방식의 모션에 대한 MHI 데이터를 특정시키고, 판별 과정에서 판별 대상이 되는 촬영영상의 모션이 어떠한 방식인지를 학습 과정의 결과를 참조하여 판별한다.
그런데, 학습 과정에 있어서, 특정한 모션 방식의 MHI 데이터가 어떠한 내용인지를 결정하는 것, 즉 특정한 모션 방식의 MHI 데이터를 학습하는 것은 다음과 같은 점에서 용이하지 않다.
사람이 손을 드는 모션의 예를 들면, 모션이 완성되는 속도, 행동반경, 움직이는 궤적 등은 사용자에 따라서 상이하게 나타나며, 또는 동일한 사용자더라도 모션 회수에 따라서 상이하게 나타날 수 있다. 따라서, 특정 사용자에 의한 어느 하나의 모션을 촬영하여 그 촬영영상의 MHI 데이터만으로 학습 과정을 수행하게 되면, 이후 판별 과정에서 판별 대상이 되는 촬영영상 내의 모션 방식을 판별하기에 용이하지 않다.
이에, 본 실시예에 따른 디스플레이장치(100)는 학습 과정에서 동일한 소정의 제1방식의 모션을 각기 촬영한 복수의 제1촬영영상으로부터 각각 MHI를 생성하고, 생성된 복수의 MHI의 MHI 데이터에서 공통적으로 나타나는 MHI 데이터를 도출한다. 디스플레이장치(100)는 도출된 MHI 데이터를 해당 동작 방식에 대응하는 공통정보로서 저장한다.
디스플레이장치(100)는 이후의 판별 과정에서, 판별 대상인 제2촬영영상의 MHI 데이터를 추출한다. 디스플레이장치(100)는 추출된 MHI 데이터가 앞선 학습 과정에서 저장된 공통정보를 포함하면, 제2촬영영상에서 발생하는 모션이 제1방식에 해당하는 것으로 판단한다.
이러한 방법에 따라서, 판별 과정에서 촬영영상이 사용자에 따라서 다양한 형태로 수행되는 모션을 포함하더라도, 해당 모션의 방식을 용이하게 판별할 수 있다. 즉, 학습 과정에서 특정 방식에 공통적으로 포함되는 공통정보를 추출하여 기준으로 설정하므로, 판별 과정에서 다양한 형태로 수행되는 모션에 대해서도 공통정보의 포함 여부에 따라서 이 모션이 특정 방식에 해당하는지를 용이하게 판단할 수 있다.
이하, 본 실시예에 따라서 촬영영상 내에서 모션의 방식을 학습하는 구조에 관해 구체적으로 설명한다. 본 학습 과정에서는 동일한 특정 방식의 모션을 포함하는 복수의 영상을 분석함으로써, 해당 방식에 대응하는 공통정보를 취득하는 동작이 수행된다.
도 6은 프로세서(120)의 구성 블록도이다.
도 6에 도시된 바와 같이, 본 실시예에 따른 프로세서(120)는 카메라(150)로부터 전달받은 촬영영상을 처리하기 위한 복수의 모듈 또는 블록(121, 122, 123, 124, 125, 126)을 포함한다
이들 블록(121, 122, 123, 124, 125, 126)은 편의상 수행하는 기능에 따라서 분류된 것으로서, 본 실시예에 따른 프로세서(120)의 구현 방식을 한정하는 것이 아니다. 이들 블록(121, 122, 123, 124, 125, 126)은 하드웨어적인 구성일 수 있고, 또는 소프트웨어적인 구성일 수도 있다. 프로세서(120)를 구성하는 각 블록(121, 122, 123, 124, 125, 126)들이 각각의 동작을 개별적으로 수행할 수 있고, 또는 블록(121, 122, 123, 124, 125, 126) 단위로 구분되지 않고 프로세서(120)가 전체적인 동작을 순차적으로 수행할 수도 있다. 또한, 프로세서(120)의 동작은 컨트롤러(170)의 제어에 의해 수행된다.
프로세서(120)는 MHI 생성블록(121)과, 정규화 블록(122)과, 영역패턴 기반 처리블록(123)과, 영역패턴 DB(124)와, 공통정보 판단블록(125)과, 클래시파이어(classifier)(126)를 포함한다.
이하, 카메라(150)로부터 전달되는 촬영영상의 일 영상프레임에 대한 각 블록(121, 122, 123, 124, 125, 126)들의 동작에 관해 설명한다.
MHI 생성블록(121)은 복수의 영상프레임을 포함하는 소정 시구간 동안의 촬영영상을 카메라(150)로부터 수신하면, 해당 촬영영상을 MHI로 변환한다. 여기서, MHI 생성블록(121)은 학습 과정 동안에 동일한 방식에 따라서 수행된 모션을 각기 포함하는 복수의 촬영영상을 카메라(150)로부터 순차적으로 수신할 수 있지만, 학습 과정에 필요한 복수의 촬영영상을 카메라(150)가 아닌 다른 방법을 통해, 예를 들면 타 장치로부터 기 저장된 영상을 입력받을 수도 있다.
MHI 생성블록(121)은 복수의 촬영영상이 순차적으로 입력됨에 따라서, 각 촬영영상을 MHI로 변환하여 정규화 블록(122)에 순차적으로 전달한다.
정규화 블록(122)은 MHI 생성블록(121)으로부터 전달받은 각 MHI를 기 설정된 크기 또는 해상도로 정규화시킨다. 정규화 블록(122)은 복수의 MHI를 동일한 크기로 정규화시킴에 있어서, 각 MHI의 전체 픽셀영역 중에서 모션이 발생한 영역을 포함하도록 설정한다.
영역패턴 기반 처리블록(123)은 정규화 블록(122)으로부터 전달받은 MHI의 전체 픽셀영역을 기 설정된 영역패턴에 대응하게 분할하고 각 분할 영역마다 해당 영역패턴을 적용한 연산을 수행함으로써, 해당 영역패턴에 의한 1차 MHI 바이너리 데이터를 도출한다. 그리고, 영역패턴 기반 처리블록(123)은 다른 영역패턴으로 동일한 프로세스를 수행함으로써 해당 영역패턴에 의한 2차 MHI 바이너리 데이터를 도출한다.
영역패턴 기반 처리블록(123)은 이러한 프로세스를 기 설정된 복수의 영역패턴 모두를 대상으로 수행하고, 각 영역패턴별로 도출된 MHI 바이너리 데이터로부터 일 MHI의 최종 MHI 데이터를 도출한다. 여기서, MHI 데이터는 예를 들어 각 영역패턴 별 MHI 바이너리 데이터를 일렬로 연결함으로써 생성할 수 있는 바, 일련의 바이너리 코드로 구현된다.
영역패턴 기반 처리블록(123)의 보다 자세한 동작 및 영역패턴에 관해서는 후술한다.
영역패턴 DB(124)는 기 설정된 복수의 영역패턴을 저장하며, 영역패턴 기반 처리블록(123)의 처리 동작에 따라서 복수의 영역패턴을 순차적으로 영역패턴 기반 처리블록(123)에게 제공한다.
공통정보 판단블록(125)은 영역패턴 기반 처리블록(123)으로부터 순차적으로 전달되는 MHI 별 MHI 데이터를 취합한다. 공통정보 판단블록(125)은 취합된 복수의 MHI 데이터로부터 공통적으로 나타나는 공통정보를 추출한다. 공통정보 판단블록(125)은 추출된 공통정보를 특정 모션 방식에 대응하는 것으로 지정 및 저장한다. 공통정보 판단블록(125)가 복수의 MHI 데이터로부터 공통정보를 추출하는 구체적인 방법에 관해서는 후술한다.
이와 같은 구조에 따라서, 학습 과정 동안에 특정 모션 방식에 대응하는 공통정보가 도출된다.
한편, 판별 과정에서는 판별 대상의 영상에 대해 MHI 생성블록(121), 정규화 블록(122), 영역패턴 기반 처리블록(123), 영역패턴 DB(124)에 의한 처리가 수행되며, 구체적인 내용은 학습 과정의 경우에 준한다. 다만, 공통정보 판단블록(125)은 판별 과정에서 사용되지 않으며, 영역패턴 기반 처리블록(123)에 의해 처리된 MHI 데이터는 클래시파이어(126)에 전달된다.
클래시파이어(126)는 판별 과정에서 영역패턴 기반 처리블록(123)으로부터 전달되는 MHI 데이터에 기초하여, 영상 내의 모션이 어떠한 방식에 해당하는지 여부를 판별한다. 클래시파이어(126)는 판별 대상인 MHI 데이터가, 학습 과정에서 공통정보 판단블록(125)에 의해 도출된 공통정보를 포함하는지 여부를 판단하며, MHI 데이터가 공통정보를 포함한다고 판단하면 MHI 데이터의 소스가 되는 영상 내의 모션이 해당 공통정보에 대응하는 방식에 해당한다고 판별한다.
이러한 공통정보는 모션 방식 별로 공통정보 판단블록(125)에 의해 지정 및 저장되며, 스토리지(160, 도 2 참조)에 저장됨으로써 판별 과정에서 클래시파이어(126)에 의해 참조된다.
클래시파이어(126)에 적용되는 모델은 Bayes Classifier, Linear SVM(support vector machine), Kernel based SVM, Neural Network, Adaboost 등의 다양한 Machine Learning 알고리즘이 적용될 수 있으며, 이들 알고리즘은 공지된 기술이므로 자세한 설명을 생략한다. 예를 들어 검출 시 빠른 연산속도가 요구되는 경우에, 클래시파이어(126)는 Linear SVM이 적용되어 구현될 수 있다.
이하, 영역패턴에 관해 설명한다.
도 7은 영역패턴(210, 220, 230, 240, 250)의 예시도이다.
도 7에 도시된 바와 같이, 영역패턴(210, 220, 230, 240, 250)은 각기 상이한 형태의 패턴을 가지도록 복수 개가 마련된다. 영역패턴(210, 220, 230, 240, 250)의 각 패턴 형태는 설계 방식에 따라서 다양한 형태가 적용될 수 있는 바, 구체적인 형태가 본 발명의 사상을 한정하지 않는다.
하나의 영역패턴(210, 220, 230, 240, 250)은 행렬 배치된 복수의 분할영역(210a, 210b, 210c, 210d)으로 분할되며, 각 분할영역(210a, 210b, 210c, 210d)의 크기는 MHI의 하나 이상의 픽셀 크기에 대응한다. 여기서, 하나의 분할영역(210a, 210b, 210c, 210d)에 포함되는 MHI의 픽셀 수는 한정되지 않으며, 설계 방식에 따라서 다양한 수치가 결정될 수 있다.
그리고, 하나의 영역패턴(210, 220, 230, 240, 250)은 복수의 분할영역(210a, 210b, 210c, 210d) 중에서 일부를 포함하는 제1영역 및 나머지를 포함하는 제2영역으로 구성된다. 본 도면에서는 제1영역을 해칭하여 표현하고, 반면 제2영역은 해칭하지 않고 백색으로 표현함으로써 상호 구분하고 있다.
영역패턴(210, 220, 230, 240, 250)은 2x2, 3x3, 4x4 등의 정사각형의 형태나, 1x2, 2x3 등의 직사각형의 형태로 영역을 분할할 수 있다. 영역패턴(210, 220, 230, 240, 250)은 이와 같이 분할된 각 영역을 제1영역과 제2영역으로 구분하는데, 그 구분 방법은 다양한 형태가 적용될 수 있다. 다만, 복수의 영역패턴(210, 220, 230, 240, 250)은 각각 분할영역의 분할 형태와, 제1영역 및 제2영역의 지정 형태 중 적어도 어느 하나가 상이하다.
제1영역패턴(210)의 경우를 예를 들면, 제1영역패턴(210)은 2x2 방식으로 분할된 네 개의 분할영역(210a, 210b, 210c, 210d)을 포함한다. 여기서, 제1영역은 첫 번째 분할영역(210a)을 포함하고, 제2영역은 나머지 분할영역(210b, 210c, 210d)를 포함하도록 제1영역패턴(210)이 설정된다.
이하, MHI에 대해 영역패턴 별 연산을 수행함으로써 MHI 데이터를 도출하는 방법에 관해 설명한다.
도 8은 도 7의 제1영역패턴(210)으로 MHI(300)에 대한 제1영역패턴(210) 별 MHI 데이터를 도출하는 원리를 나타내는 예시도이다.
도 8에 도시된 바와 같이, 영역패턴 기반 처리블록(123, 도 6 참조)은 MHI(300)의 좌상측 영역에 제1영역패턴(210)을 마스킹(masking)한다. 마스킹이란 제1영역패턴(210)을 MHI(300)의 일 영역 상에 배치시킨다는 것을 의미한다.
영역패턴 기반 처리블록(123)은 제1영역패턴(210)의 제1영역(211)에 포함되는 MHI(300)의 픽셀의 평균 픽셀값과, 제2영역(212)에 포함되는 MHI(300)의 픽셀의 평균 픽셀값을 각각 산출한다. 제1영역(211)에 포함되는 MHI(300)의 픽셀의 평균 픽셀값을 a1, 제2영역(212)에 포함되는 MHI(300)의 픽셀의 평균 픽셀값을 a2라고 할 때, 영역패턴 기반 처리블록(123)은 a1 및 a2의 값을 상호 비교한다.
영역패턴 기반 처리블록(123)은, a1≥a2이면 MHI(300)의 마스킹된 영역에 대해 1을 부여하고, a1<a2이면 0을 부여한다. 설계 방식에 따라서는, 반대로 a1≥a2이면 MHI(300)의 마스킹된 영역에 대해 0을 부여하고, a1<a2이면 1을 부여하는 방법도 가능하다.
이러한 연산이 끝나면, 영역패턴 기반 처리블록(123)은 상기한 연산이 수행되지 않은 MHI(300)의 타 픽셀영역으로 제1영역패턴(210)의 마스킹 위치를 이동시키고 동일한 방법으로 연산을 수행한다. 이와 같이, 영역패턴 기반 처리블록(123)은 MHI(300)의 전체 픽셀영역에 대해 제1영역패턴(210)에 의한 연산을 수행함으로써 일련의 바이너리 코드를 얻을 수 있는데, 이 바이너리 코드가 제1영역패턴(210)에 의한 제1영역패턴(210) 별 MHI 데이터이다.
도 9는 도 7의 제2영역패턴(220)으로 MHI(300)에 대한 제2영역패턴(220) 별 MHI 데이터를 도출하는 원리를 나타내는 예시도이다.
도 9에 도시된 바와 같이, 영역패턴 기반 처리블록(123, 도 6 참조)은 MHI(300)의 좌상측 영역에 제2영역패턴(220)을 마스킹한다. 영역패턴 기반 처리블록(123)은 제2영역패턴(220)의 제1영역(221)에 포함되는 MHI(300)의 픽셀의 평균 픽셀값인 a1과, 제2영역(222)에 포함되는 MHI(300)의 픽셀의 평균 픽셀값인 a2를 각각 산출한다.
영역패턴 기반 처리블록(123)은 앞선 제1영역패턴(210)과 유사한 원리로, a1 및 a2의 값을 상호 비교한다. 영역패턴 기반 처리블록(123)은, a1≥a2이면 MHI(300)의 마스킹된 영역에 대해 1을 부여하고, a1<a2이면 0을 부여한다.
영역패턴 기반 처리블록(123)은 이러한 연산이 끝나면, 영역패턴 기반 처리블록(123)은 상기한 연산이 수행되지 않은 MHI(300)의 타 픽셀영역으로 제2영역패턴(220)의 마스킹 위치를 이동시키고 동일한 방법으로 연산을 수행한다. 영역패턴 기반 처리블록(123)은 MHI(300)의 전체 픽셀영역에 대해 제2영역패턴(220)에 의한 연산을 수행함으로써 일련의 바이너리 코드를 얻을 수 있는 바, 이 바이너리 코드가 제2영역패턴(220)에 의한 제2영역패턴(220) 별 MHI 데이터이다.
이러한 방법에 따라서, 영역패턴 기반 처리블록(123)은 MHI(300)에 대해 모든 영역패턴(210, 220, 230, 240, 250)에 의한 연산을 수행한다. 여기서, 영역패턴(210, 220, 230, 240, 250)의 형태 및 패턴에 무관하게, 영역패턴(210, 220, 230, 240, 250)에 의한 연산은 MHI(300)의 모든 픽셀들을 대상으로 수행된다. MHI(300)의 정규화 및 영역패턴(210, 220, 230, 240, 250)의 설정은 이러한 내용을 만족하는 범위 내에서 결정된다.
도 10은 각 영역패턴 별 MHI 데이터에 기초하여 생성된 최종 MHI 데이터의 예시도이다.
MHI에 대한 모든 영역패턴의 연산이 끝나면, 영역패턴 기반 처리블록(123, 도 6 참조)은 각 영역패턴 별 MHI 데이터(411, 412, 413)에 기초하여 해당 MHI의 최종 MHI 데이터(410)를 도출한다. 각 영역패턴 별 MHI 데이터(411, 412, 413)로부터 MHI 전체의 MHI 데이터(410)를 도출하는 방법은 다양하게 결정될 수 있는 바, 예를 들면 각 영역패턴 별 MHI 데이터를 일렬로 연결한 일련의 바이너리 코드가 MHI 데이터(410)로 결정될 수 있다.
영역패턴 기반 처리블록(123)은 각 MHI에 대한 MHI 데이터(410, 420, 430)를 순차적으로 공통정보 판단블록(125, 도 6 참조)에 전달한다.
공통정보 판단블록(125)은 복수의 MHI 데이터(410, 420, 430)의 각 코드를 동일한 영역패턴에 의한 MHI 데이터 단위로 상호 비교함으로써, 공통적으로 나타나는 코드가 있는지 또는 유사도가 높은 코드가 있는지 판단한다.
유사도가 높은지 여부를 판단하는 방법은 다양하게 결정될 수 있다. 예를 들면 공통정보 판단블록(125)은 MHI 데이터(410, 420, 430) 각각의 제1영역패턴 별 MHI 데이터(411, 421, 431)을 서로 비교한다. 공통정보 판단블록(125)은 판단 결과, 동일한 바이너리 값을 나타내는 빈도가 기 설정된 문턱값 이상이면 유사도가 높거나 또는 코드가 대체적으로 공통적으로 나타난다고 판단할 수 있다. 반면, 공통정보 판단블록(125)은 동일한 바이너리 값을 나타내는 빈도가 문턱값 미만이면 유사도가 낮거나 또는 코드가 공통적으로 나타나지 않는다고 판단할 수 있다.
공통정보 판단블록(125)은 이와 같은 방법으로 동일한 영역패턴에 의해 생성된 MHI 데이터를 상호 비교하여 유사도를 판단하고, 유사도가 높다고 판단되는 영역패턴 및 코드 내용을 모션 방식에 대응하도록 저장한다.
예를 들어 제1영역패턴에 의한 MHI 데이터(411, 421, 431)의 유사도가 낮고, 제2영역패턴에 의한 MHI 데이터(412, 422, 432)의 유사도 및 제3영역패턴에 의한 MHI 데이터(413, 423, 433)의 유사도가 높은 경우를 고려할 수 있다. 이 경우에, 공통정보 판단블록(125)은 제2영역패턴 및 제3영역패턴이 학습 대상이 되는 모션 방식에 대응하는 것으로 판단하고, 제2영역패턴 및 제3영역패턴의 바이너리 코드를 특정 모션 방식의 MHI 데이터에 공통적으로 나타나는 공통정보로서 저장한다.
저장되는 바이너리 코드는 각 MHI의 바이너리 코드가 모두 선택될 수 있고, 어느 하나만 선택될 수 있고, 또는 각 MHI의 바이너리 코드를 기 설정된 함수에 따라서 상호 연산한 결과값이 선택될 수도 있다.
이러한 방법에 따라서, 본 실시예에 따른 디스플레이장치(100)는 학습 과정에서 소정의 모션 방식에 대응하는 MHI 데이터 관련 공통정보를 취득할 수 있다.
이하, 본 발명의 실시예에 따른 디스플레이장치(100)의 소정 모션 방식에 대한 학습 과정에 관해 설명한다.
도 11은 디스플레이장치(100)의 소정 모션 방식에 대한 학습 과정을 나타내는 플로우차트이다.
도 11에 도시된 바와 같이, S100 단계에서, 디스플레이장치(100)는 학습 대상이 되는 소정 방식의 모션을 포함하는 복수의 영상을 수신한다. 여기서 수신되는 복수의 영상은, 하나 이상의 사용자가 특정 방식에 따라서 취한 모션을 포함하는 영상이다.
S110 단계에서, 디스플레이장치(100)는 일 영상을 MHI로 변환한다. S120 단계에서, 디스플레이장치(100)는 변환된 MHI를 정규화한다. S130 단계에서, 디스플레이장치(100)는 정규화된 MHI에 대해 복수의 기 설정된 영역패턴에 의한 연산을 각각 수행한다. S140 단계에서, 디스플레이장치(100)는 각 영역패턴 별 연산 결과에 기초하여 MHI 데이터를 취득한다.
S150 단계에서, 디스플레이장치(100)는 MHI 데이터가 도출되지 않은 영상이 있는지 판단한다. 디스플레이장치(100)는 S100 단계에서 수신한 복수의 영상 중에서 MHI 데이터가 도출되지 않은 영상이 있으면, 해당 영상에 대하여 S110 단계 내지 S140 단계를 수행함으로써 MHI 데이터를 취득한다.
S100 단계에서 수신한 복수의 영상 모두에 대해 MHI 데이터가 도출되었다면, S160 단계에서 디스플레이장치(100)는 복수의 영상 각각의 MHI 데이터에서 공통적으로 나타나는 코드, 또는 각 MHI 데이터에서 상호 유사도가 높다고 판단되는 위치의 코드인 공통정보를 도출한다.
S170 단계에서, 디스플레이장치(100)는 도출한 공통정보를 저장하고 학습 과정을 종료한다.
이하, 본 발명의 실시예에 따른 디스플레이장치(100)의 소정 모션에 대한 모션 방식을 판별하는 판별 과정에 관해 설명한다. 본 판별 과정은 앞선 학습 과정 이후에 수행된다.
도 12는 디스플레이장치(100)의 소정 모션에 대한 판별 과정을 나타내는 플로우차트이다.
도 12에 도시된 바와 같이, S200 단계에서 디스플레이장치(100)는 판별 대상의 영상을 수신한다. 본 영상은 카메라(150, 도 2 참조)에 의해 촬영됨으로써 생성된다.
S210 단계에서, 디스플레이장치(100)는 해당 영상을 MHI로 변환한다. S220 단계에서, 디스플레이장치(100)는 MHI를 정규화한다. S230 단계에서, 디스플레이장치(100)는 MHI에 대해 복수의 영역패턴에 의한 연산을 각각 수행한다. S240 단계에서, 디스플레이장치(100)는 연산 결과로부터 MHI 데이터를 취득한다.
S210 내지 S240 단계에서 실행되는 처리 동작은, 앞선 도 11의 학습 과정에서의 S110 내지 S140 단계에서의 처리 동작과 실질적으로 동일한 원리에 따라서 수행된다. 즉, 판별 과정에서 수행되는 MHI 변환 방법, 정규화 방법, 영역패턴에 의한 연산은 학습 과정과 실질적으로 동일한 방법에 따라서 수행된다.
S250 단계에서, 디스플레이장치(100)는 MHI 데이터가 기 저장된 공통정보와 동일 내지 유사한 코드를 포함하는지 여부를 포함한다. MHI 데이터가 공통정보와 완전히 동일한 코드를 포함할 수도 있지만 실제로 이러한 경우는 많지 않다. 따라서, MHI 데이터가 공통정보와 기 설정된 오차범위 내의 차이를 나타낸다면, MHI 데이터가 실질적으로 공통정보를 포함한다고 판단할 수 있다.
MHI 데이터가 공통정보를 포함하는 것으로 판단되면, S260 단계에서 디스플레이장치(100)는 영상의 모션이 해당 공통정보에 대응하는 것으로 지정된 방식인 것으로 판별한다. 반면, MHI 데이터가 기 저장된 어떠한 공통정보를 포함하지 않는다고 판단하면, 사용자에게 판단 결과를 알리거나 또는 별도의 기 설정된 프로세스를 진행할 수도 있다.
이러한 방법에 따라서, 디스플레이장치(100)는 학습된 결과에 기초하여 영상 내의 모션 방식을 판별할 수 있다.
한편, 앞선 실시예에서는 MHI에 대해 복수의 영역패턴에 의한 연산을 수행함으로써 해당 MHI의 MHI 데이터를 도출하는 방법에 관해 설명하였다. 그러나, 판별 과정에서의 판별의 정확도를 높이기 위해, MHI 데이터의 생성 과정에서 별도의 패러미터를 추가시키는 방법도 가능하다.
이하, 이러한 실시예에 관해 설명한다.
도 13은 본 발명의 제2실시예에 따른 프로세서(520)의 구성 블록도이다.
도 13에 도시된 바와 같이, 본 실시예에 따른 프로세서(520)는 MHI 생성블록(521), 정규화 블록(522), 영역패턴 기반 처리블록(523), 영역패턴 DB(524), 에지 검출 블록(527), 공통정보 판단 블록(525), 클래시파이어(526)를 포함한다. 에지 검출 블록(527)을 포함한 프로세서(520)의 나머지 구성요소들은 앞선 도 6에서 나타난 동일 명칭의 구성요소들과 실질적으로 동일한 기능을 수행하는 바, 자세한 설명을 생략한다.
에지 검출 블록(527)은 MHI에 대한 영역패턴의 마스킹 및 연산 과정에서, 각 영역패턴의 분할영역 별로 크기 또는 방향에 관한 에지(edge) 정보를 산출하고, 산출된 에지 정보를 MHI 데이터에 추가시킬 수 있다. 에지 추출 알고리즘으로는 프리윗(Prewitt), 로버츠(Roberts), 컴퍼스(Compass), 라플라시안(Laplacian), 가우시안-라플라시안(Laplacian of Gaussian, LoG), 캐니(Canny) 등 다양한 방식이 적용될 수 있다.
예를 들면, 에지 정보의 추출 결과 도출되는 방향 각도를 기 설정된 각도 범위에 따라서 0, 1, 2, 3과 같은 정수로 나타낼 수 있다. 예를 들어 영역패턴이 2x2의 분할영역을 포함한다고 할 때, MHI의 일 마스킹 영역에 대한 영역패턴 연산 결과가 1이고, 각 분할영역 별 에지 정보값이 3, 0, 1, 1이라고 하면, 해당 마스킹 영역에 대한 MHI 데이터는 1 (3, 0, 1, 1)이라는 일련의 코드가 도출될 수 있다.
다만, 이러한 방법은 하나의 예시일 뿐 인 바, 설계 방식에 따라서 다양한 패러미터가 MHI 데이터에 추가될 수 있다.
이후 학습 과정에서 공통정보를 도출하는 방법과, 판별 과정에서 판별을 수행하는 방법은 앞선 실시예를 응용할 수 있는 바, 자세한 설명을 생략한다.
상기한 실시예는 예시적인 것에 불과한 것으로, 당해 기술 분야의 통상의 지식을 가진 자라면 다양한 변형 및 균등한 타 실시예가 가능하다. 따라서, 본 발명의 진정한 기술적 보호범위는 하기의 특허청구범위에 기재된 발명의 기술적 사상에 의해 정해져야 할 것이다.
100 : 디스플레이장치
110 : 통신 인터페이스
120 : 프로세서
121 : MHI 생성블록
122 : 정규화 블록
123 : 영역패턴 기반 처리블록
124 : 영역패턴 DB
125 : 공통정보 판단블록
126 : 클래시파이어
130 : 디스플레이
140 : 사용자 인터페이스
150 : 카메라
160 : 스토리지
170 : 컨트롤러

Claims (20)

  1. 영상처리장치에 있어서,
    오브젝트를 촬영하는 카메라와;
    상기 카메라에 의해 촬영된 영상 내에서의 상기 오브젝트의 모션 방식을 판별하는 프로세서와;
    소정의 제1방식에 따라서 복수 회 수행된 모션을 각기 촬영한 복수의 제1영상을 각각 MHI(motion history image)로 변환하고 상기 각각의 MHI로부터 기 설정된 알고리즘에 따라서 산출된 각각의 MHI 데이터에서 공통적으로 나타나는 데이터를 공통정보로 취득하며, 상기 카메라로부터 제2영상이 전달되는 경우에 상기 제2영상의 MHI 데이터가 상기 공통정보를 포함하는 것으로 판단되면 상기 제2영상에서 발생하는 모션이 상기 제1방식에 해당하는 것으로 판별하도록 상기 프로세서를 제어하는 컨트롤러를 포함하는 것을 특징으로 하는 영상처리장치.
  2. 제1항에 있어서,
    복수의 기 설정된 영역패턴이 저장된 스토리지를 더 포함하며,
    상기 컨트롤러는, 상기 MHI의 전체 픽셀영역을 상기 복수의 영역패턴 중 제1영역패턴에 대응하게 분할하고 상기 분할된 각 픽셀영역마다 상기 제1영역패턴과의 연산을 수행함으로써 상기 제1영역패턴 별 연산데이터를 산출하며, 상기 MHI에 대해 상기 복수의 영역패턴 별로 산출된 각각의 상기 연산데이터 전체에 기초하여 상기 MHI 데이터를 산출하는 것을 특징으로 하는 영상처리장치.
  3. 제2항에 있어서,
    상기 컨트롤러는, 상기 영역패턴 별 MHI 데이터를 일렬로 연결함으로써 상기 MHI 데이터를 생성하는 것을 특징으로 하는 영상처리장치.
  4. 제2항에 있어서,
    하나의 상기 영역패턴은 행렬 배치된 복수의 분할영역을 포함하며, 상기 복수의 분할영역 중 일부를 포함하는 제1영역 및 상기 복수의 분할영역 중 나머지를 포함하는 제2영역으로 구분되고,
    상기 복수의 영역패턴 각각은 상기 분할영역의 분할 형태와, 상기 제1영역 및 상기 제2영역의 구분 형태 중 적어도 어느 하나가 상이한 것을 특징으로 하는 영상처리장치.
  5. 제4항에 있어서,
    상기 분할영역의 크기는 상기 MHI의 하나 이상의 픽셀 크기에 대응하는 것을 특징으로 하는 영상처리장치.
  6. 제2항에 있어서,
    하나의 상기 영역패턴은 행렬 배치된 복수의 분할영역을 포함하며, 상기 복수의 분할영역 중 일부를 포함하는 제1영역 및 상기 복수의 분할영역 중 나머지를 포함하는 제2영역으로 구분되고,
    상기 컨트롤러는, 상기 제1영역의 평균 픽셀값 및 상기 제2영역의 평균 픽셀값의 비교 결과에 따라서 선택적으로 바이너리 값을 적용함으로써 상기 각 픽셀영역에 대한 상기 연산데이터를 산출하는 것을 특징으로 하는 영상처리장치.
  7. 제6항에 있어서,
    상기 컨트롤러는, 상기 분할영역 별로 상기 분할영역 내의 픽셀들에 대한 에지 정보를 산출하여 상기 연산데이터에 부가하는 것을 특징으로 하는 영상처리장치.
  8. 제2항에 있어서,
    상기 컨트롤러는, 상기 복수의 제1영상 각각으로부터 산출된 복수의 상기 MHI 데이터의 바이너리 코드를 상호 비교하여 유사도가 높은 코드가 있는지 판단하고,
    상기 유사도가 높다고 판단되는 코드를 상기 제1방식의 상기 공통정보로 판단하는 것을 특징으로 하는 영상처리장치.
  9. 제8항에 있어서,
    상기 컨트롤러는, 상기 복수의 MHI 데이터의 상호 대응하는 위치 구간에서 동일한 바이너리 값을 나타내는 빈도가 기 설정된 문턱값 이상이면 상기 위치 구간의 코드가 유사도가 높다고 판단하는 것을 특징으로 하는 영상처리장치.
  10. 제1항에 있어서,
    상기 컨트롤러는, 상기 복수의 제1영상 및 상기 제2영상 각각의 상기 MHI들을 기 설정된 크기 또는 해상도로 정규화시키고, 정규화된 상기 MHI들로부터 각기 상기 MHI 데이터를 산출하는 것을 특징으로 하는 영상처리장치.
  11. 영상처리장치의 제어방법에 있어서,
    소정의 제1방식에 따라서 복수 회 수행된 모션을 각기 촬영한 복수의 제1영상을 각각 MHI로 변환하는 단계와;
    상기 각각의 MHI로부터 기 설정된 알고리즘에 따라서 산출된 각각의 MHI 데이터에서 공통적으로 나타나는 데이터를 공통정보로 취득하는 단계와;
    카메라에 의해 촬영된 제2영상을 수신하여 MHI로 변환하는 단계와;
    상기 제2영상의 MHI 데이터가 상기 공통정보를 포함하는 것으로 판단되면 상기 제2영상에서 발생하는 모션이 상기 제1방식에 해당하는 것으로 판별하는 단계를 포함하는 것을 특징으로 하는 영상처리장치의 제어방법.
  12. 제11항에 있어서,
    상기 공통정보의 취득 단계는,
    상기 MHI의 전체 픽셀영역을 복수의 기 설정된 영역패턴 중 제1영역패턴에 대응하게 분할하고 상기 분할된 각 픽셀영역마다 상기 제1영역패턴과의 연산을 수행함으로써 상기 제1영역패턴 별 연산데이터를 산출하는 단계와;
    상기 MHI에 대해 상기 복수의 영역패턴 별로 산출된 각각의 상기 연산데이터 전체에 기초하여 상기 MHI 데이터를 산출하는 단계를 포함하는 것을 특징으로 하는 영상처리장치의 제어방법.
  13. 제12항에 있어서,
    상기 MHI 데이터는, 상기 영역패턴 별 MHI 데이터를 일렬로 연결함으로써 생성되는 것을 특징으로 하는 영상처리장치의 제어방법.
  14. 제12항에 있어서,
    하나의 상기 영역패턴은 행렬 배치된 복수의 분할영역을 포함하며, 상기 복수의 분할영역 중 일부를 포함하는 제1영역 및 상기 복수의 분할영역 중 나머지를 포함하는 제2영역으로 구분되고,
    상기 복수의 영역패턴 각각은 상기 분할영역의 분할 형태와, 상기 제1영역 및 상기 제2영역의 구분 형태 중 적어도 어느 하나가 상이한 것을 특징으로 하는 영상처리장치의 제어방법.
  15. 제14항에 있어서,
    상기 분할영역의 크기는 상기 MHI의 하나 이상의 픽셀 크기에 대응하는 것을 특징으로 하는 영상처리장치의 제어방법.
  16. 제12항에 있어서,
    하나의 상기 영역패턴은 행렬 배치된 복수의 분할영역을 포함하며, 상기 복수의 분할영역 중 일부를 포함하는 제1영역 및 상기 복수의 분할영역 중 나머지를 포함하는 제2영역으로 구분되고,
    상기 연산데이터를 산출하는 단계는, 상기 제1영역의 평균 픽셀값 및 상기 제2영역의 평균 픽셀값의 비교 결과에 따라서 선택적으로 바이너리 값을 적용함으로써 상기 각 픽셀영역에 대한 상기 연산데이터를 산출하는 단계를 포함하는 것을 특징으로 하는 영상처리장치의 제어방법.
  17. 제16항에 있어서,
    상기 연산데이터를 산출하는 단계는, 상기 분할영역 별로 상기 분할영역 내의 픽셀들에 대한 에지 정보를 산출하여 상기 연산데이터에 부가하는 단계를 더 포함하는 것을 특징으로 하는 영상처리장치의 제어방법.
  18. 제12항에 있어서,
    상기 공통정보의 취득 단계는,
    상기 복수의 제1영상 각각으로부터 산출된 복수의 상기 MHI 데이터의 바이너리 코드를 상호 비교하여 유사도가 높은 코드가 있는지 판단하고, 상기 유사도가 높다고 판단되는 코드를 상기 제1방식의 상기 공통정보로 판단하는 단계를 포함하는 것을 특징으로 하는 영상처리장치의 제어방법.
  19. 제18항에 있어서,
    상기 공통정보의 판단 단계는,
    상기 복수의 MHI 데이터의 상호 대응하는 위치 구간에서 동일한 바이너리 값을 나타내는 빈도가 기 설정된 문턱값 이상이면 상기 위치 구간의 코드가 유사도가 높다고 판단하는 단계를 포함하는 것을 특징으로 하는 영상처리장치의 제어방법.
  20. 제11항에 있어서,
    상기 공통정보의 취득 단계는,
    상기 복수의 제1영상 및 상기 제2영상 각각의 상기 MHI들을 기 설정된 크기 또는 해상도로 정규화시키고, 정규화된 상기 MHI들로부터 각기 상기 MHI 데이터를 산출하는 단계를 포함하는 것을 특징으로 하는 영상처리장치의 제어방법.
KR20130122706A 2013-10-15 2013-10-15 영상처리장치 및 그 제어방법 KR20150043818A (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR20130122706A KR20150043818A (ko) 2013-10-15 2013-10-15 영상처리장치 및 그 제어방법
PCT/KR2014/008863 WO2015056894A1 (en) 2013-10-15 2014-09-24 Image processing apparatus and control method thereof
EP14854368.9A EP3047654A4 (en) 2013-10-15 2014-09-24 Image processing apparatus and control method thereof
US14/506,851 US9477684B2 (en) 2013-10-15 2014-10-06 Image processing apparatus and control method using motion history images

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR20130122706A KR20150043818A (ko) 2013-10-15 2013-10-15 영상처리장치 및 그 제어방법

Publications (1)

Publication Number Publication Date
KR20150043818A true KR20150043818A (ko) 2015-04-23

Family

ID=52809716

Family Applications (1)

Application Number Title Priority Date Filing Date
KR20130122706A KR20150043818A (ko) 2013-10-15 2013-10-15 영상처리장치 및 그 제어방법

Country Status (4)

Country Link
US (1) US9477684B2 (ko)
EP (1) EP3047654A4 (ko)
KR (1) KR20150043818A (ko)
WO (1) WO2015056894A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105336074A (zh) * 2015-10-28 2016-02-17 小米科技有限责任公司 报警方法及装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6654483B1 (en) * 1999-12-22 2003-11-25 Intel Corporation Motion detection using normal optical flow
US20060018516A1 (en) * 2004-07-22 2006-01-26 Masoud Osama T Monitoring activity using video information
JP4904264B2 (ja) 2004-07-30 2012-03-28 エクストリーム リアリティー エルティーディー. 3d空間次元に基づく画像処理のためのシステムおよび方法
WO2008083205A2 (en) * 2006-12-29 2008-07-10 Gesturetek, Inc. Manipulation of virtual objects using enhanced interactive system
US8483431B2 (en) * 2008-05-27 2013-07-09 Samsung Electronics Co., Ltd. System and method for estimating the centers of moving objects in a video sequence
US8553931B2 (en) * 2009-02-11 2013-10-08 Samsung Electronics Co., Ltd. System and method for adaptively defining a region of interest for motion analysis in digital video
US20110289455A1 (en) 2010-05-18 2011-11-24 Microsoft Corporation Gestures And Gesture Recognition For Manipulating A User-Interface
US8792722B2 (en) * 2010-08-02 2014-07-29 Sony Corporation Hand gesture detection
US8750573B2 (en) * 2010-08-02 2014-06-10 Sony Corporation Hand gesture detection
KR20120089948A (ko) 2010-12-30 2012-08-16 인제대학교 산학협력단 Mhi의 형태 정보를 이용한 실시간 동작 인식시스템 및 실시간 동작 인식 방법
CN103946863A (zh) 2011-11-01 2014-07-23 英特尔公司 基于动态姿态的短距离人机交互

Also Published As

Publication number Publication date
US20150104077A1 (en) 2015-04-16
WO2015056894A1 (en) 2015-04-23
EP3047654A4 (en) 2017-05-17
US9477684B2 (en) 2016-10-25
EP3047654A1 (en) 2016-07-27

Similar Documents

Publication Publication Date Title
CN108229277B (zh) 手势识别、手势控制及多层神经网络训练方法、装置及电子设备
US9501693B2 (en) Real-time multiclass driver action recognition using random forests
EP2864933B1 (en) Method, apparatus and computer program product for human-face features extraction
US10891473B2 (en) Method and device for use in hand gesture recognition
CN113286194A (zh) 视频处理方法、装置、电子设备及可读存储介质
CN110084299B (zh) 基于多头融合注意力的目标检测方法和装置
KR20200118076A (ko) 생체 검출 방법 및 장치, 전자 기기 및 저장 매체
US20230082789A1 (en) Methods and systems for hand gesture-based control of a device
EP3992908A1 (en) Two-stage depth estimation machine learning algorithm and spherical warping layer for equi-rectangular projection stereo matching
KR101173559B1 (ko) 비디오 동영상의 움직이는 다중 객체 자동 분할 장치 및 방법
CN111192277A (zh) 一种实例分割的方法及装置
CN111783665A (zh) 一种动作识别方法、装置、存储介质和电子设备
CN111667001A (zh) 目标重识别方法、装置、计算机设备和存储介质
WO2021090771A1 (en) Method, apparatus and system for training a neural network, and storage medium storing instructions
CN112926461B (zh) 神经网络训练、行驶控制方法及装置
CN103105924A (zh) 人机交互方法和装置
CN115512251A (zh) 基于双分支渐进式特征增强的无人机低照度目标跟踪方法
US20220291755A1 (en) Methods and systems for hand gesture-based control of a device
EP3992909A1 (en) Two-stage depth estimation machine learning algorithm and spherical warping layer for equi-rectangular projection stereo matching
JP2017033556A (ja) 画像処理方法及び電子機器
KR102465437B1 (ko) 인공지능 기반 객체 추적 장치 및 방법
WO2023137923A1 (zh) 基于姿态指导的行人重识别方法、装置、设备及存储介质
KR20150043818A (ko) 영상처리장치 및 그 제어방법
CN111062311B (zh) 一种基于深度级可分离卷积网络的行人手势识别与交互方法
CN111539420B (zh) 基于注意力感知特征的全景图像显著性预测方法及系统

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application