KR20210141688A

KR20210141688A - 제스처 제어 방법 및 장치

Info

Publication number: KR20210141688A
Application number: KR1020217034498A
Authority: KR
Inventors: 빈 젱; 친 시아오
Original assignee: 상하이 센스타임 인텔리전트 테크놀로지 컴퍼니 리미티드
Priority date: 2019-10-22
Filing date: 2020-07-29
Publication date: 2021-11-23
Also published as: JP2022520030A; JP7479388B2; CN110716648B; WO2021077840A1; CN110716648A

Abstract

본 발명의 실시예는 제스처 제어 방법 및 장치를 제공한다. 상기 제스처 제어 방법은, 카메라에 의해 수집된 비디오 스트림 중 연속적인 타임 시퀀스를 갖는 N 프레임의 이미지에 대해 제스처 인식 처리를 각각 수행하여, 제스처 인식 결과 시퀀스를 얻는 단계 - 상기 제스처 인식 결과 시퀀스는 상기 N 프레임의 이미지에 포함된 복수 개의 제스처의 인식 결과를 포함함 - ; 상기 제스처 인식 결과 시퀀스에 포함된 동일한 제스처 인식 결과의 개수가 M보다 크거나 같은 것에 응답하여, 상기 동일한 제스처 인식 결과가 타깃 제스처 인식 결과인 것으로 결정하는 단계 - N 및 M은 모두 1보다 큰 정수이며, N은 M보다 크거나 같음 - ; 및 상기 타깃 제스처 인식 결과에 대응하는 제어 명령어를 타깃 기기로 송신하거나, 타깃 기기가 상기 타깃 제스처 인식 결과에 대응하는 동작을 실행하도록 제어하는 단계를 포함한다.

Description

제스처 제어 방법 및 장치

관련 출원의 상호 참조

본 출원은 출원 번호가 CN201911008049.0이고, 출원일이 2019년 10월 22일인 중국 특허 출원에 기반하여 제출하였고, 상기 중국 특허 출원의 우선권을 주장하는 바, 상기 중국 특허 출원의 모든 내용은 참조로서 본 출원에 인용된다.

본 발명은 컴퓨터 비전 기술에 관한 것으로, 구체적으로 제스처 제어 방법 및 장치에 관한 것이다.

제품 인텔리전스, 전자화 및 상호 연결의 지속적인 발전으로 개인화 및 패션 요구에 대한 사람들의 추구를 충족시키기 위해 점점 더 많은 인텔리전스 인간-컴퓨터 상호 작용 방법이 등장하였다. 예를 들어, 스마트 폰의 터치 스크린은 터치로 구현되는 인간-컴퓨터 상호 작용 시스템이다. 일부 음성 인터랙션을 통해 제어되는 제품도 존재하고, 예를 들어, 사용자는 음성으로 관련 지시를 입력하고, 제품은 음성 입력 명령어에 따라 관련 작업을 수행한다.

본 발명의 실시예는 적어도 하나의 제스처 제어 방법 및 장치를 제공한다.

본 발명의 제1 측면에 따르면, 제스처 제어 방법을 제공하며, 상기 제스처 제어 방법은, 카메라에 의해 수집된 비디오 스트림 중 연속적인 타임 시퀀스를 갖는 N 프레임의 이미지에 대해 제스처 인식 처리를 각각 수행하여, 제스처 인식 결과 시퀀스를 얻는 단계 - 상기 제스처 인식 결과 시퀀스는 상기 N 프레임의 이미지에 포함된 복수 개의 제스처의 인식 결과를 포함함 - ; 상기 제스처 인식 결과 시퀀스에 포함된 동일한 제스처 인식 결과의 개수가 M보다 크거나 같은 것에 응답하여, 상기 동일한 제스처 인식 결과가 타깃 제스처 인식 결과인 것으로 결정하는 단계 - N 및 M은 모두 1보다 큰 정수이며, N은 M보다 크거나 같음 - ; 및 상기 타깃 제스처 인식 결과에 대응하는 제어 명령어를 타깃 기기로 송신하거나, 타깃 기기가 상기 타깃 제스처 인식 결과에 대응하는 동작을 실행하도록 제어하는 단계를 포함한다.

본 발명의 제2 측면에 따르면, 제스처 제어 장치를 제공하며, 상기 제스처 제어 장치는, 카메라에 의해 수집된 비디오 스트림 중 연속적인 타임 시퀀스를 갖는 N 프레임의 이미지에 대해 제스처 인식 처리를 각각 수행하여, 제스처 인식 결과 시퀀스를 얻기 위한 인식 처리 모듈 - 상기 제스처 인식 결과 시퀀스는 상기 N 프레임의 이미지에 포함된 복수 개의 제스처의 인식 결과를 포함함 - ; 상기 제스처 인식 결과 시퀀스에 포함된 동일한 제스처 인식 결과의 개수가 M보다 크거나 같은 것에 응답하여, 상기 동일한 제스처 인식 결과가 타깃 제스처 인식 결과인 것으로 결정하기 위한 제스처 결정 모듈 - N 및 M은 모두 1보다 큰 정수이며, N은 M보다 크거나 같음 - ; 및 상기 타깃 제스처 인식 결과에 대응하는 제어 명령어를 타깃 기기로 송신하거나, 타깃 기기가 상기 타깃 제스처 인식 결과에 대응하는 동작을 실행하도록 제어하기 위한 동작 제어 모듈을 포함한다.

본 발명의 제3 측면에 따르면, 전자 기기를 제공하며, 상기 전자 기기는 프로세서 및 컴퓨터 프로그램이 저장된 메모리를 포함하며, 상기 컴퓨터 프로그램은 상기 프로세서에 의해 실행 가능함으로써, 본 발명의 제1 측면에 따른 제스처 제어 방법을 구현한다.

본 발명의 제4 측면에 따르면, 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능 저장 매체를 제공하며, 상기 컴퓨터 프로그램이 프로세서에 의해 실행될 때 본 발명의 제1 측면에 따른 제스처 제어 방법을 구현한다.

본 발명의 실시예에 의해 제공되는 제스처 제어 방법 및 장치에 따르면, 기설정된 개수의 동일한 제스처 인식 결과가 획득된 것으로 결정되는 경우에만, 상기 제스처가 유효한 것을 확인하고, 상기 유효한 제스처를 타깃 제스처 인식 결과로 결정하므로, 제스처의 잘못된 트리거링을 어느 정도 피함으로써, 제스처 인식의 정확성을 향상시킬 수 있다. 예컨대, 사용자가 실수로 특정 제스처를 취한 경우, 상기 제스처에 대응하는 동일한 제스처 인식 결과가 기설정된 개수에 도달하지 않으면, 상기 제스처는 유효한 타깃 제스처 인식 결과로 인정되지 않으므로, 타깃 기기가 상기 제스처에 응답을 주지 않도록 하여, 잘못된 트리거링을 감소시킨다.

도 1은 본 발명의 적어도 하나의 실시예에 따른 제스처 제어 방법 흐름도를 도시한다.
도 1a는 본 발명의 적어도 하나의 실시예에 따른 정적 제스처의 모식도를 도시한다.
도 1b는 본 발명의 적어도 하나의 실시예에 따른 동적 제스처 모식도를 도시한다.
도 2는 본 발명의 적어도 하나의 실시예에 따른 다른 제스처 제어 방법 흐름도를 도시한다.
도 3은 본 발명의 적어도 하나의 실시예에 따른 또 다른 제스처 제어 방법 흐름도를 도시한다.
도 4는 본 발명의 적어도 하나의 실시예에 따른 음악 플레이어의 기능 인터페이스 모식도를 도시한다.
도 5는 본 발명의 적어도 하나의 실시예에 따른 제스처 제어 장치의 블록도를 도시한다.
도 6은 본 발명의 적어도 하나의 실시예에 따른 다른 제스처 제어 장치의 블록도를 도시한다.
도 7은 본 발명의 적어도 하나의 실시예에 따른 전자 기기의 블록도를 도시한다.

본 발명의 실시예는 제스처 인터랙션의 방식을 통해 기기를 제어하는 제스처 제어 방법을 제공한다.

도 1은 본 발명의 적어도 하나의 실시예에 따른 제스처 제어 방법 흐름도를 도시하며, 상기 제스처 제어 방법은 제스처 제어 장치에 의해 실행되며, 상기 제스처 제어 방법은 단계 100 내지 단계 104를 포함할 수 있다.

단계 100에서, 카메라에 의해 수집된 비디오 스트림 중 연속적인 타임 시퀀스를 갖는 N 프레임의 이미지에 대해 제스처 인식 처리를 각각 수행하여, 제스처 인식 결과 시퀀스를 얻는다.

사용자가 상기 기기 중의 특정 기능을 시작하는 것과 같이 하나의 기기를 제어하려는 경우, 특정 제스처를 취할 수 있다. 상기 기기는 타깃 기기로 지칭될 수 있고, 타깃 기기를 제어하는 것은 상기 타깃 기기 중의 기능 컴포넌트를 제어하는 것일 수 있고, 상기 기능 컴포넌트는 하드웨어 또는 소프트웨어 모듈일 수 있다. 일 예에서, 상기 타깃 기기는 차량을 포함하나 이에 한정되지 않고, 타깃 기기를 제어하는 것은, 차량에 설치된 미디어 플레이어, 에어컨 컨트롤러, 자동차 창문 컨트롤러와 같은 하나 또는 복수 개의 기능 컴포넌트를 제어하는 것을 포함할 수 있지만 이에 한정되지 않는다. 이해할 수 있는 것은, 상기 타깃 기기는 휴대폰, TV, 에어컨, 스테레오 및 스마트 홈과 같은 다른 애플리케이션 기기를 더 포함할 수 있다.

본 단계에서, 카메라는 사용자가 제스처를 취하는 비디오 스트림을 수집하는데 사용될 수 있으며. 예를 들어, 타깃 기기에 장착된 카메라를 사용하여 수집할 수 있다. 상기 비디오 스트림은 카메라에 의해 수집된 연속적인 타임 시퀀스를 갖는 N 프레임의 이미지를 포함하고, 상기 이미지에서의 제스처는 사용자가 타깃 기기 중의 기능 컴포넌트 작동을 제어하려는 경우에 취하는 제스처이다. N은 1보다 큰 정수이다.

전술한 비디오 스트림에서의 N 프레임의 이미지에 대해 제스처 인식 처리를 각각 수행함으로써, 제스처 인식 결과 시퀀스를 얻을 수 있으며, 상기 제스처 인식 결과 시퀀스는 복수 개의 제스처의 인식 결과를 포함한다.

사용자가 취하는 제스처는 정적 제스처이거나, 동적 제스처일 수 있다. 도 1a 및 도 1b는 일부 제스처를 도시하였으나, 이해할 수 있는 것은, 실제 구현에서 이러한 제스처에 한정되지 않는다. 예시적으로, 도 1a는 OK 제스처, V 제스처, 좋아요 제스처, 손바닥 제스처, 검지 제스처 및 바위 제스처 등 일련의 정적 제스처를 도시한다. 예시적으로, 도 1b는 바위을 쥐었다 펴기 반복(바위에서 보로, 보에서 바위로), 손바닥 수평 이동(위, 아래, 왼쪽, 오른쪽), 검지 회전(시계 방향, 시계 반대 방향)과 같은 일련의 정적 제스처를 도시한다.

예를 들어, 상기 제스처 인식 결과 시퀀스에 포함된 복수 개의 제스처의 인식 결과는 정적 제스처일 수 있으며, 예컨대, 이미지에서의 제스처가 V 제스처인 것으로 인식하거나, 이미지에서의 제스처가 OK 제스처인 것으로 인식한다.

또 예를 들어, N 프레임의 이미지에 대해 제스처 인식 처리를 수행하여, 획득된 제스처 인식 결과 시퀀스는 복수 개의 동적 제스처를 더 포함할 수 있으며, 예컨대, 복수 개의 “손바닥 수평 이동” 제스처를 인식한다.

또 다른 예를 들어, 상기 제스처 인식 결과 시퀀스는 정적 제스처 및 동적 제스처의 조합을 더 포함할 수 있으며, 예컨대, 제스처 인식 결과 시퀀스는 OK 제스처 및 손바닥 수평 이동 제스처를 포함한다.

본 단계 중의 제스처 인식은 예를 들어 사전 훈련된 제스처 인식 신경망을 통해 실행될 수 있으며, 카메라에 의해 수집하여 얻은 이미지를 상기 신경망에 입력하여, 상기 이미지에 대응하는 제스처 인식 결과를 얻을 수 있다.

단계 102에서, 상기 제스처 인식 결과 시퀀스에 포함된 동일한 제스처 인식 결과의 개수가 M보다 크거나 같은 것에 응답하여, 상기 동일한 제스처 인식 결과가 타깃 제스처 인식 결과인 것으로 결정한다.

본 단계에서, 기설정된 개수의 동일한 제스처 인식 결과가 획득된 것으로 결정되는 경우에만, 상기 제스처가 유효한 것을 확인하도록 설정할 수 있으며, 유효한 제스처는 타깃 제스처 인식 결과로 지칭된다. 상기 기설정된 개수는 M으로 설정될 수 있으며, M도 1보다 큰 정수이며, N은 M보다 크거나 같다.

예를 들어, 연속적인 타임 시퀀스를 갖는 N 프레임의 이미지에서 5 개의 연속된 V 제스처가 인식되면, 인식된 "V 제스처"가 타깃 제스처 인식 결과인 것으로 확인한다. 또 예를 들어, 연속적인 타임 시퀀스를 갖는 N 프레임의 이미지에서 5 개의 연속된 "손바닥 평행 이동 제스처"가 인식되면, "손바닥 평행 이동 제스처"는 타깃 제스처 인식 결과이며, 여기서, 각 손바닥 평행 이동 제스처는 다중 프레임의 이미지에 의해 결정되어 얻을 수 있다.

인식된 연속적인 제스처의 개수가 기설정된 개수에 도달하지 못하면, 상기 몇 개의 이미지는 폐기되고 재인식을 수행한다. 예컨대, 연속적인 타임 시퀀스를 갖는 N 프레임의 이미지에서 3 개의 V 제스처가 인식되고, 기설정된 숫자 "5"에 도달하지 못하므로, 3 개의 V 제스처가 폐기되고, 연속적인 타임 시퀀스를 갖는 N 프레임의 이미지에 대해 제스처 인식을 다시 수행한다.

타깃 제스처 인식 결과가 결정되면, 단계 104가 계속 실행된다. 그렇지 않으면, 타깃 제스처 인식 결과가 결정되지 않은 경우, 단계 100 내지 단계 102를 계속 실행한다.

단계 104에서, 상기 타깃 제스처 인식 결과에 대응하는 제어 명령어를 타깃 기기로 송신하거나, 타깃 기기가 상기 타깃 제스처 인식 결과에 대응하는 동작을 실행하도록 제어한다.

본 단계에서 상기 결정된 타깃 제스처 인식 결과에 따라, 대응하는 타깃 기기를 제어할 수 있다. 구체적으로 타깃 기기 중의 기능 컴포넌트를 제어하는 것일 수 있으며, 예를 들어, 상기 기능 컴포넌트가 차량에서 음악을 재생하기 위한 볼륨 제어 모듈과 같은 미디어 플레이어인 경우, 타깃 제스처 인식 결과에 따라, 볼륨을 높이거나 낮추도록 제어할 수 있다. 실제 실시일 경우, 타깃 제스처 인식 결과에 대응하는 제어 명령어를 타깃 기기로 송신할 수 있고, 타깃 기기에 의해 상기 명령어에 따라 동작이 수행되거나; 본 실시예의 제스처 제어 장치에 의해 상기 명령어에 따라 타깃 기기가 상기 타깃 제스처 인식 결과에 대응하는 동작을 실행하도록 제어될 수 있다.

본 실시예의 제스처 제어 방법에 따르면, 기설정된 개수의 동일한 제스처 인식 결과가 획득된 것으로 결정되는 경우에만, 상기 제스처가 유효한 것을 확인하고, 상기 유효한 제스처를 타깃 제스처 인식 결과로 결정하므로, 제스처의 잘못된 트리거링을 어느 정도 피함으로써, 제스처 인식의 정확성을 향상시킬 수 있다. 예컨대, 사용자가 실수로 특정 제스처를 취한 경우, 상기 제스처에 대응하는 동일한 제스처 인식 결과가 기설정된 개수에 도달하지 않으면, 상기 제스처는 유효한 타깃 제스처 인식 결과로 인정되지 않으므로, 타깃 기기가 상기 제스처에 응답을 주지 않도록 하여, 잘못된 트리거링을 감소시킨다.

도 2는 본 발명의 적어도 하나의 실시예의 다른 제스처 제어 방법을 도시하였고, 상기 방법은 단계 200 내지 단계 208을 포함하며, 여기서, 도 1의 단계와 동일한 단계는 더이상 설명하지 않는다.

단계 200에서, 카메라에 의해 수집된 다중 프레임의 이미지를 수신하고, 상기 이미지에서의 제스처는 사용자가 타깃 기기 중의 기능 컴포넌트를 작동하도록 제어할 경우 취하는 제스처이다.

상기 다중 프레임 이미지는 카메라에 의해 수집된 비디오 스트림에 포함된 연속적인 타임 시퀀스를 갖는 N 프레임의 이미지일 수 있다.

단계 202에서, 상기 다중 프레임 이미지에 대해 제스처 인식 처리를 수행하여, 제스처 인식 결과 시퀀스를 얻는다.

예를 들어, 카메라에 의해 수집된 이미지에는 다중 프레임이 존재하며, 상기 다중 프레임 이미지에 따라 복수 개의 제스처를 인식할 수 있으며, 이 복수 개의 제스처는 하나의 제스처 인식 결과 시퀀스를 구성할 수 있다. 예를 들어, 상기 제스처 인식 결과 시퀀스는 “V, V, V, V, V, V, 바위, V, V”를 포함할 수 있다.

상기 제스처 인식 결과 시퀀스에서, 복수 개의 “V”는 복수 개의 동일한 제스처 인식 결과로 지칭될 수 있고, “바위”는 차이 제스처 인식 결과로 지칭될 수 있으며, 상기 차이 제스처 인식 결과와 동일한 제스처 인식 결과는 상이한 제스처 인식 결과이다. 다른 예에서, 차이 제스처 인식 결과의 개수는 복수 개일 수도 있다.

단계 204에서, 상기 제스처 인식 결과 시퀀스에 포함된 복수 개의 동일한 제스처 인식 결과 사이에 차이 제스처 인식 결과가 포함되고, 상기 차이 제스처 인식 결과가 상기 제스처 인식 결과 시퀀스에서의 개수 비율이 기설정된 값보다 작은 것에 응답하여, 상기 차이 제스처 인식 결과에 대해 스무딩 처리를 수행하며; 여기서, 상기 차이 제스처 인식 결과는 상기 동일한 제스처 인식 결과와 상이하다. 다시 말해서, 상기 제스처 인식 결과 시퀀스에 적어도 한 프레임의 이미지의, 상기 동일한 제스처 인식 결과와 상이한 차이 제스처 인식 결과가 포함되고, 또한 상기 제스처 인식 결과 시퀀스에서, 상기 차이 제스처 인식 결과 이전의 제스처 인식 결과 및 상기 차이 제스처 인식 결과 이후의 제스처 인식 결과가 모두 상기 동일한 제스처 인식 결과이며, 상기 차이 제스처 인식 결과가 상기 제스처 인식 결과 시퀀스에서의 개수 비율이 기설정된 값보다 작은 것에 응답하여, 상기 차이 제스처 인식 결과에 대해 스무딩 처리를 수행한다. 여기서, 상기 제스처 인식 결과 시퀀스에 포함된 연속적인 동일한 제스처 인식 결과의 개수가 M보다 크거나 같은 것으로 결정하는 단계는, 상기 스무딩 처리를 거친 후의 상기 제스처 인식 결과 시퀀스에 포함된 연속적인 동일한 제스처 인식 결과의 개수가 M보다 크거나 같은 것으로 결정하는 단계를 포함한다.

예를 들어, 상기 예 “V, V, V, V, V, V, 바위, V, V”의 제스처 인식 결과 시퀀스에서, “바위”는 차이 제스처 인식 결과이며, 바위 제스처 이전에 6 개의 V 제스처가 인식되고, 바위 제스처 이후에 2 개의 V 제스처가 인식되며, 다시 말해서, 차이 제스처 인식 결과 이전의 제스처 인식 결과 및 차이 제스처 인식 결과 이후의 제스처 인식 결과는 모두 동일한 제스처 인식 결과이며, 즉 V 제스처이다. 또한, 차이 제스처 인식 결과의 개수가 상기 제스처 인식 결과 시퀀스에서의 비율이 기설정된 값보다 낮으면, 예컨대, “차이 제스처의 개수”와 제스처 인식 결과 시퀀스 총 개수의 비율이 기설정된 값(예를 들어, 15%임)보다 낮으면, 상기 차이 제스처 인식 결과에 대해 스무딩 처리를 수행한다. 실제 실시에서 상기 판단 방법에 한정되지 않으며, 여기서 예로서 사용될 뿐이다.

차이 제스처 인식 결과에 대해 스무딩 처리를 수행한 것을 확인한 후 수행되는 스무딩 처리에는, 다음 단계 중 하나가 포함되지만 이에 한정되지 않는다.

예를 들어, 상기 차이 제스처 인식 결과를 상기 동일한 제스처 인식 결과로 수정할 수 있으며, 예컨대, 바위 제스처를 V 제스처로 수정한다. 전술한 제스처 인식 결과 시퀀스 “V, V, V, V, V, V, 바위, V, V”를 “V, V, V, V, V, V, V, V, V”로 수정할 수 있다.

다른 예를 들어, 차이 제스처 인식 결과를 제스처 인식 결과 시퀀스로부터 제거할 수도 있으며, 예컨대, 전술한 시퀀스 “V, V, V, V, V, V, 바위, V, V”를 “V, V, V, V, V, V, V, V”로 수정할 수 있다.

또 다른 예를 들어, 타임 시퀀스가 차이 제스처 인식 결과에 위치하기 이전의 제스처 인식 결과와, 타임 시퀀스가 차이 제스처 인식 결과에 위치한 이후의 제스처 인식 결과를, 연속적인 복수 개의 제스처 인식 결과로 사용할 수 있다. 즉 제스처 인식 결과 시퀀스 “V, V, V, V, V, V, 바위, V, V”는 8 개의 연속적인 V 제스처가 인식된 것으로 간주되며, 바위 제스처는 생략된다.

단계 206에서, 스무딩 처리 후의 제스처 인식 결과 시퀀스인 경우, 상기 제스처 인식 결과 시퀀스에 연속적인 기설정된 개수의 동일한 제스처 인식 결과가 포함된 것을 인식하면, 타깃 제스처 인식 결과가 인식된 것으로 확인한다.

예를 들어, 본 실시예에서, M 개의 연속적인 동일한 제스처 인식 결과가 인식되면, 상기 동일한 제스처 인식 결과가 타깃 제스처 인식 결과이고, 타깃 제스처 인식 결과가 유효한 것으로 확인하도록 설정될 수 있다. 예컨대, 8 개의 연속적인 V 제스처가 인식되면, 상기 V 제스처가 타깃 제스처 인식 결과인 것으로 확인한다.

단계 208에서, 타깃 기기에 상기 타깃 제스처 인식 결과에 대응하는 제어 명령어를 송신하거나, 타깃 기기가 상기 타깃 제스처 인식 결과에 대응하는 동작을 실행하도록 제어한다.

본 실시예의 제스처 제어 방법에 따르면, 기설정된 개수의 동일한 제스처를 인식할 경우에만, 상기 제스처가 유효한 것을 확인하므로, 제스처 인식의 정확도를 향상시키며; 또한, 차이 제스처 인식 결과에 대해 스무딩 처리를 수행함으로써, 제스처 인식의 감도를 높여, 제스처 인식의 응답 속도를 높일 수도 있다.

예를 들어, 사용자가 실제 취하는 제스처가 10 개의 V 제스처와 같이 기설정된 개수의 V 제스처에 도달했지만, 오인식으로 인해, 9 개의 V 제스처 및 2 개의 바위 제스처가 인식되었다고 가정하면, 본 실시예의 스무딩 처리를 수행하지 않으면, 상기 9 개의 V 제스처를 포기하고 재인식을 수행해야 하므로, 사용자 제스처를 적시에 응답할 수 없으며; 본 실시예의 방법에 따르면, 상기 2 개의 바위 제스처 인식 결과를 정확한 V 제스처 인식 결과로 수정할 수 있음으로써, 유효한 V 제스처를 빠르게 인식하여, 사용자 제스처에 대해 빠르게 응답할 수 있다.

도 3은 본 발명의 적어도 하나의 실시예의 다른 제스처 제어 방법 흐름도를 도시하며, 상기 방법은 단계 300 내지 단계 306을 포함한다.

단계 300에서, 비디오 스트림에서 단일 프레임의 카메라 수집 이미지를 획득하며, 상기 카메라 수집 이미지는 카메라 촬영 시야 공간에 대응하는 이미지이고, 상기 카메라 촬영 시야 공간은 제스처 제어의 유효 공간 영역을 포함한다.

본 실시예에서, 카메라는 차량의 특정 위치에 고정되고, 상기 카메라는 이미지를 수집할 때 하나의 대응하는 카메라 촬영 시야 공간을 가지며, 카메라 수집 이미지도 상기 공간 내의 이미지이다. 여기서, 상기 시야 공간은 제스처 제어의 유효 공간 영역을 포함하며, 예를 들어, 운전자가 차량 중앙 제어 패널 앞의 특정 공간 영역에서 제스처를 취해야만, 상기 제스처에 따라 제어가 트리거되며, 운전자가 상기 유효 공간 영역 밖의 영역에서 제스처를 취하면 제스처 제어가 트리거되지 않는다. 카메라 수집 이미지는 상기 제스처 제어의 유효 공간 영역에 대응하는 이미지를 포함한다.

단계 302에서, 상기 카메라 수집 이미지로부터, 상기 제스처 제어의 유효 공간 영역에 대응하는 로컬 이미지 영역을 선택한다.

본 단계에서 카메라 수집 이미지를 크롭할 수 있어, 카메라 수집 이미지에서의 로컬 이미지 영역을 크롭하여 얻을 수 있으며, 상기 로컬 이미지 영역에 대응하는 촬영 시야 공간은 제스처 제어의 유효 공간 영역이다. 예컨대, 카메라는 하나의 넓은 공간 영역을 촬영하여, 차량 내의 전체 내부 장면을 모두 촬영할 수 있다. 본 단계에서 선택된 로컬 이미지 영역은 카메라 수집 이미지에 포함된 차량 중앙 제어 패널 앞 부분에 대응되는 일부 영역이며, 상기 일부 영역은 제스처 제어의 유효 공간 영역이며, 운전자가 상기 유효 공간 영역 내에서 제스처를 취하여야만, 제스처 제어의 응답을 트리거할 수 있다.

단계 304에서, 로컬 이미지 영역에 대해 제스처 인식 처리를 수행하여, 제스처 인식 결과를 얻는다.

일부 실시예에서, 비디오 스트림 중의 N 프레임의 이미지에 대해 제스처 인식을 수행할 경우, 각 프레임의 이미지로부터 로컬 이미지 영역을 선택할 수 있고, 상기 로컬 이미지 영역에 대해 제스처 인식 처리를 수행할 수 있다. 전술한 이미지는 카메라 수집 이미지이다.

단계 306에서, 제스처 인식 결과에 따라 타깃 기기의 제어를 수행한다.

예를 들어, 카메라에 의해 수집된 N 프레임의 이미지의 경우, 하나의 제스처 인식 결과 시퀀스를 인식하여 얻는다. 상기 제스처 인식 결과 시퀀스에 기설정된 개수 M의 동일한 제스처 인식 결과가 존재하거나, 연속적인 M 개의 동일한 제스처 인식 결과가 존재할 경우, 상기 동일한 제스처 인식 결과가 타깃 제스처 인식 결과인 것으로 확인한다. 상기 타깃 제스처 인식 결과에 대응하는 제어 명령어에 따라, 타깃 기기를 제어한다.

본 실시예의 제스처 제어 방법에 따라, 기설정된 개수의 동일한 제스처 인식 결과가 획득된 것으로 결정되는 경우 상기 제스처에 따라 기기 제어를 수행함으로써, 잘못된 트리거링을 방지할 수 있다. 또한, 이미지에서의 로컬 이미지 영역 중의 제스처를 인식함으로써, 제스처 인식이 보다 정확해지도록, 로컬 이미지 영역 밖의 다른 영역의 간섭을 어느 정도 피할 수 있으며, 또한 로컬 이미지 영역에 대해서만 제스처 인식 처리를 수행하므로, 전체 이미지에 대해 인식 처리를 수행하는 것에 비해 처리 속도도 빠르다.

또 다른 실시예에서, 제스처 제어 기능 중의 일부 파라미터에 대해 가시화의 방식으로 조절을 수행할 수 있다. 예를 들어, 제스처 인식을 위한 제스처 인식 파라미터는 가시화 인터페이스에 대해 가시화 디스플레이를 수행할 수 있어, 사용자는 파라미터 조절의 가시화 인터페이스 중의 제스처 인식 파라미터에 대해 프로그래스 바의 방식으로 조절을 수행한다. 예를 들어, 상기 제스처 인식 파라미터는, 위에서 언급한 “M 개의 동일한 제스처 인식 결과가 인식됨” 중의 M을 포함할 수 있다. 예를 들어, 10 개의 동일한 V 제스처를 인식하도록 조절하여, V 제스처가 인식되는 것을 확인할 수 있으며; 8 개의 동일한 V 제스처를 인식하도록 설정하여, V 제스처가 인식되는 것을 확인할 수도 있다. 사용자가 상기 제스처 인식 파라미터를 조절한 후, 시스템은 상기 제스처 인식 파라미터에 따라 제스처 인식 처리를 수행할 수 있다. 가시화 인터페이스의 방식으로 제스처 인식 파라미터를 조절하는 것이 편리하다.

또한, 상이한 제스처는 상이한 제스처 인식 파라미터를 설정할 수 있으며, 전술한 M을 예로 들면, 상이한 제스처에 대응하는 M은 상이할 수 있다. 예컨대, 10 개의 동일한 V 제스처를 인식하면, V 제스처를 인식한 것을 확인하고; 6 개의 OK 제스처를 인식하면, OK 제스처를 인식한 것을 확인한다. 즉 V 제스처에 대응하는 M은 10이고, OK 제스처에 대응하는 M은 6이다.

예상기 제스처 인식 파라미터는 예를 들어 또한, 시퀀스에서 차이 제스처가 나타나는 개수 및 차이 제스처 이전에 나타난 동일한 제스처의 개수 등을 포함할 수 있으며, 이러한 파라미터는 전술한 가시화 인터페이스를 통해 프로그래스 바의 방식으로 조절 설정이 수행될 수도 있다. 또한, 각 파라미터는 독립적으로 조절될 수 있으며, 예컨대, 상이한 제스처에 대응하는 M을 예로 들면, 전술한 예에서, V 제스처에 대응하는 M은 10이고, OK 제스처에 대응하는 M은 6이며, 전술한 V 제스처, OK 제스처 등 상이한 제스처에 대응하는 M은 각각 조절될 수 있다.

이하 차량에서 제스처 제어를 적용하는 기능을 예로 들어, 본 발명의 제스처 제어 방법을 설명하나, 이해할 수 있는 것은, 상기 제스처 제어 방법은 차량에 적용되는데 한정되지 않고, 휴대폰, 스마트홈 시스템 등 다른 기기에도 적용될 수 있다.

차량에서, 운전자는 제스처를 통해 자동차 창문, 조명 밝기, 에어컨 온도 등과 같은 차량 부속품을 조절할 수 있으며; 또한, 음악 재생을 제어하고, 예를 들어 노래를 전환하고 볼륨을 조절하는 것 등과 같이, 차량에서의 차량 엔터테인먼트 컴포넌트를 제어할 수도 있다. 제스처를 사용하여 게임 등을 제어할 수도 있다. 예를 들어, 도 4는 본 발명의 적어도 하나의 실시예에 따른 음악 플레이어의 기능 인터페이스 모식도를 도시하며, 사용자는 클릭하여 음악 플레이어를 켤 수 있으며, 예시적인 예에서, 사용자가 상기 플레이어 인터페이스의 제스처 제어 영역(41)(즉, 플레이어 하단의 영역)을 클릭하는 경우, 음악 재생 관련 기능에 대한 제스처 제어를 작동하였을 나타내며; 사용자가 상기 제스처 제어 영역(41)을 다시 클릭하면 음악 재생 관련 기능의 제스처 제어가 해제된다.

도 4에 도시된 인터페이스는 음악 플레이어의 기능 인터페이스이다. 사용자는 다양한 제스처를 취하는 것을 통해, 카메라를 이용하여 이미지를 수집할 수 있으며, 제스처 제어 장치에 의해, 수신된 이미지에 따라 음악 플레이어의 음악 재생 기능이 제어된다. 또한, 도 4에 도시된 인터페이스에서, 이미지의 제스처 인식 결과에 응답하여, 음악 플레이어를 제어할 수 있다. 예를 들어, 이미지의 제스처 인식 결과에 응답하여 음악 재생의 볼륨을 증가시킬 수 있으며; 다른 예를 들어, 또한 이미지의 제스처 인식 결과에 응답하여 자동차 창문 컨트롤러를 제어하여 자동차 창문 유리를 움직일 수 있다. 또 다른 예를 들어, 이미지 제스처 인식 결과에 응답하여 음악 재생 볼륨을 높일 수 있을 뿐만 아니라, 이미지 변화에 따라 생성되는 음악 플레이어 관련 제어 기능의 변화 상태도 동기적으로 디스플레이할 수 있다.

계속하여 도 4를 참조하면, 제스처 제어 영역(41)은 복수 개의 제스처의 아이콘을 라이트 온하여 디스플레이하였는데, 이는 상기 음악 재생 시나리오 하에 복수 개의 제스처를 지원하여 제어된다는 것을 의미하며, 예컨대, 관련 제스처 및 대응되게 제어되는 음악 재생 기능은 표 1을 참조할 수 있으며, 그 중 제스처에는 다음이 포함된다.

제스처와 대응하는 제어의 기능

제스처	제어 기능
OK	재생
엄지손가락을 듬	좋아요
검지 손가락을 시계 방향으로 회전	볼륨 증가
검지 손가락을 시계 반대방향으로 회전 볼륨 감소
손바닥을 오른쪽으로 수평 이동	다음 곡
손바닥을 왼쪽으로 수평 이동 이전 곡
바위	일시정지

상기 표 1의 각 제스처 인식의 경우, 다음과 같은 소정의 규칙에 따라 타깃 제스처 인식 결과를 결정할 수 있다. 제스처 인식 결과 시퀀스에 기설정된 개수의 동일한 제스처 인식 결과가 존재할 경우, 상기 동일한 제스처 인식 결과가 타깃 제스처 인식 결과인 것으로 확인한다. 예시적으로, 음악 재생 관련 기능에 대한 제스처 제어를 켠 후, 사용자는 OK 제스처를 취할 수 있으며, 음악 플레이어는 음악을 재생하기 시작한다. 또한, 도 4의 기능 상태 인터페이스에서 음악 재생 기능의 작동 시작이 동기적으로 디스플레이될 수 있으며; 마찬가지로, 사용자가 바위 제스처를 취하면, 음악 재생이 일시 정지되고, 기능 상태 인터페이스에서 음악 재생 기능의 작동 중지도 동기적으로 디스플레이될 수 있다.

예를 들어, 사용자가 검지를 회전시키는 제스처를 취한 경우, 이때 상기 검지 회전 제스처가 인식된 후, 제스처 제어 장치는 먼저 "OK" 제스처가 인식되었는지 여부를 판단할 수 있다. "OK"가 이전에 인식되지 않은 경우, 응답하지 않으며, 이전에 "OK"가 인식된 경우, 검지 손가락 회전 제스처에 대응하는 컴포넌트 제어 정보에 따라, 음악 플레이어의 볼륨을 조절할 수 있다. 예컨대, 제스처가 "검지 손가락을 시계 방향으로 회전함"인 경우, 음악 플레이어를 제어하여 음악 재생 볼륨을 높일 수 있다. 이와 동시에, 도 4의 기능 상태 인터페이스에서, 또한 볼륨 조절 디스플레이 모듈(42)을 통해 검지 손가락이 시계 방향으로 회전함에 따라 볼륨의 증가되는 의미를 동기적으로 디스플레이할 수 있다.

또 다른 예를 들어, 사용자는 손바닥을 오른쪽으로 수평 이동하는 제스처를 취하고, 이때 상기 검지 회전 제스처를 인식한 후, 제스처 제어 장치는 먼저 “OK” 제스처가 인식되었는지 여부를 판단할 수 있다. 이전에 "OK"가 인식되지 않은 경우, 응답하지 않으며, 이전에 "OK"가 인식된 경우 손바닥을 오른쪽으로 수평 이동하는 제스처에 따라, 음악 플레이어를 조정하여 다음 곡으로 전환할 수 있다. 동시에, 도 4의 기능 상태 인터페이스에서, 노래 디스플레이 모듈(43)을 통해 손바닥이 오른쪽으로 수평 이동함에 따른 노래 전환 효과를 동기적으로 디스플레이할 수 있다.

또한, 사용자는 제스처를 통해 노래의 좋아요를 제어할 수도 있다. 예를 들어, 사용자가 엄지 손가락을 치켜들 수 있으며, 상기 제스처에 응답하여, 제스처 제어 장치는 음악 플레이어가 도 4에 도시된 기능 상태 인터페이스에서 특정 노래의 좋아요 식별자를 디스플레이하도록 제어할 수 있다. 예를 들어, 도 4의 좋아요 지시자(44)는 켜진다. 마찬가지로 좋아요하기 전 "OK" 제스처가 이미 인식되었는지 여부도 미리 판단할 수 있다.

다른 기능의 제스처 제어에 대해 더이상 설명하지 않는다.

도 5는 본 발명의 적어도 하나의 실시예에 따른 제스처 제어 장치의 블록도를 도시하며, 도 5에 도시된 바와 같이, 상기 장치는 인식 처리 모듈(500), 제스처 결정 모듈(502) 및 동작 제어 모듈(504)을 포함할 수 있다.

인식 처리 모듈(500)은 카메라에 의해 수집된 비디오 스트림 중 연속적인 타임 시퀀스를 갖는 N 프레임의 이미지에 대해 제스처 인식 처리를 각각 수행하여, 제스처 인식 결과 시퀀스를 얻을 수 있다. 상기 제스처 인식 결과 시퀀스는 상기 N 프레임의 이미지에 포함된 복수 개의 제스처의 인식 결과를 포함한다.

제스처 결정 모듈(502)은 상기 제스처 인식 결과 시퀀스에 포함된 동일한 제스처 인식 결과의 개수가 M보다 크거나 같은 것에 응답하여, 상기 동일한 제스처 인식 결과가 타깃 제스처 인식 결과인 것으로 결정할 수 있으며, N 및 M은 모두 1보다 큰 정수이며, N은 M보다 크거나 같다.

동작 제어 모듈(504)은 상기 타깃 제스처 인식 결과에 대응하는 제어 명령어를 타깃 기기로 송신하거나, 타깃 기기가 상기 타깃 제스처 인식 결과에 대응하는 동작을 실행하도록 제어할 수 있다.

본 실시예의 제스처 제어 장치에 따르면, 인식 처리 모듈 및 제스처 결정 모듈은 기설정된 개수의 동일한 제스처 인식 결과가 획득된 것으로 결정되는 경우에만, 상기 제스처가 유효한 것을 확인하고, 상기 유효한 제스처를 타깃 제스처 인식 결과로 결정하므로, 제스처의 잘못된 트리거링을 어느 정도 피함으로써, 제스처 인식의 정확도를 향상시킬 수 있다. 예컨대, 사용자가 실수로 특정 제스처를 취한 경우, 상기 제스처에 대응하는 동일한 제스처 인식 결과가 기설정된 개수에 도달하지 않으면, 상기 제스처는 유효한 타깃 제스처 인식 결과로 인정되지 않으므로, 타깃 기기가 상기 제스처에 응답을 주지 않을 수 있어, 잘못된 트리거링을 감소시킨다.

하나의 실시예에서, 상기 제스처 결정 모듈(502)은 상기 제스처 인식 결과 시퀀스에 포함된 연속적인 동일한 제스처 인식 결과의 개수가 M보다 크거나 같은 것에 응답하여, 상기 동일한 제스처 인식 결과가 타깃 제스처 인식 결과인 것으로 결정할 수 있다.

하나의 실시예에서, 상기 제스처 결정 모듈(502)은 또한, 상기 제스처 인식 결과 시퀀스에 포함된 복수 개의 동일한 제스처 인식 결과 간에 차이 제스처 인식 결과가 포함되고, 상기 차이 제스처 인식 결과가 상기 제스처 인식 결과 시퀀스에서의 개수 비율이 기설정된 값보다 작은 것에 응답하여, 상기 차이 제스처 인식 결과에 대해 스무딩 처리를 수행할 수 있으며; 여기서, 상기 차이 제스처 인식 결과는 상기 동일한 제스처 인식 결과와 상이하다. 다시 말해서, 상기 제스처 인식 결과 시퀀스에 적어도 하나의 프레임의 이미지의, 상기 동일한 제스처 인식 결과와 상이한 차이 제스처 인식 결과가 포함되고, 또한 상기 제스처 인식 결과 시퀀스에서, 상기 차이 제스처 인식 결과 이전의 제스처 인식 결과 및 상기 차이 제스처 인식 결과 이후의 제스처 인식 결과가 모두 상기 동일한 제스처 인식 결과이며, 상기 차이 제스처 인식 결과가 상기 제스처 인식 결과 시퀀스에서의 개수 비율이 기설정된 값보다 작은 것에 응답하여, 상기 차이 제스처 인식 결과에 대해 스무딩 처리를 수행한다. 여기서, 상기 제스처 인식 결과 시퀀스에 포함된 연속적인 동일한 제스처 인식 결과의 개수가 M보다 크거나 같은 것으로 결정하는 단계는, 상기 스무딩 처리를 거친 후의 상기 제스처 인식 결과 시퀀스에 포함된 연속적인 동일한 제스처 인식 결과의 개수가 M보다 크거나 같은 것으로 결정하는 단계를 포함한다.

하나의 실시예에서, 상기 제스처 결정 모듈(502)은 상기 차이 제스처 인식 결과에 대해 스무딩 처리를 수행할 때, 상기 차이 제스처 인식 결과를 상기 동일한 제스처 인식 결과로 수정하거나, 상기 차이 제스처 인식 결과를 상기 제스처 인식 결과 시퀀스로부터 제거할 수 있다.

하나의 실시예에서, 상기 제스처 결정 모듈(502)은 상기 차이 제스처 인식 결과에 대해 스무딩 처리를 수행할 때, 타임 시퀀스가 상기 차이 제스처 인식 결과 이전에 위치한 제스처 인식 결과와, 타임 시퀀스가 상기 차이 제스처 인식 결과 이후에 위치한 제스처 인식 결과를, 연속적인 복수 개의 제스처 인식 결과로 사용할 수 있다.

하나의 실시예에서, 상기 인식 처리 모듈(500)은 카메라에 의해 수집된 비디오 스트림 중 연속적인 타임 시퀀스를 갖는 N 프레임의 이미지에 대해 제스처 인식 처리를 각각 수행할 때, 비디오 스트림에서 단일 프레임의 카메라 수집 이미지를 획득하는 단계 - 상기 카메라 수집 이미지는 카메라 촬영 시야 공간에 대응하는 이미지이고, 상기 카메라 촬영 시야 공간은 제스처 제어의 유효 공간 영역을 포함함 - ; 상기 카메라 수집 이미지로부터, 상기 제스처 제어의 유효 공간 영역에 대응하는 로컬 이미지 영역을 선택하는 단계; 및 상기 로컬 이미지 영역에 대해 상기 제스처 인식 처리를 수행하는 단계를 실행할 수 있다.

하나의 실시예에서, 도 6에 도시된 바와 같이, 상기 장치는 파라미터 수신 모듈(600)을 더 포함할 수 있다.

파라미터 수신 모듈(600)은 상기 인식 처리 모듈(500)로 하여금 상기 제스처 인식 파라미터에 따라 상기 제스처 인식 처리를 실행하도록, 파라미터 조절을 위한 가시화 인터페이스를 통해 사용자가 구성한 제스처 인식 파라미터를 수신할 수 있다.

하나의 실시예에서, 타깃 기기는 차량을 포함하고, 상기 동작 제어 모듈(504)은 상기 차량 중의 기능 컴포넌트에 상기 타깃 제스처 인식 결과에 대응하는 제어 명령어를 송신하거나, 상기 차량 중의 기능 컴포넌트가 상기 타깃 제스처 인식 결과에 대응하는 동작을 실행하도록 제어할 수 있다.

하나의 실시예에서, 상기 기능 컴포넌트는 미디어 플레이어, 및 자동차 창문 컨트롤러 중 적어도 하나를 포함하며, 상기 동작 제어 모듈(504)은, 상기 차량 중의 기능 컴포넌트가 상기 타깃 제스처 인식 결과에 대응하는 동작을 실행하도록 제어할 때, 상기 타깃 제스처 인식 결과에 응답하여, 상기 미디어 플레이어가 미디어 재생 상태를 변경하도록 제어할 수 있거나, 상기 타깃 제스처 인식 결과에 응답하여, 상기 자동차 창문 컨트롤러가 자동차 창문 유리를 이동시키도록 제어할 수 있다.

하나의 실시예에서, 상기 동작 제어 모듈(504)은 상기 타깃 제스처 인식 결과에 응답하여, 이미지를 통해 제어할 기능 컴포넌트에 대응하는 기능 상태 인터페이스에는, 상기 기능 컴포넌트의 작동 시작 또는 작동 중지 상태; 볼륨의 변경; 타깃 대상에 대한 좋아요 식별자 중 적어도 하나를 디스플레이할 수 있다.

도 7은 본 발명의 적어도 하나의 실시예에 따른 전자 기기의 블록도를 도시하며, 상기 전자 기기는 메모리(71) 및 프로세서(72)를 포함한다. 상기 메모리(71)에는 컴퓨터 프로그램이 저장되어 있고, 상기 컴퓨터 프로그램은 상기 프로세서(72)에 의해 실행될 때 본 발명의 임의의 실시예에 따른 제스처 제어 방법을 구현한다.

본 발명의 적어도 하나의 실시예는 또한 컴퓨터 프로그램이 저장되어 있는 컴퓨터 판독 가능 저장 매체를 제공하며, 상기 프로그램이 프로세서에 의해 실행될 때 본 발명의 임의의 실시예에 따른 제스처 제어 방법을 구현한다.

당업자는 본 발명의 하나 또는 복수 개의 실시예는 방법, 시스템 또는 컴퓨터 프로그램 제품으로 제공될 수 있음을 알아야 한다. 따라서, 본 발명의 하나 또는 복수 개의 실시예는 완전한 하드웨어 실시예, 완전한 소프트웨어 실시예, 또는 소프트웨어와 하드웨어를 결합하는 실시예의 형태를 채택할 수 있다. 또한, 본 발명의 하나 또는 복수 개의 실시예는 컴퓨터 사용 가능한 프로그램 코드를 포함하는 하나 또는 복수 개의 컴퓨터 사용 가능한 매체(자기 디스크 메모리, CD-ROM 및 광학 메모리 등을 포함하지만 이에 한정되지 않음) 상에서 실시되는 컴퓨터 프로그램 제품의 형태를 채택할 수 있다.

[96] 본 발명의 실시예는 또한 컴퓨터 판독 가능 저장 매체를 제공할 수 있으며, 상기 저장 매체에는 컴퓨터 프로그램이 저장될 수 있으며, 상기 프로그램이 프로세서에 의해 실행될 때, 본 발명의 임의의 실시예에서 설명된 제스처 인식을 위한 신경망 훈련 방법의 단계들이 구현되거나, 및/또는, 본 발명의 임의의 실시예에 의해 설명된 제스처 인식 방법의 단계들을 구현한다. 여기서, 전술한 “및/또는”은 둘 중 적어도 하나를 갖는 것을 의미하며, 예를 들어, “A 및/또는 B”는 A, B, 및 “A 및 B”의 세 가지 방안을 포함한다.

본 발명의 각 실시예는 점진적으로 설명되며, 각 실시예 사이에서 동일하거나 유사한 부분은 서로 참조될 수 있으며, 각 실시예는 다른 실시예와의 차이점에 초점을 맞춘다. 특히, 데이터 처리 기기 실시예의 경우, 기본적으로 방법 실시예와 유사하므로 설명이 비교적 간단하며, 관련된 부분은 방법 실시예의 설명 부분을 참조하기 바란다.

본 발명의 구체적인 실시예는 위에서 설명된다. 다른 실시예는 첨부된 청구범위의 범위 내에 있다. 일부 경우에, 청구범위에 설명된 동작 또는 단계는 실시예와 다른 순서로 수행될 수 있으며 여전히 원하는 결과를 얻을 수 있다. 또한, 도면에 도시된 프로세스는 원하는 결과를 달성하기 위해 도시된 특정 순서 또는 순차적인 순서를 반드시 필요로 하는 것은 아니다. 일부 실시예에서, 멀티 태스킹 처리 및 병렬 처리도 가능하거나 유리할 수 있다.

본 발명에서 설명된 주제 및 기능 동작의 실시예는, 디지털 전자 회로, 유형의 컴퓨터 소프트웨어 또는 펌웨어, 본 발명에 개시된 구조 및 이들의 구조적 균등물을 포함하는 컴퓨터 하드웨어, 또는 이들 중 하나 또는 복수 개의 조합 중 하나로 구현될 수 있다. 본 발명에서 설명된 주제의 실시예는 하나 또는 복수 개의 컴퓨터 프로그램, 데이터 처리 장치에 의해 실행되거나 데이터 처리 장치의 동작을 제어하기 위해 유형의 비일시적 프로그램 캐리어에 인코딩된 컴퓨터 프로그램 명령의 하나 또는 복수 개의 모듈로 구현될 수 있다. 대안적으로 또는 추가적으로, 프로그램 명령어는 기계에서 발생하는 전기적, 광학적 또는 전자기적 신호와 같은 인위적으로 생성된 전파 신호에 인코딩될 수 있으며, 신호는 정보를 인코딩하고 데이터 처리 장치에서 실행할 수 있도록 적절한 수신기 장치로 전송하기 위해 생성된다. 컴퓨터 저장 매체는 기계 판독 가능한 저장 장치, 기계 판독 가능한 저장 기판, 랜덤 또는 직렬 액세스 메모리 기기, 또는 이들 중 하나 이상의 조합일 수 있다.

본 발명에서 설명된 처리 및 논리 흐름은 입력 데이터에 따라 동작하고 출력을 생성함으로써 대응하는 기능을 실행하기 위해, 하나 또는 복수 개의 컴퓨터 프로그램을 실행하는 하나 또는 복수 개의 프로그램 가능한 컴퓨터에 의해 실행될 수 있다. 상기 처리 및 논리 흐름은 현장 프로그래머블 게이트 어레이(Field Programmable Gate Array, FPGA) 또는 응용 주문형 집적 회로(Application Specific Integrated Circuit, ASIC)와 같은 전용 논리 회로에 의해 실행될 수도 있으며 장치는 전용 논리 회로로도 구현될 수도 있다.

컴퓨터 프로그램을 실행하기에 적합한 컴퓨터는 예를 들어 범용 및/또는 특수 목적 마이크로 프로세서, 또는 임의의 다른 유형의 중앙 처리 장치를 포함한다. 일반적으로 중앙 처리 장치는 읽기 전용 메모리 및/또는 랜덤 액세스 메모리에서 명령과 데이터를 수신한다. 컴퓨터의 기본 컴포넌트는 명령어를 구현하거나 실행하기 위한 중앙 처리 장치와 명령어 및 데이터를 저장하기 위한 하나 또는 복수 개의 메모리 기기를 포함한다. 일반적으로 컴퓨터에는 컴퓨터에는 데이터를 저장하기 위한 하나 이상의 대용량 저장 장치도 포함되며, 예를 들어, 자기 디스크, 광자기 디스크 또는 광 디스크 등, 또는 컴퓨터는 대용량 저장 장치에 작동 가능하게 연결되어 데이터를 수신하거나 전송하거나 둘 다 포함된다. 그러나, 컴퓨터에는 그러한 장비가 꼭 필요한 것은 아니다. 또한, 컴퓨터는 다른 장치에 내장될 수 있으며, 예를 들어, 휴대전화, 개인용 정보 단말기(Personal Digital Assistant, PDA), 모바일 오디오 또는 비디오 플레이어, 게임 콘솔, GPS(Global Positioning System) 수신기 또는 USB(Universal Serial Bus) 플래시 드라이브와 같은 휴대용 저장 장치가 있다.

컴퓨터 프로그램 명령 및 데이터를 저장하기에 적합한 컴퓨터 판독 가능 매체는 모든 형태의 비휘발성 메모리, 매체 및 메모리 장치를 포함하며, 예로는 반도체 메모리 장치(예컨대, EPROM, EEPROM 및 플래시 메모리 장치), 자기 디스크(예컨대, 내부 하드 디스크 또는 이동식 디스크), 자기 광 디스크, CD ROM 및 DVD-ROM 디스크가 있다. 프로세서 및 메모리는 전용 논리 회로에 의해 보완되거나 통합될 수 있다.

본 발명은 많은 특정 구현 세부사항을 포함하지만, 이들은 임의의 발명의 범위 또는 보호의 범위를 제한하는 것으로 해석되어서는 안 되며, 주로 특정 발명의 특정 실시예의 특징을 설명하기 위해 사용된다. 본 발명의 내용 중의 다수의 실시예에서 설명된 특정 특징은 또한 단일 실시예에서 조합하여 구현될 수 있다.. 다른 한편으로, 단일 실시예에서 설명된 다양한 특징들은 또한 개별적으로 또는 임의의 적절한 하위 조합으로 복수의 실시예들에서 구현될 수 있다. 또한, 특징은 위에서 설명한 대로 특정 조합으로 작동할 수 있지만 처음에는 그렇게 주장했지만, 청구된 조합에서 하나 이상의 특징이 일부 경우에 상기 조합에서 제거될 수 있으며 청구된 조합은 하위 조합 또는 하위 조합의 변형으로 안내될 수 있다.

유사하게, 동작이 도면에서 특정 순서로 도시되어 있지만, 이는 이러한 동작이 표시된 특정 순서로 또는 순차적으로 수행되어야 하거나, 원하는 결과를 달성하기 위해 도시된 모든 작업이 수행되어야 하는 것으로 해석되어서는 안 된다. 경우에 따라 멀티 태스킹 및 병렬 처리가 유리할 수 있다. 또한, 상기 실시예에서 다양한 시스템 모듈 및 구성요소의 분리가 모든 실시예에서 그러한 분리를 요구하는 것으로 이해되어서는 안 되며, 설명된 프로그램 구성 요소 및 시스템은 일반적으로 단일 소프트웨어 제품에 함께 통합되거나 여러 소프트웨어 제품에 패키지될 수 있음을 이해해야 한다.

위의 설명은 본 발명의 일부 실시예에 불과하며, 본 발명을 한정하려는 의도가 아니다. 본 발명의 사상과 원칙 내에서 이루어진 모든 수정, 균등한 대체, 변형 등은 본 발명의 범위에 포함되어야 한다.

Claims

제스처 제어 방법으로서,
카메라에 의해 수집된 비디오 스트림 중 연속적인 타임 시퀀스를 갖는 N 프레임의 이미지에 대해 제스처 인식 처리를 각각 수행하여, 제스처 인식 결과 시퀀스를 얻는 단계 - 상기 제스처 인식 결과 시퀀스는 상기 N 프레임의 이미지에 포함된 복수 개의 제스처의 인식 결과를 포함함 - ;
상기 제스처 인식 결과 시퀀스에 포함된 동일한 제스처 인식 결과의 개수가 M보다 크거나 같은 것에 응답하여, 상기 동일한 제스처 인식 결과가 타깃 제스처 인식 결과인 것으로 결정하는 단계 - N 및 M은 모두 1보다 큰 정수이며, N은 M보다 크거나 같음 - ; 및
상기 타깃 제스처 인식 결과에 대응하는 제어 명령어를 타깃 기기로 송신하거나, 타깃 기기가 상기 타깃 제스처 인식 결과에 대응하는 동작을 실행하도록 제어하는 단계를 포함하는 것을 특징으로 하는 제스처 제어 방법.
제1항에 있어서,
상기 제스처 인식 결과 시퀀스에 포함된 동일한 제스처 인식 결과의 개수가 M보다 크거나 같은 것에 응답하여, 상기 동일한 제스처 인식 결과가 타깃 제스처 인식 결과인 것으로 결정하는 단계는,
상기 제스처 인식 결과 시퀀스에 포함된 연속적인 동일한 제스처 인식 결과의 개수가 M보다 크거나 같은 것에 응답하여, 상기 동일한 제스처 인식 결과가 타깃 제스처 인식 결과인 것으로 결정하는 단계를 포함하는 것을 특징으로 하는 제스처 제어 방법.
제1항 또는 제2항에 있어서,
상기 제스처 인식 결과 시퀀스에 포함된 동일한 제스처 인식 결과의 개수가 M보다 크거나 같은 것에 응답하여, 상기 동일한 제스처 인식 결과가 타깃 제스처 인식 결과인 것으로 결정하는 단계 전에, 상기 제스처 제어 방법은,
상기 제스처 인식 결과 시퀀스에 포함된 복수 개의 상기 동일한 제스처 인식 결과 간에 차이 제스처 인식 결과가 포함되고, 상기 차이 제스처 인식 결과가 상기 제스처 인식 결과 시퀀스에서의 개수 비율이 기설정된 값보다 작은 것에 응답하여, 상기 차이 제스처 인식 결과에 대해 스무딩 처리를 수행하는 단계를 더 포함하며; 상기 차이 제스처 인식 결과는 상기 동일한 제스처 인식 결과와 상이한 것을 특징으로 하는 제스처 제어 방법.
제3항에 있어서,
상기 차이 제스처 인식 결과에 대해 스무딩 처리를 수행하는 단계는,
상기 차이 제스처 인식 결과를 상기 동일한 제스처 인식 결과로 수정하는 단계; 또는,
상기 차이 제스처 인식 결과를 상기 제스처 인식 결과 시퀀스로부터 제거하는 단계를 포함하는 것을 특징으로 하는 제스처 제어 방법.
제3항에 있어서,
상기 차이 제스처 인식 결과에 대해 스무딩 처리를 수행하는 단계는,
타임 시퀀스가 상기 차이 제스처 인식 결과 이전에 위치한 제스처 인식 결과와, 타임 시퀀스가 상기 차이 제스처 인식 결과 이후에 위치한 제스처 인식 결과를, 연속적인 복수 개의 제스처 인식 결과로 사용하는 단계를 포함하는 것을 특징으로 하는 제스처 제어 방법.
제1항 내지 제5항 중 어느 한 항에 있어서,
상기 카메라에 의해 수집된 비디오 스트림 중 연속적인 타임 시퀀스를 갖는 N 프레임의 이미지에 대해 제스처 인식 처리를 각각 수행하는 단계는,
상기 비디오 스트림 중 단일 프레임의 카메라 수집 이미지를 획득하는 단계 - 상기 카메라 수집 이미지는 카메라 촬영 시야 공간에 대응하는 이미지이고, 상기 카메라 촬영 시야 공간은 제스처 제어의 유효 공간 영역을 포함함 - ;
상기 카메라 수집 이미지로부터, 상기 제스처 제어의 유효 공간 영역에 대응하는 로컬 이미지 영역을 선택하는 단계;
상기 로컬 이미지 영역에 대해 상기 제스처 인식 처리를 수행하는 단계를 포함하는 것을 특징으로 하는 제스처 제어 방법.
제1항 내지 제6항 중 어느 한 항에 있어서,
상기 제스처 제어 방법은,
파라미터 조정을 위한 가시화 인터페이스를 통해 사용자가 구성한 제스처 인식 파라미터를 수신하는 단계를 더 포함하고,
상기 제스처 인식 처리는 상기 제스처 인식 파라미터에 따라 실행되는 것을 특징으로 하는 제스처 제어 방법.
제7항에 있어서,
상기 제스처 인식 파라미터는 M을 포함하는 것을 특징으로 하는 제스처 제어 방법.
제1항 내지 제8항 중 어느 한 항에 있어서,
상기 타깃 기기는 차량을 포함하고, 상기 타깃 제스처 인식 결과에 대응하는 제어 명령어를 타깃 기기로 송신하거나, 타깃 기기가 상기 타깃 제스처 인식 결과에 대응하는 동작을 실행하도록 제어하는 단계는,
상기 차량 중의 기능 컴포넌트에 상기 타깃 제스처 인식 결과에 대응하는 제어 명령어를 송신하는 단계; 또는,
상기 차량 중의 기능 컴포넌트가 상기 타깃 제스처 인식 결과에 대응하는 동작을 실행하도록 제어하는 단계를 포함하는 것을 특징으로 하는 제스처 제어 방법.
제9항에 있어서,
상기 기능 컴포넌트는 미디어 플레이어를 포함하고;
상기 차량 중의 기능 컴포넌트가 상기 타깃 제스처 인식 결과에 대응하는 동작을 실행하도록 제어하는 단계는, 상기 타깃 제스처 인식 결과에 응답하여, 상기 미디어 플레이어가 미디어 재생 상태를 변경하도록 제어하는 단계를 포함하는 것을 특징으로 하는 제스처 제어 방법.
제9항에 있어서,
상기 기능 컴포넌트는 자동차 창문 컨트롤러를 포함하고;
상기 차량 중의 기능 컴포넌트가 상기 타깃 제스처 인식 결과에 대응하는 동작을 실행하도록 제어하는 단계는, 상기 타깃 제스처 인식 결과에 응답하여, 상기 자동차 창문 컨트롤러가 자동차 창문 유리를 이동시키도록 제어하는 단계를 포함하는 것을 특징으로 하는 제스처 제어 방법.
제9항에 있어서,
상기 차량 중의 기능 컴포넌트가 상기 타깃 제스처 인식 결과에 대응하는 동작을 실행하도록 제어하는 단계는,
상기 타깃 제스처 인식 결과에 응답하여, 상기 이미지를 통해 제어할 기능 컴포넌트에 대응하는 기능 상태 인터페이스에서 상기 기능 컴포넌트의 작동 시작 또는 작동 중지 상태, 볼륨의 변경, 또는 타깃 대상에 대한 좋아요 식별자 중 적어도 하나를 디스플레이하는 단계를 포함하는 것을 특징으로 하는 제스처 제어 방법.
제스처 제어 장치로서,
카메라에 의해 수집된 비디오 스트림 중 연속적인 타임 시퀀스를 갖는 N 프레임의 이미지에 대해 제스처 인식 처리를 각각 수행하여, 제스처 인식 결과 시퀀스를 얻기 위한 인식 처리 모듈 - 상기 제스처 인식 결과 시퀀스는 상기 N 프레임의 이미지에 포함된 복수 개의 제스처의 인식 결과를 포함함 - ;
상기 제스처 인식 결과 시퀀스에 포함된 동일한 제스처 인식 결과의 개수가 M보다 크거나 같은 것에 응답하여, 상기 동일한 제스처 인식 결과가 타깃 제스처 인식 결과인 것으로 결정하기 위한 제스처 결정 모듈 - N 및 M은 모두 1보다 큰 정수이며, N은 M보다 크거나 같음 - ; 및
상기 타깃 제스처 인식 결과에 대응하는 제어 명령어를 타깃 기기로 송신하거나, 타깃 기기가 상기 타깃 제스처 인식 결과에 대응하는 동작을 실행하도록 제어하기 위한 동작 제어 모듈을 포함하는 것을 특징으로 하는 제스처 제어 장치.
제13항에 있어서,
상기 제스처 결정 모듈은, 상기 제스처 인식 결과 시퀀스에 포함된 연속적인 동일한 제스처 인식 결과의 개수가 M보다 크거나 같은 것에 응답하여, 상기 동일한 제스처 인식 결과가 타깃 제스처 인식 결과인 것으로 결정하기 위한 것을 특징으로 하는 제스처 제어 장치.
제13항 또는 제14항에 있어서,
상기 제스처 결정 모듈은, 상기 제스처 인식 결과 시퀀스에 포함된 복수 개의 상기 동일한 제스처 인식 결과 간에 차이 제스처 인식 결과가 포함되고, 상기 차이 제스처 인식 결과가 상기 제스처 인식 결과 시퀀스에서의 개수 비율이 기설정된 값보다 작은 것에 응답하여, 상기 차이 제스처 인식 결과에 대해 스무딩 처리를 수행하기 위한 것이며; 상기 차이 제스처 인식 결과는 상기 타깃 제스처 인식 결과와 상이한 것을 특징으로 하는 제스처 제어 장치.
제15항에 있어서,
상기 제스처 결정 모듈은,
상기 차이 제스처 인식 결과를 상기 동일한 제스처 인식 결과로 수정하는 것; 또는,
상기 차이 제스처 인식 결과를 상기 제스처 인식 결과 시퀀스로부터 제거하는 것을 통해 상기 차이 제스처 인식 결과에 대해 스무딩 처리를 수행하기 위한 것임을 특징으로 하는 제스처 제어 장치.
제15항에 있어서,
상기 제스처 결정 모듈은,
타임 시퀀스가 상기 차이 제스처 인식 결과 이전에 위치한 제스처 인식 결과와, 타임 시퀀스가 상기 차이 제스처 인식 결과 이후에 위치한 제스처 인식 결과를, 연속적인 복수 개의 제스처 인식 결과로 사용하는 것을 통해, 상기 차이 제스처 인식 결과에 대해 스무딩 처리를 수행하기 위한 것임을 특징으로로 하는 제스처 제어 장치.
제13항 내지 제17항 중 어느 한 항에 있어서,
상기 인식 처리 모듈은,
카메라에 의해 수집된 비디오 스트림 중 연속적인 타임 시퀀스를 갖는 N 프레임의 이미지에 대해 제스처 인식 처리를 각각 수행할 때, 상기 비디오 스트림 중 단일 프레임의 카메라 수집 이미지를 획득하고 - 상기 카메라 수집 이미지는 카메라 촬영 시야 공간에 대응하는 이미지이고, 상기 카메라 촬영 시야 공간은 제스처 제어의 유효 공간 영역을 포함함 - ;
상기 카메라 수집 이미지로부터, 상기 제스처 제어의 유효 공간 영역에 대응하는 로컬 이미지 영역을 선택하며;
상기 로컬 이미지 영역에 대해 상기 제스처 인식 처리를 수행하기 위한 것임을 특징으로 하는 제스처 제어 장치.
제13항 내지 제18항 중 어느 한 항에 있어서,
상기 제스처 제어 장치는,
상기 인식 처리 모듈로 하여금 제스처 인식 파라미터에 따라 상기 제스처 인식 처리를 실행하도록, 파라미터 조절을 위한 가시화 인터페이스를 통해 사용자가 구성한 제스처 인식 파라미터를 수신하기 위한 파라미터 수신 모듈을 더 포함하는 것을 특징으로 하는 제스처 제어 장치.
제13항 내지 제19항 중 어느 한 항에 있어서,
상기 타깃 기기는 차량을 포함하고, 상기 동작 제어 모듈은, 상기 차량 중의 기능 컴포넌트에 상기 타깃 제스처 인식 결과에 대응하는 제어 명령어를 송신하거나; 상기 차량 중의 기능 컴포넌트가 상기 타깃 제스처 인식 결과에 대응하는 동작을 실행하도록 제어하기 위한 것임을 특징으로 하는 제스처 제어 장치.
제20항에 있어서,
상기 기능 컴포넌트는 미디어 플레이어를 포함하고;
상기 동작 제어 모듈은, 상기 차량 중의 기능 컴포넌트가 상기 타깃 제스처 인식 결과에 대응하는 동작을 실행하도록 제어할 때, 상기 타깃 제스처 인식 결과에 응답하여, 상기 미디어 플레이어가 미디어 재생 상태를 변경하도록 제어하기 위한 것임을 특징으로 하는 제스처 제어 장치.
제20항에 있어서,
상기 기능 컴포넌트는 자동차 창문 컨트롤러를 포함하고;
상기 동작 제어 모듈은, 상기 차량 중의 기능 컴포넌트가 상기 타깃 제스처 인식 결과에 대응하는 동작을 실행하도록 제어할 때, 상기 타깃 제스처 인식 결과에 응답하여, 를상기 자동차 창문 컨트롤러가 자동차 창문 유리를 이동시키도록 제어하기 위한 것임을 특징으로 하는 제스처 제어 장치.
제20항에 있어서,
상기 동작 제어 모듈은 또한, 상기 차량 중의 기능 컴포넌트가 상기 타깃 제스처 인식 결과에 대응하는 동작을 실행하도록 제어할 때, 상기 타깃 제스처 인식 결과에 응답하여, 상기 이미지를 통해 제어할 기능 컴포넌트에 대응하는 기능 상태 인터페이스에서 상기 기능 컴포넌트의 작동 시작 또는 작동 중지 상태, 볼륨의 변경, 또는 타깃 대상에 대한 좋아요 식별자 중 적어도 하나를 디스플레이하는 것을 특징으로 하는 제스처 제어 장치.
전자 기기로서,
프로세서; 및
컴퓨터 프로그램이 저장된 메모리를 포함하고, 상기 컴퓨터 프로그램은 상기 프로세서에 의해 실행 가능함으로써, 제1항 내지 제12항 중 어느 한 항에 따른 제스처 제어 방법을 구현하는 것을 특징으로 하는 전자 기기.
컴퓨터 프로그램이 저장된 컴퓨터 판독 가능 저장 매체로서,
상기 컴퓨터 프로그램은 프로세서에 의해 실행 가능함으로써, 제1항 내지 제12항 중 어느 한 항에 따른 제스처 제어 방법을 구현하는 것을 특징으로 하는 컴퓨터 판독 가능 저장 매체.