KR102364993B1

KR102364993B1 - 제스처 인식 방법, 장치 및 디바이스

Info

Publication number: KR102364993B1
Application number: KR1020207005925A
Authority: KR
Inventors: 량 왕; 송첸 쉬; 촨쟌 류; 준 허
Original assignee: 후아웨이 테크놀러지 컴퍼니 리미티드
Priority date: 2017-08-01
Filing date: 2017-08-01
Publication date: 2022-02-17
Also published as: CN110959160A; BR112020001729A8; US11450146B2; EP3651055A1; BR112020001729A2; KR20200036002A; US20200167554A1; EP3651055A4; WO2019023921A1

Abstract

본 발명은 인간 컴퓨터 상호 작용의 기술 분야에 관한 제스처 인식 방법을 제공한다. 상기 방법은, 비디오 스트림의 제1 비디오 세그먼트로부터 M 개의 프레임 이미지를 추출하는 단계; 딥 러닝 알고리즘에 의해, M 개의 프레임 이미지에 대해 제스처 인식을 수행하여 제1 비디오 세그먼트에 대응하는 제스처 인식 결과를 획득하는 단계; 및 제1 비디오 세그먼트에 포함된 연속된 N 개의 비디오 세그먼트의 제스처 인식 결과에 대해 결과 융합을 수행하여, 융합된 제스처 인식 결과를 획득하는 단계를 포함한다. 전술한 인식 프로세스는, 비디오 스트림에서의 제스처의 추적 및 세그먼트화를 필요로 하지 않는다. 상기 방법은 계산 속도가 빠른 딥 러닝 알고리즘을 통해 점진적인 액션을 인식한다. 상기 방법은 또한 점진적인 동작을 융합함으로써 제스처 인식 속도를 높이고 제스처 인식의 지연을 줄인다.

Description

제스처 인식 방법, 장치 및 디바이스

본 출원은 인간 기계 상호 작용 기술의 분야, 특히 제스처 인식 방법, 장치 및 디바이스에 관한 것이다.

제스처 입력은 자연스럽고 직접적인 인간 기계 상호 작용을 구현하기 위해 없어서는 안될 핵심 기술이다. 컴퓨터 비전에 기초한 제스처 인식 방법은 디바이스에 독립적이고, 보다 자연스러운 인간 기계 상호 작용 효과를 가지며, 더 나은 몰입감을 갖기 때문에 컴퓨터 비전에 기초한 제스처 인식 방법은 현재 연구의 핫스팟이 된다.

관련 기술에서, 컴퓨터 비전에 기초한 제스처 인식 솔루션은 다음과 같다. 카메라를 사용하여 제스처 이미지 비디오 스트림이 먼저 촬영되고, 비디오 스트림이 이미지 프레임으로 변환된 다음; 특정 이미지 추적 알고리즘에 기초하여 세그먼트화(segmentation) 및 추적(tracking)을 통해, 제스처의 형상, 특징 및 위치 정보가 이미지 프레임으로부터 추출되고; 최종적으로, 제스처는, 미리 수립된 분류 규칙을 참조하여 추출된 제스처의 형상, 특징 및 위치 정보에 기초하여 인식된다.

관련 기술에서, 제스처의 형상, 특징 및 위치 정보가 이미지 프레임으로부터 추출될 때, 이미지의 제스처는 세그먼트화 및 추적될 필요가 있고, 세그먼트화 및 추적 프로세스는 비교적 긴 처리 시간을 요구한다. 그 결과, 지연이 너무 크다.

본 출원의 실시 예들은, 제스처 인식 지연을 감소시키기 위해, 제스처 인식 방법, 장치 및 디바이스를 제공한다.

제1 측면에 따르면, 제스처 인식 방법이 제공되고, 제스처 인식 방법은, M 개의 이미지를 획득하는 단계 - 여기서, M 개의 이미지는 비디오 스트림의 제1 비디오 세그먼트로부터 추출되고, 제1 비디오 세그먼트는 비디오 스트림 중 임의의 비디오 세그먼트이고, M은 2 이상의 정수임 -; 딥 러닝 알고리즘을 이용하여 M 개의 이미지에 대해 제스처 인식을 수행하여, 제1 비디오 세그먼트에 대응하는 제스처 인식 결과를 획득하는 단계; 및 제1 비디오 세그먼트를 포함하는 비디오 스트림에서 N 개의 연속된 비디오 세그먼트의 제스처 인식 결과가 획득된 후, N 개의 연속된 비디오 세그먼트의 제스처 인식 결과에 대해 결과 결합을 수행하여, 결합된 제스처 인식 결과를 획득하는 단계 - 여기서, N≥2 이고 N은 정수임 - 를 포함한다.

전술한 제스처 인식 방법에서, 비디오 스트림 내의 각 비디오 세그먼트의 M 개의 이미지가 획득되고, 딥 러닝 알고리즘을 이용하여 M 개의 이미지에 대해 제스처 인식이 수행되어, 비디오 세그먼트에 대응하는 제스처 인식 결과를 획득하고, 최종적으로 비디오 세그먼트를 포함하는 N 개의 연속된 비디오 세그먼트의 제스처 인식 결과가 결합되어, N 개의 연속된 비디오 세그먼트의 제스처 인식 결과를 획득한다. 구체적으로, 전술한 인식 프로세스에서, 비디오 스트림에서의 제스처는 세그먼트화되거나 추적될 필요는 없지만, 비교적 빠른 계산 속도를 갖는 딥 러닝 알고리즘을 이용하여 위상 액션이 인식되고, 위상 액션이 결합되어, 제스처 인식 속도를 높이고, 제스처 인식 지연을 줄인다.

가능한 구현 해결 방안에서, N 개의 연속된 비디오 세그먼트의 제스처 인식 결과에 대해 결과 결합을 수행하여, 결합된 제스처 인식 결과를 획득하는 단계는,

N 개의 연속된 비디오 세그먼트의 제스처 인식 결과를 사전 훈련된 제1 머신 러닝 모델에 입력하여, 결합된 제스처 인식 결과를 획득하는 단계 - 여기서, 제1 머신 러닝 모델은, 입력된 N 개의 연속된 제스처 인식 결과로 구성된 전체 제스처 모션 트렌드(gesture motion trend)를 결정하고, 전체 제스처 모션 트렌드에 대응하는 제스처를 결합된 제스처 인식 결과로서 출력하기 위해 사용됨 - 를 포함한다.

실제 응용에서, 제스처 동작을 수행할 때, 사용자는 제스처 동작 프로세스에서 단시간에, 현재 제스처 동작에 부합하지 않는 제스처 액션을 수행할 수 있다. 그러나, 전술한 가능한 구현 해결 방안에서, 각 비디오 세그먼트의 제스처 인식 결과가 인식된 후, 복수의 연속적인 비디오 세그먼트에 대한 제스처 인식 결과에 의해 표시된 제스처 모션 트렌드에 기초하여 최종 제스처 인식 결과가 획득되어, 단시간에 사용자에 의해 수행된 잘못된(erroneous) 제스처에 의해 최종적으로 획득된 제스처 인식 결과에 미치는 영향을 제거할 수 있으므로, 제스처 인식 정확도를 향상시킬 수 있다.

가능한 구현 해결 방안에서, 제1 머신 러닝 모델은 뉴럴 네트워크 모델이고, 뉴럴 네트워크 모델은 N 개의 뉴런을 가지거나; 제1 머신 러닝 모델은 서포트 벡터 머신(SVM) 모델이다.

N 개의 연속된 비디오 세그먼트의 제스처 인식 결과에 각각 대응하는 미리 설정된 가중 계수를 획득하는 단계; 및

N 개의 연속된 비디오 세그먼트의 제스처 인식 결과에 각각 대응하는 가중 계수에 기초하여 N 개의 연속된 비디오 세그먼트의 제스처 인식 결과에 대해 가중화된 평균화을 수행하여, 결합된 제스처 인식 결과를 획득하는 단계를 포함한다.

전술한 가능한 구현 해결 방안에서, 각 비디오 세그먼트의 제스처 인식 결과가 인식된 후, 미리 설정된 가중치에 기초하여 복수의 연속적인 비디오 세그먼트의 제스처 인식 결과에 대해 가중화된 평균화가 수행되어, 단시간에 사용자에 의해 수행된 잘못된 제스처에 의해 최종적으로 획득된 제스처 인식 결과에 미치는 영향을 감소시킬 수 있으므로, 제스처 인식 정확도를 향상시킬 수 있다.

딥 러닝 알고리즘을 이용하여 M 개의 이미지에 대해 제스처 인식을 수행하여, 제1 비디오 세그먼트에 대응하는 제스처 인식 결과를 획득하는 단계는,

M 개의 이미지에 대해 이미지 프로세싱을 수행하여, 제1 비디오 세그먼트에 대응하는 광학 흐름 정보 이미지를 획득하고 - 여기서, 광학 흐름 정보 이미지는, M 개의 이미지 중 제1 이미지와 제1 이미지 이전의 p 번째 이미지 사이의 광학 흐름 정보를 포함하고, 제1 이미지는 M 개의 이미지 중 어느 하나이고, 광학 흐름 정보는 이미지 내의 픽셀에 대한 순간 속도 벡터 정보를 포함함 -, 제1 딥 러닝 알고리즘을 이용하여 광학 흐름 정보 이미지에 대해 제스처 인식을 수행하여, 제1 인식 결과를 획득하는 단계 - 여기서, p는 1 이상의 정수임 -; M 개의 이미지에 대해 이미지 프로세싱을 수행하여, 제1 비디오 세그먼트에 대응하는 컬러 정보 이미지를 획득하고 - 여기서, 컬러 정보 이미지는 M 개의 이미지의 컬러 정보를 포함하고, 컬러 정보는 이미지 내의 각 픽셀에 대한 컬러 값을 포함함 -, 제2 딥 러닝 알고리즘을 이용하여 컬러 정보 이미지에 대해 제스처 인식을 수행하여, 제2 인식 결과를 획득하는 단계; 및 제1 인식 결과 및 제2 인식 결과를 결합하여, 제1 비디오 세그먼트의 제스처 인식 결과를 획득하는 단계를 포함한다.

전술한 가능한 구현 해결 방안에서, 비디오 세그먼트의 광학 흐름 정보 및 컬러 정보는 M 개의 이미지에 기초하여 추출되고, 추출된 광학 흐름 정보 및 컬러 정보에 기초하여 제스처 인식이 개별적으로 수행된 다음, 인식된 제스처 인식 결과가 결합되어, 단일의 딥 러닝 알고리즘을 이용하여 인식된 제스처가 부정확하다는 문제를 해결함으로써, 비디오 세그먼트의 제스처 인식 결과의 정확도를 향상시킬 수 있다.

가능한 구현 해결 방안에서, M 개의 이미지에 대해 이미지 프로세싱을 수행하여, 제1 비디오 세그먼트에 대응하는 광학 흐름 정보 이미지를 획득하는 단계는,

제1 이미지에 대해, 미리 설정된 규칙에 기초하여, 비디오 스트림에서 제1 이미지 이전의 p 번째 이미지를 획득하고, 제1 이미지와 p 번째 이미지 사이의 광학 흐름 정보를 계산하고, 제1 이미지와 p 번째 이미지 사이의 광학 흐름 정보를 포함하는 광학 흐름 정보 이미지를 생성하는 단계 - 여기서, 제1 이미지와 p 번째 이미지 사이의 시간 간격은 제1 딥 러닝 알고리즘의 순방향 계산 시간 또는 광학 흐름 정보 이미지를 계산하기 위해 필요한 시간 이상임 -; 또는

제1 이미지에 대해, 미리 설정된 규칙에 기초하여, 비디오 스트림에서 제1 이미지 이전의 모든 p 개의 이미지를 획득하고, 제1 이미지와 p 개의 이미지에서 모든 2 개의 인접한 이미지 사이의 광학 흐름 정보를 계산하고, 모든 2 개의 인접한 이미지 사이의 광학 흐름 정보가 축적된 후, 축적된 광학 흐름 정보를 포함하는 광학 흐름 정보 이미지를 생성하는 단계 - 여기서, 제1 이미지와 제1 이미지 이전의 p 번째 이미지 사이의 시간 간격은 제1 딥 러닝 알고리즘의 순방향 계산 시간 또는 광학 흐름 정보 이미지를 계산하기 위해 필요한 시간 이상임 - 를 포함한다.

전술한 가능한 구현 해결 방안에서, 현재 획득된 이미지와 현재 이미지 이전의 p 번째 이미지 사이의 광학 흐름 정보 이미지는, 현재 이미지 및 현재 이미지 이전의 p 번째 이미지에 기초하여 획득되어, 이후에 딥 러닝 알고리즘을 이용하여 광학 흐름 정보 이미지에 대한 제스처 인식을 수행할 수 있다. 이미지의 제스처는 세그먼트화되거나 추적될 필요가 없으므로, 제스처 인식 결과를 처리하는 프로세스가 단순화되고, 제스처 인식 속도가 증가하고, 제스처 인식 지연이 감소한다.

가능한 구현 해결 방안에서, M 개의 이미지에 대해 이미지 프로세싱을 수행하여, 제1 비디오 세그먼트에 대응하는 컬러 정보 이미지를 획득하는 단계는,

M 개의 이미지에서 m 개의 이미지에 대한 컬러 정보를 추출하고, 추출된 컬러 정보에 기초하여, m 개의 이미지에 각각 대응하는 컬러 정보 이미지를 생성하고, m 개의 이미지에 각각 대응하는 컬러 정보 이미지를 제1 비디오 세그먼트에 대응하는 컬러 정보 이미지로서 획득하는 단계 - 여기서, m 개의 이미지는 M 개의 이미지에서 m 개의 랜덤 이미지이거나, m 개의 이미지는 M 개의 이미지에 존재하며, 각각은 비디오 스트림의 이전 이미지에 대해 가장 큰 변화를 갖는 m 개의 이미지이고, m은 1 이상의 정수임 -; 또는

시간에 따라 이미지 내용이 변하는 M 개의 이미지에서 픽셀 위치를 검출하고, 인식된 픽셀 위치에 대응하는 M 개의 이미지에서 컬러 정보의 평균 값을 계산하여, 인식된 픽셀 위치에서의 새로운 컬러 정보를 획득하고, 인식된 픽셀 위치에서의 새로운 컬러 정보에 기초하여, 제1 비디오 세그먼트에 대응하는 컬러 정보 이미지를 생성하는 단계를 포함한다.

가능한 구현 해결 방안에서, M 개의 이미지를 획득하는 단계 전에, 제스처 인식 방법은,

비디오 스트림에서 미리 설정된 시간 길이를 갖는 시간 윈도우를 결정하는 단계 - 여기서, 시간 윈도우의 종료 모멘트는 제1 비디오 세그먼트에 대응하는 시간 구간 내에 있음 -; 시간 윈도우 내의 적어도 하나의 참조 이미지 및 마지막 이미지에 기초하여, 제1 비디오 세그먼트에서 액션이 수행되는지 여부를 판정하는 단계 - 여기서, 적어도 하나의 참조 이미지는, 시간 윈도우에서 마지막 이미지 이외의 임의의 이미지임 -; 및 판정 결과가 제1 비디오 세그먼트에서 액션이 수행되는 것이면, M 개의 이미지를 획득하는 단계를 수행하는 단계를 더 포함한다.

제스처 동작은 필연적으로 제스처 액션을 수반하기 때문에, 전술한 가능한 구현 해결 방안에서, 비디오 세그먼트에 대해 제스처 인식이 수행되기 전에, 먼저 비디오 세그먼트의 이미지 및 이미지 이전의 적어도 하나의 이미지를 이용하여 비디오 세그먼트에서 액션이 수행되는지 여부가 판정되고, 후속 인식 동작은 액션이 수행된 것으로 판정된 경우에만 수행되어, 불필요한 인식 단계를 줄이고, 컴퓨팅 자원을 절약하며, 인식 효율을 향상시키킬 수 있다.

가능한 구현 해결 방안에서, 시간 윈도우 내의 적어도 하나의 참조 이미지 및 마지막 이미지에 기초하여, 제1 비디오 세그먼트에서 액션이 수행되는지 여부를 판정하는 단계는,

적어도 하나의 참조 이미지 각각에 대해, 마지막 이미지의 편미분 이미지를 계산하는 단계 - 여기서, 편미분 이미지 내의 각 픽셀의 값은, 참조 이미지에서의 대응하는 픽셀의 값에 대한 값에 대한 마지막 이미지에서의 대응하는 픽셀의 값에 대한 편미분임 -; 편미분 이미지에서 각 픽셀의 값을 정규화하여, 정규화된 편미분 이미지를 획득하는 단계; 미리 설정된 이진화 임계 값에 기초하여 정규화된 편미분 이미지를 이진화하여, 편미분 이미지에 대한 이진화된 이미지를 획득하는 단계 - 여기서, 이진화된 이미지 내의 각 픽셀의 값은 0 또는 1임 -; 이진화된 이미지에서 픽셀의 그레이 스케일 값의 합을 계산하는 단계; 및 그레이 스케일 값의 합이 0 보다 큰 경우, 제1 비디오 세그먼트에서 액션이 수행되는 것으로 판정하는 단계를 포함한다.

가능한 구현 해결 방안에서, 제1 인식 결과와 제2 인식 결과를 결합하여, 제1 비디오 세그먼트의 제스처 인식 결과를 획득하는 단계는,

평균 값 계산의 계산 결과에 기초하여, 제1 인식 결과 및 제2 인식 결과에 대한 평균 값 계산을 수행하여, 제1 비디오 세그먼트의 제스처 인식 결과를 획득하는 단계; 또는 제1 인식 결과 및 제2 인식 결과를 사전 훈련된 제2 머신 러닝 모델에 입력하여, 제1 비디오 세그먼트의 제스처 인식 결과를 획득하는 단계를 포함한다.

제2 측면에 따르면, 제스처 인식 장치가 제공되고, 제스처 인식 장치는 제1 측면에서 제공되는 제스처 인식 방법 및 제1 측면의 가능한 구현 해결 방안을 구현하는 기능을 갖는다. 해당 기능은 하드웨어를 이용하여 구현되거나, 하드웨어에 의해 대응하는 소프트웨어를 실행함으로써 구현될 수 있다. 하드웨어 또는 소프트웨어는 전술한 기능에 대응하는 하나 이상의 유닛을 포함한다.

제3 측면에 따르면, 제스처 인식 디바이스가 제공된다. 제스처 인식 디바이스는 프로세서 및 메모리를 포함하고, 디바이스의 프로세서는, 메모리에 저장된 프로그램 또는 명령을 실행함으로써, 제1 측면에서 제공되는 제스처 인식 방법 및 제1 측면의 가능한 구현 해결 방안을 구현한다.

제4 측면에 따르면, 컴퓨터로 판독 가능한 저장 매체가 제공된다. 컴퓨터로 판독 가능한 저장 매체는 실행 가능한 프로그램을 저장하고, 프로세서는 실행 가능한 프로그램을 실행하여, 제1 측면에서 제공되는 제스처 인식 방법 및 제1 측면의 가능한 구현 해결 방안을 구현한다.

도 1은 본 출원에 따른 제스처 인식 시스템의 아키텍처도이다.
도 2는 도 1에 도시된 실시 예에서의 제스처 인식의 개략도이다.
도 3은 본 출원의 일 실시 예에 따른 제스처 인식 방법의 방법 흐름도이다.
도 4는 도 3에 도시된 실시 예에서의 2 개의 시간 윈도우 스팬(span)의 개략도이다.
도 5는 도 3에 도시된 실시 예에서의 인식 결과 결합의 개략도이다.
도 6은 도 3에 도시된 실시 예에서의 제스처 인식의 개략 흐름도이다. 삼;
도 7은 본 출원의 일 실시 예의 일 예에 따른 제스처 인식 디바이스의 개략 구조도이다.
도 8은 본 출원의 일 실시 예의 일 예에 따른 제스처 인식 장치의 구조 블록도이다.

본 출원의 목적, 기술적 해결 방안 및 이점을 보다 명확하게 하기 위해, 이하에서는 첨부된 도면을 참조하여 본 출원의 구현을 상세히 설명한다.

도 1은 본 출원의 일 실시 예에 따른 제스처 인식 시스템의 시스템 아키텍처도이다. 제스처 인식 시스템은 다음의 이미지 캡처 디바이스(110) 및 제스처 인식 디바이스(120)를 포함할 수 있다.

이미지 캡처 디바이스(110)는 카메라일 수 있다. 예를 들어, 이미지 캡처 디바이스(110)는 단일 카메라일 수 있거나, 이미지 캡처 디바이스(110)는 2 이상의 카메라를 포함하는 카메라 모듈일 수 있다.

이미지 캡처 디바이스(110)는 고정적으로 배치될 수 있거나, 이미지 캡처 디바이스(110)는 서보 모터와 통합될 수 있다. 서보 모터는, 제스처 인식 디바이스(120)의 제어에 따라, 이미지 캡처 디바이스(110)가 회전 또는 이동하여, 이미지 캡처 디바이스(110)의 촬영 각도 또는 촬영 위치를 변경하도록 구동할 수 있다.

제스처 인식 디바이스(120)는 범용 컴퓨터일 수 있거나, 제스처 인식 디바이스(120)는 내장 컴퓨팅 디바이스일 수 있다.

이미지 캡처 디바이스(110) 및 제스처 인식 디바이스(120)는 서로 독립적인 디바이스일 수 있으며, 이미지 캡처 디바이스(110) 및 제스처 인식 디바이스(120)는 유선 또는 무선 네트워크를 이용하여 서로 연결될 수 있다.

대안적으로, 이미지 캡처 디바이스(110) 및 제스처 인식 디바이스(120)는 동일한 물리적 디바이스에 통합될 수 있으며, 이미지 캡처 디바이스(110) 및 제스처 인식 디바이스(120)는 통신 버스를 사용하여 서로 연결될 수 있다.

선택적으로, 비디오 스트림에서 제스처를 인식한 후, 제스처 인식 디바이스(120)는 인식된 제스처를 제어 디바이스(130)로 전송한다. 제어 디바이스(130)는, 인식된 제스처에 기초하여, 대응하는 제어 명령을 결정하고, 결정된 제어 명령에 기초하여 대응하는 제어 동작을 수행, 예를 들어, 제어 명령에 기초하여 그래픽스 디스플레이를 제어하거나, 제어 명령에 기초하여 제어되는 디바이스가 동작을 수행하도록 제어한다.

본 출원의 본 실시 예에서, 이미지 캡처 디바이스(110)는 캡처된 비디오 스트림을 제스처 인식 디바이스(120)에 전송하고, 제스처 인식 디바이스(120)는 비디오 스트림에 대한 이미지 분석 및 제스처 인식을 수행하여, 비디오 스트림의 제스처를 즉시 인식한다 . 도 2를 참조하면, 도 2는 본 출원의 일 실시 예에 따른 제스처 인식의 개략도이다. 도 2에 도시된 바와 같이, 제스처 인식 중, 제스처 인식 디바이스(120)는 비디오 스트림의 비디오 세그먼트로부터 M 개의 이미지(M은 2 이상의 정수)를 추출할 수 있다. 제스처 인식 디바이스(120)는 딥 러닝 알고리즘을 이용하여 M 개의 이미지에 대해 제스처 인식을 수행하여, 비디오 세그먼트에 대응하는 제스처 인식 결과를 획득하고, 비디오 세그먼트를 포함하는 비디오 스트림에서 N 개의 연속된 비디오 세그먼트의 제스처 인식 결과를 획득한 후, N 개의 연속된 비디오 세그먼트의 제스처 인식 결과에 대한 결합을 수행하여, 결합된 제스처 인식 결과를 획득한다.

본 출원의 본 실시 예에 도시된 해결 방안에서, 완전한 제스처 액션은 복수의 위상 액션으로 분할된다. 위상 액션은 딥 러닝 알고리즘을 이용하여 인식되고, 최종적으로 인식된 위상 액션은 완전한 제스처 액션으로 결합된다. 인식 프로세스에서, 비디오 스트림에서의 제스처는 세그먼트화되거나 추적될 필요는 없지만, 위상 액션은 비교적 빠른 계산 속도를 갖는 딥 러닝 알고리즘을 이용하여 인식되어, 제스처 인식 속도를 증가시키고 제스처 인식 지연을 감소시킬 수 있다.

예를 들어, 전술한 딥 러닝 알고리즘은 광학 흐름 정보 및 컬러 정보에 기초한 이중 채널(dual-channel) 딥 러닝 알고리즘이다. 도 3을 참조하면, 도 3은 본 출원의 일 실시 예에 따른 제스처 인식 방법의 방법 흐름도이다. 도 3에 도시된 바와 같이, 제스처 인식 방법은 다음 단계를 포함할 수 있다.

단계 301: 비디오 스트림의 제1 비디오 세그먼트에 대해, 비디오 스트림에서 미리 설정된 시간 길이를 갖는 시간 윈도우를 결정하되, 여기서, 시간 윈도우의 종료 모멘트는 제1 비디오 세그먼트에 대응하는 시간 구간 내에 있다.

제1 비디오 세그먼트는 비디오 스트림 중 임의의 비디오 세그먼트이다. 본 출원의 본 실시 예에서, 제스처 인식 디바이스는 비디오 스트림을, 헤드 투 테일(head-to-tail) 방식으로 연결된 여러 비디오 세그먼트로 분할하고, 각각의 비디오 세그먼트에 대해 제스처 인식을 수행할 수 있다.

비디오 스트림은 상이한 시간 포인트(time point)에 대응하는 일련의 비디오 이미지를 포함한다. 본 출원의 본 실시 예에서, 시간 윈도우는 2 개의 상이한 비디오 이미지에 대응하는 시간 포인트들 사이의 시간 윈도우일 수 있다. 시간 윈도우에서 제1 이미지에 대응하는 시간 포인트와, 시간 윈도우에서 마지막 이미지에 대응하는 시간 포인트 사이가 미리 설정된 시간 길이이다.

시간 윈도우에서 마지막 이미지는 제1 비디오 세그먼트에서 인식될 이미지이고, 시간 윈도우에서 비디오 스트림의 다른 이미지는 제1 비디오 세그먼트 내의 이미지일 수 있거나, 또는 비디오 스트림에서 제1 비디오 세그먼트 이전의 이미지일 수 있다.

예를 들어, 도 4를 참조하면, 도 4는 본 출원의 일 실시 예에 따른 2 개의 시간 윈도우 스팬의 개략도이다. 도 4에서, 시간 윈도우의 시작 모멘트는 t₁이고, 시간 윈도우의 종료 모멘트는 t₂이며; 제1 비디오 세그먼트의 시작 모멘트는 t₃이고, 제1 비디오 세그먼트의 종료 모멘트는 t₄이다.

도 4(a)에 도시된 바와 같이, 가능한 구현에서, t₁ 및 t₂는 t₃과 t₄ 사이에 있다. 다시 말해서, 시간 윈도우는 완전히 제1 비디오 세그먼트 내에 있다.

도 4(b)에 도시된 바와 같이, 다른 가능한 구현에서, t₂는 t₃과 t₄ 사이에 있고, t₁은 t₃ 이전에 있다. 다시 말해서, 시간 윈도우의 일 부분은 제1 비디오 세그먼트 내에 있고, 시간 윈도우의 다른 부분은 제1 비디오 세그먼트 이전에 있다.

또한, 전술한 미리 설정된 시간 길이는 제스처 인식 디바이스에서 개발자에 의해 미리 설정될 수 있다.

단계 302: 시간 윈도우 내의 마지막 이미지 및 적어도 하나의 참조 이미지에 기초하여, 제1 비디오 세그먼트에서 액션이 수행되는지 여부를 판정하고, 그렇다면 단계 303을 수행하고, 그렇지 않으면 단계 301로 돌아가서 미리 설정된 시간 길이로 다음 시간 윈도우를 결정한다.

적어도 하나의 참조 이미지는, 시간 윈도우에서 마지막 이미지 이외의 임의의 이미지이다.

본 출원의 본 실시 예에서, 제스처 인식 디바이스는, 시간 윈도우 내에서 비디오 스트림의 마지막 이미지와 시간 윈도우에서 비디오 스트림의 적어도 하나의 다른 이미지 사이의 차이에 기초하여, 제1 비디오 세그먼트에서 액션이 수행되는지 여부를 판정한다.

실제 응용에서, 시간 윈도우 내의 마지막 이미지 및 시간 윈도우 내의 적어도 하나의 다른 이미지에 기초하여, 제1 비디오 세그먼트에서 액션이 수행되는지 여부를 판정하는 전술한 단계는 다음의 하위 단계를 포함할 수 있다.

단계 302a: 적어도 하나의 참조 이미지 각각에 대해, 마지막 이미지의 편미분 이미지를 계산하되, 여기서, 편미분 이미지 내의 각 픽셀의 값은, 참조 이미지에서의 대응하는 픽셀의 값에 대한 마지막 이미지에서의 대응하는 픽셀의 값의 편미분이다.

본 출원의 본 실시 예에서, 입력 비디오 스트림의 이미지는 f(x, y, t)로 정의될 수 있으며, 여기서 x는 이미지의 수평 성분이고, y는 이미지의 수직 성분이며, t는 시간 t=1, 2, ..., t₀ ...을 나타낸다. 입력 비디오 스트림의 2 개의 이미지 프레임은 f(x, y, t₀) 및 f(x, y, t₀-q)이다. 2 개의 인접한 이미지 프레임에 대해, q=1이다.

이것은 다음과 같이 정의된다. 모멘트 t₀에서의 이미지의 프레임은 f(x, y, t₀)이고, 모멘트 t₀에서의 이미지는 시간 윈도우 내의 마지막 이미지이다. 이 경우, 모멘트 t₀ 이전의 모멘트 q에서의 이미지는 f(x, y, t₀-q)이다. 그만큼 제스처 인식 디바이스는, 모멘트 t₀-q에 대한 모멘트 t₀에서, 시간 t에 대해, 비디오 스트림의 편미분을 계산한다:

단계 302b: 편미분 이미지의 각 픽셀의 값을 정규화하여, 정규화된 편미분 이미지를 획득한다.

제스처 인식 디바이스는 g(x, y, t₀)를 범위 [a, b]로 정규화, 예를 들어, 정규화 범위 [a, b] = [0,1]을 선택할 수 있다. 구체적으로, 제스처 인식 디바이스는 g(x, y, t₀)의 각 픽셀의 값을 범위 [0,1]의 값으로 정규화한다.

단계 302c: 미리 설정된 이진화 임계 값에 기초하여 정규화된 편미분 이미지를 이진화하여, 편미분 이미지에 대한 이진화된 이미지를 획득하되, 이진화된 이미지 내의 각 픽셀의 값은 0 또는 1이다.

본 출원의 본 실시 예에서, 정규화된 편미분 이미지가 획득된 후, 정규화된 편미분 이미지는, 정규화된 편미분 이미지 내의 각각의 픽셀의 값과 미리 설정된 이진화 임계 값 사이의 값 관계에 기초하여 이진화될 수 있고, 정규화된 편미분 이미지 내의 각 픽셀의 값은 0 또는 1이다. 정규화된 편미분 이미지 내의 각 픽셀의 값을 이진화하기 위한 식은 다음과 같다.

상기 식(2)에서, Z는 미리 설정된 이진화 임계 값이다. 정규화된 편미분 이미지 g(x, y, t₀) 내의 픽셀의 값에 대해, 픽셀의 값이 Z보다 크면 픽셀의 값은 1로 이진화되고, 픽셀의 값이 Z 이하이면 픽셀 값은 0으로 이진화된다.

미리 설정된 이진화 임계 값은 미리 설정되며, (0, 1) 사이의 값이다. 예를 들어, 미리 설정된 이진화 임계 값은 0.5일 수 있거나, 미리 설정된 이진화 임계 값은 0.4 또는 0.6일 수 있다. 이진화 임계 값은 실제 처리 효과에 기초하여 개발자에 의해 미리 설정될 수 있다.

단계 302d: 이진화된 이미지에서 픽셀의 그레이 스케일 값의 합을 계산한다.

단계 302e: 그레이 스케일 값의 합이 0 보다 큰 경우, 제1 비디오 세그먼트에서 액션이 수행되는 것으로 판정한다.

본 출원의 본 실시 예에서, 이진화된 이미지 g_b(x, y, t₀)를 획득한 후, 제스처 인식 디바이스는 g_b(x, y, t₀) 내의 그레이 스케일 값의 합 Sum(t₀)을 계산한다. 합 Sum(t₀)이 0 보다 큰 경우, 제스처 인식 디바이스는 제1 비디오 세그먼트에서 액션이 수행되는 것으로 판정할 수 있다. 그렇지 않으면, 제스처 인식 디바이스는 제1 비디오 세그먼트에서 "어떤 액션도" 수행되지 않는 것으로 간주한다. 합 Sum(t₀)에 대한 식은 다음과 같다.

Sum(t₀) > 0이면, 제스처 인식 디바이스는 액션이 수행된 것으로 판정하고 단계 303을 수행한다. Sum(t₀) ≤ 0이면, 제스처 인식 디바이스는 액션이 수행되지 않은 것으로 판정하고, 단계 301로 돌아간다.

단계 303: M 개의 이미지를 획득하되, 여기서 M 개의 이미지는 제1 비디오 세그먼트로부터 추출된 M 개의 이미지이다.

단계 302에서, 제1 비디오 세그먼트에서 액션이 수행되는 것으로 판정하는 경우, 제스처 인식 디바이스는 제1 비디오 세그먼트로부터 M 개의 이미지를 추출할 수 있고, M은 2 이상의 정수이다.

실제 응용에서, 제스처 인식 디바이스는 제1 비디오 세그먼트에서 각각의 이미지를 추출하여 M 개의 이미지를 획득할 수 있다. 대안적으로, 제스처 인식 디바이스는, 다른 이미지마다 또는 더 많은 이미지마다 제1 비디오 세그먼트로부터 하나의 이미지를 추출하여, M 개의 이미지를 획득할 수 있다.

단계 304: M 개의 이미지에 대해 이미지 프로세싱을 수행하여, 제1 비디오 세그먼트에 대응하는 광학 흐름 정보 이미지를 획득한다.

광학 흐름 정보 이미지는, M 개의 이미지 중 제1 이미지와 제1 이미지 이전의 p 번째 이미지 사이의 광학 흐름 정보를 포함한다. 제1 이미지는 M 개의 이미지 중 어느 하나이고, 광학 흐름 정보는 이미지 내의 픽셀에 대한 순간 속도 벡터 정보를 포함하고, p는 1 이상의 정수이다.

광학 흐름은 관찰 이미징 평면(observation imaging plane) 상에서의 공간적으로 이동하는 객체에 대한 픽셀 모션의 순간 속도이다. 제스처 인식 디바이스는, 시간 도메인의 이미지 시퀀스에서의 픽셀의 변화와, 인접한 프레임 간의 상관 관계를 이용하여, 이전 이미지와 현재 이미지 사이의 대응성을 찾아, 계산을 통해 두 이미지 사이의 객체의 모션 정보를 획득할 수 있다 . 계산을 통해 획득된, 두 이미지 사이의 객체의 모션 정보는 두 이미지 사이의 광학 흐름 정보이다. 두 이미지 사이의 객체의 모션 정보를 계산하기 위한 전술한 방법을 광학 흐름 방법이라고 한다. 광학 흐름 정보는 광학 흐름 필드(optical flow field)라고도 하며, 이미지 그레이 스케일 모드에서의 겉보기 모션(apparent motion)을 나타낸다. 광학 흐름 필드는 2 차원 벡터 필드이고, 2 차원 벡터 필드에 포함된 정보는 각 픽셀의 순간 모션 속도 벡터 정보이다. 따라서, 광학 흐름 정보는 원본 이미지와 동일한 크기의 이중 채널 이미지로 표현될 수 있다.

광학 흐름 정보 이미지를 추출하는 경우, 제스처 인식 디바이스는, 제1 비디오 세그먼트에서 RGB 이미지 시퀀스를 사용하여 (제1 비디오 세그먼트에 포함된 프레임의 양에 관계 없이) 하나의 광학 흐름 정보 이미지를 획득할 수 있다. 본 출원의 본 실시 예에서, 제1 비디오 세그먼트에 대응하는 광학 흐름 정보 이미지는 다음 두 가지 방식으로 획득될 수 있다.

방식 1: M 개의 이미지 중 제1 이미지에 대해, 미리 설정된 규칙에 기초하여, 비디오 스트림에서 제1 이미지 p 번째 이미지를 획득하고, 제1 이미지와 p 번째 이미지 사이의 광학 흐름 정보를 계산하고, 제1 이미지와 p 번째 이미지 사이의 광학 흐름 정보를 포함하는 광학 흐름 정보 이미지를 생성한다.

제1 이미지와 p 번째 이미지 사이의 시간 간격은 제1 딥 러닝 알고리즘의 순방향 계산 시간 또는 광학 흐름 정보 이미지를 계산하기 위해 필요한 시간 이상이다. 제1 딥 러닝 알고리즘은, 광학 흐름 정보 이미지에 기초하여 제스처를 이어서 인식하기 위해 제스처 인식 디바이스에 의해 사용되는 알고리즘이다.

미리 설정된 규칙은 개발자 또는 사용자에 의해 독립적으로 설정되는 규칙일 수 있다. 예를 들어, 개발자 또는 사용자는 p의 값을 수동으로 설정할 수 있다. 대안적으로, 제스처 인식 디바이스는 미리 설정된 규칙 및 디바이스의 처리 성능에 기초하여 p의 값을 독립적으로 설정할 수 있다. 예를 들어, 제스처 인식 디바이스는, 제1 딥 러닝 알고리즘의 순방향 계산 및 광학 흐름 정보 이미지의 계산을 사전 실행(pre-run)하고, 순방향 계산 시간 및 광학 흐름 정보 이미지를 계산하기 위해 사용되는 시간을 기록하고, 순방향 계산 시간, 광학 흐름 정보 이미지를 계산하기 위해 사용된 시간, 및 비디오 스트림의 프레임 레이트(구체적으로, 초 당 비디오에 포함된 이미지의 양)에 기초하여 p의 값을 설정한다. 구체적으로, 예를 들어, 제스처 인식 디바이스는, 순방향 계산 시간과, 광학 흐름 정보 이미지를 계산하기 위해 사용되는 시간 사이의 더 큰 값이, 비디오 스트림 내의 이미지의 양에 대응하는 것으로 결정하고, 결정된 이미지의 양에 대응하는 값을 p의 값으로 설정할 수 있다.

실시간 비디오의 경우, T가 이미지와 해당 이미지 이전의 p 번째 이미지 사이의 시간 간격인 경우, T의 최소값은, 광학 흐름 정보 이미지를 사용함으로써 제스처 인식을 수행하기 위해 제스처 인식 디바이스에 의해 사용되는 딥 러닝 네트워크 순방향 계산을 위해 요구되는 시간과, 광학 흐름 정보 이미지를 계산하기 위해 제스처 인식 디바이스에 의해 요구되는 시간 사이에서 더 큰 값일 수 있다.

는 광학 흐름 알고리즘을 나타내는 것으로 가정한다. 가능한 구현에서, 제스처 인식 디바이스는, 계산을 통해, M 개의 이미지 중 이미지 I_t(x, y) 및 I_t(x, y) 이전의 p 번째 이미지 I_t-T(x, y)에 기초하여 유클리드 광학 흐름 필드(유클리드 모션 필드) 알고리즘을 사용하여 M 개의 이미지 중 하나의 이미지에 대응하는 광학 흐름 정보를 직접 획득하고, 계산을 통해 획득한 광학 흐름 정보를 포함하는 광학 흐름 정보 이미지를 생성하고, 광학 흐름 정보 이미지를, 제1 비디오 세그먼트에 대응하는 광학 흐름 정보 이미지로서 사용할 수 있다. 광학 흐름 정보 이미지를 계산하기 위한 식은 다음과 같이 간단하게 표현될 수 있다.

상기 식(4)에서, U_t(x, y)는 이미지 I_t(x, y)에 대응하는 광학 흐름 정보 이미지이고,

는 유클리드 광학 흐름 필드 알고리즘을 나타낸다.

방식 2: M 개의 이미지 중 제1 이미지에 대해, 미리 설정된 규칙에 기초하여, 비디오 스트림에서 제1 이미지 이전의 모든 p 개의 이미지를 획득하고, 제1 이미지와 p 개의 이미지에서 모든 2 개의 인접한 이미지 사이의 광학 흐름 정보를 계산하고, 모든 2 개의 인접한 이미지 사이의 광학 흐름 정보가 축적된 후, 축적된 광학 흐름 정보를 포함하는 광학 흐름 정보 이미지를 생성한다.

다른 가능한 구현에서, 제스처 인식 디바이스는, 라그랑주 광학 흐름 필드(라그랑주 모션 필드)를 사용하여 M 개의 이미지에서 이미지 I_t(x, y) 및 I_t(x, y) 이전의 p 개의 이미지 I_t-1(x, y), I_t-2(x, y), ... 및 I_t-T(x, y)에서 모든 2 개의 인접한 이미지 사이의 광학 흐름 정보를 계산한 다음, 모든 2 개의 인접한 이미지 사이의 광학 흐름 정보를 축적하여, 축적된 광학 흐름 정보를 포함하는 이미지 U_t(x, y)를 생성할 수 있다. 누락된 데이터 보간은 광학 흐름 정보를 축적하는 과정과 관련이 있다. 선형(linear), 이중선형(bilinear) 및 입방형(cubic) 곡선과 같은 보간 방식이 선택될 수 있다. 광학 흐름 정보 이미지를 계산하기 위한 식은 다음과 같이 간단하게 표현될 수 있다.

상기 식(5)에서, U_t(x, y)는 이미지 I_t(x, y)에 대응하는 광학 흐름 정보 이미지이고,

는 라그랑주 광학 흐름 필드 알고리즘을 나타낸다.

방식 1에서, 광학 흐름 필드는 한 번만 계산될 필요가 있다. 따라서, 비교적 정확한 광학 흐름 필드 알고리즘이 선택될 필요가 있다. 방식 2에서, 광학 흐름 필드는 복수 회 계산될 필요가 있다. 따라서, 정확도는 낮지만 빠른 속도의 광학 흐름 필드 알고리즘이 사용될 수 있다.

단계 305: M 개의 이미지에 대해 이미지 프로세싱을 수행하여, 제1 비디오 세그먼트에 대응하는 컬러 정보 이미지를 획득한다.

컬러 정보 이미지는 M 개의 이미지에 대한 컬러 정보를 포함한다. 컬러 정보는 이미지 내의 각 픽셀에 대한 컬러 값을 포함한다.

제스처 인식 디바이스는 제1 비디오 세그먼트 중 하나의 이미지 시퀀스를 프로세싱하고, RGB(빨강 녹색 파랑) 이미지와 같은 m 개의 컬러 정보 이미지를 출력하여, 제1 비디오 세그먼트에 대응하는 컬러 정보 이미지를 표현하며, m은 1 이상의 정수이다. 제1 비디오 세그먼트의 모든 이미지 I_t-T(x, y), I_t-T+1(x, y), ..., I_t-1(x, y) 및 I_t(x, y)가 입력되고, 비디오 세그먼트의 종료 모멘트에서 m 개의 이미지

로 표현되는 제1 비디오 세그먼트의 이미지에 대한 컬러 정보가 출력되는 것으로 가정된다.

M 개의 이미지에 대한 이미지 프로세싱을 수행하는 경우, 제1 비디오 세그먼트에 대응하는 컬러 정보 이미지를 획득하기 위해, 제스처 인식 디바이스는 다음 방법들을 사용하여 컬러 정보 이미지를 획득할 수 있다.

(1) M 개의 이미지에서 m 개의 이미지의 컬러 정보를 추출하고, 추출된 컬러 정보에 기초하여, m 개의 이미지에 각각 대응하는 컬러 정보 이미지를 생성하고, m 개의 이미지에 각각 대응하는 컬러 정보 이미지를 제1 비디오 세그먼트에 대응하는 컬러 정보 이미지로서 획득한다. 예를 들어, m 개의 이미지에서 임의의 이미지에 대한 컬러 정보를 추출한 후, 제스처 인식 디바이스는 임의의 이미지에 대응하는 컬러 정보 이미지를 생성하고, 생성된 컬러 정보 이미지는 임의의 이미지에 대한 컬러 정보를 포함한다.

m 개의 이미지는 M 개의 이미지 중 m 개의 랜덤 이미지이다. 예를 들어, 단일 컬러 정보 이미지가 획득된다. 본 출원의 본 실시 예에서, 제1 비디오 세그먼트의 시간 길이가 상대적으로 작은 경우, 제1 비디오 세그먼트로부터 랜덤하게 직접 선택된 이미지에 대응하는 컬러 정보 이미지가

를 나타내기 위해 사용될 수 있다. 구체적으로,

여기서 t-T는 제1 비디오 세그먼트에서 제1 이미지에 대응하는 시간 포인트이고, t는 제1 비디오 세그먼트에서 마지막 이미지에 대응하는 시간 포인트이다.

선택적으로, 제1 비디오 세그먼트에 대응하는 컬러 정보 이미지로서 m 개의 이미지에 대한 컬러 정보 이미지를 랜덤하게 선택하는 것에 추가로, 제스처 인식 디바이스는, 다른 정책을 사용하여, m 개의 이미지에 대한 컬러 정보 이미지를 제1 비디오 세그먼트에 대응하는 컬러 정보 이미지로서 대안적으로 선택할 수 있다. 예를 들어, 제스처 인식 디바이스는, 제1 비디오 세그먼트에 대응하는 컬러 정보 이미지로서 M 개의 이미지 중 가장 빠르거나 가장 늦은 대응하는 시간에서 m 개의 이미지에 대한 컬러 정보 이미지를 사용할 수 있다.

다른 가능한 구현에서, m 개의 이미지는 M 개의 이미지에 존재하며, 각각은 비디오 스트림의 이전 이미지에 대해 가장 큰 변화를 갖는 m 개의 이미지일 수 있다.

예를 들어, 각각의 M 개의 이미지에 대해, 제스쳐 인식 디바이스는, 이미지 내에 존재하는 픽셀로서 비디오 스트림 내의 이미지 이전의 이미지에 비해 변화하는 픽셀을 검출할 수 있고, 제스쳐 인식 디바이스는, M 개의 이미지 내에 존재하는 m 개의 이미지로서 각각이 제1 비디오 세그먼트에 대응하는 컬러 정보 이미지로서 이전 이미지에 비해 변화된 가장 많은 양의 픽셀을 갖는 m 개의 이미지에 대응하는 컬러 정보 이미지를 획득할 수 있다.

(2) 시간에 따라 이미지 내용이 변하는 M 개의 이미지에서 픽셀 위치를 검출하고, 인식된 픽셀 위치에 대응하는 M 개의 이미지에서 컬러 정보의 평균 값을 계산하여, 인식된 픽셀 위치에서의 새로운 컬러 정보를 획득하고, 인식된 픽셀 위치에서의 새로운 컬러 정보에 기초하여, 제1 비디오 세그먼트에 대응하는 컬러 정보 이미지를 생성한다.

본 출원의 본 실시 예에서, 제스처 인식 디바이스는, 시간에 따라 이미지 내용이 변하는 M 개의 이미지에서 픽셀 위치(픽셀 위치는 이미지의 픽셀의 좌표일 수 있음)를 인식하기 위해 M 개의 이미지의 동일한 위치에 있는 픽셀을 추가로 비교하고, M 개의 이미지 내에 있는 픽셀로서, 인식된 픽셀 위치에 대응하는 픽셀에 대한 컬러 정보의 평균 값을 계산하여, 인식된 픽셀 위치에 대응하는 새로운 컬러 정보를 획득하고, 새로운 컬러 정보 이미지를 생성할 수 있다. 새로운 컬러 정보 이미지에 있는 인식된 픽셀 위치에 대응하는 컬러 정보는 평균화를 통해 획득된 새로운 컬러 정보이다.

이미지 내에 있는 픽셀로서 이전 이미지에 비해 변화하는 픽셀을 검출하기 위한 전술한 알고리즘과, 이미지 내에 있는 픽셀 위치로서 시간에 따라 변화하는 픽셀 위치를 검출하기 위한 전술한 알고리즘은 집합적으로 공간 시간적 핵심 이미지 검출 알고리즘(spatial-temporal salient image detection algorithm)으로 지칭될 수 있다.

(3) M 개의 이미지에서 전부 또는 일부 이미지에 대한 컬러 정보를 추출하여, 전부 또는 일부 이미지에 각각 대응하는 컬러 정보 이미지를 획득하고, 전부 또는 일부 이미지에 각각 대응하는 컬러 정보 이미지에서 픽셀에 대한 컬러 정보의 평균 값을 계산하여, 제1 비디오 세그먼트에 대응하는 컬러 정보 이미지를 획득한다.

예를 들어, M 개의 이미지는 비디오 세그먼트 내의 모든 이미지이고, 단일 컬러 정보 이미지가 획득된다. 제1 비디오 세그먼트의 컬러 정보 이미지로서 제1 비디오 세그먼트 내의 모든 이미지에 대한 컬러 정보의 평균 값을 계산하기 위한 식은 다음과 같을 수 있다.

여기서 t-T는 제1 비디오 세그먼트에서 제1 이미지에 대응하는 시간 포인트이고, t는 제1 비디오 세그먼트에서 마지막 이미지에 대응하는 시간 포인트이며, n은 제1 비디오 세그먼트 내의 이미지의 양이다.

(4) M 개의 이미지에서 전부 또는 일부 이미지에 대한 컬러 정보를 추출하여, 전부 또는 일부 이미지에 각각 대응하는 컬러 정보 이미지를 생성하고, 전부 또는 일부 이미지에 각각 대응하는 컬러 정보 이미지에서 픽셀에 대한 컬러 정보의 평균 값을 계산한 다음, 제1 비디오 세그먼트에 대응하는 컬러 정보 이미지로서, 상기 픽셀에 대해 계산된 컬러 정보를, 전부 또는 일부 이미지에 각각 대응하는 컬러 정보 이미지의 픽셀에 대한 컬러 정보로부터 감산한 후에 획득한 컬러 정보 이미지를 사용한다.

변화하는 M 개의 이미지 내의 픽셀은 일반적으로 전경 부분(구체적으로, 사람의 손에 대응하는 부분)이고, 배경 부분에 해당하는 픽셀은 일반적으로, 전부 또는 일부 이미지에 각각 대응하는 컬러 정보 이미지에서, 변화하지 않은 채로 있기 때문에, 배경 부분에 대응하는 픽셀에 대한 컬러 정보는 일반적으로 배경 부분에 있는 컬러 정보의 평균 값과 동일하거나 유사하고, 전경 부분에 대응하는 픽셀의 컬러 정보는 일반적으로 전경 부분의 컬러 정보의 평균 값과 크게 다르다. 따라서, 본 출원의 본 실시 예에서, 배경 부분 이외의 전부 또는 일부 이미지에 각각 대응하는 컬러 정보 이미지는, 대응하는 픽셀 위치의 평균 값을, 전부 또는 일부 이미지에 각각 대응하는 컬러 정보 이미지 내의 픽셀에 대한 컬러 정보로부터 감산함으로써 획득될 수 있다. 제스처 인식 디바이스는, 제1 비디오 세그먼트에 대응하는 컬러 정보 이미지로서, 배경 부분 이외의 전부 또는 일부 이미지에 각각 대응하는 컬러 정보 이미지를 사용할 수 있다.

단계 306: 제1 딥 러닝 알고리즘을 이용하여 광학 흐름 정보 이미지에 대해 제스처 인식을 수행하여 제1 인식 결과를 획득하고, 제2 딥 러닝 알고리즘을 이용하여 컬러 정보 이미지에 대해 제스처 인식을 수행하여 제2 인식 결과를 획득한다.

본 출원의 본 실시 예에서, (RGB 이미지와 같은) 컬러 정보 이미지 및 광학 흐름 정보 이미지는 입력 비디오 스트림에 기초하여 전술한 단계에서 획득될 수 있다. 단계 306에서 2 개의 딥 러닝 모델이 제스처 인식을 위해 각각 사용되며, 2 개의 딥 러닝 모델을 사용하여 획득한 인식 결과는 다음 단계에서 결합된다.

본 출원의 본 실시 예에서, 제스처 인식을 위해 이중 채널 딥 러닝 모델이 사용된다. 하나의 채널은 (제1 딥 러닝 알고리즘에 대응하는) 시간적 스트림이다. 광학 흐름 정보 이미지는 시간적 스트림에 입력되고, 최종적으로 현재의 광학 흐름 정보 이미지에 대한 제스처 인식 결과가 출력된다. 예를 들어, 단계 304에서, M 개의 이미지 각각의 광학 흐름 정보 이미지를 획득한 후, 제스처 인식 디바이스는 광학 흐름 정보 이미지를 캐싱한다. 광학 흐름 정보 이미지에 대해 제스처 인식을 수행하는 경우, 제스처 인식 디바이스는 X 개의 최근에 저장된 광학 흐름 정보 이미지를 딥 러닝 채널, 구체적으로, 시간적 스트림에 입력하여, X 개의 광학 흐름 정보 이미지에 대응하는 제스처 인식 결과를 출력하고, 출력된 제스처 인식 결과를 제1 비디오 세그먼트의 광학 흐름 정보 이미지에 대해 제스처 인식을 수행한 결과로서 사용한다.

이중 채널 딥 러닝 모델에서, 다른 채널은 (제2 딥 러닝 알고리즘에 대응하는) 공간적 스트림이다. 단계 305에서 획득된 컬러 정보 이미지로서 제1 비디오 세그먼트에서 적어도 하나의 컬러 정보 이미지를 나타내는 컬러 정보 이미지가 공간적 스트림에 입력되고, 적어도 하나의 컬러 정보 이미지에 대한 제스처 인식 결과가 출력된다.

이중 채널 딥 러닝 모델은 사전 훈련된 머신 러닝 모델이다.

단계 307: 제1 인식 결과와 제2 인식 결과를 결합하여 제1 비디오 세그먼트에 대한 제스처 인식 결과를 획득한다.

본 출원의 본 실시 예에서, 단계 306에서 획득된, 광학 흐름 정보 이미지에 대한 제스처 인식 결과 및 컬러 정보 이미지에 대한 제스처 인식 결과는, 동일한 비디오 세그먼트에 대한 제스처 인식 결과이기 때문에, 광학 흐름 정보 이미지에 대한 제스처 인식 결과 및 컬러 정보 이미지에 대한 제스처 인식 결과를 획득한 후, 제스처 인식 디바이스는 2 개의 결과를 결합하여 제1 비디오 세그먼트의 제스처 인식 결과를 획득할 수 있다.

제1 인식 결과 및 제2 인식 결과는 다음 두 가지 방식으로 결합될 수 있다.

하나의 방식은 제1 인식 결과 및 제2 인식 결과에 대해 평균 값 계산을 수행하여, 평균 값 계산의 계산 결과에 기초하여 제1 비디오 세그먼트의 제스처 인식 결과를 획득하는 것이다.

다른 방식은 제1 인식 결과 및 제2 인식 결과를, 선형 서포트 벡터 머신(SVM) 모델과 같은 사전 훈련된 제2 머신 러닝 모델에 입력하여 제1 비디오 세그먼트의 제스처 인식 결과를 획득하는 것이다. 제2 머신 러닝 모델은 2 개의 입력 인식 결과에 기초하여 단일 인식 결과를 결정하기 위해 사용되는 학습 모델이며, 제2 머신 러닝 모델은 제스처가 사전 라벨링된(pre-labeled) 비디오 세그먼트를 사용함으로써 훈련을 통해 획득될 수 있다. 구체적으로, 예를 들어, 2 개의 인식 결과는 2 개의 값일 수 있다. 제스처 인식 디바이스는 2 개의 값을 제2 머신 러닝 모델에 입력할 수 있고, 제2 머신 러닝 모델은 사전 훈련된 계산 식 및 2 개의 입력 값에 기초한 계산을 통해 결합된 값을 획득하고, 결합된 값을 제1 비디오 세그먼트의 제스처 인식 결과로서 출력할 수 있다.

제스처 인식 디바이스는, 실시간으로, 각 비디오 세그먼트에 대응하는 위상 제스처 인식 결과를 획득하고, 위상 제스처 인식 결과를 임시 제스처 인식 결과 라이브러리에 저장한다.

단계 308: 제1 비디오 세그먼트를 포함하는 비디오 스트림에서 N 개의 연속된 비디오 세그먼트에 대한 제스처 인식 결과를 획득한 후, N 개의 연속된 비디오 세그먼트의 제스처 인식 결과에 대한 결합을 수행하여, 결합된 제스처 인식 결과를 획득한다.

N≥2이고 N은 정수이다.

본 출원의 본 실시 예에서, N 개의 연속된 비디오 세그먼트의 제스처 인식 결과에 대한 결합을 수행하는 경우, 제스처 인식 디바이스는 N 개의 연속된 비디오 세그먼트의 제스처 인식 결과를, 사전 훈련된 제1 머신 러닝 모델에 입력하여, 결합된 제스처 인식 결과를 획득할 수 있다. 제1 머신 러닝 모델은, 입력된 N 개의 연속적인 제스처 인식 결과를 포함하는 전체 제스처 모션 트렌드를 결정하고, 전체 제스처 모션 트렌드에 대응하는 제스처를 결합된 제스처 인식 결과로서 출력하기 위해 사용된다. 구체적으로, 예를 들어, N 개의 연속적인 제스처 인식 결과는 N 개의 값일 수 있다. 제스처 인식 디바이스는, N 개의 비디오 세그먼트의 시간 시퀀스에 기초하여 N 개의 값을 제1 머신 러닝 모델에 입력할 수 있고, 제1 머신 러닝 모델은, 사전 훈련된 계산 식 및 순서대로 입력되는 N 개의 값에 기초한 계산을 통해 결합된 값을 획득하고, 결합된 값을 결합된 제스처 인식 결과로서 출력한다.

제1 머신 러닝 모델은 뉴럴 네트워크 모델이고, 뉴럴 네트워크 모델은 N 개의 뉴런을 가지거나; 제1 머신 러닝 모델은 서포트 벡터 머신(SVM) 모델이다.

대안적으로, 본 출원의 본 실시 예에서, N 개의 연속된 비디오 세그먼트의 제스처 인식 결과에 대한 결합을 수행하는 경우, 제스처 인식 디바이스는 N 개의 연속된 비디오 세그먼트에 대한 제스처 인식 결과에 각각 대응하는 미리 설정된 가중 계수를 획득하고, N 개의 연속된 비디오 세그먼트의 제스처 인식 결과에 각각 대응하는 가중 계수에 기초하여 N 개의 연속된 비디오 세그먼트의 제스처 인식 결과에 대해 가중화된 평균화을 수행하여, 결합된 제스처 인식 결과를 획득할 수 있다.

실제 응용에서, 사용자가 단일 제스처 동작을 수행하는 프로세스에서, 전체 제스처 모션 트렌드는 사용자가 수행할 것으로 예상되는 제스처 액션에 부합하지만, 짧은 시간 내에서, 사용자의 제스처는, 사용자가 수행할 것으로 예상되는 제스처 액션에 부합하지 않을 수 있다. 예를 들어, 사용자가 수행할 것으로 예상되는 제스처 동작은 손을 올리는 것이다. 사용자는 1 초 동안 손을 올리는 제스처 동작을 수행하지만, 사용자는 1 초 중 (0.2 초와 같은) 매우 짧은 시간 동안에는 손을 올리지 않고 손을 약간 아래로 누르고, 사용자는 상기 매우 짧은 시간 이후에 손을 올리는 것을 계속한다. 이 경우, 매우 짧은 시간 중의 제스처 인식 결과로서, 제스처 인식 디바이스에 의해 인식되는 제스처 인식 결과는, 사용자가 현재 수행할 것으로 예상되는 제스처 동작에 부합하지 않는다. 따라서, 본 출원의 본 실시 예에서, 제스처 인식 정확도를 향상시키기 위해, 제스처 인식 디바이스는 복수의 연속적인 비디오 세그먼트의 제스처 인식 결과(구체적으로, 제스처 인식 결과의 시퀀스)를 결합하고, 결합된 제스처 인식 결과로서, 복수의 비디오 세그먼트에 대한 제스처 인식 결과에 의해 반영된 전체 제스처 모션 트렌드를 사용할 수 있다.

구체적으로, 다음과 같이 정의된다. 실시간이고 연속적인 비디오 스트림에서, 제스처 인식 디바이스는, N X T₁ 시간(T₁은 하나의 비디오 세그먼트의 시간 길이)에서 위상 액션 인식 결과를 N 번 계산하고, (N X T₁ 시간 이후) N 개의 위상 인식 결과에 대한 결합된 결정을 사용하여 최종 인식 결과를 제공한다. 여기서 N X T₁의 값은, 하나의 제스처 액션을 수행하기 위해 사용자에 의해 사용되는 평균 시간 길이에 기초하여 대략 1 초일 수 있다. N개의 위상 인식 결과는 복수의 구현, 예를 들어, 다음 두 가지 방식을 이용하여 결합된다.

(1) 선형 결합:

여기서, r₁, r₂, ... 및 r_N은 위상 인식 결과이고, 해당 결과 이전의 가중 계수가 α₁, α₂, ... 및 α_N이다. 이들 가중 계수는 머신 러닝 알고리즘을 이용하여 미리 결정된 계수일 수 있으며, 상이한 계수 결합에 기초하여 상이한 결합 방식이 생성된다.

(2) 서포트 벡터 머신 SVM 방법:

도 5를 참조하면, 도 5는 본 출원의 일 실시 예에 따른 인식 결과 결합의 개략도이다. 도 5에 도시된 바와 같이, 본 출원의 본 실시 예에서, 위상 인식 결과 r₁, r₂, ... 및 r_N은 사전 훈련된 머신 러닝 모델, 구체적으로, SVM 모듈(SVM 모듈의 SVM 커널 함수는 미리 설정되거나 또는 사전 훈련된 커널 함수임)에 입력되고, 결합된 결과를 출력한다.

결합된 제스처 인식 결과를 획득한 후, 제스처 인식 디바이스는 제스처 인식 결과에 기초하여 (슬라이드 프레젠테이션 또는 풀 스크린 화상 재생과 같은) 대응하는 모듈을 호출하여, 인간 기계 상호 작용을 구현할 수 있다.

본 출원의 본 실시 예에서, 제스처 인식 디바이스가 비디오 세그먼트에서 아무 액션도 수행되지 않은 것으로 판정하면, 제스처 인식 디바이스는 비디오 세그먼트에 대해 제스처 인식을 수행하지 않아, 제스처 인식 주파수를 감소시키고, 불필요한 인식 과정을 회피할 수 있다. 구체적으로, 제스처 인식 디바이스는, 비디오 세그먼트의 제스처 인식 결과를 널(null)로 직접 설정하거나, 비디오 세그먼트의 제스처 인식 결과를 설정하지 않을 수 있다.

도 6을 참조하면, 도 6은 본 출원의 일 실시 예에 따른 제스처 인식의 개략 흐름도이다. 예를 들어, 본 절차는 도 1에 도시된 제스처 인식 시스템에 사용된다. 도 6에 도시된 바와 같이, 이미지 캡처 디바이스는 캡처된 비디오 스트림을 제스처 인식 디바이스에 입력한다. 비디오 스트림에서 이미지를 추출한 후, 제스처 인식 디바이스는, 단계 302에 따른 방법을 사용하여 일정 기간 동안 이미지 및 해당 이미지 이전의 적어도 하나의 이미지에 기초하여, 해당 이미지 이전의 적어도 하나의 이미지에 대해 해당 이미지에서 액션이 수행되는지 여부를 판정한다. 동작이 수행되는 것으로 결정되면, 비디오 스트림 내의 현재 이미지가 위치하는 비디오 세그먼트의 이미지에 대해(또는 일부 이미지에 대해), 제스처 인식 디바이스는, 단계 304 및 단계 305의 방법을 사용하여 광학 흐름 정보 이미지 및 컬러 정보 이미지를 각각 추출하고, 단계 306에 따른 방법을 사용하여 광학 흐름 정보 이미지 및 컬러 정보 이미지에 대해 제스처 인식을 각각 수행한 다음, 단계 307의 방법을 사용하여, 광학 흐름 정보 이미지 및 컬러 정보 이미지에 대해 제스처 인식을 각각 수행함으로써 획득한 제스처 인식 결과를 결합하여, 비디오 세그먼트에 대응하는 위상 제스처 인식 결과를 획득한다. N 개의 위상 제스처 인식 결과를 연속적으로 획득한 후, 제스처 인식 디바이스는, 단계 308에 따른 방법을 사용하여 N 개의 제스처 인식 결과를 결합하여, 결합된 제스처 인식 결과를 획득한다.

선택적으로, 상술한 머신 러닝 모델(제1 머신 러닝 모델, 제2 머신 러닝 모델, 단계 306에서의 이중 채널 딥 러닝 모델 등을 포함함)은, 대응하는 제스처가 사전 라벨링된 비디오 스트림 샘플을 이용하여 머신 훈련을 통해 획득될 수 있다.

전술한 머신 훈련 프로세스는 모델 훈련 디바이스에 의해 구현될 수 있다. 구체적으로, 예를 들어, 머신 러닝을 통해, 제1 머신 러닝 모델, 제2 머신 러닝 모델 및 이중 채널 딥 러닝 모델이 획득된다. 가능한 구현에서, 개발자는 여러 비디오 스트림 샘플을 모델 훈련 디바이스에 입력할 수 있고, 여기서 각 비디오 스트림 샘플은 제스처를 포함하고, 개발자는 각 비디오 스트림 샘플에서 제스처를 사전 라벨링한다. 또한, 개발자는 각 비디오 스트림을 복수의 비디오 세그먼트로 분할하고, 각 비디오 세그먼트에 대응하는 위상 제스처를 라벨링한다. 기계 훈련 동안, 모델 훈련 디바이스는, 단계 304 및 단계 305에 따른 해결 방안을 사용하여 각 비디오 세그먼트의 광학 흐름 정보 이미지 및 컬러 정보 이미지를 추출하고, 비디오 세그먼트의 광학 흐름 정보 이미지 및 컬러 정보 이미지를 이중 채널 딥 러닝 모델에 입력하고, 제2 머신 러닝 모델에, 이중 채널 딥 러닝 모델에 의해 출력된 2 개의 인식 결과 및 비디오 세그먼트에 라벨링된 위상 제스처를 입력하여, 이중 채널 딥 러닝 모델 및 제2 머신 러닝 모델에 대해 모델 훈련을 수행한다. 또한, 각각의 비디오 스트림 샘플에 대해, 모델 훈련 디바이스는 비디오 스트림 샘플에서 각각의 비디오 세그먼트에 대한 위상 제스처 및 비디오 스트림 샘플에서 사전 라벨링된 제스처를 머신 훈련을 위한 제1 머신 러닝 모델에 입력하여, 제1 머신 러닝 모델을 획득한다.

다른 예를 들면, 제1 머신 러닝 모델, 제2 머신 러닝 모델 및 이중 채널 딥 러닝 모델은 머신 훈련을 통해 획득된다. 다른 가능한 구현에서, 개발자는 여러 비디오 스트림 샘플을 모델 훈련 디바이스에 입력할 수 있고, 여기서 각 비디오 스트림 샘플은 제스처를 포함하고, 개발자는 각 비디오 스트림 샘플에서 제스처를 사전 라벨링한다. 모델 훈련 디바이스는 비디오 스트림을 복수의 비디오 세그먼트로 분할하고, 각 비디오 세그먼트의 광학 흐름 정보 이미지 및 컬러 정보 이미지를 추출하고, 비디오 세그먼트의 광학 흐름 정보 이미지 및 컬러 정보 이미지를 이중 채널 딥 러닝 모델에 입력하고, 제2 머신 러닝 모델에, 이중 채널 딥 러닝 모델에 의해 출력된 2 개의 인식 결과를 입력한 다음, 제1 머신 러닝 모델에, 복수의 비디오 세그먼트의 위상 제스처 인식 결과로서 제2 머신 러닝 모델에 의해 출력된 위상 제스처 인식 결과를 입력한다. 또한, 모델 훈련 디바이스는 비디오 스트림에 대응하는 라벨링된 제스처를 제1 머신 러닝 모델에 입력하여, 제1 머신 러닝 모델, 제2 머신 러닝 모델 및 이중 채널 딥 러닝 모델에 대해 머신 훈련을 동시에 수행한다.

본 발명의 본 실시 예에 설명된 방법은, 이중 채널 딥 러닝 모델을 예시로서 사용하여 설명된다는 점에 유의해야 한다. 실제 응용에서, 각 비디오 세그먼트를 인식하는 경우, 제스처 인식 디바이스는 다른 딥 러닝 알고리즘을 이용하여 단일 비디오 세그먼트에서 제스처를 인식할 수 있다. 예를 들어, 제스처 인식 디바이스는, 광학 흐름 정보 이미지만을 사용하여 비디오 세그먼트에 대응하는 제스처 인식 결과를 인식할 수 있거나, 또는, 제스처 인식 디바이스는, 컬러 정보 이미지만을 사용하여, 비디오 세그먼트에 대응하는 제스처 인식 결과를 인식할 수 있다. 비디오 세그먼트의 제스처 인식 결과를 인식하기 위한 전술한 딥 러닝 알고리즘은 본 발명의 본 실시 예로 제한되지 않는다.

결론적으로, 본 출원의 본 실시 예에 설명된 방법에 따르면, 제스처 인식 디바이스는 비디오 스트림에서 각각의 비디오 세그먼트에 대한 광학 흐름 정보 이미지 및 컬러 정보 이미지를 각각 추출하고, 딥 러닝 알고리즘을 이용하여 광학 흐름 정보 이미지 및 컬러 정보 이미지에 대해 제스처 인식을 각각 수행한다. 제스처 인식 후, 제스처 인식 디바이스는 2 개의 이미지에 대응하는 제스처 인식 결과를 결합하여 비디오 세그먼트에 대응하는 제스처 인식 결과를 결정하고, 최종적으로 비디오 세그먼트를 포함하는 N 개의 연속된 비디오 세그먼트의 제스처 인식 결과를 결합하여, N 개의 연속된 비디오 세그먼트의 인식 결과를 획득한다. 구체적으로, 전술한 방법에서, 제스처 인식 디바이스는 완전한 제스처 동작을 복수의 위상 액션으로 분할하고, 딥 러닝 알고리즘을 이용하여 위상 액션을 인식하고, 최종적으로 인식된 위상 액션을 완전한 제스처 동작으로서 결합한다. 인식 프로세스에서, 비디오 스트림에서의 제스처는 세그먼트화되거나 추적될 필요는 없지만, 비교적 빠른 계산 속도를 갖는 딥 러닝 알고리즘을 이용하여 위상 액션이 인식되어, 제스처 인식 속도를 높이고, 제스처 인식 지연을 줄인다.

도 7은 본 출원의 실시 예의 일 예에 따른 제스처 인식 디바이스(70)의 개략 구조도이다. 제스처 인식 디바이스(70)는 도 1에 도시된 시스템에서 제스처 인식 디바이스(120)로서 구현될 수 있다. 도 7에 도시된 바와 같이, 제스처 인식 디바이스(70)는 프로세서(71) 및 메모리(73)를 포함할 수 있다.

프로세서(71)는 하나 이상의 프로세싱 유닛을 포함할 수 있고, 프로세싱 유닛은 중앙 처리 장치(CPU), 네트워크 프로세서(NP) 등일 수 있다.

선택적으로, 제스처 인식 디바이스(70)는 메모리(73)를 더 포함할 수 있다. 메모리(73)는 소프트웨어 프로그램을 저장하도록 구성될 수 있고, 소프트웨어 프로그램은 프로세서(71)에 의해 실행될 수 있다. 또한, 메모리(73)는 다양한 타입의 서비스 데이터 또는 사용자 데이터를 추가로 저장할 수 있다. 소프트웨어 프로그램은 이미지 획득 모듈, 인식 모듈 및 결합 모듈을 포함할 수 있다. 선택적으로, 소프트웨어 프로그램은 시간 윈도우 결정 모듈 및 판정 모듈을 더 포함할 수 있다.

이미지 획득 모듈은 프로세서(71)에 의해 실행되어, 도 3에 도시된 실시 예의 비디오 스트림의 제1 비디오 세그먼트로부터 추출된 M 개의 이미지를 획득하는 기능을 구현한다.

인식 모듈은 프로세서(71)에 의해 실행되어, 도 3에 도시된 실시 예의 제1 비디오 세그먼트에 대응하는 제스처 인식 결과를 인식하는 기능을 구현한다.

결합 모듈은 프로세서(71)에 의해 실행되어, 도 3에 도시된 실시 예의 N 개의 연속된 비디오 세그먼트에 대한 제스처 인식 결과를 결합하는 기능을 구현한다.

시간 윈도우 결정 모듈은 프로세서(71)에 의해 실행되어, 도 3에 도시된 실시 예의 시간 윈도우를 결정하는 기능을 구현한다.

판정 모듈은 프로세서(71)에 의해 실행되어, 도 3에 도시된 실시 예의 제1 비디오 세그먼트에서 액션이 수행되는지 여부를 판정하는 기능을 구현한다.

선택적으로, 제스처 인식 디바이스(70)는 통신 인터페이스(74)를 더 포함할 수 있고, 통신 인터페이스(74)는 네트워크 인터페이스를 포함할 수 있다. 네트워크 인터페이스는 이미지 캡처 디바이스에 연결되도록 구성된다. 구체적으로, 네트워크 인터페이스는, 이더넷 인터페이스 또는 섬유 인터페이스와 같은 유선 네트워크 인터페이스를 포함할 수 있거나, 네트워크 인터페이스는 무선 근거리 네트워크 인터페이스 또는 셀룰러 모바일 네트워크 인터페이스와 같은 무선 네트워크 인터페이스를 포함할 수 있다. 제스처 인식 디바이스(70)는 통신 인터페이스(74)를 사용하여 다른 디바이스와 통신한다.

선택적으로, 프로세서(71)는 버스를 사용하여 메모리(73) 및 통신 인터페이스(74)에 연결될 수 있다.

선택적으로, 제스처 인식 디바이스(70)는 출력 디바이스(75) 및 입력 디바이스(77)를 더 포함할 수 있다. 출력 디바이스(75) 및 입력 디바이스(77)는 프로세서(71)에 연결된다. 출력 디바이스(75)는 정보를 디스플레이하도록 구성된 디스플레이, 사운드를 재생하는 전력 증폭 디바이스, 프린터 등일 수 있다. 출력 디바이스(75)는 디스플레이, 전력 증폭 디바이스 또는 프린터에 대한 출력을 제공하기 위한 출력 제어기를 더 포함할 수 있다. 입력 디바이스(77)는 마우스, 키보드, 전자 스타일러스 또는 사용자가 정보를 입력하기 위해 사용하는 터치 패널과 같은 디바이스일 수 있다. 입력 디바이스(77)는 마우스, 키보드, 전자 스타일러스 또는 터치 패널과 같은 디바이스로부터 입력을 수신하고 처리하기 위한 입력 제어기를 더 포함할 수 있다.

다음은 본 출원의 장치 실시 예이며, 장치 실시 예는 본 출원의 방법 실시 예를 실행하기 위해 사용될 수 있다. 본 출원의 장치 실시 예에서 개시되지 않은 세부 내용에 대해서는 본 출원의 방법 실시 예를 참조할 수 있다.

도 8은 본 출원의 실시 예의 일 예에 따른 제스처 인식 장치의 구조 블록도이다. 제스처 인식 장치는 하드웨어 회로 또는 소프트웨어와 하드웨어의 조합을 이용하여 제스처 인식 장치의 일부 또는 전부로서 구현될 수 있다. 제스처 인식 장치는 도 1에 도시된 실시 예에서 제스처 인식 디바이스(120)일 수 있다. 제스처 인식 장치는 이미지 획득 유닛(801), 인식 유닛(802) 및 결합 유닛(803)을 포함할 수 있다. 선택적으로, 제스처 인식 장치는 시간 윈도우 결정 유닛(804) 및 판정 유닛(805)을 더 포함할 수 있다.

이미지 획득 유닛(801)은 프로세서에 의해 실행되어, 도 3에 도시된 실시 예의 비디오 스트림에서 제1 비디오 세그먼트로부터 추출된 M 개의 이미지를 획득하는 기능을 구현한다.

인식 유닛(802)은 프로세서에 의해 실행되어, 도 3에 도시된 실시 예의 제1 비디오 세그먼트에 대응하는 제스처 인식 결과를 획득하는 기능을 구현한다.

결합 유닛(803)은 프로세서에 의해 실행되어, 도 3에 도시된 실시 예의 N 개의 연속된 비디오 세그먼트에 대한 제스처 인식 결과를 결합하는 기능을 구현한다.

시간 윈도우 결정 유닛(804)은 프로세서에 의해 실행되어, 도 3에 도시된 실시 예의 시간 윈도우를 결정하는 기능을 구현한다.

판정 유닛(805)은 프로세서에 의해 실행되어, 도 3에 도시된 실시 예의 제1 비디오 세그먼트에서 액션이 수행되는지 여부를 판정하는 기능을 구현한다.

전술한 실시 예에서 제공되는 제스처 인식 장치가 제스처 인식을 수행하는 경우, 전술한 기능 유닛의 분할은 단지 설명을 위한 예로서 사용될 뿐임에 유의해야 한다. 실제 응용에서, 전술한 기능들 필요에 따라 구현을 위해 상이한 기능 유닛에 할당될 수 있다. 구체적으로, 디바이스의 내부 구조는 전술한 기능의 전부 또는 일부를 구현하기 위해 상이한 기능 유닛으로 분할된다. 또한, 전술한 실시 예에서 제공되는 제스처 인식 장치는 제스처 인식 방법의 방법 실시 예와 동일한 개념에 관한 것이다. 특정 구현 프로세스에 대해서는, 방법 실시 예를 참조할 수 있고, 세부 내용에 대해서는 여기서 다시 설명하지 않는다.

본 출원의 전술한 실시 예들의 시퀀스 번호는 단지 예시적인 목적을 위한 것이며, 실시 예들의 우선 순위를 나타내는 것은 아니다.

본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 실시 예의 모든 단계 또는 일부 단계가 관련 하드웨어를 지시하는 프로그램 또는 하드웨어에 의해 구현될 수 있음을 이해할 수 있다. 프로그램은 컴퓨터로 판독 가능한 저장 매체에 저장될 수 있다. 저장 매체는 판독 전용 메모리, 자기 디스크 또는 광 디스크를 포함할 수 있다.

전술한 설명은 본 출원의 선택적인 실시 예일 뿐이며, 본 출원을 제한하려는 것은 아니다. 본 출원의 원리를 벗어나지 않고 이루어지는 모든 수정, 균등한 대체 또는 개선은, 본 출원의 보호 범위에 속해야 한다.

Claims

제스처 인식 디바이스로서,
상기 제스처 인식 디바이스는 프로세서 및 메모리를 포함하고;
상기 프로세서는 M 개의 이미지를 획득하도록 구성되고 - 상기 M 개의 이미지는 비디오 스트림의 제1 비디오 세그먼트로부터 추출되고, 상기 제1 비디오 세그먼트는 상기 비디오 스트림 중 임의의 비디오 세그먼트이고, M은 2 이상의 정수임 -;
상기 프로세서는, 딥 러닝 알고리즘을 이용하여 상기 M 개의 이미지에 대해 제스처 인식을 수행하여, 상기 제1 비디오 세그먼트에 대응하는 제스처 인식 결과를 획득하도록 구성되고;
상기 프로세서는, 상기 제1 비디오 세그먼트를 포함하는 상기 비디오 스트림에서 N 개의 연속된 비디오 세그먼트의 제스처 인식 결과를 획득한 후, 상기 N 개의 연속된 비디오 세그먼트의 상기 제스처 인식 결과를 결합하여, 결합된 제스처 인식 결과를 획득하도록 구성되고 - N은 2 이상의 정수임 -,
상기 딥 러닝 알고리즘을 이용하여 상기 M 개의 이미지에 대해 제스처 인식을 수행하여, 상기 제1 비디오 세그먼트에 대응하는 상기 제스처 인식 결과를 획득하는 경우, 상기 프로세서는,
상기 M 개의 이미지에 대해 이미지 프로세싱을 수행하여, 상기 제1 비디오 세그먼트에 대응하는 광학 흐름 정보 이미지를 획득하고 - 상기 광학 흐름 정보 이미지는, 상기 M 개의 이미지 중 제1 이미지와 상기 제1 이미지 이전의 p 번째 이미지 사이의 광학 흐름 정보를 포함하고, 상기 제1 이미지는 상기 M 개의 이미지 중 어느 하나이고, 상기 광학 흐름 정보는 상기 이미지 내의 픽셀에 대한 순간 속도 벡터 정보를 포함함 -, 제1 딥 러닝 알고리즘을 이용하여 상기 광학 흐름 정보 이미지에 대해 제스처 인식을 수행하여, 제1 인식 결과를 획득하고 - p는 1 이상의 정수임 -;
상기 M 개의 이미지에 대해 이미지 프로세싱을 수행하여, 상기 제1 비디오 세그먼트에 대응하는 컬러 정보 이미지를 획득하고 - 상기 컬러 정보 이미지는 상기 M 개의 이미지의 컬러 정보를 포함하고, 상기 컬러 정보는 상기 이미지 내의 각 픽셀에 대한 컬러 값을 포함함 -, 제2 딥 러닝 알고리즘을 이용하여 상기 컬러 정보 이미지에 대해 제스처 인식을 수행하여, 제2 인식 결과를 획득하고;
상기 제1 인식 결과 및 상기 제2 인식 결과를 결합하여, 상기 제1 비디오 세그먼트의 상기 제스처 인식 결과를 획득하도록 구성되는,
제스처 인식 디바이스.
제1항에 있어서,
상기 N 개의 연속된 비디오 세그먼트의 상기 제스처 인식 결과를 결합하여, 상기 결합된 제스처 인식 결과를 획득하는 경우, 상기 프로세서는,
상기 N 개의 연속된 비디오 세그먼트의 상기 제스처 인식 결과를 사전 훈련된 제1 머신 러닝 모델에 입력하여, 상기 결합된 제스처 인식 결과를 획득하도록 구성되는 - 상기 제1 머신 러닝 모델은, 상기 입력된 N 개의 연속된 제스처 인식 결과로 구성된 전체 제스처 모션 트렌드(gesture motion trend)를 결정하고, 상기 전체 제스처 모션 트렌드에 대응하는 제스처를 상기 결합된 제스처 인식 결과로서 출력하기 위해 사용됨 -, 제스처 인식 디바이스.
제2항에 있어서,
상기 제1 머신 러닝 모델은 뉴럴 네트워크 모델이고, 상기 뉴럴 네트워크 모델은 N 개의 뉴런을 가지거나; 또는
상기 제1 머신 러닝 모델은 서포트 벡터 머신(support vector machine, SVM) 모델인, 제스처 인식 디바이스.
제1항에 있어서,
상기 N 개의 연속된 비디오 세그먼트의 상기 제스처 인식 결과를 결합하여, 상기 결합된 제스처 인식 결과를 획득하는 경우, 상기 프로세서는,
상기 N 개의 연속된 비디오 세그먼트의 상기 제스처 인식 결과에 각각 대응하는 미리 설정된 가중 계수를 획득하고;
상기 N 개의 연속된 비디오 세그먼트의 상기 제스처 인식 결과에 각각 대응하는 상기 가중 계수에 기초하여 상기 N 개의 연속된 비디오 세그먼트의 상기 제스처 인식 결과에 대해 가중화된 평균화을 수행하여, 상기 결합된 제스처 인식 결과를 획득하도록 구성되는, 제스처 인식 디바이스.
삭제
제1항에 있어서,
상기 M 개의 이미지에 대해 이미지 프로세싱을 수행하여, 상기 제1 비디오 세그먼트에 대응하는 상기 광학 흐름 정보 이미지를 획득하는 경우, 상기 프로세서는,
상기 제1 이미지에 대해, 미리 설정된 규칙에 기초하여, 상기 비디오 스트림에서 상기 제1 이미지 이전의 상기 p 번째 이미지를 획득하고, 상기 제1 이미지와 상기 p 번째 이미지 사이의 상기 광학 흐름 정보를 계산하고, 상기 제1 이미지와 상기 p 번째 이미지 사이의 상기 광학 흐름 정보를 포함하는 상기 광학 흐름 정보 이미지를 생성하거나 - 상기 제1 이미지와 상기 p 번째 이미지 사이의 시간 간격은 상기 제1 딥 러닝 알고리즘의 순방향 계산 시간(forward calculation time) 또는 상기 광학 흐름 정보 이미지를 계산하기 위해 필요한 시간 이상임 -;
상기 제1 이미지에 대해, 미리 설정된 규칙에 기초하여, 상기 비디오 스트림에서 상기 제1 이미지 이전의 모든 p 개의 이미지를 획득하고, 상기 제1 이미지와 상기 p 개의 이미지에서 모든 2 개의 인접한 이미지 사이의 광학 흐름 정보를 계산하고, 모든 2 개의 인접한 이미지 사이의 상기 광학 흐름 정보를 축적한 후, 축적된 광학 흐름 정보를 포함하는 광학 흐름 정보 이미지를 생성하도록 구성되는 - 상기 제1 이미지와 상기 제1 이미지 이전의 상기 p 번째 이미지 사이의 시간 간격은 상기 제1 딥 러닝 알고리즘의 순방향 계산 시간 또는 상기 광학 흐름 정보 이미지를 계산하기 위해 필요한 시간 이상임 -, 제스처 인식 디바이스.
제1항에 있어서,
상기 M 개의 이미지에 대해 이미지 프로세싱을 수행하여, 상기 제1 비디오 세그먼트에 대응하는 상기 컬러 정보 이미지를 획득하는 경우, 상기 프로세서는,
상기 M 개의 이미지에서 m 개의 이미지에 대한 컬러 정보를 추출하고, 상기 추출된 컬러 정보에 기초하여, 상기 m 개의 이미지에 각각 대응하는 컬러 정보 이미지를 생성하고, 상기 m 개의 이미지에 각각 대응하는 상기 컬러 정보 이미지를 상기 제1 비디오 세그먼트에 대응하는 상기 컬러 정보 이미지로서 획득하거나 - 상기 m 개의 이미지는 상기 M 개의 이미지에서 m 개의 랜덤 이미지이거나, 상기 m 개의 이미지는 상기 M 개의 이미지에 존재하며, 각각은 상기 비디오 스트림의 이전 이미지에 대해 가장 큰 변화를 갖는 m 개의 이미지이고, m은 1 이상의 정수임 -;
시간에 따라 이미지 내용이 변하는 상기 M 개의 이미지에서 픽셀 위치를 검출하고, 인식된 픽셀 위치에 대응하는 상기 M 개의 이미지에서 컬러 정보의 평균 값을 계산하여, 상기 인식된 픽셀 위치에서의 새로운 컬러 정보를 획득하고, 상기 인식된 픽셀 위치에서의 상기 새로운 컬러 정보에 기초하여, 상기 제1 비디오 세그먼트에 대응하는 상기 컬러 정보 이미지를 생성하도록 구성되는, 제스처 인식 디바이스.
제1항에 있어서,
상기 M 개의 이미지를 획득하기 전에, 상기 프로세서는,
상기 비디오 스트림에서 미리 설정된 시간 길이를 갖는 시간 윈도우를 결정하고 - 상기 시간 윈도우의 종료 모멘트는 상기 제1 비디오 세그먼트에 대응하는 시간 구간 내에 있음 -;
상기 시간 윈도우 내의 적어도 하나의 참조 이미지 및 마지막 이미지에 기초하여, 상기 제1 비디오 세그먼트에서 액션이 수행되는지 여부를 판정하고 - 상기 참조 이미지는, 상기 시간 윈도우에서 상기 마지막 이미지 이외의 임의의 이미지임 -;
판정 결과가 상기 제1 비디오 세그먼트에서 액션이 수행되는 것이면, M 개의 이미지를 획득하도록 추가로 구성된, 제스처 인식 디바이스.
제8항에 있어서,
상기 시간 윈도우 내의 상기 적어도 하나의 참조 이미지 및 상기 마지막 이미지에 기초하여, 상기 제1 비디오 세그먼트에서 액션이 수행되는지 여부를 판정하는 경우, 상기 프로세서는,
상기 적어도 하나의 참조 이미지 각각에 대해, 상기 마지막 이미지의 편미분 이미지를 계산하고 - 상기 편미분 이미지 내의 각 픽셀의 값은, 상기 참조 이미지에서의 대응하는 픽셀의 값에 대한 값에 대한 상기 마지막 이미지에서의 대응하는 픽셀의 값에 대한 편미분임 -;
상기 편미분 이미지에서 상기 각 픽셀의 값을 정규화하여, 정규화된 편미분 이미지를 획득하고;
미리 설정된 이진화 임계 값에 기초하여 상기 정규화된 편미분 이미지를 이진화하여, 상기 편미분 이미지에 대한 이진화된 이미지를 획득하고 - 상기 이진화된 이미지 내의 각 픽셀의 값은 0 또는 1임 -;
상기 이진화된 이미지에서 픽셀의 그레이 스케일 값의 합을 계산하고;
상기 그레이 스케일 값의 상기 합이 0 보다 큰 경우, 상기 제1 비디오 세그먼트에서 액션이 수행되는 것으로 판정하도록 구성되는, 제스처 인식 디바이스.
제1항에 있어서,
상기 제1 인식 결과와 상기 제2 인식 결과를 결합하여, 상기 제1 비디오 세그먼트의 상기 제스처 인식 결과를 획득하는 경우, 상기 프로세서는,
상기 제1 인식 결과 및 상기 제2 인식 결과에 대한 평균 값 계산을 수행하여, 상기 평균 값 계산의 계산 결과에 기초하는 상기 제1 비디오 세그먼트의 상기 제스처 인식 결과를 획득하거나;
상기 제1 인식 결과 및 상기 제2 인식 결과를 사전 훈련된 제2 머신 러닝 모델에 입력하여, 상기 제1 비디오 세그먼트의 상기 제스처 인식 결과를 획득하도록 구성되는, 제스처 인식 디바이스.
제스처 인식 장치로서,
상기 제스처 인식 장치는,
M 개의 이미지를 획득하도록 구성된 이미지 획득 유닛 - 상기 M 개의 이미지는 비디오 스트림의 제1 비디오 세그먼트로부터 추출되고, 상기 제1 비디오 세그먼트는 상기 비디오 스트림 중 임의의 비디오 세그먼트이고, M은 2 이상의 정수임 -;
딥 러닝 알고리즘을 이용하여 상기 M 개의 이미지에 대해 제스처 인식을 수행하여, 상기 제1 비디오 세그먼트에 대응하는 제스처 인식 결과를 획득하도록 구성된 인식 유닛; 및
상기 제1 비디오 세그먼트를 포함하는 상기 비디오 스트림에서 N 개의 연속된 비디오 세그먼트의 제스처 인식 결과가 획득된 후, 상기 N 개의 연속된 비디오 세그먼트의 상기 제스처 인식 결과를 결합하여, 결합된 제스처 인식 결과를 획득하도록 구성된 결합 유닛 - N≥2 이고 N은 정수임 - 을 포함하고,
상기 인식 유닛은,
상기 M 개의 이미지에 대해 이미지 프로세싱을 수행하여, 상기 제1 비디오 세그먼트에 대응하는 광학 흐름 정보 이미지를 획득하고 - 상기 광학 흐름 정보 이미지는, 상기 M 개의 이미지 중 제1 이미지와 상기 제1 이미지 이전의 p 번째 이미지 사이의 광학 흐름 정보를 포함하고, 상기 제1 이미지는 상기 M 개의 이미지 중 어느 하나이고, 상기 광학 흐름 정보는 상기 이미지 내의 픽셀에 대한 순간 속도 벡터 정보를 포함함 -, 제1 딥 러닝 알고리즘을 이용하여 상기 광학 흐름 정보 이미지에 대해 제스처 인식을 수행하여, 제1 인식 결과를 획득하고 - p는 1 이상의 정수임 -;
상기 M 개의 이미지에 대해 이미지 프로세싱을 수행하여, 상기 제1 비디오 세그먼트에 대응하는 컬러 정보 이미지를 획득하고 - 상기 컬러 정보 이미지는 상기 M 개의 이미지의 컬러 정보를 포함하고, 상기 컬러 정보는 상기 이미지 내의 각 픽셀에 대한 컬러 값을 포함함 -, 제2 딥 러닝 알고리즘을 이용하여 상기 컬러 정보 이미지에 대해 제스처 인식을 수행하여, 제2 인식 결과를 획득하고;
상기 제1 인식 결과 및 상기 제2 인식 결과를 결합하여, 상기 제1 비디오 세그먼트의 상기 제스처 인식 결과를 획득하도록 구성되는,
제스처 인식 장치.
제11항에 있어서,
상기 N 개의 연속된 비디오 세그먼트의 상기 제스처 인식 결과를 결합하여, 상기 결합된 제스처 인식 결과를 획득하는 경우, 상기 결합 유닛은,
상기 N 개의 연속된 비디오 세그먼트의 상기 제스처 인식 결과를 사전 훈련된 제1 머신 러닝 모델에 입력하여, 상기 결합된 제스처 인식 결과를 획득하도록 구성되는 - 상기 제1 머신 러닝 모델은, 상기 입력된 N 개의 연속된 제스처 인식 결과로 구성된 전체 제스처 모션 트렌드를 결정하고, 상기 전체 제스처 모션 트렌드에 대응하는 제스처를 상기 결합된 제스처 인식 결과로서 출력하기 위해 사용됨 -, 제스처 인식 장치.
제12항에 있어서,
상기 제1 머신 러닝 모델은 뉴럴 네트워크 모델이고, 상기 뉴럴 네트워크 모델은 N 개의 뉴런을 가지거나; 또는
상기 제1 머신 러닝 모델은 서포트 벡터 머신(SVM) 모델인, 제스처 인식 장치.
제11항에 있어서,
상기 N 개의 연속된 비디오 세그먼트의 상기 제스처 인식 결과를 결합하여, 상기 결합된 제스처 인식 결과를 획득하는 경우, 상기 결합 유닛은,
상기 N 개의 연속된 비디오 세그먼트의 상기 제스처 인식 결과에 각각 대응하는 미리 설정된 가중 계수를 획득하고;
상기 N 개의 연속된 비디오 세그먼트의 상기 제스처 인식 결과에 각각 대응하는 상기 가중 계수에 기초하여 상기 N 개의 연속된 비디오 세그먼트의 상기 제스처 인식 결과에 대해 가중화된 평균화을 수행하여, 상기 결합된 제스처 인식 결과를 획득하도록 구성되는, 제스처 인식 장치.
삭제
제11항에 있어서,
상기 M 개의 이미지에 대해 이미지 프로세싱을 수행하여, 상기 제1 비디오 세그먼트에 대응하는 상기 광학 흐름 정보 이미지를 획득하는 경우, 상기 인식 유닛은,
상기 제1 이미지에 대해, 미리 설정된 규칙에 기초하여, 상기 비디오 스트림에서 상기 제1 이미지 이전의 상기 p 번째 이미지를 획득하고, 상기 제1 이미지와 상기 p 번째 이미지 사이의 상기 광학 흐름 정보를 계산하고, 상기 제1 이미지와 상기 p 번째 이미지 사이의 상기 광학 흐름 정보를 포함하는 상기 광학 흐름 정보 이미지를 생성하거나 - 상기 제1 이미지와 상기 p 번째 이미지 사이의 시간 간격은 상기 제1 딥 러닝 알고리즘의 순방향 계산 시간 또는 상기 광학 흐름 정보 이미지를 계산하기 위해 필요한 시간 이상임 -;
상기 제1 이미지에 대해, 미리 설정된 규칙에 기초하여, 상기 비디오 스트림에서 상기 제1 이미지 이전의 모든 p 개의 이미지를 획득하고, 상기 제1 이미지와 상기 p 개의 이미지에서 모든 2 개의 인접한 이미지 사이의 광학 흐름 정보를 계산하고, 모든 2 개의 인접한 이미지 사이의 상기 광학 흐름 정보를 축적한 후, 상기 축적된 광학 흐름 정보를 포함하는 광학 흐름 정보 이미지를 생성하도록 구성되는 - 상기 제1 이미지와 상기 제1 이미지 이전의 상기 p 번째 이미지 사이의 시간 간격은 상기 제1 딥 러닝 알고리즘의 순방향 계산 시간 또는 상기 광학 흐름 정보 이미지를 계산하기 위해 필요한 시간 이상임 -, 제스처 인식 장치.
제11항에 있어서,
상기 M 개의 이미지에 대해 이미지 프로세싱을 수행하여, 상기 제1 비디오 세그먼트에 대응하는 상기 컬러 정보 이미지를 획득하는 경우, 상기 인식 유닛은,
상기 M 개의 이미지에서 m 개의 이미지에 대한 컬러 정보를 추출하고, 상기 추출된 컬러 정보에 기초하여, 상기 m 개의 이미지에 각각 대응하는 컬러 정보 이미지를 생성하고, 상기 m 개의 이미지에 각각 대응하는 상기 컬러 정보 이미지를 상기 제1 비디오 세그먼트에 대응하는 상기 컬러 정보 이미지로서 획득하거나 - 상기 m 개의 이미지는 상기 M 개의 이미지에서 m 개의 랜덤 이미지이거나, 상기 m 개의 이미지는 상기 M 개의 이미지에 존재하며, 각각은 상기 비디오 스트림의 이전 이미지에 대해 가장 큰 변화를 갖는 m 개의 이미지이고, m은 1 이상의 정수임 -;
시간에 따라 이미지 내용이 변하는 상기 M 개의 이미지에서 픽셀 위치를 검출하고, 인식된 픽셀 위치에 대응하는 상기 M 개의 이미지에서 컬러 정보의 평균 값을 계산하여, 상기 인식된 픽셀 위치에서의 새로운 컬러 정보를 획득하고, 상기 인식된 픽셀 위치에서의 상기 새로운 컬러 정보에 기초하여, 상기 제1 비디오 세그먼트에 대응하는 상기 컬러 정보 이미지를 생성하도록 구성되는, 제스처 인식 장치.
제11항에 있어서,
상기 제스처 인식 장치는,
상기 이미지 획득 유닛이 상기 M 개의 이미지를 획득하기 전에, 상기 비디오 스트림에서 미리 설정된 시간 길이를 갖는 시간 윈도우를 결정하도록 구성된 시간 윈도우 결정 유닛 - 상기 시간 윈도우의 종료 모멘트는 상기 제1 비디오 세그먼트에 대응하는 시간 구간 내에 있음 -; 및
상기 시간 윈도우 내의 적어도 하나의 참조 이미지 및 마지막 이미지에 기초하여, 상기 제1 비디오 세그먼트에서 액션이 수행되는지 여부를 판정하도록 구성된 판정 유닛 - 상기 적어도 하나의 참조 이미지는, 상기 시간 윈도우에서 상기 마지막 이미지 이외의 임의의 이미지임 - 을 더 포함하고,
상기 이미지 획득 유닛은, 판정 결과가 상기 제1 비디오 세그먼트에서 상기 액션이 수행되는 것이면, M 개의 이미지를 획득하도록 구성된, 제스처 인식 장치.
제18항에 있어서,
상기 판정 유닛은,
상기 적어도 하나의 참조 이미지 각각에 대해, 상기 마지막 이미지의 편미분 이미지를 계산하고 - 상기 편미분 이미지 내의 각 픽셀의 값은, 상기 참조 이미지에서의 대응하는 픽셀의 값에 대한 값에 대한 상기 마지막 이미지에서의 대응하는 픽셀의 값에 대한 편미분임 -;
상기 편미분 이미지에서 상기 각 픽셀의 값을 정규화하여, 정규화된 편미분 이미지를 획득하고;
미리 설정된 이진화 임계 값에 기초하여 상기 정규화된 편미분 이미지를 이진화하여, 상기 편미분 이미지에 대한 이진화된 이미지를 획득하고 - 상기 이진화된 이미지 내의 각 픽셀의 값은 0 또는 1임 -;
상기 이진화된 이미지에서 픽셀의 그레이 스케일 값의 합을 계산하고;
상기 그레이 스케일 값의 상기 합이 0 보다 큰 경우, 상기 제1 비디오 세그먼트에서 액션이 수행되는 것으로 판정하도록 구성되는, 제스처 인식 장치.
제11항에 있어서,
상기 제1 인식 결과와 상기 제2 인식 결과를 결합하여, 상기 제1 비디오 세그먼트의 상기 제스처 인식 결과를 획득하는 경우, 상기 인식 유닛은,
상기 제1 인식 결과 및 상기 제2 인식 결과에 대한 평균 값 계산을 수행하여, 상기 평균 값 계산의 계산 결과에 기초하는 상기 제1 비디오 세그먼트의 상기 제스처 인식 결과를 획득하거나;
상기 제1 인식 결과 및 상기 제2 인식 결과를 사전 훈련된 제2 머신 러닝 모델에 입력하여, 상기 제1 비디오 세그먼트의 상기 제스처 인식 결과를 획득하도록 구성되는, 제스처 인식 장치.
제스처 인식 방법으로서,
상기 제스처 인식 방법은,
M 개의 이미지를 획득하는 단계 - 상기 M 개의 이미지는 비디오 스트림의 제1 비디오 세그먼트로부터 추출되고, 상기 제1 비디오 세그먼트는 상기 비디오 스트림 중 임의의 비디오 세그먼트이고, M은 2 이상의 정수임 -;
딥 러닝 알고리즘을 이용하여 상기 M 개의 이미지에 대해 제스처 인식을 수행하여, 상기 제1 비디오 세그먼트에 대응하는 제스처 인식 결과를 획득하는 단계; 및
상기 제1 비디오 세그먼트를 포함하는 상기 비디오 스트림에서 N 개의 연속된 비디오 세그먼트의 제스처 인식 결과가 획득된 후, 상기 N 개의 연속된 비디오 세그먼트의 상기 제스처 인식 결과를 결합하여, 결합된 제스처 인식 결과를 획득하는 단계 - N≥2 이고 N은 정수임 - 를 포함하고,
상기 딥 러닝 알고리즘을 이용하여 상기 M 개의 이미지에 대해 제스처 인식을 수행하여, 상기 제1 비디오 세그먼트에 대응하는 제스처 인식 결과를 획득하는 단계는,
상기 M 개의 이미지에 대해 이미지 프로세싱을 수행하여, 상기 제1 비디오 세그먼트에 대응하는 광학 흐름 정보 이미지를 획득하고 - 상기 광학 흐름 정보 이미지는, 상기 M 개의 이미지 중 제1 이미지와 상기 제1 이미지 이전의 p 번째 이미지 사이의 광학 흐름 정보를 포함하고, 상기 제1 이미지는 상기 M 개의 이미지 중 어느 하나이고, 상기 광학 흐름 정보는 상기 이미지 내의 픽셀에 대한 순간 속도 벡터 정보를 포함함 -, 제1 딥 러닝 알고리즘을 이용하여 상기 광학 흐름 정보 이미지에 대해 제스처 인식을 수행하여, 제1 인식 결과를 획득하는 단계 - p는 1 이상의 정수임 -;
상기 M 개의 이미지에 대해 이미지 프로세싱을 수행하여, 상기 제1 비디오 세그먼트에 대응하는 컬러 정보 이미지를 획득하고 - 상기 컬러 정보 이미지는 상기 M 개의 이미지의 컬러 정보를 포함하고, 상기 컬러 정보는 상기 이미지 내의 각 픽셀에 대한 컬러 값을 포함함 -, 제2 딥 러닝 알고리즘을 이용하여 상기 컬러 정보 이미지에 대해 제스처 인식을 수행하여, 제2 인식 결과를 획득하는 단계; 및
상기 제1 인식 결과 및 상기 제2 인식 결과를 결합하여, 상기 제1 비디오 세그먼트의 상기 제스처 인식 결과를 획득하는 단계를 포함하는,
제스처 인식 방법.
제21항에 있어서,
상기 N 개의 연속된 비디오 세그먼트의 상기 제스처 인식 결과를 결합하여, 상기 결합된 제스처 인식 결과를 획득하는 단계는,
상기 N 개의 연속된 비디오 세그먼트의 상기 제스처 인식 결과를 사전 훈련된 제1 머신 러닝 모델에 입력하여, 상기 결합된 제스처 인식 결과를 획득하는 단계 - 상기 제1 머신 러닝 모델은, 상기 입력된 N 개의 연속된 제스처 인식 결과로 구성된 전체 제스처 모션 트렌드(gesture motion trend)를 결정하고, 상기 전체 제스처 모션 트렌드에 대응하는 제스처를 상기 결합된 제스처 인식 결과로서 출력하기 위해 사용됨 - 를 포함하는, 제스처 인식 방법.
제22항에 있어서,
상기 제1 머신 러닝 모델은 뉴럴 네트워크 모델이고, 상기 뉴럴 네트워크 모델은 N 개의 뉴런을 가지거나; 또는
상기 제1 머신 러닝 모델은 서포트 벡터 머신(SVM) 모델인, 제스처 인식 방법.
제21항에 있어서,
상기 N 개의 연속된 비디오 세그먼트의 상기 제스처 인식 결과를 결합하여, 결합된 제스처 인식 결과를 획득하는 단계는,
상기 N 개의 연속된 비디오 세그먼트의 상기 제스처 인식 결과에 각각 대응하는 미리 설정된 가중 계수를 획득하는 단계; 및
상기 N 개의 연속된 비디오 세그먼트의 상기 제스처 인식 결과에 각각 대응하는 상기 가중 계수에 기초하여 상기 N 개의 연속된 비디오 세그먼트의 상기 제스처 인식 결과에 대해 가중화된 평균화을 수행하여, 상기 결합된 제스처 인식 결과를 획득하는 단계를 포함하는, 제스처 인식 방법.
삭제
제21항에 있어서,
상기 M 개의 이미지에 대해 이미지 프로세싱을 수행하여, 상기 제1 비디오 세그먼트에 대응하는 광학 흐름 정보 이미지를 획득하는 단계는,
상기 제1 이미지에 대해, 미리 설정된 규칙에 기초하여, 상기 비디오 스트림에서 상기 제1 이미지 이전의 상기 p 번째 이미지를 획득하고, 상기 제1 이미지와 상기 p 번째 이미지 사이의 상기 광학 흐름 정보를 계산하고, 상기 제1 이미지와 상기 p 번째 이미지 사이의 상기 광학 흐름 정보를 포함하는 상기 광학 흐름 정보 이미지를 생성하는 단계 - 상기 제1 이미지와 상기 p 번째 이미지 사이의 시간 간격은 상기 제1 딥 러닝 알고리즘의 순방향 계산 시간 또는 상기 광학 흐름 정보 이미지를 계산하기 위해 필요한 시간 이상임 -; 또는
상기 제1 이미지에 대해, 미리 설정된 규칙에 기초하여, 상기 비디오 스트림에서 상기 제1 이미지 이전의 모든 p 개의 이미지를 획득하고, 상기 제1 이미지와 상기 p 개의 이미지에서 모든 2 개의 인접한 이미지 사이의 광학 흐름 정보를 계산하고, 모든 2 개의 인접한 이미지 사이의 상기 광학 흐름 정보가 축적된 후, 상기 축적된 광학 흐름 정보를 포함하는 광학 흐름 정보 이미지를 생성하는 단계 - 상기 제1 이미지와 상기 제1 이미지 이전의 상기 p 번째 이미지 사이의 시간 간격은 상기 제1 딥 러닝 알고리즘의 순방향 계산 시간 또는 상기 광학 흐름 정보 이미지를 계산하기 위해 필요한 시간 이상임 - 를 포함하는, 제스처 인식 방법.
제21항에 있어서,
상기 M 개의 이미지에 대해 이미지 프로세싱을 수행하여, 상기 제1 비디오 세그먼트에 대응하는 컬러 정보 이미지를 획득하는 단계는,
상기 M 개의 이미지에서 m 개의 이미지에 대한 컬러 정보를 추출하고, 상기 추출된 컬러 정보에 기초하여, 상기 m 개의 이미지에 각각 대응하는 컬러 정보 이미지를 생성하고, 상기 m 개의 이미지에 각각 대응하는 상기 컬러 정보 이미지를 상기 제1 비디오 세그먼트에 대응하는 상기 컬러 정보 이미지로서 획득하는 단계 - 상기 m 개의 이미지는 상기 M 개의 이미지에서 m 개의 랜덤 이미지이거나, 상기 m 개의 이미지는 상기 M 개의 이미지에 존재하며, 각각은 상기 비디오 스트림의 이전 이미지에 대해 가장 큰 변화를 갖는 m 개의 이미지이고, m은 1 이상의 정수임 -; 또는
시간에 따라 이미지 내용이 변하는 상기 M 개의 이미지에서 픽셀 위치를 검출하고, 인식된 픽셀 위치에 대응하는 상기 M 개의 이미지에서 컬러 정보의 평균 값을 계산하여, 상기 인식된 픽셀 위치에서의 새로운 컬러 정보를 획득하고, 상기 인식된 픽셀 위치에서의 상기 새로운 컬러 정보에 기초하여, 상기 제1 비디오 세그먼트에 대응하는 상기 컬러 정보 이미지를 생성하는 단계를 포함하는, 제스처 인식 방법.
제21항에 있어서,
상기 M 개의 이미지를 획득하는 단계 전에, 상기 제스처 인식 방법은,
상기 비디오 스트림에서 미리 설정된 시간 길이를 갖는 시간 윈도우를 결정하는 단계 - 상기 시간 윈도우의 종료 모멘트는 상기 제1 비디오 세그먼트에 대응하는 시간 구간 내에 있음 -;
상기 시간 윈도우 내의 적어도 하나의 참조 이미지 및 마지막 이미지에 기초하여, 상기 제1 비디오 세그먼트에서 액션이 수행되는지 여부를 판정하는 단계 - 상기 적어도 하나의 참조 이미지는, 상기 시간 윈도우에서 상기 마지막 이미지 이외의 임의의 이미지임 -; 및
판정 결과가 상기 제1 비디오 세그먼트에서 액션이 수행되는 것이면, M 개의 이미지를 획득하는 단계를 더 포함하는 제스처 인식 방법.
제28항에 있어서,
상기 시간 윈도우 내의 적어도 하나의 참조 이미지 및 마지막 이미지에 기초하여, 상기 제1 비디오 세그먼트에서 액션이 수행되는지 여부를 판정하는 단계는,
상기 적어도 하나의 참조 이미지 각각에 대해, 상기 마지막 이미지의 편미분 이미지를 계산하는 단계 - 상기 편미분 이미지 내의 각 픽셀의 값은, 상기 참조 이미지에서의 대응하는 픽셀의 값에 대한 값에 대한 상기 마지막 이미지에서의 대응하는 픽셀의 값에 대한 편미분임 -;
상기 편미분 이미지에서 상기 각 픽셀의 값을 정규화하여, 정규화된 편미분 이미지를 획득하는 단계;
미리 설정된 이진화 임계 값에 기초하여 상기 정규화된 편미분 이미지를 이진화하여, 상기 편미분 이미지에 대한 이진화된 이미지를 획득하는 단계 - 상기 이진화된 이미지 내의 각 픽셀의 값은 0 또는 1임 -;
상기 이진화된 이미지에서 픽셀의 그레이 스케일 값의 합을 계산하는 단계; 및
상기 그레이 스케일 값의 상기 합이 0 보다 큰 경우, 상기 제1 비디오 세그먼트에서 액션이 수행되는 것으로 판정하는 단계를 포함하는, 제스처 인식 방법.
제21항에 있어서,
상기 제1 인식 결과와 상기 제2 인식 결과를 결합하여, 상기 제1 비디오 세그먼트의 상기 제스처 인식 결과를 획득하는 단계는,
상기 제1 인식 결과 및 상기 제2 인식 결과에 대한 평균 값 계산을 수행하여, 상기 평균 값 계산의 계산 결과에 기초하는 상기 제1 비디오 세그먼트의 상기 제스처 인식 결과를 획득하는 단계; 또는
상기 제1 인식 결과 및 상기 제2 인식 결과를 사전 훈련된 제2 머신 러닝 모델에 입력하여, 상기 제1 비디오 세그먼트의 상기 제스처 인식 결과를 획득하는 단계를 포함하는, 제스처 인식 방법.