KR20210124313A

KR20210124313A - 인터랙티브 대상의 구동 방법, 장치, 디바이스 및 기록 매체

Info

Publication number: KR20210124313A
Application number: KR1020217027719A
Authority: KR
Inventors: 즈후이 천
Original assignee: 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드
Priority date: 2020-03-31
Filing date: 2020-11-18
Publication date: 2021-10-14
Also published as: SG11202109202VA; CN111428672A; WO2021196648A1; JP2022531055A; TW202139064A

Abstract

인터랙티브 대상의 구동 방법, 장치, 디바이스 및 기록 매체를 개시하는바, 상기 방법은 제1 이미지를 취득하는 것; 상기 제1 이미지 내의 목표 대상의 입 부를 적어도 포함하는 얼굴 영역 이미지를 인식하고, 상기 얼굴 영역 이미지에 포함되어 있는 입 부의 키 포인트 정보를 확정하는 것; 상기 입 부의 키 포인트 정보에 기반하여 상기 제1 이미지 내의 상기 목표 대상이 말하는 상태에 있는지 여부를 확정하는 것; 및 상기 제1 이미지 내의 상기 목표 대상이 말하는 상태에 있는 것이 확정된 것에 응답하여, 상기 인터랙티브 대상이 응답을 실행하도록 구동하는 것을 포함한다.

Description

인터랙티브 대상의 구동 방법, 장치, 디바이스 및 기록 매체

본 발명은 컴퓨터 기술 분야에 관한 것인바, 구체적으로는 인터랙티브 대상의 구동 방법, 장치, 디바이스 및 기록 매체에 관한 것이다.

인간과 컴퓨터의 상호 작용의 방법의 대부분은, 사용자가 키 입력, 터치, 음성을 통해 입력하고, 디바이스가 스크린에 이미지, 텍스트 또는 가상 캐릭터를 표시함으로써 응답한다. 현재, 가상 캐릭터는 주로 음성 비서를 기반으로 개량한 것이다. 사용자와 가상 캐릭터의 인터랙티브는 아직 표면상에 있다.

본 발명의 실시예는 인터랙티브 대상을 구동하는 기술적 해결책을 제공한다.

본 발명에 일 측면에 따르면, 제출 인터랙티브 대상의 구동 방법에 있어서, 상기 방법은 제1 이미지를 취득하는 것; 상기 제1 이미지 내의 목표 대상의 입 부를 적어도 포함하는 얼굴 영역 이미지를 인식하고, 상기 얼굴 영역 이미지에 포함되어 있는 상기 입 부의 키 포인트 정보를 확정하는 것; 상기 입 부의 키 포인트 정보에 기반하여 상기 제1 이미지 내의 상기 목표 대상이 말하는 상태에 있는지 여부를 확정하는 것; 및 상기 제1 이미지 내의 상기 목표 대상이 말하는 상태에 있는 것이 확정된 것에 응답하여, 인터랙티브 대상이 응답을 실행하도록 구동하는 것을 포함한다.

본 발명에 의해 제공되는 임의의 실시 형태와 결합하면, 상기 입 부의 키 포인트 정보는 목표 대상의 입 부에 위치한 복수의 키 포인트 위치 정보를 포함하고, 상기 복수의 키 포인트는 적어도 일 그룹의 키 포인트 페어를 포함하며, 각각의 상기 키 포인트 페어는 각각 윗 입술 및 아랫 입술에 위치한 2개의 키 포인트를 포함하고, 상기 입 부의 키 포인트 정보에 기반하여 상기 목표 대상이 말하는 상태에 있는지 여부를 확정하는 것은, 상기 적어도 일 그룹의 키 포인트 페어의 위치 정보에 기반하여 각각의 상기 키 포인트 페어 중의 상기 윗 입술 및 상기 아랫 입술에 각각 위치한 2개의 키 포인트의 제1 거리를 확정하는 것; 및 각 그룹의 상기 키 포인트 페어의 상기 제1 거리에 기반하여 상기 제1 이미지 내의 상기 목표 대상이 말하는 상태에 있는지 여부를 확정하는 것을 포함한다.

본 발명에 의해 제공되는 임의의 실시 형태와 결합하면, 상기 제1 이미지는 이미지 시퀀스 중의 하나의 프레임이며, 상기 각 그룹의 상기 키 포인트 페어의 상기 제1 거리에 기반하여 상기 제1 이미지 내의 상기 목표 대상이 말하는 상태에 있는지 여부를 확정하는 것은, 상기 이미지 시퀀스 중에서, 상기 제1 이미지 및 적어도 하나의 프레임의 제2 이미지를 포함하는 소정의 수량의 처리 대기 이미지를 취득하는 것; 각 프레임의 제2 이미지에 대해 상기 제2 이미지 내의 각각의 상기 키 포인트 페어의 제1 거리를 취득하고, 상기 제1 이미지 내의 각 그룹의 상기 키 포인트 페어 간의 제1 거리 및 각 프레임의 상기 제2 이미지 내의 각 그룹의 상기 키 포인트 페어 간의 제1 거리에 기반하여 상기 제1 이미지 내의 상기 목표 대상이 말하는 상태에 있는지 여부를 확정하는 것을 포함한다.

본 발명에 의해 제공되는 임의의 실시 형태와 결합하면, 상기 이미지 시퀀스 중에서 소정의 수량의 처리 대기 이미지를 취득하는 것은, 소정의 길이의 윈도우 및 소정의 스텝 길이로 상기 이미지 시퀀스 상에서 윈도우 슬라이딩을 실행하고, 슬라이딩을 실행할 때마다, 상기 소정의 수량의 처리 대기 이미지를 취득하는 것을 포함하되, 여기서, 상기 제1 이미지는 상기 윈도우 내의 최후의 하나의 프레임 이미지이다.

본 발명에 의해 제공되는 임의의 실시 형태와 결합하면, 상기 키 포인트 페어의 제1 거리는 상기 키 포인트 페어 중의 2개의 키 포인트 간의 유클리드 거리를 포함하고, 상기 제1 이미지 내의 각 그룹의 상기 키 포인트 페어 간의 제1 거리 및 각 프레임의 상기 제2 이미지 내의 각 그룹의 상기 키 포인트 페어 간의 제1 거리에 기반하여 상기 제1 이미지 내의 상기 목표 대상이 말하는 상태에 있는지 여부를 확정하는 것은, 상기 처리 대기 이미지 중의 목표 이미지를 인식하는 것; 및 상기 처리 대기 이미지 중에 포함되어 있는 목표 이미지의 수량을 확정하고, 상기 목표 이미지의 수량과 상기 처리 대기 이미지의 상기 소정의 수량 사이의 비율이 소정의 비율보다 큰 것에 응답하여, 상기 제1 이미지 내의 목표 대상이 말하는 상태에 있는 것으로 확정하는 것을 포함한다.

본 발명에 의해 제공되는 임의의 실시 형태와 결합하면, 상기 처리 대기 이미지 중의 목표 이미지를 인식하는 것은, 상기 각 그룹의 키 포인트 페어의 유클리드 거리의 평균 값이 제1 소정의 한계값보다 큰 이미지를 상기 목표 이미지로 확정하는 것, 또는 상기 각 그룹의 키 포인트 페어의 유클리드 거리의 가중 평균 값이 제2 소정의 한계값보다 큰 이미지를 상기 목표 이미지로 확정하는 것을 포함한다.

본 발명에 의해 제공되는 임의의 실시 형태와 결합하면, 상기 제1 소정의 한계값 및 상기 제2 소정의 한계값은 상기 처리 대기 이미지의 해상도에 기반하여 확정된 것이다.

본 발명에 의해 제공되는 임의의 실시 형태와 결합하면, 상기 목표 대상이 말하는 상태에 있는 것에 응답하여, 인터랙티브 대상이 응답을 실행하도록 구동하는 것은, 상기 인터랙티브 대상이 대기 상태에 있을 경우, 처음으로 상기 제1 이미지 내의 상기 목표 대상이 말하는 상태에 있는 것이 확정된 것에 응답하여, 상기 인터랙티브 대상을 상기 목표 대상과 인터랙티브를 실행하는 상태로 구동하는 것을 포함한다.

본 발명에 일 측면에 따르면, 인터랙티브 대상의 구동 장치를 제공하는바, 상기 장치는 제1 이미지를 취득하기 위한 취득 유닛; 상기 제1 이미지 내의 목표 대상의 입 부를 적어도 포함하는 얼굴 영역 이미지를 인식하고, 상기 얼굴 영역 이미지에 포함되어 있는 상기 입 부의 키 포인트 정보를 확정하기 위한 인식 유닛; 상기 입 부의 키 포인트 정보에 기반하여 상기 제1 이미지 내의 상기 목표 대상이 말하는 상태에 있는지 여부를 확정하기 위한 확정 유닛; 및 상기 제1 이미지 내의 상기 목표 대상이 말하는 상태에 있는 것이 확정된 것에 응답하여, 인터랙티브 대상이 응답을 실행하도록 구동하기 위한 구동 유닛을 구비한다.

본 발명에 의해 제공되는 임의의 실시 형태와 결합하면, 상기 입 부의 키 포인트 정보는 목표 대상의 입 부에 위치한 복수의 키 포인트 위치 정보를 포함하고, 상기 복수의 키 포인트는 적어도 일 그룹의 키 포인트 페어를 포함하며, 각각의 상기 키 포인트 페어는 각각 윗 입술 및 아랫 입술에 위치한 2개의 키 포인트를 포함하고, 상기 확정 모듈은 상기 입 부의 키 포인트 정보에 기반하여 상기 목표 대상이 말하는 상태에 있는지 여부를 확정할 때에, 또한 상기 적어도 일 그룹의 키 포인트 페어의 위치 정보에 기반하여 각각의 상기 키 포인트 페어 중의 상기 윗 입술 및 상기 아랫 입술에 각각 위치한 2개의 키 포인트의 제1 거리를 확정하고, 각 그룹의 상기 키 포인트 페어의 상기 제1 거리에 기반하여 상기 제1 이미지 내의 상기 목표 대상이 말하는 상태에 있는지 여부를 확정한다.

본 발명에 의해 제공되는 임의의 실시 형태와 결합하면, 상기 제1 이미지는 이미지 시퀀스 중의 하나의 프레임이며, 상기 확정 유닛은 각 그룹의 상기 키 포인트 페어의 상기 제1 거리에 기반하여 상기 제1 이미지 내의 상기 목표 대상이 말하는 상태에 있는지 여부를 확정할 때에, 상기 이미지 시퀀스 중에서, 상기 제1 이미지 및 적어도 하나의 프레임의 제2 이미지를 포함하는 소정의 수량의 처리 대기 이미지를 취득하고, 각 프레임의 제2 이미지에 대해 상기 제2 이미지 내의 각각의 상기 키 포인트 페어의 제1 거리를 취득하며, 상기 제1 이미지 내의 각 그룹의 상기 키 포인트 페어 간의 제1 거리 및 각 프레임의 상기 제2 이미지 내의 각 그룹의 상기 키 포인트 페어 간의 제1 거리에 기반하여 상기 제1 이미지 내의 상기 목표 대상이 말하는 상태에 있는지 여부를 확정한다.

본 발명에 의해 제공되는 임의의 실시 형태와 결합하면, 상기 확정 유닛은 상기 이미지 시퀀스 중에서 소정의 수량의 처리 대기 이미지를 취득할 때에, 소정의 길이의 윈도우 및 소정의 스텝 길이로 상기 이미지 시퀀스 상에서 윈도우 슬라이딩을 실행하고, 슬라이딩을 실행할 때마다 소정의 수량의 처리 대기 이미지를 취득하되, 여기서, 상기 제1 이미지는 상기 윈도우 내의 최후의 하나의 프레임 이미지이다.

본 발명에 의해 제공되는 임의의 실시 형태와 결합하면, 상기 키 포인트 페어의 제1 거리는 상기 키 포인트 페어 중의 2개의 키 포인트 간의 유클리드 거리를 포함하고, 상기 확정 유닛은 상기 제1 이미지 내의 각 그룹의 상기 키 포인트 페어 간의 제1 거리 및 각 프레임의 상기 제2 이미지 내의 각 그룹의 상기 키 포인트 페어 간의 제1 거리에 기반하여 상기 제1 이미지 내의 상기 목표 대상이 말하는 상태에 있는지 여부를 확정할 때에, 상기 처리 대기 이미지 중의 목표 이미지를 인식하고, 상기 처리 대기 이미지 중에 포함되어 있는 목표 이미지의 수량을 확정하고, 상기 목표 이미지의 수량과 상기 처리 대기 이미지의 상기 소정의 수량 사이의 비율이 소정의 비율보다 큰 것에 응답하여, 상기 제1 이미지 내의 목표 대상이 말하는 상태에 있는 것으로 확정한다.

본 발명에 의해 제공되는 임의의 실시 형태와 결합하면, 상기 확정 모듈 상기 처리 대기 이미지 내에서 상기 목표 이미지를 확정할 때에, 상기 각 그룹의 키 포인트 페어의 유클리드 거리의 평균 값이 제1 소정의 한계값보다 큰 이미지를 상기 목표 이미지로 확정하거나, 또는 상기 각 그룹의 키 포인트 페어의 유클리드 거리의 가중 평균 값이 제2 소정의 한계값보다 큰 이미지를 상기 목표 이미지로 확정한다.

본 발명에 의해 제공되는 임의의 실시 형태와 결합하면, 상기 구동 유닛은 구체적으로, 상기 인터랙티브 대상이 대기 상태에 있을 경우, 처음으로 상기 제1 이미지 내의 상기 목표 대상이 말하는 상태에 있는 것이 확정된 것에 응답하여, 상기 인터랙티브 대상을 상기 목표 대상과 인터랙티브를 실행하는 상태로 구동한다.

본 발명의 하나 또는 복수의 실시예의 인터랙티브 대상의 구동 방법, 장치, 디바이스 및 컴퓨터 판독 가능 기록 매체에 따르면, 제1 이미지를 인식하고, 상기 제1 이미지 내의 상기 목표 대상의 입 부를 적어도 포함하는 얼굴 영역 이미지를 얻으며, 상기 얼굴 영역 이미지 중의 입 부의 키 포인트 정보를 확정하고, 상기 입 부의 키 포인트 정보에 기초를 두어 와 상기 제1 이미지 내의 상기 목표 대상이 말하는 상태에 있는지 여부를 확정함으로써, 상기 인터랙티브 대상이 응답을 실행하도록 구동하고, 또한 제1 이미지에 기반하여 목표 대상이 말하고 있는지 여부를 실시간으로 판단하여, 목표 대상이 인터랙티브 대상이 전시되어 있는 단말 디바이스와 터치 인터랙티브를 실행하지 않고 있을 경우에, 인터랙티브 대상이 목표 대상의 발화에 대해 시의적절하게 응답을 수행하여 인터랙티브 상태로 되도록 할 수 있고, 목표 대상의 인터랙티브 체험을 개선했다.

상기의 일반적인 설명 및 이하 상세한 설명은 예시적 및 설명적인 것에 불과할 뿐, 본 발명을 한정할 수는 없음을 이해해야 한다.

본 명세서의 도면은 본 발명에 통합되어 본 발명에 적합한 실시예를 제시하며, 본 발명과 함께 본 발명의 원리를 설명하기 위하여 사용된다.
도 1은 본 발명의 실시예에 관한 인터랙티브 대상의 구동 방법의 디스플레이 모식도이다.
도 2는 본 발명의 실시예에 관한 인터랙티브 대상의 구동 방법의 플로우 챠트이다.
도 3은 본 발명의 실시예에 관한 인터랙티브 대상의 구동 방법의 입 부 키 포인트의 모식도이다.
도 4는 본 발명의 실시예에 관한 인터랙티브 대상의 구동 장치의 구성의 모식도다.
도 5는 본 발명의 실시예에 관한 전자 디바이스의 구성 모식도이다.

이하, 예시적인 실시예를 상세하게 설명하며, 그 예를 도면에 나타낸다. 이하의 설명에서 도면을 언급할 경우, 특히 명기하지 않는 한, 서로 다른 도면 내의 동일한 숫자는 동일하거나 유사한 요소를 나타낸다. 이하의 예시적인 실시예에서 서술되는 실시 형태는 본 발명과 일치한 모든 실시 형태를 대표하지 않는다. 반대로, 이들은 첨부된 특허 청구의 범위에 기재된 본 발명의 몇몇의 양태와 일치한 장치 및 방법의 예에 불과하다.

본 명세서 내의 "및/또는"이라고 하는 용어는 단지 관련 대상의 관련 관계를 설명하는 것인바, 세가지 관계가 존재할 수 있음을 나타낸다. 예를 들면, A 및/또는 B는, A가 단독으로 존재하는 것, A와 B가 동시에 존재하는 것 및 B가 단독으로 존재하는 것과 같은 세가지 관계를 포함한다. 또한, 본 명세서 내의 "적어도 일 종"이라고 하는 용어는 복수 종류 중의 임의의 일 종 또는 복수 종류 중의 적어도 두 종류의 임의의 조합을 나타낸다. 예를 들면, A, B, C 중의 적어도 일 종을 포함하는 것은, A, B 및 C로 구성된 세트에서 선택한 임의의 하나 또는 복수의 요소를 포함하는 것을 나타낸다.

본 발명의 적어도 하나의 실시예는 인터랙티브 대상의 구동 방법을 제공하는 바, 상기 구동 방법은 단말 디바이스 또는 서버 등의 전자 디바이스에 의해 실행될 수 있다. 상기 단말 디바이스는 휴대전화, 태블릿 컴퓨터, 게임기, 데스크탑 컴퓨터, 광고기, 올인원기, 차량용 단말 등의 고정 단말 또는 이동 단말일 수 있다. 상기 서버는 로컬 서버 또는 클라우드 서버 등을 포함한다. 상기 방법은 프로세서에 의해 메모리에 기억되어 있는 컴퓨터 판독 가능 명령을 호출하는 방법에 의해 실현될 수 있다.

본 발명의 실시예에 있어서, 인터랙티브 대상은 목표 대상과 인터랙티브를 실행할 수 있는 임의의 가상 이미지일 수 있다. 일 실시예에 있어서, 인터랙티브 대상은 가상 캐릭터일 수 있고, 또한 가상 동물, 가상 물품, 만화 이미지 등의 인터랙티브 기능을 실현할 수 있는 기타 가상 이미지일 수 있다. 인터랙티브 대상의 표시 형식은 2D 또는 3D일 수 있지만, 본 발명은 이에 대해 한정하지 않는다. 상기 목표 대상은 사용자, 로봇 또는 기타 스마트 디바이스일 수 있다. 상기 인터랙티브 대상의 상기 목표 대상과의 인터랙티브 방법은 능동적 인터랙티브 방법 또는 수동적 인터랙티브 방법일 수 있다. 일 예에 있어서, 목표 대상이 제스처 또는 신체 동작을 수행하여 요구를 발함으로써, 능동적 인터랙티브 방법에 따라 인터랙티브 대상을 트리거하여 인터랙티브를 실행할 수 있다. 다른 일 예에 있어서, 인터랙티브 대상이 능동적으로 인사함으로써, 목표 대상이 동작 등을 수행하도록 프롬프트 하는 방법을 통해, 목표 대상이 수동적 방법을 통해 인터랙티브 대상과 인터랙티브를 실행하도록 할 수 있다.

상기 인터랙티브 대상은 단말 디바이스를 이용하여 전시할 수 있으며, 상기 단말 디바이스는 텔레비전, 표시 기능을 가지는 올인원기, 프로젝터, 가상 현실(Virtual Reality, VR) 디바이스, 확장 현실(Augmented Reality, AR) 디바이스 등일 수 있으며, 본 발명은 단말 디바이스의 구체적인 형태에 대해 한정하지 않는다.

도 1은 본 발명의 실시예에 관한 표시 디바이스를 나타낸다. 도 1에 나타낸 바와 같이, 당해 표시 디바이스는 표시 스크린을 구비하며, 표시 스크린에 입체 이미지를 표시함으로써, 입체 효과를 가지는 가상 씬 및 인터랙티브 대상을 나타낼 수 있다. 예를 들면, 도 1의 표시 스크린에 표시된 인터랙티브 대상은 가상 만화 인물을 포함한다.

몇몇의 실시예에 있어서, 본 발명에 기재된 전자 디바이스는 내장된 디스플레이를 포함하고, 디스플레이를 이용하여 입체 이미지를 표시하며, 가상 씬 및 인터랙티브 대상을 표현할 수 있다. 또 몇몇의 실시예에 있어서, 본 발명에 기재된 전자 디바이스는 내장한 디스플레이를 포함하지 않을 수 있으며, 표시할 필요가 있는 내용을 유선 또는 무선의 접속을 통해 외부의 디스플레이로 하여금 가상 씬 및 인터랙티브 대상을 표시하도록 통지할 수 있다.

몇몇의 실시예에 있어서, 전자 디바이스에 의해 인터랙티브 대상이 음성을 출력하도록 구동하기 위한 음성 구동 데이터가 수신된 것에 응답하여, 인터랙티브 대상은 목표 대상에 대해 지정된 음성을 발할 수 있다. 단말 디바이스는 단말 디바이스의 주변 목표 대상의 동작, 표정, 신분, 기호 등에 기반하여 음성 구동 데이터를 생성함으로써, 인터랙티브 대상이 지정된 음성을 발하여 교류 또는 응답을 수행하도록 구동하여, 목표 대상에 대해 의인화 서비스를 제공할 수 있다. 이에 감안하여 본 발명의 적어도 하나의 실시예에 따르면, 인터랙티브 대상 구동 방법은 목표 대상의 인터랙티브 대상과의 인터랙티브의 체험을 향상시킨다.

도 2는 본 발명의 실시예에 관한 인터랙티브 대상의 구동 방법의 플로우 챠트이며, 도 2에 나타낸 바와 같이, 상기 방법은 단계 201∼단계 204을 포함한다.

단계 201이며, 제1 이미지를 취득한다.

상기 제1 이미지는 인터랙티브 대상이 전시되어 있는 전자 디바이스 (예를 들면 단말 디바이스, 서버 등임)의 주변의 이미지일 수 있다. 당해 이미지는 전자 디바이스의 이미지 수집 모듈을 통해, 예를 들면 내장 카메라를 통해 얻을 수 있다. 전자 디바이스의 주변 이미지는 상기 전자 디바이스의 특정의 범위 내의 임의의 방향의 이미지를 포함한다. 예를 들면 상기 전자 디바이스의 앞, 측면, 뒤, 위의 하나 또는 복수의 방향 이미지를 포함할 수 있다. 예시적으로, 당해 범위는 오디오 신호를 검출하기 위한 음성 검출 모듈이 수신할 수 있는 소정의 강도 오디오 신호의 범위에 의해 확정된다. 여기서, 상기 음성 검출 모듈은 상기 전자 디바이스의 내장 모듈로서 전자 디바이스에 배치될 수도 있고, 외부 디바이스로서 전자 디바이스와 독립될 수도 있다. 상기 제1 이미지는 또한 네트워크를 통해 취득한, 이미지 수집 디바이스에 의해 수집된 이미지일 수도 있다. 상기 이미지 수집 디바이스는 단말 디바이스와 독립된 카메라일 수 있고, 당해 카메라는 유선 또는 무선 네트워크를 통해, 수집한 이미지를 본 방법을 실행하는 전자 디바이스에 전송할 수 있다. 상기 이미지 수집 디바이스의 수는 하나 또는 복수일 수 있다. 예를 들면, 목표 대상 (예를 들면 사용자임)은 단말 디바이스를 사용하여 특정 조작을 실행할 수 있는바, 예를 들면 단말 디바이스가 특정의 클라이언트를 사용하여 인터랙티브 대상과의 인터랙티브에 관한 서비스를 실행할 수 있다. 제1 이미지는 단말 디바이스의 카메라 또는 외부 카메라를 이용하여 수집한 이미지일 수 있다. 당해 이미지를 네트워크를 통해 서버에 업로드하고, 서버가 당해 이미지에 대해 해석을 실행하고, 해석 결과에 기반하여 인터랙티브 대상이 응답을 실행하도록 제어할 필요가 있는지 여부를 판단할 수 있다. 또는 직접 당해 단말 디바이스가 당해 이미지에 대해 해석을 실행하고, 해석 결과에 기반하여 인터랙티브 대상이 응답을 실행하도록 제어할 필요가 있는지 여부를 판단할 수 있다.

단계 202에 있어서, 상기 제1 이미지 내의 목표 대상의 입 부를 적어도 포함하는 얼굴 영역 이미지를 인식하고, 상기 얼굴 영역 이미지에 포함되어 있는 상기 입 부의 키 포인트 정보를 확정한다.

일 예에 있어서, 제1 이미지 내의 상기 목표 대상의 입 부를 포함하는 얼굴 영역 이미지를 트리밍하고, 상기 얼굴 영역 이미지를 독립한 이미지로 설정하며, 상기 얼굴 영역 이미지에 대해 얼굴 키 포인트 검출을 실행하고, 상기 얼굴 영역 이미지 내의 입 부 키 포인트를 확정하여, 위치 정보 등의 상기 입 부의 키 포인트 정보를 얻을 수 있다.

일 예에 있어서, 직접 제1 이미지 내의 목표 대상의 입 부를 포함하는 얼굴 영역 이미지 블록에 대해 얼굴 키 포인트 검출을 실행하여, 상기 제1 이미지 중에 포함되어 있는 상기 입 부의 키 포인트 정보를 확정할 수 있다.

단계 203에 있어서, 상기 입 부의 키 포인트 정보에 기반하여 상기 제1 이미지 내의 상기 목표 대상이 말하는 상태에 있는지 여부를 확정한다.

목표 대상의 입 부가 벌려져 있는 상태와 닫쳐져 있는 상태에서 검출된 입 부의 키 포인트 정보(예를 들면 위치 정보임)가 서로 다르다. 예를 들면, 입 부가 벌려져 있는 상태에 있을 때에, 윗 입술에 위치한 키 포인트와 아랫 입술에 위치한 키 포인트 사이의 거리는 통상 특정의 정도보다 크고, 입 부가 닫쳐져 있는 상태에 있을 때에, 윗 입술에 위치한 키 포인트와 아랫 입술에 위치한 키 포인트 사이의 거리는 통상 정도보다 작다. 입 부가 벌려져 있는 상태 또는 닫쳐져 있는 상태에 있는 것을 판단하는 거리의 한계값은 선택한 윗 입술 키 포인트와 아랫 입술 키 포인트가 위치한 입 부 위치에 관련된다. 예를 들면, 윗 입술의 중심으로 위치한 키 포인트와 아랫 입술의 중심으로 위치한 키 포인트 사이의 거리 한계값은 통상 윗 입술의 가장자리에 위치한 키 포인트와 아랫 입술의 가장자리에 위치한 키 포인트 사이의 거리 한계값보다 크다.

일 예에 있어서, 소정의 시간 내에서, 복수 장의 제1 이미지 중에서, 소정의 비율을 초과하는 이미지에 대해, 목표 대상의 입 부가 벌려져 있는 상태에 있는 것이 검출되면, 상기 목표 대상이 말하는 상태에 있는 것으로 확정할 수 있다. 반대로, 소정의 시간 내에서 소정의 비율을 초과하지 않는 이미지에 대해, 목표 대상의 입 부가 닫쳐져 있는 상태에 있는 것이 검출되면, 상기 목표 대상이 말하지 않고 있는 것으로 확정할 수 있다.

단계 204에 있어서, 상기 제1 이미지 내의 상기 목표 대상이 말하는 상태에 있는 것에 응답하여, 상기 인터랙티브 대상이 응답을 실행하도록 구동한다.

목표 대상과 상기 인터랙티브 대상을 전시하는 단말 디바이스 사이에 터치 인터랙티브가 없을 가능성이 있기 때문에, 전자 디바이스 또는 이미지 수집 디바이스의 주변의 목표 대상이 상대적으로 많을 경우 또는 수신된 오디오 신호가 상대적으로 많을 경우, 목표 대상이 말하기 시작할 때 또는 음성 명령을 발할 때에, 전자 디바이스는 목표 대상이 인터랙티브 대상과 인터랙티브를 시작한 것을 시의적절하게 판단할 수 없을 경우가 있다. 전자 디바이스 또는 이미지 수집 디바이스의 주변 목표 대상이 말하는 상태에 있는지 여부를 검출함으로써, 하나의 목표 대상이 말하는 상태에 있는 것이 확정되었을 경우, 상기 인터랙티브 대상이 당해 목표 대상에 대해 응답을 실행하게 시의적절하도록 구동할 수 있다. 예를 들면, 목표 대상을 듣는 자태를 취하거나 또는 상기 목표 대상에 대해 특정의 응답을 실행한다. 예를 들면, 상기 목표 대상이 여성일 경우, 상기 인터랙티브 대상이 "부인, 어떻게 하면 당신을 도울 수 있을까요?"이라는 음성을 발하도록 구동할 수 있다.

본 발명의 실시예에 있어서, 제1 이미지에 기반하여 목표 대상이 말하고 있는지 여부를 실시간으로 판단함으로써, 목표 대상이 인터랙티브 대상이 전시되어 있는 단말 디바이스와 터치 인터랙티브를 실행하지 않고 있을 경우에, 인터랙티브 대상이 목표 대상의 발화에 대해 시의적절하게 응답을 수행하여 인터랙티브 상태로 되도록 할 수 있으며, 목표 대상의 인터랙티브 체험을 개선했다.

본 발명의 실시예에 있어서, 상기 입 부의 키 포인트 정보는 목표 대상의 입 부에 위치한 복수의 키 포인트 위치 정보를 포함하고, 상기 복수의 키 포인트는 적어도 일 그룹의 키 포인트 페어를 포함하며, 상기 키 포인트 페어는 적어도 각각 윗 입술 및 아랫 입술에 위치한 2개의 키 포인트를 포함한다.

도 3은 본 발명의 실시예에 의해 제공되는 인터랙티브 대상의 구동 방법의 입 부 키 포인트의 모식도이다. 도 3에 나타낸 입 부 키 포인트 중에서, 적어도 일 그룹의 키 포인트 페어, 예를 들면 키 포인트 페어(98, 102)을 취득할 수 있으며, 여기서 키 포인트(98)는 윗 입술의 중앙에 위치하고, 키 포인트(102)는 아랫 입술의 중앙에 위치한다.

입 부의 적어도 일 그룹의 키 포인트 페어의 위치 정보에 기반하여 각각의 상기 키 포인트 페어 중의 각각 윗 입술 및 아랫 입술에 위치한 2개의 키 포인트의 제1 거리를 확정할 수 있다. 예를 들면, 일 그룹의 키 포인트 페어(98, 102)을 취득했을 경우, 키 포인트(98) 및 키 포인트(102)의 위치 정보에 기반하여 키 포인트(98)와 키 포인트(102) 사이의 제1 거리를 확정할 수 있다.

각 그룹의 상기 키 포인트 페어의 상기 제1 거리에 기반하여 상기 목표 대상이 말하는 상태에 있는지 여부를 확정할 수 있다.

입 부가 벌려져 있는 상태와 닫쳐져 있는 상태에서 키 포인트(98)와 키 포인트(102) 사이의 제1 거리가 서로 다르다. 키 포인트(98)와 키 포인트(102) 사이의 제1 거리가 거리의 소정의 한계값보다 클 경우, 상기 제1 이미지 내의 목표 대상의 입 부가 벌려져 있는 상태에 있는 것으로 확정할 수 있고, 반대로, 키 포인트(98)과 키 포인트(102) 사이의 제1 거리가 상기 거리의 소정의 한계값 미만일 경우, 상기 목표 대상의 입 부가 닫쳐져 있는 상태에 있는 것으로 확정할 수 있다. 입 부가 닫쳐져 있는 상태 또는 벌려져 있는 상태에 기반하여 상기 목표가 말하는 상태에 있는지 여부를 확정할 수 있는바, 즉 상기 목표 대상이 현재 말하고 있는지 여부를 확정할 수 있다.

당업자는 키 포인트 페어의 선택은 (98, 102)에 한정되지 않으며, 다른 하나의 키 포인트가 윗 입술의 영역에 위치하고, 또 하나의 키 포인트가 아랫 입술의 영역에 위치하는 키 포인트 페어일 수 있음을 이해해야 한다. 복수 그룹의 키 포인트 페어를 선택했을 경우, 복수 그룹의 키 포인트 페어에 대응하는 제1 거리의 평균 값 또는 가중 평균 값에 기반하여 상기 제1 이미지 내의 윗 입술 키 포인트와 아랫 입술 키 포인트 사이의 평균 거리를 확정할 수 있다. 그리고, 입 부가 닫쳐져 있거나 열려져 있는지를 판단하기 위한 거리 소정의 한계값은, 선택한 키 포인트 페어가 위치한 부위에 기반하여 확정할 수 있다.

본 발명의 실시예에 있어서, 상기 제1 이미지는 이미지 시퀀스 중의 하나의 프레임이다. 여기서, 상기 이미지 시퀀스는 이미지 수집 디바이스를 이용하여 취득한 비디오 스트림 또는 소정의 빈도로 촬영한 복수의 프레임 이미지일 수 있다. 상기 제1 이미지가 이미지 시퀀스 중의 하나의 프레임일 경우, 상기 이미지 시퀀스 중에서 소정의 수량의 처리 대기 이미지를 취득하고, 각각의 처리 대기 이미지 내의 상기 키 포인트 페어의 제1 거리에 기반하여 상기 목표 대상이 말하는 상태에 있는지 여부를 확정할 수 있다. 여기서, 상기 처리 대기 이미지는 상기 제1 이미지 및 상기 제1 이미지 이외의 적어도 하나의 프레임의 제2 이미지를 포함할 수 있다. 각 프레임의 제2 이미지에 대해, 상기 제2 이미지 내의 각각의 키 포인트 페어의 제1 거리를 취득하고, 상기 제1 이미지 내의 각 그룹의 상기 키 포인트 페어 간의 제1 거리 및 각 프레임의 상기 제2 이미지 내의 각 그룹의 상기 키 포인트 페어 간의 제1 거리에 기반하여 상기 목표 대상이 말하는 상태에 있는지 여부를 확정할 수 있다.

예를 들면, 상기 처리 대기 이미지 중의 2개의 프레임의 제2 이미지는 제1 이미지에 인접하는 연속하는 2개의 프레임일 수도 있고, 제1 이미지와 같은 프레임 간격을 형성하는 2개의 프레임의 제2 이미지일 수도 있다. 예를 들면, 상기 제1 이미지가 이미지 시퀀스 중의 N번째 프레임인 것으로 가정하면, 상기 2개의 프레임의 제2 이미지는 N-1번째의 프레임 및 제N-2프레임일 수도 있고, N-2번째의 프레임 및 N-4번째의 프레임일 수도 있다.

본 실시예에 있어서, 제1 이미지 및 각각의 제2 이미지 내의 각 키 포인트 페어의 제1 거리에 기반하여 소정의 수량의 처리 대기 이미지 내의 목표 대상의 입 부의 벌려져 있는 상태 또는 닫쳐져 있는 상태를 확정할 수 있으며, 따라서 상기 목표 대상이 말하는 상태에 있는지 여부를 확정할 수 있다.

몇몇의 실시예에 있어서, 소정의 길이의 윈도우 및 소정의 스텝 길이로 상기 이미지 시퀀스 상에서 윈도우 슬라이딩을 실행하고, 슬라이딩을 실행할 때마다 소정의 수량의 처리 대기 이미지를 취득할 수 있으며, 여기서 상기 제1 이미지는 상기 윈도우 내의 최후의 하나의 프레임 이미지이다.

본 발명에 기재된 방법은 목표 대상이 말하는 상태에 있는지 여부를 실시간으로 검출할 수 있음을 설명할 필요가 있다. 즉, 수집되는 제1 이미지는 항상 증가할 가능성이 있다. 윈도우를 설정하면, 상기 제1 이미지는 최초에 상기 윈도우에 추가된 이미지일 수 있고, 또한 제1 이미지를 증가하는 동시에 최초에 상기 윈도우에 추가한 제1 프레임 이미지를 파기할 수 있다. 즉, 윈도우 내의 수집 시간이 가장 빠른 하나의 프레임 이미지를 파기할 수 있다. 따라서, 윈도우 내의 복수 장의 이미지의 수집 시간이 비교적 새로워지도록 보증할 수 있다.

일 실시 형태에 있어서, 윈도우 내의 모든 검출 대기 이미지에 대해 동시에 처리를 실행하며, 이러한 처리 대기 이미지 내의 목표 대상의 입 부 상태를 확정하여, 목표 대상이 말하는 상태에 있는지 여부를 판단할 수 있다. 다른 일 실시 형태에 있어서, 윈도우 내의 모든 검출 대기 이미지에 대해 각각 처리를 실행할 수 있는바, 즉 윈도우 내에 하나의 프레임 검출 대기 이미지가 새로 증가될 때마다, 당해 이미지를 검출하고, 당해 이미지 내의 목표 대상의 입 부 상태를 확정하며, 당해 입 부 상태를 보존하여, 후속에서 목표 대상이 말하는 상태에 있는지 여부를 판단할 때에, 윈도우 내에 보존한 현재의 복수 프레임의 검출 대기 이미지 중의 각 프레임의 검출 대기 이미지의 입 부 상태를 사용할 수 있다.

윈도우의 길이는 윈도우에 포함되어 있는 처리 대기 이미지의 수량과 관련되며, 윈도우의 길이가 길수록 포함되어 있는 처리 대기 이미지의 수량이 많아진다. 윈도우 슬라이딩을 실행하는 스텝 길이는 처리 대기 이미지를 취득하는 시간 간격(빈도)에 관련되는 바, 즉 상기 목표 대상의 말하는 상태를 판단하는 시간 간격에 관련된다. 윈도우의 길이 및 스텝 길이는 실제의 인터랙티브 씬에 따라 설정할 수 있다. 예를 들면, 윈도우의 길이가 10이고, 스텝 길이가 2일 경우, 상기 윈도우는 10개의 처리 대기 이미지를 포함할 수 있으며, 또한 슬라이딩을 실행할 때마다, 상기 이미지 시퀀스 중의 2프레임 이미지를 이동할 수 있다.

한편, 윈도우 길이의 설정은 검출의 정밀도에 관련되어 있다. 예를 들면, 한 장의 처리 대기 이미지의 검출 결과에 기반하여 목표 대상의 상태를 판단하면, 판단 정밀도가 상대적으로 낮아질 가능성이 있다. 복수 장의 처리 대기 이미지의 검출 결과에 기반하여 목표 대상의 상태를 판단하면, 판단 정밀도를 향상시킬 수 있다. 그러나, 윈도우의 길이가 너무 길면, 판단의 실시간성이 상대적으로 낮아진다. 예를 들면, 목표 대상은 N번째의 프레임 이미지에 대응하는 t1 타이밍에서 말하기 시작하지만, 윈도우 내의 서로 다른 프레임 이미지 (예를 들면 N-1번째, N-2번째,…)의 검출 결과가 여전히 목표 대상이 말하지 않고 있는 것을 나타내고 있기 때문에, t1 타이밍에서 여전히 목표 대상이 말하기 시작하지 않는 것으로 판단하게 되며, N+i번째의 프레임 이미지를 취득한 t2타이밍, 즉 윈도우 내의 소정의 비율을 초과하는 이미지의 검출 결과가 목표 대상의 입을 벌려져 있는 상태를 나타내면, 목표 대상이 말하기 시작했다고 판단할 수 있다. 여기서, i는 적어도 윈도우의 길이, 스텝 길이 및 소정의 비율에 의존한다. 따라서, 윈도우의 길이가 길수록, t2와 t1 사이의 시간 차이가 커지고, 검출의 실시간성에 영향을 주게 된다.

본 발명의 실시예에 있어서, 제1 이미지 및 상기 제1 이미지 앞의 제2 이미지 내의 목표 대상의 입 부 상태에 기반하여 상기 제1 이미지 내의 상기 목표 대상이 말하는 상태에 있는지 여부를 확정할 수 있다. 또한, 윈도우 슬라이딩의 방법을 통해 하나의 프레임이 새로운 이미지인 제1 이미지가 수집될 때마다, 당해 이미지를 윈도우 내의 최후의 하나의 프레임 이미지로 하기에, 목표 대상이 말하는 상태에 있는지 여부를 실시간으로 검출할 수 있다.

본 발명의 실시예에 있어서, 상기 제1 거리는 상기 키 포인트 페어 중의 2개의 키 포인트 간의 유클리드 거리를 포함한다. 3차원의 얼굴 이미지의 경우, 상기 유클리드 거리는 2개의 키 포인트 간의 거리 및 위치 관계를 따라 정확하게 측정할 수 있다.

몇몇의 실시예에 있어서, 이하의 방법을 통해 상기 제1 이미지 내의 각 그룹의 상기 키 포인트 페어 간의 제1 거리 및 각 프레임의 상기 제2 이미지 내의 각 그룹의 상기 키 포인트 페어 간의 제1 거리에 기반하여 상기 목표 대상이 말하는 상태에 있는지 여부를 확정한다.

먼저 상기 제1 이미지 및 각 프레임의 상기 제2 이미지 중에서, 각 키 포인트 페어의 유클리드 거리의 평균 값이 제1 소정의 한계값보다 큰 이미지를 목표 이미지로 확정하거나, 또는 각 키 포인트 페어의 유클리드 거리의 가중 평균 값이 제2 소정의 한계값보다 큰 이미지를 목표 이미지로 확정한다. 즉, 상기 처리 대기 이미지 중에서, 상기 목표 대상의 입 부가 벌려져 있는 상태에 있는 이미지를 목표 이미지로 확정한다.

그 다음, 상기 처리 대기 이미지 중에 포함되어 있는 목표 이미지의 수량을 확정한다. 즉, 상기 처리 대기 이미지 중의 입 부가 벌려져 있는 상태에 있는 이미지(처리 대기 이미지 중의 제1 이미지일 수도 있고, 처리 대기 이미지 중의 제2 이미지일 수도 있음)의 수량을 확정한다.

이어서, 상기 목표 이미지의 수량과 상기 처리 대기 이미지의 상기 소정의 수량 사이의 비율에 기반하여 상기 목표 대상이 말하는 상태에 있는지 여부를 확정한다.

상기 비율이 소정의 비율보다 큰 것에 응답하여, 상기 제1 이미지 내의 상기 목표 대상이 말하는 상태에 있는 것이 확정하고, 반대로 상기 비율이 소정의 비율 미만인 것에 응답하여, 상기 목표 대상이 현재 말하지 않고 있는 것으로 확정한다.

몇몇의 실시예에 있어서, 상기 처리 대기 이미지의 서로 다른 해상도에 따라 서로 다른 유클리드 거리의 소정의 한계값을 설정할 수 있다. 즉, 상기 제1 소정의 한계값 및 상기 제2 한계값은 상기 처리 대기 이미지의 해상도에 기반하여 확정된 것일 수 있다.

일 예에 있어서, 상기 처리 대기 이미지의 해상도가 720*1080일 경우, 유클리드 거리의 소정의 한계값을 9(예를 들면 9개의 픽셀 점임)로 설정할 수 있다. 윈도우의 길이를 10로 설정할 수 있는 바, 즉 상기 윈도우에 10개의 처리 대기 이미지가 포함되도록 하고, 스텝 길이인 1로 윈도우를 이동할 수 있다. 소정의 비율이 0.4일 경우, 상기 윈도우가 현재 이미지 프레임까지 슬라이드하였을 때에, 포함되어 있는 10개의 처리 대기 이미지에 입 열기 상태에 있는 4개의 이미지가 포함되어 있으면, 상기 목표 대상정이 말하는 상태에 있는 것으로 확정한다.

또 하나의 예에 있어서, 처리 대기 이미지의 해상도가 720*1080이 아니면, 트리밍, 줌인 또는 줌 아웃에 의해, 처리 대기 이미지의 해상도를 720*1080으로 조정할 수 있다. 처리 대기 이미지의 해상도에 기반하여 당해 해상도로 대응하는 유클리드 거리의 소정의 한계값을 산출할 수 있다.

상기 인터랙티브 대상이 대기 상태에 있을 경우, 즉 상기 인터랙티브 대상이 상기 목표 대상과 인터랙티브를 실행하지 않고 있는 상태에서, 처음으로 상기 제1 이미지 내의 목표 대상이 말하는 상태에 있는 것으로 확정된 것에 응답하여, 상기 인터랙티브 대상을 상기 목표 대상과 인터랙티브를 실행하는 상태로 구동할 수 있다.

목표 대상이 상기 인터랙티브 대상을 전시하는 단말 디바이스와 터치 인터랙티브를 실행하지 않고 있을 경우, 상기의 방법을 통해 인터랙티브 대상이 목표 대상이 말하는 상태에 있는 것에 대해 시의적절하게 응답을 수행하여 인터랙티브 상태로 되도록 할 수 있기에, 목표 대상의 인터랙티브 체험을 개선했다.

도 4는 본 발명의 실시예에 관한 인터랙티브 대상의 구동 장치 구성을 나타내는 모식도이며, 도 4에 나타낸바와 같이, 당해 장치는 제1 이미지를 취득하기 위한 취득 유닛(401); 상기 제1 이미지 내의 목표 대상의 입 부를 적어도 포함하는 얼굴 영역 이미지를 인식하고, 상기 얼굴 영역 이미지에 포함되어 있는 상기 입 부의 키 포인트 정보를 확정하기 위한 인식 유닛(402); 상기 입 부의 키 포인트 정보에 기반하여 상기 제1 이미지 내의 상기 목표 대상이 말하는 상태에 있는지 여부를 확정하기 위한 확정 유닛(403); 및 상기 제1 이미지 내의 상기 목표 대상이 말하는 상태에 있는 것이 확정된 것에 응답하여, 상기 인터랙티브 대상이 응답을 실행하도록 구동하기 위한 구동 유닛(404)을 구비할 수 있다.

몇몇의 실시예에 있어서, 상기 입 부의 키 포인트 정보는 목표 대상의 입 부에 위치한 복수의 키 포인트 위치 정보를 포함하고, 상기 복수의 키 포인트는 적어도 일 그룹의 키 포인트 페어를 포함하며, 각각의 상기 키 포인트 페어는 각각 윗 입술 및 아랫 입술에 위치한 2개의 키 포인트를 포함하고, 상기 확정 모듈(403)은 상기 입 부의 키 포인트 정보에 기반하여 상기 목표 대상이 말하는 상태에 있는지 여부를 확정할 때에, 또한 상기 적어도 일 그룹의 키 포인트 페어의 위치 정보에 기반하여 각각의 상기 키 포인트 페어 중의 상기 윗 입술 및 상기 아랫 입술에 각각 위치한 2개의 키 포인트의 제1 거리를 확정하고, 각 그룹의 상기 키 포인트 페어의 상기 제1 거리에 기반하여 상기 제1 이미지 내의 상기 목표 대상이 말하는 상태에 있는지 여부를 확정한다.

몇몇의 실시예에 있어서, 상기 제1 이미지는 이미지 시퀀스 중의 하나의 프레임이며, 상기 확정 유닛(403)은 각 그룹의 상기 키 포인트 페어의 상기 제1 거리에 기반하여 상기 제1 이미지 내의 상기 목표 대상이 말하는 상태에 있는지 여부를 확정할 때에, 상기 이미지 시퀀스 중에서 상기 제1 이미지 및 적어도 하나의 프레임의 제2 이미지를 포함하는 소정의 수량의 처리 대기 이미지를 취득하고, 각 프레임의 제2 이미지에 대해 상기 제2 이미지 내의 각각의 상기 키 포인트 페어의 제1 거리를 취득하며, 상기 제1 이미지 내의 각 그룹의 상기 키 포인트 페어 간의 제1 거리 및 각 프레임의 상기 제2 이미지 내의 각 그룹의 상기 키 포인트 페어 간의 제1 거리에 기반하여 상기 제1 이미지 내의 상기 목표 대상이 말하는 상태에 있는지 여부를 확정한다.

몇몇의 실시예에 있어서, 상기 확정 유닛(403)은 상기 이미지 시퀀스 중에서 소정의 수량의 처리 대기 이미지를 취득할 때에, 소정의 길이의 윈도우 및 소정의 스텝 길이로 상기 이미지 시퀀스 상에서 윈도우 슬라이딩을 실행하고, 슬라이딩을 실행할 때마다, 소정의 수량의 처리 대기 이미지를 취득하되, 여기서, 상기 제1 이미지는 상기 윈도우 내의 최후의 하나의 프레임 이미지이다.

몇몇의 실시예에 있어서, 상기 키 포인트 페어의 제1 거리는 상기 키 포인트 페어 중의 2개의 키 포인트 간의 유클리드 거리를 포함하고, 상기 확정 유닛(403)은 상기 제1 이미지 내의 각 그룹의 상기 키 포인트 페어 간의 제1 거리 및 각 프레임의 상기 제2 이미지 내의 각 그룹의 상기 키 포인트 페어 간의 제1 거리에 기반하여 상기 제1 이미지 내의 상기 목표 대상이 말하는 상태에 있는지 여부를 확정할 때에, 상기 처리 대기 이미지 중의 목표 이미지를 인식하고, 상기 처리 대기 이미지 중에 포함되어 있는 목표 이미지의 수량을 확정하며, 상기 목표 이미지의 수량과 상기 처리 대기 이미지의 상기 소정의 수량 사이의 비율이 소정의 비율보다 큰 것에 응답하여, 상기 제1 이미지 내의 목표 대상이 말하는 상태에 있는 것으로 확정한다.

몇몇의 실시예에 있어서, 상기 확정 모듈(403)은 상기 처리 대기 이미지 내에서 상기 목표 이미지를 확정할 때에, 상기 각 그룹의 키 포인트 페어의 유클리드 거리의 평균 값이 제1 소정의 한계값보다 큰 이미지를 상기 목표 이미지로 확정하거나, 또는 상기 각 그룹의 키 포인트 페어의 유클리드 거리의 가중 평균 값이 제2 소정의 한계값보다 큰 이미지를 상기 목표 이미지로 확정한다.

몇몇의 실시예에 있어서, 상기 제1 소정의 한계값 및 상기 제2 소정의 한계값은 상기 처리 대기 이미지의 해상도에 기반하여 확정된 것이다.

몇몇의 실시예에 있어서, 상기 구동 유닛(404)은 상기 인터랙티브 대상이 대기 상태에 있을 경우, 처음으로 상기 제1 이미지 내의 상기 목표 대상이 말하는 상태에 있는 것이 확정된 것에 응답하여, 상기 인터랙티브 대상을 상기 목표 대상과 인터랙티브를 실행하는 상태로 구동한다.

본 발명의 실시예는 전자 디바이스를 더 제공하는 바, 도 5에 나타낸 바와 같이, 상기 디바이스는 메모리와 프로세서를 구비하며, 메모리는 프로세서 상에서 운행 가능한 컴퓨터 명령을 기억하고, 프로세서는 상기 컴퓨터 명령이 실행될 때에, 본 발명이 임의의 실시예에 기재된 인터랙티브 대상의 구동 방법을 실현한다.

몇몇의 실시예에 있어서, 상기 디바이스는 예를 들면 서버 또는 단말 디바이스이며, 상기 서버 또는 단말 디바이스는 제1 이미지 중의 입 부의 키 포인트 정보에 기반하여 목표 상태의 말하는 상태를 확정함으로써, 디스플레이에 전시되어 있는 인터랙티브 대상을 제어한다. 상기 단말 디바이스가 디스플레이를 포함할 경우, 상기 디스플레이는 인터랙티브 대상의 동영상을 표시하기 위한 표시 스크린 또는 투명 표시 스크린을 더 포함한다.

본 발명의 실시예는 컴퓨터 프로그램이 기억되어 있는 컴퓨터 판독 가능 기록 매체를 더 제공하는바, 상기 프로그램이 프로세서에 의해 실행될 때에, 본 발명이 임의의 실시예에 기재된 인터랙티브 대상의 구동 방법을 실현한다.

당업자는 본 발명의 하나 또는 복수의 실시예는 방법, 시스템, 또는 컴퓨터 프로그램 제품으로 제공될 수 있음을 이해해야 한다. 따라서, 본 발명의 하나 또는 복수의 실시예는 완전한 하드웨어의 실시예, 완전한 소프트웨어의 실시예, 또는 소프트웨어와 하드웨어를 조합시키는 실시예의 형식을 사용할 수 있다. 또한, 본 발명의 하나 또는 복수의 실시예는 컴퓨터 이용 가능한 프로그램 코드를 포함하는 하나 또는 복수의 컴퓨터 이용 가능한 기억 매체(disk memory, CD-ROM, 광학 메모리 등을 포함하지만, 이에 한정되지 않음) 상에서 실시되는 컴퓨터 프로그램 제품의 형식을 사용할 수 있다.

본 발명에 있어서의 각 실시예는 모두 점진적인 방식을 통해 서술되었고, 각 실시예 간의 동일 또는 유사한 부분은 서로 참조할 수 있으며, 각 실시예에서는 기타 실시예와의 차이 점에 초점을 맞춰 설명했다. 특히, 데이터 처리 디바이스의 실시예의 경우, 방법의 실시예와 기본상 유사이기 때문에, 상대적으로 간단히 서술했지만, 관련된 부분은 방법의 실시예의 부분 설명을 참조할 수 있다.

상기에서 본 발명의 특정 실시예를 서술했다. 기타 실시예는 첨부된 "특허청구의 범위"의 범위 내에 있다. 몇몇의 경우, 특허청구의 범위에 기재된 행위 또는 단계는 실시예와 다른 순서에 따라 실행될 수 있으며, 이 경우에도 여전히 기대하는 결과가 실현될 수 있다. 또한 도면에 나타낸 과정은, 기대하는 결과를 얻기 위하여 반드시 도면에 나타낸 특정 순서 또는 연속적인 순서를 필요로 하지 않는다. 몇몇의 실시 형태에 있어서, 멀티 태스크 처리 및 병렬 처리도 가능하거나 또는 유익할 수 있다.

본 발명의 주제 및 기능 조작의 실시예는 디지털 전자 회로, 유형 컴퓨터 소프트웨어 또는 펌웨어, 본 발명에 개시되는 구성 및 그 구조적 동등물을 포함하는 컴퓨터 하드웨어, 또는 이들의 하나 또는 복수의 조합을 통해 실현될 수 있다. 본 발명의 주제의 실시예는 하나 또는 복수의 컴퓨터 프로그램으로 실현될 수 있는바, 즉 유형의 비일시적 프로그램 캐리어 상에 부호화되어 데이터 처리 장치에 의해 실행되거나, 또는 데이터 처리 장치의 조작을 제어하기 위한 컴퓨터 프로그램 명령 중의 하나 또는 복수의 모듈에 의해 실현될 수 있다. 대체적 또는 추가적으로, 프로그램 명령은 수작업으로 생성하는 전파 신호 상에 부호화될 수 있는바, 예를 들면 기계가 생성하는 전기 신호, 광 신호, 또는 전자 신호 상에 부호화될 수 있다. 정보를 부호화하여 적절한 수신기 장치에 전송하며, 데이터 처리 장치에 의해 실행되도록 하기 위하여, 당해 신호가 생성된다. 컴퓨터 기억 매체는 기계 판독 가능 기억 디바이스, 기계 판독 가능 기억 기판, 랜덤 또는 시리얼 액세스 메모리 디바이스, 또는 이들의 하나 또는 복수의 조합일 수 있다.

본 발명 중의 처리와 논리 플로우는 하나 또는 복수의 컴퓨터 프로그램을 실행하는 하나 또는 복수의 프로그램 가능한 컴퓨터에 의해 실행될 수 있으며, 입력 데이터에 기반하여 조작을 실행하여 출력을 생성함으로써 해당하는 기능을 실행한다. 상기 처리와 논리 플로우는 또한 예를 들면 FPGA(필드 프로그래밍 가능 게이트 어레이) 또는 ASIC(전용 집적 회로) 등의 전용 논리 회로에 의해 실행될 수 있고, 또한 장치도 전용 논리 회로를 통해 실현될 수 있다.

컴퓨터 프로그램의 실행에 적합한 컴퓨터는 예를 들면 범용 및/또는 전용 마이크로 프로세서, 또는 임의?? 기타 종류의 중앙 처리 유닛을 포함한다. 일반적으로 중앙 처리 유닛은 판독 전용 메모리 및/또는 랜덤 액세스 메모리로부터 명령과 데이터를 수신하게 된다. 컴퓨터의 기본 컴포넌트는 명령을 실시 또는 실행하기 위한 중앙 처리 유닛 및 명령과 데이터를 기억하기 위한 하나 또는 복수의 메모리 디바이스를 포함한다. 일반적으로 컴퓨터는 자기 디스크, 자기 광학 디스크, 또는 광학 디스크 등과 같은, 데이터를 기억하기 위한 하나 또는 복수의 대용량 기억 디바이스를 더 포함하거나, 또는 조작 가능하게 당해 대용량 기억 디바이스와 결합되어 데이터를 수신하거나, 데이터를 전송하거나, 또는 양자를 모두 포함한다. 하지만, 컴퓨터는 반드시 이러한 디바이스를 포함하는 것은 아니다. 한편, 컴퓨터는 다른 일 디바이스에 내장될 수 있는바, 예를 들면 휴대 전화, 개인용 디지털 처리 장치(PDA), 모바일 오디오 또는 비디오 플레이어, 게임 콘솔, GPS 수신기, 또는 범용 직렬 버스(USB), 플래시 드라이브 등의 휴대용 기억 디바이스에 내장될 수 있으며, 이러한 디바이스는 몇몇의 예에 지나지 않는다.

컴퓨터 프로그램 명령과 데이터의 기억에 적합한 컴퓨터 판독 가능 매체는 모든 형식의 비휘발성 메모리, 매개 및 메모리 디바이스를 포함하는 바, 예를 들면 반도체 메모리 디바이스 (예를 들면 EPROM, EEPROM 및 플래시 디바이스), 자기 디스크 (예를 들면 내부 하드 디스크 또는 이동 가능 디스크), 자기 광학 디스크 및 CD ROM와 DVD-ROM 디스크를 포함한다. 프로세서와 메모리는 전용 논리 회로에 의해 보완되거나 또는 전용 논리 회로에 구비될 수 있다.

본 발명은 다양한 구체적인 실시 세부 사항을 포함하지만, 이를 본 발명의 범위 또는 보호하려고 하는 범위를 한정하는 것으로 해석해서는 안되며, 이는 주로 본 발명의 몇몇의 실시예의 특징을 서술하기 위하여 사용된다. 본 발명의 복수 실시예 중의 특정 특징은 단일 실시예에 결합되어 실시될 수도 있다. 반면에, 단일 실시예 중의 각 특징은 복수의 실시예에 나뉘어 실시되거나 또는 임의의 적절한 서브 조합에 의해 실시될 수도 있다. 한편, 특징이 상기와 같이 특정 조합으로 역할을 발휘하고, 또한 처음부터 이렇게 보호된다고 주장했지만, 보호한다고 주장한 조합 중의 하나 또는 복수의 특징은 경우에 따라 당해 조합으로부터 제외될 수도 있고, 또한 보호한다고 주장한 조합은 서브 조합 또는 서브 조합의 변형을 지향할 수 있다.

마찬가지로, 도면에서는 특정 순서에 따라 조작을 나타냈지만, 이는 이러한 조작을 나타낸 특정 순서에 따라 실행하거나 또는 순차적으로 실행하거나, 또는 예시된 모든 조작을 실행하여야만 기대하는 결과가 실현될 수 있음을 요구하는 것으로 이해해서는 안된다. 한편, 상기의 실시예 중의 각종의 시스템 모듈과 컴포넌트의 분리는 모든 실시예에서 반드시 모두 이렇게 분리되어야 한다고 이해해서는 안되며, 또한 서술한 프로그램 컴포넌트와 시스템은 일반적으로 같이 단일 소프트웨어 제품에 통합되거나, 또는 복수의 소프트웨어 제품에 패키징될 수 있음을 이해해야 한다.

따라서, 주제의 특정 실시예가 서술되었다. 기타 실시예는 첨부된 "특허청구의 범위"의 범위 내에 있다. 경우에 따라 특허청구의 범위에 기재되어 있는 동작은 기타 순서에 따라 실행될 수 있으며, 이 경우에도 여전히 기대하는 결과가 실현될 수 있다. 한편, 도면에 그려진 처리는 기대하는 결과를 실현하는데, 반드시 나타낸 특정 순서를 필요로 하지 않는다. 일부 실현에 있어서, 멀티 태스크 및 병렬 처리가 더 유익할 가능성이 있다.

상기는 본 발명의 하나 또는 복수의 실시예의 바람직한 실시예에 불과할 뿐, 본 발명의 하나 또는 복수의 실시예를 한정하려는 것이 아니다. 본 발명의 하나 또는 복수의 실시예의 정신과 원칙의 범위 내에서 행하여진 어떠한 수정, 동등의 치환, 개량 등은 모두 본 발명의 하나 또는 복수의 실시예의 범위에 포함되어야 한다.

Claims

인터랙티브 대상의 구동 방법에 있어서,
제1 이미지를 취득하는 것;
상기 제1 이미지 내의 목표 대상의 입 부를 적어도 포함하는 얼굴 영역 이미지를 인식하고, 상기 얼굴 영역 이미지에 포함되어 있는 상기 입 부의 키 포인트 정보를 확정하는 것;
상기 입 부의 키 포인트 정보에 기반하여 상기 제1 이미지 내의 상기 목표 대상이 말하는 상태에 있는지 여부를 확정하는 것; 및
상기 제1 이미지 내의 상기 목표 대상이 말하는 상태에 있는 것이 확정된 것에 응답하여, 인터랙티브 대상이 응답을 실행하도록 구동하는 것을 포함하는
것을 특징으로 하는 인터랙티브 대상의 구동 방법.
제1항에 있어서,
상기 입 부의 키 포인트 정보는 목표 대상의 입 부에 위치한 복수의 키 포인트 위치 정보를 포함하고, 상기 복수의 키 포인트는 적어도 일 그룹의 키 포인트 페어를 포함하며, 각 그룹의 상기 키 포인트 페어는 각각 윗 입술 및 아랫 입술에 위치한 2개의 키 포인트를 포함하고,
상기 입 부의 키 포인트 정보에 기반하여 상기 목표 대상이 말하는 상태에 있는지 여부를 확정하는 것은,
상기 적어도 일 그룹의 키 포인트 페어의 위치 정보에 기반하여 각 그룹의 상기 키 포인트 페어 중의 상기 윗 입술 및 상기 아랫 입술에 각각 위치한 2개의 키 포인트의 제1 거리를 확정하는 것; 및
각 그룹의 상기 키 포인트 페어의 상기 제1 거리에 기반하여 상기 제1 이미지 내의 상기 목표 대상이 말하는 상태에 있는지 여부를 확정하는 것을 포함하는
것을 특징으로 하는 인터랙티브 대상의 구동 방법.
제2항에 있어서,
상기 제1 이미지는 이미지 시퀀스 중의 하나의 프레임이며,
상기 각 그룹의 상기 키 포인트 페어의 상기 제1 거리에 기반하여 상기 제1 이미지 내의 상기 목표 대상이 말하는 상태에 있는지 여부를 확정하는 것은,
상기 이미지 시퀀스 중에서, 상기 제1 이미지 및 적어도 하나의 프레임의 제2 이미지를 포함하는 소정의 수량의 처리 대기 이미지를 취득하는 것;
각 프레임의 제2 이미지에 대해 상기 제2 이미지 내의 각 그룹의 상기 키 포인트 페어의 상기 제1 거리를 취득하는 것; 및
상기 제1 이미지 내의 각 그룹의 상기 키 포인트 페어의 상기 제1 거리 및 각 프레임의 상기 제2 이미지 내의 각 그룹의 상기 키 포인트 페어의 상기 제1 거리에 기반하여 상기 제1 이미지 내의 상기 목표 대상이 말하는 상태에 있는지 여부를 확정하는 것을 포함하는
것을 특징으로 하는 인터랙티브 대상의 구동 방법.
제3항에 있어서,
상기 이미지 시퀀스 중에서 소정의 수량의 처리 대기 이미지를 취득하는 것은,
소정의 길이의 윈도우 및 소정의 스텝 길이로 상기 이미지 시퀀스 상에서 윈도우 슬라이딩을 실행하고, 슬라이딩을 실행할 때마다, 상기 소정의 수량의 처리 대기 이미지를 취득하는 것을 포함하되,
상기 제1 이미지는 상기 윈도우 내의 최후의 하나의 프레임 이미지인
것을 특징으로 하는 인터랙티브 대상의 구동 방법.
제3항 또는 제4항에 있어서,
상기 키 포인트 페어의 제1 거리는 상기 키 포인트 페어 중의 2개의 키 포인트 간의 유클리드 거리를 포함하고,
상기 제1 이미지 내의 각 그룹의 상기 키 포인트 페어 간의 제1 거리 및 각 프레임의 상기 제2 이미지 내의 각 그룹의 상기 키 포인트 페어 간의 제1 거리에 기반하여 상기 제1 이미지 내의 상기 목표 대상이 말하는 상태에 있는지 여부를 확정하는 것은,
상기 처리 대기 이미지 중의 목표 이미지를 인식하는 것;
상기 처리 대기 이미지 중에 포함되어 있는 상기 목표 이미지의 수량을 확정하는 것; 및
상기 목표 이미지의 수량과 상기 처리 대기 이미지의 상기 소정의 수량 사이의 비율이 소정의 비율보다 큰 것에 응답하여, 상기 제1 이미지 내의 목표 대상이 말하는 상태에 있는 것으로 확정하는 것을 포함하는
것을 특징으로 하는 인터랙티브 대상의 구동 방법.
제5항에 있어서,
상기 처리 대기 이미지 중의 목표 이미지를 인식하는 것은,
상기 각 그룹의 키 포인트 페어의 유클리드 거리의 평균 값이 제1 소정의 한계값보다 큰 이미지를 상기 목표 이미지로 확정하는 것, 또는,
상기 각 그룹의 키 포인트 페어의 유클리드 거리의 가중 평균 값이 제2 소정의 한계값보다 큰 이미지를 상기 목표 이미지로 확정하는 것을 포함하는
것을 특징으로 하는 인터랙티브 대상의 구동 방법.
제6항에 있어서,
상기 제1 소정의 한계값 및 상기 제2 소정의 한계값은 상기 처리 대기 이미지의 해상도에 기반하여 확정된 것인
것을 특징으로 하는 인터랙티브 대상의 구동 방법.
제1항 내지 제7항 중 어느 한 항에 있어서,
상기 목표 대상이 말하는 상태에 있는 것에 응답하여, 인터랙티브 대상이 응답을 실행하도록 구동하는 것은,
상기 인터랙티브 대상이 대기 상태에 있을 경우, 처음으로 상기 제1 이미지 내의 상기 목표 대상이 말하는 상태에 있는 것이 확정된 것에 응답하여, 상기 인터랙티브 대상을 상기 목표 대상과 인터랙티브를 실행하는 상태로 구동하는 것을 포함하는
것을 특징으로 하는 인터랙티브 대상의 구동 방법.
인터랙티브 대상의 구동 장치에 있어서,
제1 이미지를 취득하기 위한 취득 유닛;
상기 제1 이미지 내의 목표 대상의 입 부를 적어도 포함하는 얼굴 영역 이미지를 인식하고, 상기 얼굴 영역 이미지에 포함되어 있는 입 부의 키 포인트 정보를 확정하기 위한 인식 유닛;
상기 입 부의 키 포인트 정보에 기반하여 상기 제1 이미지 내의 상기 목표 대상이 말하는 상태에 있는지 여부를 확정하기 위한 확정 유닛; 및
상기 제1 이미지 내의 상기 목표 대상이 말하는 상태에 있는 것이 확정된 것에 응답하여, 인터랙티브 대상이 응답을 실행하도록 구동하기 위한 구동 유닛을 구비하는
것을 특징으로 하는 인터랙티브 대상의 구동 장치.
제9항에 있어서,
상기 입 부의 키 포인트 정보는 목표 대상의 입 부에 위치한 복수의 키 포인트 위치 정보를 포함하고, 상기 복수의 키 포인트는 적어도 일 그룹의 키 포인트 페어를 포함하며, 각각의 상기 키 포인트 페어는 각각 윗 입술 및 아랫 입술에 위치한 2개의 키 포인트를 포함하고,
상기 확정 유닛은,
상기 적어도 일 그룹의 키 포인트 페어의 위치 정보에 기반하여 각각의 상기 키 포인트 페어 중의 상기 윗 입술 및 상기 아랫 입술에 각각 위치한 2개의 키 포인트의 제1 거리를 확정하고， 및
각 그룹의 상기 키 포인트 페어의 상기 제1 거리에 기반하여 상기 제1 이미지 내의 상기 목표 대상이 말하는 상태에 있는지 여부를 확정하는
것을 특징으로 하는 인터랙티브 대상의 구동 장치.
제10항에 있어서,
상기 제1 이미지는 이미지 시퀀스 중의 하나의 프레임이며,
상기 확정 유닛은 각 그룹의 상기 키 포인트 페어의 상기 제1 거리에 기반하여 상기 제1 이미지 내의 상기 목표 대상이 말하는 상태에 있는지 여부를 확정할 때에,
상기 이미지 시퀀스 중에서, 상기 제1 이미지 및 적어도 하나의 프레임의 제2 이미지를 포함하는 소정의 수량의 처리 대기 이미지를 취득하고,
각 프레임의 제2 이미지에 대해,
상기 제2 이미지 내의 각각의 상기 키 포인트 페어의 제1 거리를 취득하며,
상기 제1 이미지 내의 각 그룹의 상기 키 포인트 페어 간의 제1 거리 및 각 프레임의 상기 제2 이미지 내의 각 그룹의 상기 키 포인트 페어 간의 제1 거리에 기반하여 상기 제1 이미지 내의 상기 목표 대상이 말하는 상태에 있는지 여부를 확정하는
것을 특징으로 하는 인터랙티브 대상의 구동 장치.
제11항에 있어서,
상기 확정 유닛은 상기 이미지 시퀀스 중에서 소정의 수량의 처리 대기 이미지를 취득할 때에, 구체적으로,
소정의 길이의 윈도우 및 소정의 스텝 길이로 상기 이미지 시퀀스 상에서 윈도우 슬라이딩을 실행하고, 슬라이딩을 실행할 때마다 상기 소정의 수량의 처리 대기 이미지를 취득하되,
여기서, 상기 제1 이미지는 상기 윈도우 내의 최후의 하나의 프레임 이미지인
것을 특징으로 하는 인터랙티브 대상의 구동 장치.
제11항 또는 제12항에 있어서,
상기 키 포인트 페어의 제1 거리는 상기 키 포인트 페어 중의 2개의 키 포인트 간의 유클리드 거리를 포함하고,
상기 확정 유닛은 상기 제1 이미지 내의 각 그룹의 상기 키 포인트 페어 간의 제1 거리 및 각 프레임의 상기 제2 이미지 내의 각 그룹의 상기 키 포인트 페어 간의 제1 거리에 기반하여 상기 제1 이미지 내의 상기 목표 대상이 말하는 상태에 있는지 여부를 확정할 때에,
상기 처리 대기 이미지 중의 목표 이미지를 인식하고,
상기 처리 대기 이미지 중에 포함되어 있는 목표 이미지의 수량을 확정하며,
상기 목표 이미지의 수량과 상기 처리 대기 이미지의 상기 소정의 수량 사이의 비율이 소정의 비율보다 큰 것에 응답하여, 상기 제1 이미지 내의 목표 대상이 말하는 상태에 있는 것으로 확정하는
것을 특징으로 하는 인터랙티브 대상의 구동 장치.
제13항에 있어서,
상기 확정 유닛은 상기 처리 대기 이미지 중의 목표 이미지를 인식할 때에,
상기 각 그룹의 키 포인트 페어의 유클리드 거리의 평균 값이 제1 소정의 한계값보다 큰 이미지를 상기 목표 이미지로 확정하고， 또는,
상기 각 그룹의 키 포인트 페어의 유클리드 거리의 가중 평균 값이 제2 소정의 한계값보다 큰 이미지를 상기 목표 이미지로 확정하는
것을 특징으로 하는 인터랙티브 대상의 구동 장치.
제14항에 있어서,
상기 제1 소정의 한계값 및 상기 제2 소정의 한계값은 상기 처리 대기 이미지의 해상도에 기반하여 확정된 것인
것을 특징으로 하는 인터랙티브 대상의 구동 장치.
제10항 내지 제15항 중 어느 한 항에 있어서,
상기 구동 유닛은 구체적으로,
상기 인터랙티브 대상이 대기 상태에 있을 경우, 처음으로 상기 제1 이미지 내의 상기 목표 대상이 말하는 상태에 있는 것이 확정된 것에 응답하여, 상기 인터랙티브 대상을 상기 목표 대상과 인터랙티브를 실행하는 상태로 구동하는
것을 특징으로 하는 인터랙티브 대상의 구동 장치.
전자 디바이스에 있어서,
메모리와 프로세서를 구비하며,
상기 메모리는 프로세서 상에서 운행 가능한 컴퓨터 명령을 기억하고,
상기 프로세서는 상기 컴퓨터 명령이 실행될 때에, 제1항 내지 제8항 중 어느 한 항에 기재된 방법을 실현하는
것을 특징으로 하는 전자 디바이스.
컴퓨터 프로그램이 기억되어 있는 컴퓨터 판독 가능 기록 매체에 있어서,
상기 프로그램이 프로세서에 의해 실행될 때에, 제1항 내지 제8항 중 어느 한 항에 기재된 방법이 실현되는
것을 특징으로 하는 컴퓨터 판독 가능 기록 매체.