KR102393774B1

KR102393774B1 - 음성 인식 장치 및 그 제어방법

Info

Publication number: KR102393774B1
Application number: KR1020180120042A
Authority: KR
Inventors: 김현남; 송현정; 이나경; 김홍성; 윤현상
Original assignee: 에스케이텔레콤 주식회사
Priority date: 2018-10-08
Filing date: 2018-10-08
Publication date: 2022-05-03
Also published as: KR20200040133A

Abstract

일 실시예에 따른 음성 인식 장치는, 감지되는 음성을 인식하는 음성 인식 장치에 대하여, 미디어 재생 화면을 표시하는 디스플레이부; 미리 정해진 관심 영역에 대한 영상을 획득하는 카메라; 및 상기 카메라에 의해 획득된 영상 내 핸드 제스처가 감지되면, 상기 감지된 핸드 제스처에 따라 상기 음성 인식 장치의 동작을 제어하는 제어부를 포함한다.

Description

음성 인식 장치 및 그 제어방법{VOICE RECOGNITION APPARATUS AND CONTROL METHOD FOR THE SAME}

본 발명은 미디어 재생 화면이 표시되는 디스플레이부가 마련되는 음성 인식 장치 및 방법에 관한 것이다.

최근 인공지능 스피커와 같이 음성 입력을 인식하고 그에 따라 동작을 수행하는 음성 인식 장치에 대한 관심이 증가하고 있다. 이러한 음성 인식 장치는 음성 인식 장치가 위치된 곳에서 다소 떨어져 있는 사용자로부터 음성 입력을 제공받아 다양한 서비스를 사용자에게 제공할 수 있다.

일 예로, 음성 인식 장치는 사용자의 음성을 입력 받아 이를 인식하고, 인식 결과에 대응되는 제어 명령에 따라 소리 등의 피드백을 제공할 수 있다. 아울러, 음성 인식 장치가 각종 정보를 표시할 수 있는 디스플레이 수단을 구비하는 경우, 음성 인식 장치는 음성 인식 결과에 대응되는 화면을 디스플레이 수단을 통해 표시할 수도 있다.

한편, 상술한 음성 인식 장치는 사용자의 음성 이외에도 다양한 방식으로 제어 명령을 입력 받을 수 있다. 만약 디스플레이 수단이 터치 스크린의 형태로 구현되는 경우, 음성 인식 장치는 사용자의 터치 입력을 제어 명령으로 입력 받을 수 있다.

한국공개특허공보, 제 10-2018-0085931호 (2018.07.30. 공개)

본 발명이 해결하고자 하는 과제는, 감지되는 제스처를 통해 동작을 제어하는 음성 인식 장치 및 그 제어방법을 제공하는 것이다.

다만, 본 발명이 해결하고자 하는 과제는 이상에서 언급한 것으로 제한되지 않으며, 언급되지 않은 또 다른 해결하고자 하는 과제는 아래의 기재로부터 본 발명이 속하는 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

일 실시예에 따른 음성 인식 장치는, 감지되는 음성을 인식하는 음성 인식 장치에 있어서, 미디어 재생 화면을 표시하는 디스플레이부; 미리 정해진 관심 영역에 대한 영상을 획득하는 카메라; 및 상기 카메라에 의해 획득된 영상 내 핸드 제스처가 감지되면, 상기 감지된 핸드 제스처에 따라 상기 음성 인식 장치의 동작을 제어하는 제어부를 포함한다.

일 실시예에 따른 음성 인식 장치의 제어방법은, 감지되는 음성을 인식하는 음성 인식 장치의 제어방법에 있어서, 미디어 재생 화면을 표시하는 단계; 미리 정해진 관심 영역에 대한 영상을 획득하는 단계; 및 상기 획득된 영상 내 제스처가 감지되면, 상기 감지된 제스처에 따라 상기 음성 인식 장치의 동작을 제어하는 단계를 포함한다.

일 실시예에 따른 음성 인식 장치 및 그 제어방법은, 음성 또는 터치와 같은 방법으로 제어명령의 입력이 어려운 상황에서, 단순하면서도 직관적인 제스처를 통해 동작의 제어가 가능한 환경을 제공할 수 있다. 이를 통해, 음성 인식 장치에 대한 사용자 편의성을 높일 수 있다.

도 1은 일 실시예에 따른 디스플레이 장치의 외관도이다.
도 2는 일 실시예에 따른 디스플레이 장치의 기능 블록도이다.
도 3은 일 실시예에 따른 디스플레이부가 표시하는 미디어 재생 화면을 예시한 도면이다.
도 4는 일 실시예에 따른 카메라에 의해 획득된 영상에서 제 1 핸드 제스처가 감지된 경우를 예시한 도면이다.
도 5는 일 실시예에 따른 디스플레이부가 표시하는 볼륨 제어 화면을 예시한 도면이다.
도 6은 일 실시예에 따른 카메라에 의해 획득된 영상에서 제 2 핸드 제스처가 감지된 경우를 예시한 도면이다.
도 7은 도 5의 볼륨 제어 화면이 제 2 핸드 제스처에 의해 제어되는 경우를 나타낸 도면이다.
도 8은 일 실시예에 따른 카메라에 의해 획득된 영상에서 제 3 핸드 제스처가 감지된 경우를 예시한 도면이다.
도 9는 도 7의 볼륨 제어 화면이 제 3 핸드 제스처에 의해 제어되는 경우를 나타낸 도면이다.
도 10은 일 실시예에 따른 카메라에 의해 획득된 영상에서 제 1 핸드 제스처가 감지되지 않는 경우를 예시한 도면이다.
도 11은 일 실시예에 따른 음성 인식 장치 제어방법의 흐름도이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

본 발명의 실시예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명의 실시예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

도 1은 일 실시예에 따른 디스플레이 장치의 외관도이고, 도 2는 일 실시예에 따른 디스플레이 장치의 기능 블록도이다.

디스플레이 장치는 미디어 또는 각종 정보에 대한 화면을 표시할 수 있는 디스플레이 수단을 구비한 모든 전자장치를 의미할 수 있다. 예를 들어, 일 실시예에 따른 디스플레이 장치는 컴퓨터 장치, 휴대용 통신 장치(예: 스마트폰), 휴대용 멀티미디어 장치 등을 포함할 수 있다. 또한, 다른 실시예에 따른 디스플레이 장치(100)는 종래의 가전 장치에 디스플레이 수단이 마련되는 경우를 포함할 수 있다.

나아가, 또 다른 실시예에 따른 디스플레이 장치는 디스플레이 수단이 마련되는 음성 인식 장치(100)를 포함할 수도 있다. 여기서, 음성 인식 장치(100)란 사용자로부터 발화되는 음성(Voice)를 인식하고, 인식된 음성에 대응되는 제어 명령에 따라 제어되는 전자 장치를 의미할 수 있다. 이하에서는 디스플레이 장치가 음성 인식 장치(100)로서 구현되는 경우를 전제로 설명한다.

도 1 및 2를 참조하면, 일 실시예에 따른 음성 인식 장치(100)는 사용자의 음성을 감지하는 마이크로폰(110); 미디어 또는 각종 정보에 대한 화면이 표시되는 디스플레이부(130); 미디어 재생에 따른 소리를 출력하거나 입력에 대한 피드백으로 소리를 출력하는 스피커(140); 음성 인식 장치(100) 관련 정보가 저장되는 저장부(160); 및 음성 인식 장치(100)의 각 구성을 제어하는 제어부(150)를 포함할 수 있다.

디스플레이부(130)는 음성 인식 장치(100)의 외관에 마련되어, 미디어 또는 음성 인식 장치(100)와 직간접적으로 연관된 각종 정보에 대한 화면을 표시할 수 있다. 예를 들어, 디스플레이부(130)는 미리 저장되거나 외부의 서버 또는 클라우드로부터 스트리밍된 영상 컨텐츠를 표시할 수 있고, 날씨나 뉴스와 같은 각종 정보 제공 화면을 표시할 수도 있다. 또한, 디스플레이부(130)는 음성 인식 장치(100)의 기능을 제어하기 위한 제어 화면을 표시할 수도 있다. 이 때, 일 실시예에 따른 제어 화면은 미디어의 재생을 제어하기 위한 미디어 재생 화면 M을 포함할 수 있다.

이를 위해, 디스플레이부(130)는 LCD(Liquid Crystal Display), LED(Light Emitting Diode), PDP(Plasma Display Panel), OLED(Organic Light Emitting Diode), CRT(Cathode Ray Tube) 등으로 구현될 수 있으나, 이에 한정되지는 않는다.

또한, 디스플레이부(130)가 터치 패널과 결합되어 마련되는 경우, 디스플레이부(130)는 사용자의 터치를 감지함으로써 제어 명령을 입력 받을 수도 있다. 예를 들어, 제어 화면이 표시되는 디스플레이부(130)의 특정 위치에 터치가 감지되면, 디스플레이부(130)는 터치에 따른 전기적 신호를 후술할 제어부(150)에 제공할 수 있다. 이렇게 제공된 전기적 신호는 터치에 대응되는 제어 명령을 탐색하는데 이용될 수 있다.

스피커(140)는 미디어 재생에 따른 소리를 출력할 수 있다. 예를 들어, 음성 인식 장치(100)에 특정 미디어 재생 명령이 입력되면, 스피커(140)는 해당 미디어를 소리로 출력할 수 있다. 만약, 재생 명령이 입력된 미디어가 소리를 포함하는 영상인 경우, 스피커(140)는 디스플레이부(130)의 표시 영상에 동기화하여 소리를 출력할 수 있다.

또한, 스피커(140)는 음성 인식 장치(100)에 대한 입력의 피드백으로 각종 소리를 출력할 수도 있다. 예를 들어, 사용자로부터 제어 명령이 입력된 경우, 스피커(140)는 제어 명령이 성공적으로 입력되었음을 알리는 소리를 출력할 수 있다. 사용자는 이를 청각적으로 인식함으로써, 음성 인식 장치(100)에 제어 명령이 입력되었음을 확인할 수 있다.

마이크로폰(110)은 사용자에 의해 발화되는 음성을 감지할 수 있도록, 음성 인식 장치(100)의 외관에 마련될 수 있다. 마이크로폰(110)은 감지된 음성에 대응되는 전기적 신호인 음성 신호를 출력할 수 있다.

제어부(150)는 마이크로폰(110)으로부터 음성 신호를 전달받아, 사용자의 음성을 인식할 수 있다. 구체적으로, 제어부(150)는 음성 신호에 음성인식 알고리즘(Speech Recognition Algorithm) 또는 음성인식 엔진(Speech Recognition Engine)을 적용하여 사용자의 음성을 인식할 수 있다. 구체적으로, 제어부(150)는 수신된 음성 신호 중 실제 음성 구간인 EPD(End Point Detection)을 검출하고, 검출된 구간 내에서 켑스트럼(Cepstrum), 선형 예측 코딩(Linear Predictive Coefficient: LPC), 멜프리퀀시켑스트럼(Mel Frequency Cepstral Coefficient: MFCC) 또는 필터 뱅크 에너지(Filter Bank Energy) 등의 특징 벡터 추출 기술을 적용하여 음성 신호의 특징 벡터를 추출할 수 있다. 제어부(150)는 이렇게 추출된 특징 벡터와 훈련된 기준 패턴과의 비교를 통하여 인식 결과를 얻을 수 있다. 이를 위해, 음성의 신호적인 특성을 모델링하여 비교하는 음향 모델(Acoustic Model) 과 인식 어휘에 해당하는 단어나 음절 등의 언어적인 순서 관계를 모델링하는 언어 모델(Language Model)이 사용될 수 있다.

음성 인식 결과를 획득한 후, 제어부(150)는 음성 인식 결과에 대응되는 제어 명령을 탐색할 수 있다. 음성 인식 장치(100)를 제어하기 위한 제어 명령 세트가 후술할 저장부(160)에 미리 저장되고, 제어부(150)는 음성 인식 결과와 미리 저장된 제어 명령 세트를 비교하여 유사도에 따라 적절한 제어 명령을 탐색할 수 있다.

제어 명령 탐색이 완료되면, 제어부(150)는 탐색된 제어 명령에 기초하여 음성 인식 장치(100)의 동작을 제어할 수 있다. 예를 들어, 사용자가 “OOO의 음악 재생해줘.”라고 발화하면, 제어부(150)는 사용자의 발화 음성에 대응되는 제어 명령을 탐색하고, 탐색된 제어 명령에 대응되는 음악을 스피커(140)를 통해 출력할 수 있다. 만약, 사용자가 “△△△의 뮤직 비디오 재생해줘.”라고 발화한 경우, 제어부(150)는 사용자의 발화 음성에 대응되는 뮤직 비디오를 디스플레이부(130)와 스피커(140)를 동기화하여 출력할 수 있다.

이를 위해, 제어부(150)는 프로세서와 같이 하드웨어로 구현되거나, 프로그램과 같이 소프트웨어로 구현될 수 있고, 이와는 달리 하드웨어 및 소프트웨어의 결합으로 구현될 수도 있다.

저장부(160)는 제어부(150)가 음성 인식 장치(100)를 제어하는데 필요한 각종 정보를 미리 저장할 수 있다. 예를 들어, 저장부(160)는 음성 인식 장치(100)에 대한 제어 명령 세트, 음성 인식에 이용되는 음성인식 알고리즘, 음성인식 엔진, 음향 모델, 언어 모델, 디스플레이부(130)에 의해 표시되는 미디어, 정보 제공 화면, 제어 화면, 스피커(140)에 의해 출력되는 소리 등을 미리 저장하였다가 제어부(150)에 제공할 수 있다.

이를 위해, 저장부(160)는 메모리 타입(Flash Memory Type), 하드디스크 타입(Hard Disk Type), 멀티미디어 카드 마이크로 타입(Multimedia Card Micro Type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM: Random Access Memory), SRAM(Static Random Access Memory), 롬(ROM: Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 통해 구현될 수 있다.

상술한 바와 같이, 음성 인식 장치(100)는 사용자의 음성 또는 디스플레이부(130)에 대한 터치를 통해 제어 명령을 입력 받을 수 있다. 그러나, 음성 인식 장치(100)가 소음이 존재하는 환경에 위치하거나, 사용자가 터치가 불가능한 상황에 놓인 경우, 사용자는 음성 인식 장치(100)를 제어하기 어려울 수 있다. 이러한 경우, 음성 인식 장치(100)는 상술한 방법 이외의 방법으로 제어 명령을 입력 받을 필요가 있다.

일 실시예에 따른 음성 인식 장치(100)는 사용자의 제스처를 입력 받고, 입력된 제스처에 대응되는 제어 명령에 따라 각 구성이 제어될 수 있다. 이를 위해, 일 실시예에 따른 음성 인식 장치(100)는 카메라(120); 및 조도 센서(170)를 더 포함할 수 있다.

카메라(120)는 음성 인식 장치(100) 외관에 마련되어, 미리 정해진 관심 영역에 대한 영상 I 을 획득할 수 있다. 여기서 관심 영역이란 카메라(120)가 마련되는 위치에 따라 결정되는 촬영 영역을 의미할 수 있다. 제어부(150)는 획득된 영상 I 으로부터 제스처를 감지하고, 감지된 제스처에 대응되는 제어 명령에 따라 음성 인식 장치(100)를 제어할 수 있다.

또한, 조도 센서(170)는 음성 인식 장치(100) 주변의 조도를 감지할 수 있고, 제어부(150)는 감지된 조도가 미리 정해진 기준 조도 이상일 때에만 제스처에 대응되는 제어 명령에 따라 음성 인식 장치(100)를 제어할 수도 있다.

음성 인식 장치(100)는 영상으로부터 감지 가능한 다양한 제스처에 의해 각 구성을 제어할 수 있다. 제어에 이용되는 제스처의 일 실시예는 사용자의 손에 대한 핸드 제스처, 사용자의 손 중 손가락에 대한 핑거 제스처, 사용자의 머리에 대한 헤드 제스처, 사용자의 표정에 대한 표정 제스처, 및/또는 사용자 몸의 움직임에 대한 모션 제스처 등을 포함할 수 있다. 나아가, 음성 인식 장치(100)의 제어에 이용되는 제스처가 반드시 사용자에 의한 것만을 의미하는 것은 아니고, 영상에 의해 식별 가능한 미리 정해진 객체의 움직임에 관한 것이면 충분하다.

이하에서는, 음성 인식 장치(100)의 제어에 이용되는 제스처가 핸드 제스처인 경우를 전제로 설명한다.

이하에서는 도 3 내지 10을 참조하여 핸드 제스처에 따라 음성 인식 장치(100)를 제어하는 방법을 설명하며, 구체적으로 음성 인식 장치(100)에 표시되는 미디어 재생 화면 M을 제어하는 방법을 설명한다.

도 3은 일 실시예에 따른 디스플레이부가 표시하는 미디어 재생 화면을 예시한 도면이고, 도 4는 일 실시예에 따른 카메라에 의해 획득된 영상에서 제 1 핸드 제스처가 감지된 경우를 예시한 도면이고, 도 5는 일 실시예에 따른 디스플레이부가 표시하는 볼륨 제어 화면을 예시한 도면이다.

디스플레이부(130)는 특정 미디어를 재생하는 것과 관련된 미디어 재생 화면 M을 표시할 수 있다. 상술한 바와 같이, 음성 또는 터치 등의 방법으로 특정 미디어에 대한 재생 명령이 입력되면, 제어부(150)는 해당 미디어를 재생함과 동시에 이와 관련된 미디어 재생 화면 M을 표시하도록 디스플레이부(130)를 제어할 수 있다.

미디어 재생 화면 M 상에는 재생되는 미디어의 종류(예를 들어, 동영상, 사진, 음악 등), 재생되는 미디어의 제목, 저작자 정보, 재생되는 미디어에 대한 프로그레스 바(Progress Bar) 등이 표시될 수 있다.

미디어 재생 화면 M이 디스플레이부(130)에 표시될 때, 제어부(150)는 핸드 제스처가 입력될 수 있는 환경인지 여부를 판단할 수 있다. 핸드 제스처가 입력될 수 있는 환경이란 음성 인식 장치(100)의 제스처 인식 설정이 온(On) 상태이고, 조도 센서(170)에 의해 감지된 조도가 기준 조도 이상인 경우를 의미할 수 있다. 여기서, 기준 조도는 카메라(120)에 의해 획득된 영상 I 으로부터 핸드 제스처를 감지할 수 있는 최저 조도를 의미할 수 있다.

만약, 핸드 제스처가 입력될 수 있는 환경이라고 판단되면, 제어부(150)는 미디어 재생 화면 M 상에 핸드 제스처가 입력 가능함을 나타내는 제스처 입력 가능 오브젝트 M₁을 표시하도록 디스플레이부(130)를 제어할 수 있다. 도 3에서는 미디어 재생 화면 M의 우측 상단에 제스처 입력 가능 오브젝트 M₁이 표시되는 경우를 예시하였으나, 제스처 입력 가능 오브젝트 M₁은 사용자에게 시각적으로 인식될 수 있는 미디어 재생 화면 M 상의 모든 위치에 표시될 수 있다.

제스처 입력 가능 오브젝트 M₁을 시각적으로 인식한 사용자는 관심 영역 내에서 핸드 제스처를 통해 제어 명령을 입력할 수 있다. 예를 들어, 사용자는 음성 인식 장치에 의해 재생 중인 미디어의 설정에 대한 핸드 제스처를 미디어 설정 화면을 통해 입력함으로써 음성 인식 장치의 동작을 제어할 수 있다. 여기서, 미디어의 설정이란 미디어 재생과 관련하여 사용자의 선택에 의해 결정 가능한 모든 항목을 의미할 수 있다. 예를 들어, 핸드 제스처에 의해 입력 가능한 미디어 설정은 표시 화면의 밝기 제어, 표시 화면의 크기 제어, 미디어 재생 제어 등을 포함할 수 있다. 또한, 미디어 설정 화면은 상술한 미디어의 설정이 가능한 UI를 제공하는 화면을 의미할 수 있다.

이하에서는 핸드 제스처가 미디어의 설정 중 볼륨 제어에 대한 경우를 전제로 설명한다.

카메라(120)는 관심 영역에 대한 영상 I를 획득할 수 있고, 도 4에서는 영상 I 내에 사용자가 검지 손가락을 편 제 1 핸드 제스처가 포함된 경우를 예시한다. 제어부(150)는 카메라(120)에 의해 획득된 영상 I로부터 검지 손가락이 펴진 제 1 핸드 제스처를 감지하고, 감지된 제 1 핸드 제스처에 따라 미디어 재생 화면 M 내 미디어 설정 화면 중 볼륨 제어 화면 V를 표시하도록 디스플레이부(130)를 제어할 수 있다. 이 때, 제어부(150)는 검지 손가락이 펴진 제 1 핸드 제스처가 미리 정해진 기준 시간 동안 감지될 때에만, 미디어 재생 화면 M 내 볼륨 제어 화면 V를 표시하도록 디스플레이부(130)를 제어할 수도 있다. 여기서, 기준 시간이란 사용자가 볼륨 제어 화면 M을 표시할 의도를 가지고 제 1 핸드 제스처를 유지하는 최소 시간을 의미할 수 있다.

제어부(150)는 볼륨 제어 화면 V가 기존에 표시된 미디어 재생 화면 M 상에 오버랩되어 표시되도록 디스플레이부(130)를 제어할 수 있다. 이와는 달리, 제어부(150)는 볼륨 제어 화면 V가 미디어 재생 화면 M과 분리된 영역에 표시되도록 디스플레이부(130)를 제어할 수도 있다.

도 5를 참조하면, 볼륨 제어 화면 V는 음소거 명령을 입력 받기 위한 제 1 제어 항목 V₁, 볼륨 다운 명령을 입력 받기 위한 제 2 제어 항목 V₂, 및 볼륨 업 명령을 입력 받기 위한 제 3 제어 항목 V₃을 포함할 수 있다. 아울러, 볼륨 제어 화면 V는 복수의 제어 항목 중 어느 하나에 대한 선택 명령을 입력 받기 위한 포커스 f를 더 포함할 수 있다. 도 5의 경우, 포커스 f는 제 2 제어 항목 V₂상에 위치함을 확인할 수 있다.

지금까지는 제 1 핸드 제스처를 통해 미디어 재생 화면 M을 제어하는 방법을 설명하였다. 이하에서는 도 6 및 7을 통해 제 2 핸드 제스처를 통해 미디어 재생 화면 M을 제어하는 방법을 설명한다.

도 6은 일 실시예에 따른 카메라에 의해 획득된 영상에서 제 2 핸드 제스처가 감지된 경우를 예시한 도면이고, 도 7은 도 5의 볼륨 제어 화면이 제 2 핸드 제스처에 의해 제어되는 경우를 나타낸 도면이다.

볼륨 제어 화면 V가 표시되면, 사용자는 복수의 제어 항목 V₁, V₂, V₃ 중 어느 하나를 선택하기 위해 포커스 f를 이동시킬 수 있다. 이를 위해, 사용자는 포커스 f를 이동시키기 위한 제어 명령을 관심 영역 내에서 핸드 제스처를 통해 입력할 수 있다. 카메라(120)는 관심 영역에 대한 영상 I를 획득할 수 있고, 도 6에서는 영상 I 내에 사용자가 검지 손가락을 편 상태로 수평 이동, 구체적으로 좌측 방향으로 이동하는 제 2 핸드 제스처가 포함된 경우를 예시한다.

제어부(150)는 카메라(120)에 의해 획득된 영상 I로부터 검지 손가락이 펴진 상태로 수평 이동하는 제 2 핸드 제스처를 감지하고, 감지된 제 2 핸드 제스처에 따라 미디어 설정 화면 중 볼륨 제어 화면 V 내 포커스 f의 위치를 이동하도록 디스플레이부(130)를 제어할 수 있다. 구체적으로, 검지 손가락이 펴진 상태로 좌측 방향으로 이동하는 제 2 핸드 제스처가 감지된 경우, 제어부(150)는 포커스 f의 위치를 우측 방향으로 이동하도록 디스플레이부(130)를 제어할 수 있다. 이와는 달리, 검지 손가락이 펴진 상태로 우측 방향으로 이동하는 제 2 핸드 제스처가 감지된 경우, 제어부(150)는 포커스 f의 위치를 좌측 방향으로 이동하도록 디스플레이부(130)를 제어할 수 있다.

도 7은 도 6과 같이 좌측 방향으로 이동하는 제 2 핸드 제스처가 감지될 때, 제 2 제어 항목 V₂ 상에 위치하던 포커스 f가 우측 방향으로 이동한 경우를 나타낸다. 그 결과, 포커스 f는 제 3 제어 항목 V₃ 상에 위치함을 확인할 수 있다.

지금까지는 제 2 핸드 제스처를 통해 미디어 재생 화면 M을 제어하는 방법을 설명하였다. 이하에서는 도 8 및 9를 통해 제 3 핸드 제스처를 통해 미디어 재생 화면 M을 제어하는 방법을 설명한다.

도 8은 일 실시예에 따른 카메라에 의해 획득된 영상에서 제 3 핸드 제스처가 감지된 경우를 예시한 도면이고, 도 9는 도 7의 볼륨 제어 화면이 제 3 핸드 제스처에 의해 제어되는 경우를 나타낸 도면이다.

포커스 f 가 원하는 제어 항목 상으로 이동한 후, 사용자는 해당 제어 항목을 선택할 수 있다. 이를 위해, 사용자는 포커스 f가 위치한 제어 항목을 선택하기 위한 제어 명령을 관심 영역 내에서 제 3 핸드 제스처를 통해 입력할 수 있다. 여기서, 제 3 핸드 제스처는 검지 손가락을 편 상태에서 검지 손가락을 구부려 카메라(120)를 향하는 제 1 서브 제스처와, 구부린 검지 손가락을 다시 펴는 제 2 서브 제스처의 연결 동작으로 구성될 수 있다. 직관적으로, 제 3 핸드 제스처는 사용자에게 마우스의 클릭(Click) 동작을 연상시킬 수 있다.

카메라(120)는 관심 영역에 대한 영상 I를 획득할 수 있고, 도 8에서는 영상 I 내에 사용자가 펴진 검지 손가락을 구부려 카메라(120)를 향하도록 하는 제 3 핸드 제스처 중 제 1 서브 제스처가 포함된 경우를 예시한다.

제어부(150)는 카메라(120)에 의해 획득된 영상 I로부터 검지 손가락이 카메라(120)를 향해 구부려졌다 펴지는 제 3 핸드 제스처를 감지하고, 감지된 제 3 핸드 제스처에 따라 미디어 설정 화면 중 볼륨 제어 화면 V 내 포커스 f가 위치하는 제 3 제어 항목 V₃를 선택할 수 있다. 제 3 제어 항목 V₃가 선택되면, 제어부(150)는 선택에 따라 재생되는 미디어의 볼륨을 다운시키도록 스피커(140)를 제어할 수 있다.

이와 동시에, 제어부(150)는 제 3 제어 항목 V₃가 선택되었음을 나타내는 선택 피드백이 볼륨 제어 화면 V 상에 표시되도록 디스플레이부(130)를 제어할 수 있다. 도 9를 참조하면, 볼륨 제어 화면 V는 선택 피드백으로서 고리 형상의 포커스 f의 개수를 증가시킬 수 있다. 선택 피드백을 시각적으로 확인한 사용자는 원하는 제어 항목이 성공적으로 선택되었음을 인지할 수 있다.

한편, 볼륨 제어 항목 중 제 2 제어 항목 및 제 3 제어 항목 선택에 대한 제 1 서브 제스처가 유지되면, 제어부(150)는 제 1 서브 제스처의 유지 시간에 대응되는 횟수만큼 제어 항목을 선택할 수 있다. 예를 들어, 포커스 f가 제 3 제어 항목 V₃ 상에 위치할 때, 사용자가 제 1 서브 제스처, 즉 검지 손가락을 카메라(120)를 향해 구부린 핸드 제스처를 유지하는 경우, 제어부(150)는 제 1 서브 제스처의 유지 시간에 비례하여 재생되는 미디어의 볼륨을 복수 회 증가시킬 수 있다.

나아가, 제어부(150)는 제 1 서브 제스처의 유지 시간에 대응되는 횟수만큼 선택 피드백이 표시되도록 디스플레이부(130)를 제어할 수 있다. 만약, 지속 시간이 1초이고, 제 1 서브 제스처의 유지 시간이 3초인 경우, 제어부(150)는 선택 피드백으로서 고리 형상의 포커스 f를 3개 표시할 수 있다.

지금까지는 핸드 제스처를 통해 미디어 재생 화면 M을 제어하는 방법을 설명하였다. 이하에서는 도 10을 통해 핸드 제스처에 의한 미디어 재생 화면 M 제어를 종료하는 방법을 설명한다.

도 10은 일 실시예에 따른 카메라에 의해 획득된 영상에서 제 1 핸드 제스처가 감지되지 않는 경우를 예시한 도면이다.

더 이상 핸드 제스처를 통해 미디어 재생 화면 M을 제어할 필요가 없는 경우, 사용자는 핸드 제스처에 의한 미디어 재생 화면 제어를 종료할 수 있다. 이를 위해, 사용자는 제 1 핸드 제스처가 관심 영역 내에서 감지되지 않도록 할 수 있다.

그 결과, 카메라(120)에 의해 획득된 관심 영역에 대한 영상 I 내에는 사용자의 제 1 핸드 제스처가 감지되지 않을 수 있다. 제어부(150)는 영상 I 내에서 미리 정해진 종료 시간 동안 제 1 핸드 제스처가 감지되지 않으면, 미디어 재생 화면 M 상의 볼륨 제어 화면 V가 사라지도록 디스플레이부(130)를 제어할 수 있다.

한편, 미디어 재생 화면 M 상에 볼륨 제어 화면 V가 표시되는 경우라도, 사용자의 음성 또는 디스플레이부(130) 상에 터치가 감지되는 경우, 제어부(150)는 핸드 제스처에 우선하여 감지된 음성 또는 터치에 대응되는 제어 명령에 따라 음성 인식 장치(100)를 제어할 수 있다. 구체적으로, 제어부(150)는 핸드 제스처, 음성, 및 터치 중 적어도 두 개가 동시에 입력되면, 터치-음성-핸드 제스처의 순서에 따라 음성 인식 장치(100)를 제어할 수 있다.

한편, 음성 인식 장치(100)는 핸드 제스처에 의한 제어 명령이 입력된 적이 없거나 초기화된 경우, 핸드 제스처에 대한 튜토리얼 모드를 제공할 수 있다. 일 실시예에 따른 음성 인식 장치(100)는 사용자에게 튜토리얼 모드 진입을 묻고, 튜토리얼 모드 진입 시 사용자가 상술한 제 1 내지 3 핸드 제스처를 학습할 수 있도록 안내할 수 있다. 이를 통해, 핸드 제스처에 의한 제어 명령 입력 방법을 사용자가 학습할 수 있어, 음성 인식 장치(100)의 사용자 편의성이 증대될 수 있다.

도 11은 일 실시예에 따른 음성 인식 장치 제어방법의 흐름도이다.

먼저, 음성 인식 장치(100)는 미디어 재생 화면 M을 표시할 수 있다(S100). 여기서, 미디어 재생 화면 M이란 미디어의 재생 관련한 정보 제공 및 제어 명령 입력을 위한 화면을 의미할 수 있다. 일 실시예에 따른 미디어 재생 화면 M은 재생되는 미디어의 종류(예를 들어, 동영상, 사진, 음악 등), 재생되는 미디어의 제목, 저작자 정보, 재생되는 미디어에 대한 프로그레스 바(Progress Bar) 등을 포함할 수 있다.

그 다음, 음성 인식 장치(100)는 미리 정해진 관심 영역에 대한 영상 I을 획득할 수 있다(S110). 여기서 관심 영역이란 카메라(120)가 마련되는 위치에 따라 결정되는 촬영 영역을 의미할 수 있다.

관심 영역에 대한 영상 I가 획득되면, 음성 인식 장치(100)는 획득된 영상 I 내 핸드 제스처가 감지되는지 확인할 수 있다(S120). 만약, 핸드 제스처가 감지되지 않는다면, 음성 인식 장치(100)는 다시 관심 영역에 대한 영상을 획득할 수 있다.

반면, 핸드 제스처가 감지된다면, 음성 인식 장치(100)는 감지된 핸드 제스처에 따라 음성 인식 장치의 동작을 제어할 수 있다(S130). 일 실시예에 따른 음성 인식 장치(100)는 감지된 핸드 제스처에 따라 미디어 재생 화면 M을 제어할 수 있다. 예를 들어, 제 1 핸드 제스처가 감지되면, 음성 인식 장치(100)는 미디어 재생 화면 M 상에 볼륨 제어 화면 V를 표시할 수 있다. 또한, 제 2 핸드 제스처가 감지되면, 음성 인식 장치(100)는 볼륨 제어 화면 V 내 복수의 제어 항목 중 어느 하나에 대한 포커스 f의 위치를 이동시킬 수 있다. 나아가, 제 3 핸드 제스처가 감지되면, 음성 인식 장치(100)는 포커스 f가 위치하는 제어 항목에 대한 선택 피드백을 표시할 수 있다.

상술한 음성 인식 장치 및 그 제어방법은, 음성 또는 터치와 같은 방법으로 제어명령의 입력이 어려운 상황에서, 단순하면서도 직관적인 제스처를 통해 동작의 제어가 가능한 환경을 제공할 수 있다. 이를 통해, 음성 인식 장치에 대한 사용자 편의성을 높일 수 있다.

한편, 상술한 일 실시예에 따른 음성 인식 장치의 제어방법에 포함된 각각의 단계는, 이러한 단계를 수행하도록 프로그램된 컴퓨터 프로그램을 기록하는 컴퓨터 판독가능한 기록매체에서 구현될 수 있다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 품질에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 균등한 범위 내에 있는 모든 기술사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

일 실시예에 따르면, 상술한 디스플레이 장치 및 그 제어방법은 댁내 또는 산업 현장 등 다양한 분야에서 이용될 수 있으므로 산업상 이용 가능성이 있다.

100: 음성 인식 장치
110: 마이크로폰
120: 카메라
130: 디스플레이부
140: 스피커
150: 제어부
160: 저장부
170: 조도 센서

Claims

감지되는 음성을 인식하는 음성 인식 장치에 있어서,
특정 미디어를 재생하는 것과 관련된 미디어 재생 화면을 표시하는 디스플레이부;
주변의 조도를 감지하는 조도 센서;
미리 정해진 관심 영역에 대한 영상을 획득하는 카메라; 및
상기 카메라에 의해 획득된 영상 내 핸드 제스처가 감지되면, 상기 감지된 핸드 제스처에 따라 상기 음성 인식 장치의 동작을 제어하는 제어부를 포함하고,
상기 제어부는,
상기 미디어 재생 화면이 표시되는 상태, 상기 미디어 재생 화면 상에 상기 핸드 제스처가 입력 가능함을 나타내는 제스처 입력 가능 오브젝트를 표시한 상태, 상기 음성 인식 장치의 제스처 인식 설정이 온(On) 상태 및 상기 조도 센서에 의해 감지된 조도가 기준 조도 이상인 상태일 때에, 상기 감지된 핸드 제스처에 따라 상기 특정 미디어를 재생하는
음성 인식 장치.
제 1 항에 있어서,
상기 제어부는,
상기 영상 내 미디어 설정의 시작을 위한 제 1 핸드 제스처가 감지되면, 상기 제 1 핸드 제스처에 대응되는 미디어 설정 화면을 표시하도록 상기 디스플레이부를 제어하고,
상기 영상 내 미디어 설정 항목의 탐색을 위한 제 2 핸드 제스처가 감지되면, 상기 감지된 제 2 핸드 제스처에 따라 상기 표시된 미디어 설정 화면의 복수의 제어 항목 중 어느 하나에 대한 포커스 위치를 이동하도록 상기 디스플레이부를 제어하고,
상기 영상 내 상기 미디어 설정 항목의 선택을 위한 제 3 핸드 제스처가 감지되면, 상기 감지된 제 3 핸드 제스처에 따라 상기 포커스가 위치한 제어 항목이 선택됨을 나타내는 선택 피드백이 표시되도록 상기 디스플레이부를 제어하는
음성 인식 장치.
제 2 항에 있어서,
상기 제 3 핸드 제스처는,
연속되는 제 1 서브 제스처 및 제 2 서브 제스처의 조합으로 구성되고,
상기 제어부는, 상기 영상 내 상기 미디어 설정 항목의 선택을 위한 상기 제 1 서브 제스처가 유지되면, 상기 제 1 서브 제스처의 유지 시간에 대응되는 횟수만큼 상기 제어 항목이 선택됨을 나타내는 상기 선택 피드백이 표시되도록 상기 디스플레이부를 제어하는
음성 인식 장치.
제 2 항에 있어서,
상기 제어부는,
상기 영상 내 상기 제 1 핸드 제스처가 미리 정해진 시간 동안 감지되지 않으면, 상기 미디어 설정 화면이 사라지도록 상기 디스플레이부를 제어하는
음성 인식 장치.
삭제
제 1 항에 있어서,
상기 제어부는,
상기 감지된 핸드 제스처, 상기 감지된 음성, 및 상기 디스플레이부에 대한 터치 중 어느 하나에 따라 상기 음성 인식 장치의 동작을 제어하되,
상기 핸드 제스처, 상기 음성, 및 상기 터치 중 적어도 두 개가 동시에 입력되면, 상기 터치, 상기 음성, 및 상기 핸드 제스처의 감지 순서에 기초하여, 상기 두 개의 입력 중 상기 감지 순서가 더 빠른 입력에 대응되는 제어 명령에 따라 상기 음성 인식 장치의 동작을 제어하는
음성 인식 장치.
감지되는 음성을 인식하는 음성 인식 장치의 제어방법에 있어서,
특정 미디어를 재생하는 것과 관련된 미디어 재생 화면을 표시하는 단계;
주변 조도를 감지하는 단계;
미리 정해진 관심 영역에 대한 영상을 획득하는 단계; 및
상기 획득된 영상 내 제스처가 감지되면, 상기 감지된 제스처에 따라 상기 음성 인식 장치의 동작을 제어하는 단계를 포함하고,
상기 음성 인식 장치의 동작을 제어하는 단계는,
상기 미디어 재생 화면이 표시되는 상태, 상기 미디어 재생 화면 상에 핸드 제스처가 입력 가능함을 나타내는 제스처 입력 가능 오브젝트를 표시한 상태, 상기 음성 인식 장치의 제스처 인식 설정이 온(On) 상태 및 조도 센서에 의해 감지된 조도가 기준 조도 이상인 상태일 때에, 상기 감지된 핸드 제스처에 따라 상기 특정 미디어를 재생하는
음성 인식 장치의 제어방법.
제 7 항에 있어서,
상기 음성 인식 장치의 동작을 제어하는 단계는,
상기 영상 내 미디어 설정의 시작을 위한 제 1 제스처가 감지되면, 상기 제 1 제스처에 대응되는 미디어 설정 화면을 표시하는 단계;
상기 영상 내 미디어 설정 항목의 선택을 위한 제 2 제스처가 감지되면, 상기 감지된 제 2 제스처에 따라 상기 표시된 미디어 설정 화면의 복수의 제어 항목 중 어느 하나에 대한 포커스 위치를 이동하는 단계; 및
상기 영상 내 상기 미디어 설정 항목의 선택을 위한 제 3 제스처가 감지되면, 상기 감지된 제 3 제스처에 따라 상기 포커스가 위치한 제어 항목이 선택됨을 나타내는 선택 피드백을 표시하는 단계를 포함하는
음성 인식 장치의 제어방법.
제 8 항에 있어서,
상기 제 3 제스처는,
연속되는 제 1 서브 제스처 및 제 2 서브 제스처의 조합으로 구성되고,
상기 음성 인식 장치의 동작을 제어하는 단계는,
상기 영상 내 상기 미디어 설정 항목의 선택을 위한 상기 제 1 서브 제스처가 유지되면, 상기 제 1 서브 제스처의 유지 시간에 대응되는 횟수만큼 상기 제어 항목이 선택됨을 나타내는 상기 선택 피드백을 표시하는 단계를 더 포함하는
음성 인식 장치의 제어방법.
제 8 항에 있어서,
상기 영상 내 상기 제 1 제스처가 미리 정해진 시간 동안 감지되지 않으면, 상기 미디어 설정 화면이 사라지도록 하는 단계를 더 포함하는
음성 인식 장치의 제어방법.
삭제
제 7 항에 있어서,
상기 음성 인식 장치의 동작을 제어하는 단계는,
상기 제스처, 상기 음성, 및 상기 미디어 재생 화면이 표시되는 디스플레이부에 대한 터치 중 적어도 두 개가 동시에 입력되면, 상기 터치, 상기 음성, 및 상기 제스처의 감지 순서에 기초하여, 상기 두 개의 입력 중 상기 감지 순서가 더 빠른 입력에 대응되는 제어 명령에 따라 상기 음성 인식 장치의 동작을 제어하는
음성 인식 장치의 제어방법.
제 7 항 내지 제 10 항, 또는 제 12 항 중 어느 한 항에 기재된 방법에 따른 각각의 단계를 수행하는 명령어를 포함하는 프로그램이 기록된 컴퓨터 판독 가능 기록매체.