KR20150133586A - 음성 명령 인식 장치 및 방법 - Google Patents

음성 명령 인식 장치 및 방법 Download PDF

Info

Publication number
KR20150133586A
KR20150133586A KR1020140060559A KR20140060559A KR20150133586A KR 20150133586 A KR20150133586 A KR 20150133586A KR 1020140060559 A KR1020140060559 A KR 1020140060559A KR 20140060559 A KR20140060559 A KR 20140060559A KR 20150133586 A KR20150133586 A KR 20150133586A
Authority
KR
South Korea
Prior art keywords
voice
user
distance
recognizing
command
Prior art date
Application number
KR1020140060559A
Other languages
English (en)
Inventor
문민영
최영상
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020140060559A priority Critical patent/KR20150133586A/ko
Publication of KR20150133586A publication Critical patent/KR20150133586A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00-G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00-G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00-G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Taking into account non-speech caracteristics
    • G10L2015/227Taking into account non-speech caracteristics of the speaker; Human-factor methodology

Abstract

음성 명령 인식 장치 및 방법이 개시된다. 일 예에 따라, 음성 명령 인식 장치는 서로 다른 위치들에 배치되는 복수의 오디오 센서들과; 상기 오디오 센서들로부터 수신된 음성으로부터, 상기 음성을 발화한 사용자의 상황을 포함하는 사용자 컨텍스트를 결정하는 컨텍스트 판단부와; 상기 사용자 컨텍스트에 기초하여, 상기 음성으로부터 미리 설정된 명령을 인식하도록 활성화되거나 또는 비활성화된 상태로 유지되는 명령 인식부를 포함한다.

Description

음성 명령 인식 장치 및 방법{APPARATUS AND METHOD FOR RECOGNIZING VOICE COMMEND}

음성 명령 인식 기술에 관련된다. 보다 상세하게는 장치 제어를 위한 음성 명령을 인식하도록 하는 음성 명령 인식 기술에 관련된다.

근래 음성 인식 기술의 발전에 따라, 사용자가 음성 명령(voice command)을 사용하여 장치의 기능들을 제어하도록 하는 음성 명령 인식 기능을 구비한 장치들이 제안되고 있다. 일반적으로 종래 장치에서, 평시 즉 대기 상태에서 음성 명령 인식 기능은 비활성화된 상태로 유지된다. 대기 상태에서, 음성 명령 인식 기능은, 사용자가 손으로 장치에 구비된 특정 버튼을 누르거나 특정 단어를 발화함으로써 트리거한 때에 활성화된다. 예컨대, 사용자는 "OK, glass!"를 외치거나, 지정된 버튼을 누른 후 "Hi, galaxy"를 말하는 등의 트리거 과정을 통하여, 스마트 안경 또는 스마트폰 등과 같은 장치를 대기 상태에 있던 음성 명령 인식 기능을 활성화시킬 수 있다.

그러나, 사용자가 음성 명령으로 장치를 제어하고자 할 때마다 특정 방식의 트리거 과정을 거쳐야 하므로, 음성 명령 입력 과정이 사용자에게 불편하다. 뿐만 아니라, 평소에 트리거 명령을 인식하기 위하여는 장치 내에서 항상 음성 명령 인식 기능이 활성화되어 있어야 하는데, 이것은 장치의 제어를 위한 자원 할당이 비효율적으로 되는 원인이 된다. 더 나아가, 평소에 음성 명령 인식 기능이 대기 상태로 유지되는 경우라 하더라도, 트리거 명령을 인식하기 위해 음성 명령 인식 기능을 활성화하는 별도의 사용자 명령이 예컨대, 화면 터치 또는 버튼 입력 방식에 의해, 입력되어야 한다.

장치 제어를 위한 음성 명령을, 대기 상태에서 별도의 트리거 명령 없이 직접 인식하도록 하는 음성 명령 인식 장치 및 방법을 제안한다.

일 양상에 따라 제공되는 음성 명령 인식 장치는, 서로 다른 위치들에 배치되는 복수의 오디오 센서들과; 상기 오디오 센서들로부터 수신된 음성으로부터, 상기 음성을 발화한 사용자의 상황을 포함하는 사용자 컨텍스트를 결정하는 컨텍스트 판단부와; 상기 사용자 컨텍스트에 기초하여, 상기 음성으로부터 미리 설정된 명령을 인식하도록 활성화되거나 또는 비활성화된 상태로 유지되는 명령 인식부를 포함한다.

일 실시예에 있어서, 상기 컨텍스트 판단부는, 상기 음성이 상기 오디오 센서들 각각에 도달한 도달시간에 기초하여, 상기 음성을 발화한 사용자와 사이의 거리를 계산하는 거리 계산부를 포함하고, 상기 명령 인식부는, 상기 거리에 기초하여, 상기 음성으로부터 미리 설정된 명령을 인식하도록 활성화되거나 또는 비활성화된 상태로 유지된다.

다른 실시예에 있어서, 상기 컨텍스트 판단부는, 상기 음성이 미리 저장된 특정 사용자에 의해 발화된 것인지 여부를 판단하는 사용자 인식부, 및 상기 음성이 상기 특정 사용자에 의해 발화된 것이라고 판단되는 경우, 상기 음성이 상기 오디오 센서들 각각에 도달한 도달시간에 기초하여, 상기 음성을 발화한 사용자와 사이의 거리를 계산하는 거리 계산부를 포함하고, 상기 명령 인식부는, 상기 거리에 기초하여, 상기 음성으로부터 미리 설정된 명령을 인식하도록 활성화되거나 또는 비활성화된 상태로 유지된다.

또 다른 실시예에 있어서, 상기 컨텍스트 판단부는, 상기 음성이 상기 오디오 센서들 각각에 도달한 도달시간에 기초하여, 상기 음성을 발화한 사용자와 사이의 거리를 계산하는 거리 계산부, 및 상기 음성과 그 배경잡음의 차이의 크기를 비교하는 배경잡음 비교부를 포함하고, 상기 명령 인식부는, 상기 거리 및 상기 음성과 그 배경잡음의 차이에 기초하여, 상기 음성으로부터 미리 설정된 명령을 인식하도록 활성화되거나 또는 비활성화된 상태로 유지된다.

또 다른 실시예에 있어서, 움직임을 검출하는 모션 센서를 더 구비하며, 상기 컨텍스트 판단부는, 상기 음성이 상기 오디오 센서들 각각에 도달한 도달시간에 기초하여, 상기 음성을 발화한 사용자와 사이의 거리를 계산하는 거리 계산부, 및 상기 모션센서에 의해 검출된 움직임으로부터 상기 사용자의 행동을 인식하는 행동 인식부를 포함하고, 상기 명령 인식부는, 상기 거리 및 상기 행동에 기초하여, 상기 음성으로부터 미리 설정된 명령을 인식하도록 활성화되거나 또는 비활성화된 상태로 유지된다.

또 다른 실시예에 있어서, 이벤트를 감지하는 이벤트 감지부를 더 구비하며, 상기 컨텍스트 판단부는, 상기 음성이 상기 오디오 센서들 각각에 도달한 도달시간에 기초하여, 상기 음성을 발화한 사용자와 사이의 거리를 계산하는 거리 계산부, 및 상기 이벤트 감지부에 의해 검출된 이벤트로부터 상기 장치의 동작을 인식하는 기기동작 인식부를 포함하고, 상기 명령 인식부는, 상기 거리 및 상기 동작에 기초하여, 상기 음성으로부터 미리 설정된 명령을 인식하도록 활성화되거나 또는 비활성화된 상태로 유지된다.

또 다른 실시예에 있어서, 움직임을 검출하는 모션 센서, 및 이벤트를 감지하는 이벤트 감지부를 더 구비하며, 상기 컨텍스트 판단부는, 상기 음성이 상기 오디오 센서들 각각에 도달한 도달시간에 기초하여, 상기 음성을 발화한 사용자와 사이의 거리를 계산하는 거리 계산부, 상기 모션센서에 의해 검출된 움직임으로부터 상기 사용자의 행동을 인식하는 행동 인식부, 및 상기 이벤트 감지부에 의해 검출된 이벤트로부터 상기 장치의 동작을 인식하는 기기동작 인식부를 포함하고, 상기 명령 인식부는, 상기 거리, 상기 행동 및 상기 동작에 기초하여, 상기 음성으로부터 미리 설정된 명령을 인식하도록 활성화되거나 또는 비활성화된 상태로 유지된다.

또한 다른 양상에 따라, 음성 명령 인식 방법은, 복수의 서로 다른 위치에서 음성을 수신하는 단계; 수신된 음성으로부터, 상기 음성을 발화한 사용자의 상황을 포함하는 사용자 컨텍스트를 결정하는 컨텍스트 판단 단계와; 상기 사용자 컨텍스트에 기초하여, 상기 음성으로부터 미리 설정된 명령을 인식하도록 활성화되거나 또는 비활성화된 상태로 유지되는 명령 인식 단계를 포함한다.

상기 양상들 및 그 외 다른 양상들과 상기 실시예들 및 그 외 다른 실시예들은 아래의 설명으로부터 발견될 수 있다.

대기 상태에서 항상 음성 신호를 수신하고, 현재 수신된 음성에 기초한 현재 사용자 컨텍스트를 이용하여 음성 명령 여부를 판단함으로써, 대기 상태에서 별도의 트리거 명령 없이 수신 음성으로부터 직접 음성 명령을 인식할 수 있도록 한 음성 명령 인식 장치 및 방법을 구현할 수 있는 효과가 있다.

도 1은 음성 명령 인식 장치의 실시예를 보여주는 블록도.
도 2는 음성 명령 인식 장치의 실시예를 보여주는 블록도.
도 3은 도 2의 음성 명령 인식 장치의 구현예를 개략적으로 보여주는 도면.
도 4는 음성 명령 인식 방법의 실시예를 보여주는 흐름도.
도 5는 음성 명령 인식 장치의 다른 실시예를 보여주는 블록도.
도 6은 도 5의 음성 명령 인식 장치의 구현예를 개략적으로 보여주는 도면.
도 7은 음성 명령 인식 방법의 다른 실시예를 보여주는 흐름도.
도 8은 음성 명령 인식 장치의 또 다른 실시예를 보여주는 블록도.
도 9는 도 7의 음성 명령 인식 장치의 구현예를 개략적으로 보여주는 도면.
도 10은 음성 명령 인식 방법의 또 다른 실시예를 보여주는 흐름도.
도 11은 음성 명령 인식 장치의 또 다른 실시예를 보여주는 블록도.
도 12는 도 11의 음성 명령 인식 장치의 구현예를 개략적으로 보여주는 도면.
도 13은 음성 명령 인식 방법의 또 다른 실시예를 보여주는 흐름도.
도 14는 종래 음성 명령 인식 시스템의 구성을 도시하는 도면.

일반적으로, 컴퓨팅 장치에 있어서, 음성 명령 인식 과정은, 수신된 음성을 분석하고 미리 저장된 명령 데이터와 비교하는 프로세스들을 실행하기 위해, 프로세서 및 메모리 등의 자원을 필요로 한다. 통상적으로, 자원들은 음성 명령 인식 프로세스와 그 외 다른 기능들을 위한 프로세스들 사이에 공유된다. 이 때문에, 현재 다른 프로세스에 의해 점유되고 있거나 대기 중인 자원을 음성 명령 인식 프로세스에 할당할지 여부가 판단되어야 한다.

장치가 음성 명령을 입력하려는 사용자 의도를 판단하도록 하기 위해서, 종래에, 사용자가 음성 명령 인식 기능을 개시하도록 하는 트리거 명령을 입력하는 방식이 알려져 있다. 이러한 트리거 명령이 입력되면, 장치는 이후 입력되는 음성 신호에 대해 음성 명령 인식 프로세싱을 수행하고, 인식된 음성 명령에 따라 장치의 각 기능을 제어할 수 있다.

이 경우, 트리거 명령은 장치에 구비되어 있는 특정 버튼을 누르는 방식, 미리 지정된 하나 이상의 단어를 발화하는 방식, 또는 특정 입력 버튼과 미리 지정된 단어를 조합하여 입력하는 방식 등을 통해 장치로 입력될 수 있다. 예를 들어, 도 14를 참조하면, 미리 지정된 하나 이상의 단어를 발화하는 방식의 트리거 명령을 사용하는 종래 음성 명령 인식 시스템(140)의 구성을 도시하는 도면이 예시된다.

도시된 예에서와 같이, 종래 음성 명령 인식 시스템(100)은 센서부(142), 트리거부(144), 명령 인식부(146), 및 명령 실행부(148)를 구비할 수 있다. 센서부(142)는 사용자(U)에 의해 발화된 음성 또는 주변에서 발생되는 다양한 음향을 수신하여 전기적인 신호로 변환하는 마이크로폰일 수 있다.

센서부(142)에서 수신된 사용자 음성은 항상 장치 제어를 위한 음성 명령이라고 간주될 수 있는 것은 아니다. 도시된 예에서, 미리 지정된 하나 이상의 단어가 음성 명령 인식 프로세스를 활성화하는 트리거 수단으로 이용된다. 예를 들어 "OK, glass" 또는 "Hi, galaxy"라는 단어를 수신하면, 장치는 음성 명령 인식 기능을 활성화하고, 그 이후부터 센서부(142)로부터 수신된 음성에 대해 음성 명령 인식 프로세스가 수행될 수 있다.

트리거부(144)는 센서부(142)에 의해 수신된 음성이 음성 명령 인식 프로세스 활성화를 위해 미리 지정된 단어(예를 들어 "OK, glass" 또는 "Hi, galaxy")를 포함하는지 여부를 판단함으로써, 명령 인식부(16)의 활성화 여부를 판단할 수 있다.

일단, 트리거부(144)에 의해 명령 인식부(146)가 활성화되면, 그 이후 센서부(142)를 통해 수신된 모든 음성 신호는 명령 인식부(146)에 의해 프로세싱될 수 있다. 명령 인식부(146)는 수신된 음성 신호가 장치 제어를 위한 명령인지 여부를 판단한다. 그 결과 특정 명령이 인식되면, 인식된 명령은 이 명령이 의도하는 기능을 제어하기 위해 명령 실행부(148)에 의해 실행될 수 있다.

이에 따르면, 사용자는 미리 지정된 단어를 발화함으로써 음성 명령 인식 기능을 트리거할 수 있다. 그런데, 음성 명령 인식 기능을 트리거하는 방식은, 음성 명령으로 장치를 제어하고자 할 때마다, 음성 명령 인식 기능을 트리거하기 위한 특정 단어를 발화하여 입력하여야만 하므로 불편하다. 뿐만 아니라, 평소에 트리거 명령을 인식하기 위하여 장치 내에서 항상 음성 명령 인식 기능이 활성화되어 있어야 한다. 이러한 구성은 특히 스마트 안경, 스마트 워치, 스마트 폰 등과 같은 모바일 장치 또는 웨어러블 장치들의 경우, 대기 상태에서 장치 내 자원들에 의해 소모되는 전력이 최소화되어야 하기 때문에, 전력 소모의 면에서 불리한 구성이다. 더 나아가, 평소에 장치에서 음성 명령 인식 기능이 대기 상태로 유지되는 경우라 하더라도, 트리거 명령을 인식하기 위해서는 음성 명령 인식 기능을 활성화하여야 한다. 그러므로 트리거 명령을 이용하기 전에 별도의 사용자 명령이 예컨대, 화면 터치 또는 버튼 입력 방식에 의해, 입력되어야 한다는 불편함이 존재한다.

통상적으로, 스마트 안경, 스마트 워치, 스마트 폰과 같은 모바일 또는 웨어러블 컴퓨팅 장치는 음성 수신을 위한 오디오 센서 또는 마이크로폰이 장치에 구비된다. 장치 자체가 소형이므로, 통상적으로 사용자는 장치 자체를 사용자의 입 가까이 근접시킨 상태에서 발화하게 된다. 그러므로, 모바일 또는 웨어러블 컴퓨팅 장치에 있어서, 사용자와 장치 사이의 거리, 사용자의 음성 신호의 크기, 장치의 모션 등에 기초한 사용자 컨텍스트를 참조하면, 사용자가 음성 명령을 입력하려는 의도를 가지고 있는지 여부가 판별될 수 있다.

이러한 관점에서, 실시예들은, 별도의 트리거를 위한 과정 없이, 사용자 컨텍스트에 기반하여 음성 명령 인식 장치에서 수신된 음성에 기초하여 음성 명령 인식 기능이 자동 활성화되는 음성 명령 인식 기법을 제공한다. 이를 위해, 실시예들은 수신된 음성으로부터 추출되는 정보에 기초하여 사용자 컨텍스트(user context)를 결정한다. 그리고 결정된 사용자 컨텍스트에 기초하여, 현재 수신된 음성이 사용자의 음성 명령 사용 의도에 따라 발화된 것인지 여부를 판단할 수 있다. 만약 어떤 수신된 음성이 사용자 컨텍스트에 따라 "사용자가 음성 명령을 이용하려는 의도를 가지고 발화한" 음성 명령이라고 판단된다면, 이 수신된 음성은 자동으로 활성화된 음성 명령 인식 프로세스에 의해 처리될 수 있다. 그 결과 인식된 명령은 이 명령이 의도하는 제어 동작을 실행하도록 자동 처리될 수 있다. 만약 어떤 수신된 음성이 사용자 컨텍스트에 따라 사용자가 음성 명령을 이용하려는 의도가 없이 발화된 음성이라고 판단되면, 음성 명령 인식 프로세스는 활성화되지 않는다.

여기서, 사용자 컨텍스트는, 현재 수신된 음성에 관하여 사용자 음성 명령 사용 의도를 판단하기 위해, 장치에 의해 결정되는 사용자의 현재 상황이다. 사용자 컨텍스트는 수신된 음성으로부터 추출되는 정보 및/또는 그 이외에 음성 수신과 동시에 검출된 정보에 기초하여 결정될 수 있다. 예를 들어, 사용자 컨텍스트를 결정하는 정보는, 수신된 음성으로부터 계산되는 사용자의 입과 음성 명령 인식 장치 사이의 거리(즉, 사용자-장치간 거리), 수신된 음성이 미리 한정되어 있는 특정 사용자의 음성인지의 여부, 사용자 음성과 배경 소음 사이의 차이, 장치의 실행중인 애플리케이션 또는 장치의 움직임 등이 포함될 수 있다.

예를 들어 수신된 음성으로부터 사용자-장치간 거리가 계산될 수 있다. 그리고 계산된 거리에 기초하여 사용자 컨텍스트가 결정될 수 있다. 일반적으로 장치와 사용자 사이의 거리가 멀어짐에 따라 음성 인식 정확도가 급격하게 감소한다. 그러므로 음성을 입력하기 위해서는 사용자의 입이 장치에 대해 소정 범위 내의 근접한 위치에 있을 필요가 있다. 그러므로, 실시예들은, 사용자와 장치 사이의 거리를 수신된 음성에 기초하여 계산한다. 그리고 계산된 거리에 기초하여, 사용자가 장치로부터 음성 명령을 입력할 수 있는 근접 거리 내에 있는 상황인지 아닌지를 결정하고, 이에 따라 사용자 의도를 판단할 수 있다.

실시예들에서, 사용자-장치간 거리는, 사용자의 입으로부터 발화된 음성이 음성 명령 인식 장치에 내장된 복수의 오디오 센서(audio sensor, AS)에 도달한 시간에 기초하여 계산될 수 있다. 음성 신호의 도달 시간에 기초한 거리 계산 기법은, 예를 들어 해당 기술 분야에서 알려져 있는 TOA(Time of Arrival), TDOA(Time Difference of Arrival) 등과 같은 도달 시간 또는 도달 시간차를 이용하는 위치 추정 기법을 이용하여 구현될 수 있다.

오디오 센서는 예를 들어 MEMS(Micro Electro Mechanical Systems) 방식으로 제조된 음향 수신 센서일 수 있다. 오디오 센서는 전력 소모를 감소시키기 위한 초-저-전력(Ultra-Low-Power, ULP) 센서일 수 있다. 오디오 센서는 장치 즉 음성 명령 인식 장치에 대해 서로 다른 고정된 위치들에 배치되며, TOA 또는 TDOA 등을 이용하여 거리 계산이 가능한 충분한 수로 구비된다. 오디오 센서들은 음성 명령 인식 장치에 의해 시간적으로 정밀하게 동기화될 수 있다. 이하에서 4개의 오디오 센서(AS)들을 포함하는 음성 명령 인식 장치를 예로 들어 설명되지만, 오디오 센서들의 수는 4개만으로 한정될 필요가 없다. 사용자(즉, 사용자의 입)와 음성 명령 인식 장치(즉, 장치의 중심부) 사이의 거리 계산을 위해 충분한 수 이상의 오디오 센서들이 사용될 수 있다는 것이 자명하다.

사용자와 장치 사이의 거리가 계산되면, 계산된 거리에 기초하여 사용자의 음성 명령 사용 의도가 판단될 수 있다. 예를 들어, 계산된 거리가 소정 문턱값보다 작은 값을 가진다면, 수신된 음성은 "사용자가 음성 명령을 이용하려는 의도를 가지고 발화한" 음성 명령이라고 판단될 수 있다. 만약 계산된 거리가 소정 문턱값보다 크다면, 수신된 음성은 "사용자가 음성 명령을 이용하려는 의도를 가지고 발화한" 음성 명령이 아니라고 판단될 수 있다. 여기서 문턱값은 경험적인 또는 선험적인 거리-음성 인식 정확도 관계에 기초하여 미리 결정될 수 있다. 예를 들어, 특정 장치에 대해 음성 인식 정확도가 90% 이상인 경우 이 장치와 사용자 입 사이의 거리가 50cm 일 때, 문턱값은 50cm로 결정될 수 있다.

다른 예를 들어, 수신된 음성에 기초하여 계산된 사용자-장치간 거리 이외에, 수신된 음성이 특정 사용자의 음성인지 여부가 더 결정될 수 있다. 이 예에서, 수신된 음성으로부터 사용자와 장치 사이의 거리가 계산되기 전, 동시, 또는 이후에, 수신된 음성이 미리 정의되어 있는 특정 사용자의 음성인지 여부가 판단될 수 있다. 특정 사용자의 음성인지 여부는, 특정 사용자가 미리 등록하여 저장한 음성 데이터와 현재 수신된 음성을 비교함으로써 이루어질 수 있다. 특정 사용자와 장치 사이의 거리는 복수의 오디오 센서들에 의해 수신된 음성으로부터 사용자의 입으로부터 오디오 센서들 각각에 도달 시간을 이용하여 계산될 수 있다. 수신된 음성이 미리 정의된 특정 사용자의 음성이라고 판단되면, 계산된 거리에 기초하여 특정 사용자가 장치와 근접한 상태로 말을 하고 있다는 사용자 컨텍스트가 발견될 수 있다. 그리고 이렇게 발견된 사용자 컨텍스트에 의해 특정 사용자가 음성 명령 이용 의도를 가지고 말하고 있다고 결정될 수 있다.

또 다른 예를 들어, 사용자-장치간 거리 이외에, 수신된 음성의 크기가 배경 잡음의 크기보다 소정 문턱값보다 더 큰지 여부가 더 결정될 수 있다. 이 예에서, 수신된 음성으로부터 사용자와 장치 사이의 거리가 계산되기 전, 동시, 또는 이후에, 수신된 음성 신호에 포함되어 있는 배경 잡음이 식별될 수 있다. 그리고 음성 신호의 크기와 배경 잡음의 크기가 비교될 수 있다. 만약 음성 신호가 배경 잡음보다 크지 않다면, 또는 음성 신호의 크기가 배경 잡음의 크기에 비하여 소정 문턱값보다 더 작은 차이를 가진다면, 사용자는 장치를 향해 말하고 있지 않다고 판단될 수 있다. 만약 음성 신호가 배경 잡음보다 크다면, 또는 음성 신호의 크기가 배경 잡음의 크기에 비하여 소정 문턱값보다 더 큰 차이를 가진다면, 사용자는 장치를 향해 말하고 있다고 판단될 수 있다. 그런 다음 사용자와 장치 사이의 거리는 복수의 오디오 센서들에 의해 수신된 음성으로부터 사용자의 입으로부터 오디오 센서들 각각에 도달 시간을 이용하여 계산될 수 있다. 수신된 음성이 배경 잡음에 비하여 소정 문턱값보다 더 크다면, 계산된 거리에 기초하여 특정 사용자가 장치를 향하여 말을 하고 있다는 사용자 컨텍스트가 발견될 수 있다. 그리고 이렇게 발견된 사용자 컨텍스트에 의해 특정 사용자가 음성 명령 이용 의도를 가지고 말하고 있다고 결정될 수 있다.

또 다른 예를 들어, 사용자-장치간 거리 이외에, 장치 동작 정보 및/또는 장치 움직임 정보가 더 검출될 수 있다. 이 예에서, 장치의 애플리케이션 로그 데이터를 조회함으로써 현재 실행되고 있는 애플리케이션의 종류가 파악될 수 있다. 더 나아가 장치에 구비된 가속도 센서, 자이로스코프, GPS 센서 등에 의해 검출되는 데이터에 기초하여 장치의 움직임을 파악할 수 있다. 이러한 장치의 동작이나 움직임에 따라 장치의 사용자의 현재 상황을 결정할 수 있다. 사용자-장치간 거리와 장치 동작/움직임을 포함하는 사용자 컨텍스트에 기초하여 사용자가 음성 명령 이용 의도를 가지고 말하고 있다고 결정될 수 있다.

아래에서 음성 명령 인식 장치 및 방법이 도면들을 참조하여 예시로서 기술된다.

이하 도 1 내지 도 13을 참조하여 음성 명령 인식 장치 및 방법의 실시예들이 기술된다. 도면들을 참조하여 기술된 음성 명령 인식 장치들 및 방법들은 단지 예시에 불과하다. 해당 기술분야의 통상의 지식을 가진 자는, 청구항들의 범위 내에서 다양한 조합의 다른 장치들 및 방법들이 가능하다는 것을 쉽게 이해할 것이다. 음성 명령 인식 장치의 컴포넌트들은, 각각의 기능을 구현하는 회로들을 포함하는 하드웨어에 의해 구현될 수 있다. 또한 실시예들에 따른 음성 명령 인식 장치의 컴포넌트들은, 컴퓨팅 장치의 프로세서에 의해 수행되면 특정 태스크를 실행할 수 있도록 하는 컴퓨터-실행가능 소프트웨어, 펌웨어 및 하드웨어의 조합에 의해 구현될 수도 있다. 실시예들에 따른 음성 명령 인식 방법의 전부 또는 일부는, 컴퓨팅 장치의 프로세서에 의해 수행되면 특정 태스크를 실행할 수 있도록 하는 컴퓨터-실행가능 인스트럭션, 모듈, 소프트웨어, 데이터, 알고리즘, 프로시저, 플러그 인 등으로 구현될 수 있다.

도 1을 참조하면, 음성 명령 인식 장치의 실시예를 보여주는 블록도가 도시된다. 이 실시예에서, 음성 명령 인식 장치는 수신된 음성 등에 기초하여 사용자 컨텍스트를 결정하고 이로부터 사용자 의도를 판단함으로써, 음성 명령 인식 기능을 활성화할 수 있다. 도시된 예에서와 같이, 음성 명령 인식 장치(10)는 감지부(11), 컨텍스트 판단부(13), 명령 인식부(15), 명령 실행부(19), 및 명령 컨텍스트 저장부(17) 등의 컴포넌트들을 포함하여 구성될 수 있다.

감지부(11)는 일 예에서 복수의 오디오 센서를 포함할 수 있다. 복수의 오디오 센서는 장치 내의 서로 다른 고정 위치들에 배치되며, 장치의 제어부에 의해 시간 동기화될 수 있다. 복수의 오디오 센서는 음성 명령 인식 기능이 비활성화된 상태 즉 대기 상태에서도 항상 장치 주변의 음향을 수신할 수 있다. 전력 소모를 절감시키기 위해 ULP 타입의 오디오 센서가 사용될 수 있다. 복수의 오디오 센서에서 수신된 음향 신호는, 신호의 세기가 소정 기준값보다 큰 지 아닌지, 사람의 음성과 유사한 패턴을 가지고 있는지 아닌지 등과 같은 기본적인 판단을 거칠 수 있다. 이에 따라 소정 세기 이상의 사람의 음성 신호라고 판단된 경우, 복수의 오디오 센서로 도달한 시간에 따라 발화자와 장치 사이의 거리가 계산될 수 있다.

다른 예에서 감지부(11)는 장치의 움직임을 감지하는 모션 센서를 포함할 수 있다. 모션 센서는 GPS 센서, 가속도 센서, 자이로스코프 등과 같은 센서들을 이용하여 장치의 위치, 움직이는 속도, 회전 방향, 기울기 등을 감지할 수 있다. 장치의 움직임은, 사용자가 걷고 있는지, 뛰고 있는지, 차량에 탑승한 상태인지, 장치를 손으로 들고 있는 상태인지, 장치를 착용한 손을 굽힌 상태인지 등의 다양한 상황을 추정할 수 있게 한다. 모션 센서에 의해 감지되는 장치의 움직임은 음성이 수신된 때에 검출될 수 있다.

또 다른 예에서, 감지부(11)는 장치의 동작 상태를 감지하는 이벤트 감지부일 수 있다. 이벤트 감지부는 장치에 어떤 종류의 데이터가 입출력되고 있는지, 장치가 실행중인 애플리케이션은 어떤 종류의 것인지, 장치가 전화 통신 중인지, 데이터 통신 중인지 등의 다양한 동작을 감지할 수 있다. 이벤트 감지부에 의해 검출되는 장치의 동작은 음성이 수신된 때에 검출될 수 있다.

컨텍스트 판단부(13)는 감지부(11)에 의해 감지된 사용자-장치간 거리, 장치의 움직임, 장치의 동작 등에 기초하여 사용자 컨텍스트를 결정한다. 예를 들어, 사용자가 장치를 손에 들고 입에 근접시킨 후 음성을 발화하고 있는 상태인지 아닌지, 특정 사용자 이외에 다른 발화자가 장치 주변에 근접한 상태에서 발화하고 있는 상태인지 아닌지, 사용자가 차량에 탑승하여 운전하고 있는 상태인지 아닌지, 사용자가 손목에 착용한 장치를 입 근처로 들어올려 말하고 있는 상태인지 아닌지 등의 사용자 컨텍스트가 결정될 수 있다. 사용자 컨텍스트가 결정되면, 결정된 사용자 컨텍스트에 따라 사용자의 의도가 판단될 수 있다. 즉, 사용자가 장치를 제어하기 위해 음성 명령을 입력하려는 의도를 가지고 있는지 아닌지가 판단될 수 있다. 이에 따라 만약 사용자가 음성 명령 입력 의도를 가지고 있다고 판단되면, 컨텍스트 판단부(13)는 명령 인식부(15)를 활성화시킬 수 있다. 만약 사용자가 음성 명령 입력 의도를 가지고 있지 않다고 판단되면, 컨텍스트 판단부(13)는 대기 상태인 명령 인식부(15)를 유지시킨다.

명령 인식부(15)는 컨텍스트 판단부(13)에 의해 활성화되면, 현재 수신된 음성이 어떤 음성 명령인지를 인식하는 프로세스를 진행시킨다. 여기서 '현재 수신된 음성'이란 컨텍스트 판단부(13)에 의해 사용자가 음성 명령을 입력하려는 의도를 가지고 있다고 판단된 현재 수신된 음성을 의미한다. 이후, 소정 시간 간격 내에 후속 음성이 입력되지 않으면, 명령 인식부(15)는 자동으로 비활성화되어 컨텍스트 판단부(13)에 의해 활성화될 때까지 대기 상태로 유지될 수 있다. 명령 실행부(19)는 명령 인식부(15)에 의해 인식된 음성 명령에 따라 장치의 기능을 제어한다.

한편, 명령 인식부(15)에 의해 인식된 음성 명령과 관련된 사용자 컨텍스트 정보는 명령 컨텍스트 저장부(17)에 누적하여 저장될 수 있다. 이러한 누적 정보는 이후 컨텍스트 판단부(13)에서 다음 음성에 대한 사용자 컨텍스트를 결정하고 사용자 의도를 판단할 때 보조 데이터로서 이용될 수 있다.

도 2를 참조하면, 음성 명령 인식 장치의 실시예를 보여주는 블록도가 도시된다. 이 실시예에서, 음성 명령 인식 장치는 사용자-장치간 거리에 기초하여 사용자 의도를 판단함으로써 음성 명령 인식 기능을 활성화할 수 있다. 도시된 예에서, 음성 명령 인식 장치(20)는 오디오센서(AS)들(21, 22, 23, 24), 거리 계산부(25), 명령 인식부(26), 및 명령 실행부(27) 등의 컴포넌트들을 포함하여 구성될 수 있다.

오디오센서(AS)들(21, 22, 23, 24)은 장치(20)의 서로 다른 고정 위치들에 배치되며 장치 내의 다른 컴포넌트들과 시간 동기화된다. 이들 오디오 센서(AS)는 ULP 타입의 오디오 센서로서, 대기 상태에서도 항상 음성을 수신할 수 있다.

거리 계산부(25)는 수신된 음성에 대하여, 각각의 오디오 센서에 음성 이 도달한 시간 또는 시간차에 따라 발화자와 장치 사이의 거리를 계산할 수 있다. 그런 다음, 계산된 사용자-장치가 거리에 기초하여, 사용자가 장치와 어떤 위치관계에서 음성을 발화하고 있는 상태인지를 결정할 수 있다. 사용자 상태가 결정되면, 결정된 사용자 상태에 따라 사용자의 의도가 판단될 수 있다. 즉, 사용자가 장치를 제어하기 위해 음성 명령을 입력하려는 의도를 가지고 있는지 아닌지가 판단될 수 있다. 이에 따라 만약 사용자가 음성 명령 입력 의도를 가지고 있다고 판단되면, 거리 계산부(25)는 명령 인식부(26)를 활성화시킬 수 있다.

명령 인식부(26)는 거리 계산부(25)에 의해 활성화되면, 현재 수신된 음성이 어떤 음성 명령인지를 인식하는 프로세스를 진행시킨다. 이후, 소정 시간 간격 내에 후속 음성이 입력되지 않으면, 명령 인식부(26)는 자동으로 비활성화되어 거리 계산부(25)에 의해 활성화될 때까지 대기 상태로 유지될 수 있다. 명령 실행부(27)는 명령 인식부(26)에 의해 인식된 음성 명령에 따라 장치의 기능을 제어한다.

이 예에서, 대기 상태일 때는 오디오 센서들(21-24) 만이 활성화되고, 나머지 컴포넌트들은 비활성화된 상태로 유지될 수 있다. 만약 오디오 센서들(21-24)에 의해 인식 가능성이 있는 사람의 음성이 수신되면, 거리 계산부(25)가 자동 활성화되어 거리가 계산될 수 있다. 그런 다음에, 계산된 거리가 소정 문턱값보다 작은 경우에만 명령 인식부(26)가 활성화될 수 있다. 이에 따라, 대기 상태에서 별도의 트리거 명령을 사용하지 않고 직접 음성 명령을 인식하는 장치가 제공된다.

도 3을 참조하면, 도 2의 음성 명령 인식 장치의 구현예를 개략적으로 보여주는 도면이 도시된다. 도시된 예에서, 사용자(U)는 모바일 단말(S)을 손에 들고 사용자 입에 근접시킨 후, 별도의 트리거 명령없이, 음성 명령을 입력할 수 있다. 이 예에서, 모바일 단말(S)에는 디스플레이(D)의 모서리 근처 위치들에 오디오 센서(AS)들이 배치되어 있다. 도시된 배치 형태는 단지 예시에 불과하며, 복수의 오디오 센서들의 수와 배치 위치들은 다양한 조합이 가능하다는 점은 자명하다. 이들 오디오 센서(AS)에 의해 수신된 음성 신호를 도달시간에 기초한 위치 추적 기술을 이용하여 처리함으로써, 모바일 단말(S)은 사용자(U)의 입과 모바일 단말(S)의 중심 사이의 거리, 즉 사용자-장치간 거리를 추정할 수 있다. 추정된 사용자-장치간 거리가 미리 설정되어 있는 기준 거리보다 짧다면 모바일 단말(S)은 사용자(U)가 음성 명령을 입력하려는 의도를 가지고 있다고 판단할 수 있다. 이러한 판단에 따라, 모바일 단말(S)은 오디오 센서들(AS)에 의해 수신된 음성에 대해 음성 명령을 인식하기 위해, 별도의 트리거 명령 없이, 음성 명령 인식 프로세스를 자동으로 활성화시킬 수 있다. 그 결과, 모바일 단말(S)은 사용자가 입력한 음성 명령을 별도의 트리거 명령 없이 직접 인식하여 실행시킬 수 있다.

도 4를 참조하면, 음성 명령 인식 방법의 실시예를 보여주는 흐름도가 도시된다. 이 실시예에서 음성 명령 인식 방법은 사용자-장치간 거리에 기초하여 사용자 의도를 판단할 수 있다.

도시된 예에서, 음성 명령 인식 방법(400)는 음성 명령 인식 프로세스가 비활성화되어 있는 대기 단계(401)로부터 시작한다. 이 대기 단계(401)에서, 음성 수신을 위한 복수의 센서들은 항상 음성 수신 상태로 유지될 수 있다. 대기 단계(401)에서 복수의 음성 수신 센서들이 동작 상태를 유지해야 하므로 전력 소모가 작게 설계된 ULP 센서들이 이용될 수 있다.

사용자가 음성을 발화하면, 복수의 위치에 고정되어 있는 센서들에 의해 음성이 거의 동시에 수신될 수 있다(403). 복수의 센서들은 서로 다른 위치에 배치되므로, 사용자의 음성은 근소한 시간차를 가지고 각각의 센서들에서 수신될 수 있다. 그러면, 그 다음 단계(405)에서, 이러한 근소한 시간차에 기초하여 음원의 위치(예컨대, 사용자 입의 위치)와 센서들의 무게중심의 위치(예컨대, 장치의 중심의 위치) 사이의 거리가 추정 또는 계산될 수 있다.

계산된 또는 추정된 거리는 소정 문턱값보다 작은지 여부가 판단될 수 있다(407). 일반적으로 음성 인식 기술에 있어서, 사용자와 장치 사이의 거리에 따라 음성 인식 정확도가 크게 달라질 수 있다. 특정 장치에 대해서, 음성 명령을 인식하기에 충분한 인식 정확도를 가지는 거리가 미리 문턱값으로서 결정될 수 있다.

만약 사용자-장치간 거리가 문턱값보다 작다면(407의 예), 사용자는 음성 명령을 입력할 의도를 가지고 있다고 판단될 수 있다. 이에 따라 현재 수신된 음성으로부터 명령을 인식하는 프로세스가 활성화되어 수행될 수 있다(409). 뒤이어 인식된 명령이 수행될 수 있다(411). 반면에, 만약 사용자-장치간 거리가 문턱값보다 크다면(407의 아니오), 사용자는 음성 명령을 입력할 의도를 가지고 있지 않다고 판단될 수 있고, 이에 따라 프로세스는 그 다음 음성을 수신하기 위해 대기하는 상태(401)로 복귀한다.

이제 도 5를 참조하면, 음성 명령 인식 장치의 다른 실시예를 보여주는 블록도가 도시된다. 이 실시예에서, 음성 명령 인식 장치는 사용자-장치간 거리에 기초하여 특정 사용자 의도를 판단함으로써 음성 명령 인식 기능을 활성화할 수 있다. 도시된 음성 명령 인식 장치(50)는 오디오센서(AS)들(51, 52, 53, 54), 사용자 인식부(55), 거리 계산부(56), 명령 인식부(57), 및 명령 실행부(58) 등의 컴포넌트들을 포함하여 구성될 수 있다. 이 장치(50)의 컴포넌트들은 도 2에 도시된 장치(20)의 대응하는 컴포넌트들과 유사하며, 사용자 인식부(55)를 더 포함한다는 점에서만 다르다.

사용자 인식부(55)는 오디오센서(AS)들(51, 52, 53, 54)에서 수신된 음성이 특정 사용자의 음성인지 아닌지를 판단하는 컴포넌트이다. 특정 사용자는 자신의 음성이 아닌 제3자에 의해 장치가 제어되는 것을 방지하기 위하여, 자신의 음성을 미리 등록시킬 수 있다. 이 경우, 장치(50)는 특정 사용자가 미리 저장시켜놓은 음성 데이터를 구비한다. 사용자 인식부(55)는 수신된 음성과 저장되어 있는 음성 데이터를 비교함으로써 수신된 음성이 특정 사용자의 음성인지 여부를 판단할 수 있다.

오디오 센서들(51-54)에 의해 수신된 음성이 특정 사용자의 것이라고 판단되면, 거리 계산부(56)가 비활성화 상태에서 활성화 상태로 자동 전환될 수 있다. 그러면, 거리 계산부(56)에 의해 거리가 계산될 수 있고, 계산된 거리에 기초하여 명령 인식부(57)가 활성화될 수 있다. 이후 명령 인식부(57)에 의해 인식된 명령은 명령 실행부(58)에 의해 실행될 수 있다.

이 예에서, 대기 상태일 때는 오디오 센서들(51-54) 만이 활성화되고, 나머지 컴포넌트들은 비활성화된 상태로 유지될 수 있다. 만약 오디오 센서들(51-54)에 의해 인식 가능성이 있는 사람의 음성이 수신되면, 사용자 인식부(55)가 자동 활성화되어, 수신된 사람의 음성이 미리 저장되어 있는 특정 사용자의 음성인지 여부가 판단될 수 있다. 이후 특정 사용자의 음성이라고 판단된 경우에만, 거리 계산부(56)가 자동 활성화되어 거리가 계산될 수 있다. 그런 다음에, 계산된 거리가 소정 문턱값보다 작은 경우에만 명령 인식부(57)가 활성화될 수 있다. 이에 따라, 대기 상태에서 별도의 트리거 명령을 사용하지 않고 특정 사용자에 의한 음성 명령을 직접 인식하는 장치가 제공된다.

도 6을 참조하면, 도 5의 음성 명령 인식 장치의 구현예를 개략적으로 보여주는 도면이 도시된다. 도시된 예에서, 다수의 사용자들(U1, U2, U3)이 모바일 단말(S)의 근접 범위 내에서 대화를 하고 있는 상황을 볼 수 있다. 한 사용자(U1)가 별도의 트리거 명령없이, 모바일 단말(S)을 향하여 음성 명령을 발화할 수 있다. 모바일 단말(S)은 오디오 센서(AS)들에 의해 수신된 음성을 미리 저장되어 있는 음성 데이터와 비교함으로써, 현재 음성을 발화한 사용자(U1)가 미리 등록된 사용자인지 여부를 판단할 수 있다. 그 결과 사용자(U1)가 미리 등록된 사용자라고 판단되면, 모바일 단말(S)은 수신된 음성이 오디오 센서들로 도달한 시간을 이용하여 사용자-장치간 거리를 추정함으로써, 음성 명령 인식 프로세스를 활성화할 수 있다. 이와 같이, 모바일 단말(S)은 다수의 사용자가 모바일 단말(S)에 근접한 거리에서 음성을 발화한 경우에도, 미리 지정한 사용자의 음성 명령만을 별도의 트리거 명령 없이 직접 인식하여 실행시킬 수 있다.

도 7을 참조하면, 음성 명령 인식 방법의 다른 실시예를 보여주는 흐름도가 도시된다. 이 실시예에서 음성 명령 인식 방법은 사용자-장치간 거리에 기초하여 미리 등록된 특정 사용자 의도를 판단할 수 있다. 도시된 예에서, 음성 명령 인식 방법(700)는 음성 명령 인식 프로세스가 비활성화되어 있는 대기 단계(701)로부터 시작한다.

사용자가 음성을 발화하면, 복수의 위치에 고정되어 있는 센서들에 의해 음성이 거의 동시에 수신될 수 있다(703). 복수의 센서들은 서로 다른 위치에 배치되므로, 사용자의 음성은 근소한 시간차를 가지고 각각의 센서들에서 수신될 수 있다. 그러면 그 다음 단계(705)에서, 수신된 음성이 미리 등록되어 저장되어 있는 사용자의 음성 데이터와 비교된다. 만약 수신된 음성이 미리 등록된 사용자의 음성이라면(707의 예), 수신된 음성으로부터 사용자-장치간 거리가 계산된다(709). 만약 수신된 음성이 미리 등록된 사용자의 음성이 아니라면(707의 아니오), 처음의 대기 단계(701)로 복귀하여 그 다음 음성의 수신을 기다린다.

단계(709)에서 계산된 또는 추정된 거리는 소정 문턱값보다 작은지 여부가 판단될 수 있다(711). 만약 사용자-장치간 거리가 문턱값보다 작다면(711의 예), 사용자는 음성 명령을 입력할 의도를 가지고 있다고 판단될 수 있다. 이에 따라 현재 수신된 음성으로부터 명령을 인식하는 프로세스가 활성화되어 수행될 수 있다(713). 뒤이어 인식된 명령이 수행될 수 있다(715). 반면에, 만약 사용자-장치간 거리가 문턱값보다 크다면(711의 아니오), 사용자는 음성 명령을 입력할 의도를 가지고 있지 않다고 판단될 수 있고, 이에 따라 프로세스는 그 다음 음성을 수신하기 위해 대기하는 상태(701)로 복귀한다.

이제 도 8을 참조하면, 음성 명령 인식 장치의 또 다른 실시예를 보여주는 블록도가 도시된다. 이 실시예에서, 음성 명령 인식 장치는 사용자-장치간 거리뿐만 아니라 수신된 음성과 배경잡음과의 비교 결과에 기초하여 특정 사용자 의도를 판단함으로써 음성 명령 인식 기능을 활성화할 수 있다. 도시된 음성 명령 인식 장치(80)는 오디오센서(AS)들(81, 82, 83, 84), 거리 계산부(85), 배경잡음 비교부(86), 명령 인식부(87), 및 명령 실행부(88) 등의 컴포넌트들을 포함하여 구성될 수 있다. 이 장치(80)의 컴포넌트들은 도 2에 도시된 장치(20)의 대응하는 컴포넌트들과 유사하며, 배경잡음 비교부(86)를 더 포함한다는 점에서만 다르다.

예컨대 사용자가 자신의 장치(80)을 근처에 놓아둔 상태로 운전을 하고 있거나 사무실에서 데스크탑 컴퓨터를 이용해 문서작업을 하면서, 장치(80)에게 특정 정보를 출력하라는 음성 명령을 입력할 수 있다. 이 경우, 장치(80)는 사용자-장치간 거리뿐만 아니라, 사용자가 장치(80)를 향하여 발화하고 있음을 결정함으로써, 수신된 음성이 음성 명령이라고 판단할 수 있다. 도시된 예에서, 한편으로 거리 계산부(85)는 복수의 오디오센서(AS)들(81, 82, 83, 84)에서 수신된 음성으로부터 사용자-장치간 거리를 계산하고, 다른 한편으로 배경잡음 비교부(86)는 오디오센서(AS)들(81, 82, 83, 84)에서 수신된 음성으로부터 사용자가 장치(80)를 향하여 발화하고 있는지를 판단한다. 예를 들어, 배경잡음 비교부(86)는, 수신된 음성의 세기를 이 음성과 함께 수신된 배경잡음의 세기와 서로 비교할 수 있다. 이를 위해 배경잡음 비교부(86)는 수신된 음성의 신호대잡음비(SNR, signal-to-noise ratio)를 추출할 수 있다.

오디오 센서들(81-84)에 의해 수신된 음성의 SNR이 소정 문턱값보다 크고(즉, 배경잡음이 작고 음성이 큰 경우), 사용자-장치간 거리가 소정 문턱값보다 작다면(즉, 사용자와 장치 사이가 충분히 근접한 경우), 명령 인식부(87)가 활성화될 수 있다. 이후 명령 인식부(57)에 의해 인식된 명령은 명령 실행부(88)에 의해 실행될 수 있다.

이 예에서, 대기 상태일 때는 오디오 센서들(81-84) 만이 활성화되고, 나머지 컴포넌트들은 비활성화된 상태로 유지될 수 있다. 만약 오디오 센서들(81-84)에 의해 인식 가능성이 있는 사람의 음성이 수신되면, 거리 계산부(85) 또는 배경잡음 비교부(86) 중 어느 하나가 자동 활성화되어, 수신된 사람의 음성으로부터 계산되는 사용자-장치간 거리 또는 신호대잡음비가 미리 설정된 기준값에 비교된다. 그런 다음, 사용자-장치간 거리가 충분히 짧고 동시에 신호대잡음비가 충분히 큰 경우에만 명령 인식부(87)가 활성화될 수 있다. 이에 따라, 대기 상태에서 별도의 트리거 명령을 사용하지 않고 특정 사용자에 의한 음성 명령을 직접 인식하는 장치가 제공된다.

도 9을 참조하면, 도 8의 음성 명령 인식 장치의 구현예를 개략적으로 보여주는 도면이 도시된다. 도시된 예에서, 사용자(U)가 모바일 단말(S)을 근처에 놓아 둔 채 운전을 하고 있는 상황을 볼 수 있다. 예를 들어, 사용자(U)는 주변에 갈만한 음식점을 찾고 있는 중일 수 있다. 이 경우, 사용자는 별도의 트리거 명령없이, 모바일 단말(S)을 향하여 주변 음식점을 검색하여 출력하라는 음성 명령을 발화할 수 있다. 모바일 단말(S)은 오디오 센서(AS)들에 의해 수신된 음성으로부터 사용자-장치간 거리를 계산하고 SNR을 추출할 수 있다. 모바일 단말(S)은 사용자-장치간 거리 및 SNR로부터 현재 음성을 발화한 사용자(U)가 음성 명령을 입력하려는 것임을 판단할 수 있고, 음성 명령 인식 프로세스를 활성화할 수 있다. 이와 같이, 모바일 단말(S)은 사용자(S)가 모바일 단말(S)에 근접한 거리에서 모바일 단말(S)을 향하여 발화한 경우를 판단함으로써, 별도의 트리거 명령 없이 직접 사용자 음성으로부터 명령을 인식하여 실행시킬 수 있다.

도 10을 참조하면, 음성 명령 인식 방법의 또 다른 실시예를 보여주는 흐름도가 도시된다. 이 실시예에서 음성 명령 인식 방법은 사용자-장치간 거리 및 음성과 배경잡음의 차이에 기초하여 사용자 의도를 판단할 수 있다. 도시된 예에서, 음성 명령 인식 방법(1000)는 음성 명령 인식 프로세스가 비활성화되어 있는 대기 단계(1001)로부터 시작한다. 이 대기 단계(1001)에서, 음성 수신을 위한 복수의 센서들은 항상 음성 수신 상태로 유지될 수 있다.

사용자가 음성을 발화하면, 복수의 위치에 고정되어 있는 센서들에 의해 음성이 거의 동시에 수신될 수 있다(1003). 이후, 수신된 음성으로부터 사용자-장치간 거리가 계산된다(1005). 사용자-장치간 거리가 소정 문턱값보다 작다면(1007의 예), 음성과 배경잡음 차이가 계산된다(1009). 만약 사용자-장치간 거리가 소정 문턱값보다 크다면(1007의 아니오), 처음의 대기 단계(1001)로 복귀하여 그 다음 음성의 수신을 기다린다.

단계(1009)에서 계산된 음성과 배경잡음 차이(예컨대, SNR)는 소정 문턱값보다 큰지 여부가 판단될 수 있다(1011). 만약 SNR이 문턱값보다 크다면(1011의 예), 사용자는 음성 명령을 입력할 의도를 가지고 있다고 판단될 수 있다. 이에 따라 현재 수신된 음성으로부터 명령을 인식하는 프로세스가 활성화되어 수행될 수 있다(1013). 뒤이어 인식된 명령이 수행될 수 있다(1015). 반면에, 만약 SNR이 문턱값보다 작다면(1011의 아니오), 사용자는 음성 명령을 입력할 의도를 가지고 있지 않다고 판단될 수 있고, 이에 따라 프로세스는 그 다음 음성을 수신하기 위해 대기하는 상태(1001)로 복귀한다.

이제 도 11을 참조하면, 음성 명령 인식 장치의 또 다른 실시예를 보여주는 블록도가 도시된다. 이 실시예에서, 음성 명령 인식 장치는 사용자-장치간 거리뿐만 아니라 사용자 행동 및 동작에 기초하여 특정 사용자 의도를 판단함으로써 음성 명령 인식 기능을 활성화할 수 있다. 도시된 음성 명령 인식 장치(110)는 오디오센서(AS)들(111, 112, 113, 114), 거리 계산부(115), 모션센서(116), 행동 인식부(117), 이벤트 감지부(118), 기기동작 인식부(119), 컨텍스트 인식부(120), 명령 인식부(121), 및 명령 실행부(122) 등의 컴포넌트들을 포함하여 구성될 수 있다. 이 장치(110)의 컴포넌트들은 도 2에 도시된 장치(20)의 대응하는 컴포넌트들과 유사하며, 모션센서(116), 행동 인식부(117), 이벤트 감지부(118), 기기동작 인식부(119), 컨텍스트 인식부(120)를 더 포함한다는 점에서 다르다.

도시된 예에서, 한편으로 거리 계산부(115)는 복수의 오디오센서(AS)들(111, 112, 113, 114)에서 수신된 음성으로부터 사용자-장치간 거리를 계산한다. 다른 한편으로 행동 인식부(117)는 모션센서(116)에 의해 검출된 장치의 움직임으로부터 사용자의 행동을 인식한다. 또 다른 한편으로 기기동작 인식부(119)는 이벤트 감지부(118)에 의해 검출된 장치 내에서 이루어지는 이벤트로부터 장치의 동작을 인식한다. 그리고, 컨텍스트 인식부(120)는 거리 계산부(115)에 의해 산출된 사용자-장치간 거리와, 행동인식부(117)에 의해 추정된 사용자 행동과, 기기동작 인식부(119)에 의해 인식된 장치의 동작을 통합함으로써 사용자의 상황을 인식할 수 있다.

예를 들어, 컨텍스트 인식부(120)는, 사용자-장치간 거리가 충분히 가깝고, 사용자가 장치를 움직이는 행동이 음성 명령 입력을 위한 행동에서 크게 벗어나지 않으며, 장치의 동작으로 볼 때 사용자가 음성 명령을 이용할 수 있는 상황이라는 것으로 판단할 수 있다. 이런 경우, 컨텍스트 인식부(120)는 명령 인식부(121)를 활성화시킬 수 있고, 이후 명령 인식부(121)에 의해 인식된 명령은 명령 실행부(122)에 의해 실행될 수 있다.

이 예에서, 대기 상태일 때는 오디오 센서들(111-114) 만이 활성화되고, 나머지 컴포넌트들은 비활성화된 상태로 유지될 수 있다. 만약 오디오 센서들(111-114)에 의해 인식 가능성이 있는 사람의 음성이 수신되면, 거리 계산부(115), 행동 인식부(117), 및 기기 동작 인식부(119) 중 어느 하나가 자동 활성화될 수 있다. 그런 다음, 컨텍스트 인식부(120)는 사용자-장치간 거리가 충분히 짧고 동시에 사용자 행동과 장치의 동작이 음성 명령을 이용할 수 있는 상황인 경우에만 명령 인식부(121)를 활성화시킬 수 있다. 이에 따라, 대기 상태에서 별도의 트리거 명령을 사용하지 않고, 수신된 음성, 사용자 행동, 장치의 동작에 기초하여 음성 명령을 직접 인식하는 장치가 제공된다.

도 12를 참조하면, 도 11의 음성 명령 인식 장치의 구현예를 개략적으로 보여주는 도면이 도시된다. 도시된 예에서, 사용자(U)가 스마트 워치(SW)을 착용한 팔을 얼굴 근처로 들어올리는 상황을 볼 수 있다. 이 경우, 사용자는 별도의 트리거 명령없이, 스마트 워치(SW)를 향하여 문자 메시지가 온 것이 있는지 찾으라는 음성 명령을 발화할 수 있다. 스마트 워치(SW)은 내장된 복수의 오디오 센서들에 의해 수신된 음성으로부터 사용자-장치간 거리를 계산하고, 모션 센서에 의해 사용자가 팔을 들어 올리고 있음을 인식하고, 장치에서 실행되는 애플리케이션 등을 검출하여 장치의 동작을 인식할 수 있다. 그런 다음 현재 수신된 사용자의 음성은 사용자(U)가 음성 명령을 입력하려는 것임을 판단할 수 있고, 음성 명령 인식 프로세스를 활성화할 수 있다.

도 13을 참조하면, 음성 명령 인식 방법의 또 다른 실시예를 보여주는 흐름도가 도시된다. 이 실시예에서 음성 명령 인식 방법은 사용자-장치간 거리 및 사용자 행동 및/또는 장치의 동작에 기초하여 사용자 의도를 판단할 수 있다. 도시된 예에서, 음성 명령 인식 방법(1300)는 음성 명령 인식 프로세스가 비활성화되어 있는 대기 단계(1301)로부터 시작한다. 이 대기 단계(1301)에서, 음성 수신을 위한 복수의 센서들은 항상 음성 수신 상태로 유지될 수 있다.

사용자가 음성을 발화하면, 복수의 위치에 고정되어 있는 센서들에 의해 음성이 거의 동시에 수신될 수 있다(1303). 이후, 수신된 음성으로부터 사용자-장치간 거리가 계산된다(1305). 사용자-장치간 거리가 소정 문턱값보다 작다면(1307의 예), 사용자 행동 및/또는 장치의 이벤트가 감지된다(1309). 만약 사용자-장치간 거리가 소정 문턱값보다 크다면(1307의 아니오), 처음의 대기 단계(1001)로 복귀하여 그 다음 음성의 수신을 기다린다.

단계(1309)에서 인식된 사용자 행동 및/또는 장치의 동작에 기초하여 사용자 컨텍스트가 인식될 수 있다(1311). 인식된 사용자 컨텍스트에 의해 사용자가 음성 명령을 입력할 의도를 가지고 있다고 판단되면(1313의 예), 현재 수신된 음성으로부터 명령을 인식하는 프로세스가 활성화되어 수행될 수 있다(1315). 뒤이어 인식된 명령이 수행될 수 있다(1317). 반면에, 인식된 사용자 컨텍스트에 의해 사용자가 음성 명령을 입력할 의도를 가지고 있지 않다고 판단되면(1313의 아니오), 사용자는 음성 명령을 입력할 의도를 가지고 있지 않다고 판단될 수 있고, 이에 따라 프로세스는 그 다음 음성을 수신하기 위해 대기하는 상태(1301)로 복귀한다.

위에서 도 1 내지 도 13을 참조하여, 사용자-장치간 거리 등을 포함하는 사용자 컨텍스트에 기초하여 사용자의 의도를 판단하고 음성 명령 인식을 활성화하는 실시예들이 기술되었다. 비록 기술된 실시예들에서, 복수의 오디오 센서들을 내장하는 모바일 단말, 웨어러블 단말을 음성 명령 인식 장치의 예로 들고 있지만, 기술된 실시예들이 모바일/웨어러블 단말로만 제한되는 것은 아니다. 실시예들에 따른 음성 명령 인식 장치에는, 사용자로부터 음성을 수신할 수 있고, 관련 센서들을 구비하며, 신호 처리를 위한 프로세 및 메모리 등을 포함하는 장치라면 제한 없이 포함될 수 있다. 예를 들어, 모바일 장치, 웨어러블 장치, 컴퓨팅 장치, 오디오 기기, 텔레비전, 데스크탑, 태블릿PC, 노트북, 셋탑박스, 게임 콘솔, 에어컨 등의 다양한 장치들이 포함될 수 있다.

상술한 음성 명령 인식 장치의 컴포넌트들은 특정 기능을 수행하도록 구성된 회로를 포함하는 하드웨어에 의해 구현될 수 있다. 다른 방식으로, 음성 명령 인식 장치의 컴포넌트들은 프로세서, 메모리, 사용자 입력장치, 및/또는 프레젠테이션 장치 등을 포함할 수 있는 컴퓨팅 장치의 하드웨어, 펌웨어, 소프트웨어 컴포넌트들의 조합에 의해 구현될 수 있다. 메모리는, 프로세서에 의해 실행되면 특정 태스크를 수행할 있도록 코딩되어 있는 컴퓨터 실행가능 소프트웨어, 애플리케이션, 프로그램 모듈, 루틴, 인스트럭션(instructions), 및/또는 데이터 등을 저장하는 컴퓨터 판독가능 스토리지 매체이다. 프로세서는 컴퓨터 판독가능 매체에 포함되어 있는 컴퓨터 실행가능 소프트웨어, 애플리케이션, 프로그램 모듈, 루틴, 인스트럭션, 및/또는 데이터 등을 판독하여 실행할 수 있다. 사용자 입력장치는 사용자로 하여금 프로세서에게 특정 태스크를 실행하도록 하는 명령을 입력하거나 특정 태스크의 실행에 필요한 데이터를 입력하도록 하는 수단일 수 있다. 사용자 입력장치는 물리적인 또는 가상적인 키보드나 키패드, 키버튼, 마우스, 조이스틱, 트랙볼, 터치-민감형 입력수단, 또는 마이크로폰 등을 포함할 수 있다. 프레젠테이션 장치는 디스플레이, 프린터, 스피커, 또는 진동장치 등을 포함할 수 있다.

한편 상술한 음성 명령 인식 방법의 단계, 과정, 프로세스들은 특정 기능을 수행하도록 구성된 회로를 포함하는 하드웨어에 의해 실행될 수 있다. 다른 방식으로, 음성 명령 인식 방법은, 컴퓨터 실행가능 인스트럭션으로서 코딩되어 컴퓨팅 장치의 프로세서에 의해 실행됨으로써 구현될 수 있다. 컴퓨터 실행가능 인스트럭션은 소프트웨어, 애플리케이션, 모듈, 프로시저, 플러그인, 프로그램, 인스트럭션, 및/또는 데이터 구조 등을 포함할 수 있다. 컴퓨터 실행가능 인스트럭션은 컴퓨터 판독가능 매체 상에 포함될 수 있다. 컴퓨터 판독가능 매체는 컴퓨터 판독가능 스토리지 매체 및 컴퓨터 판독가능 통신 매체를 포함한다. 컴퓨터 판독가능 스토리지 매체는 RAM, ROM, 플래시 메모리, 광 디스크, 자기 디스크, 자기 테이프, 자기 카세트, 하드 디스크, 솔리드 스테이트 디스크 등을 포함할 수 있다. 컴퓨터 판독가능 통신 매체는 진단 방법이 코딩되어 있는 컴퓨터 실행가능 인스트럭션이 통신망을 통해 송수신 가능한 신호의 형태로 코딩된 것을 의미할 수 있다.

10: 음성 명령 인식 장치
11: 감지부
13: 컨텍스트 판단부
15: 명령 인식부
17: 명령 실행부
19: 명령 컨텍스트

Claims (14)

  1. 서로 다른 위치들에 배치되는 복수의 오디오 센서들과;
    상기 오디오 센서들로부터 수신된 음성으로부터, 상기 음성을 발화한 사용자의 상황을 포함하는 사용자 컨텍스트를 결정하는 컨텍스트 판단부와;
    상기 사용자 컨텍스트에 기초하여, 상기 음성으로부터 미리 설정된 명령을 인식하도록 활성화되거나 또는 비활성화된 상태로 유지되는 명령 인식부를
    포함하는, 음성 명령 인식 장치.
  2. 제 1 항에 있어서,
    상기 컨텍스트 판단부는, 상기 음성이 상기 오디오 센서들 각각에 도달한 도달시간에 기초하여, 상기 음성을 발화한 사용자와 사이의 거리를 계산하는 거리 계산부를 포함하고,
    상기 명령 인식부는, 상기 거리에 기초하여, 상기 음성으로부터 미리 설정된 명령을 인식하도록 활성화되거나 또는 비활성화된 상태로 유지되는,
    음성 명령 인식 장치.
  3. 제 1 항에 있어서,
    상기 컨텍스트 판단부는,
    상기 음성이 미리 저장된 특정 사용자에 의해 발화된 것인지 여부를 판단하는 사용자 인식부, 및 상기 음성이 상기 특정 사용자에 의해 발화된 것이라고 판단되는 경우, 상기 음성이 상기 오디오 센서들 각각에 도달한 도달시간에 기초하여, 상기 음성을 발화한 사용자와 사이의 거리를 계산하는 거리 계산부를 포함하고,
    상기 명령 인식부는, 상기 거리에 기초하여, 상기 음성으로부터 미리 설정된 명령을 인식하도록 활성화되거나 또는 비활성화된 상태로 유지되는,
    음성 명령 인식 장치.
  4. 제 1 항에 있어서,
    상기 컨텍스트 판단부는,
    상기 음성이 상기 오디오 센서들 각각에 도달한 도달시간에 기초하여, 상기 음성을 발화한 사용자와 사이의 거리를 계산하는 거리 계산부, 및 상기 음성과 그 배경잡음의 차이의 크기를 비교하는 배경잡음 비교부를 포함하고,
    상기 명령 인식부는, 상기 거리 및 상기 음성과 그 배경잡음의 차이에 기초하여, 상기 음성으로부터 미리 설정된 명령을 인식하도록 활성화되거나 또는 비활성화된 상태로 유지되는,
    음성 명령 인식 장치.
  5. 제 1 항에 있어서,
    움직임을 검출하는 모션 센서를 더 구비하며,
    상기 컨텍스트 판단부는,
    상기 음성이 상기 오디오 센서들 각각에 도달한 도달시간에 기초하여, 상기 음성을 발화한 사용자와 사이의 거리를 계산하는 거리 계산부, 및 상기 모션센서에 의해 검출된 움직임으로부터 상기 사용자의 행동을 인식하는 행동 인식부를 포함하고,
    상기 명령 인식부는, 상기 거리 및 상기 행동에 기초하여, 상기 음성으로부터 미리 설정된 명령을 인식하도록 활성화되거나 또는 비활성화된 상태로 유지되는,
    음성 명령 인식 장치.
  6. 제 1 항에 있어서,
    이벤트를 감지하는 이벤트 감지부를 더 구비하며,
    상기 컨텍스트 판단부는,
    상기 음성이 상기 오디오 센서들 각각에 도달한 도달시간에 기초하여, 상기 음성을 발화한 사용자와 사이의 거리를 계산하는 거리 계산부, 및 상기 이벤트 감지부에 의해 검출된 이벤트로부터 상기 장치의 동작을 인식하는 기기동작 인식부를 포함하고,
    상기 명령 인식부는, 상기 거리 및 상기 동작에 기초하여, 상기 음성으로부터 미리 설정된 명령을 인식하도록 활성화되거나 또는 비활성화된 상태로 유지되는,
    음성 명령 인식 장치.
  7. 제 1 항에 있어서,
    움직임을 검출하는 모션 센서, 및 이벤트를 감지하는 이벤트 감지부를 더 구비하며,
    상기 컨텍스트 판단부는,
    상기 음성이 상기 오디오 센서들 각각에 도달한 도달시간에 기초하여, 상기 음성을 발화한 사용자와 사이의 거리를 계산하는 거리 계산부, 상기 모션센서에 의해 검출된 움직임으로부터 상기 사용자의 행동을 인식하는 행동 인식부, 및 상기 이벤트 감지부에 의해 검출된 이벤트로부터 상기 장치의 동작을 인식하는 기기동작 인식부를 포함하고,
    상기 명령 인식부는, 상기 거리, 상기 행동 및 상기 동작에 기초하여, 상기 음성으로부터 미리 설정된 명령을 인식하도록 활성화되거나 또는 비활성화된 상태로 유지되는,
    음성 명령 인식 장치.
  8. 복수의 서로 다른 위치에서 음성을 수신하는 단계;
    수신된 음성으로부터, 상기 음성을 발화한 사용자의 상황을 포함하는 사용자 컨텍스트를 결정하는 컨텍스트 판단 단계와;
    상기 사용자 컨텍스트에 기초하여, 상기 음성으로부터 미리 설정된 명령을 인식하도록 활성화되거나 또는 비활성화된 상태로 유지되는 명령 인식 단계를
    포함하는, 음성 명령 인식 방법.
  9. 제 8 항에 있어서,
    상기 컨텍스트 판단 단계는, 상기 음성이 상기 오디오 센서들 각각에 도달한 도달시간에 기초하여, 상기 음성을 발화한 사용자와 사이의 거리를 계산하는 거리 계산 단계를 포함하고,
    상기 명령 인식 단계는, 상기 거리에 기초하여, 상기 음성으로부터 미리 설정된 명령을 인식하도록 활성화되거나 또는 비활성화된 상태로 유지되는,
    음성 명령 인식 방법.
  10. 제 8 항에 있어서,
    상기 컨텍스트 판단 단계는,
    상기 음성이 미리 저장된 특정 사용자에 의해 발화된 것인지 여부를 판단하는 사용자 인식 단계, 및 상기 음성이 상기 특정 사용자에 의해 발화된 것이라고 판단되는 경우, 상기 음성이 상기 오디오 센서들 각각에 도달한 도달시간에 기초하여, 상기 음성을 발화한 사용자와 사이의 거리를 계산하는 거리 계산 단계를 포함하고,
    상기 명령 인식 단계는, 상기 거리에 기초하여, 상기 음성으로부터 미리 설정된 명령을 인식하도록 활성화되거나 또는 비활성화된 상태로 유지되는,
    음성 명령 인식 방법.
  11. 제 8 항에 있어서,
    상기 컨텍스트 판단 단계는,
    상기 음성이 상기 오디오 센서들 각각에 도달한 도달시간에 기초하여, 상기 음성을 발화한 사용자와 사이의 거리를 계산하는 거리 계산 단계, 및 상기 음성과 그 배경잡음의 차이의 크기를 비교하는 배경잡음 비교 단계를 포함하고,
    상기 명령 인식 단계는, 상기 거리 및 상기 음성과 그 배경잡음의 차이에 기초하여, 상기 음성으로부터 미리 설정된 명령을 인식하도록 활성화되거나 또는 비활성화된 상태로 유지되는,
    음성 명령 인식 방법.
  12. 제 8 항에 있어서,
    상기 컨텍스트 판단 단계는,
    상기 음성이 상기 오디오 센서들 각각에 도달한 도달시간에 기초하여, 상기 음성을 발화한 사용자와 사이의 거리를 계산하는 거리 계산 단계, 및 모션센서에 의해 검출된 움직임으로부터 상기 사용자의 행동을 인식하는 행동 인식 단계를 포함하고,
    상기 명령 인식 단계는, 상기 거리 및 상기 행동에 기초하여, 상기 음성으로부터 미리 설정된 명령을 인식하도록 활성화되거나 또는 비활성화된 상태로 유지되는,
    음성 명령 인식 방법.
  13. 제 8 항에 있어서,
    상기 컨텍스트 판단 단계는,
    상기 음성이 상기 오디오 센서들 각각에 도달한 도달시간에 기초하여, 상기 음성을 발화한 사용자와 사이의 거리를 계산하는 거리 계산 단계, 및 상기 이벤트 감지부에 의해 검출된 이벤트로부터 상기 장치의 동작을 인식하는 기기동작 인식 단계를 포함하고,
    상기 명령 인식 단계는, 상기 거리 및 상기 동작에 기초하여, 상기 음성으로부터 미리 설정된 명령을 인식하도록 활성화되거나 또는 비활성화된 상태로 유지되는,
    음성 명령 인식 방법.
  14. 제 8 항에 있어서,
    상기 컨텍스트 판단 단계는,
    상기 음성이 상기 오디오 센서들 각각에 도달한 도달시간에 기초하여, 상기 음성을 발화한 사용자와 사이의 거리를 계산하는 거리 계산 단계, 모션센서에 의해 검출된 움직임으로부터 상기 사용자의 행동을 인식하는 행동 인식 단계, 및 이벤트 감지부에 의해 검출된 이벤트로부터 상기 장치의 동작을 인식하는 기기동작 인식 단계를 포함하고,
    상기 명령 인식 단계는, 상기 거리, 상기 행동 및 상기 동작에 기초하여, 상기 음성으로부터 미리 설정된 명령을 인식하도록 활성화되거나 또는 비활성화된 상태로 유지되는,
    음성 명령 인식 방법.
KR1020140060559A 2014-05-20 2014-05-20 음성 명령 인식 장치 및 방법 KR20150133586A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140060559A KR20150133586A (ko) 2014-05-20 2014-05-20 음성 명령 인식 장치 및 방법

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020140060559A KR20150133586A (ko) 2014-05-20 2014-05-20 음성 명령 인식 장치 및 방법
US14/616,270 US9953654B2 (en) 2014-05-20 2015-02-06 Voice command recognition apparatus and method

Publications (1)

Publication Number Publication Date
KR20150133586A true KR20150133586A (ko) 2015-11-30

Family

ID=54556507

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140060559A KR20150133586A (ko) 2014-05-20 2014-05-20 음성 명령 인식 장치 및 방법

Country Status (2)

Country Link
US (1) US9953654B2 (ko)
KR (1) KR20150133586A (ko)

Families Citing this family (66)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US10304465B2 (en) * 2012-10-30 2019-05-28 Google Technology Holdings LLC Voice control user interface for low power mode
US10373615B2 (en) * 2012-10-30 2019-08-06 Google Technology Holdings LLC Voice control user interface during low power mode
US10381001B2 (en) * 2012-10-30 2019-08-13 Google Technology Holdings LLC Voice control user interface during low-power mode
US9584642B2 (en) * 2013-03-12 2017-02-28 Google Technology Holdings LLC Apparatus with adaptive acoustic echo control for speakerphone mode
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
DE102014009689A1 (de) * 2014-06-30 2015-12-31 Airbus Operations Gmbh Intelligentes Soundsystem/-modul zur Kabinenkommunikation
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
KR20160108051A (ko) * 2015-03-06 2016-09-19 삼성전자주식회사 웨어러블 전자 장치 및 그 제어 방법
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) * 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
EP3067884B1 (en) * 2015-03-13 2019-05-08 Samsung Electronics Co., Ltd. Speech recognition system and speech recognition method thereof
US9799349B2 (en) * 2015-04-24 2017-10-24 Cirrus Logic, Inc. Analog-to-digital converter (ADC) dynamic range enhancement for voice-activated systems
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
KR20170010494A (ko) * 2015-07-20 2017-02-01 엘지전자 주식회사 이동 단말기 및 그 제어 방법
US10008201B2 (en) * 2015-09-28 2018-06-26 GM Global Technology Operations LLC Streamlined navigational speech recognition
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10388280B2 (en) * 2016-01-27 2019-08-20 Motorola Mobility Llc Method and apparatus for managing multiple voice operation trigger phrases
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK201670578A1 (en) 2016-06-09 2018-02-26 Apple Inc Intelligent automated assistant in a home environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10103699B2 (en) * 2016-09-30 2018-10-16 Lenovo (Singapore) Pte. Ltd. Automatically adjusting a volume of a speaker of a device based on an amplitude of voice input to the device
KR20180074152A (ko) * 2016-12-23 2018-07-03 삼성전자주식회사 보안성이 강화된 음성 인식 방법 및 장치
US10403276B2 (en) * 2017-03-17 2019-09-03 Microsoft Technology Licensing, Llc Voice enabled features based on proximity
WO2018169381A1 (en) * 2017-03-17 2018-09-20 Samsung Electronics Co., Ltd. Method and system for automatically managing operations of electronic device
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10332518B2 (en) 2017-05-09 2019-06-25 Apple Inc. User interface for correcting recognition errors
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10410637B2 (en) 2017-05-12 2019-09-10 Apple Inc. User-specific acoustic models
US10482874B2 (en) 2017-05-15 2019-11-19 Apple Inc. Hierarchical belief states for digital assistants
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
KR20190029913A (ko) * 2017-09-13 2019-03-21 삼성전자주식회사 디바이스 그룹을 지정하기 위한 전자 장치 및 이의 제어 방법
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10402149B2 (en) * 2017-12-07 2019-09-03 Motorola Mobility Llc Electronic devices and methods for selectively recording input from authorized users
US10403283B1 (en) 2018-06-01 2019-09-03 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10504518B1 (en) 2018-06-03 2019-12-10 Apple Inc. Accelerated task performance

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3674990B2 (ja) 1995-08-21 2005-07-27 セイコーエプソン株式会社 音声認識対話装置および音声認識対話処理方法
US6219645B1 (en) * 1999-12-02 2001-04-17 Lucent Technologies, Inc. Enhanced automatic speech recognition using multiple directional microphones
KR100556365B1 (ko) 2003-07-07 2006-03-03 엘지전자 주식회사 음성 인식장치 및 방법
US8725505B2 (en) 2004-10-22 2014-05-13 Microsoft Corporation Verb error recovery in speech recognition
US20060192775A1 (en) * 2005-02-25 2006-08-31 Microsoft Corporation Using detected visual cues to change computer system operating states
KR20090025939A (ko) 2007-09-07 2009-03-11 (주)한국파워보이스 음성 인식을 이용한 홈 미디어 pc 시스템 및 그 제어방법
KR101056511B1 (ko) 2008-05-28 2011-08-11 (주)파워보이스 실시간 호출명령어 인식을 이용한 잡음환경에서의음성구간검출과 연속음성인식 시스템
US8255225B2 (en) 2008-08-07 2012-08-28 Vocollect Healthcare Systems, Inc. Voice assistant system
JP5473520B2 (ja) 2009-10-06 2014-04-16 キヤノン株式会社 入力装置及びその制御方法
US8682667B2 (en) * 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8725506B2 (en) 2010-06-30 2014-05-13 Intel Corporation Speech audio processing
KR101699720B1 (ko) 2010-08-03 2017-01-26 삼성전자주식회사 음성명령 인식 장치 및 음성명령 인식 방법
US8473289B2 (en) 2010-08-06 2013-06-25 Google Inc. Disambiguating input based on context
KR101828273B1 (ko) 2011-01-04 2018-02-14 삼성전자주식회사 결합기반의 음성명령 인식 장치 및 그 방법
KR101262700B1 (ko) 2011-08-05 2013-05-08 삼성전자주식회사 음성 인식 및 모션 인식을 이용하는 전자 장치의 제어 방법 및 이를 적용한 전자 장치
US8781436B2 (en) 2011-08-09 2014-07-15 Htc Corporation Method and system for enabling a user to configure custom voice alarms/events for mobile communication devices
WO2013155619A1 (en) * 2012-04-20 2013-10-24 Sam Pasupalak Conversational agent
US9161149B2 (en) * 2012-05-24 2015-10-13 Qualcomm Incorporated Three-dimensional sound compression and over-the-air transmission during a call
KR20120112325A (ko) 2012-09-18 2012-10-11 (주)이엔엠시스템 대기 상태에서 저주파 영역 음향에 대해서 음성인식을 수행하는 음성인식 시스템 및 그 제어방법
CN102902253B (zh) * 2012-10-09 2015-07-15 鸿富锦精密工业(深圳)有限公司 具有语音控制功能的智能开关及智能控制系统
US20140156281A1 (en) * 2012-12-03 2014-06-05 Qualcomm Incorporated Voice-controlled configuration of an automation system
US20150228281A1 (en) * 2014-02-07 2015-08-13 First Principles,Inc. Device, system, and method for active listening

Also Published As

Publication number Publication date
US9953654B2 (en) 2018-04-24
US20150340040A1 (en) 2015-11-26

Similar Documents

Publication Publication Date Title
US9117449B2 (en) Embedded system for construction of small footprint speech recognition with user-definable constraints
JP6581174B2 (ja) デジタルアシスタントのためのボイストリガ
US9423870B2 (en) Input determination method
CN105009204B (zh) 语音识别功率管理
KR101804388B1 (ko) 공존 정보를 이용한 화자 검증
AU2013289660B2 (en) Method for updating voiceprint feature model and terminal
EP3321928A1 (en) Reducing the need for manual start/end-pointing and trigger phrases
US9535506B2 (en) Efficient gesture processing
JP2019091472A (ja) 発語トリガを常時リッスンするための動的閾値
JP5456832B2 (ja) 入力された発話の関連性を判定するための装置および方法
US9443536B2 (en) Apparatus and method for detecting voice based on motion information
JP2017520012A (ja) スピーチ入力によってアプリケーションをアクティブ化するための方法および装置
US20150031416A1 (en) Method and Device For Command Phrase Validation
CN106030440B (zh) 智能循环音频缓冲器
KR20130133629A (ko) 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법
US9031847B2 (en) Voice-controlled camera operations
US9390726B1 (en) Supplementing speech commands with gestures
US9807495B2 (en) Wearable audio accessories for computing devices
US10109300B2 (en) System and method for enhancing speech activity detection using facial feature detection
EP2881939B1 (en) System for speech keyword detection and associated method
KR101829865B1 (ko) 멀티센서 음성 검출
US9805719B2 (en) Initiating actions based on partial hotwords
US9368105B1 (en) Preventing false wake word detections with a voice-controlled device
US8452597B2 (en) Systems and methods for continual speech recognition and detection in mobile computing devices
US9472201B1 (en) Speaker localization by means of tactile input

Legal Events

Date Code Title Description
A201 Request for examination