KR20150133586A - 음성 명령 인식 장치 및 방법 - Google Patents

음성 명령 인식 장치 및 방법 Download PDF

Info

Publication number
KR20150133586A
KR20150133586A KR1020140060559A KR20140060559A KR20150133586A KR 20150133586 A KR20150133586 A KR 20150133586A KR 1020140060559 A KR1020140060559 A KR 1020140060559A KR 20140060559 A KR20140060559 A KR 20140060559A KR 20150133586 A KR20150133586 A KR 20150133586A
Authority
KR
South Korea
Prior art keywords
voice
user
distance
recognizing
command
Prior art date
Application number
KR1020140060559A
Other languages
English (en)
Other versions
KR102216048B1 (ko
Inventor
문민영
최영상
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020140060559A priority Critical patent/KR102216048B1/ko
Priority to US14/616,270 priority patent/US9953654B2/en
Publication of KR20150133586A publication Critical patent/KR20150133586A/ko
Application granted granted Critical
Publication of KR102216048B1 publication Critical patent/KR102216048B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

음성 명령 인식 장치 및 방법이 개시된다. 일 예에 따라, 음성 명령 인식 장치는 서로 다른 위치들에 배치되는 복수의 오디오 센서들과; 상기 오디오 센서들로부터 수신된 음성으로부터, 상기 음성을 발화한 사용자의 상황을 포함하는 사용자 컨텍스트를 결정하는 컨텍스트 판단부와; 상기 사용자 컨텍스트에 기초하여, 상기 음성으로부터 미리 설정된 명령을 인식하도록 활성화되거나 또는 비활성화된 상태로 유지되는 명령 인식부를 포함한다.

Description

음성 명령 인식 장치 및 방법{APPARATUS AND METHOD FOR RECOGNIZING VOICE COMMEND}
음성 명령 인식 기술에 관련된다. 보다 상세하게는 장치 제어를 위한 음성 명령을 인식하도록 하는 음성 명령 인식 기술에 관련된다.
근래 음성 인식 기술의 발전에 따라, 사용자가 음성 명령(voice command)을 사용하여 장치의 기능들을 제어하도록 하는 음성 명령 인식 기능을 구비한 장치들이 제안되고 있다. 일반적으로 종래 장치에서, 평시 즉 대기 상태에서 음성 명령 인식 기능은 비활성화된 상태로 유지된다. 대기 상태에서, 음성 명령 인식 기능은, 사용자가 손으로 장치에 구비된 특정 버튼을 누르거나 특정 단어를 발화함으로써 트리거한 때에 활성화된다. 예컨대, 사용자는 "OK, glass!"를 외치거나, 지정된 버튼을 누른 후 "Hi, galaxy"를 말하는 등의 트리거 과정을 통하여, 스마트 안경 또는 스마트폰 등과 같은 장치를 대기 상태에 있던 음성 명령 인식 기능을 활성화시킬 수 있다.
그러나, 사용자가 음성 명령으로 장치를 제어하고자 할 때마다 특정 방식의 트리거 과정을 거쳐야 하므로, 음성 명령 입력 과정이 사용자에게 불편하다. 뿐만 아니라, 평소에 트리거 명령을 인식하기 위하여는 장치 내에서 항상 음성 명령 인식 기능이 활성화되어 있어야 하는데, 이것은 장치의 제어를 위한 자원 할당이 비효율적으로 되는 원인이 된다. 더 나아가, 평소에 음성 명령 인식 기능이 대기 상태로 유지되는 경우라 하더라도, 트리거 명령을 인식하기 위해 음성 명령 인식 기능을 활성화하는 별도의 사용자 명령이 예컨대, 화면 터치 또는 버튼 입력 방식에 의해, 입력되어야 한다.
장치 제어를 위한 음성 명령을, 대기 상태에서 별도의 트리거 명령 없이 직접 인식하도록 하는 음성 명령 인식 장치 및 방법을 제안한다.
일 양상에 따라 제공되는 음성 명령 인식 장치는, 서로 다른 위치들에 배치되는 복수의 오디오 센서들과; 상기 오디오 센서들로부터 수신된 음성으로부터, 상기 음성을 발화한 사용자의 상황을 포함하는 사용자 컨텍스트를 결정하는 컨텍스트 판단부와; 상기 사용자 컨텍스트에 기초하여, 상기 음성으로부터 미리 설정된 명령을 인식하도록 활성화되거나 또는 비활성화된 상태로 유지되는 명령 인식부를 포함한다.
일 실시예에 있어서, 상기 컨텍스트 판단부는, 상기 음성이 상기 오디오 센서들 각각에 도달한 도달시간에 기초하여, 상기 음성을 발화한 사용자와 사이의 거리를 계산하는 거리 계산부를 포함하고, 상기 명령 인식부는, 상기 거리에 기초하여, 상기 음성으로부터 미리 설정된 명령을 인식하도록 활성화되거나 또는 비활성화된 상태로 유지된다.
다른 실시예에 있어서, 상기 컨텍스트 판단부는, 상기 음성이 미리 저장된 특정 사용자에 의해 발화된 것인지 여부를 판단하는 사용자 인식부, 및 상기 음성이 상기 특정 사용자에 의해 발화된 것이라고 판단되는 경우, 상기 음성이 상기 오디오 센서들 각각에 도달한 도달시간에 기초하여, 상기 음성을 발화한 사용자와 사이의 거리를 계산하는 거리 계산부를 포함하고, 상기 명령 인식부는, 상기 거리에 기초하여, 상기 음성으로부터 미리 설정된 명령을 인식하도록 활성화되거나 또는 비활성화된 상태로 유지된다.
또 다른 실시예에 있어서, 상기 컨텍스트 판단부는, 상기 음성이 상기 오디오 센서들 각각에 도달한 도달시간에 기초하여, 상기 음성을 발화한 사용자와 사이의 거리를 계산하는 거리 계산부, 및 상기 음성과 그 배경잡음의 차이의 크기를 비교하는 배경잡음 비교부를 포함하고, 상기 명령 인식부는, 상기 거리 및 상기 음성과 그 배경잡음의 차이에 기초하여, 상기 음성으로부터 미리 설정된 명령을 인식하도록 활성화되거나 또는 비활성화된 상태로 유지된다.
또 다른 실시예에 있어서, 움직임을 검출하는 모션 센서를 더 구비하며, 상기 컨텍스트 판단부는, 상기 음성이 상기 오디오 센서들 각각에 도달한 도달시간에 기초하여, 상기 음성을 발화한 사용자와 사이의 거리를 계산하는 거리 계산부, 및 상기 모션센서에 의해 검출된 움직임으로부터 상기 사용자의 행동을 인식하는 행동 인식부를 포함하고, 상기 명령 인식부는, 상기 거리 및 상기 행동에 기초하여, 상기 음성으로부터 미리 설정된 명령을 인식하도록 활성화되거나 또는 비활성화된 상태로 유지된다.
또 다른 실시예에 있어서, 이벤트를 감지하는 이벤트 감지부를 더 구비하며, 상기 컨텍스트 판단부는, 상기 음성이 상기 오디오 센서들 각각에 도달한 도달시간에 기초하여, 상기 음성을 발화한 사용자와 사이의 거리를 계산하는 거리 계산부, 및 상기 이벤트 감지부에 의해 검출된 이벤트로부터 상기 장치의 동작을 인식하는 기기동작 인식부를 포함하고, 상기 명령 인식부는, 상기 거리 및 상기 동작에 기초하여, 상기 음성으로부터 미리 설정된 명령을 인식하도록 활성화되거나 또는 비활성화된 상태로 유지된다.
또 다른 실시예에 있어서, 움직임을 검출하는 모션 센서, 및 이벤트를 감지하는 이벤트 감지부를 더 구비하며, 상기 컨텍스트 판단부는, 상기 음성이 상기 오디오 센서들 각각에 도달한 도달시간에 기초하여, 상기 음성을 발화한 사용자와 사이의 거리를 계산하는 거리 계산부, 상기 모션센서에 의해 검출된 움직임으로부터 상기 사용자의 행동을 인식하는 행동 인식부, 및 상기 이벤트 감지부에 의해 검출된 이벤트로부터 상기 장치의 동작을 인식하는 기기동작 인식부를 포함하고, 상기 명령 인식부는, 상기 거리, 상기 행동 및 상기 동작에 기초하여, 상기 음성으로부터 미리 설정된 명령을 인식하도록 활성화되거나 또는 비활성화된 상태로 유지된다.
또한 다른 양상에 따라, 음성 명령 인식 방법은, 복수의 서로 다른 위치에서 음성을 수신하는 단계; 수신된 음성으로부터, 상기 음성을 발화한 사용자의 상황을 포함하는 사용자 컨텍스트를 결정하는 컨텍스트 판단 단계와; 상기 사용자 컨텍스트에 기초하여, 상기 음성으로부터 미리 설정된 명령을 인식하도록 활성화되거나 또는 비활성화된 상태로 유지되는 명령 인식 단계를 포함한다.
상기 양상들 및 그 외 다른 양상들과 상기 실시예들 및 그 외 다른 실시예들은 아래의 설명으로부터 발견될 수 있다.
대기 상태에서 항상 음성 신호를 수신하고, 현재 수신된 음성에 기초한 현재 사용자 컨텍스트를 이용하여 음성 명령 여부를 판단함으로써, 대기 상태에서 별도의 트리거 명령 없이 수신 음성으로부터 직접 음성 명령을 인식할 수 있도록 한 음성 명령 인식 장치 및 방법을 구현할 수 있는 효과가 있다.
도 1은 음성 명령 인식 장치의 실시예를 보여주는 블록도.
도 2는 음성 명령 인식 장치의 실시예를 보여주는 블록도.
도 3은 도 2의 음성 명령 인식 장치의 구현예를 개략적으로 보여주는 도면.
도 4는 음성 명령 인식 방법의 실시예를 보여주는 흐름도.
도 5는 음성 명령 인식 장치의 다른 실시예를 보여주는 블록도.
도 6은 도 5의 음성 명령 인식 장치의 구현예를 개략적으로 보여주는 도면.
도 7은 음성 명령 인식 방법의 다른 실시예를 보여주는 흐름도.
도 8은 음성 명령 인식 장치의 또 다른 실시예를 보여주는 블록도.
도 9는 도 7의 음성 명령 인식 장치의 구현예를 개략적으로 보여주는 도면.
도 10은 음성 명령 인식 방법의 또 다른 실시예를 보여주는 흐름도.
도 11은 음성 명령 인식 장치의 또 다른 실시예를 보여주는 블록도.
도 12는 도 11의 음성 명령 인식 장치의 구현예를 개략적으로 보여주는 도면.
도 13은 음성 명령 인식 방법의 또 다른 실시예를 보여주는 흐름도.
도 14는 종래 음성 명령 인식 시스템의 구성을 도시하는 도면.
일반적으로, 컴퓨팅 장치에 있어서, 음성 명령 인식 과정은, 수신된 음성을 분석하고 미리 저장된 명령 데이터와 비교하는 프로세스들을 실행하기 위해, 프로세서 및 메모리 등의 자원을 필요로 한다. 통상적으로, 자원들은 음성 명령 인식 프로세스와 그 외 다른 기능들을 위한 프로세스들 사이에 공유된다. 이 때문에, 현재 다른 프로세스에 의해 점유되고 있거나 대기 중인 자원을 음성 명령 인식 프로세스에 할당할지 여부가 판단되어야 한다.
장치가 음성 명령을 입력하려는 사용자 의도를 판단하도록 하기 위해서, 종래에, 사용자가 음성 명령 인식 기능을 개시하도록 하는 트리거 명령을 입력하는 방식이 알려져 있다. 이러한 트리거 명령이 입력되면, 장치는 이후 입력되는 음성 신호에 대해 음성 명령 인식 프로세싱을 수행하고, 인식된 음성 명령에 따라 장치의 각 기능을 제어할 수 있다.
이 경우, 트리거 명령은 장치에 구비되어 있는 특정 버튼을 누르는 방식, 미리 지정된 하나 이상의 단어를 발화하는 방식, 또는 특정 입력 버튼과 미리 지정된 단어를 조합하여 입력하는 방식 등을 통해 장치로 입력될 수 있다. 예를 들어, 도 14를 참조하면, 미리 지정된 하나 이상의 단어를 발화하는 방식의 트리거 명령을 사용하는 종래 음성 명령 인식 시스템(140)의 구성을 도시하는 도면이 예시된다.
도시된 예에서와 같이, 종래 음성 명령 인식 시스템(100)은 센서부(142), 트리거부(144), 명령 인식부(146), 및 명령 실행부(148)를 구비할 수 있다. 센서부(142)는 사용자(U)에 의해 발화된 음성 또는 주변에서 발생되는 다양한 음향을 수신하여 전기적인 신호로 변환하는 마이크로폰일 수 있다.
센서부(142)에서 수신된 사용자 음성은 항상 장치 제어를 위한 음성 명령이라고 간주될 수 있는 것은 아니다. 도시된 예에서, 미리 지정된 하나 이상의 단어가 음성 명령 인식 프로세스를 활성화하는 트리거 수단으로 이용된다. 예를 들어 "OK, glass" 또는 "Hi, galaxy"라는 단어를 수신하면, 장치는 음성 명령 인식 기능을 활성화하고, 그 이후부터 센서부(142)로부터 수신된 음성에 대해 음성 명령 인식 프로세스가 수행될 수 있다.
트리거부(144)는 센서부(142)에 의해 수신된 음성이 음성 명령 인식 프로세스 활성화를 위해 미리 지정된 단어(예를 들어 "OK, glass" 또는 "Hi, galaxy")를 포함하는지 여부를 판단함으로써, 명령 인식부(16)의 활성화 여부를 판단할 수 있다.
일단, 트리거부(144)에 의해 명령 인식부(146)가 활성화되면, 그 이후 센서부(142)를 통해 수신된 모든 음성 신호는 명령 인식부(146)에 의해 프로세싱될 수 있다. 명령 인식부(146)는 수신된 음성 신호가 장치 제어를 위한 명령인지 여부를 판단한다. 그 결과 특정 명령이 인식되면, 인식된 명령은 이 명령이 의도하는 기능을 제어하기 위해 명령 실행부(148)에 의해 실행될 수 있다.
이에 따르면, 사용자는 미리 지정된 단어를 발화함으로써 음성 명령 인식 기능을 트리거할 수 있다. 그런데, 음성 명령 인식 기능을 트리거하는 방식은, 음성 명령으로 장치를 제어하고자 할 때마다, 음성 명령 인식 기능을 트리거하기 위한 특정 단어를 발화하여 입력하여야만 하므로 불편하다. 뿐만 아니라, 평소에 트리거 명령을 인식하기 위하여 장치 내에서 항상 음성 명령 인식 기능이 활성화되어 있어야 한다. 이러한 구성은 특히 스마트 안경, 스마트 워치, 스마트 폰 등과 같은 모바일 장치 또는 웨어러블 장치들의 경우, 대기 상태에서 장치 내 자원들에 의해 소모되는 전력이 최소화되어야 하기 때문에, 전력 소모의 면에서 불리한 구성이다. 더 나아가, 평소에 장치에서 음성 명령 인식 기능이 대기 상태로 유지되는 경우라 하더라도, 트리거 명령을 인식하기 위해서는 음성 명령 인식 기능을 활성화하여야 한다. 그러므로 트리거 명령을 이용하기 전에 별도의 사용자 명령이 예컨대, 화면 터치 또는 버튼 입력 방식에 의해, 입력되어야 한다는 불편함이 존재한다.
통상적으로, 스마트 안경, 스마트 워치, 스마트 폰과 같은 모바일 또는 웨어러블 컴퓨팅 장치는 음성 수신을 위한 오디오 센서 또는 마이크로폰이 장치에 구비된다. 장치 자체가 소형이므로, 통상적으로 사용자는 장치 자체를 사용자의 입 가까이 근접시킨 상태에서 발화하게 된다. 그러므로, 모바일 또는 웨어러블 컴퓨팅 장치에 있어서, 사용자와 장치 사이의 거리, 사용자의 음성 신호의 크기, 장치의 모션 등에 기초한 사용자 컨텍스트를 참조하면, 사용자가 음성 명령을 입력하려는 의도를 가지고 있는지 여부가 판별될 수 있다.
이러한 관점에서, 실시예들은, 별도의 트리거를 위한 과정 없이, 사용자 컨텍스트에 기반하여 음성 명령 인식 장치에서 수신된 음성에 기초하여 음성 명령 인식 기능이 자동 활성화되는 음성 명령 인식 기법을 제공한다. 이를 위해, 실시예들은 수신된 음성으로부터 추출되는 정보에 기초하여 사용자 컨텍스트(user context)를 결정한다. 그리고 결정된 사용자 컨텍스트에 기초하여, 현재 수신된 음성이 사용자의 음성 명령 사용 의도에 따라 발화된 것인지 여부를 판단할 수 있다. 만약 어떤 수신된 음성이 사용자 컨텍스트에 따라 "사용자가 음성 명령을 이용하려는 의도를 가지고 발화한" 음성 명령이라고 판단된다면, 이 수신된 음성은 자동으로 활성화된 음성 명령 인식 프로세스에 의해 처리될 수 있다. 그 결과 인식된 명령은 이 명령이 의도하는 제어 동작을 실행하도록 자동 처리될 수 있다. 만약 어떤 수신된 음성이 사용자 컨텍스트에 따라 사용자가 음성 명령을 이용하려는 의도가 없이 발화된 음성이라고 판단되면, 음성 명령 인식 프로세스는 활성화되지 않는다.
여기서, 사용자 컨텍스트는, 현재 수신된 음성에 관하여 사용자 음성 명령 사용 의도를 판단하기 위해, 장치에 의해 결정되는 사용자의 현재 상황이다. 사용자 컨텍스트는 수신된 음성으로부터 추출되는 정보 및/또는 그 이외에 음성 수신과 동시에 검출된 정보에 기초하여 결정될 수 있다. 예를 들어, 사용자 컨텍스트를 결정하는 정보는, 수신된 음성으로부터 계산되는 사용자의 입과 음성 명령 인식 장치 사이의 거리(즉, 사용자-장치간 거리), 수신된 음성이 미리 한정되어 있는 특정 사용자의 음성인지의 여부, 사용자 음성과 배경 소음 사이의 차이, 장치의 실행중인 애플리케이션 또는 장치의 움직임 등이 포함될 수 있다.
예를 들어 수신된 음성으로부터 사용자-장치간 거리가 계산될 수 있다. 그리고 계산된 거리에 기초하여 사용자 컨텍스트가 결정될 수 있다. 일반적으로 장치와 사용자 사이의 거리가 멀어짐에 따라 음성 인식 정확도가 급격하게 감소한다. 그러므로 음성을 입력하기 위해서는 사용자의 입이 장치에 대해 소정 범위 내의 근접한 위치에 있을 필요가 있다. 그러므로, 실시예들은, 사용자와 장치 사이의 거리를 수신된 음성에 기초하여 계산한다. 그리고 계산된 거리에 기초하여, 사용자가 장치로부터 음성 명령을 입력할 수 있는 근접 거리 내에 있는 상황인지 아닌지를 결정하고, 이에 따라 사용자 의도를 판단할 수 있다.
실시예들에서, 사용자-장치간 거리는, 사용자의 입으로부터 발화된 음성이 음성 명령 인식 장치에 내장된 복수의 오디오 센서(audio sensor, AS)에 도달한 시간에 기초하여 계산될 수 있다. 음성 신호의 도달 시간에 기초한 거리 계산 기법은, 예를 들어 해당 기술 분야에서 알려져 있는 TOA(Time of Arrival), TDOA(Time Difference of Arrival) 등과 같은 도달 시간 또는 도달 시간차를 이용하는 위치 추정 기법을 이용하여 구현될 수 있다.
오디오 센서는 예를 들어 MEMS(Micro Electro Mechanical Systems) 방식으로 제조된 음향 수신 센서일 수 있다. 오디오 센서는 전력 소모를 감소시키기 위한 초-저-전력(Ultra-Low-Power, ULP) 센서일 수 있다. 오디오 센서는 장치 즉 음성 명령 인식 장치에 대해 서로 다른 고정된 위치들에 배치되며, TOA 또는 TDOA 등을 이용하여 거리 계산이 가능한 충분한 수로 구비된다. 오디오 센서들은 음성 명령 인식 장치에 의해 시간적으로 정밀하게 동기화될 수 있다. 이하에서 4개의 오디오 센서(AS)들을 포함하는 음성 명령 인식 장치를 예로 들어 설명되지만, 오디오 센서들의 수는 4개만으로 한정될 필요가 없다. 사용자(즉, 사용자의 입)와 음성 명령 인식 장치(즉, 장치의 중심부) 사이의 거리 계산을 위해 충분한 수 이상의 오디오 센서들이 사용될 수 있다는 것이 자명하다.
사용자와 장치 사이의 거리가 계산되면, 계산된 거리에 기초하여 사용자의 음성 명령 사용 의도가 판단될 수 있다. 예를 들어, 계산된 거리가 소정 문턱값보다 작은 값을 가진다면, 수신된 음성은 "사용자가 음성 명령을 이용하려는 의도를 가지고 발화한" 음성 명령이라고 판단될 수 있다. 만약 계산된 거리가 소정 문턱값보다 크다면, 수신된 음성은 "사용자가 음성 명령을 이용하려는 의도를 가지고 발화한" 음성 명령이 아니라고 판단될 수 있다. 여기서 문턱값은 경험적인 또는 선험적인 거리-음성 인식 정확도 관계에 기초하여 미리 결정될 수 있다. 예를 들어, 특정 장치에 대해 음성 인식 정확도가 90% 이상인 경우 이 장치와 사용자 입 사이의 거리가 50cm 일 때, 문턱값은 50cm로 결정될 수 있다.
다른 예를 들어, 수신된 음성에 기초하여 계산된 사용자-장치간 거리 이외에, 수신된 음성이 특정 사용자의 음성인지 여부가 더 결정될 수 있다. 이 예에서, 수신된 음성으로부터 사용자와 장치 사이의 거리가 계산되기 전, 동시, 또는 이후에, 수신된 음성이 미리 정의되어 있는 특정 사용자의 음성인지 여부가 판단될 수 있다. 특정 사용자의 음성인지 여부는, 특정 사용자가 미리 등록하여 저장한 음성 데이터와 현재 수신된 음성을 비교함으로써 이루어질 수 있다. 특정 사용자와 장치 사이의 거리는 복수의 오디오 센서들에 의해 수신된 음성으로부터 사용자의 입으로부터 오디오 센서들 각각에 도달 시간을 이용하여 계산될 수 있다. 수신된 음성이 미리 정의된 특정 사용자의 음성이라고 판단되면, 계산된 거리에 기초하여 특정 사용자가 장치와 근접한 상태로 말을 하고 있다는 사용자 컨텍스트가 발견될 수 있다. 그리고 이렇게 발견된 사용자 컨텍스트에 의해 특정 사용자가 음성 명령 이용 의도를 가지고 말하고 있다고 결정될 수 있다.
또 다른 예를 들어, 사용자-장치간 거리 이외에, 수신된 음성의 크기가 배경 잡음의 크기보다 소정 문턱값보다 더 큰지 여부가 더 결정될 수 있다. 이 예에서, 수신된 음성으로부터 사용자와 장치 사이의 거리가 계산되기 전, 동시, 또는 이후에, 수신된 음성 신호에 포함되어 있는 배경 잡음이 식별될 수 있다. 그리고 음성 신호의 크기와 배경 잡음의 크기가 비교될 수 있다. 만약 음성 신호가 배경 잡음보다 크지 않다면, 또는 음성 신호의 크기가 배경 잡음의 크기에 비하여 소정 문턱값보다 더 작은 차이를 가진다면, 사용자는 장치를 향해 말하고 있지 않다고 판단될 수 있다. 만약 음성 신호가 배경 잡음보다 크다면, 또는 음성 신호의 크기가 배경 잡음의 크기에 비하여 소정 문턱값보다 더 큰 차이를 가진다면, 사용자는 장치를 향해 말하고 있다고 판단될 수 있다. 그런 다음 사용자와 장치 사이의 거리는 복수의 오디오 센서들에 의해 수신된 음성으로부터 사용자의 입으로부터 오디오 센서들 각각에 도달 시간을 이용하여 계산될 수 있다. 수신된 음성이 배경 잡음에 비하여 소정 문턱값보다 더 크다면, 계산된 거리에 기초하여 특정 사용자가 장치를 향하여 말을 하고 있다는 사용자 컨텍스트가 발견될 수 있다. 그리고 이렇게 발견된 사용자 컨텍스트에 의해 특정 사용자가 음성 명령 이용 의도를 가지고 말하고 있다고 결정될 수 있다.
또 다른 예를 들어, 사용자-장치간 거리 이외에, 장치 동작 정보 및/또는 장치 움직임 정보가 더 검출될 수 있다. 이 예에서, 장치의 애플리케이션 로그 데이터를 조회함으로써 현재 실행되고 있는 애플리케이션의 종류가 파악될 수 있다. 더 나아가 장치에 구비된 가속도 센서, 자이로스코프, GPS 센서 등에 의해 검출되는 데이터에 기초하여 장치의 움직임을 파악할 수 있다. 이러한 장치의 동작이나 움직임에 따라 장치의 사용자의 현재 상황을 결정할 수 있다. 사용자-장치간 거리와 장치 동작/움직임을 포함하는 사용자 컨텍스트에 기초하여 사용자가 음성 명령 이용 의도를 가지고 말하고 있다고 결정될 수 있다.
아래에서 음성 명령 인식 장치 및 방법이 도면들을 참조하여 예시로서 기술된다.
이하 도 1 내지 도 13을 참조하여 음성 명령 인식 장치 및 방법의 실시예들이 기술된다. 도면들을 참조하여 기술된 음성 명령 인식 장치들 및 방법들은 단지 예시에 불과하다. 해당 기술분야의 통상의 지식을 가진 자는, 청구항들의 범위 내에서 다양한 조합의 다른 장치들 및 방법들이 가능하다는 것을 쉽게 이해할 것이다. 음성 명령 인식 장치의 컴포넌트들은, 각각의 기능을 구현하는 회로들을 포함하는 하드웨어에 의해 구현될 수 있다. 또한 실시예들에 따른 음성 명령 인식 장치의 컴포넌트들은, 컴퓨팅 장치의 프로세서에 의해 수행되면 특정 태스크를 실행할 수 있도록 하는 컴퓨터-실행가능 소프트웨어, 펌웨어 및 하드웨어의 조합에 의해 구현될 수도 있다. 실시예들에 따른 음성 명령 인식 방법의 전부 또는 일부는, 컴퓨팅 장치의 프로세서에 의해 수행되면 특정 태스크를 실행할 수 있도록 하는 컴퓨터-실행가능 인스트럭션, 모듈, 소프트웨어, 데이터, 알고리즘, 프로시저, 플러그 인 등으로 구현될 수 있다.
도 1을 참조하면, 음성 명령 인식 장치의 실시예를 보여주는 블록도가 도시된다. 이 실시예에서, 음성 명령 인식 장치는 수신된 음성 등에 기초하여 사용자 컨텍스트를 결정하고 이로부터 사용자 의도를 판단함으로써, 음성 명령 인식 기능을 활성화할 수 있다. 도시된 예에서와 같이, 음성 명령 인식 장치(10)는 감지부(11), 컨텍스트 판단부(13), 명령 인식부(15), 명령 실행부(19), 및 명령 컨텍스트 저장부(17) 등의 컴포넌트들을 포함하여 구성될 수 있다.
감지부(11)는 일 예에서 복수의 오디오 센서를 포함할 수 있다. 복수의 오디오 센서는 장치 내의 서로 다른 고정 위치들에 배치되며, 장치의 제어부에 의해 시간 동기화될 수 있다. 복수의 오디오 센서는 음성 명령 인식 기능이 비활성화된 상태 즉 대기 상태에서도 항상 장치 주변의 음향을 수신할 수 있다. 전력 소모를 절감시키기 위해 ULP 타입의 오디오 센서가 사용될 수 있다. 복수의 오디오 센서에서 수신된 음향 신호는, 신호의 세기가 소정 기준값보다 큰 지 아닌지, 사람의 음성과 유사한 패턴을 가지고 있는지 아닌지 등과 같은 기본적인 판단을 거칠 수 있다. 이에 따라 소정 세기 이상의 사람의 음성 신호라고 판단된 경우, 복수의 오디오 센서로 도달한 시간에 따라 발화자와 장치 사이의 거리가 계산될 수 있다.
다른 예에서 감지부(11)는 장치의 움직임을 감지하는 모션 센서를 포함할 수 있다. 모션 센서는 GPS 센서, 가속도 센서, 자이로스코프 등과 같은 센서들을 이용하여 장치의 위치, 움직이는 속도, 회전 방향, 기울기 등을 감지할 수 있다. 장치의 움직임은, 사용자가 걷고 있는지, 뛰고 있는지, 차량에 탑승한 상태인지, 장치를 손으로 들고 있는 상태인지, 장치를 착용한 손을 굽힌 상태인지 등의 다양한 상황을 추정할 수 있게 한다. 모션 센서에 의해 감지되는 장치의 움직임은 음성이 수신된 때에 검출될 수 있다.
또 다른 예에서, 감지부(11)는 장치의 동작 상태를 감지하는 이벤트 감지부일 수 있다. 이벤트 감지부는 장치에 어떤 종류의 데이터가 입출력되고 있는지, 장치가 실행중인 애플리케이션은 어떤 종류의 것인지, 장치가 전화 통신 중인지, 데이터 통신 중인지 등의 다양한 동작을 감지할 수 있다. 이벤트 감지부에 의해 검출되는 장치의 동작은 음성이 수신된 때에 검출될 수 있다.
컨텍스트 판단부(13)는 감지부(11)에 의해 감지된 사용자-장치간 거리, 장치의 움직임, 장치의 동작 등에 기초하여 사용자 컨텍스트를 결정한다. 예를 들어, 사용자가 장치를 손에 들고 입에 근접시킨 후 음성을 발화하고 있는 상태인지 아닌지, 특정 사용자 이외에 다른 발화자가 장치 주변에 근접한 상태에서 발화하고 있는 상태인지 아닌지, 사용자가 차량에 탑승하여 운전하고 있는 상태인지 아닌지, 사용자가 손목에 착용한 장치를 입 근처로 들어올려 말하고 있는 상태인지 아닌지 등의 사용자 컨텍스트가 결정될 수 있다. 사용자 컨텍스트가 결정되면, 결정된 사용자 컨텍스트에 따라 사용자의 의도가 판단될 수 있다. 즉, 사용자가 장치를 제어하기 위해 음성 명령을 입력하려는 의도를 가지고 있는지 아닌지가 판단될 수 있다. 이에 따라 만약 사용자가 음성 명령 입력 의도를 가지고 있다고 판단되면, 컨텍스트 판단부(13)는 명령 인식부(15)를 활성화시킬 수 있다. 만약 사용자가 음성 명령 입력 의도를 가지고 있지 않다고 판단되면, 컨텍스트 판단부(13)는 대기 상태인 명령 인식부(15)를 유지시킨다.
명령 인식부(15)는 컨텍스트 판단부(13)에 의해 활성화되면, 현재 수신된 음성이 어떤 음성 명령인지를 인식하는 프로세스를 진행시킨다. 여기서 '현재 수신된 음성'이란 컨텍스트 판단부(13)에 의해 사용자가 음성 명령을 입력하려는 의도를 가지고 있다고 판단된 현재 수신된 음성을 의미한다. 이후, 소정 시간 간격 내에 후속 음성이 입력되지 않으면, 명령 인식부(15)는 자동으로 비활성화되어 컨텍스트 판단부(13)에 의해 활성화될 때까지 대기 상태로 유지될 수 있다. 명령 실행부(19)는 명령 인식부(15)에 의해 인식된 음성 명령에 따라 장치의 기능을 제어한다.
한편, 명령 인식부(15)에 의해 인식된 음성 명령과 관련된 사용자 컨텍스트 정보는 명령 컨텍스트 저장부(17)에 누적하여 저장될 수 있다. 이러한 누적 정보는 이후 컨텍스트 판단부(13)에서 다음 음성에 대한 사용자 컨텍스트를 결정하고 사용자 의도를 판단할 때 보조 데이터로서 이용될 수 있다.
도 2를 참조하면, 음성 명령 인식 장치의 실시예를 보여주는 블록도가 도시된다. 이 실시예에서, 음성 명령 인식 장치는 사용자-장치간 거리에 기초하여 사용자 의도를 판단함으로써 음성 명령 인식 기능을 활성화할 수 있다. 도시된 예에서, 음성 명령 인식 장치(20)는 오디오센서(AS)들(21, 22, 23, 24), 거리 계산부(25), 명령 인식부(26), 및 명령 실행부(27) 등의 컴포넌트들을 포함하여 구성될 수 있다.
오디오센서(AS)들(21, 22, 23, 24)은 장치(20)의 서로 다른 고정 위치들에 배치되며 장치 내의 다른 컴포넌트들과 시간 동기화된다. 이들 오디오 센서(AS)는 ULP 타입의 오디오 센서로서, 대기 상태에서도 항상 음성을 수신할 수 있다.
거리 계산부(25)는 수신된 음성에 대하여, 각각의 오디오 센서에 음성 이 도달한 시간 또는 시간차에 따라 발화자와 장치 사이의 거리를 계산할 수 있다. 그런 다음, 계산된 사용자-장치가 거리에 기초하여, 사용자가 장치와 어떤 위치관계에서 음성을 발화하고 있는 상태인지를 결정할 수 있다. 사용자 상태가 결정되면, 결정된 사용자 상태에 따라 사용자의 의도가 판단될 수 있다. 즉, 사용자가 장치를 제어하기 위해 음성 명령을 입력하려는 의도를 가지고 있는지 아닌지가 판단될 수 있다. 이에 따라 만약 사용자가 음성 명령 입력 의도를 가지고 있다고 판단되면, 거리 계산부(25)는 명령 인식부(26)를 활성화시킬 수 있다.
명령 인식부(26)는 거리 계산부(25)에 의해 활성화되면, 현재 수신된 음성이 어떤 음성 명령인지를 인식하는 프로세스를 진행시킨다. 이후, 소정 시간 간격 내에 후속 음성이 입력되지 않으면, 명령 인식부(26)는 자동으로 비활성화되어 거리 계산부(25)에 의해 활성화될 때까지 대기 상태로 유지될 수 있다. 명령 실행부(27)는 명령 인식부(26)에 의해 인식된 음성 명령에 따라 장치의 기능을 제어한다.
이 예에서, 대기 상태일 때는 오디오 센서들(21-24) 만이 활성화되고, 나머지 컴포넌트들은 비활성화된 상태로 유지될 수 있다. 만약 오디오 센서들(21-24)에 의해 인식 가능성이 있는 사람의 음성이 수신되면, 거리 계산부(25)가 자동 활성화되어 거리가 계산될 수 있다. 그런 다음에, 계산된 거리가 소정 문턱값보다 작은 경우에만 명령 인식부(26)가 활성화될 수 있다. 이에 따라, 대기 상태에서 별도의 트리거 명령을 사용하지 않고 직접 음성 명령을 인식하는 장치가 제공된다.
도 3을 참조하면, 도 2의 음성 명령 인식 장치의 구현예를 개략적으로 보여주는 도면이 도시된다. 도시된 예에서, 사용자(U)는 모바일 단말(S)을 손에 들고 사용자 입에 근접시킨 후, 별도의 트리거 명령없이, 음성 명령을 입력할 수 있다. 이 예에서, 모바일 단말(S)에는 디스플레이(D)의 모서리 근처 위치들에 오디오 센서(AS)들이 배치되어 있다. 도시된 배치 형태는 단지 예시에 불과하며, 복수의 오디오 센서들의 수와 배치 위치들은 다양한 조합이 가능하다는 점은 자명하다. 이들 오디오 센서(AS)에 의해 수신된 음성 신호를 도달시간에 기초한 위치 추적 기술을 이용하여 처리함으로써, 모바일 단말(S)은 사용자(U)의 입과 모바일 단말(S)의 중심 사이의 거리, 즉 사용자-장치간 거리를 추정할 수 있다. 추정된 사용자-장치간 거리가 미리 설정되어 있는 기준 거리보다 짧다면 모바일 단말(S)은 사용자(U)가 음성 명령을 입력하려는 의도를 가지고 있다고 판단할 수 있다. 이러한 판단에 따라, 모바일 단말(S)은 오디오 센서들(AS)에 의해 수신된 음성에 대해 음성 명령을 인식하기 위해, 별도의 트리거 명령 없이, 음성 명령 인식 프로세스를 자동으로 활성화시킬 수 있다. 그 결과, 모바일 단말(S)은 사용자가 입력한 음성 명령을 별도의 트리거 명령 없이 직접 인식하여 실행시킬 수 있다.
도 4를 참조하면, 음성 명령 인식 방법의 실시예를 보여주는 흐름도가 도시된다. 이 실시예에서 음성 명령 인식 방법은 사용자-장치간 거리에 기초하여 사용자 의도를 판단할 수 있다.
도시된 예에서, 음성 명령 인식 방법(400)는 음성 명령 인식 프로세스가 비활성화되어 있는 대기 단계(401)로부터 시작한다. 이 대기 단계(401)에서, 음성 수신을 위한 복수의 센서들은 항상 음성 수신 상태로 유지될 수 있다. 대기 단계(401)에서 복수의 음성 수신 센서들이 동작 상태를 유지해야 하므로 전력 소모가 작게 설계된 ULP 센서들이 이용될 수 있다.
사용자가 음성을 발화하면, 복수의 위치에 고정되어 있는 센서들에 의해 음성이 거의 동시에 수신될 수 있다(403). 복수의 센서들은 서로 다른 위치에 배치되므로, 사용자의 음성은 근소한 시간차를 가지고 각각의 센서들에서 수신될 수 있다. 그러면, 그 다음 단계(405)에서, 이러한 근소한 시간차에 기초하여 음원의 위치(예컨대, 사용자 입의 위치)와 센서들의 무게중심의 위치(예컨대, 장치의 중심의 위치) 사이의 거리가 추정 또는 계산될 수 있다.
계산된 또는 추정된 거리는 소정 문턱값보다 작은지 여부가 판단될 수 있다(407). 일반적으로 음성 인식 기술에 있어서, 사용자와 장치 사이의 거리에 따라 음성 인식 정확도가 크게 달라질 수 있다. 특정 장치에 대해서, 음성 명령을 인식하기에 충분한 인식 정확도를 가지는 거리가 미리 문턱값으로서 결정될 수 있다.
만약 사용자-장치간 거리가 문턱값보다 작다면(407의 예), 사용자는 음성 명령을 입력할 의도를 가지고 있다고 판단될 수 있다. 이에 따라 현재 수신된 음성으로부터 명령을 인식하는 프로세스가 활성화되어 수행될 수 있다(409). 뒤이어 인식된 명령이 수행될 수 있다(411). 반면에, 만약 사용자-장치간 거리가 문턱값보다 크다면(407의 아니오), 사용자는 음성 명령을 입력할 의도를 가지고 있지 않다고 판단될 수 있고, 이에 따라 프로세스는 그 다음 음성을 수신하기 위해 대기하는 상태(401)로 복귀한다.
이제 도 5를 참조하면, 음성 명령 인식 장치의 다른 실시예를 보여주는 블록도가 도시된다. 이 실시예에서, 음성 명령 인식 장치는 사용자-장치간 거리에 기초하여 특정 사용자 의도를 판단함으로써 음성 명령 인식 기능을 활성화할 수 있다. 도시된 음성 명령 인식 장치(50)는 오디오센서(AS)들(51, 52, 53, 54), 사용자 인식부(55), 거리 계산부(56), 명령 인식부(57), 및 명령 실행부(58) 등의 컴포넌트들을 포함하여 구성될 수 있다. 이 장치(50)의 컴포넌트들은 도 2에 도시된 장치(20)의 대응하는 컴포넌트들과 유사하며, 사용자 인식부(55)를 더 포함한다는 점에서만 다르다.
사용자 인식부(55)는 오디오센서(AS)들(51, 52, 53, 54)에서 수신된 음성이 특정 사용자의 음성인지 아닌지를 판단하는 컴포넌트이다. 특정 사용자는 자신의 음성이 아닌 제3자에 의해 장치가 제어되는 것을 방지하기 위하여, 자신의 음성을 미리 등록시킬 수 있다. 이 경우, 장치(50)는 특정 사용자가 미리 저장시켜놓은 음성 데이터를 구비한다. 사용자 인식부(55)는 수신된 음성과 저장되어 있는 음성 데이터를 비교함으로써 수신된 음성이 특정 사용자의 음성인지 여부를 판단할 수 있다.
오디오 센서들(51-54)에 의해 수신된 음성이 특정 사용자의 것이라고 판단되면, 거리 계산부(56)가 비활성화 상태에서 활성화 상태로 자동 전환될 수 있다. 그러면, 거리 계산부(56)에 의해 거리가 계산될 수 있고, 계산된 거리에 기초하여 명령 인식부(57)가 활성화될 수 있다. 이후 명령 인식부(57)에 의해 인식된 명령은 명령 실행부(58)에 의해 실행될 수 있다.
이 예에서, 대기 상태일 때는 오디오 센서들(51-54) 만이 활성화되고, 나머지 컴포넌트들은 비활성화된 상태로 유지될 수 있다. 만약 오디오 센서들(51-54)에 의해 인식 가능성이 있는 사람의 음성이 수신되면, 사용자 인식부(55)가 자동 활성화되어, 수신된 사람의 음성이 미리 저장되어 있는 특정 사용자의 음성인지 여부가 판단될 수 있다. 이후 특정 사용자의 음성이라고 판단된 경우에만, 거리 계산부(56)가 자동 활성화되어 거리가 계산될 수 있다. 그런 다음에, 계산된 거리가 소정 문턱값보다 작은 경우에만 명령 인식부(57)가 활성화될 수 있다. 이에 따라, 대기 상태에서 별도의 트리거 명령을 사용하지 않고 특정 사용자에 의한 음성 명령을 직접 인식하는 장치가 제공된다.
도 6을 참조하면, 도 5의 음성 명령 인식 장치의 구현예를 개략적으로 보여주는 도면이 도시된다. 도시된 예에서, 다수의 사용자들(U1, U2, U3)이 모바일 단말(S)의 근접 범위 내에서 대화를 하고 있는 상황을 볼 수 있다. 한 사용자(U1)가 별도의 트리거 명령없이, 모바일 단말(S)을 향하여 음성 명령을 발화할 수 있다. 모바일 단말(S)은 오디오 센서(AS)들에 의해 수신된 음성을 미리 저장되어 있는 음성 데이터와 비교함으로써, 현재 음성을 발화한 사용자(U1)가 미리 등록된 사용자인지 여부를 판단할 수 있다. 그 결과 사용자(U1)가 미리 등록된 사용자라고 판단되면, 모바일 단말(S)은 수신된 음성이 오디오 센서들로 도달한 시간을 이용하여 사용자-장치간 거리를 추정함으로써, 음성 명령 인식 프로세스를 활성화할 수 있다. 이와 같이, 모바일 단말(S)은 다수의 사용자가 모바일 단말(S)에 근접한 거리에서 음성을 발화한 경우에도, 미리 지정한 사용자의 음성 명령만을 별도의 트리거 명령 없이 직접 인식하여 실행시킬 수 있다.
도 7을 참조하면, 음성 명령 인식 방법의 다른 실시예를 보여주는 흐름도가 도시된다. 이 실시예에서 음성 명령 인식 방법은 사용자-장치간 거리에 기초하여 미리 등록된 특정 사용자 의도를 판단할 수 있다. 도시된 예에서, 음성 명령 인식 방법(700)는 음성 명령 인식 프로세스가 비활성화되어 있는 대기 단계(701)로부터 시작한다.
사용자가 음성을 발화하면, 복수의 위치에 고정되어 있는 센서들에 의해 음성이 거의 동시에 수신될 수 있다(703). 복수의 센서들은 서로 다른 위치에 배치되므로, 사용자의 음성은 근소한 시간차를 가지고 각각의 센서들에서 수신될 수 있다. 그러면 그 다음 단계(705)에서, 수신된 음성이 미리 등록되어 저장되어 있는 사용자의 음성 데이터와 비교된다. 만약 수신된 음성이 미리 등록된 사용자의 음성이라면(707의 예), 수신된 음성으로부터 사용자-장치간 거리가 계산된다(709). 만약 수신된 음성이 미리 등록된 사용자의 음성이 아니라면(707의 아니오), 처음의 대기 단계(701)로 복귀하여 그 다음 음성의 수신을 기다린다.
단계(709)에서 계산된 또는 추정된 거리는 소정 문턱값보다 작은지 여부가 판단될 수 있다(711). 만약 사용자-장치간 거리가 문턱값보다 작다면(711의 예), 사용자는 음성 명령을 입력할 의도를 가지고 있다고 판단될 수 있다. 이에 따라 현재 수신된 음성으로부터 명령을 인식하는 프로세스가 활성화되어 수행될 수 있다(713). 뒤이어 인식된 명령이 수행될 수 있다(715). 반면에, 만약 사용자-장치간 거리가 문턱값보다 크다면(711의 아니오), 사용자는 음성 명령을 입력할 의도를 가지고 있지 않다고 판단될 수 있고, 이에 따라 프로세스는 그 다음 음성을 수신하기 위해 대기하는 상태(701)로 복귀한다.
이제 도 8을 참조하면, 음성 명령 인식 장치의 또 다른 실시예를 보여주는 블록도가 도시된다. 이 실시예에서, 음성 명령 인식 장치는 사용자-장치간 거리뿐만 아니라 수신된 음성과 배경잡음과의 비교 결과에 기초하여 특정 사용자 의도를 판단함으로써 음성 명령 인식 기능을 활성화할 수 있다. 도시된 음성 명령 인식 장치(80)는 오디오센서(AS)들(81, 82, 83, 84), 거리 계산부(85), 배경잡음 비교부(86), 명령 인식부(87), 및 명령 실행부(88) 등의 컴포넌트들을 포함하여 구성될 수 있다. 이 장치(80)의 컴포넌트들은 도 2에 도시된 장치(20)의 대응하는 컴포넌트들과 유사하며, 배경잡음 비교부(86)를 더 포함한다는 점에서만 다르다.
예컨대 사용자가 자신의 장치(80)을 근처에 놓아둔 상태로 운전을 하고 있거나 사무실에서 데스크탑 컴퓨터를 이용해 문서작업을 하면서, 장치(80)에게 특정 정보를 출력하라는 음성 명령을 입력할 수 있다. 이 경우, 장치(80)는 사용자-장치간 거리뿐만 아니라, 사용자가 장치(80)를 향하여 발화하고 있음을 결정함으로써, 수신된 음성이 음성 명령이라고 판단할 수 있다. 도시된 예에서, 한편으로 거리 계산부(85)는 복수의 오디오센서(AS)들(81, 82, 83, 84)에서 수신된 음성으로부터 사용자-장치간 거리를 계산하고, 다른 한편으로 배경잡음 비교부(86)는 오디오센서(AS)들(81, 82, 83, 84)에서 수신된 음성으로부터 사용자가 장치(80)를 향하여 발화하고 있는지를 판단한다. 예를 들어, 배경잡음 비교부(86)는, 수신된 음성의 세기를 이 음성과 함께 수신된 배경잡음의 세기와 서로 비교할 수 있다. 이를 위해 배경잡음 비교부(86)는 수신된 음성의 신호대잡음비(SNR, signal-to-noise ratio)를 추출할 수 있다.
오디오 센서들(81-84)에 의해 수신된 음성의 SNR이 소정 문턱값보다 크고(즉, 배경잡음이 작고 음성이 큰 경우), 사용자-장치간 거리가 소정 문턱값보다 작다면(즉, 사용자와 장치 사이가 충분히 근접한 경우), 명령 인식부(87)가 활성화될 수 있다. 이후 명령 인식부(57)에 의해 인식된 명령은 명령 실행부(88)에 의해 실행될 수 있다.
이 예에서, 대기 상태일 때는 오디오 센서들(81-84) 만이 활성화되고, 나머지 컴포넌트들은 비활성화된 상태로 유지될 수 있다. 만약 오디오 센서들(81-84)에 의해 인식 가능성이 있는 사람의 음성이 수신되면, 거리 계산부(85) 또는 배경잡음 비교부(86) 중 어느 하나가 자동 활성화되어, 수신된 사람의 음성으로부터 계산되는 사용자-장치간 거리 또는 신호대잡음비가 미리 설정된 기준값에 비교된다. 그런 다음, 사용자-장치간 거리가 충분히 짧고 동시에 신호대잡음비가 충분히 큰 경우에만 명령 인식부(87)가 활성화될 수 있다. 이에 따라, 대기 상태에서 별도의 트리거 명령을 사용하지 않고 특정 사용자에 의한 음성 명령을 직접 인식하는 장치가 제공된다.
도 9을 참조하면, 도 8의 음성 명령 인식 장치의 구현예를 개략적으로 보여주는 도면이 도시된다. 도시된 예에서, 사용자(U)가 모바일 단말(S)을 근처에 놓아 둔 채 운전을 하고 있는 상황을 볼 수 있다. 예를 들어, 사용자(U)는 주변에 갈만한 음식점을 찾고 있는 중일 수 있다. 이 경우, 사용자는 별도의 트리거 명령없이, 모바일 단말(S)을 향하여 주변 음식점을 검색하여 출력하라는 음성 명령을 발화할 수 있다. 모바일 단말(S)은 오디오 센서(AS)들에 의해 수신된 음성으로부터 사용자-장치간 거리를 계산하고 SNR을 추출할 수 있다. 모바일 단말(S)은 사용자-장치간 거리 및 SNR로부터 현재 음성을 발화한 사용자(U)가 음성 명령을 입력하려는 것임을 판단할 수 있고, 음성 명령 인식 프로세스를 활성화할 수 있다. 이와 같이, 모바일 단말(S)은 사용자(S)가 모바일 단말(S)에 근접한 거리에서 모바일 단말(S)을 향하여 발화한 경우를 판단함으로써, 별도의 트리거 명령 없이 직접 사용자 음성으로부터 명령을 인식하여 실행시킬 수 있다.
도 10을 참조하면, 음성 명령 인식 방법의 또 다른 실시예를 보여주는 흐름도가 도시된다. 이 실시예에서 음성 명령 인식 방법은 사용자-장치간 거리 및 음성과 배경잡음의 차이에 기초하여 사용자 의도를 판단할 수 있다. 도시된 예에서, 음성 명령 인식 방법(1000)는 음성 명령 인식 프로세스가 비활성화되어 있는 대기 단계(1001)로부터 시작한다. 이 대기 단계(1001)에서, 음성 수신을 위한 복수의 센서들은 항상 음성 수신 상태로 유지될 수 있다.
사용자가 음성을 발화하면, 복수의 위치에 고정되어 있는 센서들에 의해 음성이 거의 동시에 수신될 수 있다(1003). 이후, 수신된 음성으로부터 사용자-장치간 거리가 계산된다(1005). 사용자-장치간 거리가 소정 문턱값보다 작다면(1007의 예), 음성과 배경잡음 차이가 계산된다(1009). 만약 사용자-장치간 거리가 소정 문턱값보다 크다면(1007의 아니오), 처음의 대기 단계(1001)로 복귀하여 그 다음 음성의 수신을 기다린다.
단계(1009)에서 계산된 음성과 배경잡음 차이(예컨대, SNR)는 소정 문턱값보다 큰지 여부가 판단될 수 있다(1011). 만약 SNR이 문턱값보다 크다면(1011의 예), 사용자는 음성 명령을 입력할 의도를 가지고 있다고 판단될 수 있다. 이에 따라 현재 수신된 음성으로부터 명령을 인식하는 프로세스가 활성화되어 수행될 수 있다(1013). 뒤이어 인식된 명령이 수행될 수 있다(1015). 반면에, 만약 SNR이 문턱값보다 작다면(1011의 아니오), 사용자는 음성 명령을 입력할 의도를 가지고 있지 않다고 판단될 수 있고, 이에 따라 프로세스는 그 다음 음성을 수신하기 위해 대기하는 상태(1001)로 복귀한다.
이제 도 11을 참조하면, 음성 명령 인식 장치의 또 다른 실시예를 보여주는 블록도가 도시된다. 이 실시예에서, 음성 명령 인식 장치는 사용자-장치간 거리뿐만 아니라 사용자 행동 및 동작에 기초하여 특정 사용자 의도를 판단함으로써 음성 명령 인식 기능을 활성화할 수 있다. 도시된 음성 명령 인식 장치(110)는 오디오센서(AS)들(111, 112, 113, 114), 거리 계산부(115), 모션센서(116), 행동 인식부(117), 이벤트 감지부(118), 기기동작 인식부(119), 컨텍스트 인식부(120), 명령 인식부(121), 및 명령 실행부(122) 등의 컴포넌트들을 포함하여 구성될 수 있다. 이 장치(110)의 컴포넌트들은 도 2에 도시된 장치(20)의 대응하는 컴포넌트들과 유사하며, 모션센서(116), 행동 인식부(117), 이벤트 감지부(118), 기기동작 인식부(119), 컨텍스트 인식부(120)를 더 포함한다는 점에서 다르다.
도시된 예에서, 한편으로 거리 계산부(115)는 복수의 오디오센서(AS)들(111, 112, 113, 114)에서 수신된 음성으로부터 사용자-장치간 거리를 계산한다. 다른 한편으로 행동 인식부(117)는 모션센서(116)에 의해 검출된 장치의 움직임으로부터 사용자의 행동을 인식한다. 또 다른 한편으로 기기동작 인식부(119)는 이벤트 감지부(118)에 의해 검출된 장치 내에서 이루어지는 이벤트로부터 장치의 동작을 인식한다. 그리고, 컨텍스트 인식부(120)는 거리 계산부(115)에 의해 산출된 사용자-장치간 거리와, 행동인식부(117)에 의해 추정된 사용자 행동과, 기기동작 인식부(119)에 의해 인식된 장치의 동작을 통합함으로써 사용자의 상황을 인식할 수 있다.
예를 들어, 컨텍스트 인식부(120)는, 사용자-장치간 거리가 충분히 가깝고, 사용자가 장치를 움직이는 행동이 음성 명령 입력을 위한 행동에서 크게 벗어나지 않으며, 장치의 동작으로 볼 때 사용자가 음성 명령을 이용할 수 있는 상황이라는 것으로 판단할 수 있다. 이런 경우, 컨텍스트 인식부(120)는 명령 인식부(121)를 활성화시킬 수 있고, 이후 명령 인식부(121)에 의해 인식된 명령은 명령 실행부(122)에 의해 실행될 수 있다.
이 예에서, 대기 상태일 때는 오디오 센서들(111-114) 만이 활성화되고, 나머지 컴포넌트들은 비활성화된 상태로 유지될 수 있다. 만약 오디오 센서들(111-114)에 의해 인식 가능성이 있는 사람의 음성이 수신되면, 거리 계산부(115), 행동 인식부(117), 및 기기 동작 인식부(119) 중 어느 하나가 자동 활성화될 수 있다. 그런 다음, 컨텍스트 인식부(120)는 사용자-장치간 거리가 충분히 짧고 동시에 사용자 행동과 장치의 동작이 음성 명령을 이용할 수 있는 상황인 경우에만 명령 인식부(121)를 활성화시킬 수 있다. 이에 따라, 대기 상태에서 별도의 트리거 명령을 사용하지 않고, 수신된 음성, 사용자 행동, 장치의 동작에 기초하여 음성 명령을 직접 인식하는 장치가 제공된다.
도 12를 참조하면, 도 11의 음성 명령 인식 장치의 구현예를 개략적으로 보여주는 도면이 도시된다. 도시된 예에서, 사용자(U)가 스마트 워치(SW)을 착용한 팔을 얼굴 근처로 들어올리는 상황을 볼 수 있다. 이 경우, 사용자는 별도의 트리거 명령없이, 스마트 워치(SW)를 향하여 문자 메시지가 온 것이 있는지 찾으라는 음성 명령을 발화할 수 있다. 스마트 워치(SW)은 내장된 복수의 오디오 센서들에 의해 수신된 음성으로부터 사용자-장치간 거리를 계산하고, 모션 센서에 의해 사용자가 팔을 들어 올리고 있음을 인식하고, 장치에서 실행되는 애플리케이션 등을 검출하여 장치의 동작을 인식할 수 있다. 그런 다음 현재 수신된 사용자의 음성은 사용자(U)가 음성 명령을 입력하려는 것임을 판단할 수 있고, 음성 명령 인식 프로세스를 활성화할 수 있다.
도 13을 참조하면, 음성 명령 인식 방법의 또 다른 실시예를 보여주는 흐름도가 도시된다. 이 실시예에서 음성 명령 인식 방법은 사용자-장치간 거리 및 사용자 행동 및/또는 장치의 동작에 기초하여 사용자 의도를 판단할 수 있다. 도시된 예에서, 음성 명령 인식 방법(1300)는 음성 명령 인식 프로세스가 비활성화되어 있는 대기 단계(1301)로부터 시작한다. 이 대기 단계(1301)에서, 음성 수신을 위한 복수의 센서들은 항상 음성 수신 상태로 유지될 수 있다.
사용자가 음성을 발화하면, 복수의 위치에 고정되어 있는 센서들에 의해 음성이 거의 동시에 수신될 수 있다(1303). 이후, 수신된 음성으로부터 사용자-장치간 거리가 계산된다(1305). 사용자-장치간 거리가 소정 문턱값보다 작다면(1307의 예), 사용자 행동 및/또는 장치의 이벤트가 감지된다(1309). 만약 사용자-장치간 거리가 소정 문턱값보다 크다면(1307의 아니오), 처음의 대기 단계(1001)로 복귀하여 그 다음 음성의 수신을 기다린다.
단계(1309)에서 인식된 사용자 행동 및/또는 장치의 동작에 기초하여 사용자 컨텍스트가 인식될 수 있다(1311). 인식된 사용자 컨텍스트에 의해 사용자가 음성 명령을 입력할 의도를 가지고 있다고 판단되면(1313의 예), 현재 수신된 음성으로부터 명령을 인식하는 프로세스가 활성화되어 수행될 수 있다(1315). 뒤이어 인식된 명령이 수행될 수 있다(1317). 반면에, 인식된 사용자 컨텍스트에 의해 사용자가 음성 명령을 입력할 의도를 가지고 있지 않다고 판단되면(1313의 아니오), 사용자는 음성 명령을 입력할 의도를 가지고 있지 않다고 판단될 수 있고, 이에 따라 프로세스는 그 다음 음성을 수신하기 위해 대기하는 상태(1301)로 복귀한다.
위에서 도 1 내지 도 13을 참조하여, 사용자-장치간 거리 등을 포함하는 사용자 컨텍스트에 기초하여 사용자의 의도를 판단하고 음성 명령 인식을 활성화하는 실시예들이 기술되었다. 비록 기술된 실시예들에서, 복수의 오디오 센서들을 내장하는 모바일 단말, 웨어러블 단말을 음성 명령 인식 장치의 예로 들고 있지만, 기술된 실시예들이 모바일/웨어러블 단말로만 제한되는 것은 아니다. 실시예들에 따른 음성 명령 인식 장치에는, 사용자로부터 음성을 수신할 수 있고, 관련 센서들을 구비하며, 신호 처리를 위한 프로세 및 메모리 등을 포함하는 장치라면 제한 없이 포함될 수 있다. 예를 들어, 모바일 장치, 웨어러블 장치, 컴퓨팅 장치, 오디오 기기, 텔레비전, 데스크탑, 태블릿PC, 노트북, 셋탑박스, 게임 콘솔, 에어컨 등의 다양한 장치들이 포함될 수 있다.
상술한 음성 명령 인식 장치의 컴포넌트들은 특정 기능을 수행하도록 구성된 회로를 포함하는 하드웨어에 의해 구현될 수 있다. 다른 방식으로, 음성 명령 인식 장치의 컴포넌트들은 프로세서, 메모리, 사용자 입력장치, 및/또는 프레젠테이션 장치 등을 포함할 수 있는 컴퓨팅 장치의 하드웨어, 펌웨어, 소프트웨어 컴포넌트들의 조합에 의해 구현될 수 있다. 메모리는, 프로세서에 의해 실행되면 특정 태스크를 수행할 있도록 코딩되어 있는 컴퓨터 실행가능 소프트웨어, 애플리케이션, 프로그램 모듈, 루틴, 인스트럭션(instructions), 및/또는 데이터 등을 저장하는 컴퓨터 판독가능 스토리지 매체이다. 프로세서는 컴퓨터 판독가능 매체에 포함되어 있는 컴퓨터 실행가능 소프트웨어, 애플리케이션, 프로그램 모듈, 루틴, 인스트럭션, 및/또는 데이터 등을 판독하여 실행할 수 있다. 사용자 입력장치는 사용자로 하여금 프로세서에게 특정 태스크를 실행하도록 하는 명령을 입력하거나 특정 태스크의 실행에 필요한 데이터를 입력하도록 하는 수단일 수 있다. 사용자 입력장치는 물리적인 또는 가상적인 키보드나 키패드, 키버튼, 마우스, 조이스틱, 트랙볼, 터치-민감형 입력수단, 또는 마이크로폰 등을 포함할 수 있다. 프레젠테이션 장치는 디스플레이, 프린터, 스피커, 또는 진동장치 등을 포함할 수 있다.
한편 상술한 음성 명령 인식 방법의 단계, 과정, 프로세스들은 특정 기능을 수행하도록 구성된 회로를 포함하는 하드웨어에 의해 실행될 수 있다. 다른 방식으로, 음성 명령 인식 방법은, 컴퓨터 실행가능 인스트럭션으로서 코딩되어 컴퓨팅 장치의 프로세서에 의해 실행됨으로써 구현될 수 있다. 컴퓨터 실행가능 인스트럭션은 소프트웨어, 애플리케이션, 모듈, 프로시저, 플러그인, 프로그램, 인스트럭션, 및/또는 데이터 구조 등을 포함할 수 있다. 컴퓨터 실행가능 인스트럭션은 컴퓨터 판독가능 매체 상에 포함될 수 있다. 컴퓨터 판독가능 매체는 컴퓨터 판독가능 스토리지 매체 및 컴퓨터 판독가능 통신 매체를 포함한다. 컴퓨터 판독가능 스토리지 매체는 RAM, ROM, 플래시 메모리, 광 디스크, 자기 디스크, 자기 테이프, 자기 카세트, 하드 디스크, 솔리드 스테이트 디스크 등을 포함할 수 있다. 컴퓨터 판독가능 통신 매체는 진단 방법이 코딩되어 있는 컴퓨터 실행가능 인스트럭션이 통신망을 통해 송수신 가능한 신호의 형태로 코딩된 것을 의미할 수 있다.
10: 음성 명령 인식 장치
11: 감지부
13: 컨텍스트 판단부
15: 명령 인식부
17: 명령 실행부
19: 명령 컨텍스트

Claims (14)

  1. 서로 다른 위치들에 배치되는 복수의 오디오 센서들과;
    상기 오디오 센서들로부터 수신된 음성으로부터, 상기 음성을 발화한 사용자의 상황을 포함하는 사용자 컨텍스트를 결정하는 컨텍스트 판단부와;
    상기 사용자 컨텍스트에 기초하여, 상기 음성으로부터 미리 설정된 명령을 인식하도록 활성화되거나 또는 비활성화된 상태로 유지되는 명령 인식부를
    포함하는, 음성 명령 인식 장치.
  2. 제 1 항에 있어서,
    상기 컨텍스트 판단부는, 상기 음성이 상기 오디오 센서들 각각에 도달한 도달시간에 기초하여, 상기 음성을 발화한 사용자와 사이의 거리를 계산하는 거리 계산부를 포함하고,
    상기 명령 인식부는, 상기 거리에 기초하여, 상기 음성으로부터 미리 설정된 명령을 인식하도록 활성화되거나 또는 비활성화된 상태로 유지되는,
    음성 명령 인식 장치.
  3. 제 1 항에 있어서,
    상기 컨텍스트 판단부는,
    상기 음성이 미리 저장된 특정 사용자에 의해 발화된 것인지 여부를 판단하는 사용자 인식부, 및 상기 음성이 상기 특정 사용자에 의해 발화된 것이라고 판단되는 경우, 상기 음성이 상기 오디오 센서들 각각에 도달한 도달시간에 기초하여, 상기 음성을 발화한 사용자와 사이의 거리를 계산하는 거리 계산부를 포함하고,
    상기 명령 인식부는, 상기 거리에 기초하여, 상기 음성으로부터 미리 설정된 명령을 인식하도록 활성화되거나 또는 비활성화된 상태로 유지되는,
    음성 명령 인식 장치.
  4. 제 1 항에 있어서,
    상기 컨텍스트 판단부는,
    상기 음성이 상기 오디오 센서들 각각에 도달한 도달시간에 기초하여, 상기 음성을 발화한 사용자와 사이의 거리를 계산하는 거리 계산부, 및 상기 음성과 그 배경잡음의 차이의 크기를 비교하는 배경잡음 비교부를 포함하고,
    상기 명령 인식부는, 상기 거리 및 상기 음성과 그 배경잡음의 차이에 기초하여, 상기 음성으로부터 미리 설정된 명령을 인식하도록 활성화되거나 또는 비활성화된 상태로 유지되는,
    음성 명령 인식 장치.
  5. 제 1 항에 있어서,
    움직임을 검출하는 모션 센서를 더 구비하며,
    상기 컨텍스트 판단부는,
    상기 음성이 상기 오디오 센서들 각각에 도달한 도달시간에 기초하여, 상기 음성을 발화한 사용자와 사이의 거리를 계산하는 거리 계산부, 및 상기 모션센서에 의해 검출된 움직임으로부터 상기 사용자의 행동을 인식하는 행동 인식부를 포함하고,
    상기 명령 인식부는, 상기 거리 및 상기 행동에 기초하여, 상기 음성으로부터 미리 설정된 명령을 인식하도록 활성화되거나 또는 비활성화된 상태로 유지되는,
    음성 명령 인식 장치.
  6. 제 1 항에 있어서,
    이벤트를 감지하는 이벤트 감지부를 더 구비하며,
    상기 컨텍스트 판단부는,
    상기 음성이 상기 오디오 센서들 각각에 도달한 도달시간에 기초하여, 상기 음성을 발화한 사용자와 사이의 거리를 계산하는 거리 계산부, 및 상기 이벤트 감지부에 의해 검출된 이벤트로부터 상기 장치의 동작을 인식하는 기기동작 인식부를 포함하고,
    상기 명령 인식부는, 상기 거리 및 상기 동작에 기초하여, 상기 음성으로부터 미리 설정된 명령을 인식하도록 활성화되거나 또는 비활성화된 상태로 유지되는,
    음성 명령 인식 장치.
  7. 제 1 항에 있어서,
    움직임을 검출하는 모션 센서, 및 이벤트를 감지하는 이벤트 감지부를 더 구비하며,
    상기 컨텍스트 판단부는,
    상기 음성이 상기 오디오 센서들 각각에 도달한 도달시간에 기초하여, 상기 음성을 발화한 사용자와 사이의 거리를 계산하는 거리 계산부, 상기 모션센서에 의해 검출된 움직임으로부터 상기 사용자의 행동을 인식하는 행동 인식부, 및 상기 이벤트 감지부에 의해 검출된 이벤트로부터 상기 장치의 동작을 인식하는 기기동작 인식부를 포함하고,
    상기 명령 인식부는, 상기 거리, 상기 행동 및 상기 동작에 기초하여, 상기 음성으로부터 미리 설정된 명령을 인식하도록 활성화되거나 또는 비활성화된 상태로 유지되는,
    음성 명령 인식 장치.
  8. 복수의 서로 다른 위치에서 음성을 수신하는 단계;
    수신된 음성으로부터, 상기 음성을 발화한 사용자의 상황을 포함하는 사용자 컨텍스트를 결정하는 컨텍스트 판단 단계와;
    상기 사용자 컨텍스트에 기초하여, 상기 음성으로부터 미리 설정된 명령을 인식하도록 활성화되거나 또는 비활성화된 상태로 유지되는 명령 인식 단계를
    포함하는, 음성 명령 인식 방법.
  9. 제 8 항에 있어서,
    상기 컨텍스트 판단 단계는, 상기 음성이 상기 오디오 센서들 각각에 도달한 도달시간에 기초하여, 상기 음성을 발화한 사용자와 사이의 거리를 계산하는 거리 계산 단계를 포함하고,
    상기 명령 인식 단계는, 상기 거리에 기초하여, 상기 음성으로부터 미리 설정된 명령을 인식하도록 활성화되거나 또는 비활성화된 상태로 유지되는,
    음성 명령 인식 방법.
  10. 제 8 항에 있어서,
    상기 컨텍스트 판단 단계는,
    상기 음성이 미리 저장된 특정 사용자에 의해 발화된 것인지 여부를 판단하는 사용자 인식 단계, 및 상기 음성이 상기 특정 사용자에 의해 발화된 것이라고 판단되는 경우, 상기 음성이 상기 오디오 센서들 각각에 도달한 도달시간에 기초하여, 상기 음성을 발화한 사용자와 사이의 거리를 계산하는 거리 계산 단계를 포함하고,
    상기 명령 인식 단계는, 상기 거리에 기초하여, 상기 음성으로부터 미리 설정된 명령을 인식하도록 활성화되거나 또는 비활성화된 상태로 유지되는,
    음성 명령 인식 방법.
  11. 제 8 항에 있어서,
    상기 컨텍스트 판단 단계는,
    상기 음성이 상기 오디오 센서들 각각에 도달한 도달시간에 기초하여, 상기 음성을 발화한 사용자와 사이의 거리를 계산하는 거리 계산 단계, 및 상기 음성과 그 배경잡음의 차이의 크기를 비교하는 배경잡음 비교 단계를 포함하고,
    상기 명령 인식 단계는, 상기 거리 및 상기 음성과 그 배경잡음의 차이에 기초하여, 상기 음성으로부터 미리 설정된 명령을 인식하도록 활성화되거나 또는 비활성화된 상태로 유지되는,
    음성 명령 인식 방법.
  12. 제 8 항에 있어서,
    상기 컨텍스트 판단 단계는,
    상기 음성이 상기 오디오 센서들 각각에 도달한 도달시간에 기초하여, 상기 음성을 발화한 사용자와 사이의 거리를 계산하는 거리 계산 단계, 및 모션센서에 의해 검출된 움직임으로부터 상기 사용자의 행동을 인식하는 행동 인식 단계를 포함하고,
    상기 명령 인식 단계는, 상기 거리 및 상기 행동에 기초하여, 상기 음성으로부터 미리 설정된 명령을 인식하도록 활성화되거나 또는 비활성화된 상태로 유지되는,
    음성 명령 인식 방법.
  13. 제 8 항에 있어서,
    상기 컨텍스트 판단 단계는,
    상기 음성이 상기 오디오 센서들 각각에 도달한 도달시간에 기초하여, 상기 음성을 발화한 사용자와 사이의 거리를 계산하는 거리 계산 단계, 및 상기 이벤트 감지부에 의해 검출된 이벤트로부터 상기 장치의 동작을 인식하는 기기동작 인식 단계를 포함하고,
    상기 명령 인식 단계는, 상기 거리 및 상기 동작에 기초하여, 상기 음성으로부터 미리 설정된 명령을 인식하도록 활성화되거나 또는 비활성화된 상태로 유지되는,
    음성 명령 인식 방법.
  14. 제 8 항에 있어서,
    상기 컨텍스트 판단 단계는,
    상기 음성이 상기 오디오 센서들 각각에 도달한 도달시간에 기초하여, 상기 음성을 발화한 사용자와 사이의 거리를 계산하는 거리 계산 단계, 모션센서에 의해 검출된 움직임으로부터 상기 사용자의 행동을 인식하는 행동 인식 단계, 및 이벤트 감지부에 의해 검출된 이벤트로부터 상기 장치의 동작을 인식하는 기기동작 인식 단계를 포함하고,
    상기 명령 인식 단계는, 상기 거리, 상기 행동 및 상기 동작에 기초하여, 상기 음성으로부터 미리 설정된 명령을 인식하도록 활성화되거나 또는 비활성화된 상태로 유지되는,
    음성 명령 인식 방법.
KR1020140060559A 2014-05-20 2014-05-20 음성 명령 인식 장치 및 방법 KR102216048B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020140060559A KR102216048B1 (ko) 2014-05-20 2014-05-20 음성 명령 인식 장치 및 방법
US14/616,270 US9953654B2 (en) 2014-05-20 2015-02-06 Voice command recognition apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140060559A KR102216048B1 (ko) 2014-05-20 2014-05-20 음성 명령 인식 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20150133586A true KR20150133586A (ko) 2015-11-30
KR102216048B1 KR102216048B1 (ko) 2021-02-15

Family

ID=54556507

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140060559A KR102216048B1 (ko) 2014-05-20 2014-05-20 음성 명령 인식 장치 및 방법

Country Status (2)

Country Link
US (1) US9953654B2 (ko)
KR (1) KR102216048B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200082137A (ko) * 2018-12-28 2020-07-08 삼성전자주식회사 전자 장치 및 그의 제어 방법
WO2020184842A1 (ko) * 2019-03-12 2020-09-17 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법
US11074910B2 (en) 2017-01-09 2021-07-27 Samsung Electronics Co., Ltd. Electronic device for recognizing speech

Families Citing this family (193)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US10373615B2 (en) * 2012-10-30 2019-08-06 Google Technology Holdings LLC Voice control user interface during low power mode
US10304465B2 (en) * 2012-10-30 2019-05-28 Google Technology Holdings LLC Voice control user interface for low power mode
US9584642B2 (en) * 2013-03-12 2017-02-28 Google Technology Holdings LLC Apparatus with adaptive acoustic echo control for speakerphone mode
US10381001B2 (en) * 2012-10-30 2019-08-13 Google Technology Holdings LLC Voice control user interface during low-power mode
DE112014000709B4 (de) 2013-02-07 2021-12-30 Apple Inc. Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3937002A1 (en) 2013-06-09 2022-01-12 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
DE102014009689A1 (de) * 2014-06-30 2015-12-31 Airbus Operations Gmbh Intelligentes Soundsystem/-modul zur Kabinenkommunikation
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
KR102318887B1 (ko) * 2015-03-06 2021-10-29 삼성전자주식회사 웨어러블 전자 장치 및 그 제어 방법
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9886953B2 (en) * 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
EP3067884B1 (en) * 2015-03-13 2019-05-08 Samsung Electronics Co., Ltd. Speech recognition system and speech recognition method thereof
CN106157955A (zh) 2015-03-30 2016-11-23 阿里巴巴集团控股有限公司 一种语音控制方法及装置
US9799349B2 (en) * 2015-04-24 2017-10-24 Cirrus Logic, Inc. Analog-to-digital converter (ADC) dynamic range enhancement for voice-activated systems
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
KR20170010494A (ko) * 2015-07-20 2017-02-01 엘지전자 주식회사 이동 단말기 및 그 제어 방법
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10008201B2 (en) * 2015-09-28 2018-06-26 GM Global Technology Operations LLC Streamlined navigational speech recognition
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
JP6841232B2 (ja) * 2015-12-18 2021-03-10 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
JP2017117371A (ja) * 2015-12-25 2017-06-29 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 制御方法、制御装置およびプログラム
US10388280B2 (en) * 2016-01-27 2019-08-20 Motorola Mobility Llc Method and apparatus for managing multiple voice operation trigger phrases
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
JP6897677B2 (ja) * 2016-06-15 2021-07-07 ソニーグループ株式会社 情報処理装置及び情報処理方法
US10621992B2 (en) * 2016-07-22 2020-04-14 Lenovo (Singapore) Pte. Ltd. Activating voice assistant based on at least one of user proximity and context
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10103699B2 (en) * 2016-09-30 2018-10-16 Lenovo (Singapore) Pte. Ltd. Automatically adjusting a volume of a speaker of a device based on an amplitude of voice input to the device
US10733989B2 (en) * 2016-11-30 2020-08-04 Dsp Group Ltd. Proximity based voice activation
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
KR20180074152A (ko) 2016-12-23 2018-07-03 삼성전자주식회사 보안성이 강화된 음성 인식 방법 및 장치
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10467509B2 (en) 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Computationally-efficient human-identifying smart assistant computer
US20220238134A1 (en) * 2017-02-27 2022-07-28 VTouch Co., Ltd. Method and system for providing voice recognition trigger and non-transitory computer-readable recording medium
KR101893768B1 (ko) * 2017-02-27 2018-09-04 주식회사 브이터치 음성 인식 트리거를 제공하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체
WO2018169381A1 (en) * 2017-03-17 2018-09-20 Samsung Electronics Co., Ltd. Method and system for automatically managing operations of electronic device
US10403276B2 (en) * 2017-03-17 2019-09-03 Microsoft Technology Licensing, Llc Voice enabled features based on proximity
JP7337699B2 (ja) * 2017-03-23 2023-09-04 ジョイソン セイフティ システムズ アクイジション エルエルシー 口の画像を入力コマンドと相互に関連付けるシステム及び方法
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10664533B2 (en) 2017-05-24 2020-05-26 Lenovo (Singapore) Pte. Ltd. Systems and methods to determine response cue for digital assistant based on context
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US11567726B2 (en) * 2017-07-21 2023-01-31 Google Llc Methods, systems, and media for providing information relating to detected events
KR102338376B1 (ko) 2017-09-13 2021-12-13 삼성전자주식회사 디바이스 그룹을 지정하기 위한 전자 장치 및 이의 제어 방법
US10719592B1 (en) * 2017-09-15 2020-07-21 Wells Fargo Bank, N.A. Input/output privacy tool
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
KR102492727B1 (ko) * 2017-12-04 2023-02-01 삼성전자주식회사 전자장치 및 그 제어방법
US10402149B2 (en) * 2017-12-07 2019-09-03 Motorola Mobility Llc Electronic devices and methods for selectively recording input from authorized users
CN108153700A (zh) * 2017-12-14 2018-06-12 北京酷我科技有限公司 一种iOS上声控计算器的实现方法
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10719832B1 (en) 2018-01-12 2020-07-21 Wells Fargo Bank, N.A. Fraud prevention tool
CN108154140A (zh) * 2018-01-22 2018-06-12 北京百度网讯科技有限公司 基于唇语的语音唤醒方法、装置、设备及计算机可读介质
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10757323B2 (en) 2018-04-05 2020-08-25 Motorola Mobility Llc Electronic device with image capture command source identification and corresponding methods
EP3561806B1 (en) 2018-04-23 2020-04-22 Spotify AB Activation trigger processing
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11076039B2 (en) 2018-06-03 2021-07-27 Apple Inc. Accelerated task performance
DE102018212902A1 (de) * 2018-08-02 2020-02-06 Bayerische Motoren Werke Aktiengesellschaft Verfahren zum Bestimmen eines digitalen Assistenten zum Ausführen einer Fahrzeugfunktion aus einer Vielzahl von digitalen Assistenten in einem Fahrzeug, computerlesbares Medium, System, und Fahrzeug
JP7055721B2 (ja) * 2018-08-27 2022-04-18 京セラ株式会社 音声認識機能を有する電子機器、その電子機器の制御方法およびプログラム
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US10861457B2 (en) * 2018-10-26 2020-12-08 Ford Global Technologies, Llc Vehicle digital assistant authentication
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
CN113383518A (zh) * 2019-01-29 2021-09-10 索尼集团公司 信息设备、信息处理方法、信息处理程序、控制装置、控制方法和控制程序
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11482215B2 (en) 2019-03-27 2022-10-25 Samsung Electronics Co., Ltd. Multi-modal interaction with intelligent assistants in voice command devices
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
CN110428806B (zh) * 2019-06-03 2023-02-24 交互未来(北京)科技有限公司 基于麦克风信号的语音交互唤醒电子设备、方法和介质
US11114104B2 (en) * 2019-06-18 2021-09-07 International Business Machines Corporation Preventing adversarial audio attacks on digital assistants
CN110196914B (zh) * 2019-07-29 2019-12-27 上海肇观电子科技有限公司 一种将人脸信息录入数据库的方法和装置
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
CN111276142B (zh) * 2020-01-20 2023-04-07 北京声智科技有限公司 一种语音唤醒方法及电子设备
KR20210112726A (ko) * 2020-03-06 2021-09-15 엘지전자 주식회사 차량의 좌석별로 대화형 비서를 제공하는 방법
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11778361B1 (en) * 2020-06-24 2023-10-03 Meta Platforms Technologies, Llc Headset activation validation based on audio data
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
KR20220059629A (ko) * 2020-11-03 2022-05-10 현대자동차주식회사 차량 및 그의 제어방법
WO2022125351A2 (en) * 2020-12-09 2022-06-16 Cerence Operating Company Automotive infotainment system with spatially-cognizant applications that interact with a speech interface
US20220208185A1 (en) * 2020-12-24 2022-06-30 Cerence Operating Company Speech Dialog System for Multiple Passengers in a Car
US20220406313A1 (en) * 2021-06-22 2022-12-22 Lisnr Systems and methods for enabling voice-based transactions and voice-based commands
DK202100097U3 (da) * 2021-10-23 2023-01-26 Sens Vue Aps Elektronisk apparat, der omfatter et nærfelt stemmekontrol til detektions-, diagnose- og behandlingsudstyr

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6219645B1 (en) * 1999-12-02 2001-04-17 Lucent Technologies, Inc. Enhanced automatic speech recognition using multiple directional microphones
US20060192775A1 (en) * 2005-02-25 2006-08-31 Microsoft Corporation Using detected visual cues to change computer system operating states
KR20110005937A (ko) * 2009-07-13 2011-01-20 엘지전자 주식회사 전자 기기, 이동 단말기 및 이를 이용한 기능 수행 방법
US20110208524A1 (en) * 2010-02-25 2011-08-25 Apple Inc. User profiling for voice input processing
US20130317830A1 (en) * 2012-05-24 2013-11-28 Qualcomm Incorporated Three-dimensional sound compression and over-the-air transmission during a call

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3674990B2 (ja) 1995-08-21 2005-07-27 セイコーエプソン株式会社 音声認識対話装置および音声認識対話処理方法
KR100556365B1 (ko) 2003-07-07 2006-03-03 엘지전자 주식회사 음성 인식장치 및 방법
US8725505B2 (en) 2004-10-22 2014-05-13 Microsoft Corporation Verb error recovery in speech recognition
KR20090025939A (ko) 2007-09-07 2009-03-11 (주)한국파워보이스 음성 인식을 이용한 홈 미디어 pc 시스템 및 그 제어방법
KR101056511B1 (ko) 2008-05-28 2011-08-11 (주)파워보이스 실시간 호출명령어 인식을 이용한 잡음환경에서의음성구간검출과 연속음성인식 시스템
US8255225B2 (en) 2008-08-07 2012-08-28 Vocollect Healthcare Systems, Inc. Voice assistant system
JP5473520B2 (ja) 2009-10-06 2014-04-16 キヤノン株式会社 入力装置及びその制御方法
US8725506B2 (en) 2010-06-30 2014-05-13 Intel Corporation Speech audio processing
KR101699720B1 (ko) 2010-08-03 2017-01-26 삼성전자주식회사 음성명령 인식 장치 및 음성명령 인식 방법
US8473289B2 (en) 2010-08-06 2013-06-25 Google Inc. Disambiguating input based on context
KR101828273B1 (ko) 2011-01-04 2018-02-14 삼성전자주식회사 결합기반의 음성명령 인식 장치 및 그 방법
KR101262700B1 (ko) 2011-08-05 2013-05-08 삼성전자주식회사 음성 인식 및 모션 인식을 이용하는 전자 장치의 제어 방법 및 이를 적용한 전자 장치
US8781436B2 (en) 2011-08-09 2014-07-15 Htc Corporation Method and system for enabling a user to configure custom voice alarms/events for mobile communication devices
EP2839391A4 (en) * 2012-04-20 2016-01-27 Maluuba Inc CONVERSATION AGENT
KR20120112325A (ko) 2012-09-18 2012-10-11 (주)이엔엠시스템 대기 상태에서 저주파 영역 음향에 대해서 음성인식을 수행하는 음성인식 시스템 및 그 제어방법
CN102902253B (zh) * 2012-10-09 2015-07-15 鸿富锦精密工业(深圳)有限公司 具有语音控制功能的智能开关及智能控制系统
US20140156281A1 (en) * 2012-12-03 2014-06-05 Qualcomm Incorporated Voice-controlled configuration of an automation system
US20150228281A1 (en) * 2014-02-07 2015-08-13 First Principles,Inc. Device, system, and method for active listening

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6219645B1 (en) * 1999-12-02 2001-04-17 Lucent Technologies, Inc. Enhanced automatic speech recognition using multiple directional microphones
US20060192775A1 (en) * 2005-02-25 2006-08-31 Microsoft Corporation Using detected visual cues to change computer system operating states
KR20110005937A (ko) * 2009-07-13 2011-01-20 엘지전자 주식회사 전자 기기, 이동 단말기 및 이를 이용한 기능 수행 방법
US20110208524A1 (en) * 2010-02-25 2011-08-25 Apple Inc. User profiling for voice input processing
US20130317830A1 (en) * 2012-05-24 2013-11-28 Qualcomm Incorporated Three-dimensional sound compression and over-the-air transmission during a call

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11074910B2 (en) 2017-01-09 2021-07-27 Samsung Electronics Co., Ltd. Electronic device for recognizing speech
KR20200082137A (ko) * 2018-12-28 2020-07-08 삼성전자주식회사 전자 장치 및 그의 제어 방법
US11948567B2 (en) 2018-12-28 2024-04-02 Samsung Electronics Co., Ltd. Electronic device and control method therefor
WO2020184842A1 (ko) * 2019-03-12 2020-09-17 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법
US11881213B2 (en) 2019-03-12 2024-01-23 Samsung Electronics Co., Ltd. Electronic device, and method for controlling electronic device

Also Published As

Publication number Publication date
KR102216048B1 (ko) 2021-02-15
US9953654B2 (en) 2018-04-24
US20150340040A1 (en) 2015-11-26

Similar Documents

Publication Publication Date Title
KR102216048B1 (ko) 음성 명령 인식 장치 및 방법
US11430428B2 (en) Method, apparatus, and storage medium for segmenting sentences for speech recognition
CN114080589B (zh) 自动主动降噪(anr)控制以改善用户交互
US10332524B2 (en) Speech recognition wake-up of a handheld portable electronic device
EP3028271B1 (en) Method and apparatus for mitigating false accepts of trigger phrases
KR102579086B1 (ko) 디지털 어시스턴트를 위한 음성 트리거
EP2911149B1 (en) Determination of an operational directive based at least in part on a spatial audio property
US10353495B2 (en) Personalized operation of a mobile device using sensor signatures
US10635152B2 (en) Information processing apparatus, information processing system, and information processing method
US9437188B1 (en) Buffered reprocessing for multi-microphone automatic speech recognition assist
US9224404B2 (en) Dynamic audio processing parameters with automatic speech recognition
EP4004908B1 (en) Activating speech recognition
CN111833872B (zh) 对电梯的语音控制方法、装置、设备、系统及介质
CN111816180B (zh) 基于语音控制电梯的方法、装置、设备、系统及介质
CN112634911B (zh) 人机对话方法、电子设备及计算机可读存储介质
CN113744736B (zh) 命令词识别方法、装置、电子设备及存储介质
EP3246791A2 (en) Information processing apparatus, informating processing system, and information processing method
CN113380275B (zh) 语音处理方法、装置、智能设备及存储介质
EP2760019B1 (en) Dynamic audio processing parameters with automatic speech recognition
CN116189718A (zh) 语音活性检测方法、装置、设备及存储介质
KR20210037987A (ko) 전자 장치 및 전자 장치에서 비음성 오디오 신호를 이용한 제어 방법
CN115035886A (zh) 声纹识别方法及电子设备
JP2018205470A (ja) 対話装置、対話システム、対話方法及び対話プログラム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant