WO2020138943A1 - 음성을 인식하는 장치 및 방법 - Google Patents

음성을 인식하는 장치 및 방법 Download PDF

Info

Publication number
WO2020138943A1
WO2020138943A1 PCT/KR2019/018451 KR2019018451W WO2020138943A1 WO 2020138943 A1 WO2020138943 A1 WO 2020138943A1 KR 2019018451 W KR2019018451 W KR 2019018451W WO 2020138943 A1 WO2020138943 A1 WO 2020138943A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
voice recognition
microphones
voice
zone
Prior art date
Application number
PCT/KR2019/018451
Other languages
English (en)
French (fr)
Inventor
정경전
Original Assignee
한화테크윈 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020190173095A external-priority patent/KR20200081274A/ko
Application filed by 한화테크윈 주식회사 filed Critical 한화테크윈 주식회사
Publication of WO2020138943A1 publication Critical patent/WO2020138943A1/ko
Priority to US17/347,496 priority Critical patent/US11763838B2/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones

Abstract

음성 인식 장치는, 상이한 방향들을 향하도록 배치되는 복수의 마이크들; 및 복수의 마이크들과 연결되는 프로세서를 포함하며, 프로세서는, 설정 모드에서, 복수의 마이크들을 통해 수신되는 제 1 소리의 방향을 판별하고; 제 1 소리의 방향을 포함하는 비감지존을 설정하고; 노멀 모드에서, 복수의 마이크들을 통해 수신되는 제 2 소리의 방향을 판별하고; 제 2 소리의 방향이 비감지존에 속하는지 여부에 따라 제 2 소리에 대한 음성 인식 혹은 음성 인식에 기반한 동작을 스킵하도록 구성된다.

Description

음성을 인식하는 장치 및 방법
본 발명은 음성을 인식하는 장치 및 방법에 관한 것으로, 좀 더 구체적으로는 마이크들을 포함하는 음성 인식 장치 및 그것의 동작 방법에 관한 것이다.
전자 기술의 발달에 힘입어 다양한 유형들의 전자 장치들, 예를 들면 스마트폰, 태블릿 PC, 인공 지능 스피커가 개발 및 보급되고 있다. 사용자들은 위와 같은 전자 장치들을 이용하여 이메일, 웹서핑, 사진 촬영, 인스턴트 메시지, 일정 관리, 비디오 재생, 오디오 재생 등 다양한 서비스들을 제공받을 수 있다.
스마트 폰, 태블릿 PC, 인공 지능 스피커 등과 같은 전자 장치들은 사용자의 음성(voice)을 인식하여 사용자가 원하는 동작을 편리하게 수행할 수 있는 음성 인터페이스(voice interface)를 포함할 수 있다. 음성 인터페이스는 전자 장치의 마이크를 통해 입력되는 사용자의 음성을 전기적 음성 신호로 변환한 후, 변환된 음성 신호를 분석하여 커맨드 혹은 텍스트 등으로 인식하는 음성 인식 기술로서 널리 사용되고 있다.
위 기재된 내용은 오직 본 발명의 기술적 사상들에 대한 배경 기술의 이해를 돕기 위한 것이며, 따라서 그것은 본 발명의 기술 분야의 당업자에게 알려진 선행 기술에 해당하는 내용으로 이해될 수 없다.
본 발명의 실시 예들은 향상된 신뢰성의 음성 인식 기능을 가지는 음성 인식 장치를 제공하기 위한 것이다. 또한, 본 발명의 실시 예들은 상대적으로 적은 리소스들로 음성 인식 기능을 제공할 수 있는 음성 인식 장치를 제공하기 위한 것이다.
본 발명의 실시 예에 따른 음성 인식 장치는, 상이한 방향들을 향하도록 배치되는 복수의 마이크들; 및 상기 복수의 마이크들과 연결되는 프로세서를 포함하며, 상기 프로세서는, 설정 모드에서, 상기 복수의 마이크들을 통해 수신되는 제 1 소리의 방향을 판별하고; 상기 제 1 소리의 상기 방향을 포함하는 비감지존(non-detecting zone)을 설정하고; 노멀 모드에서, 상기 복수의 마이크들을 통해 수신되는 제 2 소리의 방향을 판별하고; 상기 제 2 소리의 상기 방향이 상기 비감지존에 속하는지 여부에 따라 상기 제 2 소리에 대한 음성 인식 혹은 상기 음성 인식에 기반한 동작을 스킵하도록 구성된다.
상기 프로세서는, 상기 제 2 소리의 상기 방향이 상기 비감지존에 속할 때 상기 제 2 소리에 대한 음성 인식 혹은 상기 음성 인식에 기반한 동작을 스킵하고, 상기 제 2 소리의 상기 방향이 상기 비감지존으로부터 벗어날 때 상기 제 2 소리에 대한 상기 음성 인식 및 상기 음성 인식에 기반한 상기 동작을 수행하도록 구성될 수 있다.
상기 비감지존의 범위는 소정의 각도 범위를 가질 수 있다.
상기 음성 인식 장치는 상기 비감지존의 범위를 저장하는 저장 매체를 더 포함할 수 있다.
상기 프로세서는 사용자 입력에 응답하여 상기 설정 모드에 진입할 수 있다.
상기 음성 인식 장치는 프로세서와 연결되는 통신기를 더 포함할 수 있고, 상기 프로세서는 상기 통신기를 통해 수신되는 사용자 입력에 따라 상기 비감지존의 범위를 조절하도록 구성될 수 있다.
본 발명의 다른 실시 예에 따른 음성 인식 장치는, 상이한 방향들을 향하도록 배치되는 복수의 마이크들; 하나 또는 그 이상의 문자열들을 저장하도록 구성되는 저장 매체; 및 상기 복수의 마이크들 및 상기 저장 매체와 연결되는 프로세서를 포함하며, 상기 프로세서는, 상기 복수의 마이크들을 통해 수신되는 제 1 소리에 대한 음성 인식을 수행하여 음성 데이터를 획득하고; 상기 음성 데이터가 상기 문자열들 중 어느 하나와 매치될 때 상기 제 1 소리의 방향을 포함하는 비감지존을 설정하되, 상기 비감지존의 범위는 상기 매치되는 문자열에 따라 결정되고; 상기 복수의 마이크들을 통해 수신되는 제 2 소리의 방향을 판별하고; 상기 제 2 소리의 상기 방향이 상기 비감지존에 속하는지 여부에 따라 상기 제 2 소리에 대한 상기 음성 인식 혹은 상기 음성 인식에 기반한 동작을 스킵하도록 구성될 수 있다.
상기 저장 매체는 상기 문자열들에 각각 대응하는 각도 범위들을 더 저장할 수 있고, 상기 프로세서는 상기 각도 범위들 중 상기 매치되는 문자열에 대응하는 각도 범위를 상기 비감지존의 범위로 결정하도록 구성될 수 있다.
상기 프로세서는, 상기 제 2 소리의 상기 방향이 상기 비감지존에 속할 때 상기 제 2 소리에 대한 상기 음성 인식 혹은 상기 음성 인식에 기반한 상기 동작을 스킵하고; 상기 제 2 소리의 상기 방향이 상기 비감지존으로부터 벗어날 때 상기 제 2 소리에 대한 음성 인식 및 상기 음성 인식에 기반한 상기 동작을 수행하도록 구성될 수 있다.
상기 저장 매체는 하나 또는 그 이상의 제 2 문자열들을 더 저장하도록 구성될 수 있고, 상기 프로세서는, 상기 복수의 마이크들을 통해 수신되는 제 3 소리에 대한 상기 음성 인식을 수행하여 제 2 음성 데이터를 획득하고; 상기 제 2 음성 데이터가 상기 제 2 문자열들 중 어느 하나와 매치될 때 상기 비감지존을 디스에이블하도록 구성될 수 있다.
본 발명의 다른 일면은 복수의 마이크들을 이용하여 음성을 인식하는 방법에 관한 것이다. 상기 방법은, 설정 모드에서, 상기 복수의 마이크들을 통해 수신되는 제 1 소리의 방향을 판별하는 단계; 상기 제 1 소리의 상기 방향을 포함하는 비감지존을 설정하는 단계; 노멀 모드에서, 상기 복수의 마이크들을 통해 수신되는 제 2 소리의 방향을 판별하는 단계; 및 상기 제 2 소리의 상기 방향이 상기 비감지존에 속하는지 여부에 따라 상기 제 2 소리에 대한 음성 인식 혹은 상기 음성 인식에 기반한 동작을 스킵하는 단계를 포함할 수 있다.
상기 스킵하는 단계는, 상기 제 2 소리의 상기 방향이 상기 비감지존에 속할 때 상기 제 2 소리에 대한 음성 인식 혹은 상기 음성 인식에 기반한 동작을 스킵하는 단계; 및 상기 제 2 소리의 상기 방향이 상기 비감지존으로부터 벗어날 때 상기 제 2 소리에 대한 상기 음성 인식 및 상기 음성 인식에 기반한 상기 동작을 수행하는 단계를 포함할 수 있다.
상기 비감지존의 범위는 소정의 각도 범위를 가질 수 있다.
상기 방법은 사용자 입력에 응답하여 상기 설정 모드로 진입하는 단계를 더 포함할 수 있다.
상기 비감지존을 설정하는 단계는 사용자 장치로부터 전송되는 사용자 입력에 따라 상기 비감지존의 범위를 조절하는 단계를 포함할 수 있다.
본 발명의 실시 예들에 따르면, 향상된 신뢰성의 음성 인식 기능을 가지는 음성 인식 장치가 제공된다. 또한, 본 발명의 실시 예들에 따르면, 상대적으로 적은 리소스들로 음성 인식 기능을 제공할 수 있는 음성 인식 장치가 제공된다.
도 1은 본 발명의 실시 예에 따른 음성 인식 장치를 보여주는 사시도이다.
도 2는 도 1의 음성 인식 장치의 평면도이다.
도 3은 도 1의 음성 인식 장치의 실시 예를 보여주는 블록도이다.
도 4는 도 3의 소리 분석기의 실시 예를 보여주는 블록도이다.
도 5 및 도 6은 설정 모드에서 마이크들을 통해 수신되는 소리에 따라 비감지존을 설정하는 방법을 설명하기 위한 음성 인식 장치의 평면도들이다.
도 7은 노멀 모드에서 마이크들을 통해 수신되는 소리를 처리하는 방법을 설명하기 위한 음성 인식 장치의 평면도이다.
도 8은 도 4의 음성 감지기의 실시 예를 보여주는 블록도이다.
도 9는 본 발명의 실시 예에 따른 설정 모드에서 비감지존을 설정하는 방법을 보여주는 순서도이다.
도 10은 도 9의 S130단계의 실시 예를 보여주는 순서도이다.
도 11은 본 발명의 실시 예에 따른 노멀 모드에서 마이크들을 통해 수신되는 소리를 처리하는 방법을 보여주는 순서도이다.
도 12는 도 1의 음성 인식 장치의 다른 실시 예를 보여주는 블록도이다.
도 13은 도 12의 존 활성화 데이터 및 존 비활성화 데이터의 실시 예를 개념적으로 보여주는 테이블이다.
도 14는 도 12의 소리 분석기의 실시 예를 보여주는 블록도이다.
도 15는 본 발명의 실시 예에 따른 비감지존을 설정 및 디스에이블하는 방법을 보여주는 순서도이다.
도 16은 도 1의 음성 인식 장치를 구현하기 위한 컴퓨터 장치의 실시 예를 보여주는 블록도이다.
이하, 본 발명에 따른 바람직한 실시 예를 첨부한 도면을 참조하여 상세히 설명한다. 하기의 설명에서는 본 발명에 따른 동작을 이해하는데 필요한 부분만이 설명되며 그 이외 부분의 설명은 본 발명의 요지를 모호하지 않도록 하기 위해 생략될 것이라는 것을 유의하여야 한다. 또한 본 발명은 여기에서 설명되는 실시 예에 한정되지 않고 다른 형태로 구체화될 수도 있다. 단지, 여기에서 설명되는 실시 예는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 본 발명의 기술적 사상을 용이하게 실시할 수 있을 정도로 상세히 설명하기 위하여 제공되는 것이다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "간접적으로 연결"되어 있는 경우도 포함한다. 여기에서 사용된 용어는 특정한 실시예들을 설명하기 위한 것이며 본 발명을 한정하기 위한 것이 아니다. 명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. "X, Y, 및 Z 중 적어도 어느 하나", 그리고 "X, Y, 및 Z로 구성된 그룹으로부터 선택된 적어도 어느 하나"는 X 하나, Y 하나, Z 하나, 또는 X, Y, 및 Z 중 둘 또는 그 이상의 어떤 조합 (예를 들면, XYZ, XYY, YZ, ZZ) 으로 해석될 수 있다. 여기에서, "및/또는"은 해당 구성들 중 하나 또는 그 이상의 모든 조합을 포함한다.
도 1은 본 발명의 실시 예에 따른 음성 인식 장치를 보여주는 사시도이다. 도 2는 도 1의 음성 인식 장치의 평면도이다.
도 1 및 도 2를 참조하면, 음성 인식 장치(100)는 복수의 마이크들(110, 혹은 마이크로폰들)을 포함한다. 복수의 마이크들(110)은 상이한 방향들을 향하도록 배치될 수 있다. 도 2에 도시된 바와 같이, 음성 인식 장치(100)는 제 1 내지 제 4 마이크들(111~114)을 포함할 수 있으며, 제 1 내지 제 4 마이크들(111~114)은 각각 상이한 방향들, 예를 들면 0도, 90도, 180도, 270도의 방향들을 향할 수 있다. 실시 예들에서, 제 1 내지 제 4 마이크들(111~114) 각각은 특정 방향을 지향하는 지향성 마이크 혹은 무지향성 마이크일 수 있다. 이하, 음성 인식 장치(100)는 4개의 마이크들(111~114)을 포함하는 것으로 가정한다. 그러나, 본 발명의 실시 예들은 여기에 한정되지 않으며, 음성 인식 장치(100)에 포함되는 마이크들의 수는 적용 례들에 따라 다양하게 변할 수 있다.
음성 인식 장치(100)는 제 1 내지 제 4 마이크들(111~114)을 통해 수신되는 소리(10, sound)의 방향을 감지할 수 있다. 소리(10)의 방향은 소리(10)가 음성 인식 장치(100)에 입사하는 각도일 수 있다. 음성 인식 장치(100)는 상이한 방향을 향하는 마이크들을 이용하여 소리의 방향을 감지하기 위한 이 분야에서 알려진 다양한 기술들을 채용할 수 있다. 실시 예에서, 소리(10)의 방향은 제 1 내지 제 4 마이크들(111~114)에 수신되는 소리 신호들의 위상차에 기반하여 판별될 수 있다. 다른 실시 예에서, 소리(10)의 방향은 제 1 내지 제 4 마이크들(111~114)에 수신되는 소리 신호들의 크기들의 차이 및/또는 비율에 기반하여 판별될 수 있다.
또한, 음성 인식 장치(100)는 소리(10)에 대한 음성 인식을 수행하여 음성 데이터를 획득하고, 획득된 음성 데이터에 기반한 다양한 동작들을 수행할 수 있다. 실시 예들에서, 음성 인식 장치(100)는 인공 지능을 포함할 수 있으며, 인공 지능을 이용하여 소리(10)에 대한 음성 인식을 수행하여 상대적으로 정확한 음성 데이터를 획득할 수 있다. 실시 예들에서, 음성 인식 장치(100)는 인공 지능 스피커(artificial intelligence speaker) 혹은 스마트 스피커(smart speaker)일 수 있다.
도 3은 도 1의 음성 인식 장치의 실시 예를 보여주는 블록도이다.
도 3을 참조하면, 음성 인식 장치(100)는 제 1 내지 제 4 마이크들(111~114), 통신기(120), 디스플레이(130), 스피커(140), 저장 매체(160), 및 컨트롤러(170)를 포함할 수 있다.
제 1 내지 제 4 마이크들(111~114)은 도 1 및 도 2를 참조하여 설명된 바와 같이 서로 상이한 방향들을 향할 수 있다. 제 1 내지 제 4 마이크들(111~114) 각각은 소리를 수신하고, 수신된 소리를 전기적 소리 신호로 변환할 수 있다. 제 1 내지 제 4 마이크들(111~114) 각각은 변환된 소리 신호를 컨트롤러(170)에 전달할 수 있다.
통신기(120)은 외부의 전자 장치, 예를 들면 사용자 단말기와 통신할 수 있다. 통신기(120)은 Wi-Fi 통신, 블루투스 통신, NFC 통신, 셀룰러 통신 등 다양한 방식들을 통해 네트워크와 연결되어 외부의 전자 장치와 통신할 수 있다.
디스플레이(130)는 소리, 예를 들면 사용자의 음성에 대응하는 시각화된 피드백 정보를 디스플레이할 수 있다. 실시 예들에서, 디스플레이(130)는 사용자 음성에 따라 변하는 그래픽 인터페이스 및/또는 컨텐츠를 디스플레이할 수 있다.
스피커(140)는 소리를 출력할 수 있다. 스피커(140)는 사용자의 음성에 대응하는 소리 피드백 정보를 출력할 수 있다.
저장 매체(160)는 사용자 음성을 인식하기 위한 데이터를 저장할 수 있다. 저장 매체(160)는 사용자 음성에 대한 시각화된 피드백 정보 및/또는 소리 피드백 정보를 제공하기 위한 데이터를 더 저장할 수 있다. 또한, 저장 매체(160)는 비감지존(non-detecting zone)을 나타내는 영역 데이터(RD)를 저장할 수 있다. 실시 예들에서, 저장 매체(160)는 불휘발성 저장 매체를 포함할 수 있다.
컨트롤러(170)는 음성 인식 장치(100)의 제반 동작을 제어할 수 있다. 컨트롤러(170)는 제 1 내지 제 4 마이크들(111~114), 통신기(120), 디스플레이(130), 스피커(140), 및 저장 매체(160) 각각을 제어 및 이용하여 사용자의 음성을 인식하고 인식 결과에 기반한 동작들을 수행할 수 있다. 실시 예들에서, 컨트롤러(170)는 CPU(central processing unit), GPU(graphic processing unit), 메모리 등을 포함하는 SoC(system on chip)으로 구현될 수 있다.
컨트롤러(170)는 소리 분석기(175)를 포함한다. 설정 모드에서, 소리 분석기(175)는 제 1 내지 제 4 마이크들(111~114)을 통해 수신되는 소리의 방향을 감지하고, 감지된 방향을 포함하는 비감지존을 설정할 수 있다. 이때, 소리 분석기(175)는 비감지존을 나타내는 영역 데이터(RD)를 저장 매체(160)에 저장할 수 있다.
노멀 모드에서, 소리 분석기(175)는 제 1 내지 제 4 마이크들(111~114)을 통해 수신되는 소리의 방향을 감지하고, 감지된 방향이 영역 데이터(RD)에 따른 비감지존에 속하는지 여부를 판별할 수 있다. 판별 결과에 따라, 소리 분석기(175)는 소리에 대한 음성 인식을 스킵할 수 있다. 또는, 소리 분석기(175)는 소리에 대한 음성 인식을 수행하되 컨트롤러(170)는 음성 인식에 기반한 동작을 스킵할 수 있다. 이에 따라, 컨트롤러(170)는 시각화된 피드백 정보를 디스플레이(130)를 통해 디스플레이하는 동작, 소리 피드백 정보를 스피커(140)를 통해 출력하는 동작 등과 같은 다양한 동작들 중 적어도 하나를 수행하지 않을 수 있다.
도 4는 도 3의 소리 분석기의 실시 예를 보여주는 블록도이다. 도 5 및 도 6은 설정 모드에서 마이크들을 통해 수신되는 소리에 따라 비감지존을 설정하는 방법을 설명하기 위한 음성 인식 장치의 평면도들이다. 도 7은 노멀 모드에서 마이크들을 통해 수신되는 소리를 처리하는 방법을 설명하기 위한 음성 인식 장치의 평면도이다.
도 4를 참조하면, 소리 분석기(200)는 제 1 인터페이스(210), 로컬 컨트롤러(220), 방향 감지기(230), 음성 감지기(240), 및 제 2 인터페이스(250)를 포함할 수 있다.
제 1 인터페이스(210)는 제 1 내지 제 4 마이크들(111~114, 도 3 참조)로부터 제 1 내지 제 4 소리 신호들(SS1~SS4)을 수신하고, 수신된 제 1 내지 제 4 소리 신호들(SS1~SS4)을 로컬 컨트롤러(220)에 제공할 수 있다. 제 1 인터페이스(210)는 제 1 내지 제 4 마이크들(111~114)과 소리 분석기(200) 사이를 인터페이싱할 수 있다. 제 1 인터페이스(210)는 컨트롤러(170)의 구성 요소로서 제공될 수도 있다.
로컬 컨트롤러(220)는 소리 분석기(200)의 제반 동작을 제어할 수 있다. 로컬 컨트롤러(220)는 제 1 인터페이스(210), 방향 감지기(230), 음성 감지기(240), 및 제 2 인터페이스(250)에 연결된다. 로컬 컨트롤러(220)는 제 1 인터페이스(210)를 통해 수신된 제 1 내지 제 4 소리 신호들(SS1~SS4)을 방향 감지기(230) 및 음성 감지기(240) 각각에 전송할 수 있다.
방향 감지기(230)는 제 1 내지 제 4 소리 신호들(SS1~SS4)에 기반하여 소리의 방향을 감지할 수 있다. 방향 감지기(230)는 소리의 방향을 감지하기 위한 이 분야에서 알려진 다양한 기술들을 채용할 수 있다. 실시 예에서, 방향 감지기(230)는 제 1 내지 제 4 소리 신호들(SS1~SS4)의 위상차에 기반하여 소리의 방향을 감지할 수 있다. 다른 실시 예에서, 방향 감지기(230)는 제 1 내지 제 4 소리 신호들(SS1~SS4)의 크기들의 차이 및/또는 비율에 기반하여 소리의 방향을 감지할 수 있다.
도 4와 함께 도 5를 참조하면, 음성 인식 장치(100)의 주변에서 소리(10)가 생성될 수 있다. 예를 들면, 음성 인식 장치(100)의 주변에 텔레비전이 위치하며, 텔레비전은 소리(10)를 생성할 수 있다. 사용자의 요청에 응답하여, 음성 인식 장치(100)는 설정 모드로 진입할 수 있다. 설정 모드에서, 로컬 컨트롤러(220)는 제 1 내지 제 4 마이크들(111~114)로부터의 제 1 내지 제 4 소리 신호들(SS1~SS4)을 방향 감지기(230)에 제공하여 소리(10)의 방향(SD1)을 감지하도록 방향 감지기(230)를 제어할 수 있다. 실시 예들에서, 방향 감지기(230)는 기준 각도(Ra)를 기준으로 하는 각도(SD1a)를 소리(10)의 방향(SD1)을 나타내는 데이터(이하, 방향 데이터)로서 제공할 수 있다. 방향 감지기(230)는 방향 데이터를 로컬 컨트롤러(220)에 전송한다.
이어서 도 4와 함께 도 6을 참조하면, 로컬 컨트롤러(220)는 방향 데이터에 따라 비감지존(NDZ)을 결정할 수 있다. 실시 예들에서, 비감지존(NDZ)은 소정의 각도 범위(AR)를 가질 수 있다. 로컬 컨트롤러(220)는 도 5의 각도(SD1a)를 포함하는 소정의 각도 범위(AR)를 비감지존(NDZ)으로서 결정할 수 있다. 로컬 컨트롤러(220)는 비감지존(NDZ)을 나타내는 영역 데이터(RD)를 저장 매체(160)에 저장할 수 있다. 실시 예들에서, 로컬 컨트롤러(220)는 기준 각도(Ra)를 기준으로 하는 제 1 각도(NDZ1a) 및 제 2 각도(NDZ2a)를 영역 데이터(RD)로서 저장할 수 있다. 이때, 제 1 각도(NDZ1a)와 제 2 각도(NDZ2a)는 비감지존(NDZ)을 정의할 수 있다. 이와 같이, 영역 데이터(RD)는 360도 중 비감지존(NDZ)의 각도 범위(AR)를 나타낼 수 있다. 비감지존(NDZ)의 설정 후에, 음성 인식 장치(100)는 노멀 모드로 진입할 수 있다.
실시 예들에서, 로컬 컨트롤러(220)는 비감지존(NDZ)을 통신기(120)를 통해 외부의 사용자 단말기에 알릴 수 있으며, 비감지존(NDZ)은 사용자 단말기로부터 통신기(120)를 통해 수신되는 사용자 입력에 응답하여 조절될 수 있다. 이에 따라, 조절된 비감지존(NDZ)을 나타내는 영역 데이터(RD)가 저장 매체(160)에 저장될 수 있다.
다시 도 4를 참조하면, 음성 감지기(240)는 제 1 내지 제 4 소리 신호들(SS1~SS4) 중 적어도 하나에 대한 음성 인식을 수행하여, 텍스트(text)와 같은 형식의 음성 데이터(VD)를 생성할 수 있다. 실시 예들에서, 음성 감지기(240)는 인공 지능을 포함할 수 있으며, 인공 지능을 이용하여 제 1 내지 제 4 소리 신호들(SS1~SS4)에 대한 음성 인식을 수행하여 상대적으로 정확한 음성 데이터(VD)를 획득할 수 있다.
노멀 모드 시에, 로컬 컨트롤러(220)는 제 1 인터페이스(210)를 통해 수신되는 제 1 내지 제 4 소리 신호들(SS1~SS4)을 방향 감지기(230)에 전송할 수 있다. 위 설명된 바와 같이, 방향 감지기(230)는 제 1 내지 제 4 소리 신호들(SS1~SS4)에 기반하여 소리의 방향을 감지할 수 있다. 로컬 컨트롤러(220)는 감지된 소리의 방향에 따라, 제 1 내지 제 4 소리 신호들(SS1~SS4)을 음성 감지기(240)에도 전송하고, 그에 대한 음성 감지를 수행하도록 음성 감지기(240)를 제어할 수 있다.
도 4와 함께 도 7을 참조하면, 노멀 모드 시에, 비감지존(NDZ)으로부터 벗어난 존(이하, 감지존)에서 소리(20)가 생성될 수 있다. 예를 들면, 음성 인식 장치(100) 주변의 사람으로부터 소리(혹은, 음성)(20)가 수신될 수 있다.
방향 감지기(230)는 소리(20)에 대응하는 제 1 내지 제 4 소리 신호들(SS1~SS4)에 기반하여 소리(20)의 방향(SD2)을 감지할 수 있다. 예를 들면, 방향 감지기(230)는 각도(SD2a)를 소리(20)의 방향 데이터로서 결정할 수 있다. 방향 감지기(230)는 방향 데이터를 로컬 컨트롤러(220)에 전송한다.
로컬 컨트롤러(220)는 소리(20)의 방향(SD2)이 비감지존(NDZ)으로부터 벗어났는지 여부에 따라 음성 감지를 수행하도록 음성 감지기(240)를 제어할 수 있다. 로컬 컨트롤러(220)는 영역 데이터(RD)를 참조함으로써 비감지존(NDZ)을 식별할 수 있다. 도 7과 같이 소리(20)의 방향(SD2)이 감지존에 속하는 경우, 로컬 컨트롤러(220)는 음성 감지를 수행하도록 음성 감지기(240)를 제어한다.
음성 감지기(240)는 제 1 내지 제 4 소리 신호들(SS1~SS4) 중 적어도 하나에 대한 음성 인식을 수행하여 음성 데이터(VD)를 생성할 수 있다. 로컬 컨트롤러(220)는 제 2 인터페이스(250)를 통해 음성 데이터(VD)를 출력할 수 있다. 컨트롤러(170, 도 3 참조)는 음성 데이터(VD)에 응답하여 시각화된 피드백 정보를 디스플레이(130)를 통해 디스플레이하거나, 소리 피드백 정보를 스피커(140)를 통해 출력할 수 있다.
소리 분석기(200) 및/또는 로컬 컨트롤러(220)는 다방향(multi-direction)으로부터의 소리들을 수신할 수 있다. 이러한 경우, 도 7에 도시된 바와 같이, 설정 모드 시와 마찬가지로 음성 인식 장치(100) 주변의 텔레비전으로부터 소리(30)가 수신될 수 있다. 로컬 컨트롤러(220)는 소리(30)에 대응하는 제 1 내지 제 4 소리 신호들(SS1~SS4)을 방향 감지기(230)에 전송할 수 있다. 예를 들면, 로컬 컨트롤러(220)는 소리들(20, 30) 각각에 대응하는 제 1 내지 제 4 소리 신호들(SS1~SS4)을 검출하는 이 분야에 잘 알려진 적어도 하나의 필터를 포함할 수 있다.
방향 감지기(230)는 소리(30)에 대응하는 제 1 내지 제 4 소리 신호들(SS1~SS4)에 기반하여 소리(30)의 방향(SD3)을 감지할 수 있다. 예를 들면, 방향 감지기(230)는 기준 각도(Ra)를 기준으로 하는 각도(SD3a)를 소리(30)의 방향 데이터로서 결정할 수 있다. 방향 감지기(230)는 결정된 방향 데이터를 로컬 컨트롤러(220)에 전송한다.
결정된 소리(30)의 방향(SD3)은 비감지존(NDZ)에 속한다. 이러한 경우, 소리(30)에 대응하는 제 1 내지 제 4 소리 신호들(SS1~SS4)에 대한 음성 감지는 수행되지 않을 수 있다. 로컬 컨트롤러(220)는 소리(30)에 대응하는 제 1 내지 제 4 소리 신호들(SS1~SS4)을 음성 감지기(240)에 전송하지 않을 수 있다.
다른 실시 예에서, 소리(30)의 방향(SD3)이 비감지존(NDZ)에 속할 때, 소리(30)에 대응하는 제 1 내지 제 4 소리 신호들(SS1~SS4)에 대한 음성 감지가 수행될 수 있다. 로컬 컨트롤러(220)는 소리(30)에 대응하는 제 1 내지 제 4 소리 신호들(SS1~SS4)을 음성 감지기(240)에 전송하고, 음성 감지기(240)로부터 음성 데이터(VD)를 수신할 수 있다. 이러한 경우, 로컬 컨트롤러(220)는 음성 데이터(VD)와 함께 무효 마크(IVM, invalid mark)를 제 2 인터페이스(250)를 통해 출력할 수 있다. 음성 데이터(VD)와 함께 무효 마크(IVM)가 제공되는 것은 음성 인식 장치(100)가 더 다양한 기능들을 제공하게 할 수 있다. 예를 들면, 무효 마크(IVM)에 따라, 컨트롤러(170, 도 3 참조)는 시각화된 피드백 정보를 디스플레이(130, 도 3 참조)를 통해 디스플레이하는 동작, 소리 피드백 정보를 스피커(140, 도 3 참조)를 통해 출력하는 동작 등과 같은 다양한 동작들 중 어느 하나를 수행하고, 나머지를 스킵할 수 있다.
실시 예들에서, 소리 분석기(200) 및/또는 로컬 컨트롤러(220)는 감지존에 해당하는 한정된 방향들로부터만 소리 신호들을 수신할 수 있다. 예를 들면, 로컬 컨트롤러(220)는 빔 포머를 포함하되, 빔 포머는 영역 데이터(RD)를 참조하여 감지존으로만 빔(beam)을 형성할 수 있다. 예를 들면, 소리 분석기(200)는 감지존으로부터의 소리(예를 들면, 도 7의 20)에 대응하는 소리 신호들을 수신하고, 비감지존(NDZ)으로부터의 소리(예를 들면, 도 7의 30)에 대응하는 소리 신호들은 드롭 및/또는 필터링할 수 있다. 이와 같이, 비감지존(NDZ)으로부터의 소리에 대한 음성 인식은 스킵될 수 있다. 반면, 로컬 컨트롤러(220)는 감지존의 소리와 연관된 제 1 내지 제 4 소리 신호들(SS1~SS4)을 방향 감지기(230) 및 음성 감지기(240)에 전송할 수 있으며, 이에 따라 로컬 컨트롤러(220)는 해당 소리의 방향이 감지존에 속하는지 검증하고, 검증 결과에 따라 제 1 내지 제 4 소리 신호들(SS1~SS4)에 대한 음성 인식 결과를 음성 데이터(VD)로서 출력할 수 있다.
음성 인식 장치(100) 주변에서 다양한 소리들이 발생될 수 있다. 그러한 소리들 모두에 대해 음성 인식을 수행하고 음성 인식에 기반한 동작을 수행한다면 예상치 못한 음성 인식이 야기될 수 있으며, 이는 사용자의 요구 혹은 의도에 부합하지 않을 수 있다. 예를 들면, 음성 인식 장치(100) 주변에 텔레비전이 위치하고 그로부터 음성이 생성되는 경우, 음성 인식 장치(100)는 텔레비전으로부터의 다양한 음성에 응답하여 동작할 수 있으며, 이러한 동작은 오동작일 수 있다.
본 발명의 실시 예에 따르면, 음성 인식 장치(100)는 설정 모드에서 비감지존을 설정하고, 이후 노멀 모드에서는 설정된 비감지존에 속하는 소리에 대한 음성 인식 혹은 음성 인식에 기반한 동작을 스킵한다. 이에 따라, 사용자가 원치않는 영역에서 생성되는 소리에 대한 음성 인식 혹은 음성 인식에 기반한 동작은 방지될 수 있다. 이에 따라, 음성 인식 장치(100)의 오동작이 방지될 수 있으며, 음성 인식 장치(100)는 향상된 신뢰성의 음성 인식 기능을 가질 수 있다. 또한, 비감지존에 속하는 소리를 처리하기 위한 리소스들(예를 들면 파워)이 절약될 수 있으며, 따라서 음성 인식 장치(100)는 상대적으로 적은 리소스들로 음성 인식 기능을 제공할 수 있다.
도 8은 도 4의 음성 감지기의 실시 예를 보여주는 블록도이다.
도 8을 참조하면, 음성 감지기(300)는 특징 추출부(310), 디코딩부(320), 음향 모델링부(330), 언어 모델링부(340), 제 1 학습부(350), 및 제 2 학습부(360)을 포함할 수 있다.
특징 추출부(310)은 제 1 내지 제 4 소리 신호들(SS1~SS4)로부터 해당 음성의 특징, 예를 들면 포만트 정보(formant information), LPC(Linear Predictive Coding) 계수, 전체 파워 성분 등을 추출할 수 있다. 특징 추출부(310)은 추출된 특징에 대응하는 특징 정보를 생성하여 디코딩부(320)에 제공할 수 있다.
음성 감지기(300)는 특징 정보에 기반하여 각 발성에 대해 하나의 모델(model), 예를 들면 입력 음성을 이용하여 학습된 데이터를 생성하여 관리할 수 있다. 예를 들면, 음성 감지기(300)는 확률 통계적인 방식으로 모델을 생성할 수 있다. 실시 예들에서, 입력된 발성을 분석하여 이에 대한 특징 정보를 추출한 후 이미 만들어 놓은 각 발성의 특징 정보와 비교하여 가장 근사한 발성에 대한 인식 결과를 음성 데이터(VD)로서 출력할 수 있다. 이를 위해, 음성 감지기(300)는 모델링(modeling)부와 학습(training)부를 포함할 수 있다. 예를 들면, 음성 감지기(300)는 제 1 학습부(350)에서의 학습을 통해 단음 단위의 확률 모델을 생성하는 음향 모델링부(330), 그리고 제 2 학습부(360)에서의 학습을 통해 언어 확률 모델을 생성하는 언어 모델링부(340)를 포함할 수 있다. 음성 감지기(300)는 음성 인식률을 높이기 위해 다양하게 설계될 수 있다.
디코딩부(320)는 특징 추출부(310)로부터 출력되는 특징 정보를 디코딩하여 음성 데이터(VD)를 생성하고, 생성된 음성 데이터(VD)를 제 1 및 제 2 학습부들(350, 360)에 제공할 수 있다. 디코딩부(320)는 음향 모델링부(330)와 언어 모델링부(340)로부터 획득하는 모델들과 특징 추출부(310)로부터 제공되는 특징 정보를 비교할 수 있고, 가장 높은 확률의 발성을 음성 데이터(VD)로서 출력할 수 있다.
제 1 및 제 2 학습부들(350, 360)은 소리 신호들(SS1~SS4) 및 음성 데이터(VD)에 기반하여 각 모델에 대한 학습을 수행할 수 있다. 음향 모델링과 언어 모델링에 필요한 데이터 및 학습된 모델은 통신기(120)를 통해 외부의 전자 장치, 예를 들면 서버의 데이터베이스에 저장될 수 있으며, 반복적으로 업데이트될 수 있다.
도 9는 본 발명의 실시 예에 따른 설정 모드에서 비감지존을 설정하는 방법을 보여주는 순서도이다.
도 3 및 도 9를 참조하면, S110단계에서, 음성 인식 장치(100)는 사용자 입력에 응답하여 설정 모드에 진입한다. 음성 인식 장치(100)는 통신기(120)를 통해 외부의 사용자 단말기와 통신하며, 그러한 사용자 단말기로부터의 사용자 입력을 수신할 수 있다.
S120단계에서, 음성 인식 장치(100)는 마이크들(111~114)을 통해 수신되는 제 1 소리의 방향을 감지한다. 마이크들(111~114) 각각은 제 1 소리에 따라 소리 신호를 생성할 수 있으며, 생성된 소리 신호들에 기반하여 제 1 소리의 방향이 감지될 수 있다.
S130단계에서, 음성 인식 장치(100)는 제 1 소리의 방향을 포함하는 비감지존을 설정한다. 음성 인식 장치(100)는 제 1 소리의 방향을 포함하는 소정의 각도 범위를 비감지존으로 설정할 수 있다. 음성 인식 장치(100)는 비감지존을 나타내는 영역 데이터(RD)를 저장 매체(160)에 저장할 수 있다.
S140단계에서, 사용자 입력에 응답하여 설정 모드가 종료된다.
도 10은 도 9의 S130단계의 실시 예를 보여주는 순서도이다.
도 3 및 도 10을 참조하면, S131단계에서, 비감지존의 범위는 사용자 입력에 따라 조절된다. 예를 들면, 사용자 단말기는 음성 인식 장치(100)를 중심으로 하는 360도의 범위 및 그 중 비감지존의 범위를 나타내는 그래픽 인터페이스를 디스플레이할 수 있으며, 사용자는 사용자 단말기를 통해 비감지존의 범위를 조절할 수 있다. 사용자 단말기는 조절된 비감지존의 범위를 나타내는 사용자 입력을 음성 인식 장치(100)에 제공할 수 있다. 음성 인식 장치(100)는 사용자 입력에 따라 비감지존을 조절할 것이다.
도 11은 본 발명의 실시 예에 따른 노멀 모드에서 마이크들을 통해 수신되는 소리를 처리하는 방법을 보여주는 순서도이다.
도 3 및 도 11을 참조하면, S210단계에서, 음성 인식 장치(100)는 마이크들(111~114)을 통해 수신되는 제 2 소리의 방향을 감지한다.
S220단계에서, 제 2 소리의 방향이 비감지존에 해당하는지 여부가 판별된다. 만약 그렇지 않다면, S230단계가 수행된다. 만약 그렇다면, S240단계가 수행된다.
S230단계에서, 제 2 소리에 기반한 음성 인식 및 음성 인식에 기반한 동작이 수행된다. 음성 인식 장치(100)는 음성 인식 결과에 따라 시각화된 피드백 정보를 디스플레이(130)를 통해 디스플레이하는 동작, 소리 피드백 정보를 스피커(140)를 통해 출력하는 동작 등과 같은 다양한 동작들을 수행할 수 있다.
S230단계에서, 제 2 소리에 대한 음성 인식 혹은 음성 인식에 기반한 동작이 스킵된다.
본 발명의 실시 예에 따르면, 설정 모드에서 비감지존이 설정되고, 이후 노멀 모드에서는 설정된 비감지존에 속하는 소리에 대한 음성 인식 혹은 음성 인식에 기반한 동작이 스킵된다. 이에 따라, 사용자가 원치않는 영역에서 생성되는 소리에 대한 음성 인식 혹은 음성 인식에 기반한 동작은 방지될 수 있다. 이에 따라, 오동작이 방지될 수 있으며, 향상된 신뢰성의 음성 인식 기능이 제공될 수 있다. 또한, 비감지존에 속하는 소리를 처리하기 위한 리소스들이 절약될 수 있으며, 따라서 상대적으로 적은 리소스들로 음성 인식 기능이 제공될 수 있다.
도 12는 도 1의 음성 인식 장치의 다른 실시 예를 보여주는 블록도이다.
도 12를 참조하면, 음성 인식 장치(400)는 제 1 내지 제 4 마이크들(411~414), 통신기(420), 디스플레이(430), 스피커(440), 저장 매체(460), 및 컨트롤러(470)를 포함할 수 있다.
제 1 내지 제 4 마이크들(411~414), 통신기(420), 디스플레이(430), 스피커(440), 및 저장 매체(460)는 도 3을 참조하여 설명된 제 1 내지 제 4 마이크들(111~114), 통신기(120), 디스플레이(130), 스피커(140), 및 저장 매체(160)와 각각 마찬가지로 구성된다.
컨트롤러(470)는 음성 인식 장치(400)의 제반 동작을 제어할 수 있다. 컨트롤러(470)는 소리 분석기(475)를 포함할 수 있다. 소리 분석기(475)는 저장 매체(460)에 저장된 존 활성화 데이터(ZED)에 기반하여 비감지존을 설정하고, 존 비활성화 데이터(ZDD)에 기반하여 비감지존을 디스에이블한다는 데에서 도 3의 컨트롤러(170)와 상이하다. 소리 분석기(475)는 설정된 비감지존을 나타내는 영역 데이터(RD)를 저장 매체(460)에 저장할 수 있다.
도 13은 도 12의 존 활성화 데이터 및 존 비활성화 데이터의 실시 예를 개념적으로 보여주는 테이블이다.
도 13을 참조하면, 존 활성화 데이터(ZED)는 하나 또는 그 이상의 제 1 문자열들(STR11~STR1k), 및 그것들에 각각 대응하는 각도 범위들(AR1~ARk)을 포함할 수 있다. 실시 예들에서, 제 1 문자열들(STR11~STR1k) 및 각도 범위들(AR1~Ark)은 사용자에 의해 설정될 수 있다. 예를 들면, 사용자는 제 1 문자열이 “밥 먹을게”일 때 각도 범위를 상대적으로 크게 설정할 수 있으며, 제 1 문자열이 “전화 받을게”일 때 각도 범위를 상대적으로 작게 설정할 수 있다. 이와 같이, 비감지존의 범위는 문자열에 적응적으로 변할 수 있다. 각도 범위에 대한 사용자 설정이 없다면, 각도 범위는 디폴트값을 가질 수 있다. 실시 예에서, 음성 인식 장치(400, 도 12 참조)는 외부의 사용자 단말기로부터 통신기(420, 도 12 참조)를 통해 제 1 문자열들(STR11~STR1k) 및 각도 범위들(AR1~Ark)을 수신하여 저장 매체(460)에 저장할 수 있다. 다른 실시 예에서, 음성 인식 장치(400)는 터치패드와 같은 사용자 인터페이스 혹은 제 1 내지 제 4 마이크들(411~414)을 이용한 음성 인식을 통해 제 1 문자열들(STR11~STR1k) 및 각도 범위들(AR1~Ark)을 수신할 수 있다. 이에 따라, 사용자는 비감지존과 연관된 자신이 원하는 문자열 및 각도 범위를 설정할 수 있다.
존 비활성화 데이터(ZDD)는 하나 또는 그 이상의 제 2 문자열들(STR21~STR2k)을 포함할 수 있다. 실시 예들에서, 제 2 문자열들(STR21~STR2k)은 마찬가지로 사용자에 의해 설정될 수 있다. 예를 들면, 사용자는 제 2 문자열을 “식사 끝” 혹은 “통화 끝”과 같이 설정할 수 있다.
도 14는 도 12의 소리 분석기의 실시 예를 보여주는 블록도이다.
도 14를 참조하면, 소리 분석기(500)는 제 1 인터페이스(510), 로컬 컨트롤러(520), 방향 감지기(530), 음성 감지기(540), 및 제 2 인터페이스(550)를 포함할 수 있다.
제 1 인터페이스(510), 방향 감지기(530), 음성 감지기(540), 및 제 2 인터페이스(550)는 도 4를 참조하여 설명된 제 1 인터페이스(210), 방향 감지기(230), 음성 감지기(240), 및 제 2 인터페이스(250)와 각각 마찬가지로 구성된다. 이하, 중복되는 설명은 생략된다.
로컬 컨트롤러(520)는 제 1 인터페이스(510)를 통해 제 1 내지 제 4 소리 신호들(SS1~SS4)가 수신될 때, 제 1 내지 제 4 소리 신호들(SS1~SS4)을 방향 감지기(530) 및 음성 감지기(540) 각각에 전송할 수 있다. 방향 감지기(530)에 의해, 해당 소리의 방향이 감지될 것이다. 음성 감지기(540)에 의해, 해당 소리의 음성 데이터(VD)가 획득될 것이다.
로컬 컨트롤러(520)는 획득된 음성 데이터(VD)가 존 활성화 데이터(ZED)의 제 1 문자열들(STR11~STR1k, 도 13 참조) 중 어느 하나와 매치되는지 판별한다. 만약 그렇다면, 로컬 컨트롤러(520)는 해당 소리의 방향을 포함하는 범위를 비감지존으로 설정할 수 있다. 이때, 비감지존의 범위는 존 활성화 데이터(ZED)의 각도 범위들(AR1~ARk, 도 13 참조) 중 매치된 제 1 문자열에 대응하는 각도 범위로 결정될 수 있다. 예를 들면, 음성 데이터가 제 1 문자열(STR11)과 매치될 때, 비감지존(도 6의 NDZ 참조)의 각도 범위(도 6의 AR 참조)는 각도 범위(AR1)으로서 설정될 수 있다. 실시 예들에서, 비감지존의 설정은 노멀 모드에서 수행될 수 있다.
로컬 컨트롤러(520)는 설정된 비감지존을 나타내는 영역 데이터(RD)를 저장 매체(460)에 저장할 수 있다.
이후 마이크들(411~414)을 통해 소리가 수신될 때, 로컬 컨트롤러(520)는 해당 소리의 방향이 비감지존에 속하는지 여부에 따라 해당 소리에 대한 음성 인식에 기반한 동작을 스킵할 수 있다. 실시 예에서, 로컬 컨트롤러(520)는 음성 감지기(540)에 의해 획득되는 음성 데이터(VD)를 출력하지 않을 수 있다. 다른 실시 예에서, 로컬 컨트롤러(520)는 음성 데이터(VD)와 함께 무효 마크(IVM)를 제 2 인터페이스(550)를 통해 출력할 수 있다. 이때, 무효 마크(IVM)는 음성 데이터(VD)에 따라 시각화된 피드백 정보를 디스플레이(430, 도 12 참조)를 통해 디스플레이하는 동작, 음성 데이터(VD)에 따라 소리 피드백 정보를 스피커(440, 도 12 참조)를 통해 출력하는 동작 등과 같은 다양한 동작들 중 적어도 하나에 대한 스킵을 야기할 수 있다.
또한, 음성 데이터(VD)가 존 비활성화 데이터(ZDD)의 제 2 문자열들(STR21~STR2k) 중 어느 하나와 매치될 수 있다. 이러한 경우, 로컬 컨트롤러(520)는 기 설정된 비감지존을 디스에이블할 수 있다. 예를 들면, 비감지존의 디스에이블은 비감지존의 설정과 마찬가지로 노멀 모드에서 수행될 수 있다.
이에 따라, 사용자는 음성으로 음성 인식 장치(400)를 커맨드하여 비감지존을 설정하거나 디스에이블할 수 있다. 따라서, 비감지존의 설정을 위한 사용자 편의성은 향상될 수 있다. 사용자는 비감지존을 위한 문자열을 자신이 원하는 바에 따라 설정할 수 있으므로, 음성 인식 장치(400)는 사용자 친화적인 비감지존의 설정을 제공할 수 있다.
또한, 비감지존의 설정으로 인해 사용자가 원치않는 영역에서 생성되는 소리에 대한 음성 인식 장치(100)의 오동작은 방지될 수 있으며, 비감지존의 범위는 문자열 별로 조절될 수 있으므로 음성 인식 장치(100)의 오동작은 더 효과적으로 방지될 수 있다. 이에 따라, 음성 인식 장치(100)는 향상된 신뢰성의 음성 인식 기능을 가질 수 있다.
나아가, 비감지존에 속하는 소리를 처리하기 위한 리소스들(예를 들면 파워)이 절약될 수 있으며, 따라서 음성 인식 장치(100)는 상대적으로 적은 리소스들로 음성 인식 기능을 제공할 수 있다.
도 15는 본 발명의 실시 예에 따른 비감지존을 설정 및 디스에이블하는 방법을 보여주는 순서도이다.
도 12 및 도 15를 참조하면, S310단계에서, 음성 인식 장치(400)는 마이크들(111~114)을 통해 수신되는 제 1 소리의 방향을 판별하고, 제 1 소리에 대한 음성 인식을 수행하여 음성 데이터를 획득한다.
S320단계에서, 음성 인식 장치(400)는 음성 데이터가 존 활성화 데이터(ZED)의 문자열들 중 어느 하나와 매치되는지 여부를 판별한다. 만약 그렇다면, S330단계가 수행된다. 만약 그렇지 않다면, S340단계가 수행된다.
S330단계에서, 음성 인식 장치(400)는 제 1 소리의 방향을 포함하는 비감지존을 설정한다. 이때, 비감지존의 범위는 매치되는 문자열에 따라 결정될 수 있다. 존 활성화 데이터(ZED)는 문자열들과 함께 그것들에 각각 대응하는 각도 범위들을 포함하며, 비감지존의 범위는 매치되는 문자열에 대응하는 각도 범위에 따라 결정될 수 있다.
S340단계에서, 음성 인식 장치(400)는 음성 데이터가 존 비활성화 데이터(ZDD)의 문자열들 중 어느 하나와 매치되는지 여부를 판별한다. 만약 그렇다면, S350단계가 수행된다. 만약 그렇지 않다면, S360단계가 수행된다.
S350단계에서, 음성 인식 장치(400)는 비감지존을 디스에이블한다.
S360단계에서, 음성 인식 장치(400)는 음성 데이터에 기반한 동작을 수행한다. 음성 인식 장치(400)는 도 11을 참조하여 설명된 S210~S240단계들을 수행할 수 있다.
본 발명의 실시 예에 따르면, 사용자는 음성으로 음성 인식 장치(400)를 커맨드하여 비감지존을 설정하거나 디스에이블할 수 있다. 따라서, 비감지존의 설정을 위한 사용자 편의성은 향상될 수 있다. 사용자는 비감지존을 위한 문자열을 자신이 원하는 바에 따라 설정할 수 있으므로, 사용자 친화적인 비감지존의 설정이 제공될 수 있다.
또한, 비감지존의 설정으로 인해 사용자가 원치않는 영역에서 생성되는 소리에 대한 음성 인식 장치(100)의 오동작은 방지될 수 있으며, 비감지존의 범위는 문자열 별로 조절될 수 있으므로 음성 인식 장치(100)의 오동작은 더 효과적으로 방지될 수 있다. 이에 따라, 향상된 신뢰성의 음성 인식 기능이 제공될 수 있다.
나아가, 비감지존에 속하는 소리를 처리하기 위한 리소스들이 절약될 수 있으며, 따라서 상대적으로 적은 리소스들로 음성 인식 기능이 제공될 수 있다.
도 16은 도 1의 음성 인식 장치를 구현하기 위한 컴퓨터 장치의 실시 예를 보여주는 블록도이다.
도 16을 참조하면, 컴퓨터 장치(1000)는 제 1 내지 제 4 마이크들(1110~1140), 통신기(1200), 디스플레이(1300), 스피커(1400), 저장 매체(1600), 프로세서(1700), 및 시스템 메모리(1800)를 포함할 수 있다. 제 1 내지 제 4 마이크들(1110~1140), 통신기(1200), 디스플레이(1300), 스피커(1400), 및 저장 매체(1600)는 도 3을 참조하여 설명된 제 1 내지 제 4 마이크들(111~114), 통신기(120), 디스플레이(130), 스피커(140), 및 저장 매체(160)와 각각 마찬가지로 구성된다. 이하, 중복되는 설명은 생략된다.
시스템 메모리(1800)는 램, 롬(Read Only Memory, ROM) 등 컴퓨터에 의해 판독 가능한 저장 매체들 중 적어도 하나를 포함할 수 있다. 시스템 메모리(1800)는 프로세서(1700)의 워킹 메모리로서 기능할 수 있다. 시스템 메모리(1800)는 컴퓨터 장치(1000)의 버퍼 메모리로서 기능할 수 있다. 실시 예들에서, 시스템 메모리(1800)는 다수의 메모리들로 구분될 수 있다. 실시 예들에서, 시스템 메모리(1800) 중 적어도 일부는 프로세서(1700)에 포함된 구성 요소로서 제공될 수 있다.
프로세서(1700)는 컴퓨터 장치(1000)의 제반 동작들 및 컴퓨터 장치(1000)의 구성 요소들 사이의 신호들의 흐름을 제어하고, 데이터를 처리하도록 구성된다. 프로세서(1700)는 프로그램 코드들을 저장 매체(1600)로부터 시스템 메모리(1800)에 로딩하고, 로딩된 프로그램 코드들을 실행할 수 있다.
프로세서(1700)는 그것에 의해 실행될 때 도 3 및/또는 도 12를 참조하여 설명된 소리 분석기들(175, 475)의 동작들을 수행하는 소리 분석 모듈(1850)을 저장 매체(1600)로부터 시스템 메모리(1800)에 로딩하고, 로딩된 소리 분석 모듈(1850)을 실행할 수 있다. 예를 들면, 소리 분석 모듈(1850)은 프로세서(1700)에 의해 실행될 때 도 4 및/또는 도 14의 제 1 인터페이스(210, 510), 로컬 컨트롤러(220, 520), 방향 감지기(230, 530), 음성 감지기(240, 540), 및 제 2 인터페이스(250, 550)의 기능들을 수행하는 프로그램 코드들을 포함할 수 있다. 또한, 프로세서(1700)는 운영 체제를 저장 매체(1600)로부터 시스템 메모리(1800)에 로딩하고, 로딩된 운영 체제를 실행할 수 있다. 이러한 경우, 운영 체제는 소리 분석 모듈(1850)이 컴퓨터 장치(1000)의 구성 요소들을 이용할 수 있도록 하는 인터페이스를 제공할 수 있다.
비록 특정 실시 예들 및 적용 례들이 여기에 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정들 및 변형들이 가능하다.
따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.

Claims (15)

  1. 상이한 방향들을 향하도록 배치되는 복수의 마이크들; 및
    상기 복수의 마이크들과 연결되는 프로세서를 포함하며,
    상기 프로세서는,
    설정 모드에서, 상기 복수의 마이크들을 통해 수신되는 제 1 소리의 방향을 판별하고;
    상기 제 1 소리의 상기 방향을 포함하는 비감지존(non-detecting zone)을 설정하고;
    노멀 모드에서, 상기 복수의 마이크들을 통해 수신되는 제 2 소리의 방향을 판별하고;
    상기 제 2 소리의 상기 방향이 상기 비감지존에 속하는지 여부에 따라 상기 제 2 소리에 대한 음성 인식 혹은 상기 음성 인식에 기반한 동작을 스킵하도록 구성되는 음성 인식 장치.
  2. 제 1 항에 있어서,
    상기 프로세서는,
    상기 제 2 소리의 상기 방향이 상기 비감지존에 속할 때 상기 제 2 소리에 대한 음성 인식 혹은 상기 음성 인식에 기반한 동작을 스킵하고,
    상기 제 2 소리의 상기 방향이 상기 비감지존으로부터 벗어날 때 상기 제 2 소리에 대한 상기 음성 인식 및 상기 음성 인식에 기반한 상기 동작을 수행하도록 구성되는 음성 인식 장치.
  3. 제 1 항에 있어서,
    상기 비감지존의 범위는 소정의 각도 범위(angle range)를 갖는 음성 인식 장치.
  4. 제 1 항에 있어서,
    상기 비감지존의 범위를 저장하는 저장 매체를 더 포함하는 음성 인식 장치.
  5. 제 1 항에 있어서,
    상기 프로세서는 사용자 입력에 응답하여 상기 설정 모드에 진입하는 음성 인식 장치.
  6. 제 1 항에 있어서,
    프로세서와 연결되는 통신기를 더 포함하고,
    상기 프로세서는 상기 통신기를 통해 수신되는 사용자 입력에 따라 상기 비감지존의 범위를 조절하도록 구성되는 음성 인식 장치.
  7. 상이한 방향들을 향하도록 배치되는 복수의 마이크들;
    하나 또는 그 이상의 문자열들을 저장하도록 구성되는 저장 매체; 및
    상기 복수의 마이크들 및 상기 저장 매체와 연결되는 프로세서를 포함하며,
    상기 프로세서는,
    상기 복수의 마이크들을 통해 수신되는 제 1 소리에 대한 음성 인식을 수행하여 음성 데이터를 획득하고;
    상기 음성 데이터가 상기 문자열들 중 어느 하나와 매치될 때 상기 제 1 소리의 방향을 포함하는 비감지존을 설정하되, 상기 비감지존의 범위는 상기 매치되는 문자열에 따라 결정되고;
    상기 복수의 마이크들을 통해 수신되는 제 2 소리의 방향을 판별하고;
    상기 제 2 소리의 상기 방향이 상기 비감지존에 속하는지 여부에 따라 상기 제 2 소리에 대한 상기 음성 인식 혹은 상기 음성 인식에 기반한 동작을 스킵하도록 구성되는 음성 인식 장치.
  8. 제 7 항에 있어서,
    상기 저장 매체는 상기 문자열들에 각각 대응하는 각도 범위들을 더 저장하고,
    상기 프로세서는 상기 각도 범위들 중 상기 매치되는 문자열에 대응하는 각도 범위를 상기 비감지존의 범위로 결정하도록 구성되는 음성 인식 장치.
  9. 제 7 항에 있어서,
    상기 프로세서는,
    상기 제 2 소리의 상기 방향이 상기 비감지존에 속할 때 상기 제 2 소리에 대한 상기 음성 인식 혹은 상기 음성 인식에 기반한 상기 동작을 스킵하고;
    상기 제 2 소리의 상기 방향이 상기 비감지존으로부터 벗어날 때 상기 제 2 소리에 대한 음성 인식 및 상기 음성 인식에 기반한 상기 동작을 수행하도록 구성되는 음성 인식 장치.
  10. 제 7 항에 있어서,
    상기 저장 매체는 하나 또는 그 이상의 제 2 문자열들을 더 저장하도록 구성되고,
    상기 프로세서는,
    상기 복수의 마이크들을 통해 수신되는 제 3 소리에 대한 상기 음성 인식을 수행하여 제 2 음성 데이터를 획득하고;
    상기 제 2 음성 데이터가 상기 제 2 문자열들 중 어느 하나와 매치될 때 상기 비감지존을 디스에이블하도록 구성되는 음성 인식 장치.
  11. 복수의 마이크들을 이용하여 음성을 인식하는 방법에 있어서:
    설정 모드에서, 상기 복수의 마이크들을 통해 수신되는 제 1 소리의 방향을 판별하는 단계;
    상기 제 1 소리의 상기 방향을 포함하는 비감지존을 설정하는 단계;
    노멀 모드에서, 상기 복수의 마이크들을 통해 수신되는 제 2 소리의 방향을 판별하는 단계; 및
    상기 제 2 소리의 상기 방향이 상기 비감지존에 속하는지 여부에 따라 상기 제 2 소리에 대한 음성 인식 혹은 상기 음성 인식에 기반한 동작을 스킵하는 단계를 포함하는 방법.
  12. 제 11 항에 있어서,
    상기 스킵하는 단계는,
    상기 제 2 소리의 상기 방향이 상기 비감지존에 속할 때 상기 제 2 소리에 대한 음성 인식 혹은 상기 음성 인식에 기반한 동작을 스킵하는 단계; 및
    상기 제 2 소리의 상기 방향이 상기 비감지존으로부터 벗어날 때 상기 제 2 소리에 대한 상기 음성 인식 및 상기 음성 인식에 기반한 상기 동작을 수행하는 단계를 포함하는 방법.
  13. 제 11 항에 있어서,
    상기 비감지존의 범위는 소정의 각도 범위(angle range)를 갖는 방법.
  14. 제 11 항에 있어서,
    사용자 입력에 응답하여 상기 설정 모드로 진입하는 단계를 더 포함하는 방법.
  15. 제 11 항에 있어서,
    상기 비감지존을 설정하는 단계는 사용자 장치로부터 전송되는 사용자 입력에 따라 상기 비감지존의 범위를 조절하는 단계를 포함하는 방법.
PCT/KR2019/018451 2018-12-27 2019-12-26 음성을 인식하는 장치 및 방법 WO2020138943A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/347,496 US11763838B2 (en) 2018-12-27 2021-06-14 Device and method to recognize voice

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201862785625P 2018-12-27 2018-12-27
US62/785,625 2018-12-27
KR1020190173095A KR20200081274A (ko) 2018-12-27 2019-12-23 음성을 인식하는 장치 및 방법
KR10-2019-0173095 2019-12-23

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/347,496 Continuation US11763838B2 (en) 2018-12-27 2021-06-14 Device and method to recognize voice

Publications (1)

Publication Number Publication Date
WO2020138943A1 true WO2020138943A1 (ko) 2020-07-02

Family

ID=71128271

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2019/018451 WO2020138943A1 (ko) 2018-12-27 2019-12-26 음성을 인식하는 장치 및 방법

Country Status (1)

Country Link
WO (1) WO2020138943A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113066500A (zh) * 2021-03-30 2021-07-02 联想(北京)有限公司 声音采集方法、装置及设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100098104A (ko) * 2009-02-27 2010-09-06 고려대학교 산학협력단 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법 및 장치
JP2011237621A (ja) * 2010-05-11 2011-11-24 Honda Motor Co Ltd ロボット
US20130073283A1 (en) * 2011-09-15 2013-03-21 JVC KENWOOD Corporation a corporation of Japan Noise reduction apparatus, audio input apparatus, wireless communication apparatus, and noise reduction method
JP2016080750A (ja) * 2014-10-10 2016-05-16 株式会社Nttドコモ 音声認識装置、音声認識方法、及び音声認識プログラム
KR20170097519A (ko) * 2016-02-18 2017-08-28 삼성전자주식회사 음성 처리 방법 및 장치

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100098104A (ko) * 2009-02-27 2010-09-06 고려대학교 산학협력단 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법 및 장치
JP2011237621A (ja) * 2010-05-11 2011-11-24 Honda Motor Co Ltd ロボット
US20130073283A1 (en) * 2011-09-15 2013-03-21 JVC KENWOOD Corporation a corporation of Japan Noise reduction apparatus, audio input apparatus, wireless communication apparatus, and noise reduction method
JP2016080750A (ja) * 2014-10-10 2016-05-16 株式会社Nttドコモ 音声認識装置、音声認識方法、及び音声認識プログラム
KR20170097519A (ko) * 2016-02-18 2017-08-28 삼성전자주식회사 음성 처리 방법 및 장치

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113066500A (zh) * 2021-03-30 2021-07-02 联想(北京)有限公司 声音采集方法、装置及设备和存储介质
CN113066500B (zh) * 2021-03-30 2023-05-23 联想(北京)有限公司 声音采集方法、装置及设备和存储介质

Similar Documents

Publication Publication Date Title
WO2018070780A1 (en) Electronic device and method for controlling the same
WO2020189955A1 (en) Method for location inference of iot device, server, and electronic device supporting the same
WO2019143022A1 (ko) 음성 명령을 이용한 사용자 인증 방법 및 전자 장치
WO2013047968A1 (en) User interface method and device
WO2019135623A1 (ko) 디스플레이장치 및 그 제어방법
WO2020080635A1 (ko) 동작 상태에 기반하여 선택한 마이크를 이용하여 음성 인식을 수행하는 전자 장치 및 그의 동작 방법
WO2020138943A1 (ko) 음성을 인식하는 장치 및 방법
WO2019107719A1 (ko) 360 비디오에서 화자의 음성을 시각적으로 표시하기 위한 장치 및 방법
WO2020101174A1 (ko) 개인화 립 리딩 모델 생성 방법 및 장치
WO2019216484A1 (ko) 전자 장치 및 그 동작방법
WO2019151667A1 (ko) 자동 응답 시스템으로 개인 정보를 전송하기 위한 장치 및 방법
WO2019164196A1 (ko) 문자를 인식하기 위한 전자 장치 및 방법
WO2022191395A1 (ko) 사용자 명령을 처리하는 장치 및 그 동작 방법
WO2021241938A1 (ko) 전자장치 및 그 제어방법
WO2021256760A1 (ko) 이동 가능한 전자장치 및 그 제어방법
WO2021107308A1 (ko) 전자 장치 및 이의 제어 방법
KR20200081274A (ko) 음성을 인식하는 장치 및 방법
WO2020204357A1 (ko) 전자 장치 및 이의 제어 방법
WO2020076087A1 (ko) 전자 장치 및 그의 동작 방법
WO2019177396A1 (ko) 전자 장치 및 그의 동작 방법
WO2020009261A1 (ko) 음성 인식이 가능한 디지털 디바이스 및 그 제어 방법
WO2022177063A1 (ko) 전자 장치 및 이의 제어 방법
WO2021230421A1 (ko) 외부 장치로부터 획득된 정보를 바탕으로 통신 그룹의 장치에게 신호를 송신 또는 수신하는 전자 장치 및 이의 제어 방법
WO2024058474A1 (ko) 음성 인식을 수행하는 전자 장치 및 이의 제어 방법
WO2021141332A1 (ko) 전자장치 및 그 제어방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19905664

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19905664

Country of ref document: EP

Kind code of ref document: A1