KR101893768B1 - 음성 인식 트리거를 제공하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체 - Google Patents
음성 인식 트리거를 제공하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체 Download PDFInfo
- Publication number
- KR101893768B1 KR101893768B1 KR1020170025738A KR20170025738A KR101893768B1 KR 101893768 B1 KR101893768 B1 KR 101893768B1 KR 1020170025738 A KR1020170025738 A KR 1020170025738A KR 20170025738 A KR20170025738 A KR 20170025738A KR 101893768 B1 KR101893768 B1 KR 101893768B1
- Authority
- KR
- South Korea
- Prior art keywords
- distance
- voice
- sensed
- speech
- speech recognition
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000013135 deep learning Methods 0.000 claims description 5
- 238000010801 machine learning Methods 0.000 claims description 5
- 230000003287 optical effect Effects 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 2
- 230000001939 inductive effect Effects 0.000 claims description 2
- 230000006870 function Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 3
- 238000003657 Likelihood-ratio test Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000001965 increasing effect Effects 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 210000000707 wrist Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S11/00—Systems for determining distance or velocity not using reflection or reradiation
- G01S11/12—Systems for determining distance or velocity not using reflection or reradiation using electromagnetic waves other than radio waves
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S11/00—Systems for determining distance or velocity not using reflection or reradiation
- G01S11/14—Systems for determining distance or velocity not using reflection or reradiation using ultrasonic, sonic, or infrasonic waves
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Remote Sensing (AREA)
- Radar, Positioning & Navigation (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Signal Processing (AREA)
- Electromagnetism (AREA)
- User Interface Of Digital Computer (AREA)
- Telephone Function (AREA)
Abstract
본 발명은 음성 인식 트리거를 제공하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체에 관한 것이다.
본 발명의 일 태양에 따르면, 음성 인식 트리거를 제공하기 위한 방법으로서, 디바이스에서 감지되는 근접 정보에 기초하여 상기 디바이스와 사용자 사이의 거리인 제1 거리를 추정하고, 상기 디바이스에서 감지되는 음성에 관한 정보를 참조하여 상기 디바이스와 상기 디바이스에서 감지되는 음성이 발화되는 위치 사이의 거리인 제2 거리를 추정하는 단계, 및 상기 제1 거리 및 상기 제2 거리 사이의 유사성을 참조하여 상기 디바이스에서 감지되는 음성이 음성 인식의 대상인지 여부를 결정하는 단계를 포함하는 방법이 제공된다.
본 발명의 일 태양에 따르면, 음성 인식 트리거를 제공하기 위한 방법으로서, 디바이스에서 감지되는 근접 정보에 기초하여 상기 디바이스와 사용자 사이의 거리인 제1 거리를 추정하고, 상기 디바이스에서 감지되는 음성에 관한 정보를 참조하여 상기 디바이스와 상기 디바이스에서 감지되는 음성이 발화되는 위치 사이의 거리인 제2 거리를 추정하는 단계, 및 상기 제1 거리 및 상기 제2 거리 사이의 유사성을 참조하여 상기 디바이스에서 감지되는 음성이 음성 인식의 대상인지 여부를 결정하는 단계를 포함하는 방법이 제공된다.
Description
본 발명은 음성 인식 트리거를 제공하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체에 관한 것이다.
최근 사용자 인터페이스에 대한 관심이 높아지고, 음성 처리 기술이 발달함에 따라, 음성 인식 기능이 내장된 IT 기기들이 늘어가고 있다. 예컨대, 사용자의 음성을 인식하여 사용자가 요청한 동작을 수행할 수 있는 스마트폰, 스마트 워치, 스마트 TV, 스마트 냉장고 등이 널리 보급되고 있다. 이와 같은 종래 기술의 일 예로서, 한국공개특허공보 제2016-39244호에 개시된 기술을 예로 들 수 있는데, 컴퓨팅 디바이스가 오디오 데이터를 제공받으면, 오디오 데이터에 음성 개시 액션이 포함되어 있는지 여부를 판단하고, 포함되어 있다고 판단되는 경우, 음성 개시 액션이 인식되었음을 나타내는 디스플레이를 컴퓨팅 디바이스를 통해 사용자에게 제공하는 기술이 소개된 바 있다.
하지만, 위와 같은 종래 기술을 비롯하여 지금까지 소개된 기술에 의하면, 사용자가 음성 입력을 시작하기 전에 버튼을 누르거나 미리 정해진 트리거 단어를 입력하여, 사용자가 음성 입력을 시작하는 지점을 특정하여야만 하였는데, 버튼을 누르는 전자의 방식은, 사용자가 손을 자유롭게 사용하지 못하는 경우 음성 입력을 수행할 수 없어 불편함을 초래할 수 밖에 없었고, 사용자가 미리 정해진 트리거 단어를 말하는 후자의 방식은 음성 인식 장치와 사용자가 조금만 떨어지더라도 같은 공간에서 발생되는 타인의 음성과 같은 다양한 노이즈로 인해 음성 입력 시작 지점의 특정이 어려운데다 사용자가 미리 정해진 트리거 단어를 말하더라도 음성 입력이 시작되었다는 것을 사용자에게 확신시키기 위하여 소리나 불빛으로 피드백을 한 뒤에야 사용자가 음성 입력을 시작하도록 할 수 밖에 없었기 때문에 음성 입력을 시작하는 단계부터 상당히 긴 시간이 소요될 수 밖에 없는 한계가 있었다.
이에 본 발명자는, 디바이스와 사용자 사이의 거리 및 음성을 감지하는 디바이스와 디바이스에서 감지되는 음성이 발화되는 위치 사이의 거리를 추정하고, 그 추정되는 두 거리가 서로 기설정된 수준 이상으로 유사한 경우에, 디바이스에서 감지되는 음성을 음성 인식의 대상으로 결정하는 음성 인식 트리거에 관한 기술을 제안하는 바이다.
본 발명은 전술한 문제점을 모두 해결하는 것을 그 목적으로 한다.
또한, 본 발명은, 음성 입력을 시작하기 위한 불필요한 과정을 생략하여 사용자가 빠르게 음성을 입력할 수 있도록 지원하는 것을 다른 목적으로 한다.
또한, 본 발명은, 디바이스에 근접하여 음성이 입력되도록 함으로써 주변 노이즈 영향을 최소화하고, 작은 음성으로도 정확하게 동작하는 음성 인식 트리거를 제공하는 것을 다른 목적으로 한다.
상기 목적을 달성하기 위한 본 발명의 대표적인 구성은 다음과 같다.
본 발명의 일 태양에 따르면, 음성 인식 트리거를 제공하기 위한 방법으로서, 디바이스에서 감지되는 근접 정보에 기초하여 상기 디바이스와 사용자 사이의 거리인 제1 거리를 추정하고, 상기 디바이스에서 감지되는 음성에 관한 정보를 참조하여 상기 디바이스와 상기 디바이스에서 감지되는 음성이 발화되는 위치 사이의 거리인 제2 거리를 추정하는 단계, 및 상기 제1 거리 및 상기 제2 거리 사이의 유사성을 참조하여 상기 디바이스에서 감지되는 음성이 음성 인식의 대상인지 여부를 결정하는 단계를 포함하는 방법이 제공된다.
본 발명의 다른 태양에 따르면, 음성 인식 트리거를 제공하기 위한 시스템으로서, 디바이스에서 감지되는 근접 정보에 기초하여 상기 디바이스와 사용자 사이의 거리인 제1 거리를 추정하고, 상기 디바이스에서 감지되는 음성에 관한 정보를 참조하여 상기 디바이스와 상기 디바이스에서 감지되는 음성이 발화되는 위치 사이의 거리인 제2 거리를 추정하는 추정부, 및 상기 제1 거리 및 상기 제2 거리 사이의 유사성을 참조하여 상기 디바이스에서 감지되는 음성이 음성 인식의 대상인지 여부를 결정하는 결정부를 포함하는 시스템이 제공된다.
이 외에도, 본 발명을 구현하기 위한 다른 방법, 시스템 및 상기 방법을 실행하기 위한 컴퓨터 프로그램을 기록하기 위한 비일시성의 컴퓨터 판독 가능한 기록 매체가 더 제공된다.
본 발명에 의하면, 음성 입력을 시작하기 위한 불필요한 과정을 생략하여 사용자가 빠르게 음성을 입력할 수 있는 효과가 달성된다.
또한, 본 발명에 의하면, 디바이스에 근접하여 음성이 입력되도록 함으로써 주변 노이즈 영향을 최소화하고, 작은 음성으로도 정확하게 동작하는 음성 인식 트리거를 제공하는 효과가 달성된다.
도 1은 본 발명의 일 실시예에 따라 음성 인식 시스템의 내부 구성을 예시적으로 나타내는 도면이다.
도 2는 본 발명의 일 실시예에 따라 음성 인식 시스템을 통해 음성 인식 트리거가 제공되는 상황을 예시적으로 나타내는 도면이다.
도 3은 본 발명의 일 실시예에 따라 음성 인식 시스템이 활용될 수 있는 다양한 실시예를 나타내는 도면이다.
도 2는 본 발명의 일 실시예에 따라 음성 인식 시스템을 통해 음성 인식 트리거가 제공되는 상황을 예시적으로 나타내는 도면이다.
도 3은 본 발명의 일 실시예에 따라 음성 인식 시스템이 활용될 수 있는 다양한 실시예를 나타내는 도면이다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.
이하에서는, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 바람직한 실시예들에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.
음성 인식 시스템의 구성
이하에서는, 본 발명의 구현을 위하여 중요한 기능을 수행하는 음성 인식 시스템(100)의 내부 구성 및 각 구성요소의 기능에 대하여 살펴보기로 한다.
도 1은 본 발명의 일 실시예에 따라 음성 인식 시스템(100)의 내부 구성을 예시적으로 나타내는 도면이다.
도 1을 참조하면, 본 발명의 일 실시예에 따라 음성 인식 시스템(100)은, 추정부(110), 결정부(120), 통신부(130) 및 제어부(140)를 포함할 수 있다. 또한, 본 발명의 일 실시예에 따라 추정부(110), 결정부(120), 통신부(130) 및 제어부(140)는 그 중 적어도 일부가 외부 시스템(미도시됨)과 통신하는 프로그램 모듈들일 수 있다. 이러한 프로그램 모듈들은 운영 시스템, 응용 프로그램 모듈 및 기타 프로그램 모듈의 형태로 음성 인식 시스템(100)에 포함될 수 있으며, 물리적으로는 여러 가지 공지의 기억 장치 상에 저장될 수 있다. 또한, 이러한 프로그램 모듈들은 음성 인식 시스템(100)과 통신 가능한 원격 기억 장치에 저장될 수도 있다. 한편, 이러한 프로그램 모듈들은 본 발명에 따라 후술할 특정 업무를 수행하거나 특정 추상 데이터 유형을 실행하는 루틴, 서브루틴, 프로그램, 오브젝트, 컴포넌트, 데이터 구조 등을 포괄하지만, 이에 제한되지는 않는다.
한편, 음성 인식 시스템(100)에 관하여 위와 같이 설명되었으나, 이러한 설명은 예시적인 것이고, 음성 인식 시스템(100)의 구성요소 또는 기능 중 적어도 일부가 필요에 따라 사용자가 휴대하거나 사용자의 신체 부위(예를 들면, 머리, 눈, 손가락, 손목, 귀, 목 등)에 착용되는 디바이스(200) 내에서 실현되거나 이러한 디바이스(200) 내에 포함될 수도 있음은 당업자에게 자명하다. 또한, 경우에 따라서는, 음성 인식 시스템(100)의 모든 기능과 모든 구성요소가 디바이스(200) 내에서 전부 실행되거나 디바이스(200) 내에 전부 포함될 수도 있다.
본 발명의 일 실시예에 따른 디바이스(200)는, 메모리 수단을 구비하고, 마이크로 프로세서를 탑재하여 연산 능력을 갖춘 디지털 기기로서, 스마트 글래스, 스마트 워치, 스마트 밴드, 스마트 링, 스마트 넥클리스, 스마트 이어셋, 스마트 이어폰, 스마트 이어링 등과 같은 웨어러블 디바이스이거나 스마트폰, 스마트 패드, 데스크탑 컴퓨터, 노트북 컴퓨터, 워크스테이션, 피디에이(PDA), 웹 패드, 이동 전화기, 리모트 컨트롤러 등과 같은 다소 전통적인 디바이스가 포함될 수 있으며, 디바이스(200)는 전술한 예시뿐만 아니라 본 발명의 목적을 달성할 수 있는 범위 내에서 얼마든지 변경될 수 있다. 또한, 본 발명의 일 실시예에 따라 디바이스(200)는 음성을 인식 또는 감지하기 위한 마이크 모듈(미도시됨)을 포함할 수 있으며, 디바이스(200)와 사용자 간 거리를 감지하기 위한 근접 센싱 모듈(미도시됨) 또는 디바이스(200)와 디바이스(200)에서 감지되는 음성이 발화되는 위치 사이 거리를 감지하기 위한 음성 거리 인식 모듈(미도시됨)을 포함할 수 있다.
한편, 본 발명의 일 실시예에 따른 디바이스(200)에는, 본 발명에 따른 음성 인식 트리거가 제공되는 기능이 수행될 수 있도록 지원하는 애플리케이션이 포함되어 있을 수 있다. 이와 같은 애플리케이션은 외부의 애플리케이션 배포 서버(미도시됨)로부터 다운로드된 것일 수 있다. 한편, 이러한 프로그램 모듈의 성격은 후술할 바와 같은 음성 인식 시스템(100)의 추정부(110), 결정부(120), 통신부(130) 및 제어부(140)와 전반적으로 유사할 수 있다. 여기서, 애플리케이션은 그 적어도 일부가 필요에 따라 그것과 실질적으로 동일하거나 균등한 기능을 수행할 수 있는 하드웨어 장치나 펌웨어 장치로 치환될 수도 있다.
먼저, 본 발명의 일 실시예에 따른 추정부(110)는, 디바이스(200)에서 감지되는 근접 정보에 기초하여 디바이스(200)와 사용자 사이의 거리인 제1 거리를 추정할 수 있다.
구체적으로, 본 발명의 일 실시예에 따라 추정부(110)는, 디바이스(200)에서 감지되는 근접 정보로부터 사용자와 디바이스(200) 간 물리적인 거리에 관한 정보를 획득함으로써 전술한 제1 거리를 추정할 수 있으며, 이를 위하여, 디바이스(200)는 근접 정보를 감지할 수 있는 적어도 하나의 센싱 모듈(미도시됨)을 포함할 수 있다. 본 발명의 일 실시예에 따라 이러한 센싱 모듈에는, 광학(optical) 센서, 광전(photoelectric) 센서, 초음파(ultrasonic) 센서, 유도(inductive) 센서, 정전 용량(capacitive) 센서, 저항막(resistive) 센서, 와전류(eddy current) 센서, 적외선(infrared) 센서, 마그네틱(magnetic) 센서 등의 공지의 센서 중 적어도 하나가 포함될 수 있다.
또한, 본 발명의 일 실시예에 따라, 추정부(110)는, 디바이스(200)에서 감지되는 음성에 관한 정보를 참조하여 디바이스(200)와 디바이스(200)에서 감지되는 음성이 발화되는 위치 사이의 거리인 제2 거리를 추정할 수 있다. 본 발명의 일 실시예에 따라 디바이스(200)에서 감지되는 음성에 관한 정보에는, 음성의 세기, 파형, 주파수 스펙트럼 등에 관한 정보가 포함될 수 있다.
구체적으로, 본 발명의 일 실시예에 따라 추정부(110)는, 디바이스(200)에서 감지되는 음성과 음성 패턴을 비교함으로써, 디바이스(200)와 디바이스(200)에서 감지되는 음성이 발화되는 위치 사이의 거리인 제2 거리를 추정할 수 있다. 본 발명의 일 실시예에 따른 음성 패턴에는, 음성 스펙트럼(spectrum) 정보를 표현하는 선형 예측 계수(linear predictive coefficients; LPC) 또는 인지 선형 예측(perceptual linear predictive; PLP)에 관한 패턴, 인체 청각 모델에 기반한 멜-주파수 캡스트럼 계수(mel-frequency cepstral coefficients; MFCC)에 관한 패턴, 머신 러닝(machine learning) 또는 딥 러닝(deep learning)을 통해 학습되는 컨볼루션 신경망(convolutional neural network; CNN) 또는 변별 학습(discriminative training)에 관한 패턴 등이 포함될 수 있다.
예를 들면, 본 발명의 일 실시예에 따른 추정부(110)는 음성의 발화 위치 및 그 음성이 감지되는 위치 사이의 거리에 따라 나타나는 음성 패턴을 디바이스(200)에서 감지되는 음성과 비교함으로써, 디바이스(200)와 디바이스(200)에서 감지되는 음성이 발화되는 위치 사이의 거리(즉, 제2 거리)를 추정할 수 있다. 이를 위하여, 본 발명의 일 실시예에 따른 추정부(110)는 음성의 발화 위치 및 그 음성이 감지되는 위치 사이의 거리에 따라 나타나는 기설정된 음성 패턴을 참조할 수 있으며, 음성의 발화 위치 및 그 음성이 감지되는 위치 사이의 거리에 따라 나타나는 음성 패턴에 관한 정보가 저장된 데이터베이스를 참조할 수도 있다.
한편, 본 발명의 일 실시예에 따른 추정부(110)는 적어도 하나의 위치에서 발화되는 음성에 관한 머신 러닝(machine learning) 또는 딥 러닝(deep learning)을 통해 음성의 발화되는 위치에 따른 음성 패턴을 획득할 수도 있다. 이 경우, 본 발명의 일 실시예에 따라 추정부(110)는 머신 러닝(machine learning) 또는 딥 러닝(deep learning)을 통해 획득되는 발화 위치에 따른 음성 패턴을, 디바이스(200)에서 감지되는 음성과 비교함으로써, 디바이스(200)와 디바이스(200)에서 감지되는 음성이 발화되는 위치 사이의 거리(즉, 제2 거리)를 추정할 수 있다. 본 발명의 일 실시예에 따른 추정부(110)는 머신 러닝(machine learning) 또는 딥 러닝(deep learning)을 위하여 성분 분석(component analysis), 행렬 분해(matrix factorization), 기대 극대화(expectation maximization), 은닉 마코브 모델(hidden markov model), 칼만 필터(kalman filtering), k-최근접 이웃(k-nearest neighbor), 부스팅(boosting), 지지 벡터 머신(support vector machine), 연관 규칙(association rule), 혼동 매트릭스(confusion matrix), 동시 출현 매트릭스(co-occurance matrix), 웨이블릿 (wavelet), 최대 우도 추정(maximum likelihood), 가우시안 혼합 모델(gaussian mixture models), 결정 트리(decision tree) 등을 이용한 공지의 알고리즘 중 적어도 하나를 이용할 수 있다.
한편, 본 발명의 일 실시예에 따른 추정부(110)는, 디바이스(200)에서 감지되는 음성에 관한 정보로부터 음성과 그 주변에서 발생되는 소음을 분리하기 위하여 우도비 검증(likelihood ratio test; LRT), 블라인드 음성 분리(blind source separation; BSS) 등의 공지의 음성 분리 알고리즘 중 적어도 하나를 이용할 수 있다.
예를 들어, 본 발명의 일 실시예에 따라 추정부(110)는 블라인드 음성 분리(Blind Source Separation; BSS) 알고리즘을 통해 디바이스(200)의 복수의 음성 인식 모듈(미도시됨)로부터 감지되는 신호를 분석함으로써, 디바이스(200)에서 감지되는 음성으로부터 주변 소음을 분리시킬 수 있다.
다음으로, 본 발명의 일 실시예에 따른 결정부(120)는, 추정부(110)를 통해 추정되는 제1 거리 및 제2 거리의 유사성을 참조하여, 디바이스(200)에서 감지되는 음성이 음성 인식의 대상인지 여부를 결정할 수 있다.
구체적으로, 본 발명의 일 실시예에 따른 결정부(120)는, 디바이스(200)와 사용자 사이의 거리(즉, 제1 거리) 및 디바이스(200)와 디바이스(200)에서 감지되는 음성이 발화되는 위치 사이의 거리(즉, 제2 거리)가 기설정된 수준 이상으로 유사하다고 판단되면, 디바이스(200)에서 감지되는 음성을 음성 인식의 대상으로 결정할 수 있다. 본 발명의 일 실시예에 따라, 전술한 기설정된 수준이라 함은, 제1 거리나 제2 거리를 측정하기 위한 센싱(또는 인식) 모듈 또는 제1 거리나 제2 거리를 추정하기 위한 방법에 따라 제1 거리 및 제2 거리가 서로 동일하거나 유사하다고 판단될 수 있는 범위 내에서 적절히 설정되는 기준일 수 있다.
예를 들면, 본 발명의 일 실시예에 따라 사용자가 디바이스(200)를 사용자 소정의 신체 부위에 위치(예를 들어, 사용자 입술로부터 3cm)시킨 상태에서, 음성을 발화한 경우, 디바이스(200)와 사용자 사이의 거리(즉, 제1 거리)가 2.8cm로 추정되고, 디바이스(200)와 디바이스(200)에서 감지되는 음성이 발화되는 거리(즉, 제2 거리)가 3cm로 추정되면, 결정부(120)는 제1 거리와 제2 거리의 차이가 0.2cm로 무시할 만하다고 판단하여, 디바이스(200)에서 감지되는 음성을 음성 인식의 대상으로 결정할 수 있다.
또한, 본 발명의 일 실시예에 따라 결정부(120)는 디바이스(200)와 사용자 사이의 거리(즉, 제1 거리) 및/또는 디바이스(200)와 디바이스(200)에서 감지되는 음성이 발화되는 위치 사이의 거리(즉, 제2 거리)가 기설정된 거리 이내인지 여부를 더 참조하여 해당 디바이스에서 감지되는 음성이 음성 인식의 대상인지 여부를 결정할 수 있다.
예를 들면, 본 발명의 일 실시예에 따라 사용자가 디바이스(200)를 사용자 소정의 신체 부위에 위치(예를 들어, 사용자의 입술로부터 25cm)시킨 상태에서, 사용자가 음성을 발화한 경우, 추정부(110)를 통해 디바이스(200)와 사용자 사이의 거리(즉, 제1 거리)가 25cm로 추정되고, 디바이스(200)와 디바이스(200)에서 감지되는 음성이 발화되는 거리(즉, 제2 거리)가 25.4cm로 추정되면, 결정부(120)는 제1 거리 및/또는 제2 거리가 기설정된 거리(예를 들면, 10cm 이내)를 초과하므로, 그 거리(제1 거리와 제2 거리) 차이가 무시할 만함(이 경우, 0.4cm)에도 불구하고, 디바이스(200)에서 감지되는 음성을 음성 인식의 대상이 아닌 것으로 결정할 수 있다. 즉, 이 경우, 본 발명의 일 실시예에 따라 사용자가 디바이스(200)를 사용자의 신체 부위 근접한 곳에 위치시킨 경우에 한하여, 본 발명에 따른 음성 인식 트리거가 제공될 수 있다.
한편, 본 발명의 일 실시예에 따른 결정부(120)는, 디바이스(200)에서 감지되는 음성이 음성 인식의 대상인지 여부를 결정함에 있어서, 디바이스(200)에서 감지되는 음성이 인체로부터 발화되었는지 여부를 더 참조하여 결정할 수 있다.
구체적으로, 본 발명의 일 실시예에 따라 결정부(120)는 디바이스(200)에서 감지되는 음성에 관한 정보를 분석하여, 인체로부터 발화되는 음성인지 여부를 판단하고, 판단된 결과를 참조하여, 디바이스(200)에서 감지되는 음성이 음성 인식의 대상인지 여부를 결정할 수 있다. 본 발명의 일 실시예에 따라, 결정부(120)는 디바이스(200)에서 감지되는 음성이 인체로부터 발화되는 것이 아닌 것으로 판단되면, 제1 거리 및 제2 거리가 서로 유사하다고 판단되더라도 디바이스(200)에서 감지되는 음성이 음성 인식의 대상이 아닌 것으로 결정할 수 있다. 본 발명의 일 실시예에 따라, 결정부(120)는 디바이스(200)에서 감지되는 음성이 인체로부터 발화되는 음성인지 여부를 판단하기 위해 가비지 모델(garbage model)을 이용한 알고리즘, 라비너와 삼불(Rabiner and Sambur)의 에너지와 영교차를 이용한 알고리즘, 라멜(Lamel)의 레벨 등화기를 이용한 알고리즘, 티저(Teager)의 에너지를 이용한 알고리즘 등 공지의 분석 알고리즘 중 적어도 하나를 이용할 수 있다.
예를 들면, 본 발명의 일 실시예에 따라 추정부(110)가 디바이스(200)에서 감지되는 음성이 인체로부터 발화되는 음성인지 여부를 판단하기 위해 가비지 모델링(garbage modeling)을 이용한 알고리즘을 적용할 수 있는데, 이 경우, 추정부(110)는 음성으로 판단될 키워드 단어를 설정하고, 음성 키워드 신호 및 음성 키워드가 아닌 잡음 신호 각각에 가중치 스코어 및 패널티 스코어를 부여하고, 디바이스(200)에서 감지되는 음성에 부여된 스코어가 소정 수준 이상인 경우, 디바이스(200)에서 감지되는 음성이 인체로부터 발화되는 음성인 것으로 판단할 수 있다.
다음으로, 본 발명의 일 실시예에 따르면, 통신부(130)는 추정부(110) 및 결정부(120)로부터의/로의 데이터 송수신이 가능하도록 하는 기능을 수행할 수 있다.
마지막으로, 본 발명의 일 실시예에 따르면, 제어부(140)는 추정부(110), 결정부(120) 및 통신부(130) 간의 데이터의 흐름을 제어하는 기능을 수행할 수 있다. 즉, 본 발명에 따른 제어부(140)는 음성 인식 시스템(100)의 외부로부터의/로의 데이터 흐름 또는 음성 인식 시스템(100)의 각 구성요소 간의 데이터 흐름을 제어함으로써, 추정부(110), 결정부(120) 및 통신부(130)에서 각각 고유 기능을 수행하도록 제어할 수 있다.
도 2는 본 발명의 일 실시예에 따라 음성 인식 시스템(100)을 통해 음성 인식 트리거가 제공되는 상황을 예시적으로 나타내는 도면이다.
도 2를 참조하면, 본 발명의 일 실시예에 따라 음성 인식 시스템(100)이 포함된 스마트폰(200)을 이용하는 사용자에게 음성 인식 트리거가 제공되는 상황을 가정해볼 수 있다. 본 발명의 일 실시예에 따라 사용자가 스마트폰(200)을 입술 부근에 위치시키면, 음성 인식 시스템(100)은 스마트폰(200)의 거리 감지 센서(미도시됨)를 통하여 감지되는 근접 정보에 기초하여 스마트폰(200)과 사용자 사이의 거리(즉, 제1 거리)를 추정할 수 있고, 사용자가 음성을 발화하면, 음성 인식 시스템(200)은 스마트폰(200)의 마이크(미도시됨) 모듈을 통해 감지되는 음성을 스마트폰(200) 및 스마트폰(200)에서 감지되는 음성이 발화되는 위치 사이의 거리에 따라 나타나는 음성 패턴과 비교함으로써 스마트폰(200)과 스마트폰(200)에서 감지되는 음성이 발화되는 위치 사이의 거리(즉, 제2 거리)를 추정할 수 있다.
그 다음에, 본 발명의 일 실시예에 따른 음성 인식 시스템(100)은 위와 같이 추정되는 제1 거리 및 제2 거리 사이의 유사성을 참조하여 스마트폰(200)에서 감지되는 음성이 음성 인식의 대상인지 여부를 결정할 수 있다. 즉, 본 발명의 일 실시예에 따라 음성 인식 시스템(100)을 통해 스마트폰(200)에서 감지되는 음성이 음성 인식의 대상으로 결정된 경우 사용자에게 음성 인식 트리거가 제공될 수 있게 된다. 따라서, 본 발명 따른 음성 인식 트리거 제공 기술을 통해 음성 입력이 시작되기 위한 불필요한 과정을 생략함으로써 사용자의 음성 입력 시간이 단축될 수 있고, 디바이스에 근접하여 음성이 입력됨으로써 주변 노이즈의 영향 또한 최소화될 수 있으며, 사용자의 작은 음성으로도 정확하게 동작하는 음성 인식 트리거가 제공될 수 있게 된다.
도 3은 본 발명의 일 실시예에 따라 음성 인식 시스템(100)이 활용될 수 있는 다양한 실시예를 나타내는 도면이다.
도 3을 참조하면, 본 발명의 일 실시예에 따라, 사용자가 본 발명에 따른 음성 인식 시스템(100)이 포함된 스마트 링(200a), 스마트 워치(200b), 스마트 리모컨(200c), 스마트 펜(200d) 또는 스마트폰(200e)을 사용자의 입(또는 입술) 부근에 위치시킨 상태에서 음성을 발화함으로써 사용자에게 음성 인식 트리거가 제공되는 상황일 수 있다. 본 발명의 일 실시예에 따라, 디바이스(200a, 200b, 200c, 200d, 200e)에는, 근접 정보를 감지하기 위한 센싱 모듈(210a, 210b, 210c, 210d, 210e) 또는 음성에 관한 정보를 감지하기 위한 인식 모듈(220a, 220b, 220c, 220d, 220e)이 포함될 수 있으며, 근접 정보를 감지하기 위한 센싱 모듈(210a, 210b, 210c, 210d, 210e)과 음성에 관한 정보를 감지하기 위한 인식 모듈(220a, 220b, 220c, 220d, 220e)이 서로 물리적으로 가까운 위치에 배치됨으로써, 본 발명에 따른 목적이 달성될 수 있다.
또한, 본 발명의 일 실시예에 따라 디바이스(200a, 200b, 200c, 200d, 200e)와 사용자 사이의 거리(즉, 제1 거리) 및 디바이스(200a, 200b, 200c, 200d, 200e)와 디바이스(200a, 200b, 200c, 200d, 200e)에서 감지되는 음성이 발화되는 위치 사이의 거리(즉, 제2 거리)가 기설정된 수준 이상으로 유사하면서 기설정된 거리 이내인 것으로 판단되는 경우, 즉, 디바이스(200a, 200b, 200c, 200d, 200e)가 사용자의 입 또는 입술 부위에 근접하게 위치된 상태에서, 제1 거리 및 제2 거리가 서로 동일하거나 유사하다고 판단되면, 디바이스(200a, 200b, 200c, 200d, 200e)에서 감지되는 음성을 음성 인식의 대상으로 결정함으로써, 본 발명에 따른 목적이 달성될 수 있다.
이상 설명된 본 발명에 따른 실시예들은 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 비일시성의 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 비일시성의 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 비일시성의 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다. 비일시성의 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명이 상기 실시예들에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형을 꾀할 수 있다.
따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등하게 또는 등가적으로 변형된 모든 것들은 본 발명의 사상의 범주에 속한다고 할 것이다.
100: 음성 인식 시스템
110: 추정부
120: 결정부
130: 통신부
140: 제어부
200: 디바이스
110: 추정부
120: 결정부
130: 통신부
140: 제어부
200: 디바이스
Claims (9)
- 음성 인식 트리거를 제공하기 위한 방법으로서,
디바이스에서 감지되는 근접 정보에 기초하여 상기 디바이스와 사용자 사이의 거리인 제1 거리를 추정하고, 상기 디바이스에서 감지되는 음성에 관한 정보를 참조하여 상기 디바이스와 상기 디바이스에서 감지되는 음성이 발화되는 위치 사이의 거리인 제2 거리를 추정하는 단계, 및
상기 제1 거리 및 상기 제2 거리 사이의 유사성을 참조하여 상기 디바이스에서 감지되는 음성이 음성 인식의 대상인지 여부를 결정하는 단계
를 포함하고,
상기 제2 거리는, 음성의 발화 위치 및 감지 위치 사이의 거리에 따라 나타나는 음성 패턴과 상기 디바이스에서 감지되는 음성을 비교함으로써 추정되는
방법. - 제1항에 있어서,
상기 근접 정보는, 광학(optical) 센서, 광전(photoelectric) 센서, 초음파(ultrasonic) 센서, 유도(inductive) 센서, 정전 용량(capacitive) 센서, 저항막(resistive) 센서, 와전류(eddy current) 센서, 적외선(infrared) 센서 및 마그네틱(magnetic) 센서 중 적어도 하나로부터 획득되는 방법. - 삭제
- 제1항에 있어서,
상기 음성 패턴은, 적어도 하나의 위치에서 발화되는 음성에 관한 머신 러닝(machine learning) 또는 딥 러닝(deep learning)을 통해 획득되는 방법. - 제1항에 있어서,
상기 추정 단계에서,
상기 디바이스에서 감지되는 음성에 관한 정보를 참조하여, 상기 디바이스에서 감지되는 음성으로부터 주변 소음을 분리하는 방법. - 제1항에 있어서,
상기 결정 단계에서,
상기 디바이스에서 감지되는 음성이 인체로부터 발화되었는지 여부를 더 참조하여 상기 디바이스에서 감지되는 음성이 음성 인식의 대상인지 여부를 결정하는 방법. - 제1항에 있어서,
상기 결정 단계에서,
상기 제1 거리 또는 상기 제2 거리가 기설정된 거리 이내인지 여부를 더 참조하여 상기 디바이스에서 감지되는 음성이 음성 인식의 대상인지 여부를 결정하는 방법. - 제1항, 제2항 및 제4항 내지 제7항 중 어느 한 항에 따른 방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 비일시성의 컴퓨터 판독 가능 기록 매체.
- 음성 인식 트리거를 제공하기 위한 시스템으로서,
디바이스에서 감지되는 근접 정보에 기초하여 상기 디바이스와 사용자 사이의 거리인 제1 거리를 추정하고, 상기 디바이스에서 감지되는 음성에 관한 정보를 참조하여 상기 디바이스와 상기 디바이스에서 감지되는 음성이 발화되는 위치 사이의 거리인 제2 거리를 추정하는 추정부, 및
상기 제1 거리 및 상기 제2 거리 사이의 유사성을 참조하여 상기 디바이스에서 감지되는 음성이 음성 인식의 대상인지 여부를 결정하는 결정부
를 포함하고,
상기 제2 거리는, 음성의 발화 위치 및 감지 위치 사이의 거리에 따라 나타나는 음성 패턴과 상기 디바이스에서 감지되는 음성을 비교함으로써 추정되는
시스템.
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170025738A KR101893768B1 (ko) | 2017-02-27 | 2017-02-27 | 음성 인식 트리거를 제공하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체 |
JP2019546117A JP6799693B2 (ja) | 2017-02-27 | 2018-02-26 | 音声認識トリガーを提供するための方法、システムおよび非一過性のコンピュータ読み取り可能な記録媒体 |
PCT/KR2018/002337 WO2018155981A1 (ko) | 2017-02-27 | 2018-02-26 | 음성 인식 트리거를 제공하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체 |
US16/551,888 US11315557B2 (en) | 2017-02-27 | 2019-08-27 | Method and system for providing voice recognition trigger and non-transitory computer-readable recording medium |
US17/717,364 US20220238134A1 (en) | 2017-02-27 | 2022-04-11 | Method and system for providing voice recognition trigger and non-transitory computer-readable recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170025738A KR101893768B1 (ko) | 2017-02-27 | 2017-02-27 | 음성 인식 트리거를 제공하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR101893768B1 true KR101893768B1 (ko) | 2018-09-04 |
Family
ID=63252907
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020170025738A KR101893768B1 (ko) | 2017-02-27 | 2017-02-27 | 음성 인식 트리거를 제공하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11315557B2 (ko) |
JP (1) | JP6799693B2 (ko) |
KR (1) | KR101893768B1 (ko) |
WO (1) | WO2018155981A1 (ko) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019172735A3 (ko) * | 2019-07-02 | 2020-05-14 | 엘지전자 주식회사 | 커뮤니케이션 로봇 및 그의 구동 방법 |
WO2020218634A1 (ko) * | 2019-04-23 | 2020-10-29 | 엘지전자 주식회사 | 응답 기기 결정 방법 및 장치 |
KR20210052921A (ko) * | 2019-11-01 | 2021-05-11 | 엘지전자 주식회사 | 소음 환경에서의 음성 합성 |
WO2023182766A1 (ko) * | 2022-03-24 | 2023-09-28 | 주식회사 브이터치 | 음성 인식 트리거를 제공하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102419597B1 (ko) * | 2017-09-29 | 2022-07-11 | 삼성전자주식회사 | 입력 디바이스와 전자 장치, 이를 포함하는 시스템 및 그 제어 방법 |
JP7055721B2 (ja) * | 2018-08-27 | 2022-04-18 | 京セラ株式会社 | 音声認識機能を有する電子機器、その電子機器の制御方法およびプログラム |
TWI756966B (zh) * | 2020-12-04 | 2022-03-01 | 緯創資通股份有限公司 | 視訊裝置與其操作方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000338995A (ja) * | 1999-05-31 | 2000-12-08 | Toshiba Corp | 音声認識装置及び音声認識用プログラムを記録したコンピュータ読み取り可能な記録媒体 |
KR20110100620A (ko) * | 2008-11-10 | 2011-09-14 | 구글 인코포레이티드 | 멀티센서 음성 검출 |
Family Cites Families (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4802522B2 (ja) * | 2005-03-10 | 2011-10-26 | 日産自動車株式会社 | 音声入力装置および音声入力方法 |
US8996376B2 (en) * | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US8218397B2 (en) * | 2008-10-24 | 2012-07-10 | Qualcomm Incorporated | Audio source proximity estimation using sensor array for noise reduction |
US8848932B2 (en) * | 2011-10-13 | 2014-09-30 | Blackberry Limited | Proximity sensing for user detection and automatic volume regulation with sensor interruption override |
JP5635024B2 (ja) * | 2012-02-24 | 2014-12-03 | 日本電信電話株式会社 | 音響信号強調装置、遠近判定装置、それらの方法、及びプログラム |
US10107887B2 (en) * | 2012-04-13 | 2018-10-23 | Qualcomm Incorporated | Systems and methods for displaying a user interface |
KR20140036584A (ko) * | 2012-09-17 | 2014-03-26 | 삼성전자주식회사 | 음성 신호의 음량을 조절하기 위한 방법 및 그 전자 장치 |
US9424859B2 (en) * | 2012-11-21 | 2016-08-23 | Harman International Industries Canada Ltd. | System to control audio effect parameters of vocal signals |
US9384751B2 (en) * | 2013-05-06 | 2016-07-05 | Honeywell International Inc. | User authentication of voice controlled devices |
WO2014202122A1 (en) * | 2013-06-18 | 2014-12-24 | Here Global B.V. | Handling voice calls |
US9418651B2 (en) * | 2013-07-31 | 2016-08-16 | Google Technology Holdings LLC | Method and apparatus for mitigating false accepts of trigger phrases |
JP6221535B2 (ja) * | 2013-09-11 | 2017-11-01 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
US9830924B1 (en) * | 2013-12-04 | 2017-11-28 | Amazon Technologies, Inc. | Matching output volume to a command volume |
KR102146462B1 (ko) * | 2014-03-31 | 2020-08-20 | 삼성전자주식회사 | 음성 인식 시스템 및 방법 |
CN103928025B (zh) * | 2014-04-08 | 2017-06-27 | 华为技术有限公司 | 一种语音识别的方法及移动终端 |
KR102216048B1 (ko) * | 2014-05-20 | 2021-02-15 | 삼성전자주식회사 | 음성 명령 인식 장치 및 방법 |
US9185062B1 (en) * | 2014-05-31 | 2015-11-10 | Apple Inc. | Message user interfaces for capture and transmittal of media and location content |
US9632748B2 (en) * | 2014-06-24 | 2017-04-25 | Google Inc. | Device designation for audio input monitoring |
CN106462328B (zh) * | 2014-06-24 | 2020-09-04 | 索尼公司 | 信息处理装置、信息处理方法和程序 |
US10284971B2 (en) * | 2014-10-02 | 2019-05-07 | Sonova Ag | Hearing assistance method |
CN105845135A (zh) * | 2015-01-12 | 2016-08-10 | 芋头科技(杭州)有限公司 | 一种机器人系统的声音识别系统及方法 |
US20180009118A1 (en) * | 2015-02-17 | 2018-01-11 | Nec Corporation | Robot control device, robot, robot control method, and program recording medium |
US9911416B2 (en) * | 2015-03-27 | 2018-03-06 | Qualcomm Incorporated | Controlling electronic device based on direction of speech |
WO2017054196A1 (zh) * | 2015-09-30 | 2017-04-06 | 华为技术有限公司 | 一种启动眼球追踪功能的方法及移动设备 |
KR102453603B1 (ko) * | 2015-11-10 | 2022-10-12 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
US10388280B2 (en) * | 2016-01-27 | 2019-08-20 | Motorola Mobility Llc | Method and apparatus for managing multiple voice operation trigger phrases |
KR20170091913A (ko) * | 2016-02-02 | 2017-08-10 | 삼성전자주식회사 | 영상 서비스 제공 방법 및 장치 |
US9972339B1 (en) * | 2016-08-04 | 2018-05-15 | Amazon Technologies, Inc. | Neural network based beam selection |
US10074359B2 (en) * | 2016-11-01 | 2018-09-11 | Google Llc | Dynamic text-to-speech provisioning |
US10733989B2 (en) * | 2016-11-30 | 2020-08-04 | Dsp Group Ltd. | Proximity based voice activation |
US10027662B1 (en) * | 2016-12-06 | 2018-07-17 | Amazon Technologies, Inc. | Dynamic user authentication |
-
2017
- 2017-02-27 KR KR1020170025738A patent/KR101893768B1/ko active IP Right Grant
-
2018
- 2018-02-26 JP JP2019546117A patent/JP6799693B2/ja active Active
- 2018-02-26 WO PCT/KR2018/002337 patent/WO2018155981A1/ko active Application Filing
-
2019
- 2019-08-27 US US16/551,888 patent/US11315557B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000338995A (ja) * | 1999-05-31 | 2000-12-08 | Toshiba Corp | 音声認識装置及び音声認識用プログラムを記録したコンピュータ読み取り可能な記録媒体 |
KR20110100620A (ko) * | 2008-11-10 | 2011-09-14 | 구글 인코포레이티드 | 멀티센서 음성 검출 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020218634A1 (ko) * | 2019-04-23 | 2020-10-29 | 엘지전자 주식회사 | 응답 기기 결정 방법 및 장치 |
US11132991B2 (en) | 2019-04-23 | 2021-09-28 | Lg Electronics Inc. | Method and apparatus for determining voice enable device |
WO2019172735A3 (ko) * | 2019-07-02 | 2020-05-14 | 엘지전자 주식회사 | 커뮤니케이션 로봇 및 그의 구동 방법 |
US11437042B2 (en) | 2019-07-02 | 2022-09-06 | Lg Electronics Inc. | Communication robot and method for operating the same |
KR20210052921A (ko) * | 2019-11-01 | 2021-05-11 | 엘지전자 주식회사 | 소음 환경에서의 음성 합성 |
KR102663669B1 (ko) * | 2019-11-01 | 2024-05-08 | 엘지전자 주식회사 | 소음 환경에서의 음성 합성 |
WO2023182766A1 (ko) * | 2022-03-24 | 2023-09-28 | 주식회사 브이터치 | 음성 인식 트리거를 제공하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체 |
Also Published As
Publication number | Publication date |
---|---|
US20190385605A1 (en) | 2019-12-19 |
US11315557B2 (en) | 2022-04-26 |
JP2020510865A (ja) | 2020-04-09 |
JP6799693B2 (ja) | 2020-12-16 |
WO2018155981A1 (ko) | 2018-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101893768B1 (ko) | 음성 인식 트리거를 제공하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체 | |
US11152006B2 (en) | Voice identification enrollment | |
CN110310623B (zh) | 样本生成方法、模型训练方法、装置、介质及电子设备 | |
CN102903360B (zh) | 以麦克风阵列为基础的语音辨识系统与方法 | |
US9412361B1 (en) | Configuring system operation using image data | |
US11393491B2 (en) | Artificial intelligence device capable of controlling operation of another device and method of operating the same | |
US10019992B2 (en) | Speech-controlled actions based on keywords and context thereof | |
US9443536B2 (en) | Apparatus and method for detecting voice based on motion information | |
US9443527B1 (en) | Speech recognition capability generation and control | |
US20140278389A1 (en) | Method and Apparatus for Adjusting Trigger Parameters for Voice Recognition Processing Based on Noise Characteristics | |
US11508378B2 (en) | Electronic device and method for controlling the same | |
WO2016150001A1 (zh) | 语音识别的方法、装置及计算机存储介质 | |
WO2020043160A1 (en) | Method and system for detecting voice activity innoisy conditions | |
WO2015017303A1 (en) | Method and apparatus for adjusting voice recognition processing based on noise characteristics | |
WO2020155584A1 (zh) | 声纹特征的融合方法及装置,语音识别方法,系统及存储介质 | |
CN113748462A (zh) | 确定用于语音处理引擎的输入 | |
KR20160010961A (ko) | 컨텍스트 정보를 이용하는 음성 인식 방법 및 장치 | |
WO2020244402A1 (zh) | 基于麦克风信号的语音交互唤醒电子设备、方法和介质 | |
WO2020244416A1 (zh) | 基于麦克风信号的语音交互唤醒电子设备、方法和介质 | |
US20210158812A1 (en) | Automatic turn delineation in multi-turn dialogue | |
WO2020244411A1 (zh) | 基于麦克风信号的语音交互唤醒电子设备、方法和介质 | |
KR20210155401A (ko) | 인공 지능을 이용하여, 합성 음성의 품질을 평가하는 음성 합성 장치 및 그의 동작 방법 | |
CN113129867B (zh) | 语音识别模型的训练方法、语音识别方法、装置和设备 | |
US20230086579A1 (en) | Electronic device and method for controlling the same | |
Sahidullah et al. | Robust speaker recognition with combined use of acoustic and throat microphone speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |