KR20120009787A - 음성 대화 시스템을 위한 음성 인식 환경 제어 장치 및 그 방법 - Google Patents
음성 대화 시스템을 위한 음성 인식 환경 제어 장치 및 그 방법 Download PDFInfo
- Publication number
- KR20120009787A KR20120009787A KR1020100070474A KR20100070474A KR20120009787A KR 20120009787 A KR20120009787 A KR 20120009787A KR 1020100070474 A KR1020100070474 A KR 1020100070474A KR 20100070474 A KR20100070474 A KR 20100070474A KR 20120009787 A KR20120009787 A KR 20120009787A
- Authority
- KR
- South Korea
- Prior art keywords
- microphone
- speech
- user
- environment
- recognition
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000011156 evaluation Methods 0.000 claims abstract description 36
- 230000007613 environmental effect Effects 0.000 claims description 18
- 230000007423 decrease Effects 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 5
- 230000003750 conditioning effect Effects 0.000 claims description 4
- 230000003247 decreasing effect Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 239000003999 initiator Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
본 발명은 음성 대화 처리 기술을 이용하여 주위 환경을 개선함으로써 음성 대화 인식 수준을 높이기 위한 음성 대화 시스템용 음성 인식 환경 제어 장치 및 그 방법에 관한 것이다. 본 발명의 음성 대화 시스템을 위한 음성 인식 환경 제어 장치는 각기 다른 음성 인식 환경으로부터 사용자가 인식이 잘되는 음성 인식 환경으로 조정하기 위한 유도 장치이다. 상기 장치는 목표 문장을 인식하는 발화 및 조절 인터페이스와 사용자 환경 제어부를 포함한다. 이런 장치는 음성 대화 시스템에 관한 모든 장치의 선단에 연결되어 원활한 음성 인식 환경을 제공할 수 있다.
Description
본 발명은 음성 대화 시스템을 위한 음성 인식 환경 제어 장치 및 그 방법에 관한 것으로, 보다 상세하게는 음성 대화 시스템을 위해 잡음 정도 평가 및 마이크 입력 제어를 수행하고, 해당 음성 대화 시스템에서 사용하는 도메인으로부터 음성 발화를 요구하고, 그 음성 인식도를 따져 주변의 환경 상태를 파악 조절하는 음성 인식 환경 제어 장치 및 그 방법에 관한 것이다.
일반적으로 음성 대화 시스템이라 함은 사용자와 시스템이 원활한 대화를 나누고, 시스템은 사용자의 발화로부터 명령을 인식 수행하는 데에 그 목표가 있다.
그러므로 음성 대화 시스템은 사람의 발화가 무슨 말인지 인식하는 동작부터 잘되어야한다. 최근의 음성 대화 시스템은 음성 인식기 자체 성능에 초점을 맞추어 발전되었고, 음성 인식을 위한 환경 제어는 신호처리에 관하여 중점적으로 발전되었으며, 그에 대한 연구들이 활발하다.
그러나 기존의 음성 대화 시스템으로서는 환경 변수가 음성 인식기의 음성 인식도에 영향을 미침에도 불구하고 그를 고려하는 경우가 없고, 음성 인식 환경 제어 부분에서는 음성 대화 시스템을 위해 그 인식도와 관련하여 그 변수들을 조절해야함에도 불구하고, 음성 대화 시스템의 의도와는 상관없이 잡음제거, 음향 효과 등 신호처리 위주로 독립적이므로 그 한계가 있다.
한편, 음성 대화 시스템을 위한 환경 제어 장치는 궁극적으로 그 음성 인식도를 평가하여 음성 인식이 잘되는 방향으로 환경이 제어되고, 그러한 피드백을 사용자에게 제공하여야 한다.
따라서, 본 발명자는 상기한 종래 기술의 한계점을 해결하기 위하여 본 발명이 이루고자 하는 기술적 과제, 즉 본 발명의 목적은 음성 대화 시스템의 의도에 부합하여 적합한 인식도를 가지도록 환경 제어 피드백을 제공하는 음성 대화 시스템을 위한 음성 인식 환경 제어 장치 및 그 방법을 제공하는데 있다.
본 발명이 이루고자 하는 다른 기술적 과제, 즉 본 발명의 다른 목적은 강건한 음성 인식도를 위한 환경 변수의 정도를 파악하여 조절 요청 피드백을 할 수 있는 음성 대화 시스템을 위한 음성 인식 환경 제어 장치 및 그 방법을 제공하는데 있다.
본 발명이 이루고자 하는 또다른 기술적 과제, 즉 본 발명의 또다른 목적은 음성 대화 시스템의 음성 인식 도메인을 고려하여 음성 발화 요청을 하고, 발화에 된 음성에 따라 환경 변수의 정도를 파악할 수 있는 음성 대화 시스템을 위한 음성 인식 환경 제어 장치 및 그 방법을 제공하는데 있다.
본 발명이 이루고자 하는 또다른 기술적 과제, 즉 본 발명의 또다른 목적은 사용자가 피드백에 따라 스스로 그 환경 변수를 조절할 수 있는 음성 대화 시스템을 위한 음성 인식 환경 제어 장치 및 그 방법을 제공하는데 있다.
본 발명이 이루고자 하는 또다른 기술적 과제, 즉 본 발명의 또다른 목적은 음성 대화 시스템의 피드백을 위하여 어떤 환경 변수를 어느 정도 조절해야 하는가, 어느 정도 조절이 되었는가를 피드백하고, 그 조절부를 함께 갖는 음성 대화 시스템을 위한 음성 인식 환경 제어 장치 및 그 방법을 제공하는데 있다.
본 발명이 이루고자 하는 또다른 기술적 과제, 즉 본 발명의 또다른 목적은 강건한 음성 인식도라고 판단이 되면 음성 인식 환경 제어를 끝내는 음성 대화 시스템을 위한 음성 인식 환경 제어 장치 및 그 방법을 제공하는데 있다.
본 발명이 이루고자 하는 또다른 기술적 과제, 즉 본 발명의 또다른 목적은 환경 변수에 의존적인 하드웨어 시스템 구성이 같은 경우에 대해 사용자의 프로필을 저장하여 매번 환경 제어를 하지 않아도 강건한 환경을 제공할 수 있는 음성 대화 시스템을 위한 음성 인식 환경 제어 장치 및 그 방법을 제공하는데 있다.
본 발명은 상기 기술적 과제를 달성하기 위하여, 음성 대화 시스템을 위한 음성 인식 환경 제어 장치에 있어서,
환경 제어 시작 명령에 의해 사용자의 현재 장치 검색 및 환경 초기화부;
현재 사용자에게 발화를 요청하기 전, 상기 검색된 마이크의 마이크 입력 레벨로부터 잡음을 추정하는 잡음 정도 평가부;
상기 평가된 잡음 정도에 따라서 상기 마이크의 볼륨을 평가하여 환경 제어를 완료하는 마이크 볼륨 평가부를 포함하는 음성 인식 환경 제어 장치를 제공한다.
바람직하기로는 상기 마이크 볼륨 평가부는
사용자로 하여금 어떤 문장을 발화하도록 요청하고, 사용자가 어떠한 문장을 발화하였는지 문장을 결과로 내보내는 발화 및 조절 인터페이스; 및
상기 발화 및 조절 인터페이스의 발화 및 조절 결과에 따라서, 현재 마이크 볼륨 조절 값이 적정한지 판단하고, 높이거나 줄일지 그리고 조절의 정도를 사용자에게 내보내어 피드백하는 마이크 환경 제어부를 포함하는 것을 특징으로 한다.
바람직하기로는 상기 발화 및 조절 인터페이스는
발화 요청에 따라 사용자가 마이크를 통해 입력하는 발화를 인식하여, 사용자가 어떠한 문장을 발화하였는지 문장을 결과로 내보내는 음성 인식부; 및
사용자가 마이크의 입력 정도를 조절할 수 있는 마이크 볼륨 조절부를 포함하고,
상기 음성 인식부의 발화 요청을 위한 음성 대화 시스템 도메인 모델을 저장하는 제1 데이터베이스로부터 발화 요청 문장을 무작위로 뽑아내어 발화를 요청하고, 상기 마이크 볼륨 조절부에서 마이크 볼륨을 조절하며 그 마이크 볼륨 조절이 완료된 경우 그 조절 값을 환경 제어 정보를 포함하는 유저 환경 프로필 데이터를 저장하는 제2 데이터베이스에 저장하는 것을 특징으로 한다.
바람직하기로는 상기 마이크 환경 제어부는
상기 발화 및 조절 인터페이스의 상기 음성 인식부로부터 얻어진 문장으로부터 음성 인식 점수를 평가하는 음성 인식 평가부;
상기 발화 및 조절 인터페이스의 상기 음성 인식부의 음성 인식 도중 얻어진 마이크 입력 레벨을 평가하는 마이크 입력 레벨 평가부; 및
상기 음성 인식 평가부로부터 얻어진 음성 인식 점수, 상기 마이크 레벨 평가부로부터 얻어진 마이크 입력 레벨, 및 상기 발화 및 조절 인터페이스의 상기 마이크 볼륨 조절부로부터 얻어진 마이크 볼륨 조절값으로부터 현재 마이크 환경 상태를 평가하여 사용자에게 피드백하는 마이크 환경 평가부를 포함한다.
바람직하기로는 상기 음성 인식 평가부는 상기 음성 인식부로부터 넘어온 문장으로부터 현재 발화 요청한 문장과 비교하여 실제 음성 인식 유사도를 측정하여 그 인식 점수를 내보내는 것을 특징으로 한다.
바람직하기로는 상기 마이크 입력 레벨 평가부는 사용자가 발화하는 순간의 신호적 물리 입력량을 측정하여 그 평균 정도의 마이크 입력 레벨을 내보내는 것을 특징으로 한다.
본 발명은 상술한 기술적 과제를 달성하기 위하여 본 발명의 다른 양태에 의하면, 음성 대화 시스템을 위한 음성 인식 환경 제어 방법에 있어서,
환경 제어 시작 명령에 의해 사용자의 현재 장치 검색 및 환경 초기화를 수행하는 장치 검색 및 환경 초기화 수행 단계;
현재 사용자에게 발화를 요청하기 전, 상기 검색된 마이크의 마이크 입력 레벨로부터 잡음을 추정하는 잡음 정도 평가 단계; 및
상기 평가된 잡음 정도에 따라서 상기 마이크의 볼륨을 평가하여 환경 제어를 완료하는 마이크 볼륨 평가 단계를 포함하는 음성 인식 환경 제어 방법을 제공한다.
바람직하기로는 상기 마이크 볼륨 평가 단계는
사용자로 하여금 어떤 문장을 발화하도록 요청하고, 사용자가 어떠한 문장을 발화하였는지 문장을 결과로 내보내는 발화 및 조절 단계; 및
상기 발화 및 조절 단계의 발화 및 조절 결과에 따라서, 현재 마이크 볼륨 조절 값이 적정한지 판단하고, 높이거나 줄일지 그리고 조절의 정도를 사용자에게 내보내어 피드백하는 마이크 환경 제어 단계를 포함하는 것을 특징으로 한다.
바람직하기로는 상기 발화 및 조절 단계는
발화 요청을 위한 음성 대화 시스템 도메인 모델을 저장하는 제1 데이터베이스로부터 발화 요청 문장을 무작위로 뽑아내어 발화를 요청하고, 그 발화 요청에 따라 사용자가 마이크를 통해 입력하는 발화를 인식하여, 사용자가 어떠한 문장을 발화하였는지 문장을 결과로 내보내는 음성 인식 단계; 및
사용자가 마이크 볼륨을 조절하며 그 마이크 볼륨 조절이 완료된 경우 그 조절 값을 환경 제어 정보를 포함하는 유저 환경 프로필 데이터를 저장하는 제2 데이터베이스에 저장하는 마이크 볼륨 조절 단계를 포함하는 것을 특징으로 한다.
바람직하기로는 상기 마이크 환경 제어 단계는
상기 발화 및 조절 단계의 상기 음성 인식 단계로부터 얻어진 문장으로부터 음성 인식 점수를 평가하는 음성 인식 평가 단계;
상기 발화 및 조절 단계의 상기 음성 인식 단계의 음성 인식 도중 얻어진 마이크 입력 레벨을 평가하는 마이크 입력 레벨 평가 단계; 및
상기 음성 인식 평가 단계로부터 얻어진 음성 인식 점수, 상기 마이크 레벨 평가 단계로부터 얻어진 마이크 입력 레벨, 및 상기 발화 및 조절 단계의 상기 마이크 볼륨 조절 단계로부터 얻어진 마이크 볼륨 조절 값으로부터 현재 마이크 환경 상태를 평가하여 사용자에게 피드백하는 마이크 환경 평가 단계를 포함하는 것을 특징으로 한다.
바람직하기로는 상기 음성 인식 평가 단계는 상기 음성 인식 단계로부터 넘어온 문장으로부터 현재 발화 요청한 문장과 비교하여 실제 음성 인식 유사도를 측정하여 그 인식 점수를 내보내는 것을 특징으로 한다.
바람직하기로는 상기 마이크 입력 레벨 평가 단계는 사용자가 발화하는 순간의 신호적 물리 입력량을 측정하여 그 평균 정도의 마이크 입력 레벨을 내보내는 것을 특징으로 한다.
본 발명에 의한 음성 대화 시스템을 위한 음성 인식 환경 제어 장치 및 그 방법은 음성 대화 시스템의 음성 인식의 환경에 의한 문제를 해결함으로써 인식 성능을 향상시켜 원활한 대화를 진행할 수 있게 할 수 있다.
본 발명은 음성 대화 시스템이 사용될 수 있는 모든 환경에 적용될 수 있으므로 관련 장치 및 산업에 파급 효과가 클 것으로 기대할 수 있다.
도 1은 본 발명의 음성 대화 시스템을 위한 음성 인식 제어 장치의 구조를 도시한 블록도이다.
도 2는 도 1의 마이크 볼륨 평가부의 구체적 구조의 상세 블록도이다.
도 3은 본 발명의 음성 대화 시스템을 위한 음성 인식 제어 방법을 설명하기 위한 흐름도이다.
도 4는 도 3의 상세 흐름도이다.
도 5는 도 4의 상세 흐름도이다.
도 2는 도 1의 마이크 볼륨 평가부의 구체적 구조의 상세 블록도이다.
도 3은 본 발명의 음성 대화 시스템을 위한 음성 인식 제어 방법을 설명하기 위한 흐름도이다.
도 4는 도 3의 상세 흐름도이다.
도 5는 도 4의 상세 흐름도이다.
이하, 도 1과 도 2를 참조하여, 본 발명의 바람직한 실시예에 의한 음성 대화 시스템을 위한 음성 인식 제어 장치에 대하여 상세히 설명한다.
도 1은 발명에 따른 음성 대화 시스템을 위한 음성 인식 환경 제어 장치의 전반적인 구조를 도시한 블록도이다.
도 1에서 발명에 따른 음성 대화 시스템을 위한 음성 인식 환경 제어 장치(1-1)는 장치 검색 및 환경 제어 초기화부(1-3), 잡음 정도 평가부(1-4), 및 마이크 볼륨 평가부(1-5)를 포함하여 구성되어, 차례로 해당 과정을 진행하게 된다.
도 1에 도시한 장치 검색 및 초기화부(1-3)는 환경 제어 시작 명령(1-2)에 의해 사용자의 음성 대화 시스템에 필요한 장치들을 검색하여 음성 대화 시스템의 필요조건을 만족시켰는지 확인하고 장치의 환경 변수들을 초기화 한다.
도 1에 도시한 잡음 정도 평가부(1-4)는 마이크 볼륨 평가부(1-5)의 음성 인식도를 평가하기 전단계로서, 현재 사용자에게 발화를 요청하기 전, 상기 검색된 마이크로부터 들어오는 신호의 마이크 입력 레벨로부터 그 잡음 정도를 평가함으로써 잡음을 추정한다.
도 1에 도시한 마이크 볼륨 평가부(1-5)는 상기 잡음 정도 평가부(1-4)로부터 평가된 잡음 정도에 따라서 상기 마이크의 볼륨을 평가하여 환경 제어를 완료(1-6)하며, 이는 도 2에 보다 구체적으로 도시되어있다.
도 2는 도 1에 도시한 마이크 볼륨 평가부(1-5)를 보다 구체적으로 도시한 블록도이다. 상기 마이크 볼륨 평가부(1-5)는 두 부분으로 구성되는데, 사용자가 외부에서 직접 발화와 조절을 하게 되는 조절 및 발화 인터페이스(2-3)와 마이크 환경 제어부(2-8)로 구성된다.
도 2에서, 상기 조절 및 발화 인터페이스(2-3)는 사용자로 하여금 어떤 문장을 발화하도록 요청하고, 사용자가 어떠한 문장을 발화하였는지 문장을 결과로 내보내며, 상기 마이크 환경 제어부(2-8)는 상기 발화 및 조절 인터페이스(2-3)의 발화 및 조절 결과에 따라서, 현재 마이크 볼륨 조절 값이 적정한지 판단하고, 높이거나 줄일지 그리고 조절의 정도를 사용자에게 내보내어 피드백하는 역할을 수행한다.
보다 상세하게는, 상기 조절 및 발화 인터페이스(2-3)는 음성 대화 시스템과 동일한 음성 인식부(2-4)와 마이크 볼륨 조절부(2-5)로 구성되고, 마이크 환경 평가부(2-8)는 음성 인식 평가부(2-9), 마이크 입력 레벨 평가부(2-10), 및 마이크 환경 평가부(2-11)로 구성된다.
상기 발화 및 조절 인터페이스(2-3)의 음성 인식부(2-4)는 발화 요청에 따라 사용자가 마이크를 통해 입력하는 발화를 인식하여, 사용자가 어떠한 문장을 발화하였는지 문장을 결과로 내보내고, 마이크 볼륨 조절부(2-5)는 사용자가 마이크의 입력 정도를 조절할 수 있도록 한다.
이 경우, 상기 발화 및 조절 인터페이스(2-3)는 상기 음성 인식부(2-4)의 발화 요청을 위한 음성 대화 시스템 도메인 모델을 저장하는 제1 데이터베이스(2-6)로부터 발화를 요청할 문장을 무작위로 뽑아내어 발화 요청하게 되고, 사용자가 상기 마이크 볼륨 조절부(2-5)에서 마이크 볼륨을 조절한 후의 조절 값을 환경 제어 정보를 포함하는 유저 환경 프로필 데이터를 저장하는 제2 데이터베이스(2-7)에 저장하며, 이때 상기 제1 및 제2 데이터베이스(2-6, 2-7)는 발화 및 조절 인터페이스(2-3)의 내부 또는 외부에 포함한다.
또한, 마이크 환경 평가부(2-8)의 음성 인식 평가부(2-9)는 상기 발화 및 조절 인터페이스(2-3)의 상기 음성 인식부(2-4)로부터 얻어진 문장으로부터 음성 인식 점수를 평가하고, 마이크 입력 레벨 평가부(2-10)는 상기 발화 및 조절 인터페이스(2-3)의 상기 음성 인식부(2-4)의 음성 인식 도중 얻어진 마이크 입력 레벨을 평가하고, 마이크 환경 평가부(2-11)는 상기 음성 인식 평가부(2-9)로부터 얻어진 음성 인식 점수, 상기 마이크 레벨 평가부(2-10)로부터 얻어진 마이크 입력 레벨, 및 상기 발화 및 조절 인터페이스(2-3)의 상기 마이크 볼륨 조절부(2-5)로부터 얻어진 마이크 볼륨 조절값으로부터 현재 마이크 환경 상태를 평가하여 사용자에게 피드백한다.
여기서, 상기 음성 인식 평가부(2-9)는 상기 음성 인식부(2-4)로부터 넘어온 문장으로부터 현재 발화 요청한 문장과 비교하여 실제 음성 인식 유사도를 측정하여 그 인식 점수를 내보내고, 상기 마이크 입력 레벨 평가부(2-10)는 사용자가 발화하는 순간의 신호적 물리 입력량을 측정하여 그 평균 정도의 마이크 입력 레벨을 내보낸다.
이하, 도 3 내지 도 5를 참조하여, 본 발명의 바람직한 실시예에 의한 음성 대화 시스템을 위한 음성 인식 제어 방법에 대하여 상세히 설명한다.
도 3은 본 발명의 음성 대화 시스템을 위한 음성 인식 제어 방법을 설명하기 위한 흐름도이다.
도 3에 의하면, 본 발명의 다른 양태에 의하면, 음성 대화 시스템을 위한 음성 인식 환경 제어 방법은 환경 제어 시작 명령에 의해 사용자의 현재 장치 검색 및 환경 초기화를 수행하는 장치 검색 및 환경 초기화 수행 단계(32); 현재 사용자에게 발화를 요청하기 전, 상기 검색된 마이크의 마이크 입력 레벨로부터 잡음을 추정하는 잡음 정도 평가 단계(34); 및 상기 평가된 잡음 정도에 따라서 상기 마이크의 볼륨을 평가하여 환경 제어를 완료하는 마이크 볼륨 평가 단계(36)를 포함한다.
도 4는 도 3의 상세 흐름도로, 마이크 볼륨 평가 단계(36)를 보다 상세히 설명한다.
도 4에서, 상기 마이크 볼륨 평가 단계(36)는 사용자로 하여금 어떤 문장을 발화하도록 요청하고, 사용자가 어떠한 문장을 발화하였는지 문장을 결과로 내보내는 발화 및 조절 단계(362); 및 상기 발화 및 조절 단계의 발화 및 조절 결과에 따라서, 현재 마이크 볼륨 조절 값이 적정한지 판단하고, 높이거나 줄일지 그리고 조절의 정도를 사용자에게 내보내어 피드백하는 마이크 환경 제어 단계(364)를 포함한다.
도 5는 도 4의 상세 흐름도로, 도 4의 발화 및 조절 단계(362) 및 마이크 환경 제어 단계(364)를 상세히 설명한다.
도 5에서, 상기 발화 및 조절 단계(362)는 발화 요청을 위한 음성 대화 시스템 도메인 모델을 저장하는 제1 데이터베이스(2-6)를 참조하여 얻어진 발화 요청에 따라 사용자가 마이크를 통해 입력하는 발화를 인식하여, 사용자가 어떠한 문장을 발화하였는지 문장을 결과로 내보내는 음성 인식 단계(3622); 및 사용자가 마이크의 입력 정도를 조절하고 조절이 완료된 후 환경 제어 정보를 포함하는 유저 환경 프로필 데이터를 저장하는 제2 데이터베이스(2-7)에 그 조절 값을 저장하는 마이크 볼륨 조절 단계(3642)를 포함하고, 상기 마이크 환경 제어 단계(364)는 상기 발화 및 조절 단계의 상기 음성 인식 단계로부터 얻어진 문장으로부터 음성 인식 점수를 평가하는 음성 인식 평가 단계(3642); 상기 발화 및 조절 단계의 상기 음성 인식 단계의 음성 인식 도중 얻어진 마이크 입력 레벨을 평가하는 마이크 입력 레벨 평가 단계(3644); 및 상기 음성 인식 평가 단계로부터 얻어진 음성 인식 점수, 상기 마이크 레벨 평가 단계로부터 얻어진 마이크 입력 레벨, 및 상기 발화 및 조절 단계의 상기 마이크 볼륨 조절 단계로부터 얻어진 마이크 볼륨 조절 값으로부터 현재 마이크 환경 상태를 평가하여 사용자에게 피드백하는 마이크 환경 평가 단계(3646)를 포함한다.
여기서, 상기 음성 인식 평가 단계(3642)는 상기 음성 인식 단계(3622)로부터 넘어온 문장으로부터 현재 발화 요청한 문장과 비교하여 실제 음성 인식 유사도를 측정하여 그 인식 점수를 내보내고, 상기 마이크 입력 레벨 평가 단계(3644)는 사용자가 발화하는 순간의 신호적 물리 입력량을 측정하여 그 평균 정도의 마이크 입력 레벨을 내보낸다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 의한 음성 대화 시스템을 위한 음성 인식 환경 제어 장치 및 그 방법의 동작을 설명하기로 한다.
사용자가 마이크 볼륨 조절 평가를 시행하면, 조절 및 발화 인터페이스(2-3)는 음성 대화 시스템 도메인을 저장하는 제1 데이터베이스(2-6)로부터 발화를 요청할 문장을 무작위로 뽑아내어 요청하게 되고, 사용자는 그 문장을 음성 인식부(2-4)에 발화하며, 피드백을 받아 마이크 볼륨 조절부(2-5)에서 마이크 볼륨을 조절하며 조절이 완료되었을 경우 그 조절값을 유저 프로필 데이터를 저장하는 제2 데이터베이스(2-7)에 저장하게 된다.
마이크 환경 제어부(2-8)에서는 내부 음성 인식 평가부(2-9)에서 음성 인식부(2-4)로부터 전송된 문장과 요청된 문장을 비교하여 낸 점수, 마이크 입력 레벨 평가부(2-10)에서 발화 순간에 측정되는 마이크 입력 소리의 크기, 마이크 볼륨 조절부(2-5)의 조절값을 고려하여 마이크 환경 평가부(2-11)로 하여금 마이크가 가깝거나 멀다, 볼륨이 높거나 낮다, 볼륨의 조절 정도, 재발화 요청과 같은 피드백을 사용자에게 주게 된다.
음성 인식 평가부(2-9)에서의 평가는 요청된 문장과 인식된 문장의 N-Best 모델을 추출하여 비교하는 단어 오류율(Word Error Rate) 점수, 해당 문장과 물리적 신호의 유사도를 판별하는 음성 인식부(2-4)의 확실성(Confidence) 점수 등을 고려하여 평가한다.
마이크 환경 평가부(2-11)에서의 평가는 우선적으로 사용자로 하여금 재발화 요청을 하여 최소 두 번의 평가를 시행한 후 마이크 입력 레벨과 마이크 조절 값의 상관 관계를 알아내고 최적의 음성 인식 평가가 이루어지도록 계산하여 피드백하게 된다. 발화를 많이 하게 되면 할수록 그 데이터가 축적되고, 최고의 음성 인식 평가 점수를 계산하는데 다양한 기계 학습(Machine Learning) 기법을 적용할 수 있다.
상술한 바와 같이, 본 발명에 의한 음성 대화 시스템을 위한 음성 인식 환경 제어 방법 및 그 장치는 음성 대화 시스템의 음성 인식의 환경에 의한 문제를 해결함으로써 인식 성능을 향상시켜 원활한 대화를 진행할 수 있게 하고, 음성 대화 시스템이 사용될 수 있는 모든 환경에 적용될 수 있으므로 관련 장치 및 산업에 파급 효과가 클 것이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과함께 상세하게 상술한 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태 로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전 하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의 정의될 뿐이다. 다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는한 이상적으로 또는 과도하게 해석되지 않는다.
1-1...음성 인식 환경 제어 장치 1-2...환경 제어 시작
1-3...장치 검색 및 환경 제어 초기화부
1-4...잡음 정도 평가부
1-5...마이크 볼륨 평가부
1-6...환경 제어 완료
2-1...사용자
2-3...발화 및 조절 인터페이스
2-4...음성 인식부
2-5...마이크 볼륨 조절부
2-6...제1 데이터베이스
2-7...제2 데이터베이스
2-8...마이크 환경 제어부
2-9...음성 인식 평가부
2-10...마이크 입력 레벨 평가부
2-11...마이크 환경 평가부
1-3...장치 검색 및 환경 제어 초기화부
1-4...잡음 정도 평가부
1-5...마이크 볼륨 평가부
1-6...환경 제어 완료
2-1...사용자
2-3...발화 및 조절 인터페이스
2-4...음성 인식부
2-5...마이크 볼륨 조절부
2-6...제1 데이터베이스
2-7...제2 데이터베이스
2-8...마이크 환경 제어부
2-9...음성 인식 평가부
2-10...마이크 입력 레벨 평가부
2-11...마이크 환경 평가부
Claims (12)
- 음성 대화 시스템을 위한 음성 인식 환경 제어 장치에 있어서,
환경 제어 시작 명령에 의해 사용자의 현재 장치 검색 및 환경 초기화부;
현재 사용자에게 발화를 요청하기 전, 상기 검색된 마이크의 마이크 입력 레벨로부터 잡음을 추정하는 잡음 정도 평가부;
상기 평가된 잡음 정도에 따라서 상기 마이크의 볼륨을 평가하여 환경 제어를 완료하는 마이크 볼륨 평가 장치를 포함하는 음성 인식 환경 제어 장치. - 제1항에 있어서, 상기 마이크 볼륨 평가부는
사용자로 하여금 어떤 문장을 발화하도록 요청하고, 사용자가 어떠한 문장을 발화하였는지 문장을 결과로 내보내는 발화 및 조절 인터페이스; 및
상기 발화 및 조절 인터페이스의 발화 및 조절 결과에 따라서, 현재 마이크 볼륨 조절 값이 적정한지 판단하고, 높이거나 줄일지 그리고 조절의 정도를 사용자에게 내보내어 피드백하는 마이크 환경 제어부를 포함하는 것을 특징으로 하는 음성 인식 환경 제어 장치. - 제2항에 있어서, 상기 발화 및 조절 인터페이스는
발화 요청에 따라 사용자가 마이크를 통해 입력하는 발화를 인식하여, 사용자가 어떠한 문장을 발화하였는지 문장을 결과로 내보내는 음성 인식부; 및
사용자가 마이크의 입력 정도를 조절할 수 있는 마이크 볼륨 조절부를 포함하며,
상기 음성 인식부의 발화 요청을 위한 음성 대화 시스템 도메인 모델을 저장하는 제1 데이터베이스로부터 발화 요청 문장을 무작위로 뽑아내어 발화를 요청하고, 상기 마이크 볼륨 조절부에서 마이크 볼륨을 조절하며 그 마이크 볼륨 조절이 완료된 경우 그 조절 값을 환경 제어 정보를 저장하는 유저 환경 프로필 데이터를 저장하는 제2 데이터베이스에 저장하는 것을 특징으로 하는 음성 인식 환경 제어 장치. - 제2항에 있어서, 상기 마이크 환경 제어부는
상기 발화 및 조절 인터페이스의 상기 음성 인식부로부터 얻어진 문장으로부터 음성 인식 점수를 평가하는 음성 인식 평가부;
상기 발화 및 조절 인터페이스의 상기 음성 인식부의 음성 인식 도중 얻어진 마이크 입력 레벨을 평가하는 마이크 입력 레벨 평가부; 및
상기 음성 인식 평가부로부터 얻어진 음성 인식 점수, 상기 마이크 레벨 평가부로부터 얻어진 마이크 입력 레벨, 및 상기 발화 및 조절 인터페이스의 상기 마이크 볼륨 조절부로부터 얻어진 마이크 볼륨 조절값으로부터 현재 마이크 환경 상태를 평가하여 사용자에게 피드백하는 마이크 환경 평가부를 포함하는 것을 특징으로 하는 음성 인식 환경 제어 장치. - 제4항에 있어서, 상기 음성 인식 평가부는 상기 음성 인식부로부터 넘어온 문장으로부터 현재 발화 요청한 문장과 비교하여 실제 음성 인식 유사도를 측정하여 그 인식 점수를 내보내는 것을 특징으로 하는 음성 인식 환경 제어 장치.
- 제4항에 있어서, 상기 마이크 입력 레벨 평가부는 사용자가 발화하는 순간의 신호적 물리 입력량을 측정하여 그 평균 정도의 마이크 입력 레벨을 내보내는 것을 특징으로 하는 음성 인식 환경 제어 장치.
- 음성 대화 시스템을 위한 음성 인식 환경 제어 방법에 있어서,
환경 제어 시작 명령에 의해 사용자의 현재 장치 검색 및 환경 초기화를 수행하는 장치 검색 및 환경 초기화 수행 단계;
현재 사용자에게 발화를 요청하기 전, 상기 검색된 마이크의 마이크 입력 레벨로부터 잡음을 추정하는 잡음 정도 평가 단계;
상기 평가된 잡음 정도에 따라서 상기 마이크의 볼륨을 평가하여 환경 제어를 완료하는 마이크 볼륨 평가 단계를 포함하는 음성 인식 환경 제어 방법. - 제7항에 있어서, 상기 마이크 볼륨 평가 단계는
사용자로 하여금 어떤 문장을 발화하도록 요청하고, 사용자가 어떠한 문장을 발화하였는지 문장을 결과로 내보내는 발화 및 조절 단계; 및
상기 발화 및 조절 단계의 발화 및 조절 결과에 따라서, 현재 마이크 볼륨 조절 값이 적정한지 판단하고, 높이거나 줄일지 그리고 조절의 정도를 사용자에게 내보내어 피드백하는 마이크 환경 제어 단계를 포함하는 것을 특징으로 하는 음성 인식 환경 제어 방법. - 제8항에 있어서, 상기 발화 및 조절 단계는
발화 요청을 위한 음성 대화 시스템 도메인 모델을 저장하는 제1 데이터베이스로부터 발화를 요청할 문장을 무작위로 뽑아내어 발화 요청에 따라 사용자가 마이크를 통해 입력하는 발화를 인식하여, 사용자가 어떠한 문장을 발화하였는지 문장을 결과로 내보내는 음성 인식 단계; 및
사용자가 마이크 볼륨을 조절하며 그 마이크 볼륨 조절이 완료된 경우, 환경 제어 정보를 포함하는 유저 환경 프로필 데이터를 저장하는 제2 데이터베이스에 그 조절 값을 저장하는 마이크 볼륨 조절 단계를 포함하는 것을 특징으로 하는 음성 인식 환경 제어 방법. - 제8항에 있어서, 상기 마이크 환경 제어 단계는
상기 발화 및 조절 단계의 상기 음성 인식 단계로부터 얻어진 문장으로부터 음성 인식 점수를 평가하는 음성 인식 평가 단계;
상기 발화 및 조절 단계의 상기 음성 인식 단계의 음성 인식 도중 얻어진 마이크 입력 레벨을 평가하는 마이크 입력 레벨 평가 단계; 및
상기 음성 인식 평가 단계로부터 얻어진 음성 인식 점수, 상기 마이크 레벨 평가 단계로부터 얻어진 마이크 입력 레벨, 및 상기 발화 및 조절 단계의 상기 마이크 볼륨 조절 단계로부터 얻어진 마이크 볼륨 조절 값으로부터 현재 마이크 환경 상태를 평가하여 사용자에게 피드백하는 마이크 환경 평가 단계를 포함하는 것을 특징으로 하는 음성 인식 환경 제어 방법. - 제10항에 있어서, 상기 음성 인식 평가 단계는 상기 음성 인식 단계로부터 넘어온 문장으로부터 현재 발화 요청한 문장과 비교하여 실제 음성 인식 유사도를 측정하여 그 인식 점수를 내보내는 것을 특징으로 하는 음성 인식 환경 제어 방법.
- 제10항에 있어서, 상기 마이크 입력 레벨 평가 단계는 사용자가 발화하는 순간의 신호적 물리 입력량을 측정하여 그 평균 정도의 마이크 입력 레벨을 내보내는 것을 특징으로 하는 음성 인식 환경 제어 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020100070474A KR101151571B1 (ko) | 2010-07-21 | 2010-07-21 | 음성 대화 시스템을 위한 음성 인식 환경 제어 장치 및 그 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020100070474A KR101151571B1 (ko) | 2010-07-21 | 2010-07-21 | 음성 대화 시스템을 위한 음성 인식 환경 제어 장치 및 그 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20120009787A true KR20120009787A (ko) | 2012-02-02 |
KR101151571B1 KR101151571B1 (ko) | 2012-05-31 |
Family
ID=45834523
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020100070474A KR101151571B1 (ko) | 2010-07-21 | 2010-07-21 | 음성 대화 시스템을 위한 음성 인식 환경 제어 장치 및 그 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101151571B1 (ko) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10088853B2 (en) | 2012-05-02 | 2018-10-02 | Honeywell International Inc. | Devices and methods for interacting with an HVAC controller |
US10145579B2 (en) | 2013-05-01 | 2018-12-04 | Honeywell International Inc. | Devices and methods for interacting with a control system that is connected to a network |
US10030878B2 (en) | 2013-08-21 | 2018-07-24 | Honeywell International Inc. | User interaction with building controller device using a remote server and a duplex connection |
EP3036594B1 (en) | 2013-08-21 | 2021-05-26 | Ademco Inc. | Devices and methods for interacting with an hvac controller |
US10514677B2 (en) | 2014-04-11 | 2019-12-24 | Honeywell International Inc. | Frameworks and methodologies configured to assist configuring devices supported by a building management system |
KR102265931B1 (ko) | 2014-08-12 | 2021-06-16 | 삼성전자주식회사 | 음성 인식을 이용하는 통화 수행 방법 및 사용자 단말 |
US10524046B2 (en) | 2017-12-06 | 2019-12-31 | Ademco Inc. | Systems and methods for automatic speech recognition |
US20190390866A1 (en) | 2018-06-22 | 2019-12-26 | Honeywell International Inc. | Building management system with natural language interface |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0627991A (ja) * | 1992-07-13 | 1994-02-04 | Toshiba Corp | 音声認識装置 |
JP3903410B2 (ja) * | 2000-06-01 | 2007-04-11 | 三菱電機株式会社 | 音声入力制御システム |
-
2010
- 2010-07-21 KR KR1020100070474A patent/KR101151571B1/ko not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
KR101151571B1 (ko) | 2012-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11887582B2 (en) | Training and testing utterance-based frameworks | |
KR101151571B1 (ko) | 음성 대화 시스템을 위한 음성 인식 환경 제어 장치 및 그 방법 | |
US11823670B2 (en) | Activation trigger processing | |
CN111566729B (zh) | 用于远场和近场声音辅助应用的利用超短语音分段进行的说话者标识 | |
US9514747B1 (en) | Reducing speech recognition latency | |
US8775191B1 (en) | Efficient utterance-specific endpointer triggering for always-on hotwording | |
US9159319B1 (en) | Keyword spotting with competitor models | |
US9443527B1 (en) | Speech recognition capability generation and control | |
US9818407B1 (en) | Distributed endpointing for speech recognition | |
US8762144B2 (en) | Method and apparatus for voice activity detection | |
US9613624B1 (en) | Dynamic pruning in speech recognition | |
US9911411B2 (en) | Rapid speech recognition adaptation using acoustic input | |
GB2551209A (en) | Voice user interface | |
GB2563952A (en) | Speaker identification | |
US20140214414A1 (en) | Dynamic audio processing parameters with automatic speech recognition | |
KR20100027865A (ko) | 화자 및 음성 인식 장치 및 그 방법 | |
JP5431282B2 (ja) | 音声対話装置、方法、プログラム | |
US12080276B2 (en) | Adapting automated speech recognition parameters based on hotword properties | |
KR101529918B1 (ko) | 다중 스레드를 이용한 음성 인식 장치 및 그 방법 | |
KR101304127B1 (ko) | 음성 신호를 이용한 화자 인식 장치 및 그 방법 | |
KR100622019B1 (ko) | 음성 인터페이스 시스템 및 방법 | |
JP2019191477A (ja) | 音声認識装置及び音声認識方法 | |
JP2019002997A (ja) | 音声認識装置および音声認識方法 | |
EP2760019A9 (en) | Dynamic audio processing parameters with automatic speech recognition | |
JP2008225001A (ja) | 音声認識装置および音声認識方法,音声認識用プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
LAPS | Lapse due to unpaid annual fee |