KR20120009787A - 음성 대화 시스템을 위한 음성 인식 환경 제어 장치 및 그 방법 - Google Patents

음성 대화 시스템을 위한 음성 인식 환경 제어 장치 및 그 방법 Download PDF

Info

Publication number
KR20120009787A
KR20120009787A KR1020100070474A KR20100070474A KR20120009787A KR 20120009787 A KR20120009787 A KR 20120009787A KR 1020100070474 A KR1020100070474 A KR 1020100070474A KR 20100070474 A KR20100070474 A KR 20100070474A KR 20120009787 A KR20120009787 A KR 20120009787A
Authority
KR
South Korea
Prior art keywords
microphone
speech
user
environment
recognition
Prior art date
Application number
KR1020100070474A
Other languages
English (en)
Other versions
KR101151571B1 (ko
Inventor
이근배
김경덕
이동현
최준휘
Original Assignee
포항공과대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 포항공과대학교 산학협력단 filed Critical 포항공과대학교 산학협력단
Priority to KR1020100070474A priority Critical patent/KR101151571B1/ko
Publication of KR20120009787A publication Critical patent/KR20120009787A/ko
Application granted granted Critical
Publication of KR101151571B1 publication Critical patent/KR101151571B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 음성 대화 처리 기술을 이용하여 주위 환경을 개선함으로써 음성 대화 인식 수준을 높이기 위한 음성 대화 시스템용 음성 인식 환경 제어 장치 및 그 방법에 관한 것이다. 본 발명의 음성 대화 시스템을 위한 음성 인식 환경 제어 장치는 각기 다른 음성 인식 환경으로부터 사용자가 인식이 잘되는 음성 인식 환경으로 조정하기 위한 유도 장치이다. 상기 장치는 목표 문장을 인식하는 발화 및 조절 인터페이스와 사용자 환경 제어부를 포함한다. 이런 장치는 음성 대화 시스템에 관한 모든 장치의 선단에 연결되어 원활한 음성 인식 환경을 제공할 수 있다.

Description

음성 대화 시스템을 위한 음성 인식 환경 제어 장치 및 그 방법{Speech recognition environment control apparatus for spoken dialog system and method thereof}
본 발명은 음성 대화 시스템을 위한 음성 인식 환경 제어 장치 및 그 방법에 관한 것으로, 보다 상세하게는 음성 대화 시스템을 위해 잡음 정도 평가 및 마이크 입력 제어를 수행하고, 해당 음성 대화 시스템에서 사용하는 도메인으로부터 음성 발화를 요구하고, 그 음성 인식도를 따져 주변의 환경 상태를 파악 조절하는 음성 인식 환경 제어 장치 및 그 방법에 관한 것이다.
일반적으로 음성 대화 시스템이라 함은 사용자와 시스템이 원활한 대화를 나누고, 시스템은 사용자의 발화로부터 명령을 인식 수행하는 데에 그 목표가 있다.
그러므로 음성 대화 시스템은 사람의 발화가 무슨 말인지 인식하는 동작부터 잘되어야한다. 최근의 음성 대화 시스템은 음성 인식기 자체 성능에 초점을 맞추어 발전되었고, 음성 인식을 위한 환경 제어는 신호처리에 관하여 중점적으로 발전되었으며, 그에 대한 연구들이 활발하다.
그러나 기존의 음성 대화 시스템으로서는 환경 변수가 음성 인식기의 음성 인식도에 영향을 미침에도 불구하고 그를 고려하는 경우가 없고, 음성 인식 환경 제어 부분에서는 음성 대화 시스템을 위해 그 인식도와 관련하여 그 변수들을 조절해야함에도 불구하고, 음성 대화 시스템의 의도와는 상관없이 잡음제거, 음향 효과 등 신호처리 위주로 독립적이므로 그 한계가 있다.
한편, 음성 대화 시스템을 위한 환경 제어 장치는 궁극적으로 그 음성 인식도를 평가하여 음성 인식이 잘되는 방향으로 환경이 제어되고, 그러한 피드백을 사용자에게 제공하여야 한다.
한국등록특허 10-0940629 (2010. 01. 28) (잡음 제거 장치 및 방법)
따라서, 본 발명자는 상기한 종래 기술의 한계점을 해결하기 위하여 본 발명이 이루고자 하는 기술적 과제, 즉 본 발명의 목적은 음성 대화 시스템의 의도에 부합하여 적합한 인식도를 가지도록 환경 제어 피드백을 제공하는 음성 대화 시스템을 위한 음성 인식 환경 제어 장치 및 그 방법을 제공하는데 있다.
본 발명이 이루고자 하는 다른 기술적 과제, 즉 본 발명의 다른 목적은 강건한 음성 인식도를 위한 환경 변수의 정도를 파악하여 조절 요청 피드백을 할 수 있는 음성 대화 시스템을 위한 음성 인식 환경 제어 장치 및 그 방법을 제공하는데 있다.
본 발명이 이루고자 하는 또다른 기술적 과제, 즉 본 발명의 또다른 목적은 음성 대화 시스템의 음성 인식 도메인을 고려하여 음성 발화 요청을 하고, 발화에 된 음성에 따라 환경 변수의 정도를 파악할 수 있는 음성 대화 시스템을 위한 음성 인식 환경 제어 장치 및 그 방법을 제공하는데 있다.
본 발명이 이루고자 하는 또다른 기술적 과제, 즉 본 발명의 또다른 목적은 사용자가 피드백에 따라 스스로 그 환경 변수를 조절할 수 있는 음성 대화 시스템을 위한 음성 인식 환경 제어 장치 및 그 방법을 제공하는데 있다.
본 발명이 이루고자 하는 또다른 기술적 과제, 즉 본 발명의 또다른 목적은 음성 대화 시스템의 피드백을 위하여 어떤 환경 변수를 어느 정도 조절해야 하는가, 어느 정도 조절이 되었는가를 피드백하고, 그 조절부를 함께 갖는 음성 대화 시스템을 위한 음성 인식 환경 제어 장치 및 그 방법을 제공하는데 있다.
본 발명이 이루고자 하는 또다른 기술적 과제, 즉 본 발명의 또다른 목적은 강건한 음성 인식도라고 판단이 되면 음성 인식 환경 제어를 끝내는 음성 대화 시스템을 위한 음성 인식 환경 제어 장치 및 그 방법을 제공하는데 있다.
본 발명이 이루고자 하는 또다른 기술적 과제, 즉 본 발명의 또다른 목적은 환경 변수에 의존적인 하드웨어 시스템 구성이 같은 경우에 대해 사용자의 프로필을 저장하여 매번 환경 제어를 하지 않아도 강건한 환경을 제공할 수 있는 음성 대화 시스템을 위한 음성 인식 환경 제어 장치 및 그 방법을 제공하는데 있다.
본 발명은 상기 기술적 과제를 달성하기 위하여, 음성 대화 시스템을 위한 음성 인식 환경 제어 장치에 있어서,
환경 제어 시작 명령에 의해 사용자의 현재 장치 검색 및 환경 초기화부;
현재 사용자에게 발화를 요청하기 전, 상기 검색된 마이크의 마이크 입력 레벨로부터 잡음을 추정하는 잡음 정도 평가부;
상기 평가된 잡음 정도에 따라서 상기 마이크의 볼륨을 평가하여 환경 제어를 완료하는 마이크 볼륨 평가부를 포함하는 음성 인식 환경 제어 장치를 제공한다.
바람직하기로는 상기 마이크 볼륨 평가부는
사용자로 하여금 어떤 문장을 발화하도록 요청하고, 사용자가 어떠한 문장을 발화하였는지 문장을 결과로 내보내는 발화 및 조절 인터페이스; 및
상기 발화 및 조절 인터페이스의 발화 및 조절 결과에 따라서, 현재 마이크 볼륨 조절 값이 적정한지 판단하고, 높이거나 줄일지 그리고 조절의 정도를 사용자에게 내보내어 피드백하는 마이크 환경 제어부를 포함하는 것을 특징으로 한다.
바람직하기로는 상기 발화 및 조절 인터페이스는
발화 요청에 따라 사용자가 마이크를 통해 입력하는 발화를 인식하여, 사용자가 어떠한 문장을 발화하였는지 문장을 결과로 내보내는 음성 인식부; 및
사용자가 마이크의 입력 정도를 조절할 수 있는 마이크 볼륨 조절부를 포함하고,
상기 음성 인식부의 발화 요청을 위한 음성 대화 시스템 도메인 모델을 저장하는 제1 데이터베이스로부터 발화 요청 문장을 무작위로 뽑아내어 발화를 요청하고, 상기 마이크 볼륨 조절부에서 마이크 볼륨을 조절하며 그 마이크 볼륨 조절이 완료된 경우 그 조절 값을 환경 제어 정보를 포함하는 유저 환경 프로필 데이터를 저장하는 제2 데이터베이스에 저장하는 것을 특징으로 한다.
바람직하기로는 상기 마이크 환경 제어부는
상기 발화 및 조절 인터페이스의 상기 음성 인식부로부터 얻어진 문장으로부터 음성 인식 점수를 평가하는 음성 인식 평가부;
상기 발화 및 조절 인터페이스의 상기 음성 인식부의 음성 인식 도중 얻어진 마이크 입력 레벨을 평가하는 마이크 입력 레벨 평가부; 및
상기 음성 인식 평가부로부터 얻어진 음성 인식 점수, 상기 마이크 레벨 평가부로부터 얻어진 마이크 입력 레벨, 및 상기 발화 및 조절 인터페이스의 상기 마이크 볼륨 조절부로부터 얻어진 마이크 볼륨 조절값으로부터 현재 마이크 환경 상태를 평가하여 사용자에게 피드백하는 마이크 환경 평가부를 포함한다.
바람직하기로는 상기 음성 인식 평가부는 상기 음성 인식부로부터 넘어온 문장으로부터 현재 발화 요청한 문장과 비교하여 실제 음성 인식 유사도를 측정하여 그 인식 점수를 내보내는 것을 특징으로 한다.
바람직하기로는 상기 마이크 입력 레벨 평가부는 사용자가 발화하는 순간의 신호적 물리 입력량을 측정하여 그 평균 정도의 마이크 입력 레벨을 내보내는 것을 특징으로 한다.
본 발명은 상술한 기술적 과제를 달성하기 위하여 본 발명의 다른 양태에 의하면, 음성 대화 시스템을 위한 음성 인식 환경 제어 방법에 있어서,
환경 제어 시작 명령에 의해 사용자의 현재 장치 검색 및 환경 초기화를 수행하는 장치 검색 및 환경 초기화 수행 단계;
현재 사용자에게 발화를 요청하기 전, 상기 검색된 마이크의 마이크 입력 레벨로부터 잡음을 추정하는 잡음 정도 평가 단계; 및
상기 평가된 잡음 정도에 따라서 상기 마이크의 볼륨을 평가하여 환경 제어를 완료하는 마이크 볼륨 평가 단계를 포함하는 음성 인식 환경 제어 방법을 제공한다.
바람직하기로는 상기 마이크 볼륨 평가 단계는
사용자로 하여금 어떤 문장을 발화하도록 요청하고, 사용자가 어떠한 문장을 발화하였는지 문장을 결과로 내보내는 발화 및 조절 단계; 및
상기 발화 및 조절 단계의 발화 및 조절 결과에 따라서, 현재 마이크 볼륨 조절 값이 적정한지 판단하고, 높이거나 줄일지 그리고 조절의 정도를 사용자에게 내보내어 피드백하는 마이크 환경 제어 단계를 포함하는 것을 특징으로 한다.
바람직하기로는 상기 발화 및 조절 단계는
발화 요청을 위한 음성 대화 시스템 도메인 모델을 저장하는 제1 데이터베이스로부터 발화 요청 문장을 무작위로 뽑아내어 발화를 요청하고, 그 발화 요청에 따라 사용자가 마이크를 통해 입력하는 발화를 인식하여, 사용자가 어떠한 문장을 발화하였는지 문장을 결과로 내보내는 음성 인식 단계; 및
사용자가 마이크 볼륨을 조절하며 그 마이크 볼륨 조절이 완료된 경우 그 조절 값을 환경 제어 정보를 포함하는 유저 환경 프로필 데이터를 저장하는 제2 데이터베이스에 저장하는 마이크 볼륨 조절 단계를 포함하는 것을 특징으로 한다.
바람직하기로는 상기 마이크 환경 제어 단계는
상기 발화 및 조절 단계의 상기 음성 인식 단계로부터 얻어진 문장으로부터 음성 인식 점수를 평가하는 음성 인식 평가 단계;
상기 발화 및 조절 단계의 상기 음성 인식 단계의 음성 인식 도중 얻어진 마이크 입력 레벨을 평가하는 마이크 입력 레벨 평가 단계; 및
상기 음성 인식 평가 단계로부터 얻어진 음성 인식 점수, 상기 마이크 레벨 평가 단계로부터 얻어진 마이크 입력 레벨, 및 상기 발화 및 조절 단계의 상기 마이크 볼륨 조절 단계로부터 얻어진 마이크 볼륨 조절 값으로부터 현재 마이크 환경 상태를 평가하여 사용자에게 피드백하는 마이크 환경 평가 단계를 포함하는 것을 특징으로 한다.
바람직하기로는 상기 음성 인식 평가 단계는 상기 음성 인식 단계로부터 넘어온 문장으로부터 현재 발화 요청한 문장과 비교하여 실제 음성 인식 유사도를 측정하여 그 인식 점수를 내보내는 것을 특징으로 한다.
바람직하기로는 상기 마이크 입력 레벨 평가 단계는 사용자가 발화하는 순간의 신호적 물리 입력량을 측정하여 그 평균 정도의 마이크 입력 레벨을 내보내는 것을 특징으로 한다.
본 발명에 의한 음성 대화 시스템을 위한 음성 인식 환경 제어 장치 및 그 방법은 음성 대화 시스템의 음성 인식의 환경에 의한 문제를 해결함으로써 인식 성능을 향상시켜 원활한 대화를 진행할 수 있게 할 수 있다.
본 발명은 음성 대화 시스템이 사용될 수 있는 모든 환경에 적용될 수 있으므로 관련 장치 및 산업에 파급 효과가 클 것으로 기대할 수 있다.
도 1은 본 발명의 음성 대화 시스템을 위한 음성 인식 제어 장치의 구조를 도시한 블록도이다.
도 2는 도 1의 마이크 볼륨 평가부의 구체적 구조의 상세 블록도이다.
도 3은 본 발명의 음성 대화 시스템을 위한 음성 인식 제어 방법을 설명하기 위한 흐름도이다.
도 4는 도 3의 상세 흐름도이다.
도 5는 도 4의 상세 흐름도이다.
이하, 도 1과 도 2를 참조하여, 본 발명의 바람직한 실시예에 의한 음성 대화 시스템을 위한 음성 인식 제어 장치에 대하여 상세히 설명한다.
도 1은 발명에 따른 음성 대화 시스템을 위한 음성 인식 환경 제어 장치의 전반적인 구조를 도시한 블록도이다.
도 1에서 발명에 따른 음성 대화 시스템을 위한 음성 인식 환경 제어 장치(1-1)는 장치 검색 및 환경 제어 초기화부(1-3), 잡음 정도 평가부(1-4), 및 마이크 볼륨 평가부(1-5)를 포함하여 구성되어, 차례로 해당 과정을 진행하게 된다.
도 1에 도시한 장치 검색 및 초기화부(1-3)는 환경 제어 시작 명령(1-2)에 의해 사용자의 음성 대화 시스템에 필요한 장치들을 검색하여 음성 대화 시스템의 필요조건을 만족시켰는지 확인하고 장치의 환경 변수들을 초기화 한다.
도 1에 도시한 잡음 정도 평가부(1-4)는 마이크 볼륨 평가부(1-5)의 음성 인식도를 평가하기 전단계로서, 현재 사용자에게 발화를 요청하기 전, 상기 검색된 마이크로부터 들어오는 신호의 마이크 입력 레벨로부터 그 잡음 정도를 평가함으로써 잡음을 추정한다.
도 1에 도시한 마이크 볼륨 평가부(1-5)는 상기 잡음 정도 평가부(1-4)로부터 평가된 잡음 정도에 따라서 상기 마이크의 볼륨을 평가하여 환경 제어를 완료(1-6)하며, 이는 도 2에 보다 구체적으로 도시되어있다.
도 2는 도 1에 도시한 마이크 볼륨 평가부(1-5)를 보다 구체적으로 도시한 블록도이다. 상기 마이크 볼륨 평가부(1-5)는 두 부분으로 구성되는데, 사용자가 외부에서 직접 발화와 조절을 하게 되는 조절 및 발화 인터페이스(2-3)와 마이크 환경 제어부(2-8)로 구성된다.
도 2에서, 상기 조절 및 발화 인터페이스(2-3)는 사용자로 하여금 어떤 문장을 발화하도록 요청하고, 사용자가 어떠한 문장을 발화하였는지 문장을 결과로 내보내며, 상기 마이크 환경 제어부(2-8)는 상기 발화 및 조절 인터페이스(2-3)의 발화 및 조절 결과에 따라서, 현재 마이크 볼륨 조절 값이 적정한지 판단하고, 높이거나 줄일지 그리고 조절의 정도를 사용자에게 내보내어 피드백하는 역할을 수행한다.
보다 상세하게는, 상기 조절 및 발화 인터페이스(2-3)는 음성 대화 시스템과 동일한 음성 인식부(2-4)와 마이크 볼륨 조절부(2-5)로 구성되고, 마이크 환경 평가부(2-8)는 음성 인식 평가부(2-9), 마이크 입력 레벨 평가부(2-10), 및 마이크 환경 평가부(2-11)로 구성된다.
상기 발화 및 조절 인터페이스(2-3)의 음성 인식부(2-4)는 발화 요청에 따라 사용자가 마이크를 통해 입력하는 발화를 인식하여, 사용자가 어떠한 문장을 발화하였는지 문장을 결과로 내보내고, 마이크 볼륨 조절부(2-5)는 사용자가 마이크의 입력 정도를 조절할 수 있도록 한다.
이 경우, 상기 발화 및 조절 인터페이스(2-3)는 상기 음성 인식부(2-4)의 발화 요청을 위한 음성 대화 시스템 도메인 모델을 저장하는 제1 데이터베이스(2-6)로부터 발화를 요청할 문장을 무작위로 뽑아내어 발화 요청하게 되고, 사용자가 상기 마이크 볼륨 조절부(2-5)에서 마이크 볼륨을 조절한 후의 조절 값을 환경 제어 정보를 포함하는 유저 환경 프로필 데이터를 저장하는 제2 데이터베이스(2-7)에 저장하며, 이때 상기 제1 및 제2 데이터베이스(2-6, 2-7)는 발화 및 조절 인터페이스(2-3)의 내부 또는 외부에 포함한다.
또한, 마이크 환경 평가부(2-8)의 음성 인식 평가부(2-9)는 상기 발화 및 조절 인터페이스(2-3)의 상기 음성 인식부(2-4)로부터 얻어진 문장으로부터 음성 인식 점수를 평가하고, 마이크 입력 레벨 평가부(2-10)는 상기 발화 및 조절 인터페이스(2-3)의 상기 음성 인식부(2-4)의 음성 인식 도중 얻어진 마이크 입력 레벨을 평가하고, 마이크 환경 평가부(2-11)는 상기 음성 인식 평가부(2-9)로부터 얻어진 음성 인식 점수, 상기 마이크 레벨 평가부(2-10)로부터 얻어진 마이크 입력 레벨, 및 상기 발화 및 조절 인터페이스(2-3)의 상기 마이크 볼륨 조절부(2-5)로부터 얻어진 마이크 볼륨 조절값으로부터 현재 마이크 환경 상태를 평가하여 사용자에게 피드백한다.
여기서, 상기 음성 인식 평가부(2-9)는 상기 음성 인식부(2-4)로부터 넘어온 문장으로부터 현재 발화 요청한 문장과 비교하여 실제 음성 인식 유사도를 측정하여 그 인식 점수를 내보내고, 상기 마이크 입력 레벨 평가부(2-10)는 사용자가 발화하는 순간의 신호적 물리 입력량을 측정하여 그 평균 정도의 마이크 입력 레벨을 내보낸다.
이하, 도 3 내지 도 5를 참조하여, 본 발명의 바람직한 실시예에 의한 음성 대화 시스템을 위한 음성 인식 제어 방법에 대하여 상세히 설명한다.
도 3은 본 발명의 음성 대화 시스템을 위한 음성 인식 제어 방법을 설명하기 위한 흐름도이다.
도 3에 의하면, 본 발명의 다른 양태에 의하면, 음성 대화 시스템을 위한 음성 인식 환경 제어 방법은 환경 제어 시작 명령에 의해 사용자의 현재 장치 검색 및 환경 초기화를 수행하는 장치 검색 및 환경 초기화 수행 단계(32); 현재 사용자에게 발화를 요청하기 전, 상기 검색된 마이크의 마이크 입력 레벨로부터 잡음을 추정하는 잡음 정도 평가 단계(34); 및 상기 평가된 잡음 정도에 따라서 상기 마이크의 볼륨을 평가하여 환경 제어를 완료하는 마이크 볼륨 평가 단계(36)를 포함한다.
도 4는 도 3의 상세 흐름도로, 마이크 볼륨 평가 단계(36)를 보다 상세히 설명한다.
도 4에서, 상기 마이크 볼륨 평가 단계(36)는 사용자로 하여금 어떤 문장을 발화하도록 요청하고, 사용자가 어떠한 문장을 발화하였는지 문장을 결과로 내보내는 발화 및 조절 단계(362); 및 상기 발화 및 조절 단계의 발화 및 조절 결과에 따라서, 현재 마이크 볼륨 조절 값이 적정한지 판단하고, 높이거나 줄일지 그리고 조절의 정도를 사용자에게 내보내어 피드백하는 마이크 환경 제어 단계(364)를 포함한다.
도 5는 도 4의 상세 흐름도로, 도 4의 발화 및 조절 단계(362) 및 마이크 환경 제어 단계(364)를 상세히 설명한다.
도 5에서, 상기 발화 및 조절 단계(362)는 발화 요청을 위한 음성 대화 시스템 도메인 모델을 저장하는 제1 데이터베이스(2-6)를 참조하여 얻어진 발화 요청에 따라 사용자가 마이크를 통해 입력하는 발화를 인식하여, 사용자가 어떠한 문장을 발화하였는지 문장을 결과로 내보내는 음성 인식 단계(3622); 및 사용자가 마이크의 입력 정도를 조절하고 조절이 완료된 후 환경 제어 정보를 포함하는 유저 환경 프로필 데이터를 저장하는 제2 데이터베이스(2-7)에 그 조절 값을 저장하는 마이크 볼륨 조절 단계(3642)를 포함하고, 상기 마이크 환경 제어 단계(364)는 상기 발화 및 조절 단계의 상기 음성 인식 단계로부터 얻어진 문장으로부터 음성 인식 점수를 평가하는 음성 인식 평가 단계(3642); 상기 발화 및 조절 단계의 상기 음성 인식 단계의 음성 인식 도중 얻어진 마이크 입력 레벨을 평가하는 마이크 입력 레벨 평가 단계(3644); 및 상기 음성 인식 평가 단계로부터 얻어진 음성 인식 점수, 상기 마이크 레벨 평가 단계로부터 얻어진 마이크 입력 레벨, 및 상기 발화 및 조절 단계의 상기 마이크 볼륨 조절 단계로부터 얻어진 마이크 볼륨 조절 값으로부터 현재 마이크 환경 상태를 평가하여 사용자에게 피드백하는 마이크 환경 평가 단계(3646)를 포함한다.
여기서, 상기 음성 인식 평가 단계(3642)는 상기 음성 인식 단계(3622)로부터 넘어온 문장으로부터 현재 발화 요청한 문장과 비교하여 실제 음성 인식 유사도를 측정하여 그 인식 점수를 내보내고, 상기 마이크 입력 레벨 평가 단계(3644)는 사용자가 발화하는 순간의 신호적 물리 입력량을 측정하여 그 평균 정도의 마이크 입력 레벨을 내보낸다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 의한 음성 대화 시스템을 위한 음성 인식 환경 제어 장치 및 그 방법의 동작을 설명하기로 한다.
사용자가 마이크 볼륨 조절 평가를 시행하면, 조절 및 발화 인터페이스(2-3)는 음성 대화 시스템 도메인을 저장하는 제1 데이터베이스(2-6)로부터 발화를 요청할 문장을 무작위로 뽑아내어 요청하게 되고, 사용자는 그 문장을 음성 인식부(2-4)에 발화하며, 피드백을 받아 마이크 볼륨 조절부(2-5)에서 마이크 볼륨을 조절하며 조절이 완료되었을 경우 그 조절값을 유저 프로필 데이터를 저장하는 제2 데이터베이스(2-7)에 저장하게 된다.
마이크 환경 제어부(2-8)에서는 내부 음성 인식 평가부(2-9)에서 음성 인식부(2-4)로부터 전송된 문장과 요청된 문장을 비교하여 낸 점수, 마이크 입력 레벨 평가부(2-10)에서 발화 순간에 측정되는 마이크 입력 소리의 크기, 마이크 볼륨 조절부(2-5)의 조절값을 고려하여 마이크 환경 평가부(2-11)로 하여금 마이크가 가깝거나 멀다, 볼륨이 높거나 낮다, 볼륨의 조절 정도, 재발화 요청과 같은 피드백을 사용자에게 주게 된다.
음성 인식 평가부(2-9)에서의 평가는 요청된 문장과 인식된 문장의 N-Best 모델을 추출하여 비교하는 단어 오류율(Word Error Rate) 점수, 해당 문장과 물리적 신호의 유사도를 판별하는 음성 인식부(2-4)의 확실성(Confidence) 점수 등을 고려하여 평가한다.
마이크 환경 평가부(2-11)에서의 평가는 우선적으로 사용자로 하여금 재발화 요청을 하여 최소 두 번의 평가를 시행한 후 마이크 입력 레벨과 마이크 조절 값의 상관 관계를 알아내고 최적의 음성 인식 평가가 이루어지도록 계산하여 피드백하게 된다. 발화를 많이 하게 되면 할수록 그 데이터가 축적되고, 최고의 음성 인식 평가 점수를 계산하는데 다양한 기계 학습(Machine Learning) 기법을 적용할 수 있다.
상술한 바와 같이, 본 발명에 의한 음성 대화 시스템을 위한 음성 인식 환경 제어 방법 및 그 장치는 음성 대화 시스템의 음성 인식의 환경에 의한 문제를 해결함으로써 인식 성능을 향상시켜 원활한 대화를 진행할 수 있게 하고, 음성 대화 시스템이 사용될 수 있는 모든 환경에 적용될 수 있으므로 관련 장치 및 산업에 파급 효과가 클 것이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과함께 상세하게 상술한 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태 로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전 하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의 정의될 뿐이다. 다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는한 이상적으로 또는 과도하게 해석되지 않는다.
1-1...음성 인식 환경 제어 장치 1-2...환경 제어 시작
1-3...장치 검색 및 환경 제어 초기화부
1-4...잡음 정도 평가부
1-5...마이크 볼륨 평가부
1-6...환경 제어 완료
2-1...사용자
2-3...발화 및 조절 인터페이스
2-4...음성 인식부
2-5...마이크 볼륨 조절부
2-6...제1 데이터베이스
2-7...제2 데이터베이스
2-8...마이크 환경 제어부
2-9...음성 인식 평가부
2-10...마이크 입력 레벨 평가부
2-11...마이크 환경 평가부

Claims (12)

  1. 음성 대화 시스템을 위한 음성 인식 환경 제어 장치에 있어서,
    환경 제어 시작 명령에 의해 사용자의 현재 장치 검색 및 환경 초기화부;
    현재 사용자에게 발화를 요청하기 전, 상기 검색된 마이크의 마이크 입력 레벨로부터 잡음을 추정하는 잡음 정도 평가부;
    상기 평가된 잡음 정도에 따라서 상기 마이크의 볼륨을 평가하여 환경 제어를 완료하는 마이크 볼륨 평가 장치를 포함하는 음성 인식 환경 제어 장치.
  2. 제1항에 있어서, 상기 마이크 볼륨 평가부는
    사용자로 하여금 어떤 문장을 발화하도록 요청하고, 사용자가 어떠한 문장을 발화하였는지 문장을 결과로 내보내는 발화 및 조절 인터페이스; 및
    상기 발화 및 조절 인터페이스의 발화 및 조절 결과에 따라서, 현재 마이크 볼륨 조절 값이 적정한지 판단하고, 높이거나 줄일지 그리고 조절의 정도를 사용자에게 내보내어 피드백하는 마이크 환경 제어부를 포함하는 것을 특징으로 하는 음성 인식 환경 제어 장치.
  3. 제2항에 있어서, 상기 발화 및 조절 인터페이스는
    발화 요청에 따라 사용자가 마이크를 통해 입력하는 발화를 인식하여, 사용자가 어떠한 문장을 발화하였는지 문장을 결과로 내보내는 음성 인식부; 및
    사용자가 마이크의 입력 정도를 조절할 수 있는 마이크 볼륨 조절부를 포함하며,
    상기 음성 인식부의 발화 요청을 위한 음성 대화 시스템 도메인 모델을 저장하는 제1 데이터베이스로부터 발화 요청 문장을 무작위로 뽑아내어 발화를 요청하고, 상기 마이크 볼륨 조절부에서 마이크 볼륨을 조절하며 그 마이크 볼륨 조절이 완료된 경우 그 조절 값을 환경 제어 정보를 저장하는 유저 환경 프로필 데이터를 저장하는 제2 데이터베이스에 저장하는 것을 특징으로 하는 음성 인식 환경 제어 장치.
  4. 제2항에 있어서, 상기 마이크 환경 제어부는
    상기 발화 및 조절 인터페이스의 상기 음성 인식부로부터 얻어진 문장으로부터 음성 인식 점수를 평가하는 음성 인식 평가부;
    상기 발화 및 조절 인터페이스의 상기 음성 인식부의 음성 인식 도중 얻어진 마이크 입력 레벨을 평가하는 마이크 입력 레벨 평가부; 및
    상기 음성 인식 평가부로부터 얻어진 음성 인식 점수, 상기 마이크 레벨 평가부로부터 얻어진 마이크 입력 레벨, 및 상기 발화 및 조절 인터페이스의 상기 마이크 볼륨 조절부로부터 얻어진 마이크 볼륨 조절값으로부터 현재 마이크 환경 상태를 평가하여 사용자에게 피드백하는 마이크 환경 평가부를 포함하는 것을 특징으로 하는 음성 인식 환경 제어 장치.
  5. 제4항에 있어서, 상기 음성 인식 평가부는 상기 음성 인식부로부터 넘어온 문장으로부터 현재 발화 요청한 문장과 비교하여 실제 음성 인식 유사도를 측정하여 그 인식 점수를 내보내는 것을 특징으로 하는 음성 인식 환경 제어 장치.
  6. 제4항에 있어서, 상기 마이크 입력 레벨 평가부는 사용자가 발화하는 순간의 신호적 물리 입력량을 측정하여 그 평균 정도의 마이크 입력 레벨을 내보내는 것을 특징으로 하는 음성 인식 환경 제어 장치.
  7. 음성 대화 시스템을 위한 음성 인식 환경 제어 방법에 있어서,
    환경 제어 시작 명령에 의해 사용자의 현재 장치 검색 및 환경 초기화를 수행하는 장치 검색 및 환경 초기화 수행 단계;
    현재 사용자에게 발화를 요청하기 전, 상기 검색된 마이크의 마이크 입력 레벨로부터 잡음을 추정하는 잡음 정도 평가 단계;
    상기 평가된 잡음 정도에 따라서 상기 마이크의 볼륨을 평가하여 환경 제어를 완료하는 마이크 볼륨 평가 단계를 포함하는 음성 인식 환경 제어 방법.
  8. 제7항에 있어서, 상기 마이크 볼륨 평가 단계는
    사용자로 하여금 어떤 문장을 발화하도록 요청하고, 사용자가 어떠한 문장을 발화하였는지 문장을 결과로 내보내는 발화 및 조절 단계; 및
    상기 발화 및 조절 단계의 발화 및 조절 결과에 따라서, 현재 마이크 볼륨 조절 값이 적정한지 판단하고, 높이거나 줄일지 그리고 조절의 정도를 사용자에게 내보내어 피드백하는 마이크 환경 제어 단계를 포함하는 것을 특징으로 하는 음성 인식 환경 제어 방법.
  9. 제8항에 있어서, 상기 발화 및 조절 단계는
    발화 요청을 위한 음성 대화 시스템 도메인 모델을 저장하는 제1 데이터베이스로부터 발화를 요청할 문장을 무작위로 뽑아내어 발화 요청에 따라 사용자가 마이크를 통해 입력하는 발화를 인식하여, 사용자가 어떠한 문장을 발화하였는지 문장을 결과로 내보내는 음성 인식 단계; 및
    사용자가 마이크 볼륨을 조절하며 그 마이크 볼륨 조절이 완료된 경우, 환경 제어 정보를 포함하는 유저 환경 프로필 데이터를 저장하는 제2 데이터베이스에 그 조절 값을 저장하는 마이크 볼륨 조절 단계를 포함하는 것을 특징으로 하는 음성 인식 환경 제어 방법.
  10. 제8항에 있어서, 상기 마이크 환경 제어 단계는
    상기 발화 및 조절 단계의 상기 음성 인식 단계로부터 얻어진 문장으로부터 음성 인식 점수를 평가하는 음성 인식 평가 단계;
    상기 발화 및 조절 단계의 상기 음성 인식 단계의 음성 인식 도중 얻어진 마이크 입력 레벨을 평가하는 마이크 입력 레벨 평가 단계; 및
    상기 음성 인식 평가 단계로부터 얻어진 음성 인식 점수, 상기 마이크 레벨 평가 단계로부터 얻어진 마이크 입력 레벨, 및 상기 발화 및 조절 단계의 상기 마이크 볼륨 조절 단계로부터 얻어진 마이크 볼륨 조절 값으로부터 현재 마이크 환경 상태를 평가하여 사용자에게 피드백하는 마이크 환경 평가 단계를 포함하는 것을 특징으로 하는 음성 인식 환경 제어 방법.
  11. 제10항에 있어서, 상기 음성 인식 평가 단계는 상기 음성 인식 단계로부터 넘어온 문장으로부터 현재 발화 요청한 문장과 비교하여 실제 음성 인식 유사도를 측정하여 그 인식 점수를 내보내는 것을 특징으로 하는 음성 인식 환경 제어 방법.
  12. 제10항에 있어서, 상기 마이크 입력 레벨 평가 단계는 사용자가 발화하는 순간의 신호적 물리 입력량을 측정하여 그 평균 정도의 마이크 입력 레벨을 내보내는 것을 특징으로 하는 음성 인식 환경 제어 방법.
KR1020100070474A 2010-07-21 2010-07-21 음성 대화 시스템을 위한 음성 인식 환경 제어 장치 및 그 방법 KR101151571B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020100070474A KR101151571B1 (ko) 2010-07-21 2010-07-21 음성 대화 시스템을 위한 음성 인식 환경 제어 장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100070474A KR101151571B1 (ko) 2010-07-21 2010-07-21 음성 대화 시스템을 위한 음성 인식 환경 제어 장치 및 그 방법

Publications (2)

Publication Number Publication Date
KR20120009787A true KR20120009787A (ko) 2012-02-02
KR101151571B1 KR101151571B1 (ko) 2012-05-31

Family

ID=45834523

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100070474A KR101151571B1 (ko) 2010-07-21 2010-07-21 음성 대화 시스템을 위한 음성 인식 환경 제어 장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR101151571B1 (ko)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10088853B2 (en) 2012-05-02 2018-10-02 Honeywell International Inc. Devices and methods for interacting with an HVAC controller
US10145579B2 (en) 2013-05-01 2018-12-04 Honeywell International Inc. Devices and methods for interacting with a control system that is connected to a network
US10030878B2 (en) 2013-08-21 2018-07-24 Honeywell International Inc. User interaction with building controller device using a remote server and a duplex connection
EP3036594B1 (en) 2013-08-21 2021-05-26 Ademco Inc. Devices and methods for interacting with an hvac controller
US10514677B2 (en) 2014-04-11 2019-12-24 Honeywell International Inc. Frameworks and methodologies configured to assist configuring devices supported by a building management system
KR102265931B1 (ko) 2014-08-12 2021-06-16 삼성전자주식회사 음성 인식을 이용하는 통화 수행 방법 및 사용자 단말
US10524046B2 (en) 2017-12-06 2019-12-31 Ademco Inc. Systems and methods for automatic speech recognition
US20190390866A1 (en) 2018-06-22 2019-12-26 Honeywell International Inc. Building management system with natural language interface

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0627991A (ja) * 1992-07-13 1994-02-04 Toshiba Corp 音声認識装置
JP3903410B2 (ja) * 2000-06-01 2007-04-11 三菱電機株式会社 音声入力制御システム

Also Published As

Publication number Publication date
KR101151571B1 (ko) 2012-05-31

Similar Documents

Publication Publication Date Title
US11887582B2 (en) Training and testing utterance-based frameworks
KR101151571B1 (ko) 음성 대화 시스템을 위한 음성 인식 환경 제어 장치 및 그 방법
US11823670B2 (en) Activation trigger processing
CN111566729B (zh) 用于远场和近场声音辅助应用的利用超短语音分段进行的说话者标识
US9514747B1 (en) Reducing speech recognition latency
US8775191B1 (en) Efficient utterance-specific endpointer triggering for always-on hotwording
US9159319B1 (en) Keyword spotting with competitor models
US9443527B1 (en) Speech recognition capability generation and control
US9818407B1 (en) Distributed endpointing for speech recognition
US8762144B2 (en) Method and apparatus for voice activity detection
US9613624B1 (en) Dynamic pruning in speech recognition
US9911411B2 (en) Rapid speech recognition adaptation using acoustic input
GB2551209A (en) Voice user interface
GB2563952A (en) Speaker identification
US20140214414A1 (en) Dynamic audio processing parameters with automatic speech recognition
KR20100027865A (ko) 화자 및 음성 인식 장치 및 그 방법
JP5431282B2 (ja) 音声対話装置、方法、プログラム
US12080276B2 (en) Adapting automated speech recognition parameters based on hotword properties
KR101529918B1 (ko) 다중 스레드를 이용한 음성 인식 장치 및 그 방법
KR101304127B1 (ko) 음성 신호를 이용한 화자 인식 장치 및 그 방법
KR100622019B1 (ko) 음성 인터페이스 시스템 및 방법
JP2019191477A (ja) 音声認識装置及び音声認識方法
JP2019002997A (ja) 音声認識装置および音声認識方法
EP2760019A9 (en) Dynamic audio processing parameters with automatic speech recognition
JP2008225001A (ja) 音声認識装置および音声認識方法,音声認識用プログラム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee