KR101095865B1 - 발화 검증 장치 및 그 방법 - Google Patents

발화 검증 장치 및 그 방법 Download PDF

Info

Publication number
KR101095865B1
KR101095865B1 KR1020090026297A KR20090026297A KR101095865B1 KR 101095865 B1 KR101095865 B1 KR 101095865B1 KR 1020090026297 A KR1020090026297 A KR 1020090026297A KR 20090026297 A KR20090026297 A KR 20090026297A KR 101095865 B1 KR101095865 B1 KR 101095865B1
Authority
KR
South Korea
Prior art keywords
subword
word
likelihood ratio
likelihood
speech
Prior art date
Application number
KR1020090026297A
Other languages
English (en)
Other versions
KR20100062824A (ko
Inventor
정훈
이윤근
박전규
정호영
전형배
이성주
강점자
정의석
왕지현
김종진
강병옥
박기영
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Publication of KR20100062824A publication Critical patent/KR20100062824A/ko
Application granted granted Critical
Publication of KR101095865B1 publication Critical patent/KR101095865B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 입력 음성에 대한 신뢰성 있는 인식 결과를 출력한다는 것으로, 이를 위하여 본 발명은, 입력 음성의 단어에 대한 서브 워드별 우도비를 이용하여 발화 검증을 수행하는 종래 방법과는 달리, 입력 음성 단어에 대한 서브 워드별 우도비에 인식 신뢰도에 따른 우도비 가중치를 적용한 후, 이를 취합하여 단어의 발화 검증을 수행하거나 입력 음성 단어에 대한 서브 워드별 우도비를 이용하여 각 서브 워드별로 부분 발화 검증을 수행한 후, 단어의 전체 발화 검증을 수행함으로써, 입력 음성에 대한 인식 결과의 신뢰도를 향상시킬 수 있는 것이다.
음성 인식, 우도비, 발화 검증

Description

발화 검증 장치 및 그 방법{UTTERANCE VERIFICATION APPARATUS AND ITS METHOD}
본 발명은 발화 검증 기법에 관한 것으로, 더욱 상세하게는 입력된 음성에 대해 인식된 단어에 대한 신뢰도를 측정하여 발화 검증을 수행하는데 적합한 발화 검증 장치 및 그 방법에 관한 것이다.
본 발명은 지식경제부 및 정보통신연구진흥원의 IT 성장동력 핵심기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2006-S-036-03, 과제명: 신성장동력산업용 대용량 대화형 분산 처리 음성인터페이스 기술개발].
잘 알려진 바와 같이, 발화 검증은 입력된 음성 신호에 대해 인식된 결과가 사용자가 실제로 발성한 단어인지를 판단하여 인식 결과의 출력 여부를 결정하는 기법이다.
이러한 발화 검증은, 인식 결과의 신뢰도 측정하고, 인식 결과의 출력 여부를 결정하는 방식으로 수행되는데, 사용자가 발성하여 입력된 음성에 대한 인식 결과가 어느 정도 신뢰도를 지니는지 측정한 후에, 측정된 신뢰도를 기반으로 하여 인식 결과의 출력 여부를 결정하는 과정을 수행한다.
특히, 은닉 마코프 모델 기반의 음성 인식 장치에서는 인식된 단어(W)의 신뢰도를 음성 신호(O)에 대한 사후 확률(P(W|O))로 정의하지만, 사후 확률(P(W|O))을 신뢰도 값으로 사용하는 것은 현실적으로 어려워 아래의 수학식 1과 같이 단어(W)의 우도값(likelihood)과 반 단어(anti-word, Wa)에 대한 우도값의 비인 우도비(likelihood ratio)를 사용한다.
Figure 112009018523956-pat00001
여기에서, Wa를 반 단어(anti-word) 모델이라 하며, 이러한 반 단어 모델은 단어(W)가 아니면서 음성 신호(O)를 가장 잘 표현하는 대안(alternative) 단어를 의미한다.
그러나, 반 단어를 정확히 선정한다는 것은 입력된 음성 신호가 어떤 단어인지 미리 아는 경우에만 가능하기 때문에, 정확한 반 단어의 선정은 매우 어려운 문제이다.
따라서, 상기한 수학식 1에서 정의된 우도비 값은 아래의 수학식 2와 같이 단어(W)를 구성하는 서브 워드(sub-word)들의 우도비의 곱으로 근사화되는데, 이 과정에서는 서브 워드 모델 간의 통계적 독립 가정이 사용되고, 반 음소(anti-phone) 모델이 사용된다.
Figure 112009018523956-pat00002
즉, 단어(W)가 N개의 서브 워드들(S 1 , S 2 , ... , S N )로 구성되어 있고, 각 서브 워드에 대응하는 음성 세그먼트가 (O 1 , O 2 , ... , O N )일 경우, 상기 수학식 1을 상기 수학식 2와 같이 근사화가 가능하며, 이 때 서브 워드 aj를 sj의 반 음소 모델이라 한다.
아래의 수학식 3은 반 단어 기반의 발화 검증에서 사용되는 결정 함수(decision function) U를 나타내는데, 단어(W)의 우도비(T(O;W))가 주어진 문턱값 γ보다 크거나 같으면, 인식 결과 출력을 허용하고, 단어(W)의 우도비(T(O;W))가 주어진 문턱값 γ보다 작으면, 인식 결과 출력을 거부한다.
Figure 112009018523956-pat00003
예를 들면, 도 1은 종래에 따라 입력 음성의 서브 워드에 대한 우도비를 계산하여 해당 단어의 발화 검증을 수행하는 것을 예시한 도면으로, "학교"라는 음성이 입력되면, 그 단어를 예를 들면, ㅎ, ㅏ, ㄱ, ㄱ, ㅛ와 같은 서브 워드로 분리하고, 각 서브 워드에 대한 우도비를 상기 수학식 1을 이용하여 계산하며, 이를 취합하여 그 단어에 대한 우도비를 계산한 후, 상기 수학식 3을 이용하여 그 단어에 대한 발화 검증을 수행하고, 선택적으로 그 인식 결과를 출력한다.
상술한 바와 같은 반 단어 기반의 발화 검증은 단어(W)에 대한 우도비(T(O;W))를 구함에 있어 서브 워드의 우도비가 동일한 가중치로 적용되지만, 서브 워드는 음향학적 특성, 은닉 마코프 모델의 모델링 한계 등과 같은 원인에 의해서 서로 다른 인식 신뢰도 혹은 우도비 신뢰도를 가지게 되는 문제점이 있었다.
예를 들어 음소를 서브 워드 단위로 사용할 경우 자음의 인식 신뢰도는 모음에 비해 일반적으로 낮기 때문에, 발화 검증에 따른 인식 결과에 대한 신뢰도를 감소시키는 문제점이 있었다.
본 발명은 인식 신뢰도에 대한 가중치를 서브 워드 우도비에 적용하여 발화 검증에 따른 신뢰도를 향상시킬 수 있는 음성 인식 장치 및 그 방법을 제공하고자 한다.
또한, 본 발명은 각 서브 워드 우도비에 대한 발화 검증을 수행한 후, 그에 대응하는 단어의 발화 검증을 수행하여 인식 결과에 대한 신뢰도를 향상시킬 수 있는 음성 인식 장치 및 그 방법을 제공하고자 한다.
제 1 관점에서 본 발명은, 입력 음성에 대응하는 단어를 서브 워드로 분리하는 서브 워드 분리부와, 상기 분리된 서브 워드에 대한 서브 워드 우도비를 각각 계산하는 서브 워드 우도비 계산부와, 상기 각각 계산된 서브 워드 우도비에 대해 인식 신뢰도에 따른 우도비 가중치를 적용하는 우도비 가중치 적용부와, 상기 우도비 가중치가 적용된 상기 서브 워드 우도비를 이용하여 단어 우도비를 계산하는 단어 우도비 계산부와, 상기 계산된 단어 우도비를 이용하여 발화 검증을 수행한 후, 상기 단어의 출력 여부를 선택 결정하는 발화 검증 결정부를 포함하는 발화 검증 장치를 제공한다.
제 2 관점에서 본 발명은, 입력 음성에 대응하는 단어를 서브 워드로 분리하는 단계와, 상기 분리된 서브 워드에 대한 서브 워드 우도비를 각각 계산하는 단계와, 상기 각각 계산된 서브 워드 우도비에 대해 인식 신뢰도에 따른 우도비 가중치를 적용하는 단계와, 상기 우도비 가중치가 적용된 상기 서브 워드 우도비를 이용하여 단어 우도비를 계산하는 단계와, 상기 계산된 단어 우도비를 이용하여 발화 검증을 수행한 후, 상기 단어의 출력 여부를 선택 결정하는 단계를 포함하는 발화 검증 방법을 제공한다.
제 3 관점에서 본 발명은, 입력 음성에 대응하는 단어를 서브 워드로 분리하는 서브 워드 분리부와, 상기 분리된 서브 워드에 대한 서브 워드 우도비를 각각 계산하는 서브 워드 우도비 계산부와, 상기 각각 계산된 서브 워드 우도비를 이용하여 서브 워드별로 부분 발화 검증을 수행하는 서브 워드 발화 검증부와, 상기 수행된 발화 검증에 대한 결과값을 이용하여 상기 단어에 대한 전체 발화 검증을 수행하는 발화 검증 결정부를 포함하는 발화 검증 장치를 제공한다.
제 4 관점에서 본 발명은, 입력 음성에 대응하는 단어를 서브 워드로 분리하는 단계와, 상기 분리된 서브 워드에 대한 서브 워드 우도비를 각각 계산하는 단계 와, 상기 각각 계산된 서브 워드 우도비를 이용하여 서브 워드별로 부분 발화 검증을 수행하는 단계와, 상기 수행된 발화 검증에 대한 결과값을 이용하여 상기 단어에 대한 전체 발화 검증을 수행한 후, 상기 단어의 출력 여부를 선택 결정하는 단계를 포함하는 발화 검증 방법을 제공한다.
본 발명은, 입력 음성의 단어에 대한 서브 워드별 우도비를 이용하여 발화 검증을 수행하는 종래 방법과는 달리, 인식 신뢰도에 따른 우도비 가중치를 서브 워드 우도비에 적용하여 신뢰성있는 단어의 발화 검증을 수행하거나, 각 서브 워드별로 부분 발화 검증을 수행한 후, 단어에 대한 전체 발화 검증을 수행함으로써, 음성 인식 결과에 대한 신뢰성을 향상시킬 수 있으며, 이에 따라 발화 검증 장치의 성능을 향상시킬 수 있다.
본 발명은, 입력된 음성에 대한 단어의 서브 워드별 우도비를 계산하고, 인식 신뢰도에 따른 우도비 가중치를 적용하며, 이를 이용하여 단어 우도비를 계산한 후, 단어의 발화 검증 및 단어의 선택 결정을 수행하거나 단어의 서브 워드별 우도비를 계산하고, 각 서브 워드에 대한 부분 발화 검증을 수행한 후, 그 결과에 대한 전체 발화 검증 및 단어의 선택 결정을 수행한다는 것이며, 이러한 기술적 수단을 통해 종래 기술에서의 문제점을 해결할 수 있다.
이하 첨부된 도면을 참조하여 본 발명의 실시 예에 대하여 상세하게 설명한다.
도 2는 본 발명의 일 실시 예에 따라 우도비 가중치를 적용하여 발화 검증을 수행하는데 적합한 발화 검증 장치의 블록 구성도로서, 서브 워드 분리부(202), 서브 워드 우도비 계산부(204), 우도비 가중치 적용부(206), 단어 우도비 계산부(208), 발화 검증 결정부(210) 등을 포함할 수 있다.
도 2를 참조하면, 서브 워드 분리부(202)는 입력된 음성 신호를 인식한 단어를 서브 워드로 분리하여 서브 워드 우도비 계산부(204)로 전달한다.
그리고, 서브 워드 우도비 계산부(204)는 분리된 각 서브 워드에 대한 서브 워드 우도비를 계산하여 그 우도비 값을 우도비 가중치 적용부(206)로 전달한다. 여기에서, 서브 워드 우도비는 서브 워드의 우도값과 반 음소의 우도값을 이용하여 산출할 수 있다.
다음에, 우도비 가중치 적용부(206)는 인식 신뢰도에 따른 가중치가 적용된 서브 워드별 우도비를 계산하여 그 우도비 값을 단어 우도비 계산부(208)로 전달한다.
여기에서, 서브 워드별 우도비에 대한 가중치 적용에 대해 상세히 설명하면, 아래의 수학식 4를 이용하여 단어(W)에 대한 우도비를 서브 워드별 우도비에 가중치를 적용한다.
Figure 112009018523956-pat00004
여기에서, w j 는 서브 워드 s j 의 신뢰도에 대한 가중치가 되며, 가중치 w j 는 인식 신뢰도로서, 아래의 수학식 5와 같은 서브 워드의 정인식 확률로 정의할 수 있다.
Figure 112009018523956-pat00005
여기에서, 아래의 수학식 6의 서브 워드별 정인식 확률 Pr(s j |s j )을 구하는 과정에 대해 설명하면, 미리 준비된 음성 데이터에 대해 음소 인식기를 이용하여 해당하는 음소열을 추출 및 인식하고, 인식된 음소열을 기준 음소열과 동적 프로그램을 통해 정렬한 후에 동일한 인식 오류별로 수집한 후, 음소의 혼동 확률을 갱신하는 이러한 일련의 과정을 음소의 혼동 확률의 갱신이 이루어지지 않을 때까지 반복 수행하고, 혼동 확률에 대한 정인식 확률에 해당하는 부분을 가중치로 사용할 수 있다. 여기에서, 음소열에는 정인식을 포함한 대체, 추가, 삭제 오류가 포함될 수 있다.
Figure 112009018523956-pat00006
한편, 단어 우도비 계산부(208)는 우도비 가중치가 적용된 서브 워드별 우도비를 이용하여 해당 단어의 단어 우도비를 계산하고, 그 우도비 값을 발화 검증 결정부(210)로 전달한다. 여기에서, 단어 우도비는 단어의 우도값과 반 단어에 대한 우도값을 이용하여 산출할 수 있다.
그리고, 발화 검증 결정부(210)는 단어 우도비에 대한 발화 검증을 수행하여 그에 따라 입력된 음성 신호에 대응하는 단어를 결정한 후 그 인식 결과를 출력한다. 즉, 단어의 우도비가 기 설정된 문턱값보다 크거나 같으면, 인식 결과 출력을 허용하고, 단어의 우도비가 기 설정된 문턱값보다 작으면, 인식 결과 출력을 거부할 수 있다.
다음에, 상술한 바와 같은 구성을 갖는 발화 검증 장치를 이용하여 입력된 음성 신호에 따른 단어를 서브 워드로 분리하고, 각 서브 워드 우도비를 계산하며, 인식 신뢰도에 따른 가중치를 적용한 후, 단어 우도비를 계산하고, 이에 따라 발화 검증을 수행하여 결정된 단어를 출력하는 과정에 대해 설명한다.
도 3은 본 발명의 일 실시 예에 따라 우도비 가중치를 적용하여 발화 검증을 수행하는 과정을 도시한 플로우차트이다.
도 3을 참조하면, 발화 검증 장치에 음성이 입력되면(단계302), 서브 워드 분리부(202)에서는 입력된 음성 신호를 인식한 단어를 서브 워드로 분리한다(단계(304).
그리고, 서브 워드 우도비 계산부(204)에서는 분리된 각 서브 워드에 대한 우도비를 계산한다(단계306). 여기에서, 서브 워드 우도비는 서브 워드의 우도값과 반 음소의 우도값을 이용하여 산출할 수 있다.
다음에, 우도비 가중치 적용부(206)에서는 인식 신뢰도에 따른 가중치를 계산한다(단계308). 여기에서, 인식 신뢰도에 따른 가중치의 경우 미리 준비된 음성 데이터에 대해 음소 인식기를 이용하여 해당하는 음소열을 추출 및 인식하고, 인식된 음소열을 기준 음소열과 동적 프로그램을 통해 정렬하며, 동일한 인식 오류별로 수집한 후, 음소의 혼동 확률을 갱신하는 이러한 일련의 과정을 음소의 혼동 확률의 갱신이 이루어지지 않을 때까지 반복 수행하여 혼동 확률에 대한 정인식 확률을 그 가중치로 사용할 수 있다.
또한, 우도비 가중치 적용부(206)에서는 서브 워드별 우도비에 대해 인식 신뢰도에 따른 가중치를 적용한다(단계310).
그리고, 단어 우도비 계산부(208)에서는 우도비 가중치가 적용된 서브 워드별 우도비를 이용하여 해당 단어의 우도비를 계산한다(단계312). 여기에서, 단어 우도비는 단어의 우도값과 반 단어에 대한 우도값을 이용하여 산출할 수 있다.
이어서, 발화 검증 결정부(210)에서는 단어 우도비에 대한 발화 검증을 수행 하여 그에 따라 음성 신호에 대응하는 단어를 결정한다(단계314). 이에 따라, 단어의 우도비가 기 설정된 문턱값보다 크거나 같으면, 인식 결과 출력을 허용하고, 단어의 우도비가 기 설정된 문턱값보다 작으면, 인식 결과 출력을 거부할 수 있다.
일 예로서, 도 4는 본 발명의 일 실시 예에 따른 서브 워드의 우도비 가중치를 이용하여 발화 검증을 수행한 것을 예시한 도면으로, "학교"라는 음성이 입력되면, 그 단어를 예를 들면, ㅎ, ㅏ, ㄱ, ㄱ, ㅛ와 같은 서브 워드로 분리하고, 각 서브 워드에 대한 우도비를 계산하며, 각 서브 워드별 우도비 가중치를 예를 들면, 0.1, 0.31, 0.16, 0.12, 0.31 등으로 계산한 후, 이를 취합하여 그 단어에 대한 우도비를 계산한 후, 그 단어에 대한 발화 검증을 수행하고, 선택적으로 그 인식 결과를 출력할 수 있음을 알 수 있다.
따라서, 입력된 음성을 인식한 단어를 서브 워드로 분리하고, 각 서브 워드의 우도비를 계산하며, 인식 신뢰도에 따른 우도비 가중치를 계산한 후, 그에 따른 단어의 우도비를 계산하고, 이에 따라 발화 검증을 수행하여 그에 대응하는 단어를 결정함으로써, 음성 인식 신뢰도를 향상시킨 음성 인식 결과를 출력할 수 있다.
다음에, 입력된 음성을 인식한 단어를 서브 워드로 분리하고, 각 서브 워드에 대한 우도비를 계산하며, 이에 따른 각 서브 워드별 발화 검증을 수행한 후, 단어에 대한 발화 검증 및 단어를 결정하는 발화 검증 장치에 대해 설명한다.
도 5는 본 발명의 다른 실시 예에 따라 서브 워드별 발화 검증을 수행하는데 적합한 발화 검증 장치의 블록 구성도로서, 서브 워드 분리부(502), 서브 워드 우도비 계산부(504), 서브 워드 발화 검증부(506), 발화 검증 결정부(508) 등을 포함 할 수 있다.
도 5를 참조하면, 서브 워드 분리부(502)는 입력된 음성 신호를 인식한 단어를 서브 워드로 분리하여 서브 워드 우도비 계산부(504)로 전달한다.
그리고, 서브 워드 우도비 계산부(504)는 분리된 각 서브 워드에 대한 우도비를 계산하여 그 우도비 값을 서브 워드 발화 검증부(506)로 전달한다. 여기에서, 서브 워드 우도비는 서브 워드의 우도값과 반 음소의 우도값을 이용하여 산출할 수 있으며, 각 서브 워드에 대한 우도비 가중치를 적용하여 그 서브 워드별 우도비를 계산할 수 있다.
또한, 서브 워드 발화 검증부(506)는 각 서브 워드에 대한 우도비를 이용하여 각 서브 워드에 대한 발화 검증을 수행하여 그 결과를 발화 검증 결정부(508)에 전달한다.
여기에서, 각 서브 워드에 대한 발화 검증에 대해 상세히 설명하면, 서브 워드들은 서로 다른 사전 정인식 혹은 신뢰도 특성을 지니고 있으며, 은닉 마코프 모델의 가정에 의해 서브 워드 모델간에는 통계적 독립 특성이 존재하는데, 서브 워드 모델간의 통계적 독립 특성을 확장하여 서브 워드에 대한 부분 결정(local decision)이 독립적으로 발생한다고 가정하고, 단어(W) 단위의 발화 검증 결정을 수행하지 않고, 단어(W)를 구성하는 N개의 서브 워드들에 서로 독립적인 N번의 서브 워드 단위의 발화 검증을 수행하며, 이 결과를 취합한 단어 단위의 발화 검증을 수행한다.
아래의 수학식 7은 서브 워드별 부분 결정(local decision)에 기반으로 한 발화 검증을 나타내며, 연결정 함수(soft-decision function, d i ( ) )는 단어(W)의 i번째 서브 워드 우도비(y i )에 대해 부분 발화 검증을 수행하고, 그 결과로 0.0 내지 1.0사이의 값(u i )을 출력하며, 1.0에 가까울수록 신뢰도가 높은 결정임을 의미하고, N개의 서브 워드 부분 발화 검증으로 출력된 결과는 단어 발화 검증 결정 함수의 입력으로 사용됨으로써, 최종 발화 검증은 이를 이용한 전체 결정 함수(global decision function, d 0 (U) )에 의해 결정된다.
Figure 112009018523956-pat00007
여기에서, 부분 결정 함수들, d 0 , d 1 , ... , d N 을 인식 신뢰도를 가중치로 적용하고, 정규화를 수행할 수 있도록 정의해야 하는데, 아래의 수학식 8에서 정의된 시그모이드 함수(sigmoid function)를 이용하여 부분 결정 함수를 정의한다.
즉, 1번부터 N번까지의 서브 워드에 대한 부분 결정(local decision)은 시그모이드 함수를 이용하여 수행하고, N개의 서브 워드 결정 결과를 취합하는 전체 결정 함수( d 0 (U) )는 문턱값 기반으로 하여 수행할 수 있다.
Figure 112009018523956-pat00008
한편, 발화 검증 결정부(508)는 서브 워드별로 발화 검증된 결과를 이용하여 단어에 대한 발화 검증을 수행하여 그에 따라 입력된 음성 신호에 대응하는 단어를 결정한 후 그 인식 결과에 따라 선택적으로 출력한다. 즉, 단어에 대한 전체 결정 함수값이 기 설정된 문턱값보다 크거나 같으면, 인식 결과 출력을 허용하고, 단어에 대한 전체 결정 함수값이 기 설정된 문턱값보다 작으면, 인식 결과 출력을 거부할 수 있다.
다음에, 상술한 바와 같은 구성을 갖는 발화 검증 장치를 이용하여 입력된 음성 신호에 따른 단어를 서브 워드로 분리하고, 각 서브 워드에 대한 발화 검증을 수행한 후, 단어 우도비에 따른 발화 검증을 수행하여 결정된 단어를 출력하는 과정에 대해 설명한다.
도 6은 본 발명의 다른 실시 예에 따라 서브 워드별 발화 검증을 수행하는 과정을 도시한 플로우차트이다.
도 6을 참조하면, 발화 검증 장치에 음성 신호가 입력되면(단계602), 서브 워드 분리부(502)에서는 입력된 음성 신호를 인식한 단어를 서브 워드로 분리한다(단계604).
그리고, 서브 워드 우도비 계산부(504)에서는 분리된 각 서브 워드에 대한 우도비를 계산한다(단계606). 여기에서, 서브 워드 우도비는 서브 워드의 우도값과 반 음소의 우도값을 이용하여 산출할 수 있으며, 각 서브 워드에 대한 우도비는 서브 워드별 우도비 가중치를 적용하여 계산할 수 있다.
또한, 서브 워드 발화 검증부(506)에서는 각 서브 워드에 대한 우도비를 이용하여 각 서브 워드에 대한 발화 검증을 수행한다(단계608). 여기에서, 각 서브 워드에 대한 발화 검증의 경우 서브 워드에 대한 부분 결정이 독립적으로 발생한다고 가정하고, 단어(W)를 구성하는 N개의 서브 워드들에 서로 독립적인 N번의 서브 워드 단위의 발화 검증을 수행하며, 이 결과를 취합한 단어 단위의 발화 검증을 수행는데, 상기 수학식 7을 이용하여 단어(W)를 구성하는 각 서브 워드 우도비에 대해 부분 발화 검증을 수행할 수 있으며, 그 결과로 0.0 내지 1.0사이의 값을 출력하고, 그 결과는 단어 발화 검증 결정 함수의 입력으로 사용할 수 있다.
한편, 발화 검증 결정부(508)에서는 서브 워드별로 발화 검증된 결과를 이용하여 단어에 대한 발화 검증을 수행하고, 그에 따라 입력된 음성 신호에 대응하는 단어를 선택 결정한다(단계610). 즉, 단어에 대한 전체 결정 함수값이 기 설정된 문턱값보다 크거나 같으면, 인식 결과 출력을 허용하고, 단어에 대한 전체 결정 함수값이 기 설정된 문턱값보다 작으면, 인식 결과 출력을 거부할 수 있다.
여기에서, 최종 발화 검증은 부분 발화 검증을 수행한 결과를 이용한 전체 결정 함수에 의해 결정되는데, 부분 결정 함수들에 대해 인식 신뢰도를 가중치로 적용하고, 정규화를 수행할 수 있도록 상기 수학식 8에 따른 시그모이드 함수를 이용하여 부분 결정 함수를 정의함으로써, 1번부터 N번까지의 서브 워드에 대한 부분 결정(즉, 각 서브 워드의 발화 검증)은 시그모이드 함수를 이용하여 수행하고, N개의 서브 워드 결정 결과를 취합하는 전체 결정 함수는 문턱값 기반으로 하여 단어의 발화 검증을 수행할 수 있다.
일 예로서, 도 7은 본 발명의 다른 실시 예에 따른 각 서브 워드의 발화 검증을 이용하여 단어의 발화 검증을 수행한 것을 예시한 도면으로, "학교"라는 음성이 입력되면, 그 단어를 예를 들면, ㅎ, ㅏ, ㄱ, ㄱ, ㅛ와 같은 서브 워드로 분리하고, 각 서브 워드에 대한 우도비를 계산하며, 각 서브 워드별 발화 검증을 수행한 후, 이를 취합하여 그 단어에 대한 발화 검증을 수행하고, 그에 대응하는 인식 결과를 출력할 수 있음을 알 수 있다.
따라서, 입력된 음성을 인식하는 단어를 서브 워드로 분리하고, 분리된 각 서브 워드의 우도비를 계산한 후, 이러한 각 서브 워드에 대한 발화 검증을 수행하고, 이를 기반으로 단어에 대한발화 검증을 수행함으로써, 그 신뢰성있는 인식 결과를 출력할 수 있다.
이상의 설명에서는 본 발명의 다양한 실시 예들을 제시하여 설명하였으나 본 발명이 반드시 이에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능함을 쉽게 알 수 있을 것이다.
도 1은 종래에 따라 입력 음성의 서브 워드에 대한 우도비를 계산하여 해당 단어의 발화 검증을 수행하는 것을 예시한 도면,
도 2는 본 발명의 일 실시 예에 따라 우도비 가중치를 적용하여 발화 검증을 수행하는데 적합한 발화 검증 장치의 블록 구성도,
도 3은 본 발명의 일 실시 예에 따라 우도비 가중치를 적용하여 발화 검증을 수행하는 과정을 도시한 플로우차트,
도 4는 본 발명의 일 실시 예에 따른 서브 워드의 우도비 가중치를 이용하여 발화 검증을 수행한 것을 예시한 도면,
도 5는 본 발명의 다른 실시 예에 따라 서브 워드별 발화 검증을 수행하는데 적합한 발화 검증 장치의 블록 구성도,
도 6은 본 발명의 다른 실시 예에 따라 서브 워드별 발화 검증을 수행하는 과정을 도시한 플로우차트,
도 7은 본 발명의 다른 실시 예에 따른 각 서브 워드의 발화 검증을 이용하여 단어의 발화 검증을 수행한 것을 예시한 도면.
<도면의 주요부분에 대한 부호의 설명>
202 : 서브 워드 분리부 204 : 서브 워드 우도비 계산부
206 : 우도비 가중치 적용부 208 : 단어 우도비 계산부
210 : 발화 검증 결정부 502 : 서브 워드 분리부
504 : 서브 워드 우도비 계산부 506 : 서브 워드 발화 검증부
508 : 발화 검증 결정부

Claims (20)

  1. 입력 음성에 대응하는 단어를 서브 워드로 분리하는 서브 워드 분리부와,
    상기 분리된 서브 워드에 대한 서브 워드 우도비를 각각 계산하는 서브 워드 우도비 계산부와,
    상기 각각 계산된 서브 워드 우도비에 대해 인식 신뢰도에 따른 우도비 가중치를 적용하는 우도비 가중치 적용부와,
    상기 우도비 가중치가 적용된 상기 서브 워드 우도비를 이용하여 단어 우도비를 계산하는 단어 우도비 계산부와,
    상기 계산된 단어 우도비를 이용하여 발화 검증을 수행한 후, 상기 단어의 출력 여부를 선택 결정하는 발화 검증 결정부
    를 포함하는 발화 검증 장치.
  2. 제 1 항에 있어서,
    상기 서브 워드 우도비 계산부는, 상기 분리된 서브 워드의 우도값과 반 음소 모델에 대한 우도값을 이용하여 상기 서브 워드 우도비를 산출하는 발화 검증 장치.
  3. 제 1 항에 있어서,
    상기 우도비 가중치 적용부는, 음성 인식기를 통해 인식된 음성 데이터의 음 소열을 기준 음소열과 정렬하여 인식 오류에 따른 음소의 혼동 확률을 갱신되지 않을 때까지 반복 갱신하고, 그 결과에 따른 상기 혼동 확률의 정인식 확률을 상기 우도비 가중치로 이용하는 발화 검증 장치.
  4. 제 1 항에 있어서,
    상기 단어 우도비 계산부는, 상기 단어의 우도값과 반 단어 모델의 우도값을 이용하여 상기 단어 우도비를 산출하는 발화 검증 장치.
  5. 제 1 항에 있어서,
    상기 발화 검증 결정부는, 상기 단어 우도비가 기 설정된 문턱값보다 크거나 같으면, 인식 결과를 출력하고, 상기 단어 우도비가 기 설정된 문턱값보다 작으면, 상기 인식 결과의 출력을 거부하는 발화 검증 장치.
  6. 입력 음성에 대응하는 단어를 서브 워드로 분리하는 단계와,
    상기 분리된 서브 워드에 대한 서브 워드 우도비를 각각 계산하는 단계와,
    상기 각각 계산된 서브 워드 우도비에 대해 인식 신뢰도에 따른 우도비 가중치를 적용하는 단계와,
    상기 우도비 가중치가 적용된 상기 서브 워드 우도비를 이용하여 단어 우도비를 계산하는 단계와,
    상기 계산된 단어 우도비를 이용하여 발화 검증을 수행한 후, 상기 단어의 출력 여부를 선택 결정하는 단계
    를 포함하는 발화 검증 방법.
  7. 제 6 항에 있어서,
    상기 서브 워드 우도비를 각각 계산하는 단계는, 상기 분리된 서브 워드의 우도값과 반 음소 모델에 대한 우도값을 이용하여 상기 서브 워드 우도비를 산출하는 발화 검증 방법.
  8. 제 6 항에 있어서,
    상기 우도비 가중치를 적용하는 단계는,
    인식된 음성 데이터의 음소열을 기준 음소열과 정렬하는 단계와,
    상기 정렬 단계 후에 동일한 인식 오류에 따른 음소의 혼동 확률을 갱신하는 단계와,
    상기 혼동 확률이 갱신되지 않을 때까지 반복 수행하는 단계와,
    상기 반복 수행한 결과 상기 혼동 확률의 정인식 확률을 상기 우도비 가중치로 적용하는 단계
    를 포함하는 발화 검증 방법.
  9. 제 6 항에 있어서,
    상기 단어 우도비를 계산하는 단계는, 상기 단어의 우도값과 반 단어 모델의 우도값을 이용하여 상기 단어 우도비를 산출하는 발화 검증 방법.
  10. 제 6 항에 있어서,
    상기 단어의 출력 여부를 선택 결정하는 단계는, 상기 단어 우도비가 기 설정된 문턱값보다 크거나 같으면, 인식 결과를 출력하고, 상기 단어 우도비가 기 설정된 문턱값보다 작으면, 상기 인식 결과의 출력을 거부하는 발화 검증 방법.
  11. 입력 음성에 대응하는 단어를 서브 워드로 분리하는 서브 워드 분리부와,
    상기 분리된 서브 워드에 대한 서브 워드 우도비를 각각 계산하는 서브 워드 우도비 계산부와,
    상기 각각 계산된 서브 워드 우도비를 이용하여 서브 워드별로 부분 발화 검증을 수행하는 서브 워드 발화 검증부와,
    상기 수행된 발화 검증에 대한 결과값을 이용하여 상기 단어에 대한 전체 발화 검증을 수행하는 발화 검증 결정부
    를 포함하는 발화 검증 장치.
  12. 제 11 항에 있어서,
    상기 서브 워드 우도비 계산부는, 상기 분리된 서브 워드의 우도값과 반 음소 모델에 대한 우도값을 이용하여 상기 서브 워드 우도비를 산출하는 발화 검증 장치.
  13. 제 12 항에 있어서,
    상기 서브 워드 우도비 계산부는, 상기 서브 워드 우도비에 대해 인식 신뢰도에 따른 우도비 가중치를 적용하는 발화 검증 장치.
  14. 제 11 항에 있어서,
    상기 서브 워드 발화 검증부는, 상기 서브 워드 우도비를 이용한 연결정 함수를 통해 상기 부분 발화 검증을 수행하는 발화 검증 장치.
  15. 제 11 항에 있어서,
    상기 발화 검증 결정부는, 상기 전체 발화 검증에 따라 상기 단어의 출력 여부를 선택 결정하는 발화 검증 장치.
  16. 제 15 항에 있어서,
    상기 발화 검증 결정부는, 상기 전체 발화 검증에 대응하는 전체 결정 함수값이 기 설정된 문턱값보다 크거나 같으면, 인식 결과를 출력하고, 상기 전체 발화 검증에 대응하는 전체 결정 함수값이 기 설정된 문턱값보다 작으면, 상기 인식 결과의 출력을 거부하는 발화 검증 장치.
  17. 입력 음성에 대응하는 단어를 서브 워드로 분리하는 단계와,
    상기 분리된 서브 워드에 대한 서브 워드 우도비를 각각 계산하는 단계와,
    상기 각각 계산된 서브 워드 우도비를 이용하여 서브 워드별로 부분 발화 검증을 수행하는 단계와,
    상기 수행된 발화 검증에 대한 결과값을 이용하여 상기 단어에 대한 전체 발화 검증을 수행한 후, 상기 단어의 출력 여부를 선택 결정하는 단계
    를 포함하는 발화 검증 방법.
  18. 제 17 항에 있어서,
    상기 서브 워드 우도비를 각각 계산하는 단계는, 상기 서브 워드 우도비에 대해 인식 신뢰도에 따른 우도비 가중치를 적용하는 발화 검증 방법.
  19. 제 17 항에 있어서,
    상기 부분 발화 검증을 수행하는 단계는, 상기 서브 워드 우도비를 이용한 연결정 함수를 통해 상기 부분 발화 검증을 수행하는 발화 검증 방법.
  20. 제 17 항에 있어서,
    상기 단어의 출력 여부를 선택 결정하는 단계는, 상기 전체 발화 검증에 대응하는 전체 결정 함수값이 기 설정된 문턱값보다 크거나 같으면, 인식 결과를 출력하고, 상기 전체 발화 검증에 대응하는 전체 결정 함수값이 기 설정된 문턱값보다 작으면, 상기 인식 결과의 출력을 거부하는 발화 검증 방법.
KR1020090026297A 2008-12-01 2009-03-27 발화 검증 장치 및 그 방법 KR101095865B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020080120787 2008-12-01
KR20080120787 2008-12-01

Publications (2)

Publication Number Publication Date
KR20100062824A KR20100062824A (ko) 2010-06-10
KR101095865B1 true KR101095865B1 (ko) 2011-12-21

Family

ID=42363029

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090026297A KR101095865B1 (ko) 2008-12-01 2009-03-27 발화 검증 장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR101095865B1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101444411B1 (ko) * 2011-12-15 2014-10-01 한국전자통신연구원 발화검증 기반 대용량 음성 데이터 자동 처리 장치 및 방법
KR101637843B1 (ko) * 2015-07-24 2016-07-08 중앙대학교 산학협력단 외국어 교육의 초보자를 위한 발음 학습 장치 및 방법
KR102429891B1 (ko) * 2020-11-05 2022-08-05 엔에이치엔 주식회사 음성 인식 장치 및 그것의 동작 방법

Also Published As

Publication number Publication date
KR20100062824A (ko) 2010-06-10

Similar Documents

Publication Publication Date Title
US9224386B1 (en) Discriminative language model training using a confusion matrix
US7571098B1 (en) System and method of spoken language understanding using word confusion networks
CN113470662A (zh) 生成和使用用于关键词检出系统的文本到语音数据和语音识别系统中的说话者适配
Li et al. Improving Mispronunciation Detection for Non-Native Learners with Multisource Information and LSTM-Based Deep Models.
CN111640456B (zh) 叠音检测方法、装置和设备
CN109036471B (zh) 语音端点检测方法及设备
CN103559879A (zh) 语种识别系统中声学特征提取方法及装置
KR101317339B1 (ko) 엔베스트 인식 단어 계산량 감소를 위한 2단계 발화검증 구조를 갖는 음성인식 장치 및 방법
Li et al. A study on knowledge source integration for candidate rescoring in automatic speech recognition
KR20070094690A (ko) 음성 신호 분리 시스템 및 그 방법
KR101095865B1 (ko) 발화 검증 장치 및 그 방법
WO2021171956A1 (ja) 話者識別装置、話者識別方法、及び、プログラム
JPH0250198A (ja) 音声認識システム
Mengistu Automatic text independent amharic language speaker recognition in noisy environment using hybrid approaches of LPCC, MFCC and GFCC
Gültekin et al. Turkish dialect recognition using acoustic and phonotactic features in deep learning architectures
Yin et al. Hierarchical language identification based on automatic language clustering
JP4475380B2 (ja) 音声認識装置及び音声認識プログラム
Tang et al. End-to-end mandarin tone classification with short term context information
KR100298177B1 (ko) 음성인식시스템에서의반음소모델구축방법및그를이용한발화검증방법
CN107924677A (zh) 用于异常值识别以移除语音合成中的不良对准的系统和方法
Jalalvand et al. A classifier combination approach for Farsi accents recognition
KR20020045960A (ko) 음성인식에서 핵심어 검출 성능 개선 방법
Lindgren Speech recognition using features extracted from phase space reconstructions
KR101752709B1 (ko) 음성인식시스템에서 발화검증 방법 및 그 음성인식시스템
CN116030793B (zh) 方言识别系统及其训练方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20151211

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20170203

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20171208

Year of fee payment: 7

LAPS Lapse due to unpaid annual fee