KR100366703B1 - 인간 반응형 음성인식장치 - Google Patents

인간 반응형 음성인식장치 Download PDF

Info

Publication number
KR100366703B1
KR100366703B1 KR10-2000-0010876A KR20000010876A KR100366703B1 KR 100366703 B1 KR100366703 B1 KR 100366703B1 KR 20000010876 A KR20000010876 A KR 20000010876A KR 100366703 B1 KR100366703 B1 KR 100366703B1
Authority
KR
South Korea
Prior art keywords
ambiguity
sentence
section
unit
word
Prior art date
Application number
KR10-2000-0010876A
Other languages
English (en)
Other versions
KR20010086902A (ko
Inventor
차선화
최인정
공병구
Original Assignee
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자 주식회사 filed Critical 삼성전자 주식회사
Priority to KR10-2000-0010876A priority Critical patent/KR100366703B1/ko
Publication of KR20010086902A publication Critical patent/KR20010086902A/ko
Application granted granted Critical
Publication of KR100366703B1 publication Critical patent/KR100366703B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit

Abstract

본 발명은 음성 인식 시에 애매성 부분의 해결을 위해 그 애매성에 관련된 내용을 화자에게 되물어보고 그 반응 지식에 의하여 애매성을 해결하는 인간 반응 지식에 의한 음성 인식 기술에 관한 것이다.
본 발명은 본 발명에 의한 인간 반응형 음성인식장치은 아날로그 음성신호를 디지털 데이터로 변환하고 음성 특징들을 추출하는 음성특징추출부; 추출된 음성 특징들에 음향 모델과 언어 모델을 적용하여 하나 이상의 인식 후보 문장들을 생성하는 모델탐색부; 인식 후보 문장들 중 가장 확률값이 높은 문장에 대하여 문장 단위로 애매성 여부를 판정하는 문장단위애매성판정부; 문장단위애매성판정부에 의해 애매성을 포함한 문장으로 판정된 경우, 그 문장 내의 애매성 구간을 추출하는 애매성구간추출부; 추출된 애매성 구간을 해소하기 위한 질문을 생성하는 질문생성부; 및 사용자의 응답을 분석하여 애매성 구간에 대응하는 응답을 추출하여 상기 애매성이 있는 문장의 애매성을 해소하는 사용자응답처리부를 포함한다.
본 발명에 의하면, 생성된 질문에 대한 사용자의 응답을 처리하여 애매성을 해소하는 과정을 거쳐 최종 결과를 냄으로써 음성 인식률의 향상 효과가 있다.

Description

인간 반응형 음성인식장치{Human interactive speech recognition apparatus and method thereof}
본 발명은 음성 인식 기술에 관한 것으로서, 특히 음성 인식 시에 애매성 부분의 해결을 위해 그 애매성에 관련된 내용을 화자에게 되물어보고 그 반응 지식에 의하여 애매성을 해결하는 인간 반응 지식에 의한 음성 인식 기술에 관한 것이다.즉, 본 발명은 사람이 음성을 이해하는 방법을 적용하여 음성인식 결과의 불분명하고 애매한 부분을 해결하는 인간 친화적인 기술이라 할 수 있다.
종래의 기술에 의한 연속어 음성인식 기술에서는 음성인식 결과에 애매성 구간이 있음에도 불구하고 그 애매성을 해소 처리하지 않고 신뢰성이 낮은 결과를 출력하였다. 음향적으로나 의미적으로 애매성 구간을 추정하고 해소하고자 하는 경우에도 시스템 내부 규칙에 의거하여 일방적으로 결정된 결과를 출력하였다. 그런데, 시스템 내부 규칙은 매우 불완전하여 그 결과에 대한 에러 발생률이 높았다.
본 발명은 상기의 문제점을 해결하기 위하여 창작된 것으로서, 음성 인식에 있어서 음향적, 의미적 애매성을 보다 정확히 해소할 수 있는 인간 반응형 음성인식장치 및 그 방법을 제공함을 목적으로 한다.
도 1은 본 발명에 의한 인간 반응형 음성인식장치의 일실시예의 구성을 도시한 블록도이다.
도 2는 본 발명에 의한 인간 반응형 음성인식과정을 도시한 흐름도이다.
도 3은 의미적 애매성 구간을 추정하는 과정을 예시한 것이다.
도 4는 의미적 애매성 구간을 추정하는 다른 과정을 예시한 것이다.
도 5는 한국어 체언의 의미사전에 포함된 내용 중 일부를 예시적으로 도시한 것이다.
도 6은 한국어 용언의 격틀 사전에 포함된 내용 중 일부를 예시적으로 도시한 것이다.
상기의 목적을 달성하기 위하여, 본 발명에 의한 인간 반응형 음성인식장치은 아날로그 음성신호를 디지털 데이터로 변환하고 음성 특징들을 추출하는 음성특징추출부; 추출된 음성 특징들에 음향 모델과 언어 모델을 적용하여 하나 이상의 인식 후보 문장들을 생성하는 모델탐색부; 상기 인식 후보 문장들 중 가장 확률값이 높은 문장에 대하여 문장 단위로 애매성 여부를 판정하는 문장단위애매성판정부; 상기 문장단위애매성판정부에 의해 애매성을 포함한 문장으로 판정된 경우, 그 문장 내의 애매성 구간을 추출하는 애매성구간추출부; 추출된 애매성 구간을 해소하기 위한 질문을 생성하는 질문생성부; 및 사용자의 응답을 분석하여 상기 애매성구간에 대응하는 응답을 추출하여 상기 애매성이 있는 문장의 애매성을 해소하는 사용자응답처리부를 포함한다.
상기의 다른 목적을 달성하기 위하여, 본 발명에 의한 인간 반응형 음성인식방법은 아날로그 음성신호를 디지털 데이터로 변환하고 음성 특징들을 추출하는 음성특징추출단계; 추출된 음성 특징들에 음향 모델과 언어 모델을 적용하여 하나 이상의 인식 후보 문장들을 생성하는 모델탐색단계; 상기 인식 후보 문장들 중 가장 확률값이 높은 문장에 대하여 문장 단위로 애매성 여부를 판정하는 문장단위애매성판정단계; 상기 문장단위애매성판정단계에서 애매성을 포함한 문장으로 판정된 경우, 그 문장 내의 애매성 구간을 추출하는 애매성구간추출단계; 추출된 애매성 구간을 해소하기 위한 질문을 생성하는 질문생성단계; 및 사용자의 응답을 분석하여 상기 애매성 구간에 대응하는 응답을 추출하여 상기 애매성이 있는 문장의 애매성을 해소하는 사용자응답처리단계를 포함한다.
이하에서 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명한다.
도 1에 의하면, 본 발명에 의한 인간 반응형 음성인식장치의 일실시예는 음성특징추출부(10), 모델탐색부(20), 문장단위 애매성 판정부(30), 애매성구간 추출부(40), 질문생성부(50), 및 사용자응답 처리부(60)를 포함하는데, 각 구성요소는 각종 형태의 정보시스템과 그 정보시스템에서 수행되는 소프트웨어의 결합체로서 구성될 수 있다.
음성특징추출부(10)는 아날로그 음성신호를 디지털 데이터로 변환하고 음성특징들을 추출한다.
모델탐색부(20)는 음성특징추출부(10)에 의해 추출된 음성 특징들에 음향 모델(26)과 언어 모델(28)을 적용하여 하나 이상의 인식 후보 문장들을 생성하며, 음향모델탐색부(22) 및 언어모델탐색부(24)를 구비한다. 음향모델탐색부(22)는 음향 모델(26)에서 음성특징에 가장 가까운 음소를 찾아내고, 찾아낸 음소들로부터 단어를 구성하고, 단어별로 그 일치정도를 나타내는 음향모델 확률값을 계산한다. 언어모델탐색부(24)는 언어 모델(28)에서의 단어 사이의 문법적 관계와 통계적 연결관계를 이용하여 다음에 인식되는 단어에 대한 복수개의 단어 후보를 발생시키고 각각에 대하여 언어모델 확률값을 계산한다. 음향 모델(26)과 언어 모델(28)은 정보시스템에서 데이터베이스의 형태로 구성되는 것이 바람직하다.
문장단위애매성판정부(30)는 인식 후보 문장들 중 가장 확률값이 높은 문장에 대하여 문장 단위로 애매성 여부를 판정한다. 즉, 문장단위애매성판정부(30)는 모델탐색부(20)에 의해 계산된 음향모델 확률값과 언어모델 확률값을 이용하여 전체 문장 확률값을 계산하고, 전체 문장 확률값을 그 문장을 구성하는 단어수로 나눈 값이 소정의 문장확률임계값 이하일 경우 애매성을 포함한 문장으로 판정하고, 또한 의미 격틀 분석하여 의미 격이 맞지 않는 문장은 애매성을 포함하는 문장으로 판정한다.
애매성구간추출부(40)는 문장단위애매성판정부(30)에 의해 애매성을 포함한 문장으로 판정된 경우, 그 문장 내의 애매성 구간을 추출한다. 즉, 애매성구간추출부(40)는 애매성을 포함한 문장을 구성하는 단어의 음향모델 확률값이 소정의 음향모델확률임계값 이하인 단어에 대하여, 그 단어 구간을 애매성 구간으로 추정하고, 애매성을 포함한 문장을 구성하는 현재 단어와 다음 단어간의 언어모델 확률값이 소정의 언어모델확률임계값 이하인 경우, 다음 단어 구간을 애매성 구간으로 추정한다. 또한, 애매성구간추출부(40)는 애매성을 포함한 문장을 형태소 분석, 구조 분석 및 의미 격틀 분석하여 의미 격이 맞지 않는 단어 구간을 애매성 구간으로 추정할 수 있다.
질문생성부(50)는 애매성구간추출부(40)에 의해 추출된 애매성 구간을 해소하기 위한 질문을 생성한다. 즉, 질문생성부(50)는 의미 격틀 분석을 하고 용언 격틀 사전(52)과 체언 의미 사전(54)을 이용하여 격틀 구조를 해석하여 애매성을 포함한 문장에서 애매성 구간의 격을 찾고, 음향적 애매성 및 의미적 애매성으로 분류하여 질문을 생성한다. 용언 격틀 사전(52)과 체언 의미 사전(54)은 정보시스템에서 데이터베이스의 형태로 구성되는 것이 바람직하다.
사용자응답처리부(60)는 사용자의 응답을 분석하여 애매성 구간에 대응하는 응답을 추출하여 애매성이 있는 문장의 애매성을 해소한다.
이하에서, 본 발명의 동작내용을 도 2를 참조하여 상세히 설명한다.
먼저, 아날로그 음성신호가 입력된다(100 단계). 입력된 아날로그 음성신호는 디지털 데이터로 변환되고, 변환된 디지털 데이터에서 일정간격(frame)으로 주파수 특성이 추출되어 벡터 수치화되는데, 벡터 수치화된 주파수 특성이 음성 특징으로 사용된다(110 단계).
음성 특징은 음향 모델(26) 내의 각 음소에 대응하는 음성 특징과 그 유사도가 비교되어 가장 가까운 음소가 검색되고, 검색된 음소들로부터 단어가 만들어진다(120 단계).
이후, 언어 모델(28)을 이용하여 현재 단어와 다음에 인식될 단어가 미리 예측된다. 다음에 인식될 단어의 후보는 복수 개가 발생되는데, 이들을 모두 격자구조로 연결되고 문장끝에서 각각의 확률값이 계산되어 하나 이상의 인식 후보 문장들을 생성된다(130 단계).
다음, 인식 후보 문장들 중 가장 확률값이 높은 문장에 대하여 문장 단위로 애매성 여부가 판정된다(140 단계). 가장 확률값이 높은 인식 후보 문장이 애매성없는 문장으로 판정되면, 이 문장이 출력된다(200 단계). 여기서, 문장 단위의 애매성 여부 판정은 확률값에 의한 판정과 의미 격틀 분석에 의한 판정 두 과정에 의해 이루어진다.
확률값에 의한 판정은 다음과 같다. 인식 후보 문장들 중 가장 확률값이 높은 문장에 대하여, 계산된 전체 확률값을 단어수로 나눈 값이 소정의 문장확률임계값 이하일 경우 애매성을 포함한 문장으로 판정한다. 즉, 전체 문장 S의 확률값 log(Pr(S))는 음향 모델에 의한 확률값 Pr(Wi)와 언어모델에 의한 확률값 Pr(Wi|Wi-1)에 소정의 가중치가 결합된 로그합에 의해 수학식 1과 같이 결정된다.
이후, 문장 S를 구성하는 단어수를 n이라 할 때, log(Pr(S))/n 값이 소정의문장확률임계값(θ1) 이하일 경우 애매성을 포함한 문장으로 판정한다.
의미 격틀 분석에 의한 판정에서는 인식 후보 문장들 중 가장 확률값이 높은 문장에 대하여, 의미 격틀 분석을 통해 격 의미가 맞지 않는 문장은 애매성을 포함하는 문장으로 판정한다.
한편, 가장 확률값이 높은 인식 후보 문장이 애매성있는 문장으로 판정되면, 애매성있는 구간이 추출된다(150 단계 내지 170 단계). 애매성이 포함되어 있다고 판정된 문장에서 실제 애매성이 나타나는 구간 추정은 음향 모델 확률값 검증에 의한 추정, 언어 모델 확률값 검증에 의한 추정 그리고 의미 격틀 분석에 의한 추정 과정을 거친다.
첫째, 음향 모델 확률값 검증에 의한 애매성 구간 추정이 이루어진다(150 단계). 인식 후보 문장의 음향 모델 탐색 과정(120 단계)에서 얻은 각 단어의 개별적 확률값을 검증하여 그 값이 임계값 이하일 경우, 그 단어 구간을 애매성 구간으로 추정한다. 즉, 단어 Wi의 음향 모델 확률값이 소정의 음향모델확률임계값(θ2) 이하인 경우(Pr(Wi) ≤ θ2), 그 단어 구간을 애매성 구간으로 추정한다. 이는 음향 신호가 약하거나, 등록된 단어가 아닌 단어 또는 불분명한 발음일 경우에 해당한다.
둘째, 문장 내 단어 사이의 언어 모델 확률값 검증에 의한 애매성 구간 추정이 이루어진다(160 단계). 문장 내에서 현재 단어와 다음 단어간 연결관계를 나타내는 언어모델이 적용된 단어 연결부의 언어 모듈 확률값을 검사하여 그 확률값이소정의 언어모델임계값(θ3) 이하인 경우, 다음 단어 구간을 애매성 구간으로 추정한다.
셋째, 의미 격틀 분석을 통한 의미 애매성 구간 추정이 이루어진다(170 단계). 도 3 및 도 4에 예시된 바와 같이, 애매성이 포함되어 있다고 판정된 문장을 형태소 해석, 구조 분석 및 의미 격틀 분석하여 의미격에 맞지 않는 단어를 찾아낸다.
다음, 애매성 해소에 필요한 정보 추정하고 질문을 생성한다(180 단계). 애매성 구간이 추정되면, 이를 해소하기 위해서는 어떤 정보가 필요한지 분석한다. 분석 과정은 입력 문장을 형태소 단위로 해석하고, 문장의 구조 분석을 수행한 후, 도 5에 예시된 바와 같은 체언의 의미사전과 도 5에 예시된 바와 같은 용언의 격틀사전을 이용하여 격틀 구조로 해석해 낸다. 의미 격틀 구조 해석 결과에 따라 애매성 구간에 대한 문장에서의 격을 찾고, 애매성 구간을 보충하기 위해서 어떤 정보가 필요한지 판정한 후, 애매성 해소를 위해 필요한 정보를 사용자로부터 취득하기 위한 질문을 생성한다. 애매성 해소를 위해 필요한 정보에 따라 예/아니오 의문문 또는 의문사 의문문을 결정하고, 의문사와 주어, 동사 등의 문장 성분을 찾아 질문을 생성한다.
예를 들어, 사용자가 발성한 음성의 특정 구간의 음향신호가 약하게 입력되어 음향적 애매성이 발성한 경우는 다음과 같이 질문을 생성한다.
사용자의 발성 : <소녀가 W를 먹었다>
음향 모델 확률값 검색 결과 : W< θ2
격틀 분석 결과 :
[행위자 : 소녀]
[행위 : 먹다]
[목적격 : W]
[시제 : 과거]
격틀 분석 결과에 따라 현재 문장에서 '먹다'라는 용언의 격구조에서 목적격에 해당하는 단어가 애매성을 포함하고 있다는 것을 알 수 있고, 이에 의해 '먹다' 동사에 해당하는 목적격 의문사 '무엇을'을 선택하고, 주격과 동사의 시제(과거)를 일치시키고 의문형을 만들어 질문을 생성한다.
결국 생성된 질문은 "소녀가 무엇을 먹었습니까?"이다.
도 4에 예시된 경우, '공주'에 해당하는 의미는 사람을 나타내는 것과 지역을 나타나는 두 가지 의미로 사용되므로 의미적 애매성을 포함하게 된다. 이를 해결하기 위한 질문 생성은, 두 가지 의미들 중 어떤 것을 선택할 것인지를 묻는 예/아니오 질문을 생성한다.
결국 생성된 질문은 "[공주1: 사람]과 [공주2:지역] 중 어느 것입니까?"이다.
애매성 해소를 위한 질문 생성한 후, 사용자의 응답이 입력되면 사용자 응답을 인식하게 되고, 인식된 사용자 응답은 형태소 해석, 문장 구조 분석, 의미 격틀 분석 과정을 거쳐, 질문에 대한 핵심 대답을 추출하여 이전 문장의 애매성을 해결한다(190 단계). "소녀가 무엇을 먹었습니까?"라는 질문에 대해 사용자가 "사과"라고 대답하면, 격틀구조 분석에서 애매성 구간이었던 목적어에 '사과'를 넣어 격틀 구조를 완성한다.
완성된 문장은 필요한 용도에 사용되기 위해 출력된다(200 단계).
본 발명은 음성 인식 시에 발생하는 애매성에 대한 문제 해결에 사람이 음성을 이해하고 응답하는 방법, 즉 사람이 말을 잘 못 알아들었거나 의심스러울 경우 상대방에게 그에 관한 질문을 통해 애매성을 해소하는 방법을 채용한 인간 친화적인 새로운 개념의 음성 인식 방법이라고 할 수 있다. 따라서, 본 발명에 의하면, 음성인식의 애매성 해결을 위해 인간 반응 지식을 이용함으로써 기존의 음성 인식 방법들이 불완전한 내부적 규칙만으로 애매성을 해소하려 했기 때문에 나타났던 필연적인 에러를 감소시키도록 한 효과가 있다. 결국, 본 발명을 온라인 자동 통역 시스템에 도입하는 경우, 보다 정확한 인식 결과로 보다 정확한 통역을 사용자에게 제공할 수 있는 효과가 있다.

Claims (17)

  1. 아날로그 음성신호를 디지털 데이터로 변환하고, 상기 디지털 데이터로부터 음성 특징들을 추출하는 음성특징추출부;
    추출된 음성 특징들에 음향 모델과 언어 모델을 각각 적용하여 생성된 확률값들에 따라서 하나 이상의 인식 후보 문장들을 생성하는 모델탐색부;
    상기 인식 후보 문장들 중 상기 확률값들로부터 생성된 전체 문장 확률값이 가장 높은 문장에 대하여 문장 단위로 애매성 여부를 판정하는 문장단위애매성판정부;
    상기 문장단위애매성판정부에 의해 애매성을 포함한 문장으로 판정된 경우, 그 문장 내의 애매성 구간을 추출하는 애매성구간추출부;
    추출된 애매성 구간을 해소하기 위한 질문을 생성하는 질문생성부; 및
    상기 질문에 대응되는 사용자의 응답을 분석하여 상기 애매성 구간에 대응하는 응답을 추출하여 상기 애매성이 있는 문장의 애매성을 해소하는 사용자응답처리부를 포함함을 특징으로 하는 인간 반응형 음성인식장치.
  2. 제1항에 있어서, 상기 모델탐색부는
    음향 모델에서 상기 음성특징에 가장 가까운 음소를 찾아내고, 찾아낸 음소들로부터 단어를 구성하고, 단어별로 그 일치정도를 나타내는 음향모델 확률값을 계산하는 음향모델탐색부; 및
    언어 모델에서의 단어 사이의 문법적 관계와 통계적 연결관계를 이용하여 다음에 인식되는 단어에 대한 복수개의 단어 후보를 발생시키고 각각에 대하여 언어모델 확률값을 계산하는 언어모델탐색부를 구비함을 특징으로 하는 인간 반응형 음성인식장치.
  3. 제2항에 있어서, 상기 문장단위애매성판정부는
    상기 모델탐색부에 의해 계산된 음향모델 확률값과 언어모델 확률값을 이용하여 전체 문장 확률값을 계산하고, 전체 문장 확률값을 그 문장을 구성하는 단어수로 나눈 값이 소정의 문장확률임계값 이하일 경우 애매성을 포함한 문장으로 판정하는 것을 특징으로 하는 인간 반응형 음성인식장치.
  4. 제2항에 있어서, 상기 문장단위애매성판정부는
    상기 인식 후보 문장들 중 가장 확률값이 높은 문장에 대하여 의미 격틀 분석하여 의미 격이 맞지 않는 문장은 애매성을 포함하는 문장으로 판정하는 것을 특징으로 하는 인간 반응형 음성인식장치.
  5. 제2항에 있어서, 상기 애매성구간추출부는
    상기 애매성을 포함한 문장을 구성하는 단어의 음향모델 확률값이 소정의 음향모델확률임계값 이하인 단어에 대하여, 그 단어 구간을 애매성 구간으로 추정하는 것을 특징으로 하는 인간 반응형 음성인식장치.
  6. 제2항에 있어서, 상기 애매성구간추출부는
    상기 애매성을 포함한 문장을 구성하는 현재 단어와 다음 단어간의 언어모델 확률값이 소정의 언어모델확률임계값 이하인 경우, 다음 단어 구간을 애매성 구간으로 추정하는 것을 특징으로 하는 인간 반응형 음성인식장치.
  7. 제2항에 있어서, 상기 애매성구간추출부는
    상기 애매성을 포함한 문장을 형태소 분석, 구조 분석 및 의미 격틀 분석하여 의미 격이 맞지 않는 단어 구간을 애매성 구간으로 추정하는 것을 특징으로 하는 인간 반응형 음성인식장치.
  8. 제2항에 있어서, 상기 질문생성부는
    의미 격틀 분석을 하고 용언 격틀 사전과 체언 의미 사전을 이용하여 격틀 구조를 해석하여 상기 애매성을 포함한 문장에서 상기 애매성 구간의 격을 찾고, 음향적 애매성 및 의미적 애매성으로 분류하여 질문을 생성하는 것을 특징으로 하는 인간 반응형 음성인식장치.
  9. (a) 아날로그 음성신호를 디지털 데이터로 변환하고, 상기 디지털 데이터로부터 음성 특징들을 추출하는 음성특징추출단계;
    (b) 추출된 음성 특징들에 음향 모델과 언어 모델을 각각 적용하여 생성된 확률값들에 따라서 하나 이상의 인식 후보 문장들을 생성하는 모델탐색단계;
    (c) 상기 인식 후보 문장들 중 상기 확률값들로부터 생성된 전체 문장 확률값이 가장 높은 문장에 대하여 문장 단위로 애매성 여부를 판정하는 문장단위애매성판정단계;
    (d) 상기 문장단위애매성판정단계에서 애매성을 포함한 문장으로 판정된 경우, 그 문장 내의 애매성 구간을 추출하는 애매성구간추출단계;
    (e) 추출된 애매성 구간을 해소하기 위한 질문을 생성하는 질문생성단계; 및
    (f) 상기 질문에 대응되는 사용자의 응답을 분석하여 상기 애매성 구간에 대응하는 응답을 추출하여 상기 애매성이 있는 문장의 애매성을 해소하는 사용자응답처리단계를 포함함을 특징으로 하는 인간 반응형 음성인식방법.
  10. 제9항에 있어서, 상기 모델탐색단계는
    (b1) 음향 모델에서 상기 음성특징에 가장 가까운 음소를 찾아내고, 찾아낸 음소들로부터 단어를 구성하고, 단어별로 그 일치정도를 나타내는 음향모델 확률값을 계산하는 음향모델탐색단계; 및
    (b2) 언어 모델에서의 단어 사이의 문법적 관계와 통계적 연결관계를 이용하여 다음에 인식되는 단어에 대한 복수개의 단어 후보를 발생시키고 각각에 대하여 언어모델 확률값을 계산하는 언어모델탐색단계를 구비함을 특징으로 하는 인간 반응형 음성인식방법.
  11. 제10항에 있어서, 상기 문장단위애매성판정단계는
    상기 모델탐색단계에 의해 계산된 음향모델 확률값과 언어모델 확률값을 이용하여 전체 문장 확률값을 계산하고, 전체 문장 확률값을 그 문장을 구성하는 단어수로 나눈 값이 소정의 문장확률임계값 이하일 경우 애매성을 포함한 문장으로 판정하는 것을 특징으로 하는 인간 반응형 음성인식방법.
  12. 제10항에 있어서, 상기 문장단위애매성판정단계는
    상기 인식 후보 문장들 중 가장 확률값이 높은 문장에 대하여 의미 격틀 분석하여 의미 격이 맞지 않는 문장은 애매성을 포함하는 문장으로 판정하는 것을 특징으로 하는 인간 반응형 음성인식방법.
  13. 제10항에 있어서, 상기 애매성구간추출단계는
    상기 애매성을 포함한 문장을 구성하는 단어의 음향모델 확률값이 소정의 음향모델확률임계값 이하인 단어에 대하여, 그 단어 구간을 애매성 구간으로 추정하는 것을 특징으로 하는 인간 반응형 음성인식방법.
  14. 제10항에 있어서, 상기 애매성구간추출단계는
    상기 애매성을 포함한 문장을 구성하는 현재 단어와 다음 단어간의 언어모델 확률값이 소정의 언어모델확률임계값 이하인 경우, 다음 단어 구간을 애매성 구간으로 추정하는 것을 특징으로 하는 인간 반응형 음성인식방법.
  15. 제10항에 있어서, 상기 애매성구간추출단계는
    상기 애매성을 포함한 문장을 형태소 분석, 구조 분석 및 의미 격틀 분석하여 의미 격이 맞지 않는 단어 구간을 애매성 구간으로 추정하는 것을 특징으로 하는 인간 반응형 음성인식방법.
  16. 제10항에 있어서, 상기 질문생성단계는
    의미 격틀 분석을 하고 용언 격틀 사전과 체언 의미 사전을 이용하여 격틀구조를 해석하여 상기 애매성을 포함한 문장에서 상기 애매성 구간의 격을 찾고, 음향적 애매성 및 의미적 애매성으로 분류하여 질문을 생성하는 것을 특징으로 하는 인간 반응형 음성인식방법.
  17. 제9항 내지 제16항 중 어느 한 항의 방법을 컴퓨터로 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR10-2000-0010876A 2000-03-04 2000-03-04 인간 반응형 음성인식장치 KR100366703B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR10-2000-0010876A KR100366703B1 (ko) 2000-03-04 2000-03-04 인간 반응형 음성인식장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2000-0010876A KR100366703B1 (ko) 2000-03-04 2000-03-04 인간 반응형 음성인식장치

Publications (2)

Publication Number Publication Date
KR20010086902A KR20010086902A (ko) 2001-09-15
KR100366703B1 true KR100366703B1 (ko) 2003-01-09

Family

ID=19652264

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2000-0010876A KR100366703B1 (ko) 2000-03-04 2000-03-04 인간 반응형 음성인식장치

Country Status (1)

Country Link
KR (1) KR100366703B1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040051349A (ko) * 2002-12-12 2004-06-18 한국전자통신연구원 출현불가능한 어휘조합에 대한 정보를 반영한 연속 음성인식 방법
KR100577387B1 (ko) 2003-08-06 2006-05-10 삼성전자주식회사 음성 대화 시스템에서의 음성 인식 오류 처리 방법 및 장치
KR20200011796A (ko) * 2018-07-25 2020-02-04 엘지전자 주식회사 음성 인식 시스템

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19980038185A (ko) * 1996-11-25 1998-08-05 구자홍 자연언어 인터페이스 에이전트 및 그의 의미 분석방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19980038185A (ko) * 1996-11-25 1998-08-05 구자홍 자연언어 인터페이스 에이전트 및 그의 의미 분석방법

Also Published As

Publication number Publication date
KR20010086902A (ko) 2001-09-15

Similar Documents

Publication Publication Date Title
KR100755677B1 (ko) 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법
CN109410914B (zh) 一种赣方言语音和方言点识别方法
Parris et al. Language independent gender identification
US9984677B2 (en) Bettering scores of spoken phrase spotting
CN109331470B (zh) 基于语音识别的抢答游戏处理方法、装置、设备及介质
KR20050015586A (ko) 음성 대화 시스템에서의 음성 인식 오류 처리 방법 및 장치
KR20050082249A (ko) 도메인 기반 대화 음성인식방법 및 장치
JPH05197389A (ja) 音声認識装置
Levitan et al. Combining Acoustic-Prosodic, Lexical, and Phonotactic Features for Automatic Deception Detection.
Gandhe et al. Using web text to improve keyword spotting in speech
Desot et al. End-to-End Spoken Language Understanding: Performance analyses of a voice command task in a low resource setting
Larabi-Marie-Sainte et al. A new framework for Arabic recitation using speech recognition and the Jaro Winkler algorithm
Mitra et al. Speech emotion: Investigating model representations, multi-task learning and knowledge distillation
JP2000172294A (ja) 音声認識方法、その装置及びプログラム記録媒体
KR100366703B1 (ko) 인간 반응형 음성인식장치
JP2005275348A (ja) 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体
Rao et al. Language identification using excitation source features
Razik et al. Frame-synchronous and local confidence measures for automatic speech recognition
Cettolo et al. Automatic detection of semantic boundaries based on acoustic and lexical knowledge.
KR100890404B1 (ko) 음성 인식을 이용한 자동 번역 방법 및 장치
KR100298177B1 (ko) 음성인식시스템에서의반음소모델구축방법및그를이용한발화검증방법
JP2007017548A (ja) 音声認識結果の検証装置及びコンピュータプログラム
Marie-Sainte et al. A new system for Arabic recitation using speech recognition and Jaro Winkler algorithm
Hori A study on statistical methods for automatic speech summarization
Jurafsky et al. Integrating experimental models of syntax, phonology, and accent/dialect in a speech recognizer

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
J201 Request for trial against refusal decision
B701 Decision to grant
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121129

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20131128

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20141127

Year of fee payment: 13

LAPS Lapse due to unpaid annual fee