KR20020038545A

KR20020038545A - 음성 인식 방법

Info

Publication number: KR20020038545A
Application number: KR1020010071356A
Authority: KR
Inventors: 마라세크크르지스쵸프; 켐프토마스; 고론지실케; 콤프랄프
Original assignee: 소니 인터내셔널(유로파) 게엠베하
Priority date: 2000-11-16
Filing date: 2001-11-16
Publication date: 2002-05-23
Also published as: DE60032776T2; EP1207517B1; EP1207517A1; US20020082833A1; JP2002202797A; DE60032776D1

Abstract

큰 어휘 연속적 음성 인식(large vocabulary continuous speech recognition ) 응용들의 실행 속도를 증가시키기 위해, 인식된 발음(U)이 전체로서 수용 또는 거부되는지에 대한 대략적 추정만을 우선 주는 것이 제안된다. 발음(U)의 수용의 경우에는, 의미, 의도, 포함된 키-구절들/키워드들 및, 포함된 키-구절들/키워드들의 신뢰를 추출하도록 완전한 재분석이 그후에 수행된다. 그러므로, 계산상의 부담은 발음(U)의 중요한 부분들, 즉 키-구절들/키워드들에 집중된다.

Description

음성 인식 방법{Method for recognizing speech}

본 발명은 청구항 1에 따른 음성(speech)을 인식하기 위한 방법에 관한 것이며, 특히 큰 어휘 연속적 음성 인식(large vocabulary continuous speech recogniz ing)(LVCSR)의 처리에서 신뢰 수단들(confidence measures)을 이용하여 음성을 인식하기 위한 방법에 관한 것이다.

수신된 발음(utterance) 또는 음성 구절(speech phrase)의 인식후에 음성을 인식하기 위한 많은 종래의 장치들 및 방법들에서, 특히, 문제되는 발음 또는 음성 구절과 그 인식된 형태가 추가 처리를 위해 수용될 수 있는지 또는 거부되고 발언자(speaker) 또는 이용자에 의해 새로이 진입될 발음 또는 음성 구절에 의해 교환되어야 하는지 여부에 관한 결정을 가능케하기 위해, 인식된 발음 또는 음성 구절의 신뢰도에 관해 추정이 주어진다.

음성을 인식하기 위한 종래 기술 방법들의 주요 결점은 총 계산상 부담이 상세하고 완전한 분석을 보장하기 위해 전체적인 수신된 발음에 걸쳐 분배된다는 것이다. 그러므로, 많은 방법들은 작은 시스템들 또는 장치들에서, 예를들어 핸드-헬드(hand-held) 기구들 등에서, 수행될 수 없는데, 이러한 작은 시스템들은, 전체적인 수신된 발음이 완전히 분석되어야 할 때, 연속적 음성을 인식하고 인식된 구들의 신뢰도를 추정하기에 충분하지 않은 실행 속도를 보유하기 때문이다.

그러므로, 본 발명의 목적은 음성을 인식하기 위한 방법을 제공하는 것이며, 특히 큰 어휘 연속적 음성 인식의 분야에서, 이 방법은 작은 대화 시스템들에서 쉽게 실행될 수 있고 또한 인식 품질상에 견고하고 신뢰성있는 추정을 제공한다.

본 목적은 청구항 1의 특색을 이루는 특징들로 음성을 인식하기 위한 방법에 의해 달성된다. 음성을 인식하기 위한 발명의 방법의 양호한 실시예들은 종속항들의 범위내에 있다.

본 발명에 따라 음성을 인식하기 위한 방법에서, 수신된 발음은 전체로서 인식 처리된다. 또한, 상기 수신되고 인식된 발음이 전체로서 수용되거나 거부되는지에 관해 대략적인 추정만이 이루어진다. 부가적으로, 상기 발음을 수용하는 경우에는, 그 의미 및/또는 의도를 추출하기 위해 완전히 재분석된다. 부가적으로, 재분석과 그 결과에 기초하여, 그 의미를 본질적으로 나타내는 키-구절들 및/또는 키워드들이 상기 발음으로부터 추출된다.

인식 처리내에서 전체로서 발음을 인식한 후에 음성을 인식하기 위한 종래 기술의 방법들과 대조하여, 단지 대략적 추정만이, 필요한 음성 구절들에 대한 상기 인식된 발음의 신뢰도를 서술하여 수행된다. 그러므로, 추정과 계산의 작은 부담만이 제 1 단계에서 전체적인 수신된 발음에 집중된다. 그다음에, 계산의 주요 부분은 그 의미를 추출하고 그러므로 발음의 키워드들 및/또는 키-구절들을 발생시키기 위해 발음의 재분석에 집중된다. 키워드들 또는 키-구절들은 발음에 의해 수송될 메시지의 주요 중요도(main importance)를 운반하는 발음들의 서브유닛들 또는 부분들이다. 결과적으로, 음성을 인식하기 위한 발명의 방법은 발음의 중요한 부분들, 즉 키-구절들 및 키워드들과, 발음으로부터의 그들의 발생, 추출 및/또는 신뢰(confidence) 추정에 집중하여 계산상의 및 추정 전력을 절약한다

대화 시스템에 대해, 상기 발음을 전체로서 거부하는 경우에는 거부 신호가 발생된다. 특히, 마지막 발음을 반복하거나 재시작하기 위한 안내(invitation) 및/또는 재프롬프팅(reprompting) 신호가 상기 거부 신호로서 발생되고 및/또는 출력된다. 이것은 이용자 또는 현재의 발언자가 그의 마지막 발음 또는 음성 구절이 인식 시스템 또는 방법에 의해 정확하게 인식되지 않았다는 것을 알림에 따라 대화 시스템에서 특히 유리하다.

수신 및/또는 인식된 발음을 거부 및/또는 수용할 때 상기 언급된 대략의 추정을 수행하기 위해, 전체 발음에 대한 대략적 또는 간단한 신뢰 기준(a rough or simple confidence measure)이 결정된다. 이것은, 이러한 종래 기술 방법들이 일반적으로 상기 발음내의 각각의 단일 단어 또는 부단어(subword)에 기초한 신뢰 기준들을 계산함에 따라, 음성을 인식하기 위한 종래 기술 방법들과 대조하여 특히 유리하다. 그러므로, 전체 발음에 대해서, 종래 기술 방법들은 상대적인 다수의 단일 단어 신뢰 기준들을 계산하고 결정해야 한다.

그다음에, 부가적으로, 음성을 인식하기 위한 종래 기술 방법들은 그후에 단일 단어 신뢰 기준들의 세트에 대해 전체 발음에 대한 신뢰를 찾기 위해 전체적 추정을 수행해야 한다. 이러한 종래 기술 방법들과 대조하여, 본 발명의 방법은 전체 발음에 대한 신뢰도 기준을 전체로서 및 간단하고 대략적인 방식으로 인식의 초기 단계에서 계산한다. 상기 전체 발음 신뢰도 기준의 기초에서 발음과 그 인식된 구절들의 수용이 제안된다면, 추가 처리가 시작된다.

문장 분석, 그리고 특히 문법, 구문(syntax) 및/또는 의미론적(semantic) 분석 등에 기초하여 상기 재분석을 하는 것이 바람직하다. 이러한 기준들은 그들이 발음의 키워드들 또는 키-구절들의 추출 뿐아니라 의도와 의미를 추출하는데 집중됨에 따라 유용하다. 특히, 대화 시스템들에서, 시스템에서 수행된 방법은, 특히 키-구절들 또는 키워드들을 모아서, 그 의도와 의미로의 다소간 복잡한 발음을 줄이도록 다소간 복잡한 수신된 발음으로부터 그 가장 중요한 부분들을 추출할 수 있다는 것이 필요하다.

그러므로, 발음의 상기 추출된 키-구절들 및/또는 키워드들이 특히 이전의 신뢰 기준에 의해 수용될 수 있거나 거부되어야 하는지에 관한 상대적으로 완전한 추정을 형성하는 것이 더 유리하다.

음성을 인식하기 위한 본 발명의 방법의 특히 유리한 실시예에서 각각의 단일한 키-구절/키워드에 대한 상세한 및/또는 견고한 신뢰 기준(a detailed and/or robust confidence measure)이 상기 키-구절들 및/또는 키워드들을 수용하고/거부하는 상기 완전한 추정에 대해 결정된다.

음성을 인식하기 위한 본 발명의 방법의 계산상의 부담을 더 줄이기 위해서, 수신되고 인식된 발음의 유도된 키-구절들/키워드들에 대한 상기 서술된 상세한 및/또는 견고한 신뢰 기준은 상기 키-구절/키워드를 유도하는 상기 단계내에서 표시 및/또는 요구가 그때문에 발생되거나 일어난다면 유도된다.

종래 기술 방법들과 대조하여 음성을 인식하기 위한 본 발명의 방법들의 기본 아이디어들중 몇몇은 다음과 같이 서술되고 요약될 수 있다.

신뢰 기준들(CM)은 자동 음성 인식 처리가 주어진 단어 또는 발음에 대해서 얼마나 신뢰성 있게 수행되는가를 판단하려고 한다. 본 발명과 연결되어 제안된 신뢰 기준은, 연속적 음성 입력을 다루어야 하고 입력되고 인식된 음성으로부터 추출되고 모아진 데이터에 기초하여 별개의 작용들을 수행해야 하는 대화 시스템들을 위해 특히 설계된다. 음성을 인식하기 위한 본 발명의 방법은 입력되고 인식된 발음 및/또는 특별한 선택된 단어들이 정확하게 인식되는지를 판단하기 위해 정보의 다양한 공급원들을 결합한다.

전체로서 발음을 인식하기 위한 제 1 단계후에, 간단하고, 대략적이며, 매우 일반적인 신뢰 기준이 전부의, 즉 전체 발음에 대해 계산되고 발생된다. 인식된 발음이 수용된것으로 분류된다면, 본 방법은 처리를 위한 추가 단계로 향한다. 시스템에서 특히 수행된 방법의 요구들에 의존하여, 특히 중요한 단어들 또는 부단어 유닛들에 대한 더 상세한 신뢰 판단은 수요에 응해(on demand) 발생될 수 있다. 특별한 중요도의 이러한 단어들 또는 부단어 유닛들은 키-구절들 또는 키워드들이라 불린다. 추가 처리 단계들, 즉 발음의 재분석은 대응하는 단일 키-구절들 또는 키워드들에 집중하여 상세하고 더 견고한 신뢰 기준의 의미에서 키-구절들 및/또는 키워드들의 신뢰도의 계산을 명백하게 필요로 할 수 있다.

큰 어휘 연속적 음성 대화 시스템들에서의 인식 품질의 판단에 대해서, 그러므로 2-단계 시스템이 제안된다. 발음을 전체적으로 인식하고 간단한 신뢰 기준을 계산하는 제 1 단계는 대부분의 발음이 정확하게 인식되었다면 표시(indication)를 준다. 그와같은 분류에 대해서, 그러나, 이용자 입력의 모든 단일 단어들이 동등하게 중요한 것은 아니다. 중요도에 대한 지식은 대개 음성 인식 시스템에 저장된 정보내에 위치된다. 그러므로, 특히 인식된 발음의 단일 단어들의 신뢰에 대해 질문하기 위해 다음의 구성요소를 허용하는 음성 인식 서브시스템에 인터페이스를 부가하는 것이 제안된다.

그러므로, 전체로서 발음의 의미 또는 의도의 분석후에, 분리된 단어, 더 복잡하고 더 견고한 신뢰 기준이 특히 관심있는 분리된 단어들 또는 짧은 구절들에 적용되며, 즉, 전체적으로 발음을 특정하기 위해 특히 다음의 음성 인식 서브 시스템들의 수요에 응해, 발음의 키-구절들 또는 키-워드들에 적용된다.

신뢰 기준 판단에 대한 표준 방법들이 이 단계에서 적용된다면, 이것은 계산상의 부담을 크게할 것이다. 분리된 단어들에 대해 지금까지 개발된 접근법을 연속적 음성 인식으로 간단히 확장할 수 있고 발음에서 각각의 단일 단어에 대한 매우 상세한 신뢰 기준을 계산할 수 있다. 이것은 매우 희생이 클 것이므로(costly), 시스템 응답은 더 느려지게 될 것이다. 이용자 또는 발언자의 입력 발음에 빠르게 반응해야 하는 대화 시스템들에 대해서, 이것은 수용가능하지 않다. 그러므로, 본 발명의 방법은 다음과 같이 제안된다.

발음에 대한 다소 간단한 신뢰 기준을 계산하는 제 1 처리 단계의 목적은 발음의 일반구조를 찾는 것을 돕는 것이다. 이 분류가 높고 충분한 신뢰로 행해진다면, 진행의 후속 단계들은 상기 수신되고 인식된 발음을 처리한다. 이러한 추가 처리 단계들에서, 문장 또는 발음은 문장 또는 발음의 중요한 키워드들을 식별하기 위해 더 분석된다. 이러한 키워드들에 대한 수요에 응하여, 제 2 의 더 상세하고 완전한 신뢰 기준이 계산될 수 있다. 또한, 높은 양의 계산상의 노력을 필요로 하는 부가적이고 더 정교한 특징들은 신뢰 기준을 계산하기 위해 제 2 실행에서 이용될 수 있다. 그에의해, 값비싼 계산상의 경로가 감소되고, 그것이 응용의 상황에서 실제로 필요한, 발음의 그들 위치들에 집중된다. 이것은 전체적 계산상의 부하를 감소시키고 작은 기구들에서 신뢰 추정이 실행될 수 있게 한다.

예를들어, 열차 시간표 정보 시스템에서, 이용자는 "나는 함부르그로부터 스투트가르트로 가고자 한다"라고 발음한다. 이 발음의 의도는 한 도시에서 다른 도시로 가는 것이다. 이러한 정보에 대해, 출발 도시와 목적지만이 확인되어야 하며, 반면에 문장의 나머지는 채우는 구절들 또는 "충전제들(fillers)"로 고려될 수 있 다. 이러한 채우는 구절들은 한 지점으로부터 다른 지점으로 여행하려는 의도가 알려지는한 높은 정확도로 인식될 필요는 없다. 그러므로, 중요한 것은 출발 도시와 목적지를 확인하는 것이다. 그러므로, 본 발명에 따라 계산상의 부하가 이들 키워드들, 즉, 의도된 여행의 출발과 목적지에 집중된다. 그러므로, 제 2 신뢰 기준이, 필요하다면, 출발과 목적지 상에서만 계산된다.

다른 응용들에서, 음성 인식자(recognizer)는 불확실들과 모호함들에 대처하기 위해 그래프에 배열된 대안의 단어 가정들을 출력한다. 그 각각이 문장 가정에 대응하는 단어 그래프내에 많은 가능한 경로들이 존재한다. 후속하는 음성 처리기는 음성 인식자에서 이미 계산된 음향상의 점수들 및 음성적 지식에 따라 최적의경로를 찾는다. 음성 처리기가 몇몇 경로들을 병렬로 조사하는 탐색동안, 음성 처리기는 신뢰 기준 계산 모듈이 어떤 키워드들을 채점하는 것을 요구할 수 있다. 이것은 각각의 다음 단계에서 신뢰 기준이 의심될 수 있다는 것을 의미한다. 어떤 단어들이 키워드들인가는 아래에 있는 구문론적/의미론적 분석내에서 구문론적이고 의미론적인 분석의 현 단계에 의존한다.

도 1은 음성을 인식하기 위한 본 발명의 방법의 실시예를 개략적인 블록도에 의해 서술한 도면.

*도면의 주요 부분에 대한 부호의 설명*

11 : 발음(U) 12 : 인식(LVCSR)

15 : 문장 분석 및 키워드 추출 16 : 견고한(robust) 신뢰 기준(CMK)

본 발명은 음성을 인식하기 위한 본 발명의 방법의 양호한 실시예를 서술하는 개략적인 도면에 의해 더 상세히 도시될 것이다.

제 1 단계(11)에서, 연속적인 음성 입력이 발음(U)으로서 수신되고 전처리된다(preprocessed). 단계(12)에서 큰 어휘 연속적 음성 인식 처리(LVCSR)는 단계 (13)에서 인식 결과를 발생시키도록 연속적 음성 입력, 즉 수신된 발음(U) 또는 음성 구절상에서 수행된다. 단계(13)의 인식 결과는 단계(13)의 전체 발음 가정에 대해 간단하고 대략적인 신뢰 기준(CMU)을 계산하기 위해 단계(14)로 공급된 발음 가정으로서 작용한다. 전체 발음 가정의 신뢰 기준(CMU)에 의해 주어진 거부의 경우에, 발음을 반복하기 위한 안내(invitation) 또는 재프롬프트(reprompt)가 단계(20)에서 시작된다.

문장 분석을 통한 발음 가정의 수용의 경우에는, 단계(16)에서 키워드들을 추출하도록 분석이 단계(15)에서 수행된다. 추가 단계(17)에서는, 신뢰 기준이 키워드들을 평가하는데 필요한지 여부가 계산된다. 추출된 키워드들의 신뢰도에 대한 추가적 평가가 필요하다면, 완전한 신뢰 기준(CMK) 계산이 단계(12)의 큰 어휘 연속적 음성 인식 유닛으로부터 호출된 시간-정렬(time-alignment) 정보를 이용하여 요구된다. 어떤 신뢰 기준(CMK)도 필요하지 않거나 키워드들에 대한 신뢰도 기준(CMK)이 충분하다면, 발생되고 추출된 키워드들 및 키-구절들이 수용된다. 상세한 신뢰 기준(CMK)이 충분하지 않았다면, 키워드들은 거부되고 재프롬프트가 단계(20)로의 처리를 실행(branching)하여 시작된다.

큰 어휘 연속적 음성 인식의 분야에서, 작은 대화 시스템들에서 쉽게 실행될 수 있고 또한 인식 품질상에 견고하고 신뢰성있는 추정을 제공하는, 음성 인식 방법을 제공한다.

Claims

음성(speech)을 인식하기 위한 방법에 있어서,

- 수신된 발음(U)이 전체로서 인식 처리되고,

- 상기 수신된 발음(U)이 전체로서 수용 또는 거부되는 것인지 여부에 대한 대략적 추정이 이루어지고,

- 상기 발음(U)을 수용하는 경우에는, 그 의미 및/또는 의도를 추출하도록 완전히 재분석되고,

- 상기 재분석에 기초하여 그 의미를 본질적으로 나타내는 키워드들 및/또는 키-구절들이 상기 발음(U)으로부터 추출되는, 음성 인식 방법.
제 1 항에 있어서,

상기 발음(U)을 거부하는 경우에는, 거부 신호가 발생되는, 음성 인식 방법.
제 2 항에 있어서,

상기 거부 신호로서, 재프롬프팅(reprompting) 신호 및/또는 대화 시스템의 경우에는 마지막 발음(U)을 반복/재시작하기 위한 안내(invitation)가 발생되고 및/또는 출력되는, 음성 인식 방법.
제 1 항 내지 제 3 항중 어느 한 항에 있어서,

상기 발음을 수용/거부하는 것에 관한 상기 대략적 추정에 대해서, 전체 발음(U)에 대한 대략적 및/또는 간단한 신뢰 기준(a rough and/or simple confidence measure)(CMU)이 결정되는, 음성 인식 방법.
제 1 항 내지 제 4 항중 어느 한 항에 있어서,

상기 수신된 발음(U)의 상기 재분석은 문장 분석에 기초하며, 특히 문법, 구문(syntax), 의미론적(semantic) 분석 및/또는 등에 기초하는, 음성 인식 방법.
제 1 항 내지 제 5 항중 어느 한 항에 있어서,

상기 추출된 키워드들 및/또는 키-구절들이 수용 또는 거부되는지에 관한 완전한 추정이 이루어지는, 음성 인식 방법.
제 6 항에 있어서,

상기 키-구절들 및/또는 키워드들을 수용/거부하는 것에 관한 상기 완전한 추정에 대해서, 각각의 단일 키-구절 또는 키워드에 대한 상세한 및/또는 견고한 신뢰 기준(a detailed and/or robust confidence measure)(CMK)이 특히 수요에 응하여(on demand) 결정되는, 음성 인식 방법.
제 7 항에 있어서,

상기 단일 키-구절/키워드에 대한 신뢰 기준(CMK)은, 계산상의 부담을 줄이도록 상기 유도 단계에서 상기 키-구절/키워드 및 표시가 일어나는 경우에만 결정되는, 음성 인식 방법.