KR100379994B1

KR100379994B1 - 문법적 제한사항을 갖는 라벨러를 이용한 구두 발언 거절

Info

Publication number: KR100379994B1
Application number: KR10-2001-0011111A
Authority: KR
Inventors: 유픈드라브이. 체우드하리; 스테판에이치. 메스; 지리 나브라티
Original assignee: 인터내셔널 비지네스 머신즈 코포레이션
Priority date: 2000-03-06
Filing date: 2001-03-05
Publication date: 2003-04-11
Also published as: TW495737B; CN1176455C; JP2001296885A; JP4038023B2; KR20010087328A; CN1312542A; US7031923B1

Abstract

구두의 패스워드 및 문장을 복잡도가 낮은 디코더로 검증하기 위한 방법 및 장치가 개시된다. 제안된 방법은 구두의 패스워드 문장을 계산적으로 광대한 규모의 어휘를 디코딩하지 않고서도 구두 검증할 수 있도록 해준다. 바람직하게, 디코더는 (검증되어질 원래의 컨텐트를 나타내는) 타겟 기본형(target baseform)과 함께 유한-스테이트 문법(finite-state grammers:FSG)를 이용하여 용이하게 구축될 수 있는 단순화된 경쟁 기본형들(competing simplified baseforms)의 특수 집합을 이용한다.

Description

문법적 제한사항을 갖는 라벨러를 이용한 구두 발언 거절{Verbal utterance rejection using a labeller with grammatical constraints}

본원 발명은 일반적으로 구두의(spoken) 패스워드 및 문장을 검증하기 위한 방법 및 장치에 관한 것이다.

구두 발언(verbal utterance)에 대한 수락 및 거절에 대한 개념은 최근에 만들어지는 다양한 종류의 기술 및 제품에서 점점 널리 퍼지고 있다. 예를 들어, 상당히 대중적으로 받아들여지고 사용되고 있는 하나의 기술이 자동 전화 다이얼링인데, "맘(mom)", "오피스(office)", "닥터 스미스(Dr. Smith)" 등과 같이 키워드 또는 주요구를 발음하면, 이 키워드/주요구에 해당하는 적당한 전화 번호가 자동적으로 다이얼링되고, 따라서 사용자가 전화번호를 기억해야 하거나 그것을 찾아볼 필요가 없어진다. 흔히 사용되는 번호가 전화상의 1개 또는 적은 수의 버튼을 누름으로써 자동 다이얼링될 수 있는 키패드형 메모리식 다이얼링 시스템에 비교하여 뚜렷한 장점은, 이러한 손쉬운 방법조차 의식적으로 찾아보거나 기억할 필요가 없다는 점이다. 구두로 일러지는(verbally prompted) 명령의 다른 응용예들 역시 널리 퍼져있고 계획되고 있으며, 그들의 이용은 이러한 명령에 대해 잘 적응된 부가적인 기술 및 제품의 발달과 더불어 증가하도록 되어 있다.

구두의 패스워드 및 문장을 검증하는 종래의 방법 및 장치는 디코딩 프로세스로부터 나오는 "어쿠스틱 가능성(acoustic likelihood)"을 이용한다. 어쿠스틱 가능성은 구두의 패스워드 또는 문장이 주어진 타겟 패스워드 또는 문장에 실제적으로 정합하는 확률이다.

종래에, 어쿠스틱 가능성은 전형적으로 발언(utterance)에 기초하여 정규화되는 한편, 검증 목적으로 선정된 스레시홀드(threshhold)가 적용된다. (즉, 구두 발언이, 소정의 요소에 근거하여, 그의 타겟 단어 또는 구문에 정합되는 정도의 측면에서 일정의 스레시홀드를 충족시킨다면, 그 타겟 단어 또는 구문에 충분히 정합하는 것으로 해석된다).

전술한 특성에 기인한 구두 접근법은 미국 특허 제 5,717,826호(루슨트 테크놀로지사)에 기재되어 있다. 그러나, 이러한 경우에, 키워드의 트랜스크립션(transcription)을 얻기 위해 완전 디코더가 사용된다. 제2 단계에서 디코더의 외부에서 패스워드 모델링이 수행된다.

유사한 구성들이 그밖의 문헌에도 개시되어 있지만, 결국, 현재 소망되는 형태로 문제를 해결하거나 쟁점을 다루고 있지 않다. 발명의 명칭이 "...거절이 향상된 음성 인식 시스템(speech recognition system with improved rejection...)"인 미국 특허 제5,465,317호는 어쿠스틱 가능성에 기초한 스레시홀드-기반 기법을 개시하며, 발명의 명칭이 "연결되는 디지트 음성 인식을 위한 비-디지트 스트링 거절(Rejection of non-digit strings for connected digit speech recognition)" 인 미국특허 제5,613,037호도 마찬가지이다.

전술한 관점에서, 이 분야의 종래 노력들보다 향상되고 전술한 그들의 단점을 극복하는 것에 관련한 필요성이 인식된다.

도 1은 수정된 트랜지션(transition) 구조를 갖는 디코딩 그래프.

도 2는 수정된 트랜지션 구조를 갖는 애드워드-기본형(addword-baseform)의 디코딩 그래프.

도 3은 개략적인 형태로 구두 검증의 개요를 도시한 도면.<도면의 주요 부분에 대한 부호의 설명>110 : FSG 수정112 : FSG-기반 강행 정렬106 : 베이스폼 및 FSG 생성114 : 텍스트-기반 컨텐트 검증

본원 발명의 적어도 하나의 바람직한 실시예에 따르면, 본원에서 제안되는 방법에 따른 구두의 패스워드 문장에 대한 구두 검증은 (어쿠스틱 스레시홀드를 이용하는 것에 대조적으로) 계산적으로 광대한 대규모 어휘를 디코딩하지 않고서도 구두의 패스워드 문장을 검증하는 것을 가능하게 한다. 바람직하게, 디코더는 (검증되어야 할 원래의 컨텐트를 나타내는) 타겟 기본형과 함께, 유한-스테이트 문법(finite-state grammar:FSG)을 이용하여 용이하게 구축될 수 있는 단순화된 경쟁 기본형들의 특수 집합(special set of competing simplified baseform)을 이용한다. 따라서, 본원 발명의 적어도 한 실시예에 따르면, 종래 기술들에 비한 확연한 차이점은 디코더 내의 함축적인 패스워드 검색덕택에 디코딩 복잡도가 매우 낮아질 수 있다는 것이다.

간단한 구성에 따르면, 디코더는 FSG 그래프에 추가되는 선택적인 스킵 트랜지션(optional skip transition)으로 패스워드 기본형에 대해 강행 정렬(forced alignment)을 수행할 수 있다. (즉, 타겟 기본형의 일부분을 널아크(null-arcs)로 대체함으로써 이로부터 경쟁(competing) 기본형이 유도된다.) 구두 발언, 예를 들어, 디지트 스트링이 타겟 기본형에 해당하지 않으면, 디코더에 의해 이용되었던 몇몇의 스킵 트랜지션으로 인해 완전한 기본형에도 정합하지 않는다는 결과적 가설의 가능성이 높아진다. 이는 이하에서 좀더 자세히 설명되는 바와 같이 어쿠스틱 단어추가(acoustic addword)로서 등록되는 패스워드에도 동일하게 적용된다.

본원 발명의 그밖의 특징 및 장점과 함께 본원 발명의 보다 나은 이해를 위해, 첨부된 도면과 관련하여 기재된 이하의 설명을 참조하기 바란다. 본원 발명의 범위는 첨부된 청구범위에 의해 정해질 것이다.

본원 발명의 적어도 하나의 바람직한 실시예에 따르면, 사용자 등록의 적어도 두가지 기능적 구성에서 발언 검증 시스템을 이용하는 것을 생각할 수 있으며, 이 두가지는 이하에서 설명되며 도 1 및 도 2 각각에 개략적으로 도시되어 있다.

첫 번째 구성에서, 도 1을 참조하면, 사용자에 의해 패스워드가 선택되고 패스워드의 텍스트 형태가, 예를 들어, 디지트 스트링을 선택하거나 지정함으로써, 시스템에 전달된다. 따라서, 패스워드의 어휘 트랜스크립션이 초기에 알려진다. 이와 관련하여, 도 1은 예시적인 목적의 널-아크를 이용하여, 수정된 트랜지션 구조를 갖는 디코딩 그래프를 도시한다.

바람직하게, 디코더는 단어 유한-스테이트 문법(FSG)으로 비터비(Viterbi)검색을 구현하여, 격자내의 검색 공간에 제약사항을 둔다.(비터비 검색은 소정의 잘 정의된 확률 척도에 따라 격자 구조를 통하는 많은 경로중에서 최적의 경로를 찾아내는 것이다.) 비터비 검색에 대한 설명은 현재 진행중이고 본 출원인과 동일인에게 양도된 미국특허출원 제09/015,150호 및 이에 관련된 「어쿠스틱에만 기반을 둔 자동의 음성 기본형 생성(Acoustic Only Based Automatic phonetic Baseform Generation)」이란 제목의 논문(Ramabhadran et al., ICASSP'98, 시에틀, 1998)에 기재된 발리스틱(balistic) 디코더에 대한 배경에서 찾을 수 있다. 바람직하게, 패스워드는 등록 스테이지 동안에 사용자에 의해 선택되고, 패스워드는 FSG의 제1부분을 형성한다.

4개 디지트 패스워드의 예가 도 1에 도시되어 있다. 또한, FSG의 이 부분은 바람직하게는 초기에 결정된 순서("강행 정렬")로 된 각각의 디지트 w₁,...,wτ간의 트랜지션만을 허용한다. 선택적으로, FSG의 제1 부분은 개별 단어들간에 침묵 및 어느 정도의 비-음성 이벤트(예를 들면, 잠시멈춤, 말더듬 등)을 허용할 수 있다.

FSG의 제2 부분은 실제 발언이 올바른 패스워드 발언 형태와 일치하지 않는 경우에 경쟁의 디코딩 경로를 밝힌다. 이 유니트들은, 개별적인 경쟁 단어(예를 들면, "배트(bat)" 대신에 "패트(pat")), 품사, 가비지(garbage) 모델, 또는 FSG의 제1부분에 지정된 다음 또는 임의의 후속 유니트으로의 스킵을 달성하는 비-방사("널") 아크(ø)일 수 있다. 특히, 널 아크(ø)는 도 1에 도시되어 있다.

경쟁 단어에 관련하여, 이들의 선택은 발언 거절(utterance rejection)이 구현되어질 어플리케이션 및 셋업에 따라 달라짐을 주목해야 할 것이다. 예를 들어, 제 1사용자의 "패트"와 제2 사용자의 "배트"와 같이 일부가 매우 유사한 2명의 사용자들에 대한 2개의 패스워드가 있다면, "패트"는 제2 사용자를 검증하는것에 대한 경쟁 단어가 될 수 있으며, "배트"는 제1 사용자를 검증하는 것에 대한 경쟁 단어가 될 수 있다. 그러나, 경쟁 단어들도 사용되는 어플리케이션에 따라 이들 선택이 달라지기 때문에 심지어 아주 비유사한 단어들이 될 수 있다.

"품사"는 문법 형태(예를 들면, "플레이트(plate)" 대 "플레이티드(plated)")와 어휘 그룹 모두를 포함하는 그룹으로서 간주될 수 있다. 예를 들어, 디지트 품사는 디지트 "0"에서 디지트 "9"까지 포함할 수 있지만, 타겟 발언의 각각의 타겟 디지트를 제외시킨다.

전술한 문맥상 "가비지"는 원래의 사운드가, 중얼거리는 소리, 다양한 백그라운드 사운드 등과 같이 언어학적으로 의미있거나 의미없을 수 있는 다수의 상이한 사운드를 획득할 수 있는 유니트로 간주될 수 있다.

도 2는 수정된 트랜지션 구조를 갖는 단어추가-기본형(addword-baseform)의 디코딩 그래프이다. 이에 연관된 디코더 구성은 어쿠스틱 패스워드의 어휘 구조가 알려지지 않은 것이다. 따라서, 도 2에 도시된 실시예에 따르면, 패스워드가 사용자에 의해 선택되지만, 이 시점에서 사용자는 단순히 어쿠스틱 발음으로서, 즉, 시스템에 해당 텍스트 트랜스크립션을 지정하지 않고, 패스워드를 등록한다.

도 1의 실시예와는 대조적으로, 등록 단계는 사용자 패스워드 ( 및 이의 가능한 반복)가 어쿠스틱 형태로 시스템에 제공되는 것을 포함한다. 시스템은 디코더(바람직하게는 미국특허출원 제09/015,150 호 및 Ramabhadran 등의 상기에서 언급한 논문에 기재된 바와 같은 발리스틱 디코더)를 이용하여 디코더 유니트측면에서의 트랜스크립션, 일반적으로 단음 또는 단음 클래스를 얻는다. 그런 후에, 트랜스크립션은 저장된다.

후속적으로, 발언 검증은 디코더 그래프 (즉, 격자 공간)를 등록 단계에서 보여진 올바른 패스워드 트랜스크립션에 따른 트랜지션을 허용하도록 제약함으로써 진행된다. 그러나, 이러한 제약은, 바람직하게는, 실제 발언이 올바른 패스워드와 상이할 때 대안을 디코딩하는 것을 허용하도록 하기 위해, 경쟁 유니트( competing unit), 유니트-클래스 또는 문법의 강행-정렬부로의 스킵들을 OR-추가시킴으로써 "느슨해진다".

도 1 및 도2에 관련하여 설명되고 예시된 실시예들의 간단한 개요를 통해, 본원 발명은, 적어도 하나의 바람직한 실시예에 따라, 패스워드가 디코딩 시스템에 등록되는 방식과 관련된 적어도 2개의 상이한 동작 환경을 포괄적으로 포함함을 이해할 수 있을 것이다.

제1 환경에서, 도 1에 대해 설명되고 예시된 바와 같이, 등록은 기본적으로 예를 들어 단어로 타이핑하는 것과 같은 텍스트 커뮤니케이션에 의해 이루어진다. 그런 후에 FSG가 생성된다. FSG는 바람직하게는 2개의 부분으로 이루어진다. 바람직하게, 제1 부분은 등록중에 사용자에 의해 선택된 패스워드에 부가하여 상기 패스워드에 대한 사소한 변형들로 이루어진다. 따라서, 바람직하게, FSG의 제1 부분은 "순수하게" 등록된 패스워드 그 자체를 넘어서, 개개의 단어들간에 편입된 잠시멈춤 및 말더듬과 같은 침묵 및 비-음성 이벤트를 포함하는 변형된 패스워드로 확장될 수있다.

반면에, FSG의 제2부분은 (등록된 패스워드에 비교될) 장래의 발언이 등록된 패스워드 형태와 일치하지 않는 경우에 경쟁적인 디코딩 경로를 밝혀낸다. 따라서, 바람직하게는, FSG의 제2 부분은 공지된 경쟁 단어, 품사, 가비지 모델 또는 FSG의 제1 부분에 지정된 다음 또는 후속 유니트로의 스킵을 표현하는 비-방사("널") 아크(ø)로 이루어질 수 있다. 이와 관련하여, 가능한 널 아크(ø)가 도 1에 예시되어 있다. FSG의 제2 부분을 생성하기 위해 이용되는 간단한 알고리즘의 비제한적인 예로서, 예를 들면, 모든 단일 단어들에 대해 스킵 트랜지션을 추가하고 난 후에 2개의 인접한 단어들마다 스킵 트랜지션을 추가할 수 있다. 이러한 원칙은 3개 이상의 인접한 단어들에 대해서도 계속되어, 마지막으로 추가된 스킵 트랜지션이 완전한 단어 시퀀스를 하나의 큰 스킵 트랜지션으로서 "교락(bridge)시키는" 것이 될 수 있다.

그러나, 도 2의 실시예는 텍스트보다는 음성적으로 패스워드 등록이 발생하는 것에 관련된 것이다. 미국특허출원 제09/015,150호는 어쿠스틱 등록에 기반하여 음성적으로 바뀌어진 기본형을 유도해내는 방법 및 장치를 상세히 설명한다. 따라서, 도 2에 관련하여 설명된 실시예는 바람직하게는 상기 미국특허출원 제09/015,150호 및 Ramabhadran 등의 상기 논문에 기재된 바와 같은 트랜스크립션 구성, 또는 장래의 사용자 발언과 비교되는 장래 이용을 위해 바람직하게는 저장되는 어쿠스틱 패스워드 등록의 음성 트랜스크립션을 유도하내기 위해 적합한 다른대체품을 이용할 것이다. 미국특허출원 제09/015,150호 및 Ramabhadran 등의 상기 논문에 기재된 바와 같은 트랜스크립션 구성에 대한 가능한 대체품으로는 벡터 양자화 기법 또는 인공지능망과 같은 음성 인식을 위한 기타 흔한 방법들이 있다.

도 1에 대해 설명되고 예시된 실시예와 유사하게, FSG는 바람직하게는 등록 단계에서 보여지고 강행-정렬 그래프에 의해 정의된 바와 같은 "올바른" 패스워드 트랜스크립션에 따라 트랜지션을 허용하도록 된다. 바람직하게 그래프는 격자 공간에 의해 정의된다. (미국특허출원 제09/015,150호를 참조하기 바란다.)

그러나, 이러한 강요는 바람직하게는, 실제 발언이 올바른 발음과 상이할 때 대안을 디코딩하도록 하기 위해, OR 로직을 통해, 경쟁 유니트, 유니트 클래스 또는 스킵(ø)을 FSG의 강행-정렬부에 추가함으로써, 확장되거나 "느슨해질" 수 있다. 도 2는 수정된 트랜지션 구조를 갖는 디코딩 그래프를 특별히 예시하고 있으며, 이 경우에는 널-아크(ø)에 의해 구체화되어 있으며, a₁..a_N은 타겟 기본형을 나타내고, 각각의 개별 요소 a₁, a₂등은 (원에 의해 표현된) "노드"들간의 아크를 나타낸다. 미국 특허출원 제09/015,150호 또는 이와 균등한 기능의 트랜스크립션 구성이 이용된다면, 전술한 아크들은 단일음의 부분 요소들일 수 있으며, 이들 각각의 부분요소들이 결합하여 단일음을 구성할 수 있음을 이해할 수 있을 것이다. "노드"들은 기본적으로 전술한 "아크"들이 연장되는 사이에서, 패스워드의 "흐름(passage)"을 구성하거나, 단순히 불연속의 타임 스텝으로 간주될 수 있다. 도 2에 도시된 그래프에서 각각이 바람직하게는 아크 시퀀스를 개시하고 종결하는견고한 원은, 아크 시퀀스의 이전과 이후에 침묵 상태를 나타내는 것으로서 각각 해석될 수 있다.

이제 도 3에 도시된 바와 같이 본원 발명의 적어도 하나의 바람직한 실시예에 따라 형성된 전체적인 발언 검증 시스템(100)에 대한 설명을 하기로 한다. 도3에 도시된 실시예는 도 1 및 도2와 관련하여 설명하고 예증된 등록 부분 구현물 모두를 설명해준다.

기본적으로, 도 3에 도시된 발언 검증 구성(100)과 관련하여, 도 1 및 도 2에 대해 설명되고 예시된 것중 하나와 같은 디코더 구성으로부터 나온 트랜스크립션(각각, 102, 104)은 필수적으로 가설 테스트를 겪게 되고, 이는 검증 단계를 구성할 것이다. 이용된 트랜스크립션 시스템에 상관없이, 디코더 유니트 측면에서의 시퀀스 (즉, 도 1의 단어 또는 도 2의 음들, 또는, 예를 들어, 부음성(subphonetic) 또는 음절 유니트에 기반을 둘 수 있는 [상기 언급한 바와 같은] 자동 기본형 생성을 위해 이용되기에 적합한 대체 기법이 있다면 가능한 그밖의 유니트)는, 사소한 오인식(misrecoginition), 실제 발언 내의 침묵 및 비-음성 이벤트로 인한 일정한 삽입들을 밝혀내는 동적 패턴 정합 기법을 이용함으로써, 문제의 패스워드의 "올바른" 또는 "이상적인" 실현예에 바람직하게 정합된다.

바람직하게, 프롬프트(prompted) 텍스트(102)가 이용된다면, 해당 기본형과, 도1에 관련하여 설명한 바와 같이, FSG의 제1 부분이 단계(106)에서 발생될 것이다. 이와 관련하여, 기본형 생성은, 필수적으로 텍스트 입력을 음성학상의 트랜스크립션으로 분석해주는 단계를 포함한다. 그리고나서, 바람직하게는 최종적인 FSG그래프(108)가, 예를 들어, 널 아크를 추가함으로써, 단계(110)에서 수정될 것이다. 이는, 도1과 관련하여 이제까지 설명한 바와 같이, FSG의 제2 부분이 생성되는 단계로 간주될 수 있다.

프롬프트 텍스트 대신에, 자동 유도된 기본형(104)이 이용된다면, 단계(106)가 필연적으로 생략될 수 있다. 따라서, 단계(110)에서, 도 2에 관련하여 설명한 바와 같이, 기본형으로부터 완전한 FSG를 생성하기 위해 필요한 수정이 이루어질 수 있다.

이용되는 대체기법(즉, 단계(102) 또는 단계(104)에서 표시된 대체기법)에 상관없이, 단계(110)의 결과는 바람직하게는 후속 단계(112)에서 음성 입력(111)을 FSG-기반 강행 정렬(FSG-based forced alignment) 형태로 분석하는데 이용될 완전한 FSG 그래프 또는 격자도 출력이다. 다시 말하면, (단계(114)에서의) 최종 검증 이전에, (예를 들어, 전화 다이얼링 등을 위한 패스워드 및/또는 구두 명령을 발하려는 누군가의 시도에 해당하는) 음성 신호(111)는, 미가공 음성 입력(111)을 단계(110)로부터 입력된 FSG 그래프로 조정함으로써 이루어지는 바와 같이, 음성 입력(111)으로부터 비-음성 유니트(예를 들어, 숨, 삐걱댐, 잠시 멈춤 등)를 제거함으로써 순수히 음성 유니트로 이루어진 강행-정렬 그래프로 분석될 것이다. 따라서, 예를 들어, 단계(110)로부터 입력된 FSG 그래프가 순수한 음성 유니트들 사이에 끼어들은 비-음성 유니트 (또는 이벤트)를 바람직하게 밝혀주는 한, 미가공 음성 입력(111)은 디코딩된 텍스트(113)로 출력되기 이전에 바람직하게는 이러한 비-음성 유니트들이 "제거될" 것이다. 전술한 바와 같이, 또한, 바람직하게는, 단계(110)로부터 입력된 FSG 그래프는, 경쟁 단어, 단어품사, 가비지 모델 등을 밝혀내어, 올바른 패스워드에 정확하게 일치하지는 않을 수도 있는 음성 입력(111)의 강행 정렬 형태가 확보되도록 해준다.

단계(112)에서, 부분적으로나마 음성 신호(111)가 FSG에 의해 밝혀지지 않는다면, 바람직하게는 디코더가 주어진 FSG에서 "최적 경로"를 찾는 역할을 수행하게 됨을 이해하여야 할 것이다. "최적 경로"는 근본적으로 임의의 적합한 수단에 의해 결정날 수 있지만, 바람직하게는 FSG의 기타 가능한 경로 중에서 전부는 아니더라도 가장 음성 신호에 근사하는 FSG 내의 경로를 판단하는 방식으로 수행될 수 있다. 대안적으로, 특별히 입력 신호(111)와 FSG간의 불일치가 심한 경우에는, 이러한 목적으로 한 경로가 FSG에 의해 랜덤하게 선택될 수 있다.

결론적으로, 음성 신호(111)와 연관된 FSG 경로는 (진정한 어쿠스틱 점수화가 이용된다면) 낮은 어쿠스틱 점수의 결과를 낳게 되며 (이하 참조), 더 중요하게는, 단계(114)에서, 디코딩된 유니트 시퀀스가 타켓 유니트 시퀀스에 일치하지 않을 가능성이 높아짐을 이해할 것이다. 유니트의 불일치는, 어쿠스틱 점수화를 부수적으로 이용하거나 이용하지 않든, 순수한 어쿠스틱 점수화보다는 좀더 신뢰할 수 있는 것으로 고려될 수 있다.

디코딩 단계(112)와 관련하여 전술한 디코딩 원칙은 또한 타겟 문장 만 반드시 포함하는 것으로 예측되지 않고 타겟 문장의 전 및/또는 후의 어떠한 알려지지 않은 음성 콘텐트 (예를 들어, "열려라 참깨"가 예상되는 타겟 패스워드인 경우의 "내가 생각하기에 패스워드는 열려라 참깨다")까지 포함하게 되는 발언들의 경우에도 적용될 수 있다. (이러한 발언 거절의 "관대한" 변형은 미국특허 제 5,897,616호와 같이 자연 언어 입력을 허용하는 어플리케이션을 지원하는데 특별한 관련이 있을 수 있다.) 이 경우에, 단계(112)에서 디코더는 단계(110)에서 생성된 FSG를 이용하여 "키워드/문장 분별기"로서 작동하며, 비터비 격자 경로의 시작과 끝점이 동적으로 결정되며 음성 신호(111)의 시작 및 끝점과 반드시 일치하지 않을 수도 있다는 점에서만 전술한 모드와 상이하다. 이는 D.A. James, S.J. Young의 "어휘에 무관한 단어분별에 대한 신속한 격자 기반 접근법(A Fast Lattice-Based Approach to Vocabulary Independent Wordspotting)" (Proc. of the International Conference on Acoustic, Speech, and Signal Processing 1994, Adelaide, Australia)에 기재된 바와 같이, 격자-기반 디코더에서의 키워드 분별을 위한 공지된 방법이다.

키워드-분별 케이스에서 FSG(110)를 이용하여 음성 신호를 디코딩하는 알고리즘 예는 다음과 같이 나타날 수 있다.

1. 단계(112)에서, 디코더는 처음부터 프레임 단위로 순차적으로 음성 발언을 처리하는데, 각각의 프레임은 일반적으로 10-20 ms의 짧은 타임 스텝에 해당한다.

2. 매 시간 프레임 v_t마다, 디코더는 FSG(110)에 의해 생성된 격자도에 프레임 v_t에서 시작하고 이전에는 존재하지 않았던 새로운 경로를 생성하고, 이에 부가하여 또한 이전의 어떠한 시간 프레임 v_t...v_(t-1)에서 생성된 (시작된) 일정한 경로를 유지한다.

3. 매 시간 프레임 v_t마다, 디코더는 또한 기존 경로의 표준화된 어쿠스틱 점수를 평가하고 프루닝(pruning) 스레시홀드에 따라 낮은 점수값을 갖는 것들을 무시한다.

4. 매 시간 프레임 v_t마다, 디코더는 또한 FSG(110)의 종료 노드에 존재하고 이전 프레임중 어느 하나에서 어느 정도의 로컬 점수 최대값을 달성하였고 그 프레임으로부터 일관되게 감소하는 점수 경향을 보여주는 부분 경로들을 저장하고 종결한다.

5. 디코더는 마지막 시간 프레임에서 멈추고 스텝 4동안 저장된 일단의 경로들로부터 최적의 부분 경로를 선택한다. 그러면, 이 경로는 디코딩된 텍스트(113)에 해당한다.

간단히 설명하면, 음성 신호(111)는 알려지지 않은 비-타겟 음성에 의해 선행되거나 후속되는 (v_t1에서 시작하여 v_t2에서 끝나는) 타겟 문장을 포함한다고 가정한다. 단계(112)에서 디코딩하는 동안, 디코더가 아직 발언의 타겟 영역으로 들어오지 않은 때(t<v_t1)에, 대부분의 경로는 이들이 수정된 FSG에 정합하기 않기 때문에 좋지 못한 확률로 인해 무시되거나 (스텝 3), FSG의 일정 부분에 정합함으로써 살아남게 될 것이다. 그러나, 후자의 경우에, 단어 시퀀스는 타겟 시퀀스가 아닐 가능성이 높다. 디코딩이 타겟 영역으로 들어가면 (v_t1<t<v_t2), 높은 점수의 경로가 v_t1에서 또는 이 주위에서 발생할 것이며, 이들 경로는 타겟 문장에 제대로 일치하게 될 것이다. 이와 유사하게, 디코딩이 타겟의 끝점을 지나면, 살아있는 경로의 표준화된 점수가 감소하기 시작할 것이며 이에 후속하여 저장되고 종결된다 (스텝 4). 반대의 경우에, 음성 신호(111)가 타겟 문장을 전혀 포함하고 있지 않으면, 부분 경로가 저장되지도 않을 뿐만 아니라 (공백 스트링 113) 그 내용은 다소 랜덤하여, 이러한 경우에는 단계(114)에서 거절이 발생할 가능성이 높다.

결국, 디코딩 단계(112)로부터 나아가 진행하여, 디코딩된 텍스트(113)는 바람직하게 정합 단계(114)에서 타겟 콘텐트(150)와 비교될 것이다. 타겟 콘텐트(150)는 바람직하게, 그것이 프롬프트 텍스트(102) 또는 자동 유도된 기본형(104)으로부터 발생하였는지에 상관없이, 문제의 패스워드에 대한 "순수한" 또는 "올바른" 발언 트랜스크립션이 된다.

단계(114)에서의 정합은 바람직하게는 점수(155)로 나타날 것이다. 점수(155)는 기본적으로 여러 가지 방법으로 정의될 수 있다. 한가지 방법은 올바른 유니트의 개수에 비례하고, 불일치하는 유니트, 잘못 삽입된 유니트 및 잘못 삭제된 유니트의 개수에 반비례하는 함수로서 점수를 유도하는 것이다. 더 나아가서, 매 2개 유니트의 유사성에 대한 특별한 측정치가 정의되어 점수 계산용으로 이용될 수 있다. 대안적으로, 점수는 "확신치(confidence measure)"라 불리울 수 있다. 실제 정합을 위해, 본 기술의 당업자들에게 일반적으로 잘 알려진, "동적 패턴 정합" 또는 "동적 시간 와핑(time warping)" 프로세스가 이용될 수 있다.

그런 후에, 획득된 점수는 단계(160)에서의 검증 결정의 기초 역할을 한다. 이는 발언-표준화 스레시홀드를 이용하여 수행될 수 있다. (바람직하게는 단계(114)에서 수행된) 동적 패턴 매칭의 방법을 통해, 스레시홀드-기반 결정 목적으로 적합한 확신치 또는 점수(155)를 유도해내는 것이 가능하며, 따라서 조정가능한 연산 시점을 갖을 가능성을 유지할 수 있음을 이해하여야 할 것이다.

대안적으로, 전술한 동적 패턴 정합 점수(155)는 올바른 패스워드 트랜스크립션에 해당하는 격자 경로의 어쿠스틱 점수와 결합하여 단계(160)에서 검증 결정이 이루어질 수 있도록 해준다. (어쿠스틱 점수화에 대한 설명은 미국특허출원 제09/015,150호 및 Ramabhadran 등의 상기 논문에서 찾을 수 있다.) 본원 발명의 적어도 하나의 바람직한 실시예에 따르면, 올바른 기본형 경로의 어쿠스틱 확률 계산이 포함되고, 하나 또는 여러개의 경쟁 경로에 의해 또는 최적의 널-문법 경로 또는 이들의 임의 결합에 의해 표준화된다. 음성-기반 점수 또는 어쿠스틱-기반 점수 모두 바람직하게는 다음의 방식중 하나와 결합된다.

1. 우선 각각의 점수가 임계화되고 개별 결정에 따라 최종 결정이 이루어지거나,

2. 최종 결정을 위해 스레시홀드를 적용하기 전에 점수들이 수치적으로 결합된다.

본원 발명의 실시예를 수행하기 위해, L.R. Rabiner 등의 "불연속의 단어 인식을 위한 동적 시간 와핑 알고리즘에 대한 연구(Considerations in Dynamic Time Warping Algorithms for Discrete Word Recognition)"(IEEE Trans. on Acoustics,Speech, and Signal processing, Vol. ASSP 26, No. 6, 1978년 12월)에서 동적 패턴 정합(Dynamic Pattern Matching: DPM)의 적합한 예를 발견할 수 있다.

점수화 방법의 공식화는 다음과 같이 행해질 수 있다.

정의된 디코더의 유니트들 a₁, a_w각각 사이의 거리 측정치 (또는 대안적으로 "가능성" 또는 "유사성")를 한 쌍의 양식으로 정의한다. 이 거리는 대칭적이고 D(a_i, a_j)로 표시된다. 유니트들의 디코딩된 시퀀스와 유니트들의 원래(타겟) 시퀀스에 의해 축이 결정되는 DPM 그리드의 모든 노드에 대해, 그 노드에서 대응하는 2개의 유니트들간에, D값이 계산된다. 이 거리 (또는 가능성)는 상기의 Rabiner 등의 논문에 기재된 방식으로 축적되며 DPM 그리드를 통하는 최적의 경로를 찾는데 이용된다. 최종 최적의 경로의 거리 (또는 대안적으로 가능성)는 스레시홀드-기반 발언 거절을 위한 최종의 DPM "벌점(penalty)" (또는 가능성의 "점수")가 된다.

DPM과 어쿠스틱 점수를 결합한 방법의 비제한적인 예로서, 예를 들면 다음과 같이 점수의 선형 결합을 이용할 수 있다.

최종_점수(Score_final) = A*DPM_점수(Score_DPM) + B*어쿠스틱_점수(Score_Acoust)

최종_점수는 최종 점수이고, DPM_점수는 동적 패턴 정합으로부터 얻어진 점수이고, 어쿠스틱_점수는 어쿠스틱 점수이고, A와 B는 사용중인 어플리케이션에 적합하다고 생각되는 방식으로 각각 DPM_점수와 어쿠스틱_점수 각각에 가중치를 주는 선정된 상수이다.

간단히 설명하면, 전술한 설명으로부터, 본원발명의 적어도 하나의 실시예와 관련하여 이용되는 발언 검증의 한가지 기본 원칙은, 스레시홀드를 갖는 어쿠스틱-가능성-기반 확신 측정치(confidential measures)만을 이용하는 것과는 대조적으로, 라벨 또는 단어의 디코딩된 시퀀스에 근거하여 수락/거절 규칙을 이용하는 것임을 이해하게 될 것이다. 양호하게 이용되는 또 하나의 관련 원칙은 경쟁적인 문법 부분을 적용함으로써 발언이 올바른 패스워드와 일치하는 경우의 정확한 트랜스크립션 뿐만 아니라 잘못된 발언의 오류있는 트랜스크립션도 허용하기 위해 디코더 내에 제약조건을 적용한다는 것이다.

전술한 바에 의해, 본원 발명에 따른 방법 및 장치에 연관된 중요한 장점은 완전-디코더-기반 시스템에 상당하는 성능을 유지하면서 매우 낮은 디코딩 복잡도(강행 정렬에 대한 낮은 정도의 부가적인 계산)를 갖는다는 것이다.

전술한 바와 같이, 본원 발명의 적어도 한 실시예에 따른 방법 및 장치의 실용적인 이용은 사실상 제한이 없지만, 예를 들면, 이름-기반 전화 어플리케이션 (예, 전화 번호와 연관된 이름을 발음함으로써 간단히 전화 번호가 다이얼링될 수 있음)이 포함될 수 있다. 또다른 예측가능한 실용예로는 음성 인식(예, 컴퓨터 시스템에서 사용자가 민감한 파일을 액세스하는 것을 허락해줌)이 있다. 어느 어플리케이션이든, 사용자의 초기 발언이 공지된 패스워드에 충분히 정합하지 않아 거절된다면 사용자가 발언을 반복하도록 만들기 위해 발언 거절이 채택될 수 있다.

본 명세서에서 이용되는 용어 "패스워드"는 하나의 단어로 이루어지는 패스워드뿐만 아니라 하나 이상의 단어로 이루어지는 패스워드 문장을 의미하는 것임을 이해할 수 있을 것이다. 따라서, 용어 "패스워드"와 "패스워드 문장"은 서로 교환가능한 것으로 간주될 수 있다.

본원 발명의 적어도 하나의 바람직한 실시예에 따르면, 본원 발명은 적어도 하나의 타겟 패스워드를 생성하기 위한 타겟 패스워드 생성기와, 적어도 하나의 타겟 패스워드와, 음성 발언에 기한 텍스트를 비교하고 상기 적어도 하나의 타겟 패스워드 문장에 대한 비교 결과에 따라 음성 발언을 수락하거나 거절하기 위한 수락 구성부를 포함한다. 타겟 패스워드 생성기와 수락 구성부는 함께 적합한 소프트웨어 프로그램을 실행시키는 적어도 하나의 범용 컴퓨터 상에 구현될 수 있다. 또한, 이들은 적어도 하나의 집적 회로 상에 또는 적어도 하나의 집적 회로의 일부에 구현될 수도 있다. 따라서, 본 발명은 하드웨어, 소프트웨어 또는 이들의 결합으로 구현될 수 있음을 이해할 수 있을 것이다.

본 명세서에서 다르게 기재되어 있지 않다면, 본 명세서에서 언급하고 인용한 모든 특허 출원, 특허공보 및 기타 공표물들은 본 명세서의 일부로서 참조된다고 가정한다.

본원 발명의 예시적인 실시예들이 첨부된 도면을 참조하여 설명되었지만, 본원 발명은 이러한 구체적 실시예에 한정되는 것이 아니며, 본원 발명의 범위를 벗어남이 없이 본 기술 분야에서 통상의 지식을 가진 자들에 의해 다양한 수정 및 변형이 이루어질 수 있음을 이해할 수 있을 것이다.

Claims

구두 발언(verbal utterance)을 검증하기 위한 장치에 있어서, 상기 장치는

적어도 하나의 타겟 패스워드 문장을 생성하는 타겟 패스워드 문장 생성기와,

구두 발언에 기한 텍스트를 적어도 하나의 타겟 패스워드 문장에 비교하고 상기 적어도 하나의 타겟 패스워드 문장에 대한 비교 결과에 따라 상기 구두 발언을 수락하거나 거절하는 수락 구성부

를 포함하는 구두 발언 검증 장치.
제1항에 있어서, 구두 발언을 상기 수락 구성부에서 상기 적어도 하나의 타겟 패스워드 문장에 비교되어질 디코딩된 텍스트(decoded text)로 변환해주는 디코더를 더 포함하는 구두 발언 검증 장치.
제2항에 있어서, 상기 디코더에 의해 이용될 유한 스테이트 문법(finite state grammar)을 생성하는 유한 스테이트 문법 생성기를 더 포함하며,

상기 디코더는 구두 발언을 수정하기 위해 상기 유한 스테이트 문법을 이용하여 상기 구두 발언을 디코딩된 텍스트로 변환하도록 이루어진 구두 발언 검증 장치.
제3항에 있어서, 상기 디코더는 구두 발언의 강행 정렬(forced alignment)을 수행하기 위해 상기 유한 스테이트 문법을 이용하여 구두 발언을 디코딩된 텍스트로 변환하도록 이루어진 구두 발언 검증 장치.
제3항에 있어서, 상기 유한 스테이트 문법 생성기는 유한 스테이트 문법의 제1 부를 생성하기 위한 제1 생성기와 유한 스테이트 문법의 제2 부를 생성하기 위한 제2 생성기를 포함하는 구두 발언 검증 장치.
제5항에 있어서,

상기 제1 생성기는 적어도 하나의 타겟 패스워드 문장을 포함하는 유한 스테이트 문법의 제1부를 생성하도록 이루어져 있으며,

상기 제2 생성기는 상기 타겟 패스워드 문장의 경쟁 디코딩 경로(competing decoding paths)를 포함하는 유산 스테이트 문법의 제2부를 생성하도록 이루어진 구두 발언 검증 장치.
제1항에 있어서, 상기 타겟 패스워드 문장 생성기는 적어도 하나의 패스워드에 대응하는 입력된(prompted) 텍스트를 수락하도록 이루어진 구두 발언 검증 장치.
제1항에 있어서, 상기 타겟 패스워드 문장 생성기는 음성 등록(acoustic enrollment)으로부터 유도된 기본형으로서 적어도 하나의 패스워드를 자동 생성하도록 이루어진 구두 발언 검증 장치.
제1항에 있어서, 상기 수락 구성부는 구두 발언에 기한 텍스트와 상기 적어도 하나의 타겟 패스워드 문장을 비교한 것에 따라 정합 점수를 유도해내고 상기 정합 점수에 따라 상기 구두 발언을 받아들이거나 거절할 지에 대해 판단하도록 이루어진 구두 발언 검증 장치.
삭제
삭제
구두 발언을 검증하는 방법에 있어서, 상기 방법은

적어도 하나의 타겟 패스워드 문장을 생성하는 단계와,

구두 발언에 기한 텍스트와 적어도 하나의 타겟 패스워드 문장을 비교하는 단계와,

상기 적어도 하나의 타겟 패스워드 문장에 대한 비교 결과에 따라 상기 구두 발언을 수락하거나 거절하는 단계

를 포함하는 구두 발언 검증 방법.
제12항에 있어서,

상기 구두 발언을 디코딩된 텍스트로 변환하는 단계를 더 포함하고,

상기 비교 단계는 상기 디코딩된 텍스트를 상기 적어도 하나의 타겟 패스워드 문장과 비교하는 단계를 포함하는 구두 발언 검증 방법.
제13항에 있어서,

유한 스테이트 문법을 생성하는 단계를 더 포함하고,

상기 변환 단계는 상기 유한 스테이트 문법을 이용하여 상기 구두 발언을 디코딩된 텍스트로 변환하여 상기 구두 발언을 수정하는 단계를 포함하는 구두 발언 검증 방법.
제14항에 있어서, 상기 구두 발언을 디코딩된 텍스트로 변환하는 상기 단계는 상기 유한 스테이트 문법을 이용하여 상기 구두 발언의 강행 정렬을 수행하는 구두 발언 검증 방법.
제14항에 있어서, 유한 스테이트 문법을 생성하는 상기 단계는 상기 유한 스테이트 문법의 제1부와 상기 유한 스테이트 문법의 제2부를 생성하는 단계를 포함하는 구두 발언 검증 방법.
제16항에 있어서,

상기 유한 스테이트 문법의 제1부를 생성하는 상기 단계는 상기 적어도 하나의 패스워드 문장의 포함 단계를 포함하고,

상기 유한 스테이트 문법의 제2부를 생성하는 상기 단계는 상기 적어도 하나의 패스워드 문장의 경쟁 디코딩 경로의 포함 단계를 포함하는 구두 발언 검증 방법.
제12항에 있어서, 적어도 하나의 타겟 패스워드 문장을 생성하는 상기 단계는 입력된 텍스트를 받아들이는 단계를 포함하는 구두 발언 검증 방법.
제12항에 있어서, 적어도 하나의 타겟 패스워드 문장을 생성하는 상기 단계는 음성 등록으로부터 유도된 기본형을 자동 생성하는 단계를 포함하는 구두 발언 검증 방법.
제12항에 있어서, 상기 받아들이거나 거절하는 단계는 상기 구두 발언에 기한 텍스트와 상기 적어도 하나의 타겟 패스워드 문장을 비교한 것에 기해 정합 점수를 유도해내고 상기 정합 점수에 따라 상기 구두 발언을 수락할지 거절할 지를 판단하는 단계를 포함하는 구두 발언 검증 방법.
제20항에 있어서, 정합 점수를 유도해내는 상기 단계는 동적 패턴 정합을 통해 정합 점수를 유도해내는 단계를 포함하는 구두 발언 검증 방법.
제20항에 있어서, 정합 점수를 유도해내는 상기 단계는 동적 패턴 정합과 음성 점수화를 결합한 것을 통해 정합 점수를 유도해내는 단계를 포함하는 구두 발언 검증 방법.
기계에 의해 판독될 수 있으며, 구두 발언을 검증하는 방법 단계들을 수행하기 위해 상기 기계에 의해 실행가능한 명령들의 프로그램을 구체적으로 구현한, 프로그램 저장장치에 있어서, 상기 방법은

적어도 하나의 타겟 패스워드 문장을 생성하는 단계와,

구두 발언에 기한 텍스트와 적어도 하나의 타겟 패스워드 문장을 비교하는 단계와,

상기 적어도 하나의 타겟 패스워드 문장에 대한 비교 결과에 따라 상기 구두 발언을 수락하거나 거절하는 단계를 포함하는 프로그램 저장 장치.