KR19990014292A

KR19990014292A - 신뢰성 있는 바지-인과 음성검출의 조기종료에 유용한 연속 상태의 음성 인식에서의 단어 카운팅 방법과 절차

Info

Publication number: KR19990014292A
Application number: KR1019980030787A
Authority: KR
Inventors: 라피드 안툰 수카르; 라피드 안툰 세틀러
Original assignee: 제이. 알. 펜로드; 루센트 테크놀로지스 인코포레이티드
Priority date: 1997-07-31
Filing date: 1998-07-30
Publication date: 1999-02-25
Also published as: CA2238642A1; EP0895224A2; EP0895224A3; EP0895224B1; JP3568785B2; CA2238642C; DE69827202D1; KR100512662B1; DE69827202T2; USRE38649E1; US5956675A; JPH1195791A

Abstract

가장 좋은 음성인식 결과가 얻어지고, 에너지에 근거한 음성의 종료가 이루어지기 전에 그것이 이용가능하게 하는 음성 인식기술이 발전되어왔다. 본 발명은 음성-응답 시스템에 대한 지적 바지-인(intelligent barge-in)을 제공하고, 처리 스루풋(throughput)을 증가시키며, 전체 단어 시퀀스와 관련되는 작업들의 패러렐링(paralleling) 그리고/또는 파이프라이닝(pipelining)을 제공하는서브 시퀀스들을 출력하는 단어들을 카운트하기 위해서, 신속하게 이용가능한 음성인식결과들을 좀 더 유용하게 사용하고 있다.

Description

신뢰성 있는 바지-인과 음성검출의 조기종료에 유용한 연속 상태의 음성 인식에서의 단어 카운팅 방법과 장치

본 발명은 자동 음성인식방법과 장치에 관한 것으로서, 특히 연결된 단어들의 인식을 신속하게 하는 장치와 방법에 관한 것이다.

여러 가지의 자동 음성인식방법들과 시스템들이 존재하며, 널리 알려져 있다. 동적 프로그래밍과 Hidden Markov Models(HMMS)를 이용하는 방법은 Chin Hui Lee와 로렌스 알. 라비너가 쓴 Frame -Synchronous Network search Algorithm for Connected Word Recognition이라는 논문에 게재되어 있다. 상기 논문은 IEEE Transactions on Acoustics, Speech and, Signal Processing의 1989년 통권 37호 11월호에 실려져 있다. 리-라비너 논문은 1989년에 연결된 단어들의 자동 음성인식에 대한 방법들과 시스템들을 설명해주고 있다.

이.부르케, 더블류 추와 큐. 주가 쓴 A Wave Decoder for Continuous Speech Recognition은 1996년 10월 ICSLP의 Proceedings에 게재되었는데, 음성인식기능과 하드웨어 조건들을 개선시키는 빔 검색으로 알려진 기술을 설명하고 있다. 부르케-추-주의 논문은 또한 D.B. Paul이 쓴 An Efficient A* Stack Decoder라는 것도 언급하고 있다. 이 논문은 가장 좋고, 제일 먼저 얻을 수 있는 전략과 기술들을 설명하고 있다. (best-first strategies and techniques)

음성 인식은 상술한 논문에서 설명한 바와 같이, 입력 음성 발음과 대응하는 단어들(W1-Wn)의 가장 우수한 시퀀스(가장 높은 가능성 있는 점수)를 검색하는 과정을 포함하고 있다. 음성 인식을 위해 사용되는 검색 알고리즘은 동적 비터비 디코더이다. 이 디코더는 그 기능을 효과적으로 완수한다. 발음과 일치하는 가장 좋은 단어 시퀀스를 발견하기 위해서 모든 가능한 단어들을 완전히 검색하는 과정은 너무 방대하고, 시간을 많이 요구하게 된다. 규모와 시간문제들을 해결하기 위해서, 빔 검색이 자주 실시되었다. 빔 검색에서는, 현재의 최적 가능성으로부터 소정의 수학적 거리내에 있는 상기 단어들의 시퀀스 가설(hypotheses)들이 보존되고, 확장된다. 가능성이 없는 가설들은 검색으로부터 제거되거나 또는 삭제된다. 가능성이 없는 단어 시퀀스 가설들을 정리하는 것은 검색이 요구하는 크기와 시간을 감소시키는 효과를 가지고 있으며, 음성 인식 시스템의 실제적인 실행이 가능하도록 한다.

인식된 발음의 초기에서는, 소저의 문법에 근거한 시퀀스를 시작하기 위해서 유효한 단어들이 되는 상기 단어들이 구동된다. 각 시간 프레임에서는, 비터비 알고리즘을 사용하는 동적 프로그램이 단어 망의 구동 부분에 걸쳐 수행된다. 단어 망의 구동 부분은 빔 검색이 방법이 사용될 때에, 변헌다는 것을 알아야 한다. 가능성이 없는 단어 시퀀스들은 삭제되며, 가능성 있는 단어들은 소저의 문법에서 명시된 대로 확장된다.

이러한 좀 더 가능성 있는 단어 시퀀스들은 소정의 문법내에서 명시된대로 확장되며, 단어 망의 구동부분(active portion)내에 포함되게 된다. 각 시간 프레임에서는, 시스템이 모든 사용 가능한 단어 시퀀스들의 링크된 목록을 디코딩 추리(tree)상의 각 노드들에 편집한다. 이러한 디코딩 추리는 노드들과 함께 각 시간 프레임 동안에 갱신된다. 더 이상 구동상태가 아닌 노드는 제거되고, 새로운 노드들이 새롭게 구동된 단어들을 위해 추가된다. 그러므로, 디코딩 추리는 링크된 목록 수단의 빔 검색 알고리즘의 동작을 통해 삭제되지 않은 상요가능한 단어 시퀀스들을 보존하고 있다. 디코딩 추리의 각 노드는 한 단어와 대응한다. 그리고, 단어 종료시간, 단어 시퀀스의 이전 단어 노드에 대한 포인터와 저장된 단어 시퀀스의 누적 점수와 같은 정보를 가지고 있다. 발음의 끝에서는, 최적의 누적 점수를 가진 단어 노드들은 가장 가능성 있는 단어 시퀀스를 얻기 위해서, 디코딩 추리내에 있는 포임터 데이터의 시퀀스들을 통해 반대로 검색되어진다. (traversed back). 이러한 역 트래버싱은 보통 음성 인식에서 백트래킹(backtracking)이라고 알려져 있다.

자동 음성인식에 대한 기존의 방법과 시스템들의 단점은 발음의 종료부분을 결정하기 위해서 에너지 검출기들을 사용한다는 것이다. 에너지 검출은 발음의 시작과 종료를 결정하기 위해서, 신호 처리와 관련 분야에서 잘 알려진 기술을 제공하고 있다. 음성 인식 방법(200)에 근거한 에너지 검출은 도2에 도시되어 있다.

방법(200)은 음성 처리를 위해 전화선을 통해 수신된 신호와 같은 입력 신호를 시간 프레임들로 디지탈화 시키는 백그라운드(background) 시간 프레이밍 배열(도시 안됨)을 사용하고 있다. 어떤 프레임이 음성 처리를 수행할 수 있는 충분한 에너지를 가지고 있는지를 단계(20)에서 결정하기 위해, 시간 프레임들이 분석된다. 프레임이 충분한 에너지를 가지고 있지 않다면, 단계(202)는 다음 프레임에 대해 반복된다. 그러나, 만약 프레임의 내용을 처리할 수 있는 충분한 에너지가 있다면, 방법(200)은 대표적인 음성인식 단계들인 단계(204-210)들로 진행한다. 다음에는, 단계(220)에서는, 수신된 에너지와 어느 시스템이 동시에 발생된 오럴(aural) 프롬프트(prompt)를 플레이( play)시키는지를 알아보기 위해서, 음성 인식 처리를 시작하는 프레임들이 검사된다. 만약 예라면, 바지 인(barge in) 조전들이 발생되며, 발음의 음성처리의 나머지 부분을 위해 오럴 프롬프트는 단계(222)에서 중지된다. 다음에는, 단계(220)에서의 부정적인 판단 또는 단계(222)에서의 프롬프트 동작불능에 근거하여, 단계(224)는 충분한 에너지가 없는 갭(gap) 시간이 발생되었는지를 판단한다. 이러한 갭 시간은 현재 발음의 종료를 의미한다. 그것이 발생되지 않았다면, 그것은 분석할 음성이 더 있다는 것을 의미한다. 그리고, 단계(204)로 돌아간다. 그렇지 않으면,에너지가 없는 갭 시간은 현재 발음의 종료로 해석된다. 그리고 백트래킹은 발음과 일치하는 가장 가능성 있는 단어 시퀀스를 발견하기 위해서 수행된다. 불행하게도, 이러한 갭 시간은 1초에서 1초 30의 범위를 가지고 있는 시간 지연에 해당한다.

개별적인 호출자를 위해서, 이러한 지연은 문제가 되지 않는다. 그러나, 전화 서비스 제공자에게는, 자동 컬렉트(collect) 서비스와 같이, 하루에 수 천통의 호출에 대해 1초와 1초 30이라는 지연은 점점 증가하게 될 것이다. 6000 호에 대해서는, 음성 인식 시스템을 사용하고 있는 동안에, 1초 30은 2시간 30분이라는 지연에 해당한다. 자주 사용하는 시스템에 대해서는, 이러한 1초 에서 1초 30 이라는 지연은 전화 서비스 제공자에게 더 많은 음성 인식기들을 사도록 하거나 또는 요금청구가 가능한 전화 서비스의 많은 시간을 손실하게 한다. 게다가, 가장 적합한 단어 시퀀스를 발견하는 백 트래킹은 발음 판단의 종료가 에너지 갭 시간에 근거하여이루어질 때까지 시작되지 않으므로, 패러렐(parallel)과/또는 파이프라이닝 처리를 위해 부분적인 단어 시퀀스의 사용은 가능하지 않게 된다.

간단히 말하자면, 본 발명의 한 실시예에 따라, 상기 문제점들은 음성 발언이 시작되었는지를 판단하는 단계를 가지고 있는 방법에 의해 해결된다. 만약 발음이 시작되지 않았다면, 다음 프레임을 얻고, 이러한 음성 발음을 재동작시키는 과정이 판단 단계를 가동시킨다. 발음이 시작되었다면, 다음 단계는 다음 시간내내에 있는 프레임 주기를 나타내는 음성 발음의 음성 프레임응 얻는 것이다. 다음에는, 음성 인식에서 사용되는 특징들이 음성 프레임으로부터 추출된다. 다음 단계는 음성 인식망을 만들기 위한 동적 프로그래밍을 수행하는 것이며, 그 뒤에는 음성인식 망을 이용하는 빔 검색을 수행하는 단계가 수행된다.

다음 단계는 빔 검색 후에, 음성 발음의 디코딩 추리를 갱신하는 것이다. 다음 단계는 음성 발음의 제1 단어가 수신되었는지를 판단하는 것이다. 그리고, 그 단어가 수신되었다면, 어떠한 오럴 프롬프트를 동작 불능시키며, 다음 단계로 진행된다. 만약 그렇지 않다면, 즉, 제1 단어가 수신되지 않았다고 판단된다면,다음 단계로 진행한다. 이러한 다음 단계는 N 개의 단어들이 수신되었는지를 판단한다. 만약 N개의 단어들이 수신되지 않았다면, 다음 프레임을 얻는 단계로 돌아간다. 그렇지 않다면, 그냥 다음 단계로 진행한다. N은 음성 발음의 종료를 나타내는 음성 발음의 최대 단어 카운트이므로, 이러한 다음 단계는 수신된 음성 발언과 대응하는 가장 큰 가능성을 가지고 있는 단어 스트링을 얻기 위해서, 가장 큰 가능성을 가지고 있는 빔 검색 경로를 통해 백트래킹 하는 것이다. 스트링이 결정된 후에, 다음 단계는 단어 스트링을 출력하는 것이다.

본 발명의 다른 양태에 따르면, 상술한 문제점들은 음성 발언의 음성 인식을 위한 시스템을 제공함으로써 해결된다. 상기 시스템은 음성 발언이 시작되었는지를 판단하는 수단과, 시간적으로 다음에 있는 프레임 주기를 나타내는 음성 발언의 음성 프레임을 얻기 위해서, 상기 음성 발음에 응답하여, 판단 수단을 구동시키는 수단과, 상기 음성 프레임으로부터 특징들을 추출하는 수단과, 동적 프로그래밍을 이용하여 음성 인식 망을 구측하는 수단과, 음성 인식 망을 이용하여, 빔 검색을 수행하는 수단과, 빔 검색 후에 음성 발음의 디코딩 추리를 갱신하는 수단과, 음성 발음의 제1 단어가 수신되었는지를 판단하고, 수신되었다면, 오럴 프롬프트를 동작중지 시키는 수단과, 음성 발음의 다른 음성 인식처리를 빨리 종료하기 위해서 N 개의 단어들이 수신되었는지를 판단하는 수단과, 상기 N 단어 판단 수단에 응답하고, 수신된 음성 발음과 대응하는 가장 큰 가능성을 가진 단어 스트링을 얻기 위해서, 가장 최적의 점수를 가지고 있는 빔 검색 경로를 통해 백트래킹을하는 수단과, 상기 단어 스트링을 출력하는 수단으로 구성되어 있다. 본 발명의 특정 실시예에 따르면, 이러한 시스템은 연결된 메모리내에 저장되고, 그 메모리로부터 복구되는 저장된 프로그램을 실행하는 처리기에 의해 이루어진다.

도1은 본 발명에 따르는 음성인식장치를 포함하는 시스템을 도시한 브록도.

도2는 종래의 에너지 레벨이 트리거된(triggered) 음성인식 방법을 도시한 흐름도.

도3은 에너지와 인식에 근거한 음성인식방법을 도시한 흐름도.

도4는 발음의 부분결과들을 출력하기 위해인식에 근거한 음성인식방법을 도시한 흐름도.

*도면의 주요부분에 대한 부호의 설명

80 : 전화망 106 : 메모리

102 : 시스템 200 : 기존의 방법

104 : 처리기

도1을 참조하면, 본 발명에 따르는 시스템(100)을 이용하는 배열(10)의 블록도가 도시되어 있다. 시스템(102)은 메모리(106)내에 저장된 프로그램들을 처리하는 처리기(104)를 가지고 있다. 시스템(102)의 다중화 보기들은 한 개의 회로판에서 구현되어졌으며, 그로 인해, 음성 인식을 위한 다중 채널들을 제공하게 된다. 메모리(106)는 음성 인식 프로그램과 지원 데이터를 저장하기 위해서 ROM, RAM과 벌크 저장장치(bulk storage)와 같은 메모리의 모든 형태들을 포함하고 있다. 시스템(102)은 연속적으로 전화망(80)으로부터 데이터를 받아들이며, 그 데이터를 시간 프레임드로 나누며, 각 시간 프레임을 처리하여, 처리기에 의해서 제공되는 음성인식 방법들과 저장된 프로그램에 의해 분석되어지는 수신입력신호들의 계수들과 수 많은 특성들을 제공하게 된다. 백 그라운드내에서 언급된 바와 같이, 이러한 음성 처리기술들은 Hidden Markov Models들과 빔 검색 기술들을 포함하고 있다.

도2는 백 그라운드내에서 언급된 바와 같이, 음성 인식을 위한 기존의 방법(200)을 도시하고 있다. 방법(200)은 도1에 도시된 시스템(102)상에서 사용된다.

도1과 도3을 참조하면, 시스템(102)을 사용하여 실현되는 다른 방법이 도시되어 있다. 방법(300)은 본 발명에 따르는 방법이다. 방법(300)은 음성이 될 수 있는 에너지가 시스템(102)에 의해서 수신되었는지를 판단하는 단계(302)로부터 시작된다. 만약 음성이 된느 에너지가 수신되지 않았다는 것이 판단되며는, 단계(302)는 다음 주기동안에 반복된다. 그러므로, 단계(302)는 도2의 단계(202)와 같이, 전화 망으로부터 수신된 신호들을 연속적으로 프레임으로 만들기 위해서 시간 프레이밍 처리를 요구한다. 종종, 이러한 프레임들은 비어 있거나, 또는 단지 잡음신호만을 가지고 있게 된다. 이러한 경우에서는, 에너지 레벨이 낮으므로, 단계(302)는 비어 있거나 또는 낮은 에너지 레벨 프레임을 인식된 음성으로 판단하지 않을 것이다. 만약, 잡음이 많거나 또는 누군가가 기침, 호흡 또는 대화와 같은 음성 또는 어떤 종류의 발음을 하게 되면, 단계(302)는 음성 인식 처리들을 시작하기 위해서 충분한 음성 에너지가 존재한다고 판단할 것이다. 그리고, 음성인식처리는 시작된다. 다음에는 단계(304)가 최근의 시간 프레임을 순차적으로 로드한다. 만약 이것이 시작이라면, 이것은 제1 프레임이다. 제1 프레임 후에, 단계(304)는 현재 발음의 음성처리가 완료될 때까지, 모든 프레임들을 순차적으로 로드하게 될 것이다.

단계(304)에서 로딩을 한 후에, 각 프레임은 단계(306)에서 그 특징들이 추출되고 저장된다. 이러한 특징 추출은 대표적인 특징 추출이다.

단계(308)에서는, 추출된 특징들이 Hidden Markov Model과 같이, 소정의 문법의 단어들과 단어 시퀀스의 모델들과 비교된다. 추출된 특징들은 동작중인 단어 모델들과 비교되므로, 가능 점수들은 단계(308)에서 편집된다. 단계(310)는 동작 노드 모델 점수를 취하고, 인식되는 발음이 될 수 있는 가능한 단어 시퀀스들의 단어 망을 구축하기 위해서 동적 프로그래밍을 수행한다. 이러한 동적 프로그래밍은 동작중에 비터비 알고리즘을 수행한다. 일단 현재 프로그램에 대한 동적 프로그래밍이 완료되면, 빔 검색이 단계(312)에서 수행된다. 이러한 빔 검색은 가능성이 없는 단어 시퀀스들을 삭제하고, 가능성 있는 단어 시퀀스들과 동작되는 단어 목록을 확장한다. 단계(314)는 발음과 대응하는 가장 최적의 단어 시퀀스를 발음의 종료시에 제공하기 위해서 구축된 디코딩 추리를 갱신한다. 단계(314)후에는, 방법(300)이 두 개의 평행한 경로들과 함께 동작한다. 두 개의 경로들은 동작하며, 발음 종료의 각 정의에 따라 발음의 종료를 찾게된다.

단계(320)는 소정의 문법이 발음내에서 인식되었는지를 판단한다. 이러한 판단은 음성 인식에 근거한 것이며, 에너지에 근거한 것이다. 이러한 판단은 디코딩 추리의 비침묵(non-silence) 노드들과 관련된 포인터들을 트래버싱함으로써(traversing)디코딩 추리내에 포함된 사용가능한 단어 시쿼스들을 조사하는 과정에 의해 이루어진다.

만약 모든 사용가능한 경로들이 소정의 문법내에 있는 최소한 한 개의 비침묵 단어를 포함하고 있다면, 제1 단어가 발음이 되어졌다고 판단된다. 만약 문법의 제1 단어가 발음이 되어졌다면, 음성인식에 근거한 바지-인이 선언되고, 어떤 오럴 프롬프트가 단계(322)에서 동작중지된다. 만약 이것이 제1 단어가 아니거나, 또는 다음 단계가 제1 단어처리 단계(322)후에 있다면, 방법(300)은 단계(324)로 진행한다. 단계(320,322)의 인식에 근거한 바지-인은 절대 감지(absolute sense) 면에서, 에너지 검출방법보다 더 늦다. 그 이유는 소정의 문법의 부분이 아닌 단어들 또는 음성들에 대해서는, 음성 인식에 근거한 바지-인이 더욱 신뢰성이 잇기 때문이다. 이러한 개선된 바지-인의 신뢰도는 바지-인에 대해서는 중지하는 오럴 프로프트가 기침, 잡담 또는 오럴 프롬프트에 대한 예측된 응답과 관련이 없는 다른 음성들에 대해서는 중지하지 않게될 것이다. 그러므로, 화자는 진정한 바지-인 음성이 아닌 몇몇 음성에 의해 우연히 중지되는 오럴 프롬프트에 의해 혼란을 겪거나 그의 대화 속도가 느려지지 않게 된다.

단계(324)에서는,가장 최적의 단어 시퀀스내에 있는 단어들의 수를 각각 카운트하는 과정이 수행된다. 단계(324)에서는, 현재 프레임에 대한 디키코딩 추리의 내용들이 검사되며, 모든 사용가능한 단어 시퀀스들의 단어 수를 카운트한다. 이러한 검사는 디코딩 추리내에 포함되어 있는 사용가능한 단어 시퀀스들을 검사하고, 디코딩 추리의 비침묵 노드들과 관련된 포인터들을 트래버싱함으로써, 이루어진다.

만약 디코딩 추리내의 각 단어가 각 시퀀스내에서 정확하게 n개의 단어들을 가지고 있다면, n개의 단어들이 발음되어졌다고 판단된다. 그러나, 만약 최소한 사용가능한 단어 시퀀스들 중 한 개가 n개 이상의 단어들을 가지고 있다면, 그 검사는 현재 프레임에 대해 단어 카운트가 n이라고 결론을 내리지 못한다. n개의 단어 카운트가 나타날 경우에는 최대 단어 카운트 N을 가진 단어 카운트 n을 얻을 수가 있다. 만약 n 카운트가 N, 즉,시퀀스내의 에측되는 최대 수와 동일하다면, 발음의 음성처리는 완료되었다고 선언되며, 백트래킹은 가장 최적의 단어 시퀀스를 출력하기 위해서 시작된다. N개의 단어를 가진 가장 최적의 단어 시퀀스의 출력은 현재 발음을 인식하는 과정을 종료하게 된다. 음성 인식에 근거한 발음종료는 결과의 정확도에 영향을 끼치지 않으면서, 처리된 각 단어 시퀀스에 대해 약 1초를 절약하게 된다.

단계(320-324)와 병행하여 수행되는 것은 단계(330)이다. 단계(330)는 현재의 비어 있는 프레임과, 충분한 에너지를 포함하고 있는 최종 프레임간의 갭 시간을 측정한다. 상기 갭 시간이 초과된다면, 그것은 발음이 N 개의 예측된 단어들이 인식되어지기 전에, 발음이 중지했다는 것을 의미한다. 만약 갭 시간이 N번째 단어가 판단되기전에 결정된다면, 단계(330)는 발음이 완료되었다는 것을 선언하며, 가장 최적의 단어 시퀀스를 출력하는 백트래킹이 시작된다. 일반적으로, 방법(300)에서는, 갭 시간종료는 에러를 의미한다. 그러나, 인식기의 출력은 음성 합성기(도시 안됨)에 의해 발음기(utterer)로 수용되거나 또는 판독된다.

N의 보기는 장거리 전화 번호가 될 수 있으며, 대부분의 신용카드에서 16개의 디지탈 번호가 될 수도 있다.

도4를 참조하면, 본 발명의 다름 실시예가 도시되어 있다. 방법(400)은 방법(300)과 매우 유사하다. 방법(400)의 단계(402-414)는 실제적으로 방법(300)의 단계(302-314)와 동일하다. 그러므로 더 이상 논의되지 않을 것이다.

디코딩 추리갱신 단계(414)후에는, 방법(400)이 방법(300)과 같이, 두 개의 평행한 경로들로 분리된다. 단계(421)는 현재 프레임에 대한 디코딩 추리의 내용들을 검사하며, 모든 사용가능한 단어 시퀀스들의 단어수를 계산한다. 이러한 검사는 디코딩 추리내에 포함되어 있는 사용가능한 단어 시퀀스들을 검사하고, 디코딩 추리의 비침묵 노드들과 관련된 포인터들을 트래버싱함으로써, 이루어진다. 만약 디코딩 추리내의 각 단어가 각 시퀀스내에서 정확하게 n개의 단어들을 가지고 있다면, n개의 단어들이 발음되어졌다고 판단된다. 그러나, 만약 최소한 사용가능한 단어 시퀀스들 중 한 개가 n개 이상의 단어들을 가지고 있다면, 그 검사는 현재 프레임에 대해 단어 카운트가 n이라고 결론을 내리지 못한다. n개의 단어 카운트기 단계(421)에서 얻어질 때에, 단어 카운트 n은 단계(424)에 서 출력된다. 그리고 방법(400)은 단계(424)로 진행한다. 단계(424)에서는.단어 카운트 n이 1과 최대 단어 카운트 N과 비교된다.

1과의 비교는 방법(300)의 단계(320)와 매우 유사한다. 그 이유는 제1 단어가 발음되었다면, 현재의 단어는 제1 단어가 되며, 그 후에는, 음성인식에 근거한 바지-인이 선언되며, 어떤 오럴 프롬프트가 단계(426)에서 동작중지되기 때문이다. 만약 단계(424)에서 단어 카운트 n의 비교가 1보다 크고, N보다 적다는 것을 나타낸다면, 유효한 단어 서브시퀀스 또는 그룹이 존재한다. 그렇지 않으면, n에 대한 규정은 존재하지 않게 되며, 결정되지 않은 n은 단계(421)의 결과가 될 것이다. 그리고, 방법(400)은 단계(404)로 돌아간다. 방법의 이러한 장점은 이와 같아. 처음의 세 개 또는 네 개의 단어들이 안정되자마자, 10 개로된 장거리 전화번호 또는 16개로된 신용카드 번호에 대해서는, 그것들이 단어 시퀀스의 종료전에 출력을 위해 이용가능하다는 것이다. 이러한 3,4, 또는 7개로된 단어 그룹들은 전체의 발음전에 출력될 수 있으며, 음성으로 인식된 전체 단어 시퀀스는 완료된다. 그러므로, 영역 코드들과 전화교환 또는 신용카드 회사의 억세스 라링들은 억세스될 수 있으며, 억세스가 완료될 때에, 단어 시퀀스의 나머지를 기다리게 된다. 이것은 발음의 초기 부분들 동안에 인식된 데이터의 파이프라이닝이 바로 사용될 수 있도록하며, 발음의 나머지 부분이 도착했을 때에는, 그 부분이 파이프라인을 완료하도록 한다. 단계(426) 또는 단계(427)후에, 방법(400)은 단계(404)로 돌아가서, 발음의 끝이 도달할 때까지 데이터의 다음 시간 프레임을 처리하게 된다.

단계(421)의 결과는 단어 카운트 n = N 이라면, 발음에 대한 단어들의 최대 카운트가 얻어지며, 음성 인식은 처리를 중지한다. 그리고, 발음과 대응하는 가장 최적의 단어 시퀀스를 발견하기 위해서 백트래킹을 시작한다. n=N이 될 때에, 이러한 백트래킹은 바로 시작된다. 그러면, 발음이 완료되었다는 것을 결론짓기 위해서 에너지 검출판단에 의해 사용된 1초에서 1.30초 동안 대기할 필요가 없어지게 된다. 단어 카운팅이 효과가 있는 이유는 만약, 단어들의 정확한 수가 인식되었다면, 처리가 종료되고, 가장 최적의 은답에 대한 백트래킹이 기작되기 때문이다.

적당한 경우에, 부분단어 시퀀스는 최대 단어 카운트 N을 변경시키기 위해서 검색표(look-up table)와 함께 사용될 수 있다는 것을 알아야 한다. 예르 들면, 만약 한 개의 신용카드회사가 단어 시퀀스내에 비표준 단어들을 가지고 잇다면, 신용카드회사의 계좌중 하나를 나타내는 부분 단어 시퀀스를 인식하게 되면, 그에 따라, 방법(400)이 발음의 마지막 단어가 도달되기 전에 최대 단어 카운트 N를 변경시키게 된다. 필요하다면, 전화번호의 번호에 대해서도 마찬가지로, 없는 번호와, 영역 코드 또는 교환번호는 보통의 10 자리 영역코드와 지방번호로부터 더 크거나 또는 더 작은 최대 단어 카운트로 변경하는데 사용될 수 있다. 게다가, 명확하게 영역코드들 또는 전화번호가 아니고, 신용카드 회사의 인식번호가 되는 부분 단어 시퀀스들은 전화번호 인식으로부터 신용카드 번호 인식으로 변경하는데 사용될 수 있다.

신용카드 번호를 수용하는 기능으로부터 전화번호를 수용하는 기능으로 반대로 스위칭하는 것도 제공될 수 있다. 이러한 스위칭을 위해, 최대 단어 카운트 N은 일반적으로 변경되어야 한다.

방법(400)은 방법(300)과 같이, 단계(421-427)와 동시에 동작되는 에너지에 근거한 판단 브랜치(branch)이다.단계(430)는 현재의 비어 있는 프레임과, 충분한 에너지를 포함하고 있는 최종 프레임간의 갭 시간을 측정한다. 상기 갭 시간이 초과된다면, 그것은 발음이 N 개의 예측된 단어들이 인식되어지기 전에, 발음이 중지했다는 것을 의미한다. 만약 갭 시간이 N번째 단어가 판단되기전에 결정된다면, 단계(430)는 발음이 완료되었다는 것을 선언하며, 가장 최적의 단어 시퀀스를 출력하는 백트래킹이 시작된다. 일반적으로, 방법(400)에서는, 갭 시간종료는 에러를 의미한다. 그러나, 인식기의 출력은 음성 합성기(도시 안됨)에 의해 발음기(utterer)로 수용되거나 또는 판독된다.

음성 인식 또는 에너지 검출에 의해 판단된 방법(400)의 종료부분에서는, 백트래킹 작업이 디코딩 추리에 대해서 수행되므로, 입력 발음과 대응하는 가장 최적의 단어 시퀀스가 얻어진다. 상기 단어 시퀀스는 방법(400)에 의해서 출력된다.

그러므로, 단어 카운팅을 사용함으로써 좀 더 빠게 수행된는 음성 인식방법이 발표되었다는 것을 알게 될 것이다.

이러한 더욱 빠른 음성 인식 방법과 장치는 음성 인식과 관련된 작업들을 패러렐 또는 파이프라이닝 하기 위한 부분 단어 시퀀스들을 출력할 수 있다. 게다가, 이러한 방법과 장치는 음성 응답 시스템을 위해서 좀 더 신뢰성 있는 바지-인 작업을 제공할 수 있다. 본 발명은 특히 양호한 실시예들을 참조하여 기술되었기 때문에, 형태, 상세한 점과 출원부분에서의 여러 가지 변경들이 이루어질 수 있다는 것을 종래의 기술자들은 알게될 것이다. 첨부된 청구항들은 본 발명의 정신에서 벗어나지 않는 형태, 상세한 점과 출워부분에서의 모든 변경들을 다루도록 작성되었다.

Claims

음성인식 방법에 있어서,

a. 음성발음이 시작되었는지를 판단하고, 만약 발음이 시작되지 않았다면, 단계(a)의 시작부분으로 돌아가고, 그렇지 않다면, 단계(b)로 진행하는 단계와,

b. 시간적으로 다음에 있는 프레임 주기를 나타내는 음성 프레임을 얻어내는 단계와,

c. 상기 음성 프레임으로부터 특징들을 추출하는 단계와,

d. 음성인식 문법의 단어 모델을 점수화하기 위해서, 현재의 음성 프레임으로부터 추출된 특징들을 사용하는 단계와,

e. 비터비 알고리즘을 이용하여 단어 시퀀스들의 활동 망을 동적으로 프로그래밍하는 단계와,

f. 활동 망을 갱신하기 위해서, 가능성이 없는 단어들을 삭제하고, 가능성 있는 단어들을 확장하는 단계와,

g. 디코딩 트리를 갱신하는 단계와,

h. 음성 발음의 이러한 음성 프레임에 대한 단어 카운트 n을 결정하는 단계와,

i. n을 검사하고, 만약 단어 카운트가 1과 같다면, 어떤 오럴(aural) 프롬프트를 동작중지 시키고, 단계(b)로 진행하며, 만약, 단어 카운트 n가 1보다 크고 종료 카운트 N보다 적을 때에는, 단계(j)로 진행하며, 단어 카운트 n이 최소한 종료 카운트 N과 동일하다면, 단계(l)로 진행하는 단계와,

j. n 개의 단어들이 각 단어 카운트들에 의해 인식되어졌는지를 판단하고, 만약 N개의 단어들이 인식된 것으로 판단되지 않았다면,단계(b)로 돌아가며, 만약 n개의 단어들이 인식이 되었다면, n개의 단어들을 출력하고, 단계(b)로 돌아가고, 그렇지 않을 경우에는, 단계(l)로 진행하는 단계와,

k. 부분 단어 시퀀스가 단어 시퀀스와 일치하여, 다른 최대 단어 카운트를 요구하는지를 판단하며, 만약 다른 최대 단어 카운트가 요구된다면, 최대 단어 카운트 N을 다른 최대 단어 카운트로 조정하는 단계와,

l. 현재의 활동중인 단어 시퀀스들의 각각의 단어 카운트가 동일한 종료 카운트 N과 동일한지를 판단함으로써, 발음의 끝 부분이 도달되었는지를 판단하고, 만약 활동중인 단어 시퀀스들의 각 단어 카운트가 N과 같다면, 발음이 종료되었음을 알리고, 단계(n) 으로 진행하며, 그렇지 않을 경우에는, 단계(m) 으로 진행하는 단계와,

m. 소정의 갭 시간에 대한 어떤 음성 에너지가 존재하지 않는지를 판단하고, 만약 없다면, 발음의 종료를 알리고, 단계(n)으로 진행하며, 그렇지 않을 경우에는, 단계(b)로 진행하는 단계와,

n. 발음과 매칭될 수 있는 가장 큰 확률을 가진 단어 시퀀스를 얻기 위해서, 여러 가지의 활동중인 단어 시퀀스들을 백트래킹하는 단계와,

o. 가장 큰 확률을 가진 단어 시퀀스와 대응하는 스트링을 출력하는 단계로 구성되어 있는 방법.
제1 항에 있어서, 현재의 음성 프레임을 위해, 디코딩 트리내에 포함된 모든 사용가능한 단어 시퀀스들을 검사하는 단계와,

디코딩 트리의 비침묵 노드들과 관련된 포인터들을 트래버싱하는 단계와,

모든 사용가능한 단어 시퀀스들의 단어 수들을 카운트하는 단계를 추가로 포함하고 있는 방법.
제1 항에 있어서, 인식된 상기 제1 단어는 이미 명시된 문법내에서 발견된 단어가 되어야만 하는 방법.
제1 항에 있어서, 다른 최대 단어 카운트를 요구하는 부분 단어 시퀀스는 전화 번호의 앞 번호가 되는 방법.
제1 항에 있어서, 부분 단어 시퀀스는 신용카드 계좌번호의 부분이 되는 방법.