KR20000071367A

KR20000071367A - 음성 인식 시스템 및 방법

Info

Publication number: KR20000071367A
Application number: KR1020000008455A
Authority: KR
Inventors: 쉐벨리어데이비드에릭; 카젝키헨리엘.
Original assignee: 비센트 비.인그라시아; 모토로라 인코포레이티드
Priority date: 1999-02-23
Filing date: 2000-02-22
Publication date: 2000-11-25
Also published as: BRPI0001268B8; DE10006930A1; CN1264892A; GB2347252A; CN1171201C; KR100321565B1; US6275800B1; BRPI0001268B1; GB0003269D0; GB2347252B; JP2000242294A; MXPA00001875A; BR0001268A; DE10006930B4; JP4354072B2

Abstract

음성 인식 시스템(204, 206, 207, 208)은 트레이닝(training) 동안 측정된 적어도 하나의 배경 잡음 레벨과 동작의 인식 모드(recognition mode) 동안 입력 발음에 대해 이루어진 잡음 신호 측정치의 함수로 가변적인 거부 엄격성(rejection strictness)을 발생한다. 단어 엔트런스 패널티(word entrance penalty)은 가변적인 거부 엄격성의 함수로 지정된다.

Description

음성 인식 시스템 및 방법{VOICE RECOGNITION SYSTEM AND METHOD}

본 발명은 음성 인식에 관한 것이다.

발성자에 의존하는 음성 인식 시스템은 입력 음성의 프레임(frame)에 신호 처리를 실행하고 각 프레임을 나타내는 특성 벡터를 추출하는데 특성 추출 알고리즘을 사용한다. 이 처리는 프레임 비율로 일어난다. 프레임 비율은 일반적으로 10 내지 30 ms 사이이고, 여기서는 20 ms의 기간으로 예시화된다. 많은 수의 다른 특성이 음성 인식 시스템에서 사용되도록 공지된다.

일반적으로, 트레이닝(training) 알고리즘은 하나 이상의 발음의 단어나 관용구를 샘플링한 음성으로부터 추출된 특성을 사용하여 그 단어나 관용구의 모델에 대한 매개변수를 발생한다. 이 모델은 이어서 모델 저장 메모리에 저장된다. 이들 모델은 추후 음성 인식 동안에 사용된다. 인식 시스템은 미지의 발음의 특성을 저장된 모델 매개변수와 비교하여 최상의 정합을 결정한다. 최상의 정합 모델은 인식 시스템으로부터 결과로 출력된다.

이 처리에서는 히든 마르코브 모델(Hidden Markov Model, HMM) 기초의 인식 시스템을 사용하는 것으로 알려졌다. HMM 인식 시스템은 발음의 프레임을 HMM의 상태(state)에 할당한다. 가장 큰 확률 또는 스코어를 내는 프레임-대-상태 할당이 최상의 정합으로 선택된다.

많은 음성 인식 시스템은 유효한 발음과 유효하지 않은 발음간을 구별하지 않는다. 오히려, 이들 시스템은 가장 가까운 정합인 저장 모델 중 하나를 선택한다. 일부 시스템은 유효하지 않은 발음을 검출하여 거부하도록 추구하는 어휘외 거부(Out-Of-Vocabulary) 알고리즘을 사용한다. 이는 어휘의 동적 크기 및 미지의 합성으로 인해 작은 어휘의 발성자에 의존하는 음성 인식 시스템에서는 어려운 문제이다. 이들 알고리즘은 잡음이 있는 조건에서 잘못된 거부의 수가 증가되므로, 잡음이 있는 조건에서는 기능이 떨어진다.

실제로, 어휘외 거부 알고리즘은 유효하지 않은 발음의 정확한 거부와 유효한 발음의 잘못된 거부를 측정하여 실행도의 균형을 맞추어야 한다. 부정확한 정합과 같이 자주 일어나는 잘못된 거부는 혼동을 일으키므로, 잘못된 거부 비율은 고객 만족에 있어서 중요한 역할을 할 수 있다. 그래서, 어휘외 거부는 인식에 대한 사용자 기대를 만족시키는 균형이다.

그에 따라서, 잡음 레벨을 근거로 거부 한계값을 계산하는 것이 공지되어 있다. 예를 들면, 제1 음성 프레임의 검출에 앞서 잡음 레벨을 측정하는 것이 공지되어 있다. 한계값은 측정으로부터 계산된다. 단어 기준 패턴과 입력 음성 패턴 사이의 차이가 거부 한계값 보다 크면, 입력은 거부된다. 이와 같이, 이러한 시스템은 임의의 잡음 입력 레벨에 의존한다. 이러한 측정은 의미있는 거부 결정을 이루는데 의존될 수 없다.

따라서, 음성 인식 시스템에서 발음을 거부하는 근거를 제공하는 개선된 방법이 필요하다.

본 발명은 트레이닝(training) 및 인식 동안 배경 잡음 레벨을 근거로 가변 거부의 엄격성을 갖는다. 트레이닝 동안, 잡음 특성은 트레이닝 발음으로부터 발생된다. 증가적인 잡음 기준 평균은 잡음 특성으로부터 업데이트된다. 그 통계는 메모리에 저장되어 이들을 인식 알고리즘에 이용가능하게 만든다. 잡음 통계는 더 높은 레벨의 배경 잡음 때문에 핸즈프리(handsfree) 모드에서 트레이닝할 때는 업데이트되지 않는다. 이용가능한 잡음 통계가 없으면, 인식 알고리즘은 최소의 엄격성으로 디폴트(default)된다.

인식 동안, 입력 잡음 에너지 특성은 기준 잡음 통계와 비교되어 잡음비가 계산된다. 어휘외 거부 알고리즘의 엄격성은 그 잡음비를 근거로 선택된다. 본 발명은 잡음이 있을 때 유효한 발음의 잘못된 거부를 방지하는데 도움을 준다.

엄격성 매개변수는 두 레벨의 정렬 알고리즘 인식 탐색에서 단어가 입력될 때의 패널티(penalty)이다. 최상 경로의 신뢰 측정은 음성 태그(voice tag) 모델과 나란히 0 평균 1 상태 가비지 모델(zero mean one state garbage model)로 실시된다.

도 1은 무선 통신 디바이스를 설명하는 블록도 형태의 회로도.

도 2는 도 1에 따른 디바이스에서 음성 인식 시스템을 설명하는 블록도 형태의 회로도.

도 3은 2개 노드(node)를 갖는 문법 네트워크(grammar network)를 설명하는 도면.

도 4는 트레이닝(training)을 설명하는 흐름도.

도 5는 윈도우(window) 및 그에 대응하는 프레임을 설명하는 도면.

도 6은 인식을 설명하는 고레벨의 흐름도.

도 7은 인식 동안의 트레이닝을 설명하는 흐름도.

도 8은 패널티 기능을 설명하는 도면.

<도면의 주요 부분에 대한 부호의 설명>

100 : 디바이스

102 : 전송기

104 : 수신기

106 : 안테나

108 : 호출 프로세서

110 : 메모리

112 : 오디오 회로

114 : 마이크로폰

116 : 스피커

202 : 아날로그-디지탈 변환기

도 1에서는 본 발명이 유리하게 사용될 수 있는 디바이스(100)가 설명된다. 디바이스(100)는 여기서 설명을 위해 휴대용 무선전화기인 것으로 설명되지만, 컴퓨터, 개인용 디지털 보조기, 또는 음성 인식을 유리하게 사용할 수 있는 다른 디바이스, 특히 메모리 효율성 음성 인식 시스템을 잘 이용할 수 있는 디바이스가 될 수 있다. 도시된 무선전화기는 안테나(106)에 연결된 전송기(102) 및 수신기(104)를 포함한다. 전송기(102) 및 수신기(104)는 호출 처리 기능을 실행하는 호출 프로세서(108)에 연결된다. 호출 프로세서(108)는 디지털 신호 프로세서(DSP), 마이크로프로세서, 마이크로제어기, 프로그램가능한 논리 유닛, 상기를 둘 이상 조합한 것, 또는 다른 적절한 디지털 회로를 사용해 실시될 수 있다.

호출 프로세서(108)는 메모리(110)에 연결된다. 메모리(110)는 RAM, EEPROM(electronically erasable programmable read only memory), ROM(read only memory), 플래쉬(flash) ROM, 또는 이들 메모리 종류를 둘 이상 조합한 것을 포함한다. 메모리(110)는 음성 인식 동작을 포함하여 호출 프로세서(108)의 동작을 지지하고, 상태 전이 경로 메모리(state transition path memory)를 지지하도록 전자적으로 변경가능한 메모리를 포함하여야 한다. ROM은 디바이스 운영 프로그램을 저장하도록 제공될 수 있다.

오디오 회로(112)는 마이크로폰(114)으로부터 호출 프로세서(108)로 디지털화된 신호를 제공한다. 오디오 회로(112)는 호출 프로세서(108)로부터의 디지털 신호에 응답해 스피커(116)를 구동시킨다.

호출 프로세서(108)는 디스플레이 프로세서(120)에 연결된다. 디스플레이 프로세서는 디바이스(100)에 추가 프로세서 지지를 원하는 경우 선택적인 것이다. 특히, 디스플레이 프로세서는 디스플레이(126)에 디스플레이 제어 신호를 제공하고 키(key)(124)로부터 입력을 수신한다. 디스플레이 프로세서(120)는 마이크로프로세서, 마이크로제어기, 디지털 신호 프로세서, 프로그램가능한 논리 유닛, 또는 그들의 조합을 사용해 실시될 수 있다. 메모리(122)는 디지털 논리를 지지하도록 디스플레이 프로세서에 연결된다. 메모리(122)는 RAM, EEPROM, 플래쉬 ROM, 또는 이들 메모리 종류를 둘 이상 조합한 것을 사용해 실시될 수 있다.

도 2를 참고로, 마이크로폰(114)에 의해 수신되는 오디오 신호는 오디오 회로(112)의 아날로그-디지털 변환기(202)에서 디지털 신호로 변환된다. 종래 기술에 숙련된 자는 오디오 회로(112)가 간략하도록 여기서 설명되지 않은 필터링과 같은 추가 신호 처리를 제공함을 인식하게 된다. 호출 프로세서(108)는 마이크로폰(114)에 의해 출력된 아날로그 신호를 처리한 디지털 신호에 대해 특성 추출(204)을 실시하고, 사용자 발음을 나타내는 특성 벡터 세트를 만든다. 특성 벡터는 각 단시간 분석 윈도우(short time analysis window)에 대해 만들어진다. 여기서 설명되는 예에서는 단시간 분석 윈도우가 20 ms인 프레임이다. 그래서, 프레임당 하나의 특성 벡터가 있다. 프로세서(108)는 음성 인식(206)이나 트레이닝(training)(207)에 그 특성을 사용한다.

트레이닝에서, 발음에 대한 특성 벡터는 메모리(208)에 저장되는 HMM 형태의 템플레이트(template)를 생성하는데 사용된다. 음성 인식에서, 입력 발음을 나타내는 특성 벡터는 사용자가 말한 것을 결정하도록 메모리(208)에 저장된 어휘 단어의 템플레이트에 비교된다. 시스템은 최상의 정합, 최상 정합의 세트, 또는 선택적으로 비정합을 출력할 수 있다. 메모리(208)는 양호하게 메모리(110)(도 1) 중에서 비휘발성 메모리 부분으로, 예를 들면 EEPROM 또는 플래쉬 ROM이 될 수 있다. 여기서 사용되는 바와 같이, "단어"는 "John Doe"와 같이 하나 이상의 단어이거나 "call"과 같이 단일 단어가 될 수 있다.

특성 추출기(204)는 일반적으로 입력 음성의 프레임에 신호 처리를 실행하고, 각 프레임을 나타내는 특성 벡터를 프레임 비율로 출력한다. 프레임 비율은 일반적으로 10 내지 30 ms 사이로, 예를 들면 20 ms의 기간이다. 트레이너(trainer)(207)는 하나 이상의 발음의 단어나 관용구를 샘플링한 음성으로부터 추출된 특성을 사용해 그 단어나 관용구의 모델에 대한 매개변수를 발생한다. 이 모델은 모델 저장 비휘발성 메모리(208)에 저장된다. 모델 크기는 직접적으로 특성 벡터 길이에 의존하므로, 더 큰 특성 벡터 길이는 더 큰 메모리를 요구한다.

메모리(208)에 저장된 모델은 인식(206) 동안 사용된다. 인식 시스템은 미지의 발음의 특성과 저장된 모델 매개변수간의 비교를 실행하여 최상의 정합을 결정한다. 최상의 정합 모델은 인식 시스템으로부터 결과로 출력된다.

이제는 도 3을 참고로, 음성 인식을 나타내는 문법 네트워크(grammar network)가 설명된다. 노드 N₁및 N₂는 원형 A₁내지 A_N과 가비지 모델(garbage model) 원형 A_GM으로 나타내지는 HMM 모델에 의해 연결된다. 원형 A₁내지 A_N은 음성 인식 시스템에서 트레이닝되어 메모리(208)에 저장된 각 HMM 모델 전부를 나타낸다. 가비지 모델은 단일 상태의 가비지 모델 기준을 나타낸다.

노드 N₁은 단일 상태 잡음 모델 A₁ ^noise를 포함한다. 노드 N₂는 유사하게 단일 상태 잡음 모델 A₂ ^noise를 포함한다. 인식 시스템은 원형 A₁내지 A_N및 A_GM중 하나를 최상의 정합으로 선택하는데 인식 알고리즘을 사용하거나, 선택적으로 정합이 없음을 식별한다(즉, 음성이 검출되지 않는 경우). A_GM이 최상의 원형이면, 입력은 유효하지 않은 것으로 거부된다.

이제는 도 4를 참고로, 트레이닝 과정이 설명된다. 먼저, 주요 트레이닝(207)은 단계(402)에 나타내지는 바와 같이 메모리(208)에 저장될 각 발음이나 상태 모델 A₁내지 A_N을 유도하도록 실행된다. HMM 모델을 생성하는데는 다수의 다른 방법이 공지되어 있다. 도 4의 설명에서는 각 원형이 스킵을 포함하지 않는 좌우측 HMM 모델이므로, 자체 루프(self loop) 및 단일 스텝 전이(single step transition)만이 허용된다. 이후에는 이러한 모델을 유도하는 것에 대한 간단한 설명이 주어진다. 종래 기술에 숙련된 자는 다른 공지된 방법에 의해 원형이 다른 공지된 모델이 될 수 있음을 인식하게 된다.

먼저, 특성 추출기(204)에서는 특성이 추출된다. 특성 추출기는 각 프레임의 발음에 대해 켑스트럼(cepstral) 및 델타 켑스트럼(delta cepstral) 계수를 발생하는 것으로 고려된다. 종래 기술에 숙련된 자는 켑스트럼 특성을 계산하고 그 도함수를 평가하는데 많은 방법이 있고 이들 계수를 유도하는데 적절한 방법에 사용될 수 있음을 인식하게 된다. 프레임 F₁내지 F_N(도 5)은 윈도우(window) 통해 만들어지고, 각 프레임은 특성을 포함한다. 일부 프레임은 잡음을 나타내고, 그로부터 특성 추출기에 의해 잡음 에너지 특성이 만들어진다. 다른 프레임은 음성 신호의 일부를 나타낸다.

다시 도 4를 참고로, 단계(604)에서, 프로세서(108)는 트레이닝 동안(207) 각 원형 모델에 대한 잡음 특성을 계산한다. 잡음 측정은 포착 윈도우의 시작 및 종료 동안 만들어진 특성 벡터로부터 이루어진다. 특별히, 발음의 시작 주기 및 종료 주기 동안 측정된 특성 벡터의 평균을 사용하는 것이 바람직하다. 예를 들면, 포착 윈도우의 처음 160 ms, Savge 및 마지막 160 ms, Eavge가 사용될 수 있다. 포착 윈도우는 잡음 특성 벡터가 저장되는 시작 주기 및 종류 주기를 포함하여, 도 5에 도시된다. 포착 윈도우는 예를 들면, 단어의 최대 기간을 나타내는 2초 길이가 될 수 있다. 이 포착 윈도우는 입력 발음의 기대 길이 및 실시 메모리의 제한에 의존하여 고정되거나 가변길이가 될 수 있다.

단계(404)에서 유도된 잡음 특성을 갖는 프로세서(108)는 단계(406)에서 그 디바이스가 핸즈프리(handsfree) 모드인가 여부를 결정한다. 디바이스는 키패드(keypad) 메뉴를 통해 사용자에 의해 활성화된 핸즈프리 모드임을 나타내는 상태 플래그를 포함하거나, 디바이스(100)가 핸즈프리 키트에 연결될 때 스위치를 작동시키는 기계적 커넥터를 포함할 수 있다.

디바이스가 핸즈프리 모드가 아니면, 프로세서는 단계(410)에 나타내지는 바와 같이 트레이닝 동안(각 발음에 대해 독립적으로 행해지는) Savge 및 Eavge의 최소치(즉, min(Savg, Eavg))인 잡음 특성 Xnz를 계산한다. 각 프레임의 입력 음성에 대해, 에너지값은 그 샘플로부터 계산될 수 있다. Savge 및 Eavge는 표시된 프레임으로부터의 에너지값의 평균이다. 최소치는 각 트레이닝 발음에 대해 운행 잡음 평균을 업데이트하는데 사용된다. 이 잡음 평균은 다음 수학식1을 사용해 반복적으로 업데이트된다.

여기서, Xref(k)는 제k 잡음 특성에 대한 기준값이고, Xnz1은 제1 트레이닝 발음에서 Savge 및 Eavge의 최소치로부터 발견된 잡음 특성을 나타내고, Xnz2는 제2 트레이닝 발음에서 Savge 및 Eavge의 최소치로부터의 잡음 특성을 나타낸다.

업데이트된 잡음 평균 및 잡음 평균에 사용되는 트레이닝 발음의 수는 단계(412)에 나타내지는 바와 같이 메모리(110)에 기록된다.

단계(406)에서 디바이스가 핸즈프리 모드인 것으로 결정되면, 단계(408)에 나타내지는 바와 같이, 핸즈프리 플래그 HF가 설정된다. 플래그 HF는 트레이닝이 핸즈프리 모드인 경우 잡음 모델을 업데이트하는 대신에 핸즈프리 워드 모델의 존재를 나타내도록 설정된다.

트레이닝 환경은 비교적 조용하다고 가정된다. 이는 모든 트레이닝 발음이 적어도 18 dB의 신호 대 잡음비를 갖도록 요구하는 신호질 점검을 통해 강화될 수 있다. 점검은 또한 Savge 및 Eavge 측정 시간 동안 사용자가 말하지 않도록 하여 사용될 수 있다.

프로세서(108)에 의한 인식(206)의 일반적인 동작은 도 6을 참고로 설명된다. 먼저, 단계(602)에 나타내지는 바와 같이, 시스템이 식별하고자 하는 입력 발음인 테스트 발음에 대해 잡음 특성이 계산된다. 인식 모드에서, 배경 잡음 측정은 발음 윈도우의 똑같은 처음 160 ms Savge 및 마지막 160 ms Eavge로부터 이루어진다. 인식하는 동안의 잡음 측정은 Xrecog로서, Savge 및 Eavge의 평균과 같다. 이 값은 트레이닝 모드에서 계산된 기준 잡음값과 비교된다. 비교 결과는 트레이닝 배경 잡음 평가에 대한 인식 배경 잡음 평가의 비율을 찾는데 사용된다. 종래 기술에 숙련된 자는 이들 값을 비교할 때 다른 상대적인 비교법이 사용될 수 있음을 인식하게 된다.

프로세서(108)는 다음에 단계(606)에서 단어 패널티를 계산한다. 상기 비율은 단어 엔트런스 패널티(word entrance penalty)을 계산하는데 사용된다. 단어 엔트런스 패널티은 어휘외 거부(Out-of-Vocabulary rejection)의 엄격성을 제어한다. 일반적으로, 더 높은 잡음 환경은 더 낮은 엄격성 값을 갖는다. 단어 엔트런스 패널티은 잡음 인덱스 비율이 메모리 테이블에 대한 어드레스이고 패널티가 출력인 룩업 테이블(look up table)을 사용해 계산된다. 유리하게, 도 8에 도시된 바와 같이, 10개의 패널티 분포가 사용될 수 있고, 여기서 인식 모드로 잡음이 상당히 많은 환경(비율 6-9)은 실질적으로 트레이닝 모드 잡음 기준에 더 가까운 인식 모드를 나타내는 비율(비율 0-4) 보다 더 작은 패널티를 갖는다. 예를 들면, 다음 수학식2와 같이 곡선이 유도될 수 있다.

인덱스 비율의 범위를 벗어나면, 최소 단어 엔트런스 패널티에 대한 디폴트(default)로서 0이 된다. 적용되는 실제 패널티는 예를 들면, -220 * f(x)가 될 수 있지만, 실제 스칼라값은 패널티가 될 수 있는 값이 조합되는 스코어에 대해 바람직한 비율을 갖는 임의의 값이 될 수 있다. 비선형적인 관계가 사용되면, 잡음 조건이 양호할 때 큰 패널티를 제공하고 잡음 조건이 나쁠 때 작은 패널티를 제공함으로서 어휘내 및 어휘외의 인식에 대해 상당한 개선을 제공하게 된다. 종래 기술에 숙련된 자는 단어 엔트런스 패널티의 계산이 룩업 테이블을 사용하기 보다는 직접적으로 이루어질 수 있음을 인식하게 된다.

인식은 단계(608)에 나타내지는 바와 같이 주요 탐색 및 평행한 가비지(garbage) 모델로 계속된다. 인식 시스템의 목적은 도 3에서 노드 N₁으로부터 노드 N₂로의 가장 가능한 경로를 찾는 것이다. 노드 N₁및 N₂는 선택적으로 가비지 모델 A_GM을 포함하여 N 단어 어휘에 대한 히든 마르코브 모델(Hidden Markov Model)을 나타내는 경로 A₁- A_N에 의해 연결된다. 부가적으로, A₁ ^noise및 A₂ ^noise는 노드 N₁및 N₂와 연관되어 잡음 모델을 나타낸다. 가비지 모델은 입력 발음에서 어휘가 아닌 사운드나 단어를 포착하도록 시도한다. 이는 어휘외 거부 알고리즘에 의해서만 사용되는 1 상태 0 값의 모델(one state zero-valued model)이다. 잡음 모델 보다 나은 잡음을 모델화하는 것을 방지하도록, 잡음으로 분류되는 프레임에 대한 가비지 모델 확률 스코어에 패널티가 적용된다.

문법 네트워크를 통한 탐색은 도 3에 나타내지는 바와 같이, 비터비 알고리즘(Viterbi algorithm)과 같은 2 레벨 정렬 알고리즘에 의해 행해진다. 이 탐색의 최하 레벨은 주어진 원형의 상태와 입력 발음의 프레임 사이에서 최상의 정렬 및 경로 스코어를 찾는다. 발음의 프레임을 각 모델의 상태에 적용하는데 사용되는 기술의 예는 여기서 참고로 포함되고 Daniel Poppert의 이름으로 이와 같은 날짜에 출원된 현재 진행중인 특허 출원 docket number CS10104, "음성 인식 시스템과 연관되는 확률에 패널티를 선택적으로 지정하는 방법(METHOD OF SELECTIVELY ASSIGNING A PENALTY TO A PROBABILITY ASSOCIATED WITH A VOICE RECOGNITION SYSTEM" 및 Jeffrey Arthur Meunier의 이름으로 이와 같은 날짜에 출원된 현재 진행중인 특허 출원 docket number CS10103, "음성 인식 시스템에서 역추적 매트릭스 저장 방법(METHOD OF TRACEBACK STORAGE IN SPEECH RECOGNITION SYSTEM)에서 설명된다. 하단 레벨의 정렬 알고리즘은 소정의 HMM 원형을 통해 입력 발음의 최상 경로에 대한 스코어를 발생한다.

프레임 m에서 원형 A_n의 상태 i에 대한 누적 확률인 누적 확률 c_i ⁿ(m)을 통해 HMM 또는 각 원형의 스코어가 추적되는 하단 레벨 정렬 알고리즘에 부가하여, 노드 N₁및 N₂는 또한 자체 누적 확률을 추적하여야 한다. 노드 누적 확률 C_j(m)은 프레임 m에서 노드 N_j의 누적 확률이다. 이 확률은 노드에 대해 가장 높은 스코어를 유지시킨다는 점에서 각 HMM의 누적 확률과 같이 계산된다. 누적 확률은 다음 수학식3과 같이 계산될 수 있다.

여기서, Aj는 노드 j에서 종료되는 원형 세트 {A₁, A₂, ..., A_N}이고, In은 원형 n에서 상태의 수이고, d_In은 원형 n의 최종 상태의 기간이고, 또한 P_OIn(d_In)은 원형 n의 최종 상태에 대한 상태외의 전이 패널티이다. 누적 확률은 상태외 확률 P_OIn(d_In)과 최종 상태 누적 확률 C_In ⁿ(m)의 합의 노드 Nj에서 종료하는 모든 원형에 걸친 최대치이다.

노드에 대한 누적 확률을 추적할 때, 각 원형의 초기 상태에 대한 누적 확률 c_l ⁿ(m)의 계산은 노드 Nj에서 초기 상태로의 전이를 허용하도록 수정되어야 한다. 단어 엔트런스 패널티이라 칭하여지는, 노드 Nj에서 원형 An의 초기 상태로의 전이에 지정된 시간 전이 패널티는 한번 있다. 이는 잡음 모델이나 가비지 모델에 적용되지 않으므로, 인에이블될 때 어휘외 거부에 대한 엄격성 제어로 동작한다. 누적 확률은 다음 수학식4와 같이 나타낼 수 있다.

여기서, W(n) = {g(x) n ∈ {A₁, A₂, A₃} 인 경우}

{0 n ∈ {A₁ ^noise, A₂ ^noise, A_GM}인 경우}

여기서, W(n)은 단어 엔트런스 패널티이고, A_GM은 가비지 원형이고, A₁ ^noise는 노드 1에 대한 잡음 원형이고, o_i ⁿ(f_m)은 원형 n의 상태 i에서 특성 벡터 fm의 관찰 확률이고, 또한 P_s1(d₁)은 원형 n의 상태 1에서 똑같은 상태 전이 패널티이다. 이 식은 원래 노드로부터의 전이나 똑같은 상태 전이의 최대치를 유지하여 관찰 확률에 더한다. 인식 처리의 종료시 유지되는 정보는 노드 N₂에 닿도록 가로질렀던 원형이다. 이는 누적 확률 C_i ⁿ(m) 및 C_j ⁿ(m)과 함께 전파 경로 정보에 의해 행해진다.

유효한 발음에 대해, 정렬 알고리즘을 통한 단어 모델의 최상 경로는 단어 엔트런스 패널티 보다 더 큰 값 만큼 가비지 모델 보다 더 나은 스코어를 만들어야 하고, 그렇지 않으면 유효한 발음이 잘못하여 거부된다. 유효하지 않은 발음에 대해, 가비지 모델은 발음이 정확하게 거부되도록 알맞은 단어 모델 각각을 통한 경로 보다 더 커야 한다.

인식 알고리즘은 예를 들면, 전형적으로 2초 가치의 데이터가 될 수 있는 수집된 특성 벡터의 전체 윈도우를 사용한다. 부가하여, 이는 도 3의 A₁ ^noise및 A₂ ^noise에서 사용되는 1 상태 잡음 모델을 업데이트하도록 각 프레임에 대해 음성/잡음 분류 비트를 사용한다.

인식 모드에서, 프로세서(108)는 단계(702)에 나타내지는 바와 같이 잡음 업데이트 플래그를 1로 설정하고 프레임 카운트를 0으로 설정함으로서 인식을 초기화한다. 프레임 카운트는 단계(704)에서 증가된다. 프로세서는 이어서 단계(706)에서 잡음 플래그가 설정되었나 여부를 결정한다. 그렇지 않은 경우, 프로세서는 결정(716)으로 진행한다. 플래그가 설정되면, 프로세서(108)는 단계(708)에서 잡음 모델이 여전히 인에이블되어야 하는가 여부를 결정한다. 그렇지 않은 경우, 잡음 업데이트 플래그는 단계(714)에서 0으로 설정된다. 잡음 모델화는 특정한 수의 업데이트가 이루어진 이후에 off 된다.

잡음 업데이트가 여전히 실행되어야 하면, 프로세서는 단계(710)에서 잡음 모델을 업데이트하는가 여부를 결정한다. 프로세서가 그 프레임에 대해 잡음 모델을 업데이트하여야 하면, 모델은 단계(712)에서 업데이트된다. 잡음 모델 A₁ ^noise및 A₂ ^noise는 특성 추출 알고리즘에 의해 전해진 음성/잡음 분류 비트를 사용해 시스템에 의해 동적으로 계산된다. 현재 프레임에 대해 잡음 모델을 업데이트하는가 여부를 결정하는 것은 특성 추출 알고리즘에 의해 이루어지는 음성 분류를 참고하여 이루어진다. 일단 소정의 수의 연속적인 음성 프레임이 그 발음에 대해 보여지면, 더 이상의 업데이트는 이루어지지 않는다. 예를 들면, 그 제한은 3 프레임이 될 수 있다. 잡음 모델은 그 프레임의 음성 대 잡음 분류가 잡음 프레임인 것으로 나타내어지는 경우에만 특정한 프레임에 대해 업데이트된다.

프로세서는 이어서 단계(716)에서 프레임 카운트가 한계값의 프레임 보다 작은가 여부를 결정한다. 확률 평가는 특정한 수의 프레임이 처리될 때까지 시작하지 않는다. 이는 잡음 모델을 근거로 하는 확률이 계산되기 이전에 잡음 모델이 어느 정도 정확해지도록 허용한다. 한계값의 프레임이 수신되지 않으면, 프로세서는 프레임 카운트가 1 만큼 증가되는 단계(704)로 복귀한다.

프레임 카운트가 한계값을 넘으면, 프로세서(108)는 단계(718)에서 그 프레임에 대한 노드 및 원형의 누적 확률을 계산한다. 확률 스코어는 단계(720)에서 표준화된다. 표준화는 다른 모든 누적 확률에서 가장 큰 누적 확률을 감산함으로서 제공될 수 있다. 누적 표준화 계수는 또한 비표준화된 스코어가 인식 처리의 종료시 복귀될 수 있도록 추적된다.

프로세서는 이어서 단계(722)에서 최종 프레임이 처리되었나를 결정한다. 그렇지 않으면, 프로세서는 단계(704)로 복귀하여 프레임 카운트를 증가시킨다. 그렇지 않은 경우에는 단계(724)에 나타내지는 바와 같이 표준화된 스코어와 함께 인식 결과가 출력된다.

잡음 모델은 1 상태 모델이다. 이 상태의 벡터 평균은 동적으로 계산되고 다음과 같이 프레임 m+1에서 새로운 특성 벡터 f_m+1로 업데이트되기 때문에 m의 함수인 μ₁ ^noise(m)이다.

여기서, M_noise(m)은 μ₁ ^noise(m)의 계산시 사용된 잡음 프레임의 수이고, 이는 모든 프레임이 잡음 업데이트에서 사용되는 것은 아니므로, m의 값에 대해 다를 수 있다. 부가하여, 업데이트 식은 잡음 모델의 켑스트럼 요소에 대해서만 사용된다. 델타-켑스트럼 및 델타 에너지 요소는 0으로 고정된다.

따라서, 트레이닝 및 인식 동안 배경 잡음 레벨에 의존하여 가변적인 거부 엄격성을 제공하는 개선된 시스템이 설명됨을 볼 수 있다. 시스템은 저장된 음성 모델과 유효하지 않은 발음이 연관되는 것을 방지하도록 돕고, 유효한 발음의 정확한 검출을 개선하도록 돕는다.

비록 상기의 설명과 도면에서 본 발명이 설명되고 도시되었지만, 이 설명은 단지 예이고 본 발명의 진정한 의도 및 범위에서 벗어나지 않고 종래 기술에 숙련된 자에 의해 다양한 변화 및 수정이 이루어질 수 있는 것으로 이해되어야 한다. 비록 본 발명이 셀룰러 무선전화기와 같은 휴대용 무선 디바이스에서 특정한 응용을 찾고 있지만, 본 발명은 호출기, 전자 수첩, 컴퓨터, 및 전화 장비를 포함하여 음성 인식을 사용하는 디바이스에 적용될 수 있다. 본 발명은 다음의 청구항에 의해서만 제한되어야 한다.

Claims

음성 인식 시스템을 동작시키는 방법에 있어서,

트레이닝(training) 동안 측정된 적어도 하나의 배경 잡음 레벨과 동작 인식 모드(recognition mode) 동안 이루어진 입력 발음동안의 잡음 신호 측정치의 함수로서 가변적인 거부 엄격성(rejection strictness)을 발생시키는 단계; 및

상기 가변적인 거부 엄격성의 함수로서 단어 엔트런스 패널티(word entrance penalty)를 유도하는 단계

를 포함하는 것을 특징으로 하는 방법.
제1항에 있어서,

상기 가변적인 거부 엄격성을 발생시키는 단계는 한 모델에 대해 트레이닝 발음 중 적어도 일부 동안 잡음을 측정하는 단계를 포함하는 것을 특징으로 하는 방법.
제1항에 있어서,

상기 트레이닝 발음으로부터 잡음 특성을 선택적으로 업데이트하는 단계를 더 포함하는 것을 특징으로 하는 방법.
제1항에 있어서,

잡음 통계가 인식 알고리즘에 이용가능하도록 모델의 트레이닝 동안 잡음 통계를 저장하는 단계를 더 포함하는 것을 특징으로 하는 방법.
제3항에 있어서,

핸즈프리 모드(hands-free mode)로 트레이닝시에는 잡음 통계를 업데이트하지 않는 것을 특징으로 하는 방법.
제3항에 있어서,

신호 대 잡음비를 발생시키는 단계를 더 포함하고, 상기신호 대 잡음비가 소정의 레벨 이하이면, 상기 트레이닝을 금지하는 것을 특징으로 하는 방법.
제1항에 있어서,

인식하는 동안, 한 발음에 대해 잡음 통계가 이용가능하지 않으면, 정렬 알고리즘을 상기 발음에 적용할 때 인식 알고리즘이 최소 엄격성 요건으로 디폴트(default) 상태가 되는 것을 특징으로 하는 방법.
제1항에 있어서,

인식하는 동안, 입력 잡음 에너지 특성을 기준 잡음 통계에 비교하고, 잡음비를 계산하는 것을 특징으로 하는 방법.
제8항에 있어서,

어휘외(out of vocabulary) 거부 알고리즘의 엄격성은 잡음비를 근거로 선택되는 것을 특징으로 하는 방법.
제1항에 있어서,

음성 태그 모델(voice tag model)과 병렬로 0 평균 1 상태 가비지 모델(zero mean one state garbage model)을 사용해 최상 경로의 신뢰 측정을 실시하는 것을 특징으로 하는 방법.