KR20010086402A

KR20010086402A - 음성인식 장치

Info

Publication number: KR20010086402A
Application number: KR1020017003092A
Authority: KR
Inventors: 마꼬또 쇼자까이
Original assignee: 야마모토 카즈모토; 아사히 가세이 가부시키가이샤
Priority date: 1998-09-09
Filing date: 1999-09-08
Publication date: 2001-09-10
Also published as: MXPA01002514A; BR9913524A; DE69939124D1; CN1323436A; US20020116192A1; ID27346A; EP1126438B1; KR100415217B1; AU5647899A; EP1126438A4; EP1126438A1; JP3803029B2; RU2223554C2; WO2000014723A1; HK1040312A1; CN1280783C; US6868382B2

Abstract

불특정 화자에 의해 주어진 단어를 인식하는데 사용되는 고정어 라벨 시퀀스가 어휘 라벨 네트워크 저장 수단(f)내에 저장된다. 특정 화자의 음성이 입력되고, 등록된 라벨 시퀀스 추출 수단(d)에 의해 등록된 단어들의 라벨 시퀀스가 상기 입력된 음성으로부터 생성되고, 상기 어휘 라벨 네트워크 저장 수단(f)내에 등록될 수 있다.

Description

음성인식 장치{SPEECH RECOGNIZER}

특정 화자에게 고유의 등록어를 인식하는 기술을 일반적으로 특정 화자 음성인식이라고 부른다. 특정 화자 음성인식은, 특정 화자가 미리 음성인식시키고자 하는 단어의 음성을 등록해야 하는 작업이 있다. 이 작업은 구체적으로, 특정 화자가 미리 발성한 단어의 음성 샘플을 어떤 특징 파라미터 계열(템플릿이라 한다)로 변환하여, 그 계열을 단어 라벨과 동시에 메모리나 하드 디스크등의 기억 장치에 축적한다. 음성 샘플을 어떤 특징 파라미터 계열로 변환하는 방법으로는, 켑스트럼(cepstrum) 분석과 선형예측 분석등이 알려져 있으며, 「음성·소리 정보의 디지털 신호 처리」(시카노 세이코, 나카무라 테츠, 이세 시로우 공저, (주)쇼코도)에도 상술되어 있다. 특정 화자 음성인식은, 기억장치에 축적된 특징 파라미터 계열과 입력된 음성에서 변환된 특징 파라미터 계열을 비교하여, 입력된 음성에서 변환된 특징 파라미터 계열에 가장 유사한 특징 파라미터 계열을 갖는 단어 라벨을 인식결과로 출력한다.

기억장치에 축적된 특징 파라미터 계열과 입력된 음성에서 변환된 특징 파라미터 계열을 비교하는 방법은, 동적 계획법(dynamic programming)에 의한 시간축 신축 매칭(Dynamic Time Warping, DTW)이 널리 사용되고 있으며, 상기「음성·소리 정보의 디지털 신호 처리」에도 자세히 기재되어 있다.

한편, 불특정 화자에게 공통의 고정어를 인식하는 기술을 일반적으로 불특정 화자 음성인식이라한다. 불특정 화자 음성인식은, 불특정 화자에게 공통의 고정어의 특징 파라미터에 관한 정보가 사전에 기억장치에 축적되어 있으므로, 특정 화자 음성인식과 같이 사용자가 음성인식시키고자 하는 단어를 등록해야하는 작업은 없다. 음성 샘플을 어떤 특징 파라미터 계열로 변환하는 방법은, 특정 화자 음성인식과 마찬가지로 켑스트럼 분석이나 선형예측 분석 등이 알려져 있다. 또한, 불특정 화자에게 공통의 고정어의 특징 파라미터에 관한 정보 작성 및 그 정보와 입력된 음성에서 변환된 특징 파라미터 계열의 비교에는, 히든 말코브 모델(Hidden Markov Model, HMM)에 의한 방법이 일반적으로 이용되고 있다.

HMM에 의한 불특정 화자 음성인식에 대해서도, 상기「음성·소리 정보의 디지털 신호 처리」에 자세히 서술되어 있다. 예를 들면, 일본어의 경우, 음성 단위를 상기「음성·소리 정보의 디지털 신호 처리」 제2장에 기재되어 있는 음운 세트로 하며, 각 음운이 HMM에 의해 모델화되어 있다고 한다. 표 1에 음운 세트의 라벨 일람을 나타낸다.

모음	a, i, u, e, o
마찰음	f, z, s, zh, sh, h
파찰음	dz, ts, dh, ch
파열음	b, p, d, t, g, k
반모음	w, r, y
비음	m, n, ng

이 때, 예를 들면「CD」은 도 2A와 같은 화자에게 공통의 음운 라벨 네트워크(고정어 라벨 계열이라 한다)로 모델화할 수 있다.

또한, 예를 들면「MD」은 도 2B와 같은 고정어 라벨 계열로 모델화 할 수가 있다. HMM에 의한 음운 모델 데이터와 고정어 라벨 계열을 준비하면, 상기「음성·소리 정보의 디지털 신호 처리」제4장에 기재되어 있는 비터비(Viterbi) 알고리즘에 의해, 당업자는 불특정 화자 음성인식 장치를 구성할 수 있다.

음성인식 장치에 있어서, 특정 화자에게 고유의 등록어와 불특정 화자에게 공통의 고정어가 혼재한 어휘에 대해, 인식가능하다는 기능을 제공하고자 하는 요구가 있다. 예를 들면, 카 오디오 장치에 있어서는, 안전상의 이유로「CD」,「MD」등 각 기기의 제어를 음성으로 하고자 하는 요구가 있다. 이들 기기의 이름은, 불특정 다수의 화자로 공통으로 설정할 수가 있으므로, 불특정 화자 음성인식 기술로 실현할 수 있다. 이에 따라, 특정 화자 음성인식 기술로 필요한 등록 작업을 회피할 수가 있어, 사용자 인터페이스의 면에서 바람직하다.

한편, 예를 들면, CD 체인저삽입된 복수의 CD를 소리로 선택하여 재생하고자 하는 요구가 있다. 이 경우, CD 체인저에 삽입되는 CD 타이틀명, 가수명 등은 사용자에 따라 다르게 생각된다. 따라서, 종래의 불특정 화자 음성인식 기술이 아니고,특정 화자 음성인식 기술의 적용이 요구된다. 즉, 사용자가 CD 체인저에 삽입하는 CD 타이틀명, 가수명 등을 미리 소리로 등록하는 작업이 필요해 진다. 「CD」,「MD」등 각 기기의 이름과 CD 타이틀명, 가수명 등이 혼재한 어휘에 대해, 음성인식을이 가능하면, 「CD」,「MD」등의 불특정 화자에게 공통의 고정어를 인식할 수 있는 모드와 CD 타이틀명, 가수명 등의 특정 화자에게 고유의 등록어를 인식할 수 있는 모드를 전환할 필요가 없고, 사용자에 대해서 보다 사용하기 쉬운 음성인식 기능을 제공할 수 있다고 생각된다.

지금까지, 특정 화자 음성인식에는, DTW에 의한 방법, 불특정 화자 음성인식에는, HMM에 의한 방법이 널리 사용되어 왔다. 상기 요구를 실현하는 하나의 방법으로, DTW에 의한 특정 화자 음성인식과 HMM에 의한 불특정 화자 음성인식을 병용하는 방법을 생각할 수 있다. 이 두 가지 방법으로 입력 음성의 파라미터 계열과 기억장치에 기억된 어휘 단어의 파라미터 계열의 정보를 비교할 때에 이용하는 기준은 일반적으로 다르다. 따라서, DTW에 의한 특정 화자 음성인식으로 가장 입력 음성에 가깝다고 판단된 특정 화자에게 고유의 등록어와 HMM에 의한 불특정 화자 음성인식으로 가장 입력 음성에 가깝다고 판단된 불특정 화자에게 공통의 고정어 중 어느 것이 입력 음성에 의해 가까운 것인지를 판단하는 것은 쉽지 않다.

DTW에 의한 특정 화자 음성인식에 있어서, 고정어에 대해 다수 화자의 음성을 이용하여 복수의 템플릿을 기억장치에 기억시킴으로써 불특정 화자 음성인식을 실현하는 것도 가능하다. 이에 따라, DTW를 이용하여 상기 요구를 실현할 수 있다. 그러나, 이 방법으로는, 각 고정어의 템플릿을 복수 갖음으로 기억장치의 용량 증가, 복수의 템플릿과의 DTW에 의한 대조 시간 증가, 고정어를 변경할 때에 다수 화자의 음성을 재수집 등의 문제점이 있다.

이상을 요약하면, 예를 들어, 카 오디오 장치에 음성인식 장치를 탑재할 경우, 불특정 화자용 음성인식 장치는, 제조 회사로서는 다수 사용자의 소리를 개별적으로 등록할 필요가 없으므로, 적합한 반면, 개별 사용자에게 있어서는, 인식 정밀도가 특정 화자의 인식 정밀도보다도 약간 떨어진다는 단점이 있다.

또한, 특정 화자용 음성인식 장치는 인식 정밀도에 있어서 우수하나, 제조 회사는, 개별 사용자의 음성으로부터 특징 파라미터를 추출하여, 음성인식 장치에 미리 기억시키는 것은 어려운 일이다. 사용자 자신이 자기의 음성을 등록하다 하더라도, 예를 들면, 많은 단어를 등록하는 것은 상당한 노동력을 필요로 한다.

더욱이 종래의 특정 화자의 음성인식에 사용하는 방법과 불특정 화자의 음성인식에 사용하는 방법은 종류 내용이 다르기 때문에 쌍방의 음성인식방법을 하나의 장치에 조립하면 장치가 대형화되는 문제점이 있다.

본 발명은, 특정 화자에게 고유의 등록어와 불특정 화자에게 공통의 고정어가 혼재한 어휘에 대해, 음성인식이 가능한 음성인식 장치 및 방법에 관한 것이다.

도 1은 본 발명의 실시 형태의 시스템 구성을 나타내는 블록도.

도 2A는 「CD」의 고정어 라벨 계열을 나타내는 설명도.

도 2B는「MD」의 고정어 라벨 계열을 나타내는 설명도.

도 3은 음운 네트워크 내용을 나타내는 설명도.

도 4A는「재즈」의 등록어 라벨 계열을 나타내는 설명도.

도 4B는「팝」의 등록어 라벨 계열을 나타내는 설명도.

도 5는 고정어와 등록어가 혼재한 어휘 라벨 네트워크를 나타내는 설명도.

도 6은 고정어만의 어휘 라벨 네트워크를 나타내는 설명도.

도 7은 등록어만의 어휘 라벨 네트워크를 나타내는 설명도.

도 8은 음운 HMM 구조를 나타내는 설명도.

도 9는 음향이벤트 HMM *. 1 구조를 나타내는 설명도.

도 10은 음향이벤트 HMM *. 2 구조를 나타내는 설명도.

도 11은 음향이벤트 HMM *. 3 구조를 나타내는 설명도.

도 12는 무제약 음향 이벤트 네트워크를 나타내는 설명도.

도 13은 위치제약 부착 음향 이벤트 네트워크를 나타내는 설명도.

본 발명의 목적은, 이러한 점을 고려하여, 불특정 화자의 음성을 인식하는 음성인식방법을 사용한 경우라도, 특정 화자가 발성하는 등록어를 정밀하게 잘 인식할 수 있는 음성인식 장치 및 방법을 제공하는 데 있다.

본 발명에 따르면, 입력 음성을, 단어보다 짧은 길이의 음성 단위의 모델 정보를 이용하여, 단어인식을 하는 음성인식 장치이며, 불특정 화자의 입력 음성의 단어인식을 위해 공통적으로 사용하는 고정어에 대한, 상기 음성 단위 라벨 계열을 축적해 놓은 어휘 라벨 네트워크 축적수단과, 특정 화자의 입력 음성으로부터 등록어에 대한 상기 음성 단위 라벨 계열을 작성하는 등록어 라벨 계열 추출수단과, 당해 작성된 등록어 라벨 계열을 상기 어휘 라벨 네트워크 축적수단에 추가 등록하는 등록수단을 구비하며, 상기 음성 단위가 음운 HMM의 각 상태를 분할하여 생성한 음향 이벤트인 음성인식장치가 제공된다.

본 발명에 따르면, 음성인식장치는 상기 고정어를 상기 어휘 라벨 네트워크 축적 수단에 등록하는 수단을 부가적으로 구비해도 좋다.

본 발명에 따르면, 음성인식장치는 상기 불특정 화자의 입력 음성의 단어인식을 위해 공통적으로 사용하는 고정어에 대한, 음성 단위 라벨 계열과, 작성된 등록어의 라벨 계열이 병렬의 네트워크 형태로 상기 어휘 라벨 네트워크 축적수단에 기억되어도 좋다.

본 발명에 따르면, 음성인식 장치의 제조 회사는, 다수의 불특정 사용자를 대상으로 한 고정어 라벨 계열을 음성인식용 데이터로서 제공하면 좋고, 사용자는 원하는 단어에 관해서 자기의 음성을 등록할 수 있다. 다시 말하면, 불특정 화자 방식의 음성인식방법에 특정 화자의 음성인식기능을 가미할 수 있게 된다. 이에 따라, 사용자 및 제조 회사 쌍방에 바람직한 음성인식장치 및 방법을 제공할 수 있게 된다.

본 발명은, 종래 불특정 화자 음성인식에 이용되어 온 HMM을 이용하여, 특정 화자에게 고유의 등록어, 불특정 화자에게 공통의 고정어가 혼재한 어휘에 대해, 인식 가능한 음성인식장치를 제공하는 것이다. HMM을 이용한 불특정 화자 음성인식은, 음성 단위(음절, 반음절, 음운, 음향 이벤트등)의 모델 데이터, 불특정 화자에게 공통의 고정어에 대응하는 음성 단위 라벨 계열 및 각 고정어 라벨 계열 상호의 접속 정보를 이용하여, 상술한 비터비(Viterbi) 알고리즘에 의해, 입력 음성에 포함되는 고정어 인식을 행한다.

특정 화자에게 고유의 등록어에 대응하는 음성 단위 라벨 계열을 어떤 수단으로 얻을 수 있으면, 그 라벨 계열을 상기 라벨 계열 상호의 접속 정보에 부가함으로써, 상술한 비터비(Viterbi) 알고리즘을 이용하여, 특정 화자에게 고유의 등록어, 불특정 화자에게 공통의 고정어가 혼재한 어휘에 대한 인식을 할 수 있다고 생각된다.

특정 화자에게 고유의 등록어에 대응하는 음성 단위 라벨 계열을 얻는 방법으로서는, 각 고정어 라벨 계열 상호의 접속 정보 대신에 음성 단위가 임의 순서, 임의 길이로 접속가능한 접속 정보를 이용하여, 비터비(Viterbi) 알고리즘에 의해, 입력 음성에 포함되는 모든 음성 단위 계열을 취득함으로써 실현할 수 있다.

이하, 도면을 참조하여, 본 발명의 실시 형태를 상세히 설명한다. 도 1은 본 발명의 실시 형태의 기본 구성을 나타낸다.

도 1에 있어서, 마이크로폰(도면에 미도시)으로부터 입력된 아날로그 음성신호(11)는 AD컨버터에 의한 입력수단a에 의해 디지털 신호(22)로 변환된다. 디지털 신호(22)는 변환수단b에 의해 보다 일정한 프레임 주기로 음향 파라미터(33)로 변환된다. 음향(특징) 파라미터로서는, 상기「음성·소리 정보의 디지털 신호 처리」에도 기술되어 있는 켑스트럼등을 이용하면 좋다.

(특정 화자의 단어 등록)

특정 화자에게 고유의 등록어를 등록할 경우에는, 음성인식장치가 도시되지 않는 스위치에 의해 단어 등록을 지시하고, 변환수단b를 등록어 라벨 계열 추출수단d에 접속한다. 특정 화자, 즉 음성인식장치가 접속된 카 오디오 사용자(특정 화자)는 등록하고자 하는 음성을 마이크로폰에 입력한다.

마이크로폰에서 발생한 아날로그 음성신호(11)는 변환수단b에 의해 음향 파라미터(33)로 변환된다. 음향 파라미터(33)가 등록어 라벨 계열 추출수단d로 보내진다. 등록어 라벨 계열 추출수단d는 하드디스크나 메모리 등의 인식용 데이터 축적수단c에 축적된 인식용 데이터(44)를 참조하면서, 음성 단위 라벨 계열의 인식을 행하여, 음향 파라미터(33)를 등록어 라벨 계열(55)로 변환한다. 인식용 데이터 축적수단c에 축적된 인식용 데이터(44)로서는, HMM으로 모델화된 음성 단위의 모델 데이터 및 음향 파라미터(33)를 등록어 라벨 계열(55)로 변환하기 위한 음성 단위의 모델 네트워크 데이터 2개가 축적되어 있다.

선행 특허인 USP5, 732, 187호에 기재되어 있는 바와 같이, 음성 단위로서, 음절, 반음절, 음운을 생각할 수 있다.

이하에서는, 음운을 예로 들어, 불특정 화자에게 공통의 고정어, 특정 화자에게 고유의 등록어가 혼재한 어휘를 인식하는 음성인식장치 및 방법에 대해서 설명한다. 음향 파라미터(33)를 등록어 라벨 계열(55)로 변환하기 위한 음성 단위(현재 경우는 생략)의 모델 네트워크 데이터는, 허용되는 음운 접속을 표현한 네트워크인 것이다.

예를 들면, 도 3의 음운 네트워크의 경우, 표 1의 27종류의 음운이 임의 순서, 임의 길이로 접속할 수 있는 것을 나타내고 있다. 이 네트워크 데이터와 HMM에 의한 음운 모델 데이터를 이용하면, 상기 비터비(Viterbi) 알고리즘에 의해, 특정 화자에게 고유의 등록어 음성을 음운 라벨 계열로 변환할 수 있다. 도 4A에, 어떤화자가 등록을 위해 발성한 「재즈」 입력신호로부터 얻어지는 음운 라벨 네트워크의 예를 나타낸다. 음운 인식율이 100%이면, 「재즈」라고 발성한 음성으로부터는, j+ a+ z+ u라는 음운 라벨 계열을 얻었을 수 있겠지만, 이 예에서는, 마지막의 u가 무성화해서 얻을 수 없다.

도 4B에, 어떤 화자가 등록을 위해 발성한 「팝」 입력 신호로부터 얻어지는 음운 라벨 네트워크의 예를 나타낸다. 음운 인식율이 100%이면 「팝」이라고 발성한 음성으로부터는, p+ o+ p+ u+ s+ u라는 음운 라벨 계열을 얻을 수 있겠지만, p, t, k의 식별은 일반적으로 곤란하므로, 두번째 p가 k로 치환되고 있다. 이렇게 해서, 등록어 라벨 계열 추출수단d에 의해 얻어진 음운 라벨 네트워크를 등록어 라벨 계열(55)이라고 부르기로 한다. 등록어 라벨 계열(55)은 등록수단i에 의해, 하드디스크나 메모리 등의 어휘 라벨 네트워크 축적수단f에 추가 등록되어 기억된다.

(불특정 화자에게 공통의 고정어의 등록)

한편, 불특정 화자에게 공통의 고정어 철자로부터 사전에 어떤 룰에 따라 음운 라벨 네트워크를 추출할 수 있다. 혹은, 고정어에 대한 하나 이상의 불특정 화자의 음성 샘플로부터 상기(특정 화자의 단어 등록)와 마찬가지로 하나 이상의 음운 라벨 네트워크를 작성할 수도 있다. 이들 네트워크를 고정어 라벨 계열(66)이라 하고, 그 데이터를 어휘 라벨 네트워크 축적수단f에 전송하기 위해 일시 기억하는 수단, 예를 들면, CPU 및 RAM을 고정어 라벨 계열 기억수단e라고 부르기로 한다. 예를 들면, 고정어「CD」,「MD」에 대해서는, 도 2A, 도 2B에 도시되는 고정어 라벨 계열을 얻을 수 있다. 고정어 라벨 계열에 대한 데이터는 플로피 디스크나 CD등의 기록 매체에 제조 회사측에서 기록하고 있으며, 이 기록 매체로부터 음성인식 장치내의 고정어 레벨 계열 기억수단e로 이끌면 좋다. 고정어 레벨 계열 기억수단e를 통해 어휘 라벨 네트워크 축적 수단f에 축적(기억)함으로써 불특정 화자에 대한 고정어 라벨 계열을 등록한다.

등록어 라벨 계열 추출수단d에서 추출되어, 등록수단i에 의해 어휘 라벨 네트워크 축적수단f에 추가 등록되는, 등록어 라벨 계열(55)과 고정어 라벨 계열 기억수단e에 의해 기억된 고정어 라벨 계열(66)로부터 어휘 네트워크 축적수단f에 축적되는 어휘 라벨 네트워크(77)를 구성하는 방법으로, 다음의 세 가지 방법을 생각할 수 있다.

우선, 첫째, 등록어 라벨 계열(55)과 고정어 라벨 계열(66) 쌍방을 포함하는 네트워크를 형성하여, 그것을 어휘 라벨 네트워크(77)로 하는 방법이다. 도 5에「CD」,「MD」의 고정어 라벨 계열과「재즈」,「팝」의 등록어 라벨 계열을 접속한 어휘 라벨 네트워크를 도시한다.

이 네트워크에 의해, 「CD」, 「MD」고정어와 「재즈」, 「팝」등록어 4개의 단어 중, 어느 것이라도 인식할 수 있는 음성인식장치를 실현할 수 있다.

둘째, 등록어 라벨 계열(55)만을 포함하는 네트워크를 형성하여, 그것을 어휘 라벨 네트워크(77)로 하는 방법이다. 도 6에「CD」,「MD」의 고정어 라벨 계열을 접속한 어휘 라벨 네트워크를 도시한다. 이 네트워크에 의해, 「CD」,「MD」고정어 2개의 단어 중, 어느 하나를 인식할 수 있는 불특정 화자 음성인식장치를 실현할 수 있다.

셋째, 등록어 라벨 계열(55)만을 포함하는 네트워크를 형성하여, 그것을 어휘 라벨 네트워크(77)로 하는 방법이다. 도 7에「재즈」,「팝」등록어 라벨 계열을 접속한 어휘 라벨 네트워크를 도시한다. 이 네트워크에 의해, 「재즈」,「팝」등록어 2개의 단어 중, 어느 하나를 인식할 수 있는 특정 화자 음성인식장치를 실현할 수 있다.

또, 음성에 의해 CD 체인저에 동작지시를 제공할 경우, 미리 불특정 화자의 고정어 라벨 계열과 동작 명령을 미리 관련지어 두고, 특정 화자(사용자)가 등록한 등록어 라벨 계열을 관련지어두면 좋다. 예를 들면, 이를 위한 방법으로, 미리 표시기에 선택 가능한 동작지시 내용을 표시시킨 후, 커서 키 등으로 표시의 동작지시를 선택한 후, 이 동작지시에 관련되는 단어를 음성으로 마이크로폰으로부터 입력하여, 등록어 라벨 계열 추출수단d에 의해 추출된 등록어 라벨 계열(55)을 등록수단i에 의해 어휘 라벨 네트워크 축적수단f에 등록한다. 또한, 동작지시 내용을 도시하는 코드와, 대응하는 등록어 라벨 계열을 테이블(관련 테이블) 형태로 하드디스크 등에 보존해 두면, 이후, 음성에 의한 동작지시가 가능해진다. 이 관련 테이블에는 제조 회사가 준비한 고정어 라벨 계열과 이들에 대응하는 동작 지시 코드도 기억해도 된다.

(음성인식 처리)

사용자는 도시되지 않는 모드지시 스위치로 음성인식 모드를 지시하면, 변환수단b와 인식수단g로 접속이 전환한다. 입력수단a에서 입력되고, 변환수단b에서 변환되어 출력된 음향 파라미터(33)와 인식용 데이터 축적수단c에 축적된 음운 모델데이터로 이루어지는 인식용 데이터(45)와, 어휘 라벨 네트워크 축적수단f에 축적된 어휘 라벨 네트워크(77)를 이용하여, 인식수단g에서 상술의 비터비(Viterbi) 알고리즘에 의해, 단어에 대한 인식결과(88)를 얻는다. 인식결과(88)는, 스피커나 디스플레이 등의 출력수단h에 의해, 음성이나 화면에 의한 출력결과(99)로서 화자에게 출력된다. 또한, 음성에 의해 CD 체인저 등에 대해 동작지시를 제공할 경우, 상술의 관련 테이블에 의해 음성인식결과에 대응하는 동작지시 내용이 판별되어 동작지시에 대응하는 제어 프로그램 등이 실행된다.

이상의 시스템 구성에 의해, 사용자는 빈번히 사용하는 동작 지시에 대해서는 자기 음성으로 단어 형태로 등록해 두는 것으로, 보다 정밀하게, 동작 지시를 할 수 있다. 이 시스템의 장점은, 사용자(특정 화자)가 등록한 등록어 라벨 계열이 라벨 인식(인식용 데이터를 사용한 음향 파라미터로부터 라벨로의 변환)에 있어서 잘못 인식되더라도 영향을 받지 않는다는 점이다.

음성인식장치에서는, 오인식 결과의 라벨 계열대로, 동작 지시가 등록되어, 음성인식모드로 특정 화자가 그 동작지시를 음성으로 입력한 경우에도, 음성인식장치는 동일 내용으로 잘못 인식하므로, 반드시 사전에 관련된 동작지시가 선택된다.

한편, 불특정 화자용 고정어 라벨 계열을 음성인식에 사용한 경우에, 라벨 인식에 오인식이 발생하면, 동작지시에 대응하는 라벨 계열과 상기 오인식 결과가 일치하지 않으므로, 음성의 동작지시가 정확하게 인식되지 않는 경우가 있다. 이 때문에, 제조 회사가 준비하는 고정어 레벨 계열 중 특정한 것과 동일 내용의 동작지시를 특정 화자가 음성으로 등록할 수 있다. 또한, 특정 화자의 등록어 라벨 계열에 의해 음성인식 모드에 있어서, 정확하게 음성인식할 수 있다.

본 실시 형태로서는 음성 단위로서 음운으로부터 분해되어 생성된 불특정 화자용 음향 이벤트 모델을 이용함으로써, 특정 화자가 발성하는 등록어를 언어에 따르지 않고 정밀하게 잘 인식한다.

이하에서는, 음운보다도 작은 음성 단위로서, 음운 HMM을 구성하는 상태를 이용한 경우에 대해 설명한다. 언어나 음운의 종류를 막론하고, 일반적으로 음운은 도 8에 도시되는 네 가지 상태로 이루어지는 HMM에서 모델화되는 것이 많다.

상태 1는 초기 상태이며, 상태 천이는 반드시 상태 1로부터 개시된다. 상태 4는 최종 상태이며, 이 상태로 천이하면 그 이상 상태 천이는 일어나지 않는다. aij는 상태i에서 상태j로의 천이하는 확률을 나타내며, 천이 확률이라고 불린다. j= i+ 1로 하면, aii+ aij= 1. 0 이다.

bi(x)는 상태i에서 상태 천이할 때, 관측 벡터x가 출력되는 확률을 나타내며, 출력 확률이라고 불린다. 관측 벡터는, 도 1의 음향 파라미터(33)에 대응하여, 켑스트럼이 잘 이용된다. 출력 확률bi (x)는 1개 이상의 정규 분포의 중합으로 표현된다. 또한, 출력 확률은 상태i로 상태 천이할 때, 관측 벡터x가 출력되는 확률bi(x)로서 정식화되는 경우와, 상태i에서 상태j로 상태 천이할 때, 관측 벡터x가 출력되는 확률bij(x)로서 정식화되는 경우도 있다.

출력 확률bi(x)이 1개 이상의 정규 분포의 중합으로 정식화될 경우, HMM을 연속 HMM이라고 부른다. 그 외, 반연속 HMM이나 이산 HMM으로 음운을 모델화하는 경우가 있으나, 본 발명은 마찬가지로 적용 가능하다.

도 8에 도시되는 네 가지 상태의 음운 HMM을 도 9, 도 10, 도 11의 세 가지의 2 상태로 이루어지는 HMM으로 분할한다. 이들을 음향이벤트 HMM이라 부르고, 상태 번호에 맞춰 *. 1, *. 2, *. 3으로 나타내기로 한다. 여기서, *는 표 1의 음운 라벨을 나타낸다.

이들 새롭게 생성된 HMM은 음운 안의 음향적인 이벤트를 표현하고 있는 것으로 생각할 수 있으므로, 음향이벤트 HMM이라 부르기로 한다. 이들 음향이벤트 HMM이 임의 순서, 임의 길이로 접속할 수 있는 네트워크를 도 12에 도시한다. 이 네트워크를 무제약 음향 이벤트 네트워크라 한다. 이 무제약 음향 이벤트 네트워크는, 도 3의 음운 네트워크에 비해, 음향적인 이벤트 계열의 자유도가 높고, 그 만큼, 음향적인 이벤트 계열의 표현 능력이 높다고 생각된다.

따라서, 도 3의 음운 네트워크를 이용하여 비터비(Viterbi) 알고리즘으로 얻어지는 음운 계열에 비해, 도 12의 무제약 음향 이벤트 네트워크를 이용하여 비터비(Viterbi) 알고리즘으로 얻어지는 음향 이벤트 계열쪽이, 특정 화자에게 고유의 등록어 발성을 보다 정밀하게 근사한 것이라고 기대할 수 있다.

거기서, 무제약 음향 이벤트 네트워크를 이용하여 비터비(Viterbi) 알고리즘으로 얻어지는 음향이벤트 계열을 도 1의 등록어 라벨 계열(55)로 이용함으로써, 등록어에 대해 보다 높은 인식 성능을 얻을 수 있다고 생각된다.

한편, 도 12의 무제약 음향 이벤트 네트워크에서는, 특정 화자에게 고유의 등록어 발성을 근사하는 음향 이벤트 계열의 후보가 수없이 많이 존재하므로, 그 선택에 많은 처리 시간을 요하는 것도 생각된다.

거기서, 도 13에 도시한 바와 같은 상태의 위치에 관한 제약을 설치한 네트워크를 사용하는 것도 처리 시간을 줄이는 데에 있어서 효과적이라고 생각된다. 도 13의 네트워크를 위치 제약부착 음향 이벤트 네트워크라 부르기로 한다. 이 네트워크에서는, 도 12의 무제약 음향이벤트 네트워크에 비해, 접속할 수 있는 음향이벤트 수가 1/3로 되어 있어, 특정 화자에게 고유의 등록어를 근사하는 음향이벤트 계열의 후보수가 적어지며, 약간의 인식 성능 저하는 발생할 지도 모르지만, 특정 화자에게 고유의 등록어를 근사하는 음향이벤트 계열을 구하는 처리시간도 그에 따라 단축할 수 있다고 생각된다.

실제, 음운 계열과 음향이벤트 계열로 특정 화자의 등록어 인식 성능을 비교 실험했다.

일본어의 음운 HMM과 도 3의 음운 네트워크를 이용하여, 비터비(Viterbi) 알고리즘에 의해 128 단어의 음운 계열을 구하여, 그것을 인식어휘로서, 일본어, 영어, 불어, 독일어, 이탈리아어에 대한 특정 화자 단어인식을 하기 위한 남녀 각 2명을 선발했다. 또한, 그 때의 음성인식의 평균 인식율 및 최저 인식율을 표 2에 도시한다. 음성과 잡음의 비율은 어느 것이나 10 dB 이다.

음운 네트워크를 이용한 경우의 특정 화자 단어 인식성능

언어	일본어	영어	불어	독어	이탈리아어
평균 인식률	93.6%	86.9%	88.7%	92.2%	91.4%
최저 인식률	92.2%	82.8%	83.6%	85.2%	87.5%

다음으로 일본어의 음운 HMM에서 상술한 방법에 의해 분해되어 생성된 음향이벤트 HMM과 도 13의 위치 제약부착 음향이벤트 네트워크를 이용하여 비터비(Viterbi) 알고리즘에 의해 128 단어의 음향이벤트 계열을 구하여, 그것을 인식 대상으로 한 경우의 일본어, 영어, 불어, 독일어, 이탈리아어에 대한 특정 화자 단어인식의 평균 인식율 및 최저 인식율을 표 3에 도시한다.

위치 제약부착 음향이벤트 네트워크를 이용한 경우의 특정 화자 단어 인식성능

언어	일본어	영어	불어	독어	이탈리아어
평균 인식율	97.5%	92.9%	94.0%	94.0%	93.6%
최저 인식율	96.1%	91.1%	92.2%	91.4%	91.4%

표 2와 표 3을 비교하면 언어에 따르지 않고, 음운 계열을 사용하는 것보다도 음향이벤트 계열을 사용하는 것이 평균인식율이 2-6% 정도 향상하고 있음을 알 수 있다. 또한, 최저인식율도 4-8% 향상하고 있음을 알 수 있다. 이들 결과로부터 도 3의 음운 네트워크를 이용하여 비터비(Viterbi) 알고리즘으로 얻어지는 음운 계열을 사용한 경우에 비해, 도 13의 위치 제약부착 음향이벤트 네트워크를 이용하여 비터비(Viterbi) 알고리즘으로 얻어지는 음향이벤트 계열을 사용한 것이, 특정 화자에게 고유의 등록어에 대해 보다 높은 성능을 얻을 수 있다는 것이 확실해졌다. 이 음향이벤트 계열의 우위성은, 음향이벤트 계열쪽이 음운 계열보다도 특정 화자에게 고유 근사도가 높기 때문이라 생각되고, 이 점이 본원 발명의 근간을 이룬다.

상술한 실시 형태에 대해서는 다음의 형태를 실시할 수 있다.

1) 도 1에 도시한 시스템 구성은, 디지털 회로로 구성해도 좋고, 마이크로컴퓨터나 PC의 소프트웨어 처리로 실현할 수도 있다. 이 경우, 변환수단b, 등록어 라벨 계열 추출수단d, 인식수단g에 대해 CPU가 소프트웨어 프로그램을 실행함으로써 그들 기능이 실현된다. 어떠한 회로 구성으로 할지는, 음성인식장치의 용도에 따라 적절히 결정하면 좋다. 예를 들면, PC로 문자 입력 및 제어 키 입력을 음성으로 행할 경우에는, PC에 탑재된 CPU, 하드디스크를 사용하여 도 1의 시스템을 실현하면 좋다.

2) 상술한 실시 형태에서는, 불특정 화자에게 공통의 고정어 라벨 계열을 CD-ROM 등으로부터 음성인식장치에 등록 가능하게 하고 있으나, 음성인식장치에 내장된 EEPROM 등의 불휘발성 기입가능 메모리에 기억해도 좋은 것은 물론이다. 이 경우 부족한 단어, 혹은 보다 인식정도를 높이고자 하는 단어를 특정 화자에 의해 음성으로 등록한다.

Claims

입력 음성을, 단어보다 짧은 길이의 음성 단위의 모델 정보를 이용하여, 단어인식을 행하는 음성인식장치에 있어서,

불특정 화자의 입력 음성의 단어인식을 위해 공통적으로 사용하는 고정어에 대한, 상기 음성 단위의 라벨 계열을 축적해 놓은 어휘 라벨 네트워크 축적수단과,

특정 화자의 입력 음성으로부터 등록어에 대한 상기 음성 단위의 라벨 계열을 작성하는 등록어 라벨 계열 추출수단과,

당해 작성된 등록어 라벨 계열을 상기 어휘 라벨 네트워크 축적수단에 추가 등록하는 등록수단

을 포함하고,

상기 음성 단위가 음운 HMM(Hidden Markov Model)의 각 상태를 분할하여 생성한 음향 이벤트

인 것을 특징으로 하는 음성인식장치.
제1항에 있어서,

상기 고정어를 상기 어휘 라벨 네트워크 축적수단에 등록하는 수단을 더 포함하는 것을 특징으로 하는 음성인식장치.
제1항에 있어서,

상기 불특정 화자의 입력 음성의 단어인식을 위해 공통적으로 사용하는 고정어에 대한 음성 단위의 라벨 계열과, 작성된 등록어 라벨 계열을 병렬의 네트워크 형태로 상기 어휘 라벨 네트워크 축적수단에 기억하는 것을 특징으로 하는 음성인식장치.
제3항에 있어서,

상기 고정어를 상기 어휘 라벨 네트워크 축적수단에 등록하는 수단을 더 포함하는 것을 특징으로 하는 음성인식장치.
입력 음성을, 단어보다 짧은 길이의 음성 단위의 모델 정보를 이용하여, 단어인식을 행하는 음성인식방법에 있어서,

불특정 화자의 입력 음성의 단어인식을 위해 공통적으로 사용하는 고정어에 대한 상기 음성 단위의 라벨 계열을 어휘 라벨 네트워크 축적수단에 축적해 두고,

특정 화자의 입력 음성으로부터 등록어에 대한 상기 음성 단위의 라벨 계열을 작성하여, 당해 작성된 등록어의 라벨 계열을 상기 어휘 라벨 네트워크 축적수단에 추가 등록하여,

상기 음성 단위가 음운 HMM의 각 상태를 분해하여 생성한 음향이벤트

인 것을 특징으로 하는 음성인식방법.
제5항에 있어서,

상기 고정어를 상기 어휘 라벨 네트워크 축적수단에 등록 가능하게 하는 것을 특징으로 하는 음성인식방법.
제5항에 있어서,

상기 불특정 화자의 입력 음성의 단어인식을 위해 공통적으로 사용하는 고정어에 대한 음성 단위의 라벨 계열과, 작성된 등록어의 라벨 계열을 병렬의 네트워크 형태로 상기 어휘 라벨 네트워크 축적수단에 기억하는 것을 특징으로 하는 음성인식방법.
제7항에 있어서,

상기 고정어를 상기 어휘 라벨 네트워크 축적수단에 등록하는 수단을 더 포함하는 것을 특징으로 하는 음성인식방법.