KR100531549B1 - 음성 인식 입력 음성의 음정 정규화 장치 - Google Patents

음성 인식 입력 음성의 음정 정규화 장치 Download PDF

Info

Publication number
KR100531549B1
KR100531549B1 KR10-2000-0063467A KR20000063467A KR100531549B1 KR 100531549 B1 KR100531549 B1 KR 100531549B1 KR 20000063467 A KR20000063467 A KR 20000063467A KR 100531549 B1 KR100531549 B1 KR 100531549B1
Authority
KR
South Korea
Prior art keywords
pitch
speech
voice
probability
predetermined
Prior art date
Application number
KR10-2000-0063467A
Other languages
English (en)
Other versions
KR20010040193A (ko
Inventor
오다미키오
가와네도모에
Original Assignee
마쯔시다덴기산교 가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 마쯔시다덴기산교 가부시키가이샤 filed Critical 마쯔시다덴기산교 가부시키가이샤
Publication of KR20010040193A publication Critical patent/KR20010040193A/ko
Application granted granted Critical
Publication of KR100531549B1 publication Critical patent/KR100531549B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants

Abstract

본 발명은 음성 인식 입력 음성의 음정 정규화 장치에 관한 것으로서, 불특정 화자가 발성한 입력 음성(Sva)을 인식하는 음성인식장치(VRAp)에 이용되고, 해당 입력 음성(Svc)을 음성 인식 최적 음정으로 정규화하는 입력 음성 음정 정규화장치(Tr)에 있어서, 인식 대상 음성 생성기(9, 11, 3, 5)는 입력 음성(Svd)을 소정 음정(Ni) 단위로 변화시켜 인식대상 음성 신호(Svc(Ni))를 생성하고, 일치 확률 산출기(15)는 인식 대상 음성신호(Svc(Ni))와 음성인식 표준 데이터(Psf)의 복수(M)의 단어(Sr(m))의 각각의 일치 확률(P)을 산출하고, 음정변환기(9, 11, 3, 5)는 제 1 위 일치 확률(Pmax)이 소정 확률(Pth) 이상이 되기까지 인식 대상 음성신호(Svc(Ni))의 음정을 반복 변화시키는 것을 특징으로 한다.

Description

음성 인식 입력 음성의 음정 정규화 장치{DEVICE FOR NORMALIZING VOICE PITCH FOR VOICE RECOGNITION}
본 발명은 불특정 화자의 음성을 인식하는 음성 인식 장치에 있어서, 저음의 남성의 음성이나 고음의 여성 및 어린아이의 음성에도 폭넓게 음성 인식 처리가 가능한 음성인식장치에 관한 것으로서, 더 상세히 설명하면 인식 대상 음성의 음정을 음성 인식 장치의 표준 음성의 음정에 맞춰 정규화하는 입력 음성 음정 정규화장치에 관한 것이다.
음성 인식 기술은 최근 디지털 신호 처리 기술의 향상 및 처리에 이용되는 LSI의 고성능화나 저가격화 등에 의해 민생기기에 수많이 도입되어 동일 기기의 조작성 향상에 도움이 되고 있다. 음성인식장치의 기본 원리는 입력된 음성을 디지털 음성 신호로 변환하고, 그 디지털 음성 신호를 미리 준비된 음성 사전에 등록된 표준 음성 데이터와 조합하여 입력된 음성을 인식하는 것이다. 이 때문에, 표준 음성 데이터와 비교하기 쉽도록 음성 임식 대상인 특정 화자에 대해 특별한 발성방법을 요구하거나 이들 특정화자의 음성을 미리 음성인식장치에 등록해두는 등의 대책에 채택되고 있다.
그러나, 민생기기로서 음성인식장치를 이용하는 경우에 화자를 특정하면 편리성이 현저하게 줄어들어 그 상품 가치가 손상된다. 이 때문에, 불특정 화자에 의해 발성된 음성을 음성입력으로서 인식하지 않으면 안된다. 물론 불특정 화자에 의한 발성은 여러가지이다. 이와 같이 불특정 화자에 의한 변화가 많은 발성에 대해 음성 인식 정밀도를 손상시키는 음성 인식 저해 요인은 크게 나눠 발성 속도와 음성 음정의 2가지이다.
제 1 음성 인식 저해 요인인 발성 속도에 관해서는 예를 들면 말이 빠른 사람 등의 화자에 따라서 말하는 속도에 차가 있는 것이다. 즉, 음성 인식은 입력되는 음성을 미리 준비된 음성 사전에 등록된 표준 속도의 음성과 비교하는 것에 의해 실현된다. 이 때문에 양자의 발성 속도의 차가 일정 이상이 되면 바르게 비교할 수 없고 음성 인식도 불가능해진다.
제 2 음성 인식 요인인 음성 음정에 관해서는 남성의 저음의 음성, 여성이나 어린아이에 의한 고음의 음성 등의 화자에 따라서 그 음성의 음정에 차가 있는 것이다. 이 경우에도 미리 준비된 음성 사전에 등록된 음성의 음정과 불특정 화자에 의해 발성된 음성의 음정의 차가 일정 이상이 되면 양 음성을 바르게 비교할 수 없고 음성 인식도 불가능해진다.
도 7에 상술한 문제를 해결한 것으로서 일본 특개평 9-325798호 공보에 제안되어 있는 음성 인식 장치를 나타낸다. 도 5에 도시한 바와 같이 음성 인식 장치(VRAc)는 음성입력부(111), 발성속도 산출부(112), 발성속도 변환율 결정부(113), 발성속도 변환부(114) 및 음성 인식부(115)를 포함한다.
음성입력부(111)는 불특정 화자에 의해 발성된 음성을 읽어들인 아날로그 음성신호를 디지털신호로 A/D변환하여 음성신호를 생성한다. 발성 속도 산출부(112)는 음성 신호에 기초하여 입력된 불특정 화자의 음성의 발성속도를 산출한다. 발성속도변환율 결정부(113)는 발성 속도 산출부(112)에서 산출된 발성 속도를 기준 속도와 비교하여 속도 변환율의 결정을 실시한다. 발성속도변환부(114)는 그 속도 변환율에 기초하여 발성 속도를 변환한다. 음성인식부(115)는 발성 속도 변환부(114)에 의해 속도 변환된 입력음성신호의 음성 인식을 실시한다.
계속해서, 음성인식장치(VRAc)의 동작에 대해서 설명한다. 불특정 화자에 의해 발성된 음성은 음성 입력부(111)의 마이크 및 증폭기를 경유하여 입력되고, 또 A/D컨버터에 의해 아날로그신호에서 디지털신호로 변환된다. 발성속도산출부(112)는 변환된 디지털의 음성신호로부터 입력음성의 1음을 잘라낸다. 그리고, 발성속도산출부(112)는 잘라낸 1음의 절단 시간 보다 1음의 발성속도를 산출한다.
따라서, 발성속도산출부(112)가 1음의 절단에 필요한 소요시간(이후, 「1음 절단 시간」이라고 함)을 “Ts”라 하고, 불특정 화자가 한 음의 발성에 필요한 기준 시간(이후, 「1음 발성 기준 시간」이라고 함)을 “Th”라 한다. 그리고, 발성속도변환율결정부(113)에 있어서, 1음 절단 시간(Ts) 및 1음 발성 기준 시간(Th)에 기초하여 1음 발성 속도(1/Ts)와 기준 1음 발성 속도(1/Th)를 비교하여 속도 변환율(α)를 결정한다. 속도변환율(α)은 하기 수학식 1에 의해 산출할 수 있다.
상기 수학식 1에서 명확해지는 바와 같이, 1음 절단 시간(Ts)이 1음 발성 기준 시간(Th)보다 짧은, 즉 입력 음성의 발성 속도가 음성 인식 장치(VRAc)에 의해 정확하게 인식할 수 있는 발성 속도에 비해 빠른 경우에는 속도 변환율(α)은 1보다 작아진다. 이 경우, 입력 음성의 발성 속도를 늦출 필요가 있다. 반대로 1음 절단 시간(Ts)이 1음 발성 기준 시간(Th)보다 긴, 즉 입력 음성의 발성 속도가 음성 인식 장치(VRAc)에 의해 정확히 인식할 수 있는 발성 속도에 비해 늦은 경우에는 속도 변환율(α)는 1보다 크다. 이 경우, 입력 음성의 발성 속도를 빠르게 해 줄 필요가 있다.
음성인식장치(VRAc)에서는 속도 변환율(α)에 기초하여 발성 속도 변환부(114)가 발성 속도가 일정해지도록 입력 음성 신호의 속도를 변환하여 속도 변환 입력 음성 신호를 생성한다. 음성인식부(115)는 속도변환 입력 음성신호에 대해 음성 인식 처리를 실시하여 얻어진 인식 결과를 출력한다.
상술한 속도 변환은 최근 디지털 기술을 사용하여 용이하게 실현할 수 있다. 예를 들면 입력 음성의 발성 속도를 늦출 경우에는 입력 음성의 1음과 상관성을 갖는 모음파형을 음성신호에 복수개 추가하여 음성신호의 발성 시간을 연장하면 좋다. 또, 입력 음성의 발성 속도를 빠르게 할 경우는 입력 음성의 1음의 모음파형을 복수회에 걸쳐 음성신호로부터 솎아내면 좋다.
이 처리는 화속(話速) 변환이라고 하는 입력 음성의 음정을 변화시키지 않고 화속을 변화시키는 기술이다. 즉, 음성인식에 있어서, 발성 속도에 개인차가 있는 불특정 화자 중, 특히 빨리 말하는 화자에 의해 발성된 음성에 대해 화속 변환 기술을 이용하여 말이 빠른 화자에 의해 발성된 음성의 인식률 향상을 도모하는 것이다.
상술한 종래의 음성인식장치(VRAc)에서는 기준 1음 발성속도(1/Th)에 비해 발성속도가 다른 불특정 화자에 의한 음성에 대한 인식률을 향상시키는 것, 즉 제 1음성인식저해요인에 대해 효과적이다. 그러나, 기준 음성에 대해 고저차가 있는 발성 음성, 즉 제 2 음성 인식 저해 요인인 고저차가 있는 발성 음성에 대해서는 인식률의 향상은 기대할 수 없다.
상술하면 음성인식장치(VRAc)는 남성의 저음, 여성 및 어린아이의 고음 등의 폭넓은 주파수 범위에 대응할 수 있지만, 높은 음성 인식률은 실현할 수 없다. 또, 말이 빠른 경우는 천천히 말해달라는 등 주의를 주면 처리되는 문제이지만 화자에게 음색을 바꾸어 발성하는 것을 바라는 것은 곤란하다. 화자의 기준 발성 주파수는 화자의 목의 형상 및 크기에 따라서 결정된다. 즉, 화자의 목의 형상을 바꿀 수는 없기 때문에 그 발성 음색도 바꿀 수 없다.
이 때문에, 음성인식장치(VRAc)에서는 불특정 화자에 의한 발성 각각의 음색차에 대해서도 음성인식률의 향상을 도모하는데는 남성의 목소리, 여성 및 어린아이의 목소리등 음성 인식에 필요한 다른 음정의 표준 음성 데이터를 복수개 갖고, 화자의 음색에 따라서 참조하는 표준 음성 데이터를 전환하지 않으면 안되는 과제를 갖고 있다.
이 과제에 대한 대책으로는 입력 음성을 표준 음성 데이터를 포함하는 음성 인식장치에 의한 음성 인식과 관련하여 최적의 음정으로 변환하는 것을 생각할 수 있다. 그러나, 상술한 바와 같이 불특정 화자에 의해 발성된 음성은 여러 가지 음정을 갖고 있기 때문에 입력 음성을 음성인식장치의 음성인식에 있어서 최적이라고 생각되는 원하는 음정에 맞춰 한번에 변환하는 것은 곤란하다. 또, 한번에 원하는 음정으로 변환했다고 해도 화자에 의한 발성의 버릇이나 단어에 따라서는 바르게 인식하지 못하는 경우가 있다. 즉, 음성인식장치나 표준 음성데이터로부터 음성인식에 최적이라고 생각되는 음정은 반드시 최적이 아니다.
따라서, 본 발명은 음성인식장치에 있어서 바르게 음성이 인식되었다고 확인할 수 있는 음정에 입력 음성의 음정을 정규화한 음정 정규화 장치를 제공하는 것을 목적으로 한다.
본 발명의 제 1 국면은 복수의 단어의 음성인식 표준 데이터에 기초하여 불특정 화자가 발성한 입력음성을 인식하는 음성인식장치에 이용되어 입력 음성을 음성 인식 최적 음정으로 정규화하는 입력 음성 음정 정규화장치에 있어서,
입력 음성을 소정 음정 단위로 변화시켜 인식 대상 음성 신호를 생성하는 인식 대상 음성 생성기와,
인식 대상 음성신호와 음성 인식 표준 데이터의 복수의 단어의 각각의 일치 확률을 산출하는 일치 확률 산출기를 구비하고,
일치 확률의 최대값이 소정 확률 이상이 되기까지 인식 대상 음성 신호의 음정을 반복하여 변화시키는 음정 변환기를 구비하는 것을 특징으로 한다.
상술한 바와 같이, 제 1 국면에 있어서는 입력 음성에 대한 복수의 단어의 음성 인식 표준 데이터와 일치 확률의 최대값이 소정값 이상이 되도록 입력 음성의 음정을 조정하기 때문에 고속 또한 정확히 입력 음성의 정규화를 실현할 수 있다.
제 2 국면은 제 1 국면에 있어서, 음정 변환기는 일치 확률의 최대값이 소정 확률보다 작은 경우에는 인식 대상 음성을 소정의 음정 단위로 승음(昇音) 및 강음(降音)의 한쪽으로 변화시키는 조음기(調音器)를 구비하는 것을 특징으로 한다.
상술한 바와 같이, 제 2 국면에 있어서는 입력 음성이 음성 인식 표준 데이터에 대해 저음 또는 고음의 경우에도 대응할 수 있다.
제 3 국면은 제 2 국면에 있어서, 입력 음성을 일시 기억하는 메모리와,
입력 음성의 한개의 묶음을 메모리로부터 판독하여 인식 대상 음성 신호를 생성하는 판독 제어기를 추가로 구비하고,
소정의 음정 단위로 인식 대상 음성신호의 주파수를 변환시키도록 메모리의 판독 타이밍 클럭의 주파수를 결정하여 판독 클럭 신호를 생성하는 판독 클럭 제어기를 구비하는 것을 특징으로 한다.
제 4 국면은 제 2 국면에 있어서, 인식 대상 음성 신호는 입력 음성과 동일한 음정으로부터 소정 음정 단위로 승음되는 것을 특징으로 한다.
제 5 국면은 제 4 국면에 있어서, 인식 대상 음성 신호의 최고 음정은 제 1 소정 음정으로 한정되고, 또한 최고 음정에 도달하기까지 일치 확률의 최대값이 소정 확률 이상이 되지 않을 때는 인식 대상 음성 신호는 입력 음성과 동일한 음정으로부터 소정 음정 단위로 강음되는 것을 특징으로 한다.
상술한 바와 같이, 제 5 국면에 있어서는 음성인식장치의 능력내에서 입력음성의 정규화범위를 적정하게 설정할 수 있다.
제 6 국면은 제 5 국면에 있어서, 인식 대상 음성신호의 최저 음정은 제 2 소정 음정으로 한정되고, 또한 최저 음정에 도달하기까지 일치 확률의 최대값이 소정 확률 이상이 되지 않을 때는 정규화를 종료하는 것을 특징으로 한다.
상술한 바와 같이, 제 6 국면에서는 음성인식장치의 능력내에서 입력음성의 정규화 범위를 적정하게 설정할 수 있다.
제 7 국면은 제 2 국면에 있어서, 인식대상 음성신호는 입력 음성과 동일한 음정으로부터 소정 음정 단위로 강음되는 것을 특징으로 한다.
제 8 국면은 제 7 국면에 있어서, 인식대상 음성신호의 최저 음정은 제 3 소정 음정으로 한정되고, 또한 최저 음정에 도달하기까지 일치 확률의 최대값이 소정 확률 이상이 되지 않을 때는 인식 대상 음성신호는 입력 음성과 동일한 음정으로부터 소정 음정 단위로 승음되는 것을 특징으로 한다.
상술한 바와 같이, 제 8 국면에서는 음성인식장치의 능력내에서 입력음성의 정규화범위를 적정하게 설정할 수 있다.
제 9 국면은 제 8 국면에 있어서, 인식대상 음성신호의 최고 음정은 제 4 소정 음정으로 한정되고, 또한 최고 음정에 도달하기까지 일치 확률의 최대값이 소정 확률 이상이 되지 않을 때는 정규화를 종료하는 것을 특징으로 한다.
제 10 국면은 복수의 단어의 음성인식 표준 데이터에 기초하여 불특정 화자가 발성한 입력 음성을 음성 인식 최적 음정에 정규화한 상태로 인식하는 음성인식장치에 있어서,
입력 음성을 소정 음정 단위로 변화시켜 인식 대상 음성 신호를 생성하는 인식 대상 음성 생성기,
인식 대상 음성신호와 음성 인식 표준 데이터의 복수의 단어의 각각과의 일치 확률을 산출하는 일치 확률 산출기 및
일치 확률의 최대값이 소정 확률 이상이 되기까지 인식 대상 음성 신호의 음정을 반복하여 변화시키는 음정 변환기를 구비하는 것을 특징으로 한다.
상술한 바와 같이, 제 10 국면에 있어서는 입력 음성에 대한 복수의 단어의 음성 인식 표준 데이터와 일치 확률의 최대값이 소정값 이상이 되도록 입력 음성의 음정을 조정하기 때문에 고속 또는 정확하게 입력 음성의 정규화를 실현할 수 있다.
제 11 국면은 제 10 국면에 있어서, 인식 대상 음성 생성기는 일치 확률의 최대값이 소정 확률보다 작은 경우에는 인식 대상 음성을 소정 음정 단위로 승음 및 강음의 한쪽으로 변화시키는 조음기를 구비하는 것을 특징으로 한다.
상술한 바와 같이, 제 11 국면에 있어서는 입력 음성이 음성 인식 표준 데이터에 대해 저음 또는 고음의 경우에도 대응할 수 있다.
제 12 국면은 제 11 국면에 있어서, 입력 음성을 일시 기억하는 메모리와,
입력 음성의 한개의 묶음을 메모리로부터 판독하여 인식 대상 음성신호를 생성하는 판독제어기를 추가로 구비하고,
소정의 음정 단위로 인식 대상 음성 신호의 주파수가 변환되도록 메모리의 판독 타이밍 클럭의 주파수를 결정하여 판독 클럭 신호를 생성하는 판독 클럭 제어기를 구비하는 것을 특징으로 한다.
제 13 국면은 제 11 국면에 있어서, 인식 대상 음성 신호는 입력 음성과 동일한 음정으로부터 소정 음정 단위로 승음되는 것을 특징으로 한다.
상술한 바와 같이, 제 13 국면에 있어서는 음성 인식 장치의 능력내에서 입력 음성의 정규화 범위를 적정하게 설정할 수 있다.
제 14 국면은 제 13 국면에 있어서, 인식 대상 음성 신호의 최고 음정은 제 1 소정 음정으로 한정되고, 또한 최고 음정에 도달하기까지 일치 확률의 최대값이 소정 확률 이상이 되지 않을 때는 인식 대상 음성 신호는 입력 음성과 동일한 음정으로부터 소정 음정 단위로 강음되는 것을 특징으로 한다.
상술한 바와 같이, 제 14 국면에 있어서는 음성인식장치의 능력내에서 입력 음성의 정규화 범위를 적정하게 설정할 수 있다.
제 15 국면은 제 14 국면에 있어서, 인식 대상 음성신호의 최저 음정은 제 2 소정 음정으로 한정되고, 또한 최저 음정에 도달하기까지 일치 확률의 최대값이 소정 확률 이상이 되지 않을 때는 정규화를 종료하는 것을 특징으로 한다.
제 16 국면은 제 11 국면에 있어서, 인식 대상 음성 신호는 입력 음성과 동일한 음정으로부터 소정 음정 단위로 강음되는 것을 특징으로 하다.
제 17 국면은 제 16 국면에 있어서, 인식 대상 음성 신호의 최저 음정은 제 3 소정 음정으로 한정되고, 또한 최저 음정에 도달하기까지 일치 확률의 최대값이 소정 확률 이상이 되지 않을 때는 인식 대상 음성신호는 입력 음성과 동일한 음정으로부터 소정 음정 단위로 승음되는 것을 특징으로 한다.
상술한 바와 같이, 제 17 국면에 있어서는 음성인식장치의 능력내에서 입력 음성의 정규화 범위를 적정하게 설정할 수 있다.
제 18 국면은 제 17 국면에 있어서, 인식 대상 음성 신호의 최고 음정은 제 4 소정 음정으로 한정되고, 또한 최고 음정에 도달하기까지 일치 확률의 최대값이 소정 확률 이상이 되지 않을 때는 정규화를 종료하는 것을 특징으로 한다.
제 19 국면은 복수의 단어의 음성인식 표준 데이터에 기초하여 불특정 화자가 발성한 입력 음성을 인식하는 음성인식장치에 이용되어 입력 음성을 음성 인식 최적 음정으로 정규화하는 입력 음성 음정 정규화 방법에 있어서,
입력 음성을 소정 음정 단위로 변화시켜 인식 대상 음성신호를 생성하는 단계,
인식 대상 음성신호와 음성 인식 표준 데이터의 복수의 단어의 각각과의 일치 확률을 산출하는 단계 및
일치 확률의 최대값이 소정 확률 이상이 되기까지 인식 대상 음성 신호의 음정을 반복하여 변화시키는 단계를 구비하는 것을 특징으로 한다.
상술한 바와 같이, 제 19 국면에 있어서는 입력 음성에 대한 복수의 단어의 음성 인식 표준 데이터와 일치 확률의 최대값이 소정값 이상이 되도록 입력 음성의 음정을 조정하기 때문에 고속 또는 정확하게 입력 음성의 정규화를 실현할 수 있다.
제 20 국면은 제 19 국면에 있어서, 일치 확률의 최대값이 소정 확률보다 작은 경우에는 인식 대상 음성을 소정의 음정 단위로 승음 및 강음의 한쪽으로 변화시키는 단계를 추가로 구비하는 것을 특징으로 한다.
상술한 바와 같이, 제 20 국면에 있어서는 입력 음성이 음성 인식 표준 데이터에 대해 저음 또는 고음의 경우에도 대응할 수 있다.
제 21 국면은 제 20 국면에 있어서, 입력 음성을 일시 기억하는 단계,
일시 기억된 입력 음성의 한개의 묶음으로부터 인식 대상 음성 신호를 생성하는 단계 및
소정의 음정 단위로 인식 대상 음성신호의 주파수를 변환시키도록 메모리의 판독 타이밍 클럭의 주파수를 결정하는 단계를 구비하는 것을 특징으로 한다.
제 22 국면은 제 20 국면에 있어서, 인식 대상 음성신호를 입력 음성과 동일한 음정으로부터 소정 음정 단위로 승음시키는 단계를 추가로 구비하는 것을 특징으로 한다.
제 23 국면은 제 22 국면에 있어서, 인식 대상 음성신호의 최고 음정은 제 1 소정 음정으로 한정되고, 또한
최고 음정에 도달하기까지 일치 확률의 최대값이 소정 확률이 되지 않을 때는 인식 대상 음성 신호를 입력 음성과 동일한 음정으로부터 소정 음정 단위로 강음시키는 단계를 추가로 구비하는 것을 특징으로 한다.
상술한 바와 같이, 제 23 국면에 있어서는 음성인식장치의 능력내에서 입력 음성의 정규화 범위를 적정하게 설정할 수 있다.
제 24 국면은 제 23 국면에 있어서, 인식 대상 음성 신호의 최저 음정은 제 2 소정 음정으로 한정되고, 또한
최저 음정에 도달하기까지 일치 확률의 최대값이 소정 확률 이상이 되지 않을 때는 정규화를 종료시키는 단계를 추가로 구비하는 것을 특징으로 한다.
상술한 바와 같이, 제 24 국면에 있어서는 음성인식장치의 능력내에서 입력 음성의 정규화 범위를 적정하게 설정할 수 있다.
제 25 국면은 제 20 국면에 있어서, 인식 대상 음성 신호를 입력 음성과 동일한 음정으로부터 소정 음정 단위로 강음시키는 단계를 추가로 구비한다.
제 26 국면은 제 25 국면에 있어서, 인식 대상 음성신호의 최저 음정은 제 3 소정 음정으로 한정되고, 또한
최저 음정에 도달하기까지 일치 확률의 최대값이 소정 확률 이상이 되지 않을 때는 인식 대상 음성 신호를 입력 음성과 동일한 음정으로부터 소정 음정 단위로 승음시키는 단계를 추가로 구비하는 것을 특징으로 한다.
상술한 바와 같이, 제 26 국면에 있어서는 음성인식장치의 능력내에서 입력 음성의 정규화 범위를 적정하게 설정할 수 있다.
제 27 국면은 제 26 국면에 있어서, 인식 대상 음성 신호의 최고 음정은 제 4 소정 음정으로 한정되고, 또한 최고 음정에 도달하기까지 일치 확률의 최대값이 소정 확률 이상이 되지 않을 때는 정규화를 종료시키는 단계를 추가로 구비하는 것을 특징으로 한다.
본 발명의 이들 및 다른 목적, 특징, 국면 및 효과는 첨부 도면과 조합하여 이하에 기술한 상세한 설명으로부터 더욱 명확해질 것이다.
(실시예)
도 1를 참조하여, 본 발명의 실시형태에 따른 입력 음성 음정 정규화 장치를 조립한 음성인식장치에 대해 설명한다. 음성인식장치(VRAp)는 A/D컨버터(1), 입력음성정규화장치(Tr), 표준 음성 데이터 저장기(13), 음성분석기(15) 및 제어기(17)를 포함한다. 표준 음성 데이터 저장기(13)는 음성 인식의 기준이 되는 복수의 단어의 주파수 패턴(Psf)을 저장하고, 소정의 타이밍으로 저장되어 있는 주파수 패턴(Psf)을 출력한다. 또, 불특정 화자에 의해 발성된 음성은 마이크 및 증폭기(도시하지 않음)를 경유하여 아날로그 음성 신호(Sva)로서 음성인식장치(VRAp)에 입력된다.
제어기(17)는 음성인식장치(VRAp)의 구성요소인 A/D컨버터(1), 입력음성정규화장치(Tr), 표준 음성 데이터 저장기(13) 및 음성분석기(15)로부터 출력된다. 이들의 동작 상태를 나타내는 동작 상태 신호(Ss)에 기초하여 이들 구성요소(1, Tr, 13, 15)의 동작을 제어하는 제어신호(Sc)를 생성하여 음성인식장치(VRAp) 전체의 동작을 제어한다. 또, 동작상태신호(Ss), 제어신호(Sc) 및 제어기(17)에 대해서는 공지된 기술이기 때문에 설명의 간편화를 위해 특별히 필요하지 않는 한 언급하지 않는다.
A/D컨버터(1)는 입력된 아날로그 음성신호(Sva)에 A/D변환 처리를 실시하여 디지털 음성신호(Svd)를 생성하여 입력음성 정규화장치(Tr)에 입력한다. 입력음성정규화장치(Tr)는 입력된 디지털 음성신호(Svd)에 기초하여 음성인식장치(VRAp)의 음성인식 최적 음정을 목표로 하여 소정량만큼 음정 변환된 음정 정규화 디지털 음성신호(Svc)를 생성하여 음성분석기(15)에 출력한다.
음성분석기(15)는 음정 정규화 디지털 음성 신호(Svc)에 FFT(1차 푸리에 변환) 처리를 실시하여 음정 정규화 디지털 음성 신호(Svc)의 주파수 패턴(Psvc)(도시하지 않음)을 구한다. 또, 음성분석기(15)는 표준 음성 데이터 저장기(13)로부터 각각의 단어의 주파수 패턴(Psf)과 그 단어에 대응하는 코드(Sr)로 이루어진 표준 음성 데이터를 판독한다. 그리고, 음성분석기(15)는 표준 음성 데이터의 각각의 단어의 주파수 패턴(Psf)과 음정 정규화 디지털 음성신호(Svc)의 주파수 패턴(Psvc)을 비교하여 각각의 일치도를 나타내는 일치 확률(P)을 구한다.
또, 일치 확률(P)은 후술하는 바와 같이 히든 마르코브 모델(Hidden Markov Model)법으로 대표되는 종래의 기술에 의해 구해진다. 표준 음성 데이터에 포함되는 전 단어의 일치확률(P) 중 최대의 것을 제 1 위 일치 확률(Pmax)로 하고, 그 단어를 나타내는 코드(Sr)를 최대 일치 확률 코드(Srp)라고 한다.
입력 음성 정규화 장치(Tr)는 제 1위 일치 확률(Pmax)에 기초하여 표준 음성 데이터의 복수의 단어 중에서 그 주파수 패턴(Psf)이 음정 정규화 디지털 음성신호(Svc)의 주파수 패턴(Psvc)에 합치하는 것을 인정한다. 제 1 위 일치 확률(Pmax)이 소정 임계값을 갖는 합치 인정 기준(Pth)보다 큰 경우에는 입력음성 정규화장치(Tr)는 그 표준 음성 데이터의 단어를 입력 음성과 합치하는 것으로서 인정하여 합치 인정 신호(Sj)를 음성 분석기(15)에 출력하여 그 인정한 단어(음성 인식 표준 데이터)를 나타내는 최대 일치 확률 코드(Srp)를 음성분석기(15)로부터 출력시킨다. 이 의미에 있어서, 최대 일치 확률 코드(Srp)를 인식코드(Srp)라고 한다.
한편, 제 1 위 일치 확률(Pmax)이 합치 인정 기준(Pth)보다 작은 경우에는 입력음성 정규화장치(Tr)는 디지털 음성 신호(Svd)의 음정을 소정량만큼 조정하여 음정 정규화 디지털 음성신호(Svc)를 다시한번 생성한다. 그리고, 이 음정 조정된 음정 정규화 디지털 음성 신호(Svc)에 기초하여 상술한 인정 처리가 반복된다. 즉, 음정 조정된 음정 정규화 디지털 음성 신호(Svc)에 대응하는 표준 음성 데이터의 복수의 단어 중에서 매회의 주파수 패턴 비교에 있어서 제 1 위 일치 확률(Pmax)을 갖는 것에 대해서 합치 판정이 실시된다.
또, 도 1에 도시한 바와 같이 입력 음성 정규화 장치(Tr)는 메모리(3), 판독 제어기(5), 음정 최적화기(9) 및 판독 클럭 제어기(11)를 포함한다. 음정 최적화기(9)는 음성분석기(15)로부터 입력되는 제 1 위 일치 확률(Pmax)에 기초하여 음정 정규화 디지털 음성신호(Svc)와 표준 음성 데이터의 특정 단어의 합치 인정을 실시한다.
즉, 합치 인정 기준(Pth)이 제 1 위 일치 확률(Pmax)보다 큰 경우에는 음정 최적화기(9)는 합치라고 인정하지 않는다. 그리고, 입력 음성 정규화 장치(Tr)(음성분석기(15))로의 입력인 음정 정규화 디지털 음성신호(Svc)의 음정을 음정 조정량(Ni)만큼 수정하기 위해 음정 조정신호(Si)를 판독 클럭 제어기(11)로 송출한다.
음정조정량(Ni) 및 음정조정신호(Si)에 나타낸 i는 조정하는 음정의 양을 규정하는 음정 조정 지수이다. 또, 본 실시형태에서는 음정 조정 지수(i)는 양음의 정수의 예가 개시되어 있지만, 임의의 값을 채택할 수 있는 것은 물론이다. 또, 음정 조정 지수(i)가 정수인 경우, 그 값은 음정 정규화 디지털 음성 신호(Svc)의 음정 조정 사이클과 일치함으로써, 본 명세서에서는 필요에 따라서 음정 조정 지수(i)로 음정 조정 사이클을 나타내 설명한다.
판독 클럭 제어기(11)는 음정 조정 신호(Si)에 기초하여 음정 정규화 디지털 음성 신호(Svc)의 음정을 소정량(Ni)만큼 변경(승음 또는 강음)시키는 판독 클럭(Scc)을 메모리(3)에 출력한다.
판독제어기(5)는 메모리(3)에 의한 디지털 음성신호(Svd)의 보존을 감시하고 또한 판독제어신호(Src)를 생성하여 메모리(3)에 보존되어 있는 디지털 음성 신호(Svd) 중에서 독립된 발성에 대응하는 것을 판독 클럭(Scc)이 규정하는 타이밍으로 음정 정규화 디지털 음성신호(Svc)로서 판독하도록 메모리(3)를 제어한다.
메모리(3)는 판독 클럭(Scc)에 규정되는 타이밍으로 보존되어 있는 디지털 음성 신호(Svd)를 판독하는 것에 의해 디지털 음성 신호(Svd)의 음정이 음정 조정 신호(Si)에 의해 지시된 음정(Ni)만큼 조정된 음정 정규화 디지털 음성신호(Svc)를 출력한다. 즉, 음정 정규화 디지털 음성 신호(Svc)는 음정 조정 신호(Si)에 의해 지정된 소정의 음정 조정량(Ni)만큼 디지털 음정신호(Svd)의 음정이 조정된 신호이다.
이 소정의 음정이라는 것은 반드시 고정할 필요는 없고 매회 임의의 값을 채택하도록 해도 좋고, 음성 인식 장치(VRAp)(특히 음성분석기(15) 및 표준 음성 데이터의 조합)의 성능에 따라서 스스로 결정하는 허용범위가 인정되는 것은 물론이다. 이와 같이, 음정 조정량(ni)만큼 음정 조정된 음정 정규화 디지털 음성 신호(Svc)를 음정 정규화 디지털 음성신호(Svc(Ni))라고 표현한다. 또, 그외의 신호 등에 있어서도 필요에 따라서 마찬가지로 표현한다.
음성분석기(15)는 메모리(3)로부터 새롭게 입력되는 음정 정규화 디지털 음성 신호(Svc)에 대해 표준 음성 데이터 저장기(13)에 저장되어 있는 표준 음성 데이터의 모든(M개) 단어에 대해 일치 확률(P)을 구한다. 또, M은 1이상의 임의의 정수이며, 표준 음성 데이터로서 그 음성 주파수 성분 패턴(Psf)이 포함되는 단어에 대응하는 코드(Sr)의 총수이다. 이 의미에 있어서, M을 표준 음성 데이터 단어 총수라고 한다.
도 2에 도시한 바와 같이, 음성 분석기(15)는 최대 일치 확률 결정기(15a)와 합치 인정 코드 출력기(15b)를 포함한다. 표준 음성 데이터 저장기(13)로부터 최대 일치 확률 결정기(15a)에 주파수 패턴(Psf(m))이 출력될 때마다 그 주파수 패턴(Psf(m))에 대응하는 코드(Sr(m))가 표준 음성 데이터 저장기(13)로부터 합치 인정 코드 출력기(15b)에 입력된다.
합치 인정 코드 출력기(15b)는 다음 코드(Sr(m+1))가 입력되기까지 이 값을 유지한다. 또, m은 1 이상 M 이하의 임의의 정수로서, 표준 음성 데이터 저장기(13)에 저장되어 있는 표준 음성 데이터에 포함되어 있는 M개의 단어의 각각에 대응하는 코드 및 음성 주파수 성분 패턴(Psfl∼PsfM)의 임의의 1개를 나타내는 매개변수이다.
최대 일치 확률 결정기(15a)는 메모리(3)로부터 입력되는 음정 정규화 디지털 음성 신호(Svc(Ni))와 표준 음성 데이터 저장기(13)로부터 입력되는 표준 음성의 각 단어의 주파수 패턴(Psf(m))에 기초하여 음정 정규화 디지털 음성 신호(Svc(Ni))에 관한 제 1 위 일치 확률(Pmax(Ni))을 구해 음정 최적화기(9)에 출력하고, 또한 코드 유지 신호(Csr)를 합치 인정 코드 출력기(15b)에 출력한다.
코드유지신호(Csr)에 응답하여 합치 인정 코드 출력기(15b)는 그 시점에서 입력되어 있는 코드(Sr(m))를 인정 후보 코드(Srp’)로서 유지한다. 이는 이후에 설명하는 바와 같이, 제 1 위 일치 확률(Pmax(Ni))을 갖는 단어에 대응하는 코드(Sr)는 그 일치 확률(P)(즉 제 1 위 일치 확률(Pmax(Ni)))이 합치 인정 기준(Pth) 이상이면 입력 음성(아날로그 음성신호(Sva))에 상당하는 디지털 음성 신호(Svd)에 합치하는 인식코드(Srp)라고 인정되는 것에 의해 제 1 위 일치 확률(Pmax(Ni))을 갖는 코드(Sr(m))를 인정 후보 코드(Srp’)로서 식별하는 것이다. 또한, 이와 같이 인정된 인식 코드를 합치 인정 코드(Srp)로서 식별한다.
합치 인정 코드 출력기(15b)는 최대 일치 확률 결정기(15a)로부터 입력되는 코드 유지 신호(Csr)와 표준 음성 데이터 저장기(13)로부터 입력되는 코드(Sr(m))와, 음정 최적화기(9)로부터 입력되는 합치 인정 신호(Sj)에 기초하여 합치 인정 코드(Srp)를 음성 인식 장치(VRAp)의 외부로 출력한다. 더 자세하게 설명하면, 최대 일치 확률 결정기(15a)는 음정 정규화 디지털 음성 신호(SVc(Ni)))가 입력된 후, 또 음정 조정된 음정 정규화 디지털 음성신호(Svc(N(i+1)))가 입력되기까지 음정 정규화 디지털 음성신호(Svc(Ni))를 유지한다.
표준 음성 데이터 저장기(13)로부터는 미리 저장되어 있는 모든 단어의 표준 음성 데이터의 주파수 패턴(Psf(m))이 계속해서 입력되고, 입력마다 디지털 음성 신호(Svc(Ni))의 주파수 패턴(Psvc(Ni))과의 일치 확률(P(m))이 구해진다. 최대 일치 확률(Pmax(Ni))은 음정 정규화 디지털 음성 신호(Svc(Ni))와 주파수 패턴(Psf(m))의 비교 결과로 얻어지는 일치 확률(P(m))이 이제까지의 일치 확률(P(m-β))의 최대값보다 크면 치환되는 방법으로 구해진다. 또, β는 1 이상 m 이하의 임의의 정수이다.
최대 일치 확률 결정기(15a)는 이 치환이 발생했을 때 현재의 주파수 패턴(Psf(m))의 일치 확률(P(m))이 이제까지의 최대값인 것을 나타내는 코드유지신호(Csr)를 합치 인정 코드 출력기(15b)로 출력한다. 이 처리는 표준 음성 데이터 저장기(13)에 포함되는 전체 M개의 단어의 주파수 패턴(Psf1∼PsfM)에 대해 실행되어, 제 1 위 일치 확률(Pmax(Ni))을 구한다. 그리고, 제 1 위 일치 확률(Pmax(Ni))은 음정 최적화기(9)에 출력되어 상술한 합치 인정 처리를 받고, 또한 그 제 1 위 일치 확률(Pmax(Ni))에 대응하는 단어를 나타내는 인식신호(Sr(m))가 인정 후보 코드(Srp’)로서 합치 인정 코드 출력기(15b)에 보존된다.
최대 일치 확률 결정기(15a)로부터 코드 유지 신호(Csr)가 입력되었을 때는 이제까지의 최대 일치 확률(P)을 갖는 현재의 코드(Sr(m))를 다음에 코드 유지 신호(Csr)가 입력되기까지 인정 후보 코드(Srp’)로서 유지한다. 다시한번 코드 유지(Csr)가 입력된 경우는 그 때의 새로운 코드(Sr(m+γ))를 인정 후보 코드(Srp’)라고 한다. 이와 같이 함으로써 항상 최대 일치 확률(Pmax(Ni))을 갖을 가능성이 있는 코드(Sr)를 인정 후보 코드(Srp’)로서 유지하고 있다. 또, “γ”는 1 이상 (M-m) 이하의 임의의 정수이다.
음정 정규화 디지털 음성신호(Svc(Ni))와 그에 대응하는 모든 표준 음성 데이터(주파수 패턴(Psf(m)))과의 비교가 종료된 시점에서 최대 일치 확률 결정기(15a)에 유지되어 있는 최대 일치 확률(P)을 제 1 위 일치 확률(Pmax(Ni))로서 음정최적화기(9)로 출력시킨다. 음정최적화기(9)에서는 이 제 1 위 일치 확률(Pmax(Ni))을 합치 인정 기준(Pth)과 비교한다.
그리고, 제 1 위 일치 확률(Pmax(Ni))이 합치 인정 기준(Pth) 이상인 경우에는 합치 인정 코드 출력기(15b)에 유지되어 있는 인정 후보 코드(Srp’)가 합치 인정 코드(Srp)라고 인정하는 합치 인정 신호(Sj)가 음정최적화기(9)로부터 합치 인정 코드 출력기(15b)로 입력된다. 합치 인정 코드 출력기(15b)는 이 합치 인정 신호(Sj)에 응답하여 입력 음성을 바르게 음성 인식한 단어를 나타내는 것으로서 합치 인정 코드(Srp)를 출력한다.
바꿔말하면 합치인정코드(Srp)는 음정최적화기(9)로부터 출력되는 합치인정신호(Sj)가 없으면 합치 인정 코드 출력기(15b)로부터 출력되는 일은 없다. 이때의 합치 인정 코드(Srp)는 음정 정규화 디지털 음성 신호(Svc(Ni))에 대한 일치 확률(P)이 (제 1위 일치 확률(Pmax)) 합치 인정 기준(Pth)보다 큰 값이다.
즉, 음정 최적화기(9)는 제 1 위 일치 확률(Pmax)에 기초하여 현시점(i)에서의 음정 정규화 디지털 음성 신호(Svc(Ni))에 대한 코드(Sr)의 제 1 위 일치 확률(Pmax)을 합치 인정 기준(Pth)과 비교한다. 그리고, 현재 (i)의 제 1 위 일치 확률(Pmax)을 갖는 단어(인정 후보 코드(Srp’))가 바르게 음성 인식되어 있는지 여부의 판단을 실시한다. 이 경우, 전회 (i-1)에 가장 높은 일치 확률(P), 즉 제 1 위 일치 확률(Pmax(i-1))이었던 인정 후보 코드(Srp’(i-1))와 이번회 (i)에 제 1 위 일치 확률(Pmax) 을 갖는 단어 Srp(i) 표준 음성 데이터는 동일하다고는 한정하지 않는다.
그리고, 제 1 위 일치 확률(Pmax)이 합치 인정 기준(Pth) 이상인 경우, 음정 최적화기(9)는 인정 후보 코드(Srp’)가 음정 정규화 디지털 음성 신호(Svc)에 합치하고 있다고 인정하여 음성분석기(15)에 그것을 알리는 합치 인정 신호(Sj)를 출력한다. 음성분석기(15)는 합치인정신호(Sj)을 받아 유지되고 있는 인정 후보 코드(Srp’)를 합치 인정 코드(Srp)로서 출력한다.
다음에, 도 3 및 도 4를 참조하여 음성인식장치(VRAp)의 동작의 기본 원리에 대해서 설명한다.
도 3에 음성분석기(15)에 의해 음정 정규화 디지털 음성 신호(Svc)에 고속 푸리에 변환을 실시한 결과 얻어지는 주파수 스펙트럼(주파수 패턴(Psvc))의 예를 나타낸다. 도 3에 있어서, 가로축은 주파수(f)를 나타내고, 세로축은 강도(A)를 나타내고 있다. 또, 일점쇄선(L1)은 디지털 음성 신호(Svd)가 남성에 의해 발성된 음성의 대표적인 주파수 스펙트럼 예를 나타내며, 파선(L2)은 디지털음성신호(Svd)가 여성 또는 어린아이에 의해 발성된 음성의 대표적인 주파수 스펙트럼 예를 나타내고 있다.
그리고 실선(Ls)은 음성 인식용 표준 음성 데이터로서 표준 음성 데이터 저장기(12)에 저장되어 있다. 선(L1, L2)으로 표시되는 입력 음성의 주파수 스펙트럼에 대응하는 단어(코드(Sr))의 주파수 스펙트럼(주파수 패턴(Psf))의 예를 나타내고 있다. 일반적으로 동일한 음성(단어)이라도 남성의 경우는 일점쇄선(L1)으로 나타내는 바와 같이 표준 음성에 비해 저주파수 영역측에 주파수 스펙트럼이 나타나고, 여성 또는 어린아이의 경우는 파선(L2)으로 나타내는 바와 같이 표준 음성에 비해 고주파수 영역측에 주파수 스펙트럼이 나타난다.
음성분석기(15)에서는 이와 같은 주파수 스펙트럼에 기초하여 일점쇄선(L1)이나 파선(L2)으로 대표적으로 나타내는 불특정 화자에 의한 음정 정규화 디지털 음성 신호(Svc)의 주파수 패턴(Psvc)과, 실선(Ls)으로 나타내는 표준 음성 데이터의 각 단어(Sr(m))의 주파수 패턴(Psf(m))을 조합하고, 각각이 단어(Sr(m))와의 일치도(P(m))를 산출한다. 또, 이 일치 확률(P(m))의 산출은 상술한 바와 같이 히든 마이코프 모델법과 같은 종래기술에 의해 실현된다.
표준 음성 데이터 저장기(13)에 등록되어 있는 표준 음성 데이터(Ls)는 불특정 화자의 음성 인식 처리를 실시하는 경우에 남성(L1) 및 여성(L2)의 중간을 목표로 하여 설정되는 것이 많다. 이 때문에, 저음의 남성이나 고음의 여성은 주파수(L1, L2)가 표준 음성 데이터(Ls)에서 떨어져 있기 때문에 바른 단어에 관해서도 그 일치 확률(P)이 합치 인정 기준(Pth)보다 낮아져 바르게 인식할 수 없다.
따라서, 본 발명에서는 표준 음성 데이터의 M개의 단어 중에서 그 제 1 위 일치 확률(Pmax(m))이 합치 인정 기준(Pth)을 만족하지 않을 경우에는 음정 정규화 디지털 음성 신호(Svc)의 음정에 원인이 있다고 간주하여 그 음정을 조정(승음 또는 강음)하는 것이다.
즉, 음성분석기(15)에 의해 검출된 제 1 위 일치 확률(Pmax(m))이 음정최적화기(9)에 의해 합치인정기준(Pth)을 만족하지 않다고 판단된 경우는 음정정규화 디지털 음성 신호(Svc)를 소정의 조정 음정(Ni)만큼 조정시키도록 설정된 음정 조정 신호(Si)를 판독 클럭 제어기(11)에 출력한다.
상술한 바와 같이, 메모리(3)는 음정 조정량(Ni)만큼 조정된 음정 정규화 디지털 음성신호(Svc(Ni))를 음성분석기(15)에 출력한다. 음성분석기(15)는 이 조정된 음정 정규화 디지털 음성 신호(Svc(Ni))에 관해 상술한 음성분석처리를 실시하여 제 1 위 일치 확률(Pmax)을 구한다. 이 경우, 전회 (i-1)의 음성 분석 처리시에 제 1 위 일치 확률(Pmax(i-1))을 갖는 단어가 이번 회(i)도 제 1 위 일치확률(Pmax(i))을 갖는다고는 한정하지 않는다.
이는 도 3을 참조하여 설명한 바와 같이 선(L1, L2)으로 예시되는 음정 정규화 디지털 음성신호(Svc(Ni))의 주파수 패턴(Psvc(Ni))과 선(Ls)으로 예시되는 표준 음성의 주파수 패턴(Psf(m))의 근사도에 의해 일치 확률(P(m))은 현저히 변하기 때문이다. 즉, 음정의 근사도가 낮은 경우에는 음정 정규화 디지털 음성신호(Svc)와는 다른 단어의 일치 확률(P)쪽이 바른 단어의 일치 확률(P)보다 높게 산출되어 버리는 일종의 오산이 생긴다.
이런 오산은 음정의 근사도가 높아질수록 억제되고, 또한 바른 단어의 일치 확률(P) 자체도 커진다. 본 발명에서는 이 점에 주목하여 음성인식장치(VRAp)의 음성인식능력에 따라서 합치 인정 기준(Pth)을 바르게 설정하는 것에 의해 제 1 위 일치 확률(Pmax)이 합치 인정 기준(Pth) 이상일 때는 그 단어는 바르게 음성 인식되었다고 인정하는 것이다.
즉, 본 발명에서는 제 1 위 일치 확률(Pmax)이 합치 인정 기준(Pth)을 만족하는 것을 조건으로 하여 반복해서 음정 조정하여 음정 정규화 디지털 음성 신호(Svc)의 음정의 정규화를 실시한다. 결과적으로, 바르게 인식된 단어의 압축은 전체 단어가 아니라 제 1 위 일치 확률(Pmax)에만 기초함으로써 데이터 처리의 부하를 대폭 저감하는 한편, 음성 표준 데이터에 포함되는 전체 단어를 최후까지 인식 대상으로 하고 있기 때문에 고속이고 정확한 음성 인식을 실현하는 것이다.
도 4를 참조하여 입력 음성 정규화 장치(Tr)(판독 클럭 제어기(11))에 의한 음정 변환 처리에 대해 더 설명한다. 도 4에 있어서 가로축은 시간(t)을 나타내며, 세로축은 음성의 강도(A)를 나타낸다. 파형(Ws)은 표준 음성 데이터 저장기(13)에 저장되어 있는 음성 파형(주파수 패턴(Psf(m)))의 시간 변화예를 나타낸다.
파형(WL)은 표준 음성 데이터에 비해 음정이 낮은 주파수 패턴(Psvc)(예를 들면 남성의 음성)을 나타내고, 파형(WH)은 표준 음성 데이터에 비해 음정이 높은 주파수 패턴(Psvc)(예를 들면 여성이나 어린아이의 음성)을 나타낸다. 도 4에 있어서, 파형(WS), 파형(WL) 및 파형(WH)의 1주기를 각각 PL, PS 및 PH로 나타내고 있다. 주기(PL, PH)는 상술한 입력 음성 기본 주파수(fi)의 역수에 상당하고, 주기(Ps)는 표준 음성 기본 주파수(fs)의 역수에 상당한다.
파형(WL)을 파형(WS)에 맞춰 음정 변환하는데는 입력 음성 파형을 A/D변환할 때의 샘플링 클럭보다 빠른 판독 클럭으로 판독하면 실현할 수 있다. 파형(WL)을 파형(WS)으로 한번에 음정 변환하는데는 판독 클럭(Scc)의 주파수를 PL/PS배로 하면 좋다. 이 경우, 변환후의 음정도 PL/PS배가 되지만 실제 음정 정규화 디지털 음성 신호(Svc)의 주기(PL)는 매회 다르고, 또한 정해지지 않기 때문에 음정은 소정의 음정 조정량(Ni) 단위로 조정하는 것이 바람직하다. 즉, 본 발명에서는 판독 클럭(Scc)은 음정 조정량(Ni)에 대응한 주파수로 설정된다. 또, 파형(WH)을 파형(WS)에 맞춰 음정 변환하는 경우에 대해서도 판독 클럭(Scc)은 마찬가지로 설정된다.
이와 같이 하여, 디지털 음정 신호(Svd)의 음정을 표준 음성의 음정에 맞춰 변환한 음정 정규화 디지털 음성 신호(Svc)가 얻어진다. 그러나, 음정을 올릴 경우는 음성 파형의 시간축이 짧아지고, 음정을 낮출 경우는 음성파형의 시간축이 길어지기 때문에 화속이 변화해버린다. 이를 해결하기 위해, 음정을 올릴 경우에는 모음파형을 추가하고, 음정을 낮출 경우에는 모음파형을 솎아내는 것에 의해 화속을 조정할 수 있지만, 이 기술은 공지되어 있고, 또한 본 발명이 목적으로 하는 바가 아니기 때문에 그 설명 및 도시를 생략한다. 또, 판독 클럭의 주파수 변환도 종래부터 알려져 있는 마스터 클럭의 분주 클럭을 이용하여 용이하게 작성할 수 있다.
다음에, 도 5 및 도 6에 나타낸 플로우차트를 참조하여 음성인식장치(VRAp)에 조립된 입력음성 정규화장치(Tr)의 각각의 동작에 대해 설명한다. 음성인식장치(VRAp)가 구동되어 도 5에 도시한 음성인식동작이 개시된다.
우선, 단계(S2)에 있어서, 입력 음성 정규화 장치(Tr)가 초기화된다. 구체적으로는 음정 정규화 디지털 음성신호(Svc)의 조정 음정(Ni)을 지시하는 음정 조정 지수(i)를 0으로 설정하고, 또한 음정 정규화 디지털 음성 신호(Svc)의 조정후의 음정의 허용 최대값을 나타내는 허용 최고 음정(Nmax) 및 허용 최소값을 나타내는 허용 최저 음정(Nmin)의 각각을 소정의 값으로 설정한다. 또, i=0이라는 것은 음정 정규화 디지털 음성 신호(Svc)의 음정이 디지털 음성 신호(Svd)의 음정과 동일한 것을 의미한다. 그리고, 처리는 다음 단계(S4)로 진행한다.
단계(S4)에 있어서, 마이크 등의 장치를 통하여 불특정 화자에 의해 발성된 음성이 아날로그 음성 신호(Sva)로서 A/D컨버터(1)로 입력된다. 그리고, 처리는 다음 단계(S6)로 진행한다.
단계(S6)에 있어서, A/D컨버터(1)는 입력된 아날로그 음성 신호(Sva)를 차례로 A/D변환하여, 디지털 음성 신호(Svd)를 생성하여 메모리(3)로 출력한다. 그리고, 처리는 단계(S8)로 진행한다.
단계(S8)에 있어서, 메모리(3)는 디지털 음성 신호(Svd)를 차례로 기억한다. 그리고, 처리는 다음 단계(S10)로 진행한다.
단계(S10)에 있어서, 판독 제어기(5)는 메모리(3)의 입력 상태를 감시하여 화자에 의한 음성 입력(아날로그 음성 신호(Sva))이 종료되었는지 여부를 판단한다. 이 판단은 일례로서 아날로그 음성 신호(Sva)의 입력 중단 시간이 소정의 임계값에 도달했는지 여부를 가지고 이루어진다. 그외 화자가 입력 종료된 것을 적당한 수단을 이용하여 음성인식장치(VRAp) 또는 입력 음성 정규화장치(Tr)에 지시하도록 구성해도 좋다.
화자의 발성이 계속되는 경우는 아니오라고 판단되어 처리는 상술한 단계(S4)로 복귀하고, 단계(S4, S6, S8)에서의 화자에 의한 음성 입력 처리, 디지털 음성 신호(svd)의 생성 및 메모리(3)로의 입력 처리가 계속된다. 그리고, 화자에 의한 1음 또는 여러 음으로 이루어진 독립된 음성예의 아날로그 음성 신호(Sva)의 입력이 종료한 시점에서 예라고 판단되어 화자에 의해 발성된 음성의 디지털 음성 신호(Svd)의 메모리(3)에 의한 기억은 완료되어 있다. 또 처리는 다음 단계(S12)로 진행한다.
단계(S12)에 있어서, 판독 제어기(5)는 메모리(3)에 기억되어 있는 디지털 음성 신호(Svd), 판독 클럭(Scc)에 기초하여 음정 정규화 디지털 음성 신호(Svc(Ni))로서 판독한다. 또, 이 음정 정규화 디지털 음성 신호(Svc(Ni))의 음정은 디지털 음성 신호(Svd)의 음정에 대해 판독 클럭(Scc) 생성의 기준인 음정 조정 신호(Si)에 상당하는 소정량인 음정 조정량(Ni)만큼 조정(승음 또는 강음)되어 있다.
또, 처음에 메모리(3)로부터 음정 정규화 디지털 음성 신호(Svc(Ni))가 판독되는 경우에는 상술한 단계(S2)에 있어서 음정 조정 지수(i)는 0으로 초기화되어 있기 때문에 음정 조정량(Ni)은 0이다. 즉, 디지털 음성 신호(Svd)는 음정 조정되지 않고 음정 정규화 디지털 음성 신호(Svc(Ni))로서 판독된다. 그리고, 처리는 단계(S14)로 진행한다.
단계(S14)에 있어서, 음성 분석기(15)는 음정 조정 지수(i)로 규정되는 음정 조정량(Ni)만큼 음정 조정된 음정 정규화 디지털 음성 신호(Svc(Ni))에 대해 푸리에 변환을 실시하여, 주파수 패턴(Psvc(Ni))을 생성하여 주파수 스펙트럼 분석을 실시한다. 그리고, 처리는 단계#100의 제 1 위 일치 확률(Pmax(Ni)) 검출 서브루틴으로 진행한다.
단계#100에서는 음정 정규화 디지털 음성 신호(Svc(Ni))의 주파수 패턴(Psvc(Ni))과 표준 음성 데이터 저장기(13)로부터 판독되는 개개의 단어(Sr)의 표준 음성 데이터인 주파수 패턴(Psf(m))과의 일치 확률(P(m))을 검출한다. 또, 이와 같은 입력 음성의 디지털 음성 신호와 표준 음성 데이터의 패턴을 비교하여 양자의 일치 확률(P)을 구하는 기술은 히든 마르코브 모델(Hidden Markov Model)법으로 대표되는 공지된 기술을 이용할 수 있다.
도 6을 참조하여 이하에 단계(#100)에서의 상세한 동작에 대해 설명한다. 단계(#100)의 제 1 위 일치 확률(Pmax(Ni)) 검출 서브 루틴이 개시되면,
우선 단계(S102)에서, 메모리(3)로부터 출력된 음정 정규화 디지털 음성 신호(Svc(Ni))의 주파수 패턴(Psvc(Ni))이 음성분석기(15)의 최대 일치 확률 결정기(15a)에 입력된다. 그리고, 처리는 다음 단계(S104)로 진행한다.
단계(S104)에서, 음성 분석기(15)가 초기화된다. 구체적으로는 최대 일치 확률 결정기(15a)에 있어서, m이 1로 설정되고, 또한 제 1 위 일치 확률(Pmax(Ni))이 0로 설정된다. 합치 인정 코드 출력기(15b)에 있어서, 설정 후보 코드(Srp’)가 0으로 설정된다. 그리고, 처리는 다음 단계(S106)로 진행한다.
단계(S106)에 있어서, 표준 음성 데이터 저장기(13)로부터 주파수 패턴(Psf(m)) 및 코드(Sr(m))가 최대 일치 확률 결정기(15a) 및 합치 인정 코드 출력기(15b)에 각각 입력된다. 그리고, 처리는 다음 단계(S108)로 진행한다.
단계(S108)에 있어서, 최대 일치 확률 결정기(15a)는 단계(S103)에서 입력된 주파수 패턴(Psvc(Ni))에 대한 단계(S106)에서 취득한 주파수 패턴(Psf(m))의 일치 확률(P(m))을 산출한다. 그리고, 처리는 다음 단계(S110)로 진행한다.
단계(S110)에 있어서, 최대 일치 확률 결정기(15a)에 의해 일치 확률(P(m))이 제 1 위 일치 확률(Pmax)이상인지 여부가 판단된다. 일치 확률(P(m))이 제 1 위 일치 확률(Pmax) 이상인 경우는 예라고 판단되어 처리는 단계(S112)로 진행한다.
단계(S112)에서는 최대 일치 확률 결정기(15a)에서 제 1 위 일치 확률(Pmax(Ni))로서 현시점의 일치 확률(P(m))이 설정된다. 그리고, 처리는 다음 단계(S114)로 진행한다.
단계(S114)에 있어서, 최대 일치 확률 결정기(15a)는 코드 유지 신호(Csr)를 합치 인정 코드 출력기(15b)로 출력한다. 그리고, 처리는 다음 단계(S116)로 진행한다.
단계(S116)에 있어서, 합치 인정 코드 출력기(15b)는 코드 유지 신호(Csr)에 응답하여 그 시점에서 유지하고 있는 코드(Sr(m))를 인정 후보 코드(Srp’)로서 설정한다. 그리고, 처리는 다음 단계(S118)로 진행한다.
한편, 단계(S110)에서 아니오, 즉 일치 확률(P(m))은 제 1 위 일치 확률(Pmax)보다 작다고 판단된 경우, 처리는 상술한 단계(S112, S114, S116)의 처리를 스킵하여 직접 단계(S118)로 진행한다.
단계(S118)에 있어서, m이 M인지 여부가 판단된다. m이 M보다 작은 경우에는 아니오라고 판단되어 처리는 단계(S120)로 진행한다.
단계(S120)에 있어서, m은 1 증가되어 처리는 상술한 단계(S106)로 복귀한다. 그리고, 단계(S122)에서 증가되어 m이 M이 되어 단계(S118)에서 예라고 판단되기까지 상술한 단계(S106∼S120)의 처리를 반복한다.
단계(S118)에 있어서 예, 즉 표준 음성 데이터 저장기(13)에 저장되어 있는 표준 음성 데이터의 M개의 주파수 패턴(Psf(1)∼Psf(M))의 각각의 일치 확률(P(m))을 구하고, 또한 구한 일치 확률(P(m))이 제 1 위 일치 확률(Pmax)인지의 판단을 종료한다. 이와 같이, 표준 음성 데이터 저장기(13)에 저장되어 있는 모든 인식신호(Sr)를 대상으로 하여 제 1 위 일치 확률(Pmax)과 인정 후보 코드(Srp’)를 구한다. 그리고, 처리는 단계(S122)로 진행한다.
단계(S122)에 있어서, 최대 일치 확률 결정기(15a)는 단계(S112)에 있어서 내부에 유지된 제 1 위 일치 확률(Pmax(Ni))을 음정 최적화기(9)에 출력한다.
이와 같이 하여 음성 분석기(15)는 각 표준 음성 데이터(음성 주파수 성분 패턴(Psf))와 입력 음성(아날로그 음성신호(Sva))의 입력 음성 신호(음정 정규화 디지털 음성 신호(Svc))의 일치 확률(P)이 가장 높은 표준 음성 데이터(합치 인정 코드(Srp))의 제 1 위 일치 확률(Pmax(Ni))만을 출력하여 단계(#100)를 종료한다. 그리고, 처리는 도 5에 나타내는 단계(S18)로 진행한다.
단계(S18)에 있어서, 음정최적화기(9)는 제 1 위 일치 확률(Pmax(Ni))에 기초하여 제 1 위 일치 확률(Pmax(Ni))이 합치 인정 기준(Pth) 이상인지 여부를 판단한다. 제 1 위 일치 확률(Pmax(Ni))이 합치 인정 기준(Pth)보다 작은, 즉 그 시점(i)에서 일치 확률(P)이 가장 높은 표준 음성 데이터라도 바르게 음성 인식되어 있다고 간주할 수 없는 경우에는 아니오라고 판단되어 처리는 단계(S20)로 진행한다.
단계(S20)에서, 음정 정규화 디지털 음성 신호(Svc(Ni))의 음정 조정량(Ni)이 허용 최고 음정(Nmax)에 도달했는지 여부를 나타내는 최고 음정 플래그(FNmax)가 1인지 여부가 판단된다. 최고 음정 플래그(FNmax)가 1이 아닌, 즉 음정 조정량(Ni)이 최고 음정 플래그(FNmax)에 도달하지 않는 경우에는 아니오라고 판단되어 처리는 단계(S22)로 진행한다.
단계(S22)에 있어서, 음정 조정량(Ni)이 허용 최고 음정(Nmax) 이상인지 여부가 판단된다. 아니오인 경우, 처리는 단계(S24)로 진행한다.
단계(S24)에 있어서, 음정 조정 지수(i)가 1 증가된다. 이는 음정 조정량(Ni)이 증가(승음)되는 것을 의미한다. 그리고, 처리는 단계(S26)로 진행한다.
단계(S26)에 있어서, 음정 최적화기(9)는 음정 조정 신호(Si)를 생성하여 판독 클럭 제어기(11)에 출력한다. 그리고, 처리는 전술한 단계(S12)로 복귀한다.
한편, 단계(S22)에 있어서 예, 즉 음정 조정량(Ni)은 허용 최고 음정(Nmax)에 도달해 있다고 판단되는 경우는 처리는 단계(S28)로 진행한다.
단계(S28)에 있어서, 최고 음정 플래그(FNmax)가 1로 설정된다. 그리고, 처리는 단계(S30)로 진행한다.
단계(S30)에 있어서, 음정 조정 지수(i)가 0으로 재설정된다. 그리고, 처리는 단계(S32)로 진행한다.
단계(S32)에 있어서, 음정 조정량(Ni)이 허용 최저 음정(Nmin) 이하인지 여부가 판단된다. 아니오인 경우는 처리는 단계(S34)로 진행한다.
단계(S34)에 있어서, 음정 조정 지수(i)가 1 감소된다. 이는 음정 조정량(Ni)이 감소(강음)되는 것을 의미한다. 즉, 음정 정규화 디지털 음성 신호(Svc(Ni))는 디지털 음성 신호(Svd)의 음정보다 음정 조정량(Ni)만큼 강음된다. 그리고, 처리는 전술한 단계(S26)로 진행한다.
한편, 단계(S32)에 있어서 예, 즉 음정 조정량(Ni)이 허용 최저 음정(Nmin) 이하에 도달해 있다고 판단되는 경우에 처리를 종료한다. 이는 아날로그 음성 신호(Sva)는 음성 인식할 수 없는 것을 의미한다.
한편, 단계(S20)에 있어서, 예, 즉 최고 음정 플래그(FNmax)가 1인(단계(S28)에서 설정되어 있음) 경우는 처리는 단계(S32)로 진행한다.
한편, 단계(S18)에서 예, 즉 제 1 위 일치 확률(Pmax(Ni))이 합치 인정 기준(Pth) 이상인 경우는 대응하는 단어(Srp)는 바르게 인정된다. 그리고, 처리는 다음 단계(S36)로 진행한다.
단계(S36)에 있어서, 최대 일치 확률 결정기(15a)는 합치 인정 신호(Sj)를 합치 인정 코드 출력기(15b)에 출력한다. 그리고, 처리는 다음 단계(38)로 진행한다.
합치 인정 코드 출력기(15b)는 합치 인정 신호(Sj)에 응답하여 단계(S116(#100))에서 설정된 인정 후보 코드(Srp’)를 합치 인정 코드(Srp)로서 음성인식장치(VRAp)로부터 출력시킨다. 그리고, 음성인식장치(VRAp)의 처리를 종료한다.
이상과 같이 설명한 플로우차트에 기초하여 음성인식장치(VRAp)의 음성인식동작에 대해 구체적으로 설명한다. 음성인식장치(VRAp)가 구동되어 그 음성인식동작이 개시되면 우선 단계(S2)에서 입력 음성 정규화장치(Tr)가 초기화되어 음정 조정 지수(i)가 0으로, 허용 최고 음정(Nmax) 및 허용 최저 음정(Nmin)이 각각 소정값으로 설정된다.
그리고, 단계(S4, S6, S8, S10)에 있어서, 불특정 화자에 의해 발성된 음성이 디지털 음성 신호(Svd)로서 메모리(3)에 기억된다.
단계(S12)에 있어서, 디지털 음성 신호(Svd)가 단계(S2)에서 초기설정된 음정 조정 지수(i(i=0))에 대응하는 판독 클럭(Scc(i))으로 메모리(3)로부터 판독하는 것에 의해 음정 정규화 디지털 음성 신호(Svc(Ni))가 음성분석기(15)에 출력된다. 또, 이 경우 i=0이기 때문에 음정 조정량 Ni=0이며, 음정 정규화 디지털 음성 신호(Svc(Ni))의 음정은 디지털 음성 신호(Svd)의 음정과 동일하다.
음성분석기(15)는 음정 정규화 디지털 음성신호(Svc(Ni))의 주파수 스펙트럼 분석을 실시한다(S14). 또, 음정 조정 지수 i=0에 있어서 음정 정규화 디지털 음성 신호(Svc(Ni))의 주파수 패턴(Psvc(Ni))과 표준 음성 데이터 저장기(13)로부터 판독된 M개의 표준 음성 데이터의 주파수 패턴(Psf(1)∼Psf(M))의 각각의 일치 확률(P(1)∼P(M))을 검출한다. 그리고, 그 중 일치 확률(P)이 가장 높은 표준 음성 데이터(인정 후보 코드(Srp’))와 그 제 1 위 일치 확률(Pmax)을 구해 그때의 음정 조정량(Ni)에 관한 제 1 위 일치 확률(Pmax(Ni))을 생성한다(#100).
음정최적화기(9)는 제 1 위 일치 확률(Pmax)이 합치 인정 기준(Pth) 이상이면 제 1 위 일치 확률(Pmax)의 단어의 음성데이터(인정후보코드(Srp’))가 디지털 음성 신호(Svd), 즉 화자가 발성한 음성에 합치하고 있다고 인정한다(S18). 음정최적화기(9)는 또 합치인정신호(Sj)를 출력하여(S36), 음성분석기(15)에 인정후보코드(Srp’)를 합치 인정 코드(Srp)로서 출력시킨다(S38).
한편, 단계(S18)에 있어서 제 1 위 일치 확률(Pmax(Ni))이 합치 인정 기준(Pth)보다 작은, 즉 그 시점에서 일치 확률(P)이 가장 높은 표준 음성 데이터이어도 바르게 음성 인식되어 있지 않다고 간주한다. 그리고, 단계(S20)에 있어서, 최고 음정 플래그(FNmax)에 기초하여 디지털 음성 신호(Svd)로부터 음정 정규화 디지털 음성신호(Svc(Ni))를 판독할 때, 승음에 의한 음정조정량(Ni)이 상한에 도달하지 않았다고(즉, 승음측의 음정 조정이 종료되어 있지 않다고) 판단되는 경우는 단계(S22)에서 음정 조정량(Ni)이 허용 최고 음정(Nmax)에 도달하지 않는 것을 확인한 후, 단계(S24)에서 음정 조정 지수(i)를 1 증가시킨다. 그리고, 증가된 음정 조정 지수(i)를 나타내는 음정 조정 신호(Si)에 기초하여 판독 클럭(Scc)을 생성하여 메모리(3)에 출력한다.
단계(S12)에 있어서, 메모리(3)는 판독 클럭(Scc)에 기초하여 디지털 음성 신호(Svd)에 대해 음정 조정 지수(i)에 의해 지정되는 음정 조정량(Ni)만큼 승음된 음정 정규화 디지털 음성신호(Svc(Ni))를 출력한다. 이후, 단계(S18)에서 예, 즉 제 1 위 일치 확률(Pmax)이 합치 인정 기준(Pth) 이상이라고 판단되기까지 상술한 단계(S20∼S34)의 동작을 반복한다.
즉, 단계(S22)에 있어서, 음정 조정량(Ni)이 허용 최고 음정(Nmax)에 도달해 있다고 판단되기까지는 단계(S18)에서 예라고 판단되지 않는한 단계(S20∼S26) 및 단계(S12∼S18)의 루프를 반복하여 소정의 음정 조정량(Ni)만큼 승음시킨(S24, S26, S12) 음정 정규화 디지털 음성 신호(Svc(Ni))마다 제 1 위 일치 확률(Pmax(S14, #100))을 구한다.
그동안, 음정조정량(Ni)만큼 승음된 음정 정규화 디지털 음성신호(Svc(Ni))에 대한 제 1 위 일치 확률(Pmax)을 갖는 표준 음성 데이터는 승음될 때마다 다른 단어로 변할 수 있다. 즉, 전회(i-1)에 제 1 위 일치 확률(Pmax(i-1))을 갖는 표준 데이터인 단어는 이번 회(i)는 예를 들면 제 2 위 이하의 일치 확률(P(i))을 갖는 경우가 있다. 이와 같이, 소정의 음정 조정량(Ni)만큼 승음시킬 때마다 그 음정 정규화 디지털 음성신호(Svc(Ni))의 제 1 위 일치 확률(Pmax)이 합치 인정 기준(Pth) 이상일 때, 음성 인식은 최고 조건으로 인식된 것으로 간주하여 그 제 1 위 일치 확률(Pmax)에 대응하는 표준 음성 데이터를 나타내는 코드(Sr)를 합치 인정 코드(Srp)로서 출력한다.
상술한 바와 같이 본 발명에서는 최적 음성 인식 조건의 대상을 제 1 위 일치 확률(Pmax)만으로 하는 것에 의해 모든 표준 음성 데이터를 그 일치 확률(P)의 값에 관계없이 해당 최적 음성 인식 조건이 만족되기까지는 음성 인식 대상에서 제외하지 않고 음정 정규화 디지털 음성 신호(Svc)의 음정을 조정하는 것이다. 또, 본 실시형태에서는 입력된 아날로그 음성 신호(Sva(디지털 음성 신호(Svd)))의 음정을 기준(i=0)으로 하여 우선 소정의 음정 조정량(Ni)만큼 승음시킨다(S22, S24, S26). 그리고, 최적 음정 인식 조건이 만족되었다고(S12, S14, #100) 인정되지 않는 동안(S18에 있어서 아니오)은 허용 최고 음정(Nmax)을 향해 계속해서 승음한다(S22).
그리고, 허용 최고 음정(Nmax)까지 승음(S22)해도 최적 음정 인식 조건이 만족되었다고 인정되지 않는 경우(S18에 있어서 아니오)에는 최고 음정 플래그(FNmax)를 1로 설정(S28)하고, 또한 음정 조정 지수(i)를 0으로 재설정하여(S30), 음정을 강음 조정 모드로 전환한다.
강음 조정 모드에 있어서는 최고 음정 플래그(FNma)가 1이기(S20) 때문에 상술한 승음 조정 모드에서의 승음 프로세스(S22, S24)를 스킵한다. 음정 조정량(Ni)이 허용 최저 음정(Nmin)에 도달하기까지는(단계(S32)에 있어서, 아니오) 음정 조정 지수(i)를 1씩 감소하여(S34) 음정 조정 신호(Si)를 생성한다(S34).
결과적으로, 입력된 아날로그 음성신호(Sva)(디지털 음성 신호(Svd))의 음정을 기준(i=0)으로 하여 우선 소정의 음정 조정량(Ni)만큼 강음해가고(S32, S34, S26, S12, S14, #100), 최적 음정 인식 조건이 만족되었다고 인정되지 않는 동안(S18에 있어서 아니오)은 허용 최저 음정(Nmin)까지 강음한다. 그리고, 승음 모드 또는 강음 모드 중에 제 1 위 일치 확률(Pmax)이 합치 인정 기준(Pth) 이상이라고(단계(S18)에 있어서 예) 판단되지 않는 경우는 강음 모드를 경유하여(S32에 있어서 예), 처리를 종료한다.
또, 본 실시형태에서는 음정 정규화 디지털 음성신호(Svc)를 디지털 음성 신호(Svd)의 음정에서 허용 최고 음정(Nmax)까지 승음시킨 후에, 디지털 음성 신호(Svd)의 음정까지 복귀하고 다시 허용 최저 음정(Nmin)까지 강음시키도록 하고 있다. 그러나, 음정 정규화 디지털 음성 신호(Svc)를 디지털 음성 신호(Svd)의 음정에서 허용 최저 음정(Nmin)까지 강음시킨 후에 디지털 음성신호(Svd)의 음정까지 복귀하고 다시 허용 최고 음정(Nmax)까지 승음시키도록 구성하는 것은 상기 개시보다 용이하다.
또, 음정 정규화 디지털 음성 신호(Svc)를 허용 최고 음정(Nmax)으로 한번에 승음시킨 후에 허용 최저 음정(Nmin)까지 차례로 강음시키도록 구성하는 것도 상기 개시보다 용이하다.
또, 허용 최저 음정(Nmin)에서 허용 최고 음정(Nmax)의 범위로 음정 조정하는 것 대신에 디지털 음성신호(Svd)에서 허용 최저 음정(Nmin)이라든가 디지털 음성 신호(Svd)에서 허용 최고 음정(Nmax)의 범위로 음정 조정하도록 구성하는 것은 상기 개시보다 용이하다.
이상과 같이 본 발명에서는 제 1 위 일치 확률(Pmax)이 합치 인정 기준(Pth)을 만족하는 것을 조건으로 하여 반복해서 음정 조정하여 음정의 정규화를 실시함으로써 음성 표준 데이터에 포함되는 모든 단어를 최후까지 인식 대상으로서 유지하면서, 바르게 인식된 단어의 압축은 모든 단어가 아니라 제 1 위 일치 확률(Pmax)에만 기초함으로써 데이터 처리의 부하를 대폭 저감하여 고속이고 정확한 음성 인식을 실현하는 것이다.
이상, 본 발명을 상세히 설명했지만, 전술한 설명은 모든 점에 있어서 본 발명의 예시에 지나지 않고 그 범위를 한정하고자 한 것이 아니다. 본 발명의 범위를 이탈하지 않고 여러가지 개량이나 변형을 실시할 수 있는 것은 물론이다.
본 발명에 따르면 제 1 위 일치 확률(Pmax)이 합치 인정 기준(Pth)을 만족하는 것을 조건으로 하여 반복해서 음정 조정하여 음정의 정규화를 실시함으로써 음성 표준 데이터에 포함되는 모든 단어를 최후까지 인식 대상으로서 유지하면서, 바르게 인식된 단어의 압축은 모든 단어가 아니라 제 1 위 일치 확률(Pmax)에만 기초함으로써 데이터 처리의 부하를 대폭 저감하여 고속이고 정확한 음성 인식을 실현할 수 있다.
도 1은 본 발명의 실시형태에 따른 입력 음성 정규화 장치를 조립한 음성 인식 장치의 구성을 나타내는 블록도,
도 2는 도 1의 음성 분석기를 상세하게 나타내는 블록도,
도 3은 다른 음정을 갖는 음성의 주파수 스펙트럼을 나타내는 도면,
도 4는 음성파형의 시간 변화예 및 그들 사이에서 실시되는 음정 변환 방법의 설명도,
도 5는 도 1에 도시한 입력 음성 정규화장치의 동작을 나타내는 플로우차트,
도 6은 도 5에 도시한 제 1 위 일치 확률(Pmax(Ni)) 서브 루틴에서의 동작을 상세하게 나타내는 플로우차트 및
도 7은 종래의 음성 인식 장치의 구성을 나타내는 블록도이다.
*도면의 주요 부분에 대한 부호의 설명
VRAp : 음성인식장치 Tr : 입력음성 정규화장치
1 : A/D컨버터 3 : 메모리
5 : 판독 제어기 9 : 음정 최적화기
11 : 판독 클럭 제어기 13 : 표준 음성 데이터 저장기
15 : 음성 분석기 15a : 최대 일치 확률 결정기
15b : 합치 인정 코드 출력기 17 : 제어기

Claims (27)

  1. 복수의 단어의 음성인식 표준 데이터에 기초하여 불특정 화자가 발성한 입력음성을 인식하는 음성인식장치에 이용되어 해당 입력 음성을 음성 인식 최적 음정으로 정규화하는 입력 음성 음정 정규화장치에 있어서,
    상기 입력 음성을 소정 음정 단위로 변화시켜 인식 대상 음성 신호를 생성하는 인식 대상 음성 생성 수단 및
    상기 인식 대상 음성신호와 상기 음성 인식 표준 데이터의 복수의 단어의 각각의 일치 확률을 산출하는 일치 확률 산출수단을 구비하고,
    상기 일치 확률의 최대값이 소정 확률 이상이 되기까지 상기 인식 대상 음성 신호의 음정을 반복하여 변화시키는 음정 변환 수단을 구비하는 것을 특징으로 하는 입력 음성 음정 정규화장치.
  2. 제 1 항에 있어서,
    상기 음정 변환 수단은 상기 일치 확률의 최대값이 소정 확률보다 작은 경우에는 상기 인식 대상 음성을 소정의 음정 단위로 승음 및 강음의 한쪽으로 변화시키는 조음수단을 구비하는 것을 특징으로 하는 입력 음성 음정 정규화 장치.
  3. 제 2 항에 있어서,
    상기 입력 음성을 일시 기억하는 메모리 수단 및
    상기 입력 음성의 한개의 묶음을 상기 메모리수단으로부터 판독하여 인식 대상 음성 신호를 생성하는 판독 제어 수단을 추가로 구비하고,
    상기 소정의 음정 단위로 상기 인식 대상 음성신호의 주파수를 변환시키도록 상기 메모리수단의 판독 타이밍 클럭의 주파수를 결정하여 판독 클럭 신호를 생성하는 판독 클럭 제어수단을 구비하는 것을 특징으로 하는 입력 음성 음정 정규화장치.
  4. 제 2 항에 있어서,
    상기 인식 대상 음성 신호는 상기 입력 음성과 동일한 음정에서 상기 소정 음정 단위로 승음되는 것을 특징으로 하는 입력 음성 음정 정규화장치.
  5. 제 4 항에 있어서,
    상기 인식 대상 음성 신호의 최고 음정은 제 1 소정 음정으로 한정되고, 또한 해당 최고 음정에 도달하기까지 상기 일치 확률의 상기 최대값이 상기 소정 확률 이상이 되지 않을 때는 상기 인식 대상 음성 신호는 입력 음성과 동일한 음정에서 상기 소정 음정 단위로 강음되는 것을 특징으로 하는 입력 음성 음정 정규화장치.
  6. 제 5 항에 있어서,
    상기 인식 대상 음성신호의 최저 음정은 제 2 소정 음정으로 한정되고, 또한 해당 최저 음정에 도달하기까지 상기 일치 확률의 최대값이 소정 확률 이상이 되지 않을 때는 상기 정규화를 종료하는 것을 특징으로 하는 입력 음성 음정 정규화장치.
  7. 제 2 항에 있어서,
    상기 인식대상 음성신호는 상기 입력 음성과 동일한 음정에서 소정 음정 단위로 강음되는 것을 특징으로 하는 입력 음성 음정 정규화장치.
  8. 제 7 항에 있어서,
    상기 인식대상 음성신호의 최저 음정은 제 3 소정 음정으로 한정되고, 또한 해당 최저 음정에 도달하기까지 상기 일치 확률의 상기 최대값이 상기 소정 확률 이상이 되지 않을 때는 해당 인식 대상 음성신호는 상기 입력 음성과 동일한 음정에서 상기 소정 음정 단위로 승음되는 것을 특징으로 하는 입력 음성 음정 정규화장치.
  9. 제 8 항에 있어서,
    상기 인식대상 음성신호의 최고 음정은 제 4 소정 음정으로 한정되고, 또한 해당 최고 음정에 도달하기까지 상기 일치 확률의 상기 최대값이 상기 소정 확률 이상이 되지 않을 때는 상기 정규화를 종료하는 것을 특징으로 하는 입력 음성 음정 정규화 장치.
  10. 복수의 단어의 음성인식 표준 데이터에 기초하여 불특정 화자가 발성한 입력 음성을 음성 인식 최적 음정에 정규화한 상태로 인식하는 음성인식장치에 있어서,
    상기 입력 음성을 소정 음정 단위로 변화시켜 인식 대상 음성 신호를 생성하는 인식 대상 음성 생성수단,
    상기 인식 대상 음성신호와 상기 음성 인식 표준 데이터의 복수의 단어의 각각의 일치 확률을 산출하는 일치 확률 산출수단 및
    상기 일치 확률의 최대값이 소정 확률 이상이 되기까지 상기 인식 대상 음성 신호의 음정을 반복하여 변화시키는 음정 변환 수단을 구비하는 것을 특징으로 하는 음성인식장치.
  11. 제 10 항에 있어서,
    상기 인식 대상 음성 생성수단은 상기 일치 확률의 최대값이 상기 소정 확률보다 작은 경우에는 상기 인식 대상 음성을 소정 음정 단위로 승음 및 강음의 한쪽으로 변화시키는 조음수단을 구비하는 것을 특징으로 하는 음성인식장치.
  12. 제 11 항에 있어서,
    상기 입력 음성을 일시 기억하는 메모리수단 및
    상기 입력 음성의 한개의 묶음을 상기 메모리수단으로부터 판독하여 인식 대상 음성신호를 생성하는 판독제어수단을 추가로 구비하고,
    상기 소정의 음정 단위로 상기 인식 대상 음성 신호의 주파수가 변환되도록 상기 메모리수단의 판독 타이밍 클럭의 주파수를 결정하여 판독 클럭 신호를 생성하는 판독 클럭 제어수단을 구비하는 것을 특징으로 하는 음성인식장치.
  13. 제 11 항에 있어서,
    상기 인식 대상 음성 신호는 상기 입력 음성과 동일한 음정에서 상기 소정 음정 단위로 승음되는 것을 특징으로 하는 음성인식장치.
  14. 제 13 항에 있어서,
    상기 인식 대상 음성 신호의 최고 음정은 제 1 소정 음정으로 한정되고, 또한 해당 최고 음정에 도달하기까지 상기 일치 확률의 최대값이 소정 확률 이상이 되지 않을 때는 상기 인식 대상 음성 신호는 상기 입력 음성과 동일한 음정에서 상기 소정 음정 단위로 강음되는 것을 특징으로 하는 음성인식장치.
  15. 제 14 항에 있어서,
    상기 인식 대상 음성신호의 최저 음정은 제 2 소정 음정으로 한정되고, 또한 해당 최저 음정에 도달하기까지 상기 일치 확률의 최대값이 소정 확률 이상이 되지 않을 때는 상기 정규화를 종료하는 것을 특징으로 하는 음성인식장치.
  16. 제 11 항에 있어서,
    상기 인식 대상 음성 신호는 상기 입력 음성과 동일한 음정에서 상기 소정 음정 단위로 강음되는 것을 특징으로 하는 음성인식장치.
  17. 제 16 항에 있어서,
    상기 인식 대상 음성 신호의 최저 음정은 제 3 소정 음정으로 한정되고, 또한 해당 최저 음정에 도달하기까지 상기 일치 확률의 최대값이 소정 확률 이상이 되지 않을 때는 상기 인식 대상 음성신호는 상기 입력 음성과 동일한 음정에서 상기 소정 음정 단위로 승음되는 것을 특징으로 하는 음성인식장치.
  18. 제 17 항에 있어서,
    상기 인식 대상 음성 신호의 최고 음정은 제 4 소정 음정으로 한정되고, 또한 해당 최고 음정에 도달하기까지 상기 일치 확률의 최대값이 소정 확률 이상이 되지 않을 때는 상기 정규화를 종료하는 것을 특징으로 하는 음성인식장치.
  19. 복수의 단어의 음성인식 표준 데이터에 기초하여 불특정 화자가 발성한 입력 음성을 인식하는 음성 인식장치에 이용되어 해당 입력 음성을 음성 인식 최적 음정으로 정규화하는 입력 음성 음정 정규화 방법에 있어서,
    상기 입력 음성을 소정 음정 단위로 변화시켜 인식 대상 음성신호를 생성하는 단계,
    상기 인식 대상 음성신호와 상기 음성 인식 표준 데이터의 복수의 단어의 각각의 일치 확률을 산출하는 단계 및
    상기 일치 확률의 최대값이 소정 확률 이상이 되기까지 상기 인식 대상 음성 신호의 음정을 반복하여 변화시키는 단계를 구비하는 것을 특징으로 하는 입력 음성 음정 정규화 방법.
  20. 제 19 항에 있어서,
    상기 일치 확률의 최대값이 상기 소정 확률보다 작은 경우에는 상기 인식 대상 음성을 소정의 음정 단위로 승음 및 강음의 한쪽으로 변화시키는 단계를 추가로 구비하는 것을 특징으로 하는 입력 음성 음정 정규화방법.
  21. 제 20 항에 있어서,
    상기 입력 음성을 일시 기억하는 단계,
    상기 일시 기억된 입력 음성의 한개의 묶음으로부터 인식 대상 음성 신호를 생성하는 단계 및
    상기 소정의 음정 단위로 인식 대상 음성신호의 주파수를 변환시키도록 상기 메모리의 판독 타이밍 클럭의 주파수를 결정하는 단계를 구비하는 것을 특징으로 하는 입력 음성 음정 정규화방법.
  22. 제 20 항에 있어서,
    상기 인식 대상 음성신호를 상기 입력 음성과 동일한 음정에서 상기 소정 음정 단위로 승음시키는 단계를 추가로 구비하는 것을 특징으로 하는 입력 음성 음정 정규화방법.
  23. 제 22 항에 있어서,
    상기 인식 대상 음성신호의 최고 음정은 제 1 소정 음정으로 한정되고, 또한
    해당 최고 음정에 도달하기까지 상기 일치 확률의 상기 최대값이 소정 확률이 되지 않을 때는 상기 인식 대상 음성 신호를 상기 입력 음성과 동일한 음정에서 소정 음정 단위로 강음시키는 단계를 추가로 구비하는 것을 특징으로 하는 입력 음성 음정 정규화방법.
  24. 제 23 항에 있어서,
    상기 인식 대상 음성신호의 최저 음정은 제 2 소정 음정으로 한정되고, 또한
    해당 최저 음정에 도달하기까지 상기 일치 확률의 최대값이 소정 확률 이상이 되지 않을 때는 상기 정규화를 종료시키는 단계를 추가로 구비하는 것을 특징으로 하는 입력 음성 음정 정규화방법.
  25. 제 20 항에 있어서,
    상기 인식 대상 음성 신호를 입력 음성과 동일한 음정에서 상기 소정 음정 단위로 강음시키는 단계를 추가로 구비하는 것을 특징으로 하는 입력 음성 음정 정규화방법.
  26. 제 25 항에 있어서,
    상기 인식 대상 음성신호의 최저 음정은 제 3 소정 음정으로 한정되고, 또한
    해당 최저 음정에 도달하기까지 상기 일치 확률의 상기 최대값이 상기 소정 확률 이상이 되지 않을 때는 해당 인식 대상 음성 신호를 상기 입력 음성과 동일한 음정에서 상기 소정 음정 단위로 승음시키는 단계를 추가로 구비하는 것을 특징으로 하는 입력 음성 음정 정규화방법.
  27. 제 26 항에 있어서,
    상기 인식 대상 음성 신호의 최고 음정은 제 4 소정 음정으로 한정되고, 또한 해당 최고 음정에 도달하기까지 상기 일치 확률의 상기 최대값이 상기 소정 확률 이상이 되지 않을 때는 상기 정규화를 종료시키는 단계를 추가로 구비하는 것을 특징으로 하는 입력 음성 음정 정규화방법.
KR10-2000-0063467A 1999-10-29 2000-10-27 음성 인식 입력 음성의 음정 정규화 장치 KR100531549B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP1999-309290 1999-10-29
JP30929099 1999-10-29

Publications (2)

Publication Number Publication Date
KR20010040193A KR20010040193A (ko) 2001-05-15
KR100531549B1 true KR100531549B1 (ko) 2005-11-28

Family

ID=17991228

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2000-0063467A KR100531549B1 (ko) 1999-10-29 2000-10-27 음성 인식 입력 음성의 음정 정규화 장치

Country Status (5)

Country Link
US (2) US6687665B1 (ko)
EP (1) EP1096470B1 (ko)
KR (1) KR100531549B1 (ko)
CN (1) CN1141698C (ko)
DE (1) DE60019229T2 (ko)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6687665B1 (en) * 1999-10-29 2004-02-03 Matsushita Electric Industrial Co., Ltd. Device for normalizing voice pitch for voice recognition
GB2416874B (en) * 2004-08-02 2006-07-26 Louis Augustus George Atteck A translation and transmission system
JP4298672B2 (ja) * 2005-04-11 2009-07-22 キヤノン株式会社 混合分布hmmの状態の出力確率計算方法および装置
AU2006272451B2 (en) * 2005-07-18 2010-10-14 Diego Giuseppe Tognola A signal process and system
US8089349B2 (en) * 2005-07-18 2012-01-03 Diego Giuseppe Tognola Signal process and system
US7778831B2 (en) * 2006-02-21 2010-08-17 Sony Computer Entertainment Inc. Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch
US8010358B2 (en) * 2006-02-21 2011-08-30 Sony Computer Entertainment Inc. Voice recognition with parallel gender and age normalization
US8332212B2 (en) * 2008-06-18 2012-12-11 Cogi, Inc. Method and system for efficient pacing of speech for transcription
JP5187128B2 (ja) * 2008-10-16 2013-04-24 富士通株式会社 検索装置、検索方法、及び、プログラム
US8788256B2 (en) * 2009-02-17 2014-07-22 Sony Computer Entertainment Inc. Multiple language voice recognition
US8442833B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Speech processing with source location estimation using signals from two or more microphones
US8442829B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Automatic computation streaming partition for voice recognition on multiple processors with limited memory
US8321209B2 (en) 2009-11-10 2012-11-27 Research In Motion Limited System and method for low overhead frequency domain voice authentication
US8326625B2 (en) * 2009-11-10 2012-12-04 Research In Motion Limited System and method for low overhead time domain voice authentication
CN102527039A (zh) * 2010-12-30 2012-07-04 德信互动科技(北京)有限公司 声效控制装置及方法
CN105989839B (zh) * 2015-06-03 2019-12-13 乐融致新电子科技(天津)有限公司 语音识别方法和装置
EP3868128A2 (en) * 2018-10-15 2021-08-25 Orcam Technologies Ltd. Hearing aid systems and methods
CN109671433B (zh) * 2019-01-10 2023-06-16 腾讯科技(深圳)有限公司 一种关键词的检测方法以及相关装置
CN115344181A (zh) * 2022-05-04 2022-11-15 杭州格沃智能科技有限公司 一种人机交互系统及其实现方法和应用
US20230381643A1 (en) * 2022-05-27 2023-11-30 Sony Interactive Entertainment LLC Method and system for processing gender voice compensation

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4284846A (en) * 1978-05-08 1981-08-18 John Marley System and method for sound recognition
US4489434A (en) * 1981-10-05 1984-12-18 Exxon Corporation Speech recognition method and apparatus
US4783807A (en) * 1984-08-27 1988-11-08 John Marley System and method for sound recognition with feature selection synchronized to voice pitch
WO1987002816A1 (en) * 1985-10-30 1987-05-07 Central Institute For The Deaf Speech processing apparatus and methods
US4803729A (en) * 1987-04-03 1989-02-07 Dragon Systems, Inc. Speech recognition method
IT1263050B (it) * 1993-02-03 1996-07-24 Alcatel Italia Metodo per stimare il pitch di un segnale acustico di parlato e sistema per il riconoscimento del parlato impiegante lo stesso
AU7802194A (en) * 1993-09-30 1995-04-18 Apple Computer, Inc. Continuous reference adaptation in a pattern recognition system
JPH07271392A (ja) 1994-03-29 1995-10-20 Nippon Telegr & Teleph Corp <Ntt> 話者認識用類似度正規化方法及びこの方法を用いた話者認識装置
SE504177C2 (sv) 1994-06-29 1996-12-02 Telia Ab Metod och anordning att adaptera en taligenkänningsutrustning för dialektala variationer i ett språk
US5790754A (en) * 1994-10-21 1998-08-04 Sensory Circuits, Inc. Speech recognition apparatus for consumer electronic applications
CA2180392C (en) * 1995-07-31 2001-02-13 Paul Wesley Cohrs User selectable multiple threshold criteria for voice recognition
JPH09325798A (ja) 1996-06-06 1997-12-16 Matsushita Electric Ind Co Ltd 音声認識装置
US5839099A (en) * 1996-06-11 1998-11-17 Guvolt, Inc. Signal conditioning apparatus
US5966687A (en) 1996-12-30 1999-10-12 C-Cube Microsystems, Inc. Vocal pitch corrector
US6687665B1 (en) * 1999-10-29 2004-02-03 Matsushita Electric Industrial Co., Ltd. Device for normalizing voice pitch for voice recognition
US6310833B1 (en) * 1999-11-30 2001-10-30 Salton, Inc. Interactive voice recognition digital clock

Also Published As

Publication number Publication date
KR20010040193A (ko) 2001-05-15
EP1096470B1 (en) 2005-04-06
DE60019229D1 (de) 2005-05-12
CN1141698C (zh) 2004-03-10
US7107213B2 (en) 2006-09-12
US20040078195A1 (en) 2004-04-22
EP1096470A3 (en) 2001-09-12
DE60019229T2 (de) 2006-03-09
EP1096470A2 (en) 2001-05-02
CN1294377A (zh) 2001-05-09
US6687665B1 (en) 2004-02-03

Similar Documents

Publication Publication Date Title
KR100531549B1 (ko) 음성 인식 입력 음성의 음정 정규화 장치
US10147439B1 (en) Volume adjustment for listening environment
US7593849B2 (en) Normalization of speech accent
US7200558B2 (en) Prosody generating device, prosody generating method, and program
US4661915A (en) Allophone vocoder
US20020143542A1 (en) Training of text-to-speech systems
US10217452B2 (en) Speech synthesis device and method
US10176797B2 (en) Voice synthesis method, voice synthesis device, medium for storing voice synthesis program
US5212731A (en) Apparatus for providing sentence-final accents in synthesized american english speech
JPH0576040B2 (ko)
US8478595B2 (en) Fundamental frequency pattern generation apparatus and fundamental frequency pattern generation method
JPH09325798A (ja) 音声認識装置
KR100423630B1 (ko) 음성인식 입력음성의 음정 정규화장치
US20110196680A1 (en) Speech synthesis system
JP4520619B2 (ja) 音声認識入力音声の音程正規化装置
JP2007328288A (ja) 韻律識別装置及び方法、並びに音声認識装置及び方法
JP2001042889A (ja) 音声認識入力音声の音程正規化装置
Roelands et al. Waveform similarity based overlap-add (WSOLA) for time-scale modification of speech: structures and evaluation.
US20220383860A1 (en) Speech recognition apparatus and method
JP3689616B2 (ja) 音声認識装置及び音声認識方法、音声認識システム、並びに、プログラム記録媒体
JP2536896B2 (ja) 音声合成装置
EP1422691B1 (en) Method for adapting a speech recognition system
KR20100111544A (ko) 음성인식을 이용한 발음 교정 시스템 및 그 방법
JP2000099099A (ja) データ再生装置
JPH0538700U (ja) 音声応答装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20081110

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee