KR20080050311A

KR20080050311A - 음성 처리 장치 및 음성 처리 방법 및 프로그램

Info

Publication number: KR20080050311A
Application number: KR1020070119084A
Authority: KR
Inventors: 케이이치 야마다
Original assignee: 소니 가부시끼 가이샤
Priority date: 2006-12-01
Filing date: 2007-11-21
Publication date: 2008-06-05
Also published as: US20080133225A1; EP1927979A1; US7979270B2; JP2008139568A; JP4264841B2; CN101192405B; DE602007012041D1; CN101192405A; EP1927979B1

Abstract

입력 음성의 운률적 특징에 근거하여 상기 입력 음성의 인식을 실시하는 음성 처리 장치가 기재되어 있다. 상기 음성 처리 장치는, 상기 입력 음성을 취득하는 음성 취득 수단과; 상기 음성 취득 수단에 의해 취득된 상기 입력 음성의 각각의 프레임 시간에 있어서의 제 1의 주파수 특성과 미리 결정된 소정의 제 2의 주파수 특성과의 사이의 주파수 방향의 변화에 근거하여 얻을 수 있는 상대 피치 변화량을 구하는 음향 분석 수단과; 상기 음향 분석 수단에 의해 구해진 상기 상대 피치 변화량에 근거하여 운률 인식 처리를 실시하여, 상기 운률 인식 처리의 결과를 생성하는 운률 인식 수단을 구비한다.

음성 인식, 운률, 음향 분석, 피치량, 이동량

Description

음성 처리 장치 및 음성 처리 방법 및 프로그램{Voice processing apparatus, voice processing method and voice processing program}

본 발명은 2006년 12월 1일 일본 특허청에 제출된 일본특허 JP2006-325780호에 기재된 주제와 관련되며, 그 전체 내용은 참조로서 여기에 포함되어 있다.

본 발명은, 음성 처리 장치 및 음성 처리 방법, 및, 프로그램에 관한 것이며 특히, 입력 음성의 운률적 특징에 근거하여 인식을 행하는 우수한 음성 처리 장치 및 음성 처리 장치내에서 이용되는 음성 처리 방법, 및, 음성 처리 방법을 구현하는 음성 처리 프로그램에 관한 것이다.

최근에, 음성 인식기술이 널리 이용되고 있다. 종래의 음성 인식기술은, 기본적으로, 음성에 포함되는 정보 가운데, 음운에 관한 정보(이하 「음운 정보」(phoneme information)라고 칭한다)를 인식하는 기술이며, 일반적인 음성 인식기술에서는, 음성에 포함되는 음운 이외의 정보인 운률에 관한 정보(이하 「운률 정보」(prosody information)라고 칭한다)에 대해서는, 적극적으로 이용되고 있다고는 말하기 어려운 상황이다.

그렇지만, 운률 정보를 이용하는 종래 기술이 전혀 없는 것은 아니고, 예를 들면 구절의 경계 위치를 보다 적절히 결정하기 위해서, 운률 정보를 이용하고 있는 기술 등이 알려져 있다(예를 들면, 특개평 04－66999호 공보 참조).

그렇지만, 상술한 특허 문헌 1에 기재된 종래 기술은, 음성 인식기술의 정도 향상을 위해서 운률 정보를 보조적으로 이용하고 있는 것이며, 운률 정보가 가지는 보다 다양한 정보를 보다 명확하게 인식하는 것은 아니다.

그런데, 인간의 음성은, 음운 정보만을 이용하면, 인식이 곤란한 경우가 있다. 예를 들면, 일본어의 경우, 긍정적인 의도를 나타내는 발화인 [응]과 부정적인 의도를 나타내는 발화인 [으응]은, 음운 정보적으로는 거의 같은 발음이다. 이러한 경우에, 음성에 포함되는 음운 정보만을 이용하여, 긍정적인 의도와 부정적인 의도를 인식하는 것은 곤란하고, 이른바 운률 정보, 예를 들면 「인토네이션(intonation)의 패턴」이나 「음운 계속 시간」등의 정보에 근거하여 인식을 실시할 필요가 있다.

음성 신호 처리의 한 부분으로서 실시되는 인토네이션에 관한 처리에서는, 피치 주파수(혹은 피치 주기)의 검출이 널리 이용되고 있다. 그러나, 피치 주파수의 검출에서는, 노이즈 등의 영향에 의해 에러가 발생하기 쉽다는 문제가 있다. 또, 속삭임 소리나 피치성이 낮은 음성에 대해서도, 피치 주파수 검출의 에러가 발생하기 쉽다. 이러한 피치 주파수의 검출 에러가 발생하기 쉬운 상황에서는, 혹은 검출 에러가 발생하기 쉬운 음성 인식 처리에서는, 운률 정보에 근거 하는 음성 인식 처리는 곤란하다고 말할 수 있다.

이러한 상황을 처리하기 위해, 본 발명의 발명자들은, 노이즈 등의 영향이 큰 경우와, 속삭임 소리나 피치성이 낮은 음성의 경우에도, 입력 음성의 운률적 특징에 근거하여, 피치 주파수의 검출을 유효하게 실행하고, 신뢰성이 높은 음성 인식을 실시할 수 있도록 하는 음성 처리 장치 및 음성 처리 방법을 개발하였다.

본 발명의 한 실시예에 따르면, 입력 음성의 운률적 특징에 근거하여 인식을 실시하는 음성 처리 장치가 제공되며, 상기 장치는, 상기 입력 음성을 취득하는 음성 취득 수단과, 상기 음성 취득 수단에 의해 취득된 상기 입력 음성의 각각의 프레임 시간에 있어서의 제 1의 주파수 특성과 미리 결정된 소정의 제 2의 주파수 특성과의 사이의 주파수 방향의 변화에 근거하여 얻을 수 있는 상대 피치 변화량을 구하는 음향 분석 수단과, 상기 음향 분석 수단에 의해 구해진 상기 상대 피치 변화량에 근거하여 운률 인식 처리를 실시하여, 상기 운률 인식 처리의 결과를 생성하는 운률 인식 수단을 구비한다.

상기 음향 분석 수단은, 상기 제 1의 주파수 특성과 상기 제 2의 주파수 특성으로부터 얻을 수 있는 상호 상관 행렬내에서, 상기 제 1의 주파수 특성과 상기 제 2의 주파수 특성의 피크들에 대응하는 행렬 요소들을 연결하는 직선으로 도시된 능선의 이동량에 근거하여 상기 상대 피치 변화량을, 상기 상호 상관 행렬의 주대각선으로부터 구하는 구성을 가지는 음성 처리 장치를 제공하는 것이 가능하다.

상기 제 2의 주파수 특성을 기억하는 주파수 특성 기억 수단을 추가로 구비 하는 음성 처리 장치를 제공하는 것이 가능하다.

상기 주파수 특성 기억 수단은, 복수의 상기 제 2의 주파수 특성을 기억하며, 상기 음향 분석 수단은, 상기 음성 취득 수단에 의해 취득된 상기 입력 음성에 따라, 상기 주파수 특성 기억 수단에 기억되어 있는 복수의 상기 제 2의 주파수 특성중에서 선택된 적합한 제 2의 주파수 특성에 근거하여, 상기 상대 피치 변화량을 구하는 음성 처리 장치를 제공하는 것이 가능하다.

상기 음성 취득 수단에 의해 취득된 상기 입력 수단으로부터의 상기 입력 음성을 음향 분석해 얻을 수 있는 특징량에 근거하여 음성 인식을 실시하여 음성 인식 처리의 결과를 생성하는 음성 인식 수단으로서, 상기 음성 인식 처리에서는, 상기 음성 인식 처리의 상기 결과가 미리 기억된 어느 특정의 단어들중 한 단어와 일치한다면, 상기 음성 인식 처리의 상기 결과가 부정확하다고 판단되는 가능성의 범주내에 상기 음성 인식 처리의 상기 결과가 존재하는 상기 음성 인식 수단과, 상기 특정 단어를 기억하는 특정 단어 기억 수단과, 상기 특정 단어 기억 수단에 기억되어 있는 상기 특정의 단어와 상기 음성 인식 수단에 의한 음성 인식 결과를 비교하는 결과 선택 수단으로서, 상기 음성 인식 수단에 의한 음성 인식 결과가, 상기 특정 단어 기억 수단에 기억되어 있는 상기 특정의 단어와 일치하는 경우, 상기 운률 인식 수단에 의한 인식 결과와 상기 음성 인식 수단에 의한 인식 결과를 통합하여 얻어지는 최종 인식 결과를 출력하고, 상기 음성 인식 수단에 의한 음성 인식 결과가, 상기 특정 단어 기억 수단에 기억되어 있는 상기 특정의 단어와 일치하지 않는 경우, 상기 음성 인식 수단에 의해 실행되는 상기 음성 인식 처리의 상기 결과를 최종 인식 결과로서 출력하는 상기 결과 선택 수단을 추가로 구비하는 음성 처리 장치를 제공하는 것이 가능하다.

본 발명의 다른 실시예에 따르면, 입력 음성의 운률적 특징에 근거하여 상기 입력 음성의 인식을 실시하는 음성 처리 장치에 의해 이용되는 음성 처리 방법이 제공된다. 상기 방법은, 상기 입력 음성을 취득하는 스텝과, 취득된 상기 입력 음성의 각각의 프레임 시간에 있어서의 제 1의 주파수 특성과 소정의 제 2의 주파수 특성 사이의 주파수 방향의 변화에 근거하여 얻을 수 있는 상대 피치 변화량을 구하는 스텝과, 상기 상대 피치 변화량에 근거하여 운률 인식 처리를 실시하여 상기 운률 인식 처리의 결과를 생성하는 스텝을 포함한다.

본 발명의 다른 실시예에 따르면, 입력 음성의 운률적 특징에 근거하여 상기 입력 음성의 인식을 실시하는 처리를 컴퓨터에 실행시키기 위한 음성 처리 프로그램이 제공된다. 상기 음성 인식 방법을 실현하는 상기 음성 처리 프로그램은, 상기 입력 음성을 취득하는 스텝과, 취득이 제어된 상기 입력 음성의 각각의 프레임 시간에 있어서의 제 1의 주파수 특성과 소정의 제 2의 주파수 특성 사이의 주파수 방향의 변화에 근거하여 얻을 수 있는 상대 피치 변화량을 구하는 스텝과, 상기 상대 피치 변화량에 근거하여 운률 인식 처리를 실시하여 상기 운률 인식 처리의 결과를 생성하는 스텝을 포함한다.

본 발명의 다른 실시예에 따르면,

입력 음성이 취득되며,

상기 음성 취득 수단에 의해 취득된 상기 입력 음성의 각각의 프레임 시간에 있어서의 제 1의 주파수 특성과 미리 결정된 소정의 제 2의 주파수 특성과의 사이의 주파수 방향의 변화에 근거하여 얻을 수 있는 상대 피치 변화량이 구해지며,

상기 음향 분석 수단에 의해 구해진 상기 상대 피치 변화량에 근거하여 운률 인식 처리를 실시하여, 상기 운률 인식 처리의 결과를 생성한다.

음성 인식 장치는, 독립한 장치여도 좋고, 정보처리 장치의 음성 인식 처리를 실시하는 블록이어도 좋다.

이상과 같이, 본 발명의 실시예에 의하면, 입력 음성의 운률적 특징에 근거하여 인식을 실시할 수 있으며 특히, 입력 음성의 각각의 프레임 시간에 있어서의 제 1의 주파수 특성과 소정의 제 2의 주파수 특성과의 사이의 주파수 방향의 변화에 근거하여 상대 피치 변화가 구해지므로, 무성음이나 무음 부분이 포함되어 있는 경우에도, 올바르게 인식을 실시할 수 있다.

이하에 본 발명의 실시의 형태를 설명하지만, 본 발명의 구성 요건과 명세서 또는 도면에 기재의 실시의 형태와의 대응 관계를 예시하면, 다음과 같이 된다. 이 기재는, 본 발명을 지지하는 실시 형태가, 명세서 또는 도면에 기재되어 있는 것을 확인하기 위한 것이다. 따라서, 명세서 또는 도면에는 기재되어 있지만, 본 발명의 구성 요건에 대응하는 실시의 형태로서 여기에는 기재되어 있지 않은 실시 형태가 있었다고 해도, 그것은, 그 실시의 형태가, 그 구성 요건에 대응하지 않다고 해석되는 것은 아니다. 반대로, 실시 형태가 구성 요건에 대응하는 것으로 서 여기에 기재되어 있었다고 해도, 그것은, 그 실시의 형태가, 그 구성 요건 이외의 구성 요건에는 대응하지 않다는 것을 의미하는 것도 아니다.

게다가, 다음의 비교 설명은 본 명세서에 기재된 모든 발명들을 포함하는 포괄적인 설명은 아니다. 즉, 다음의 비교 설명은 결코 본 명서세에 기재된 발명들의 존재를 부인하는 것은 아니며, 본 출원이 적용된 발명들로서 청구항에 포함되어 있지 않다는 것을 의미하는 것도 아니다. 즉, 다음의 비교 설명은 특허에 대한 분할 출원내에 포함된 발명들의 존재를 부인하는 것은 아니며, 미래에 추가되거나 또는 본 명세서에 대한 수정안에 포함되는 발명들의 존재를 부인하는 것은 아니다.

본 발명의 한 실시예에 따르면, 입력 음성의 운률적 특징에 근거하여 입력 음성 인식을 실시하는 음성 처리 장치(예를 들면, 도 30의 상대 피치 변화량 계산부(151)를 갖춘 도 2의 운률 인식부(32)를 포함하는 장치)가 제공된다. 음성 처리 장치는,

상기 입력 음성을 취득하는 취득 수단(예를 들면, 도 2의 입력부(51))과;

상기 취득 수단에 의해 취득된 상기 입력 음성의 각각의 프레임 시간에 있어서의 제 1의 주파수 특성과 소정의 제 2의 주파수 특성 사이의 주파수 방향의 변화에 근거하여 얻을 수 있는 상대 피치 변화량을 구하는 음향 분석 수단(예를 들면, 도 30의 상대 피치 변화량 계산부(151)를 갖춘 도 2의 음향 분석부(52))과;

상기 음향 분석 수단에 의해 구해진 상기 상대 피치 변화량에 근거하여 인식 처리를 실시하여 운률 인식 처리의 결과를 생성하는 운률 인식 수단(예를 들면, 도 2의 인식부(53))을 구비한다.

상기 제 2의 주파수 특성을 기억하는 기억 수단(예를 들면, 도 30의 템플릿 주파수 특성 기억부(161))을 추가로 구비하는 구성을 가지는 음성 처리 장치를 제공하는 것이 가능하다.

상기 음성 취득 수단에 의해 취득된 상기 입력 수단으로부터의 상기 입력 음성을 음향 분석해 얻을 수 있는 특징량에 근거하여 음성 인식을 실시하여 음성 인식 처리의 결과를 생성하는 음성 인식 수단으로서, 상기 음성 인식 처리에서는, 상기 음성 인식 처리의 상기 결과가 미리 기억된 어느 특정의 단어들중 한 단어와 일치한다면, 상기 음성 인식 처리의 상기 결과가 부정확하다고 판단되는 가능성의 범주내에 상기 음성 인식 처리의 상기 결과가 존재하는 상기 음성 인식 수단(예를 들면, 도 1의 음성 인식부(33))과,

상기 특정 단어를 기억하는 특정 단어 기억 수단(예를 들면, 특정 단어 기억부 (35))과,

상기 특정 단어 기억 수단에 기억되어 있는 상기 특정의 단어와 상기 음성 인식 수단에 의한 음성 인식 결과를 비교하는 결과 선택 수단으로서, 상기 음성 인식 수단에 의한 음성 인식 결과가, 상기 특정 단어 기억 수단에 기억되어 있는 상기 특정의 단어와 일치하는 경우, 상기 운률 인식 수단에 의한 인식 결과와 상기 음성 인식 수단에 의한 인식 결과를 통합하여 얻어지는 최종 인식 결과를 출력하고,

상기 음성 인식 수단에 의한 음성 인식 결과가, 상기 특정 단어 기억 수단에 기억되어 있는 상기 특정의 단어와 일치하지 않는 경우, 상기 음성 인식 수단에 의해 실행되는 상기 음성 인식 처리의 상기 결과를 최종 인식 결과로서 출력하는 상기 결과 선택 수단(예를 들면, 도 1의 결과 선택부 (34))을 추가로 구비하는 음성 처리 장치를 제공하는 것이 가능하다.

본 발명의 다른 실시예에 따르면, 입력 음성의 운률적 특징에 근거하여 상기 입력 음성의 인식을 실시하는 음성 처리 장치(예를 들면, 도 30의 상대 피치 변화량 계산부(151)를 갖춘 도 2의 운률 인식부(32)를 포함하는 장치)에 의해 이용되는 음성 처리 방법이 제공된다. 음성 처리 방법은,

상기 입력 음성을 취득하는 스텝(예를 들면, 도 14의 플로차트의 스텝(S1)의 처리)과,

취득된 상기 입력 음성의 각각의 프레임 시간에 있어서의 제 1의 주파수 특성과 소정의 제 2의 주파수 특성 사이의 주파수 방향의 변화에 근거하여 얻을 수 있는 상대 피치 변화량을 구하는 스텝(예를 들면, 도 33의 스텝(S121)의 처리)과,

상기 상대 피치 변화량에 근거하여 운률 인식 처리를 실시하여 상기 운률 인식 처리의 결과를 생성하는 스텝(예를 들면, 도 14의 플로차트의 스텝(S4) 내지 스텝(S6)의 처리)을 포함한다.

입력 음성의 운률적 특징에 근거하여 상기 입력 음성의 인식을 실시하는 처리를 컴퓨터에 실행시키기 위한 음성 처리 프로그램이 제공된다. 상기 음성 인식 방법을 실현하는 상기 음성 처리 프로그램은,

취득이 제어된 상기 입력 음성의 각각의 프레임 시간에 있어서의 제 1의 주파수 특성과 소정의 제 2의 주파수 특성 사이의 주파수 방향의 변화에 근거하여 얻을 수 있는 상대 피치 변화량을 구하는 스텝(예를 들면, 도 33의 플로차트의 스텝(S121)의 처리)과,

상기 상대 피치 변화량에 근거하여 운률 인식 처리를 실시하여 상기 운률 인식 처리의 결과를 생성하는 스텝(예를 들면, 도 14의 플로차트의 스텝(S4)내지 스텝(S6)의 처리)을 포함한다.

이하, 본 발명을 적용한 구체적인 실시의 형태에 대해서, 도면을 참조하면서 상세하게 설명한다.

도 1은, 본 발명을 적용한 음성 인식 장치(11)의 구성을 나타내는 블럭도이다.

도면에 도시된 바와 같이, 음성 인식 장치(11)는, 음성 신호 입력부(31), 운률 인식부(32), 음성 인식부(33), 결과 선택부(34), 특정 단어 기억부(35), 및, 음성 인식 출력부(36)을 포함한다.

음성 신호 입력부(31)는, 예를 들면, 마이크 등에 의해 취득된 음성 신호, 또는, 다른 장치로부터 공급되는 음성 신호의 입력을 받는다.

운률 인식부(32)는, 입력된 음성 신호의 운률 인식 처리를 실행한다. 운률이란, 인토네이션, 스피드의 변화, 크기의 변화 등, 텍스트로서 표현할 수 없는 음성 정보의 특징을 나타내는 것이다. 운률 인식부(32)에 의한 운률 인식 처리 의 상세한 것에 대하여는 후술한다.

음성 인식부(33)는, 입력된 음성 신호의 음성 인식 처리를 실행한다. 여기에서는, 공지된 어느 음성 인식 처리를 실행할 수 있다.

결과 선택부(34)는, 상기 특정 단어 기억부(35)에 기억되어 있는 상기 특정의 단어와 상기 음성 인식부(33)에 의한 음성 인식 결과가 일치한다면, 운률 인식부(32)에 의한 인식 결과에 부가하며, 음성 인식부(33)에 의한 음성 인식 결과와, 운률 인식부(32)에 의한 인식 결과를 음성 인식부(33)에 의한 부가된 음성 인식 결과를 음성 인식 출력부(36)에 공급한다. 상기 특정 단어 기억부(35)에 기억되어 있는 상기 특정의 단어와 상기 음성 인식부(33)에 의한 음성 인식 결과가 일치하지 않는다면, 결과 선택부(34)는, 음성 인식부(33)에 의한 음성 인식 결과를 음성 인식 출력부(36)에 그대로 공급한다.

특정 단어 기억부(35)는, 음성 인식부(33)의 음성 인식 처리의 결과와 함께 비교되는 특정의 단어의 정보를 기록하는 메모리이다. 구체적으로는, 특정 단어 기억부(35)는 음성 인식부(33)에 의해 입력 단어에 대한 음성 인식처리를 실행한 결과가 비교되는 특정 단어를 저장하기 위해 이용된다. 입력 단어는 또한 운률인식부(32)에 의해 실행되는 운률인식처리를 거치게 된다. 특정 단어 기억부(35)에는, 예를 들면, 「응」등과 같이, 운률을 이용해 인식해야 할 특정의 단어가 기억되어 있다.

음성 인식 출력부(36)는, 결과 선택부(34)로부터 공급된 음성 인식 결과를 음성 인식부(33)의 음성 인식 처리의 결과로서 외부 결과 수신 장치에 출력하고, 필요하다면, 운률인식부(32)에 의해 실행되는 운률인식처리의 결과를 출력하는 장치이다. 즉, 음성 인식 출력부(36)는, 인식 결과는 화면에 표시하거나 소리로서 출력한다. 게다가, 음성 인식 출력부(36)는, 그 인식 결과를 이용하여, 다른 장치를 동작시키기 위해 다른 외부 장치에 명령을 전송한다.

다음에, 음성 인식 장치(11)의 동작에 대해 설명한다.

도 1의 구성에서는, 입력부(31)를 통해 입력된 음성은, 운률 인식부(32)와 음성 인식부(33)에 공급된다. 운률 인식부(32) 및 음성 인식부(33)의 각각은 입력 음성 데이터에 대해서 처리를 실행한다. 그 결과, 운률 인식부(32)는, 입력 음성 데이터의 운률 패턴에 근거하여 인식된 발화 타입(utterance type)(혹은 이용자의 발화 의도(utterance intention))을 결과 선택부(34)로 출력한다. 한편, 음성 인식 처리의 결과로서, 음성 인식부(33)는, 입력 음성 데이터에 대응한 텍스트 정보를 결과 선택부(34)로 출력한다.

결과 선택부(34)는 음성 인식처리의 결과와 특정 단어 기억부(35)에 기억되어 있는 특정의 단어를 비교한다. 그리고, 음성 인식처리의 결과가 특정 단어들중 어느 한 단어와 일치한다면, 운률인식처리의 결과가 음성 인식처리의 결과에 통합(또는 부가)된다. 그 후에, 결과 선택부(34)는 음성 인식 출력부(36)에 의해 음성 인식처리의 결과와 운률인식처리의 결과를 외부 수신자에게 출력한다. 음성 인식 결과가 특정 단어의 어느 단어와도 일치하지 않는 경우에는, 결과 선택부(34)는 음성 인식 출력부(36)를 통해 외부 수신자에게 음성 인식 결과를 그대로 출력한다.

특정 단어의 보기는 [응]이다. 운률 인식부(32)에 의해 실행된 음성 인식처리의 결과가 [응]과 일치한다고 가정한다. 상술한 바와 같이, 운률 인식부(32)는 입력 단어 [응]의 3 종류의 발화 타입(이용자의 발화 의도)중 한 개를 결정하기 위해 운률인식처리를 실행한다. 즉, 운률 인식부(32)는, 입력 단어 [응]이, 긍정, 부정, 의문을 나타내는 단어 [응]과 일치하는 지를 판단한다. 음성 인식부(33)에 의해 실행된 음성 인식 처리의 결과가 단어 [응]과 일치하므로, 결과 선택부(34)는 음률인식부(32)에 의해 결정된 긍정, 부정 또는 의문 발화 타입을 음성 인식처리의 결과에 부가하게 된다.

예를 들면, 운률 인식부(32)가 음률 인식 처리를 실행하여, 각 입력 단어에 대해 4개의 발화의 타입중 한 개의 타입을 결정하는 구성을 제공하는 것이 가능하다. 4번째 발화 타입은, [긍정], [부정], [의문]이 아닌 다른 발화 타입이라고 칭한다. 운률 인식부(32)가 결과 선택부(34)에 다른 발화 타입을 출력하면, 결과 선택부(34)는 음성 인식부(33)로부터 수신된 음성 인식 결과만을 최종 처리 결과로서 음성 인식 출력부(36)에 공급한다. 운률 인식부(32)가 [긍정], [부정], [의문] 발화 타입중 한 개의 타입을 음성 인식 출력부(36)에 출력하면, 결과 선택부(34)는 운률 인식부(32)로부터 수신된 발화 타입을 음성 인식부(33)로부터 수신된 결과에 부가하여, 그 음성 인식 처리의 결과와 부가된 발화 타입을 함께 음성 인식 출력부(36)에 공급한다. 그러므로, 특정 단어 기억부(35)를 생략하는 것이 가능하다.

도 2는, 도 1의 음성 인식 장치(11)내에 이용되는 운률 인식부(32)의 구성을 나타내는 블럭도이다.

운률 인식부(32)는, 단어 입력부(51), 음향 분석부(52), 운률 인식부(53), 파라미터 기억부(54), 및, 운률 출력부(55)를 포함하여 구성되어 있다.

단어 입력부(51)는, 마이크 등의 음성 신호를 입력하는 장치와 그 입력 신호를 증폭하는 앰프, 및 디지털 신호로 변환하는 AD 변환기 등으로 구성된다. 단어 입력부(51)는, 16kHz의 대표적인 주파수에서 입력 음성을 샘플링한 후, 출력 디지털 신호를 음향 분석부(52)에 공급한다.

음향 분석부(52)는, 주파수 특성 분석부(61)와 상대 피치 변화량 계산부 (62)를 포함하여 구성되며, 입력된 음성 신호로부터 인식에 필요한 특징량(또는 후술하는 상대 피치 변화량)의 추출을 행하고, 이것을 운률 인식부(53)에 보낸다. 음향 분석부(52)의 내부 처리에 대해서는, 후술한다.

운률 인식부(53)는, 미지의 음성 데이터를 나타내는 양인 되는 특징량을 파라미터 기억부(54)에 저장된 파라미터와 비교함으로써 미지의 음성 데이터에 대한 운류 인식 처리를 행하는 장치이다. 파라미터들은 미리 학습용의 음성 데이터를 음향 분석하여 얻을 수 있는 특징량을 기초로 하여 작성되었다.

운률 인식부(53)에 의해 실행되는 운률 인식 처리는 운률 인식 단위 사전중에서 미지의 음성 데이터를 나타내는 입력된 음성 신호에 대응하는 운률 인식 단위를 선택하는 처리이다. 이 운률 인식 처리에 이용되는 주요한 인식 기술은 DP(Dynamic Programming)매칭, 뉴럴 네트워크(neural network), HMM(Hidden Markoff Model) 등을 포함한다.

DP매칭에서는, 우선, 각 음성 신호를 분석하여 얻을 수 있는 특징량으로부터 템플릿이라고 칭해지는 표준 패턴을, 파라미터로서 미리 구해둔다. 그 후에, 미지의 음성의 특징량과 파라미터들을 비교하여 특질량과 가장 가까운 파라미터를 찾아낸다. 또, 발화 속도(utterance speed)의 변동을 흡수하기 위해서, 다이나믹 타임 와핑(dynamic time warping)으로 불리는 수법에 의해, 템플릿과의 일그러짐을 최소화하도록 시간축의 신축을 행하는 방법이 널리 이용된다.

뉴럴 네트워크(neural network)는, 인간의 뇌의 구조를 모방하는 네트워크 모델에 의해서 실행되는 운률 인식 처리이다. 우선, 학습 과정에 의해 미리 패스(path)의 가중치 계수를 파라미터로서 결정해 두며, 그 네트워크 모델에 미지의 음성의 특징량을 입력하여 얻을 수 있는 출력과, 운률 인식 단위 사전내의 각 운률 인식 단위와의 거리를 구하여, 입력된 음성 신호에 대응하는 운률 인식 단위를 결정하는 것이다.

또, HMM 기술에서는, 확률 모델에 의해 운률 인식 처리가 실행된다. 우선, 미리 상태 천이 모델에 대해서, 그 천이 확률과 출력 심볼 확률을 학습 데이터를 기초로 결정해 둔다. 그 후에, 미지의 음성의 특징량에 대한 각 모델의 발생 확률로부터 운률 인식 단위의 결정을 행하는 방식이다.

이상 말한 것처럼, 운률 인식부(53)에 있어서의 운률 인식 처리는, 일반적으로, 학습 과정과 운률 인식 과정을 포함한다. 학습 과정에서는, 미리 학습용 데이터로부터 결정된 파라미터, 즉, 템플릿이나, 네트워크 모델의 가중치 계수, 확률 모델의 통계적 파라미터를 구하고, 이것들을 파라미터 기억부(54)에 기억해 둔 다. 그리고, 운률 인식 처리에서는, 입력된 미지 음성 신호를 음향 분석한 후에, 운률 인식 단위 사전내의 운률 인식 단위 각각에 대해 점수를 부여하여, 사전내에 기재된 운률 인식 단위중 가장 높은 점수를 가지는 단위, 또는 사전내에 기재된 것들과 비교하여 상대적으로 높은 점수를 가지는 복수의 운률 인식 단위들을 운률 인식 처리의 결과로 선택하는 처리가 실행된다. 운률 인식 처리에서 이용되는 운률 인식 기술에 따르면, 점수는 뉴럴 네트워크에 따르는 거리, HMM 기술에 따르는 발생 확률 또는 다른 양을 나타내고 있다.

예를 들면, 특정 단어 [응]에 대해서는, 운률 인식부(53)가 3가지 종류의 발화 타입에 대한 운률 인식 처리를 실행하여, 특정 단어가 긍정을 나타내는 [응], 부정을 나타내는 [으응]및 의문을 나타내는 [응？]인지 아닌지를 결정한다. 그리고, 운률 인식 처리의 결과를 운률 출력부(55)에 공급한다.

운률 출력부(55)는, 운률 인식 처리의 결과를 결과 선택부(34)에 공급한다.

그런데, 종래의 피치 주파수의 검출에 대해서는, 발성에 있어서의 성대 진동의 일주기인 피치 주기의 시간 길이(혹은 그 피치 주기의 역수로 나타내지는 피치 주파수)가 고유하게 결정된다. 이 피치 주파수를 고유적으로 결정하는 처리는, 발화 음성에 대응한 주파수 특성의 분포에서 가장 저대역에 존재하는 피크 성분의 중심 주파수를 구하는 처리이다. 예를 들면, 도 3에 도시한 통상 음성의 주파수 특성으로 도시된 주파수 특성의 경우에는, 주파수(fp)가 피치 주파수에 상당한다.

그렇지만, 발화 음성이 노이즈에 혼재하고 있다면, 속삭임 소리와 같이 피치 성이 낮은 발화 음성의 경우에는, 상술한 것 같은 종래의 피치 주파수의 결정 처리는 어렵게 된다. 도 4에 도시된 속삭임 소리의 주파수 특성의 경우에는, 가장 저대역에 존재하는 피크 성분의 중심 주파수를 검출하는 것이 곤란하다. 이러한 어려움은, 피치 주파수를 검출하기 위한 처리는 주파수 특성의 피크성에 의존하는 처리가 되므로, 어렵다고 말할 수 있다.

한편, 운률 인식부(32)는, 도 4에 도시한 속삭임 소리등이 같은 피치 주파수의 검출이 곤란한 경우에 대해서도, 상대 피치 변화량을 이용하여, 주파수 특성의 피크성에 의존하는 처리, 즉 적절한 피치 주파수를 고유하게 결정하는 처리를 회피할 수 있어 인토네이션의 변화를 보다 광범위하게 파악할 수 있다.

또, 종래의 피치 주파수 검출에서는, 발화 음성에 대응한 주파수 특성을 1개의 특징량 분포로서 파악하고, 그 1개의 분포로부터 소망하는 특징량(피치 주파수)을 추출한다. 그러나, 운률 인식부(32)는, 피치 주파수를 결정하지 않고 피치 주파수의 변화량을 직접 구하기 때문에, 피치 주파수와 피치 주파수의 변화 범위를 의미하는 피치 변동 범위를 정규화하는 처리도 필요로 하지 않는다. 또, 운률 인식부(32)는, 발화 음성에 있어서의 인토네이션의 변화를 보다 적절히 파악할 수 있다.

이러한 처리는, 주로 음향 분석부(52)가 실행하는 처리에 의해 실현되는 것이다.

도 5는, 주파수 특성 분석부(61)의 기능 구성을 나타내는 기능 블럭도이다.즉, 도시된 바와 같이, 주파수 특성 분석부(61)는, 시간 주파수 변환 처리부(81), 대수 변환부(82), 및, 주파수 영역 추출부(83)를 포함한다. 시간 주파수 변환 처리부(81), 대수 변환부(82), 및, 주파수 영역 추출부(83)의 기능들은, 하드웨어, 또는, 소프트웨어에 의해 구현될 수 있다.

시간 주파수 변환 처리부(81)는, 입력된 음성 신호를, FFT 분석 등의 시간 주파수 변환 처리에 의해서, 시간 영역내에서 변화하는 입력 음성 신호를 주파수 영역내에서 변화하는 신호로 변환하는 장치이다. 주파수 영역내에서 변화하는 신호는 대수 변환부(82)에 공급되는 일반적인 주파수 특성을 나타내고 있다. 도 6은 시간 주파수 변환 처리부(81)에 의해 출력되는 주파수 특성의 일례를 나타낸다.

대수 변환부(82)는, 시간 주파수 변환 처리부(81)로부터 공급된 일반적인 주파수 특성에 있어서의 주파수축을 대수 스케일을 가지는 축으로 변환하여, 일반적인 주파수를 대수 주파수축상에서의 주파수 특성으로 변환하고, 대수 주파수축상에서의 주파수 특성을 주파수 영역 추출부(83)에 공급한다. 도 7은, 대수 변환부(82)에 의해 출력된 주파수 특성의 일례를 나타낸다.

주파수 영역 추출부(83)는, 대수 변환부(82)로부터 수신된 주파수 특성으로부터 소망하는 주파수 영역 부분(Rw)만을 대수 주파수축상에서의 주파수 특성으로 추출하고, 이 결과를 주파수 특성 분석부의 결과로서 출력한다. 도 8은, 도 7의 주파수 특성으로부터 대수 주파수축상에서의 주파수 특성으로 추출된 대표적인 주파수 특성중 소망하는 주파수 영역(Rw)을 도시하고 있다.

도 8에 도시한 주파수 특성은, 주파수 특성 분석부(61)에 있어서의 분석의 결과로서, 상대 피치 변화량 계산부(62)에 공급된다.

도 9는, 상대 피치 변화량 계산부(62)의 기능 구성을 나타내는 블럭도이다. 도면에 도시된 바와 같이, 상대 피치 변화량 계산부(62)는, 상호 상관 행렬 계산부(101), 주대각선 이동량 계산부(102), 및, 상대 피치 차이 계산부(103)를 포함하며, 상호 상관 행렬 계산부(101), 주대각선 이동량 계산부(102), 및, 상대 피치 차이 계산부(103)의 기능들은 하드웨어 또는 소프트웨어에 의해 구현될 수 있다.

상호 상관 행렬 계산부(101)는, 주파수 특성 분석부(61)에서 이용되는 주파수 영역 추출부(83)로부터, 분석된 프레임들 가운데에서 선택된 2개의 다른 분석 프레임에 있어서의 주파수 특성으로서 수신되는 두 개의 주파수 특성을 이용하여, 주파수 특성간의 상호 상관 행렬 M을 계산한다.

여기서, 컬럼 벡터 X와 Y는 각각, 상술한 주파수 특성 분석부(61)내에서 이용되는 주파수 영역 추출부(83)로부터 수신된 두 개의 주파수 특성을 각각, 다른 분석 프레임에 있어서의 2개의 주파수 특성으로 나타낸 것이다. 그리고, N은 컬럼 벡터 X와 Y의 차수를 나타낸다. 컬럼 벡터 X와 Y는 각각, 다음의 식 (1), (2)와 같이 나타내진다. 이 때, 상호 상관 행렬 M은, 식 (3)과 같이, 컬럼 벡터 X와 Y의 전치벡터(transposed matrix) Y＇만큼 증배하여 얻어지는 행렬이다.

X=(x₁, x₂,···, x_N)^T···(1)

Y=(y₁, y₂,···, y_N)^T···(2)

M=X*Y^T ···(3)

식 (3)에서 나타내지는 상호 상관 행렬 M을, 도 10에 나타내고 있다. 도11은, 이 상호 상관 행렬 M을 구성하는 요소들의 수치값을, 농도(concentrations)(또는 명암의 정도)로 그래픽 표시한 것이다.

비교예로서 2개의 주파수 특성이 같은 경우를 주목하자. 이 경우, 상호 상관 행렬 M은, 컬럼 벡터 X에 의해 표시되는 동일한 주파수 특성이 되는, 두 개의 주파수 특성의 자기 상관(self-correlation) 행렬을 의미한다. 도 12는, 자기 상관 행렬 M을 나타내는 도면이며, 도 13은 자기 상관 행렬 M을 구성하는 요소들의 수치값을 농도로서 그래픽 표시한 것이다.

도 12 및 도 13으로부터 알 수 있듯이, 단지 1개의 주파수 특성만으로부터 얻을 수 있는 자기 상관 행렬 M은 대칭 행렬이다. 주파수 특성에서 관찰되는 진폭의 제곱으로 구성되는 벡터(또는 파워 스펙트럼 : power spectrum)는, 자기 상관 행렬 M의 주대각선과 일치한다. 즉, 자기 상관 행렬 M에 있어서의 주대각선 은, 주파수 특성의 진폭(또는 피크)의 제곱끼리를 연결하는 직선이 된다. 한편, 자기 상관 행렬 M에 있어서의 주대각선에 의해 연결된 요소이외의 요소들로 포함된 구성 요소들은 주파수 특성의 진폭(또는 피크)의 제곱이 아니다.

한편, 상호 상관 행렬 M에서는, 도 11에 도시된 바와 같이, 이 능선 b가 행렬의 주대각선 a와 평행하다.

두 개의 다른 주파수 특성으로부터 얻어지는 상호 상관 행렬 M에서는, 도 11 에 도시된 바와 같이, 이 능선 b가 행렬의 주대각선 a로부터 이동되어 있다. 이것은, 한 주파수 특성의 피치 주파수가 다른 주파수 특성내의 피치 주파수와 다르기 때문이다. 각 주파수 특성의 각 피크 성분의 주파수 위치는 대체로 각 피치 주파수의 정수배의 위치가 된다. 시간적으로 다른 두 개의 분석 프레임에 대한 2개의 주파수 특성에서는, 프레임들 중 한 프레임의 피치 주파수가 다른 프레임의 피치 주파수와 다르다. 그러므로, 피치 주파수가 다른 주파수 특성으로부터 얻을 수 있는 상호 상관 행렬 M(대수 주파수축에 표시된 특성)에서는, 주파수 특성에서 관찰되는 피크의 적(product)을 각각 나타내는 요소로서 표현되고, 상호 상관 행렬 M의 주대각선 a와 평행한 방향에 배치된 행렬 요소들을 연결하는 능선 b는, 주대각선 a와 평행한 라인이다. 즉, 능선(ridge line) b는, 주대각선 라인으로부터, 대수 시간상에서 나타나는 차이, 즉 2개의 주파수 특성간의 이동 주파수내의 차이에 대응하는 이동 거리 c만큼 이동된다.

주대각선 이동량 계산부(102)는, 시간적으로 다른 두 개의 분석 프레임에 대한 다른 두 개의 주파수 특성으로부터 얻을 수 있는 상호 상관 행렬 M의 주대각선 a와 능선 b의 이동량 c를 구하고, 상대 피치 차이 계산부(103)에 그 이동량을 공급한다.

상대 피치 차이 계산부(103)는, 주대각선 이동량 계산부(102)로부터 공급된 주대각선 a와 능선 b사이의 이동량 c에 근거하여, 각 분석 프레임에 있어서의 피치 주파수를 구하지 않고, 분석 프레임간의 대수 피치 주파수의 차이(이하 「상대 피치 차이」라고 칭한다)를 구한다.

상술한 바와 같이, 시간적으로 다른 두 개의 분석 프레임간의 상대 피치 차이는, 2개의 분석 프레임의 2개의 주파수 특성으로 구할 수 있다. 예를 들면, 시간적으로 인접하는 두 개의 분석 프레임의 상대 피치 차이는, 시간적으로 인접하는 두 개의 분석 프레임의 두 개의 주파수 특성으로부터 구할 수 있다.

그리고, 상대 피치 차이 계산부(103)는, 소망하는 분석 프레임수에 대해 상대 피치 변화량을 연산하기 위해, 소망하는 분석 프레임수에 대해 인접하는 두 개의 분석 프레임의 두 개의 주파수 특성으로부터 계산되는 상대 피치 차이를 적산한다. 소망하는 분석 프레임수의 결정 방법으로서는, 운률 인식부(53)에 의해 실행되는 학습 과정에 있어서의 인식 정밀도를 기준으로 할 수 있다.

상술한 바와 같이, 음향 분석부(52)는 내부 처리를 실행하여 운률 인식 처리에 사용되는 특징량을 구한다.

도 14의 플로차트를 참조하여, 다음의 설명은 음성의 운률과 음성의 운률 정보를 인삭하기 위해 음성 인식 장치(11)에 의해 실행되는 음성 인식 처리에 대해 설명한다.

도면에 도시된 바와 같이, 플로차트는 스텝(S1)에서 시작되며, 음성 입력부 (31)는, 음성 신호의 입력을 받아, 운률 인식부(32)와 음성 인식부(33)에 음성 신호를 공급한다.

그 후에, 스텝(S2)에서는, 음성 인식부(33)가, 음성 입력부(31)로부터 공급된 음성 신호를 인식하여, 텍스트 데이터를 얻고, 그 텍스트 데이터를 결과 선택부 (34)에 공급한다.

스텝(S3)에서는, 운률 인식부(32)는, 도 15를 참조하여 설명되는 운률 인식 처리를 실행한다.

그 후에, 스텝(S4)에서는, 결과 선택부(34)가, 운률 인식부(32)로부터 텍스트 데이터를 음성 데이터 인식 결과로 수신하고, 음성 인식부(33)로부터 운률 인식 결과를 수신한다. 그리하여, 음성 인식부(33)로부터 수신된 음성 데이터 인식 결과가, 특정 단어 기억부(35)에 기억되어 있는 특정 단어와 일치하는지 아닌지를 판단한다.

스텝(S4)에서 실행된 처리에서 생성된 판단결과에 의해, 음성 인식부(33)로부터 수신된 음성 데이터 인식 결과가 특정 기억부(35)에 기억된 어느 특정 단어와 일치하지 않는다면, 플로차트에 의해 표현되는 음성/운률 인식 처리의 흐름은 스텝(S5)으로 진행한다. 스텝(S5)에서는, 운률 인식부(32)로부터 수신된 운률 인식 결과를 음성 인식 결과에 부가하지 않고, 결과 선택부(34)가, 음성 인식부(33)에 의한 인식 결과를, 인식 결과 출력부(36)에 그대로 출력한다. 그리고, 플로차트에 의해 표현되는 음성/운률 인식 처리의 흐름은 종료된다.

스텝(S4)에서 실행되는 처리에서 생성된 판단결과에 의해, 음성 인식부(33)로부터 수신된 운률 인식 결과가 특정 기억부(35)에 기억된 어느 특정 단어와 일치한다면, 플로차트에 의해 표현되는 음성/운률 인식 처리의 흐름은 스텝(S6)으로 진행한다. 스텝(S6)에서, 선택 결과부(34)는 운률 인식부(32)로부터 수신된 운률 인식 결과를 음성 인식부(33)로부터 수신된 음성 인식 결과에 부가하고, 운률 인식 결과와 음성 데이터 인식 결과를 인식 결과 출력부(36)에 공급한다. 그리고, 플 로차트에 의해 표현되는 음성/운률 인식 처리의 흐름은 종료된다.

예를 들면, 운률 인식부(32)가, 공급된 입력 단어에 대한 4개의 발화 타입중 한 개를 결정하기 위해 운률 인식 처리를 실향하는 구성을 제공하는 것이 가능하다. 4번째 발화 타입은, 상술한 3개의 발화 타입, 즉 [긍정], [부정], [의문], 이 아닌 다른 발화 타입으로 불려진다. 운률 인식부(32)가 그 4번째의 발화 타입을 결과 선택부(34)로 출력하면, 결과 선택부(34)는 음성 인식부(33)로부터 수신된 결과만을 음성 인식 처리의 결과로서 인식 결과 출력부(36)에 공급한다. 운률 인식부(32)가 [긍정], [부정], [의문]중 한 타임을 결과 선택부(34)로 출력하면, 결과 선택부(34)는 운률 인식부(32)로부터 수신된 발화 타입을 음성 인식부(33)로부터 수신된 결과에 음성 인식 처리의 결과로서 부가하며, 부가된 발화 타입과 음성 인식 처리의 결과를 인식 결과 출력부(36)에 공급한다. 이 경우, 스텝(S4)에서, 결과 선택부(34)는 상술한 바와 같이, 운률 인식부(32)로부터의 운률 인식 결과와 음성 인식부(33)로부터의 음성 인식 결과를 수신한다. 운률 인식부(32)로부터의 운률 인식 결과와 음성 인식부(33)로부터의 음성 인식 결과가 특정 기억부(35)에 기억된 특정 단어와 일치하는 지를 판단하는 결과를 생성하는 대신에, 결과 선택부 (34)는, 운률 인식부(32)로부터 수신된 운률 인식 결과가 그 4번째의 발화 타입이 아닌지를 판단하여 그 결과를 생성한다. 스텝(S4)에서 실행된 처리에서 생성된 판단결과에 의해, 운률 인식부(32)로부터 수신된 운률 인식 결과가 4번째의 타입이라면, 플로차트에 의해 표현되는 음성/운률 인식 처리의 흐름은 스텝(S6)으로 진행한다. 스텝(S4)에서 실행된 처리에서 생성된 판단결과에 의해, 운률 인식부(32)로부터 수신된 운률 인식 결과가 4번째의 타입이라면, 플로차트에 의해 표현되는 음성/운률 인식 처리의 흐름은 스텝(S5)으로 진행한다. 스텝(S4)에서 실행된 처리에서 생성된 판단결과에 의해, 운률 인식부(32)로부터 수신된 운률 인식 결과가 4번째의 타입이 아니라면, 플로차트에 의해 표현되는 음성/운률 인식 처리의 흐름은 스텝(S6)으로 진행한다.

도 15의 플로차트를 참조하여, 도 14의 스텝(S3)에서, 음성의 운률을 인식하기 위해 운률 인식부(32)가 실행하는 처리에 대해 설명한다.

도 15에 도시된 바와 같이, 플로차트는 스텝(S31)에서 시작되며, 이 스텝에서는, 운률 인식부(32)는 도 16을 참조하여 후술되는 주파수 분석 처리를 실행한다.

그 후에, 스텝(S32)에서, 운률 인식부(32)는 도 17에 도시된 플로차트를 참조하여 후술되는 하는 상대 피치 차이 산출 처리를 실행한다. 다음에, 도 14의 플로차트에 의해 표현되는 음성 인식 처리의 흐름은 도 14의 스텝(S3)을 통해 스텝(S4)으로 진행된다.

도 16의 플로차트를 참조하여, 도 15의 스텝(S31)에서 주파수 특성 분석부 (61)에 의해 실행되는 주파수 분석 처리에 대해 설명한다.

도 16에 도시된 바와 같이, 플로차트는 스텝(S61)에서 시작되며, 이 스텝에서, 주파수 특성 분석부(61)의 시간 주파수 변환 처리부(81)는, FFT 분석 등의 시간 주파수 변환 처리를 실행하여, 입력된 음성 신호를, 시간 영역에서 변화하는 신호로부터 주파수 영역에서 변화하는 신호로 변환한다. 주파수 영역에서 변화하 는 신호는 일반적인 주파수 특성을 나타내며, 대수 변환부(82)에 공급된다.

그 후에, 스텝(S62)에서, 대수 변환부(82)는, 시간 주파수 변환 처리부(81)로부터 수신된 일반적인 주파수 특성의 주파수축을 대수 치수를 가지는 축으로 변환하여, 일반적인 주파수 특성을 대수 주파수축상의 주파수 특성으로 변환한다. 대수 변환부(82)는, 주파수 특성 분석부(61)의 주파수 영역 추출부(83)에 대수 주파수축상의 주파수 특성을 공급한다.

그 후에, 스텝(S63)에서, 주파수 영역 추출부(83)는, 대수 주파수축상의 주파수 특성으로서, 소망하는 주파수 영역 부분만을 대수 변환부(82)로부터 추출하고, 그 추출한 부분을 주파수 특성 분석부의 결과로서 상대 피치 변화량 계산부 (62)에 공급한다. 다음에, 도 16의 플로차트에 의해 표현되는 주파수 분석 처리의 흐름은 도 14의 스텝(S31)을 통해 스텝(S32)으로 진행된다.

이러한 처리에 의해, 공급된 음성 신호의 주파수 분석이 실행된다.

도 17의 플로차트를 참조하여, 도 15의 스텝(S32)에 대해 실행되는 첫 번째 상대 피치 차이 산출 처리에 대해 설명한다.

도 17에 도시된 바와 같이, 플로차트는 스텝(S91)에서 시작되며, 이 스텝에서, 상호 상관 행렬 계산부(101)는, 두 개의 주파수를 이용하여 주파수 특성간의 상호 상관 행렬 M을, 두 개의 다른 분석 프레임의 주파수 특성으로 계산하고, 주대각선 이동량 계산부(102)에 공급한다.

그 후에, 스텝(S92)에서, 주대각선 이동량 계산부(102)는, 주대각선 a와 능선 b의 이동 거리로서, 도 11의 이동 거리 c를 구하고, 상대 피치 차이 계산부 (103)에 공급한다.

그 후에, 스텝(S93)에서, 상대 피치 차이 계산부(103)는, 주대각선 이동량 계산부(102)로부터 공급된 주대각선 a와 능선 b의 이동량 c에 근거하여, 각 분석 프레임에 있어서의 피치 주파수를 구하지 않고, 분석 프레임간의 상대 피치 차이를 구한다. 그 후에, 상대 피치 차이 계산부(103)는, 소망하는 분석 프레임수에 대해 인접하는 두 개의 분석 프레임간의 주파수 특성으로부터 연산되는 상대 피치 차이를 적산하여, 소망하는 프레임수에 대한 상대 피치 변화량을 계산한다. 다음에, 도 17의 플로차트에 의해 표현되는 상대 피치 차이 계산처리의 흐름은 도 15의 스텝(S32)과 도 14의 스텝(S3)을 통해 도 14의 스텝(S4)으로 진행된다.

이러한 처리에 의해, 운률의 인식을 위한 상대 피치 변화량을 얻을 수 있다.

다음에, 도 1을 참조하면서 이미 설명된 음성 인식 장치(11)를 구현하는 실시예에 의해 이용되는 인식 방법의 효과를 명확히 하기 위해, 도 18 내지 도 25를 참조하면서, 각종 음성에 있어서의 상대 피치 패턴의 예에 대해 설명한다. 여기서의 상대 피치 패턴이란, 상대 피치 차이를 음성 데이터 개시점으로부터 발화 전체를 통해 적산하여 얻어지게 되는 것이다. 그리하여, 도 18c-도 25c, 도 26b와 도 27에 도시된 바와 같이, 각 분석 프레임에 있어서의 음성 데이터 개시점으로부터의 상대 피치 변화량을 연속하는 프레임의 시계열 데이터로서 표시된다. 상대 피치 패턴은, 시간 축상에 나타나는 연속된 분석 프레임을 통해 상태 피치 변화량을 나타내는 곡선이다.

이와 같이 얻어진 상대 피치 패턴은, 분석 프레임의 피치 패턴들을 나타내는 일반적인 피치 패턴과 비교될 수 있다. 일반적인 피치 패턴은 시간축 데이터이다. 다음의 설명에서는, 일반적인 피치 패턴을 실피치 차이(real pitch difference)라고 부른다.

도 18은, 보통으로 [아이우에오]라고 발성한 남자 목소리의 음성 파형, 실피치 패턴, 및 상대 피치 패턴을 나타내는 도면이며, 도 19는, 보통으로 [아이우에오]라고 발성한 여성의 음성 파형, 실피치 패턴, 및, 상대 피치 패턴을 나타내는 도면이다. 구체적으로, 도 18a와 도 19a는 남성과 여성에 의해 출력되는 파형을 나타내며, 도 18b와 도 19b는 남성과 여성에 의해 출력되는 음성의 실피치 패턴이며, 도 18c와 도 19c는 남성과 여성에 의해 출력되는 음성의 상대 피치 패턴이다.

도 20 내지 도 25를 참조하면서, 음성 인식부(33)에 의해 음성 인식 결과로서,출력되는 텍스트 [응]의 경우에 통상, 긍정을 의도하는 대답인 [응]과, 부정의 대답인 [으응] 또는 의문을 나타내는 [응？]에 대응하는 음성 파형, 실피치 패턴, 및, 상대 피치 패턴을 설명한다.

도 20 내지 도 22를 참조하여, 보통으로 발성했을 경우에 대해 설명한다.

즉, 도 20은, 긍정을 의도하는 대답인 [응]의 음성 파형, 실피치 패턴, 및, 상대 피치 패턴을 나타낸다. 도 21 내지 도 22의 각각은 부정의 대답인 [으응] 또는 의문을 나타내는 [응？]의 음성 파형, 실피치 패턴을 나타낸다. 그것들을 달리 표현하기 위해, 도 20a, 도 21a, 도 22a는 긍정, 부정과 의문을 나타내는 음성의 파형을 나타낸다. 도 20b, 도 21b, 도 22b는 긍정, 부정과 의문 을 나타내는 음성의 실피치 패턴을 나타낸다. 도 20c, 도 21c, 도 22c는 긍정, 부정과 의문을 나타내는 음성의 상대 피치 패턴을 나타낸다.

도 20 내지 도 22로부터 알 수 있듯이, 소리의 높이는 도 20a, 도 21a, 도 22a에 도시된 파형을 이용하여 서로 명확하게 구별하는 것이 어렵다. 상술한 바와 같은 처리들을 실행함으로써 얻어지는 도 20b, 도 21b, 도 22b의 실피치 패턴 또는 도 20c, 도 21c, 도 22c의 상대 피치 패턴을 이용하여, 소리의 높이가 서로 명확하게 구별된다.

도 23 내지 도 25를 참조하여, 속삭임 소리의 경우에 대해 설명한다. 즉, 도 23은, 속삭임 소리의 긍정의 의도로 표현된 [응]에 대한 음성 파형, 스펙트럼, 및 상대 피치 패턴을 나타내며, 도 24는 부정의 의도로 표현된「으응]에 대한 음성 파형, 스펙트럼, 및 상대 피치 패턴을 나타내며, 도 25는 의문의 의도를 표현한 [응？]에 대한 음성 파형, 스펙트럼, 및 상대 피치 패턴을 나타내고 있다. 그것들을 달리 기술하기 위해, 도 23a, 도 24a, 도 25a는 긍정, 부정과 의문을 각각 표현하는 음성의 파형을 나타낸다. 도 23b, 도 24b, 도 25b는 긍정, 부정과 의문을 각각 표현하는 음성의 스펙트럼을 나타낸다. 도 23c, 도 24c, 도 25c는 긍정, 부정과 의문을 각각 표현하는 음성의 상대 피치 패턴을 나타낸다.

도 23b, 도 24b, 도 25b의 스펙트럼으로부터 알 수 있듯이, 음성의 속삭임 의 경우에는, 일반적인 피치 주파수 성분들을 포함하는 영역에서는, 충분한 주파수 특성이 파악될 수 없다. 그러므로 피치 주파수를 추출하는 것은 어렵다.

그렇지만, 상술한 것처럼, 음성 인식 장치(11)의 운률 인식부(22)는, 관찰 대상인 2개의 주파수 특성간에 있어서의 고조파 성분의 차이로부터 직접 상대 피치 차이를 구하고 있으므로, 도 23c, 도 24c, 도 25c로부터 알 수 있듯이, 속삭임 소리에 있어서의 소리의 높이의 변화도 적절히 파악된다.

구체적으로는, 도 23c의 긍정의 의도를 나타내는 [응]의 경우에는, 상대 피치 패턴은 하강하는 패턴이며, 도 24c의 부정의 의도를 나타내는 [으응]의 경우에는, 상대 피치 패턴이 하강 및 상승하는 패턴이다. 도 25c의 의문의 의도를 나타내는 [응？]의 경우에는, 상대 피치 패턴이 상승하는 패턴이다. 이러한 상대 피치 패턴의 차이에 근거하여, 단어와 같이, 실피치 패턴의 검출이 곤란한 속삭임 소리 등에 의해 표현되는 특정 단어 [응]에 있어서의, 긍정, 부정, 의문의 3종류 의 발화 타입(또는 발화 의도)을 서로 구별할 수 있다. 그러므로, 입력 음성의 운률적 특징에 근거하여 신뢰성이 높은 운률의 인식을 실행하는 것이 가능해진다.

이상의 방법에 대해서는, 고조파 구조내의 피크에 대응하는 행렬 요소들을 연결하는 능선은, 시간적으로 다른 2개의 분석 프레임의 각각의 주파수 특성의 상호 상관 행렬의 주대각선으로부터 이동된 거리를 나타내는 이동량으로서, 고조파 구조에 의해 발생된 이동에 근거하여 결정된다. 상대 피치 차이(또는, 상대 피치 변화량)를 결정하는 방법에 의하면, 두 개의 주파수 특성상의 최소한 한 세트의 점들은, 두 개의 주파수 특성간의 상호 상관 행렬의 주대각선으로부터 이러한 두 세트의 점들 또는 최소한 한 세트의 점들을 연결하는 직선이 이동되는 거리에 근거하여 결정되어, 상대 피치 차이(또는, 상대 피치 변화량)가 결정된다.

이러한 결정 방법을 이용하여, 능선이 상호 상관 행렬의 주대각선으로부터 이동되는 이동량과는 다른 기준에 의해서, 상대 피치 차이를 결정하는 것이 가능해진다. 구체적으로는, 예를 들면, 2개의 주파수 특성의 제 N차 고조파의 피크에만 주목하거나 또는 피크와는 반대로 주파수 특성의 특정의 골짜기의 위치에 주목하는 것 등을 들 수 있다.

이러한 처리에 의해, 운률의 인식 처리에 이용되는 상대 피치 변화량을 얻을 수 있으므로, 시간적으로 다른 2개의 주파수 특성간의 상대 피치 변화량을 이용하는 운률 인식 처리를 실행함으로써, 피치 주파수의 추출이 곤란한 종래의 경우에 대해, 광범위한 운율 인식 처리가 실행될 수 있다. 상기 경우의 보기로는 노이즈 등의 영향이 큰 경우나, 속삭임 소리나 피치성이 낮은 음성의 경우가 있다.

그런데, 이상 설명한 방법을 이용하여, 상대 피치 변화량을 구하는 것으로 운률을 인식하는 경우, 예를 들면, 인식 대상이 되는 발화 음성의 음성 구간 내부에, 무음 구간이나 무성음이 포함되는 부분에 대해, 올바른 인식을 할 수 없는 경우가 발생해 버린다.

도 1에 도시된 음성 인식 장치(11)를 상기 문제를 해결하기 위한 실시예로서 실현하는 다른 실시예의 설명을 위해, 도 26을 참조하여, [숙인다]라고 발성했을 경우의 운률의 인식에 대해 설명한다. 도 26a는, [숙인다]라고 발생했을 경우의 음성 파형이며, 도 26b는, 그 음성의 실피치 패턴이다.

도 26a에 도시된 바와 같이, [숙인다]라고 발성한 음성 파형에는, 무성 자음들, 즉 일본 음절 [tsu]의 알파벳 문자 [ts]에 대응하는 부분과, 일본 음절 [ku]의 알파벳 문자 [k]에 대응하는 부분이 포함되어 있다. 이 무성 자음의 부분에서는, 유성음과 같은 성대의 진동을 수반하지 않기 때문에, 피치 주파수가 존재하지 않는다.

이러한 음성 파형에 대해서, 상술한 것처럼, 두 개의 다른 주파수 특성으로부터 상대 피치 변화량을 구하는 방법을 적용했을 경우에, 무성 자음 부분에 의해, 부적절한 결과를 얻을 수 있는 경우의 예에 대해서, 도 27을 이용해 설명한다.

도 27은, 두 개의 다른 주파수 특성으로부터 얻을 수 있는 상호 상관 행렬을 이용해 검출된 상대 피치 패턴을 나타내고 있다.

상기한 바와 같이, 상대 피치 패턴이란, 상대 피치 차이를 음성 데이터 개시점으로부터 발화 전체를 통해 적산하여, 각 분석 프레임에 있어서의 음성 데이터 개시점으로부터의 상대 피치 변화량을 시계열 데이터로서 표시한 것이다.

상술한 바와 같이, 역시 [숙인다]라고 발성한 음성 파형에는, 무성 자음 즉, 일본 음절 [tsu]의 알파벳 문자 [ts]에 대응하는 부분과, 일본 음절 [ku]의 알파벳 문자 [k]에 대응하는 부분이 포함되어 있다. 이 무성 자음의 부분에서는, 유성음과 같은 성대의 진동을 수반하지 않는다. 도 27에 도시된 바와 같이, 도 26b에 도시된 실피치 패턴에 비해, 두 개의 다른 주파수 특성으로부터 얻을 수 있는 상호 상관 행렬을 이용해 검출된 상대 피치 패턴에서는, 알파벳 [ts]에 대응하는 무성음 전후 사이의 피치(소리의 높이)의 관계와, 알파벳[k]에 대응하는 무성음 전후 사이의 피치 관계가 정확하게 추출되지 않는다.

이것은, 상술한 상대 피치 변화량을 구하는 방법에서, 두 개의 다른 주파수 특성중의 어느 한편, 혹은 양쪽 모두가 무성 자음 부분의 주파수 특성이 되므로, 두 개의 주파수 특성으로부터 얻을 수 있는 상호 상관 행렬을 이용하면, 적절한 상대 피치 차이가 얻어지지 않는 것에 기인하고 있다.

즉, [숙인다]내에 포함된, 무성 자음 부분 이외의 부분의 전후 위치에서 59와 69개의 프레임들을 가지는 두 개의 프레임에 대한 주파수 특성으로부터, 도 28에 도시된 바와 같이, 올바른 상호 상관 행렬을 얻을 수 있으므로, 상호 상관 행렬내의 주대각선으로부터의 능선의 이동량도 적절한 값이 된다. [k]에 대응하는 특정한 무성 자음 부분의 이전에 68개의 프레임들을 가지는 주파수 특성과, 특정한 무성 자음 부분의 이후에 77개의 프레임들을 가지는 주파수 특성으로부터, 도 29에 도시한 바와 같이, 올바른 상호 상관 행렬을 얻을 수 없기 때문에, 상호 상관 행렬내의 주대각선으로부터의 능선의 이동량은 적절한 값을 가지지 않는다.

무성 자음 부분에 대한 올바른 상호 상관 행렬을 얻기 위해서는, 상관을 검출하기 위해 상호 상관 행렬이 계산되는 두 개의 다른 주파수 특성중 한 주파수 특성으로서, 고정 주파수 특성을 설정하면 적합하다.

구적으로는, 예를 들면, 템플릿으로 작용하는 주파수 특성으로서 미리 준비된 주파수 특성과 입력 음성 신호로부터 얻을 수 있던 주파수 특성을 이용하여, 상호 상관 행렬을 얻게 된다. 이와 같이, 무성 자음 부분에 대해서도 올바른 상호 상관 행렬을 얻을 수 있다. 다음의 기술에서는, 템플릿으로 작용하는 주파수 특성으로서 미리 준비된 주파수 특성은 템플릿 주파수 특성으로 칭한다.

도 30은, 도 2의 상대 피치 변화량 계산부(62) 대신에 이용되는 상대 피치 변화량 계산부(151)의 기능 구성을 나타낸다. 상대 피치 변화량 계산부(151) 는, 템플릿 주파수 특성을 주파수 특성중 한 개로서 이용하여 상호 상관 행렬을 계산하는 장치이다. 도 30에 도시된 바와 같이, 상대 피치 변화량 계산부(151)는, 템플릿 주파수 특성 기억부(161), 상호 상관 행렬 계산부(162), 주대각선 이동량 계산부(102), 및 상대 피치 차이 계산부(103)를 이용한다. 주대각선 이동량 계산부(102), 및 상대 피치 차이 계산부(103)는 도 9에 도시된 상대 피치 변화량 계산부(62)에서 이용되는 대응 요소들과 동일하다. 상호 상관 행렬 계산부(162)는, 도 9에 도시된 상대 피치 변화량 계산부(62)에서 이용되는 상호 상관 행렬 계산부(101)의 대체 장치로 작용한다. 상호 상관 행렬 계산부(162)는 두 개의 주파수 특성으로부터 상호 상관 행렬을 계산하는 장치이다. 두 개의 주파수 특성중 한 특성은, 템플릿 주파수 특성 기억부(161)에 고정 주파수 특성으로 기억되어 있는 템플릿 주파수 특성이다. 상호 상관 행렬 계산부(162)의 기능은 하드웨어, 또는, 소프트웨어에 의해 실현될 수 있다.

템플릿 주파수 특성 기억부(161)에 기억되어 있는 템플릿 주파수 특성은, 예를 들면, 300HZ의 대표적인 피치 주파수를 기음(fundamental)으로 가지며, 기음에 대한 고조파 성분의 크기가 선형적으로 감쇠하는 주파수 특성을 나타내는 가상 주파수 특성(pseudo frequency characteristic)이 될 수 있다.

상호 상관 행렬 계산부(162)는, 도 31에 도시된 바와 같이, 두 개의 주파수 특성으로부터 상호 상관 행렬을 연산한다. 두 개의 주파수 특성중 한 특성은, 템플릿 주파수 특성 기억부(161)에 고정 주파수 특성으로서 기억되어 있는 템플릿 주파수 특성이다. 주대각선 이동량 계산부(102) 및 상대 피치 차이 계산부 (103)는, 도 9에 도시된 상대 피치 변화량 계산부(62)에서 이용되는 대응 구성요들과 동일하다. 즉, 주대각선 이동량 계산부(102)는, 도 31에 도시된 상호 상관 행렬내의 주대각선 이동량을 계산하고, 이동량에 근거하여, 상대 피치 차이를 계산한다. 다음에, 상대 피치 차이 계산부 (103)는, 상대 피치 차이를 구하기 위해 상대 피치 차이를 누적한다.

즉, 도 30에 도시된 상대 피치 변화량 계산부(151)는, 템플릿 주파수 특성 기억부(161)에 기억되어 있는 템플릿 주파수 특성과 분석 프레임의 주파수 특성으로부터 연산된 상호 상관 행렬을 이용하여 상대 피치 차이를 구한다.

상술한 바와 같이, 시간적으로 전후에 배치된 분석 프레임간의 상대 피치 차이를 구하는 대신에, 상대 피치 차이는, 템플릿 주파수 특성의 피치 주파수로 표현된다. 그러므로, 음성 파형에 무성음이 포함되는 경우에 대해서도, 그 무성음의 전후의 영역에서 상대 피치 패턴의 연속성이 부적절하게 되는 것을 회피할 수 있다.

도 32는, 상대 피치 변화량 계산부(151)의 처리에 의해 구해진 상대 피치 패턴을 도시하고 있다. 도 26의 상대 피치 패턴과 도 32에 나타나는 상대 피치 패턴을 비교하면, 상대 피치 변화량 계산부(151)의 처리에 의해, 무성음의 부분의 전후의 영역내에서 부적절한 상대 피치 패턴의 연속성이 없게 된다. 그러므로, 무성음의 부분에, 무성음으로서 운률을 검출하기 위해 처리되는 운률 인식 처리를 각각 실행할 수 있다는 것이 명백하다.

또, 템플릿 주파수 특성 기억부(161)가 복수의 템플릿 주파수 특성을 기억하 기 위해 이용되는 구성을 제공할 수 있다. 이러한 구성에서는, 템플릿 주파수 특성 기억부(161)에 기억되어 있는 템플릿 주파수 특성으로부터, 입력되는 음성이나 분석 프레임의 주파수 특성의 특징과 일치하는 것을, 분석 프레임의 주파수 특성과 함께 상호 상관 행렬을 계산하는 처리에서 이용되는 적합한 템플릿 주파수 특성으로서 선택하는 것이 가능하다.

구체적으로, 템플릿 주파수 특성 기억부(161)는, 예를 들면, 100Hz, 300Hz, 500Hz와 같은 서로 다른 피치 주파수를 가지는 템플릿 주파수 특성을 기억하는데 이용된다고 가정한다. 이 경우에, 분석 프레임의 주파수 특성과 이러한 템플릿 주파수 특성간의 상대 피치 차이를 구한다. 그 후에, 특정한 상대 피치 차이를 분석 프레임의 주파수 특성과 이러한 템플릿 주파수 특성중 한 특성간의 상대 피치 차이로 이용하는 것이 매우 적합하다. 특정한 상대 피치 차이는, 구해진 상대 피치 차이중에서 가장 작은 절대 값을 가지는 상대 피치 차이이다.

이러한 방법으로 상대 피치 차이를 구함으로써, 상대 피치 차이는, 도 18b와 도 19b에 도시된 소리의 높이가 매우 다른 남성과 여성의 경우와 같이, 소리의 높이가 매우 다른 입력 음성에 대해서도, 보다 정확하게 상대 피치 차이를 구하는 것이 가능해진다.

다음에, 도 33의 플로차트를 참조하여, 한편의 주파수 특성이 템플릿 주파수 특성으로서 고정된, 두 개의 주파수 특성으로부터 연산된 상호 상관 행렬에 근거하여 상대 피치 차이를 구하기 위해, 도 15의 스텝(S32)에서는, 상대 피치 변화량 계산부(151)에 의해서 실행되는, 두 번째 상대 피치 차이 산출 처리에 대해 설명한 다.

도면에 도시한 바와 같이, 플로차트는 스텝(S121)에서 시작되며, 이 스템에서, 상대 피치 변화량 계산부(151)의 상호 상관 행렬 계산부(162)는, 템플릿 주파수 특성 기억부(161)에 기억되어 있는 템플릿 주파수 특성과, 템플릿 주파수 특성으로부터 미리 결정된 입력 분석 프레임의 주파수 특성과, 주파수 특성간의 상호 상관 행렬을 계산하고, 주대각선 이동량 계산부(102)에 상호 상관 행렬을 공급한다.

그 후에, 스텝(S122)에서, 주대각선 이동량 계산부(102)는, 도 11에 도시된 이동량 c를 상호 상관 행렬내의 주대각선 주대각선 a와 능선 b간의 이동량으로 구하고, 상대 피치 차이 계산부(103)에 이동량을 공급한다.

그 후에, 스텝(S123)에서, 상대 피치 차이 계산부(103)는, 주대각선 이동량 계산부(102)로부터 공급된 이동량 c에 근거하여, 각 분석 프레임에 있어서의 피치 주파수를 구하지 않고, 분석 프레임의 템플릿 주파수 특성과 주파수 특성간의 상대 피치 차이를 주대각선 a와 능선 b사이의 이동량으로 계산한다. 그 후에, 상대 피치 차이 계산부(103)는, 소망하는 분석 프레임수에 대한 상대 피치 변화량을 계산하기 위해, 인접하는 분석 프레임간의 상대 피치 차이를 적산한다. 그리고, 도 17에 도시된 플로차트에 의해 표현되는 첫 번째 상대 피치 차이 계산의 흐름은 도 15의 스텝(S32)과 도 14의 스텝(S3)을 통해, 도 14의 스텝(S4)으로 진행된다.

이러한 처리에 의해, 운률 인식 처리에서 특징량으로 사용되는 상대 피치 변화량을 무성음이 포함되는 음성에 대해서도 적절히 검출하는 것이 가능해진다.

본 발명을 적용하면, 노이즈 등의 영향이 큰 경우나, 속삭임 소리나 피치성이 낮은 음성에 대해서도, 소리의 높이의 변화 상태를 적절히 파악할 수 있다. 그러므로, 입력 음성의 운률적 특징에 근거하여 신뢰성이 높은 음성 인식 처리를 실시하는 것이 가능해진다.

즉, 본 발명을 적용하면, 분석 프레임의 피치 주파수의 검출을 행하는 것 없이, 분석 프레임의 주파수 특성과 템플릿 주파수 특성을 단지 비교하여 얻을 수 있는 상대 피치 변화량에 의해서 운률 인식 처리를 행할 수 있다.

환언하면, 두 개의 주파수 특성으로부터 상대 피치 변화량을 구하기 위해, 한편의 주파수 특성을 템플릿 주파수 특성으로 칭해지는 고정 주파수가 될 수 있다.

이에 의해, 입력 음성에 무성음이나 무음 구간이 포함되어 있는 경우에 대해서도, 상대 피치 패턴이 불연속이 되지 않으므로, 일반적인 피치 주파수의 검출에 의해서 구해지는 피치 패턴과 같이, 적절한 상대 피치 패턴을 구하는 것이 가능해진다.

즉, 템플릿 주파수 특성으로 칭해지는 고정 주파수를, 상대 피치 변화량이 구해지는 두 개의 주파수 특성중 한 특성으로 설정함으로써, 보다 여러가지 입력 음성에 대해서도, 상대 피치 변화량에 근거하는 운률 인식 처리를 실행하는 것이 가능해진다.

또, 템플릿 주파수 특성 기억부(161)가 복수의 템플릿 주파수 특성을 저장하기 위해 사용되는 구성을 제공하는 것이 가능하다. 이러한 구성에서는, 템플릿 주파수 특성으로부터, 입력되는 음성이나 분석 프레임의 주파수 특성의 특징과 일치하는 적합한 템플릿 주파수 특성을 선택하는 것이 가능하다.

구체적으로는, 템플릿 주파수 특성 기억부(161)가 100Hz, 300Hz, 500Hz와 같은 다른 피치 주파수들을 가지는 복수의 템플릿 주파수 특성을 저장하기 위해 사용된다고 가정한다, 이 경우에, 분석 프레임의 주파수 특성과 각 주파수 특성간의 상대 피치 차이가 구해진다. 그 후에, 분석 프레임의 주파수 특성과 템플릿 주파수 특성간의 상대 피치 차이로서 특정한 상대 피치 차이를 이용하는 것이 매우 적합하다. 특정한 상대 피치 차이는, 구해진 상대 피치 차이중에서 절대치가 가장 작은 것을 가지는 상대 피치 차이가 된다.

상술한 방법에 의해 상대 피치 차이를 구하게 되면, 소리의 높이가 매우 다른남자 목소리와 여성의 목소리의 경우와 같이, 소리의 높이가 매우 다른 여러가지 입력 음성에 대해서도, 보다 정확하게 상대 피치 차이를 구하는 것이 가능해진다.

또, 도 1을 이용해 설명한 음성 인식 장치(11)와는 다른 장치에도 본 발명이 적용될 수 있다. 즉, 본 발명은, 상술한 구성을 이용하여 운률을 인식하는 구성에도 본 발명이 적용 가능하다는 것은 말할 필요도 없다.

상술한 일련의 처리는, 소프트웨어에 의해 실행할 수도 있다. 상술한 일련의 처리가 소프트웨어에 의해 실행되면, 그 소프트웨어를 구성하는 프로그램이 전용의 하드웨어에 내장된 컴퓨터, 또는, 범용의 PC(퍼스널 컴퓨터) 등에 기록 매체로부터 설치된다. 이 경우, 예를 들면, 도 34에 도시된 컴퓨터 또는 PC 등은 도 1을 이용해 설명한 음성 인식 장치(11)로 동작한다. 범용의 PC는 각종의 프로 그램을 PC내에 설치하여 각종의 기능을 실행하는 것이 가능한 PC이다.

도 34에 도시한 PC에서는, CPU(Central Processing Unit)(211)가, ROM(Read Only Memory)(212)에 기억되어 있는 프로그램, 또는 기억부(218)로부터 RAM(Random Access Memory)(213)에 로드된 프로그램의 실행에 의해 각종의 처리를 실행한다. RAM(213)은, 각종의 처리를 실행하는 경우에 요구되는 데이터와 같은 각종의 정보를 저장하기 위해 이용된다.

CPU(211), ROM(212), 및 RAM(213)는, 버스(214)를 통해 서로 접속되며, 버스 (214)는 또, 입출력 인터페이스(215)에 접속되어 있다.

입출력 인터페이스(215)는, 키보드, 마우스와 같은 입력부(216), 디스플레이와 스피커를 포함하는 출력부(217), 하드 디스크로 구성되는 기억부(218), 마이크, 또는, 외부 장치와의 인터페이스에 의해 구성되는 음성 신호 취득부(219)에 접속되어 있다.

입출력 인터페이스(215)는 또, 필요에 따라서 기록 매체가 장착되어 있는 드라이브(220)에 접속된다. 기록 매체는, 자기 디스크(231), 광디스크(232), 광학 자기 디스크(233), 혹은, 반도체 메모리(234)가 될 수 있다. 상기한 바와 같이, CPU(211)에 의해 실행되는 컴퓨터 프로그램은 기록 매체로부터 기억부(318)에 설치된다.

상기한 바와 같이, 상술한 일련의 처리는, 소프트웨어에 의해 실행할 수도 있다. 상술한 일련의 처리가 소프트웨어에 의해 실행되면, 그 소프트웨어를 구성하는 프로그램이, 전용의 하드웨어에 내장된 컴퓨터, 또는, 범용의 PC 등에, 기록 매체로부터 설치된다.

컴퓨터, 또는, 범용의 PC내에 설치되는 프로그램을, 컴퓨터, 또는, 범용의 PC 등에 의해 실행되는 프로그램으로서 기록하기 위한 상기 기록 매체는, 도 34에 도시한 바와 같이 PC의 주요 부분으로부터 분리되어 이용자에게 제공되는 분리가능한 기록 매체이다. 패키지 매체로 칭해지는 분리가능한 기록 매체의 보기들은 플렉서블 디스크와 같은 자기 디스크(231), CD-ROM(Compact Disk-Read Only Memory) 또는, DVD(Digital Versatile Disk)와 같은 광디스크(232), MD(Mini-Disk)와 같은 광학 자기 디스크(233), 그리고 반도체 메모리(234)를 포함한다.

본 명세서에서는, 기록 매체에 기록되는 프로그램을 기술하는 스텝은, 기재된 순서에 따라서 시계열적으로 행해지는 처리는 물론, 반드시 시계열적으로 처리되지 않아도, 병렬적 혹은 개별적으로 실행되는 처리도 포함하는 것이다.

본 명세서에서는, 시스템이란, 복수의 장치에 의해 구성되는 장치 전체를 나타내는 것이다.

본 발명의 실시의 형태는, 상술한 실시의 형태로 한정되는 것이 아니고, 본 발명의 요지를 일탈하지 않는 범위에 대해 여러 가지의 변경이 가능하다.

게다가, 본 발명의 첨부된 청구항과 그와 동등한 것들의 범위내에서 여러 가지 수정과 결합, 소결합 및 변경들이 설계요구 및 다른 인자에 따라 이루어질 수 있다는 것을 당업자들이 알 수 있다.

도 1은, 본 발명이 적용되는 음성 인식 장치의 구성을 나타내는 블럭도이다.

도 2는, 도 1의 음성 인식 장치의 운률 인식부의 구성을 나타내는 블럭도이다.

도 3은, 통상 음성 및 속삭임 소리의 주파수 특성을 나타내는 도면이다.

도 4는, 통상 음성 및 속삭임 소리의 주파수 특성을 나타내는 도면이다.

도 5는, 주파수 특성 분석부의 기능 구성을 나타내는 기능 블럭도이다.

도 6은, 본 발명의 실시예에서, 도 5의 주파수 특성 분석부에서 이용되는 시간-주파수 변화부에 의해 출력되는 대표적인 주파수 특성을 나타내는 도면이다.

도 7은, 본 발명의 실시의 형태의 주파수 특성 분석부의 대수 변환부에 의해 출력되는 대표적인 주파수 특성을 나타내는 도면이다.

도 8은, 본 발명의 실시의 형태의 주파수 특성 분석부의 주파수 범위 추출부에 의해 출력되는 대표적인 주파수 특성을 나타내는 도면이다.

도 9는, 도 2의 운률 인식부내에서 이용되는 상대 피치 변화량 계산부의 기능 구성의 제 1의 예를 나타내는 기능 블럭도이다.

도 10은, 상대 피치 변화량 계산부에 의해 출력되는 상호 상관 행렬을 주파수 특성의 대표적인 상호 상관 행렬로 나타내는 도면이다.

도 11은, 도 10의 상호 상관 행렬의 성분을 그래픽 표현에 의해 도시한 도면이다.

도 12는, 주파수 특성의 자기 상관 행렬을 나타내는 도면이다.

도 13은, 도 12의 자기 상관 행렬의 성분을 그래픽 표현에 의해 도시한 도면이다.

도 14는, 음성의 정보와 음성의 운률을 인식하기 위해 음성 인식 장치에 의해 실행되는 음성 인식 처리에 대해 설명하기 위한 플로차트이다.

도 15는, 음성의 운률을 인식하기 위해 운률 인식부에 의해 실행되는 운률 인식 처리에 대해 설명하기 위한 플로차트이다.

도 16은, 주파수 분석 처리에 대해 설명하기 위한 플로차트이다.

도 17은, 제 1의 상대 피치 차이 산출 처리에 대해 설명하기 위한 플로차트이다.

도 18a는, [아이우에오]라고 발성한 남자 목소리의 파형을 나타내는 도면이다.

도 18b는, [아이우에오]라고 발성한 남자 목소리의 실제 피치 패턴을 나타내는 도면이다.

도 18c는, [아이우에오]라고 발성한 남자 목소리의 성대 피치 패턴을 나타내는 도면이다.

도 19a는, [아이우에오]라고 발성한 여성 목소리의 파형을 나타내는 도면이다.

도 19b는, [아이우에오]라고 발성한 여성 목소리의 실제 피치 패턴을 나타내는 도면이다.

도 19c는, [아이우에오]라고 발성한 여성 목소리의 상대 피치 패턴을 나타내 는 도면이다.

도 20a는, 긍정의 의도를 나타내는 [응]을 말하기 위해 정상적인 남자가 발성한 정상적인 목소리의 파형을 나타내는 도면이다.

도 20b는, 긍정의 의도를 나타내는 [응]을 말하기 위해 정상적인 남자가 발성한 정상적인 목소리의 실제 피치 패턴을 나타내는 도면이다.

도 20c는, 긍정의 의도를 나타내는 [응]을 말하기 위해 정상적인 남자가 발성한 정상적인 목소리의 상대 피치 패턴을 나타내는 도면이다.

도 21a는, 부정의 의도를 나타내는 [응]을 말하기 위해 정상적인 남자가 발성한 정상적인 목소리의 파형을 나타내는 도면이다.

도 21b는, 부정의 의도를 나타내는 [응]을 말하기 위해 정상적인 남자가 발성한 정상적인 목소리의 실제 피치 패턴을 나타내는 도면이다.

도 21c는, 부정의 의도를 나타내는 [응]을 말하기 위해 정상적인 남자가 발성한 정상적인 목소리의 상대 피치 패턴을 나타내는 도면이다.

도 22a는, 의문의 의도를 나타내는 [응]을 말하기 위해 정상적인 남자가 발성한 정상적인 목소리의 파형을 나타내는 도면이다.

도 22b는, 의문의 의도를 나타내는 [응]을 말하기 위해 정상적인 남자가 발성한 정상적인 목소리의 실제 피치 패턴을 나타내는 도면이다.

도 22c는, 의문의 의도를 나타내는 [응]을 말하기 위해 정상적인 남자가 발성한 정상적인 목소리의 상대 피치 패턴을 나타내는 도면이다.

도 23a는, 의문의 의도를 나타내는 [응]을 말하기 위해 정상적인 남자가 발 성한 속삭임 소리의 파형을 나타내는 도면이다.

도 23b는, 의문의 의도를 나타내는 [응]을 말하기 위해 정상적인 남자가 발성한 속삭임 소리의 실제 피치 패턴을 나타내는 도면이다.

도 23c는, 의문의 의도를 나타내는 [응]을 말하기 위해 정상적인 남자가 발성한 속삭임 소리의 상대 피치 패턴을 나타내는 도면이다.

도 24a는, 부정의 의도를 나타내는 [응]을 말하기 위해 정상적인 남자가 발성한 속삭임 소리의 파형을 나타내는 도면이다.

도 24b는, 부정의 의도를 나타내는 [응]을 말하기 위해 정상적인 남자가 발성한 속삭임 소리의 실제 피치 패턴을 나타내는 도면이다.

도 24c는, 부정의 의도를 나타내는 [응]을 말하기 위해 정상적인 남자가 발성한 속삭임 소리의 상대 피치 패턴을 나타내는 도면이다.

도 25a는, 의문의 대답을 나타내는 [응]을 말하기 위해 정상적인 남자가 발성한 속삭임 소리의 파형을 나타내는 도면이다.

도 25b는, 부정의 의도를 나타내는 [응]을 말하기 위해 정상적인 남자가 발성한 속삭임 소리의 스펙트럼을 나타내는 도면이다.

도 25c는, 부정의 의도를 나타내는 [응]을 말하기 위해 정상적인 남자가 발성한 속삭임 소리의 상대 피치 패턴을 나타내는 도면이다.

도 26a는, [숙인다]를 말하는 음성의 파형을 나타내는 도면이다.

도 26b는, [숙인다]를 말하는 음성의 실제 피치 패턴을 나타내는 도면이다.

도 27은, 도 9의 상대 피치 변화량 계산부를 이용하여 검출된 제 1의 상대 피치 패턴을 [숙인다]라고 발성했을 경우의 음성의 상대 피치 패턴으로서 나타내는 도면이다.

도 28은, 무성음 부분이 아닌 부분으로서, 단어 [숙인다]에 포함된 부분의 전후의 두 프레임들에 대한 주파수 특성으로부터 얻어지는 정확한 상호 상관 행렬의 성분을 그래픽 표현에 의해 도시한 도면이다.

도 29는, 무성음 부분의 이후의 프레임에 대한 주파수 특성과, 단어 [숙인다]의 문자 [k]에 대응하는 무성음 부분의 이전의 프레임에 대한 주파수 특성으로부터 얻어지는 부정확한 상호 상관 행렬의 성분을 그래픽 표현에 의해 도시한 도면이다.

도 30은, 도 2의 운률 인식부에서 이용되는 상대 피치 변화량 계산부의 기능 구성의 제 2의 예를 나타내는 기능 블럭도이다.

도 31은, 도 30의 상대 피치 변화량 계산부에 의해 출력된 상호 상관 행렬의 성분을 그래픽 표현에 의해 도시한 도면이다.

도 32는, 도 30의 상대 피치 변화량 계산부를 이용해 얻을 수 있는 상대 피치 패턴의 제 2의 예를 「숙인다」라고 발성했을 경우의 음성 데이터에 대한 상대 피치 패턴으로 나타내는 도면이다.

도 33은, 도 30의 상대 피치 변화량 계산부에 의해 수행되는 상대 피치 차이의 제 2의 예를 설명하기 위한 플로차트이다.

도 34는, 퍼스널 컴퓨터의 구성을 음성 인식 장치로서 나타내는 블럭도이다.

Claims

입력 음성의 운률적 특징에 근거하여 상기 입력 음성의 인식을 실시하는 음성 처리 장치에 있어서,

상기 입력 음성을 취득하는 음성 취득 수단과,

상기 음성 취득 수단에 의해 취득된 상기 입력 음성의 각각의 프레임 시간에 있어서의 제 1의 주파수 특성과 미리 결정된 소정의 제 2의 주파수 특성과의 사이의 주파수 방향의 변화에 근거하여 얻을 수 있는 상대 피치 변화량을 구하는 음향 분석 수단과,

상기 음향 분석 수단에 의해 구해진 상기 상대 피치 변화량에 근거하여 운률 인식 처리를 실시하여, 상기 운률 인식 처리의 결과를 생성하는 운률 인식 수단을 구비하는 음성 처리 장치.
제 1항에 있어서,

상기 음향 분석 수단은, 상기 제 1의 주파수 특성과 상기 제 2의 주파수 특성으로부터 얻을 수 있는 상호 상관 행렬내에서, 상기 제 1의 주파수 특성과 상기 제 2의 주파수 특성의 피크들에 대응하는 행렬 요소들을 연결하는 직선으로 도시된 능선의 이동량에 근거하여 상기 상대 피치 변화량을, 상기 상호 상관 행렬의 주대각선으로부터 구하는 음성 처리 장치.
제 2항에 있어서,

상기 제 2의 주파수 특성을 기억하는 주파수 특성 기억 수단을 추가로 구비하는 음성 처리 장치.
제 3항에 있어서,

상기 주파수 특성 기억 수단은, 복수의 상기 제 2의 주파수 특성을 기억하며,

상기 음향 분석 수단은, 상기 음성 취득 수단에 의해 취득된 상기 입력 음성에 따라, 상기 주파수 특성 기억 수단에 기억되어 있는 복수의 상기 제 2의 주파수 특성중에서 선택된 적합한 제 2의 주파수 특성에 근거하여, 상기 상대 피치 변화량을 구하는 음성 처리 장치.
제 1항에 있어서,

상기 음성 취득 수단에 의해 취득된 상기 입력 수단으로부터의 상기 입력 음성을 음향 분석해 얻을 수 있는 특징량에 근거하여 음성 인식을 실시하여 음성 인식 처리의 결과를 생성하는 음성 인식 수단으로서, 상기 음성 인식 처리에서는, 상기 음성 인식 처리의 상기 결과가 미리 기억된 어느 특정의 단어들중 한 단어와 일치한다면, 상기 음성 인식 처리의 상기 결과가 부정확하다고 판단되는 가능성의 범주내에 상기 음성 인식 처리의 상기 결과가 존재하는 상기 음성 인식 수단과,

상기 특정 단어를 기억하는 특정 단어 기억 수단과,

상기 특정 단어 기억 수단에 기억되어 있는 상기 특정의 단어와 상기 음성 인식 수단에 의한 음성 인식 결과를 비교하는 결과 선택 수단으로서, 상기 음성 인식 수단에 의한 음성 인식 결과가, 상기 특정 단어 기억 수단에 기억되어 있는 상기 특정의 단어와 일치하는 경우, 상기 운률 인식 수단에 의한 인식 결과와 상기 음성 인식 수단에 의한 인식 결과를 통합하여 얻어지는 최종 인식 결과를 출력하고,

상기 음성 인식 수단에 의한 음성 인식 결과가, 상기 특정 단어 기억 수단에 기억되어 있는 상기 특정의 단어와 일치하지 않는 경우, 상기 음성 인식 수단에 의해 실행되는 상기 음성 인식 처리의 상기 결과를 최종 인식 결과로서 출력하는 상기 결과 선택 수단을 추가로 구비하는 음성 처리 장치.
입력 음성의 운률적 특징에 근거하여 상기 입력 음성의 인식을 실시하는 음성 처리 장치에 의해 이용되는 음성 처리 방법에 있어서,

상기 입력 음성을 취득하는 스텝과,

취득된 상기 입력 음성의 각각의 프레임 시간에 있어서의 제 1의 주파수 특성과 소정의 제 2의 주파수 특성 사이의 주파수 방향의 변화에 근거하여 얻을 수 있는 상대 피치 변화량을 구하는 스텝과,

상기 상대 피치 변화량에 근거하여 운률 인식 처리를 실시하여 상기 운률 인식 처리의 결과를 생성하는 스텝을 포함하는 음성 처리 방법.
입력 음성의 운률적 특징에 근거하여 상기 입력 음성의 인식을 실시하는 처리를 컴퓨터에 실행시키기 위한 음성 처리 프로그램에 있어서,

상기 음성 인식 방법을 실현하는 상기 음성 처리 프로그램은,

상기 입력 음성을 취득하는 스텝과,

취득이 제어된 상기 입력 음성의 각각의 프레임 시간에 있어서의 제 1의 주파수 특성과 소정의 제 2의 주파수 특성 사이의 주파수 방향의 변화에 근거하여 얻을 수 있는 상대 피치 변화량을 구하는 스텝과,

상기 상대 피치 변화량에 근거하여 운률 인식 처리를 실시하여 상기 운률 인식 처리의 결과를 생성하는 스텝을 포함하는 음성 처리 프로그램.
입력 음성의 운률적 특징에 근거하여 상기 입력 음성의 인식을 실시하는 음성 처리 장치에 있어서,

상기 입력 음성을 취득하는 음성 취득부와,

상기 음성 취득 수단에 의해 취득된 상기 입력 음성의 각각의 프레임 시간에 있어서의 제 1의 주파수 특성과 미리 결정된 소정의 제 2의 주파수 특성과의 사이의 주파수 방향의 변화에 근거하여 얻을 수 있는 상대 피치 변화량을 구하는 음향 분석부와,

상기 음향 분석 수단에 의해 구해진 상기 상대 피치 변화량에 근거하여 운률 인식 처리를 실시하여, 상기 운률 인식 처리의 결과를 생성하는 운률 인식부를 구비하는 음성 처리 장치.