KR20120046298A - 음성 특징량 추출 장치, 음성 특징량 추출 방법, 및 음성 특징량 추출 프로그램 - Google Patents

음성 특징량 추출 장치, 음성 특징량 추출 방법, 및 음성 특징량 추출 프로그램 Download PDF

Info

Publication number
KR20120046298A
KR20120046298A KR1020127005189A KR20127005189A KR20120046298A KR 20120046298 A KR20120046298 A KR 20120046298A KR 1020127005189 A KR1020127005189 A KR 1020127005189A KR 20127005189 A KR20127005189 A KR 20127005189A KR 20120046298 A KR20120046298 A KR 20120046298A
Authority
KR
South Korea
Prior art keywords
delta
spectrum
mel
filter bank
average
Prior art date
Application number
KR1020127005189A
Other languages
English (en)
Other versions
KR101332143B1 (ko
Inventor
오사무 이치카와
타카시 후쿠다
마사후미 니시무라
Original Assignee
인터내셔널 비지네스 머신즈 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인터내셔널 비지네스 머신즈 코포레이션 filed Critical 인터내셔널 비지네스 머신즈 코포레이션
Publication of KR20120046298A publication Critical patent/KR20120046298A/ko
Application granted granted Critical
Publication of KR101332143B1 publication Critical patent/KR101332143B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Complex Calculations (AREA)
  • Machine Translation (AREA)

Abstract

음성 신호로부터 잡음이나 잔향(여음)에서 한층 강한 특징량을 추출하는 기술을 제공한다. 음성 특징량 추출 장치에서, 프레임화된 음성 신호의 스펙트럼을 입력해서, 각 프레임에 대해서, 전후의 프레임 간의 스펙트럼의 차분(리니어 영역의 차분)을 델타 스펙트럼으로서 산출하는 차분 산출 수단과, 각 프레임에 대해서, 델타 스펙트럼을 평균 스펙트럼의 함수에서 제산하는 것으로 정규화하는 정규화 처리 수단을 포함하고, 정규화 수단의 출력을 델타 특징량으로 한다.

Description

음성 특징량 추출 장치, 음성 특징량 추출 방법, 및 음성 특징량 추출 프로그램{AUDIO FEATURE EXTRACTING APPARATUS, AUDIO FEATURE EXTRACTING METHOD, AND AUDIO FEATURE EXTRACTING PROGRAM}
본 발명은, 음성 신호로부터 특징량(feature)을 추출하는 기술에 관한 것이며, 특히, 잔향이나 잡음에 강한 델타 및 델타 델타 특징량을 추출하는 기술에 관한 것이다.
음성 인식 장치의 내잡음 성능이나 내잔향 성능은 계속적으로 개선되어 왔지만, 엄격한 조건 아래에서의 인식 정도는 아직 불충분하다. 내잡음성에 대해서는, 예를 들면, 자동차에 있어서 창문을 열고 고속 주행등 SN이 극히 낮은 조건 아래나, 음악이나 잡담 등의 비정상인 잡음 환경 아래에서의 인식률은 대단히 낮은 것으로 알려져 있다. 또, 내잔향성에 대해서는, 콘크리트의 복도나 엘리베이터 홀등 반사나 잔향이 많은 장소에서의 인식률은 잡음이 거의 없는 상황이더라도 대단히 낮은 것으로 알려져 있다.
이 문제에 대해서 종래 검토되고 있는 여러 가지의 대책은 다음의 4개의 종류로 분류할 수 있다. (1) 관측 신호의 전처리에 의해, 잔향이나 잡음을 제거하는 프런트 엔드(front end) 방법(예를 들면, 특허 문헌 1, 2 참조). (2) 잔향이나 잡음을 포함하는 음성을 사용하여, 음향 모델을 학습하는 멀티 스타일 트레이닝 방법(예를 들면, 특허 문헌 3 참조). (3) 관측 음성과 음향 모델이 적합하도록, 특징량 또는 음향 모델을 변환하는 적응 방법(예를 들면, 특허 문헌 4 참조). (4) 잔향이나 잡음에 강한 특징량을 사용하는 특징추출 방법(예를 들면, 비특허 문헌 1).
상기 각 방법은 다른 방법과 조합하는 것이 가능하다. 예를 들면, (2), (3) 및 (4)의 각 방법을 조합하여, 특징추출로서 LDA를 사용하고, 멀티 스타일 트레이닝으로 음향 모델을 작성한 다음, MLLR에 의한 적응을 수행하는 조합이 고려된다. 따라서, 상기 어느 하나의 방법이 아닌, (1)~(4) 각각의 기술의 향상을 도모하는 것이 중요하다.
특허 문헌 1: 특허 공개2009-58708호 공보 특허 문헌 2: 특허 공개2004-347956호 공보 특허 문헌 3: 특허 공개2007-72481호 공보 특허 문헌 4: 특허 공개2007-279444호 공보
비특허 문헌 1: Takashi Fukuda, Osamu Ichikawa, Masafumi Nishimura, 「Short-and Long-term Dynamic Features for Robust Speech Recognition」, Proc of 10th International Conference on Spoken Language Processing(ICSLP 2008/Interspeech 2008), pp. 2262-2265, September 2008, Brisbane, Australia.
하지만, (4)의 특징 추출에 대해서는, 잡음이나 잔향에서 눈에 띄게 강한 특징량이라고 하는 것은 아직 발견되지 않았다. 특히 내잔향 성능에 뛰어난 특징량은 거의 알려져 있지 않다. 그 때문에, 대부분의 음성 인식에서는, MFCC(Mel-Frequency Cepstrum Coefficient: 메일 주파수 캡스트럼(Cepstrum) 계수)와 그 델타(1차 변화량) 및 델타 델타(2차 변화량)의 조합, 또는 그것들의 선형 변환을 계속 사용하는 것이 현재 상태이다.
또한, 본 출원인에 관한 비특허 문헌 1의 기술은 평균 음소 계속 시간을 넘는 긴 창폭으로 MFCC의 델타를 특징량으로 하는 것에 의해 음성 인식의 정도를 높이는 것을 가능하게 하였다. 하지만, 엄격한 조건에서의 소음이나 잔향 환경에 있어서, 더욱 성능의 개선이 요구되고 있다.
이 발명은, 상기 문제점을 해결하기 위해 만들어진 것으로, 음성 확인의 정도를 더 높이기 위해, 음성 신호로부터 잡음이나 잔향에 한층 더 강한 특징량을 추출하는 기술을 제공하는 것을 목적으로 한다.
본원 발명자는 잡음이나 잔향에 한층 더 강한 특징량을 발견하기 위해 연구하고, MFCC의 델타를 포함하는 종래 이용되고 있는 델타 특징량의 대부분은, 대수 영역의 차분으로 간주하여 얻는 것이, 비자명하게도 대수 영역의 차분은, 잔향 및 소음 환경에서의 음성 인식에 있어서 바람직하지 않은 결과를 초래한다는 것을 알아냈다. 따라서, 본원 발명자는 더욱 연구를 진행하여, 그 결과, 리니어 영역의 차분을 이용하는 것, 그것에 따라 새롭게 발생하는 다이나믹 레인지(dynamic range)가 넓고 모델화에 적합하지 않은 문제나, 전달 특성의 보정이 안되는 문제는, 발화(utterance) 전체에 대한 스펙트럼의 평균을 이용한 정규화를 수행하는 것에 의해 해결하는 아이디어에 이르게 되었다.
즉, 상기 과제를 해결하기 위해, 본 발명의 제 1의 태양에 있어서는, 프레임화된 음성 신호의 주파수bin마다 스펙트럼을 입력하여, 각 프레임에 대해서, 상기 주파수bin마다, 전후의 프레임 간의 상기 스펙트럼의 차분을 델타 스펙트럼으로서 산출하는 제 1차분 산출 수단과, 상기 각 프레임에 대해서, 상기 주파수bin마다 상기 델타 스펙트럼을, 상기 주파수bin에 대한 발화 전체인 상기 프레임에 대한 스펙트럼의 평균인 평균 스펙트럼의 함수로 제산(나누기)하는 것으로 정규화할 제 1 정규화 처리 수단을 포함하고, 상기 제 1 정규화 처리 수단의 출력을 델타 특징량으로 하는, 음성 특징량 추출 장치를 제공한다.
여기서, 상기 평균 스펙트럼의 상기 함수는, 상기 평균 스펙트럼 그 자체여도 된다.
바람직하게는, 상기 음성 특징량 추출 장치는, 상기 각 프레임에 대해서, 상기 주파수bin마다 정규화된 상기 델타 스펙트럼에 멜 필터 뱅크의 중요도를 곱하여 합산한 것을, 필터 뱅크마다 정규화된 멜 델타 스펙트럼으로서 산출하는 제 1 멜 필터 뱅크 처리 수단을 더 포함하고, 상기 제 1 멜 필터 뱅크 처리 수단의 출력을 델타 특징량으로 한다.
더 바람직하게는, 상기 음성 특징량 추출 장치는 상기 필터 뱅크마다의 정규화된 상기 멜 델타 스펙트럼을, 이산 코사인 변환하는 제 1 이산 코사인 변환 수단을 더 포함하고, 상기 제 1 이산 코사인 변환 수단의 출력을 델타 특징량으로 한다.
또한 바람직하게는, 상기 제 1 정규화 처리 수단은, 상기 제산(나누기)에 추가로 대수 압축을 수행하는 것에 의해 상기 정규화를 수행한다.
또한 바람직하게는, 광대역의 잡음에 대한 내성을 높일 필요가 있는 경우, 상기 제 1 멜 필터 뱅크 처리 수단은, 상기 멜 필터 뱅크의 중요도 대신, 유성음의 구간에서는 주파 구조 부분에 중요도가 있고, 또한 주파 구조가 없는 무성음의 구간에서는 플랫에 가까운 필터를, 상기 멜 필터 뱅크의 중요도에 곱한 것을 사용한다.
또한 바람직하게는, 상기 음성 특징량 추출 장치는, MFCC(Mel-Frequency Cepstrum Coefficient)를 산출하는 MFCC 산출 수단을 더 포함하고, 상기 MFCC를 정적 특징량이라고 한다.
또한, 상기 제 1 멜 필터 뱅크 처리 수단의 처리를 상기 제 1 정규화 처리 수단의 처리 전에 수행해도 된다. 이 경우, 상기 제 1 정규화 처리 수단은, 상기 각 프레임에 대해서, 상기 필터 뱅크마다 멜 델타 스펙트럼을, 상기 필터 뱅크에 대한 발화(utterance) 전체인 모든 프레임에 대한 멜 스펙트럼의 평균인 평균 멜 스펙트럼의 함수로 제산하는 것에 의해 정규화된다. 그리고, 상기 음성 특징량 추출 장치는, 상기 제 1 정규화 처리 수단의 출력을 델타 특징량으로 해도 된다.
바람직하게는, 상기 평균 멜 스펙트럼의 상기 함수는, 상기 평균 멜 스펙트럼 그 자체이다. 이것에 대신하여, 임의의 프레임t 및 임의의 필터 뱅크j에 대해서 상기 평균 멜 스펙트럼의 상기 함수는, 프레임t의 필터 뱅크j에 대한 멜 스펙트럼의 값과, 필터 뱅크j에 대한 상기 평균 멜 스펙트럼의 값 중, 큰 쪽의 값 또는 큰 쪽의 값에 가까운 값을 출력하는 것이어도 된다.
또한 바람직하게는, 상기 제 1 정규화 처리 수단의 출력을 델타 특징량으로 하는 상기 음성 특징량 추출 장치는,
상기 델타 스펙트럼을 입력으로서, 각 프레임에 대해서, 전후의 프레임간의 상기 주파수bin마다 상기 델타 스펙트럼의 차분을 델타 델타 스펙트럼으로서 산출하는 제 2 차분 산출 수단과, 상기 각 프레임에 대해서, 주파수bin마다 상기 델타 델타 스펙트럼에 멜 필터 뱅크의 중요도를 곱하여 합산한 것을, 필터 뱅크마다 멜 델타 델타 스펙트럼으로서 산출하는 제 2 멜 필터 뱅크 처리 수단과, 상기 각 프레임에 대해서, 상기 필터 뱅크마다 상기 멜 델타 델타 스펙트럼을 상기 평균 메일 스펙트럼의 함수로 제산하는 것으로 정규화하는 제 2 정규화 처리 수단을 더 포함하고, 상기 제 2 정규화 처리 수단의 출력을 델타 델타 특징량으로 한다.
또한 바람직하게는, 상기 음성 특징량 추출 장치는, 정규화된 상기 필터 뱅크마다 멜 델타 스펙트럼을 이산 코사인 변환하는 제 1 이상 코사인 변환 수단을 더 포함하고, 상기 제 1 이산 코사인 변환 수단의 출력을 델타 특징량으로 한다.
더 바람직하게는, 상기 제 1 이산 코사인 변환 수단의 출력을 델타 특징량으로 하는 상기 음성 특징량 추출 장치는, 상기 델타 스펙트럼을 입력으로 하고, 각 프레임에 대해서, 전후의 프레임 간의 상기 주파수bin마다 상기 델타 스펙트럼의 차분을 델타 델타 스펙트럼으로서 산출하는 제 2 차분 산출 수단과, 상기 각 프레임에 대해서, 주파수bin마다 상기 델타 델타 스펙트럼에 멜 필터 뱅크의 중요도를 곱하여 합산한 것을, 필터 뱅크마다 멜 델타 델타 스펙트럼으로서 산출하는 제 2 멜 필터 뱅크 처리 수단과, 상기 각 프레임에 대해서, 상기 필터 뱅크마다 상기 멜 델타 델타 스펙트럼을 상기 평균 멜 스펙트럼의 함수로 제산하는 것에 의해 정규화하는 제 2 정규화 처리 수단과, 정규화된 상기 필터 뱅크마다 멜 델타 델타 스펙트럼을, 이산 코사인 변환하는 제 2 이산 코사인 변환 수단을 더 포함하고, 상기 제 2 이산 코사인 변환 수단의 출력을 델타 델타 특징량으로 한다.
상기 과제를 해결하기 위해, 본 발명의 제 2의 태양에 있어서는, 프레임화된 음성 신호의 각 프레임의 스펙트럼에, 발화 전체인 모든 프레임에 대한 스펙트럼의 평균인 평균 스펙트럼을 더한 값을 입력하여, 상기 각 프레임에 대해서, 상기 값에 멜 필터 뱅크의 중요도를 곱하여 합산하는 멜 필터 뱅크 처리 수단과, 상기 각 프레임에 대해서, 상기 멜 필터 뱅크 처리 수단의 출력의 대수를 구하는 대수 산출 수단과, 상기 각 프레임에 대해서, 상기 대수 산출 수단의 출력을, 이산 코사인 변환하는 이산 코사인 변환 수단과, 상기 각 프레임에 대해서, 전후의 프레임간의 상기 이산 코사인 변환 수단의 출력의 차분을 산출하는 제 1 차분 산출 수단을 포함하고, 상기 제 1 차분 산출 수단의 출력을 델타 특징량으로 하는, 음성 특징량 추출 장치를 제공한다.
상기 과제를 해결하기 위해, 본 발명의 제 3 태양에 있어서는, 프레임화된 음성 신호의 각 프레임의 스펙트럼을 입력하여, 상기 각 프레임에 대해서, 상기 스펙트럼에 멜 필터 뱅크의 중요도를 곱하여 합산하는 것으로 멜 스펙트럼을 산출하는 멜 필터 뱅크 처리 수단과, 각 프레임의 상기 메일 스펙크럼을 입력하여, 발화 전체인 모든 프레임에 대한 상기 멜 스펙트럼의 평균인 평균 멜 스펙트럼을 산출하는 평균 산출 수단과, 상기 각 프레임에 대해서, 상기 멜 스펙트럼에 상기 평균 스펙트럼에 더한 값의 대수를 구하는 대수 산출 수단과, 상기 각 프레임에 대해서, 상기 대수 산출 수단의 출력을, 이산 코사인 변환하는 이산 코사인 변환 수단과, 상기 각 프레임에 대해서, 전후의 프레임 간의 상기 이산 코사인 변환 수단의 출력의 차분을 산출하는 제 1 차분 산출 수단을 포함하고, 상기 제 1차분 산출 수단의 출력을 델타 특징량으로 하는, 음성 특징량 추출 장치를 제공한다.
바람직하게는, 본 발명의 제 2 또는 제 3 태양에 있어서, 상기 음성 특징량 추출 장치는, 상기 각 프레임에 대해서, 전후의 프레임 간의 상기 제 1 차분 산출 수단의 출력의 차분을 산출하는 제 2 차분 산출 수단을 더 포함하고, 상기 제 2 차분 산출 수단의 출력을 델타 델타 특징량으로 한다.
이상, 음성 특징량 추출 장치로서 본 발명을 설명하였는데, 본 발명은, 프로세서와 기억 영역을 갖춘 컴퓨터의 계산 처리에 의해 상기 설명한 음성 특징량을 추출하는 음성 특징량 추출 방법, 및 프로세서와 기억 영역을 갖춘 컴퓨터에서 실행된다. 상기 설명한 음성 특징량을 추출하는 음성 특징량 추출 프로그램으로서 파악하는 것도 할 수 있다. 또한 본 발명은, 상술한 것처럼 프론트 엔드 등의 잔향이나 잡음을 제거하는 기술과 조합할 수 있다는 것은 말 할 것도 없다.
본 발명에 의하면, 종래의 대수 영역의 차분의 대신에 리니어 영역(linear range)의 차분을 음성의 델타 특징량 및 델타 델타 특징량으로서 이용할 수 있기 때문에, 잔향 및 잡음에서 한층 강한 특징량을 추출하는 것이 가능하게 되고, 결과, 음성 인식의 정도가 높아진다. 본 발명의 그 외의 효과에 대해서는, 각 실시 형태의 기재로부터 이해된다.
도 1(a)는 잔향이 있는 방에서 수록한 음성 파워의 감쇠를 나타낸 대수축의 그래프이다. 도 1(b)는 도 1(a)와 같은 음성 파워의 감쇠를 나타낸, 선형축 그래프이다.
도 2는 잔향 환경에서 수록한 음성 스펙트럼의 한 예를 나타낸다.
도 3은 본 발명의 실시 형태에 의한 음성 특징량 추출 장치를 실현하는데 적합한 컴퓨터의 하드웨어 구성의 한 예를 나타낸 도이다.
도 4는 일반적인 음성 확인 장치의 구성의 한 예를 나타낸다.
도 5는, 정적 특징량 산출부의 기능 구성의 한 예를 나타낸다.
도 6(a)는 본 발명의 제 1 실시 형태에 따른 음성 특징량 추출 장치의 델타 특징량 산출부의 기능 구성을 나타낸다. 도 6(b)는 본 발명의 제 1 실시 형태에 따른 음성 특징량 추출 장치의 델타 델타 특징량 추출부의 기능 구성을 나타낸다.
도 7(a)는 본 발명의 제 2 실시 형태에 따른 음성 특징량 추출 장치의 델타 특징량 산출부의 기능 구성을 나타낸다. 도 7(b)는 본 발명의 제 2 실시 형태에 따른 음성 특징량 추출 장치의 델타 델타 특징량 추출부의 기능 구성을 나타낸다.
도 8(a)는 본 발명의 제 3 실시 형태에 따른 음성 특징량 추출 장치의 델타 특징량 산출부의 기능 구성을 나타낸다. 도 8(b)는 본 발명의 제 3 실시 형태에 따른 음성 특징량 추출 장치의 델타 델타 특징량 추출부의 기능 구성을 나타낸다.
도 9(a)는 본 발명의 제 3 실시 형태에 따른 음성 특징량 추출 장치의 델타 특징량 산출부에 의한 델타 특징량 추출 처리의 흐름의 한 예를 나타낸 흐름도이다. 도 9(b)는 본 발명의 제 3 실시 형태에 따른 음성 특징량 추출 장치의 델타 델타 특징량 산출부에 의한 델타 델타 특징량 추출 처리의 흐름의 한 예를 나타낸 흐름도이다.
도 10(a)는 Mel-FB Weight의 한 예를 나타낸 그래프이다. 도 10(b)는 Local Peak Weight의 한 예를 나타낸 그래프이다. 도 10(c)는 LPW-Mel-FB Weight의 한 예를 나타낸 그래프이다.
도 11은 Local Peak Weight의 작성 처리의 흐름의 한 예를 나타낸 흐름도이다.
도 12(a)는 본 발명의 제 4 실시 형태에 따른 음성 특징량 추출 장치의 델타 특징량 산출부의 기능 구성을 나타낸다. 도 12(b)는 본 발명의 제 5 실시 형태에 따른 음성 특징량 추출 장치의 델타 특징량 산출부의 기능 구성을 나타낸다.
도 13(a)는 본 발명의 제 4 실시 형태에 따른 음성 특징량 추출 장치의 델타 특징량 산출부에 의한 델타 특징량 추출 처리의 흐름의 한 예를 나타낸 흐름도이다.도 13(b)는 본 발명의 제 5 실시 형태에 따른 음성 특징량 추출 장치의 델타 특징량 산출부에 의한 델타 특징량 추출 처리의 흐름의 한 예를 나타낸 흐름도이다.
도 14는 본 발명의 제 4 또는 제 5 실시 형태에 따른 음성 특징량 추출 장치의 델타 델타 특징량 추출부의 기능 구성을 나타낸다.
도 15는 본 발명의 제 4 또는 제 5 실시 형태에 따른 음성 특징량 추출 장치의 델타 델타 특징량 추출부에 의한 델타 델타 특징량 추출 처리의 흐름의 한 예를 나타내는 흐름도이다.
도 16은 잔향 환경에 있어서 본 발명의 제 1의 평가 실험 결과의 한 예를 나타낸 표이다.
도 17은 잔향 환경에 있어서 본 발명의 제 2의 평가 실험 결과의 한 예를 나타낸 표이다.
도 18은 잡음 환경에 있어서 본 발명의 평가 실험 결과의 한 예를 나타낸 표이다.
이하, 본 발명을 실시하기에 가장 좋은 형태를 도면에 근거하여 상세히 설명하는데, 이하의 실시 형태는 특허 청구의 범위에 따른 발명을 한정하는 것이 아니고, 또한, 실시 형태 중에서 설명된 특징의 조합의 모든 것이 발명의 해결 수단에 필수라고 할 수 없다. 또한, 실시 형태의 설명의 전체를 통하여 같은 요소에는 같은 번호를 부여하고 있다.
우선, 본 발명의 구성이나 동작의 설명을 하기 전에, 도 1 및 도 2를 참조하여, 종래의 대수 영역의 차분을 이용하는 델타 특징량이, 잔향 및 소음 환경에서의 음성 인식에 있어서 바람직하지 않은 결과를 초래하는 것을 설명한다. 그리고 각각의 환경에 대해서, 본원 발명자가 제안하는 스펙트럼의 평균을 이용하여 정규화를 수행한 리니어 영역의 차분이 종래에 비해 잡음이나 잔향에서 한층 더 강하다는 것을 나타낸다.
(잔향 환경) 도 1은 잔향이 있는 방에서 수록한 음성 파워의 감쇠 모양을 나타내고, 같은 관측 데이터를 도 1(a)는 대수축으로 나타내고, 도 1(b)는 선형축으로 나타내고 있다. 횡축은 모두 구간 번호를 나타내고, 시간의 경과에 상당한다. 도 1을 보면 알 수 있듯이, 음성의 재생은 9번 구간에서 종료하고, 후속의 구간은 잔향 구간이다. 잔향은 지수 함수적으로 그 파워가 감쇠하는 것으로 알려져 있고, 대수축 표시의 도 1(a)에서는, 길고 또 경사가 일정한 슬로프(10)가 형성된다. 한편, 선형축 표시의 도 1(b)에서는, 급격하고 짧은 슬로프(20)가 형성된다.
종래, 델타 특징량으로서 전후의 프레임 간의 MFCC의 차분이 자주 이용되고 있다. MFCC는 멜 스케일 필터 뱅크(Mel-FB)마다 대수 스펙트럼을 이산 코사인 변환한 것이기 때문에, 그 델타 특징량은 대수 영역의 차분으로 간주된다. 특징량으로서 MFCC를 사용하지 않는 음성 인식 장치라도, 대부분은 대수 스펙트럼 또는 그 선형 변환을 특징량으로 하기 때문에, 그것들의 델타 특징량은 역시 대수 영역의 차분으로 간주된다.
이와 같이 대수 영역의 차분을 델타 특징량으로서 이용하는 종래의 기법은 도 1(a)의 슬로프(10)의 경사를 델타 특징량으로서 이용하는 것에 상당하고, 음성이 종료되도 긴 시간, 일정한 특징량을 계속해서 출력한다. 한편, 선형, 즉 리니어 영역의 차분을 델타 특징량으로서 이용하는 것을 고려하면, 이것은 도 1(b)의 슬로프(20)의 경사를 델타 특징량으로 하는 것에 상당하고, 이 경우 델타 특징량은 잔향 구간에서 빠르게 감쇠하는 것으로 고려된다.
델타 특징량이 빠르게 감쇠하는 것의 중요성은, 음소가 연속한 케이스에서 명확하게 알 수 있다. 도 2는, 잔향 환경에서 수록한 음성 스펙트럼의 한 예를 나타내고, 횡축은 도 1과 같이 구간 번호를 나타내고, 종축은 주파수를 나타낸다. 또, 음성 스펙트럼의 강도는 색의 농담(濃淡)으로 나타내어, 엷을수록 강도가 높은 것을 나타낸다. 도 2에 나타낸 것처럼, 음소(1)와 음소(2)가 연속하는 경우, A의 영역은 음소(2)에 속하지만, 선행 음소(1)의 잔향의 영향을 받는다. 영역 A의 부분의 스펙트럼 강도는 충분히 약하기 때문에, 델타가 아니다, 즉 정적 특징량만을 상정하면, 선행 음소의 영향은 크지 않다. 하지만, 대수 스펙트럼을 이용한 델타 특징량 등, 동적 특징량을 고려하면, 영역 A의 부분은, 선행 음소(1)의 잔향인 긴 슬로프의 경사면에 닿기 때문에, 보이는 것 이상으로 선행 음소(1)의 영향을 받는다. 따라서, 잔향 환경에서는 빠르게 감쇠하는 리니어 영역의 델타 특징량이 바람직하다.
하지만, 리니어 영역의 차분을 그대로 델타 특징량으로 할 수 없다. 왜냐하면, 리니어 영역의 델타인 채로는, 다이나믹 레인지(dynamic range)가 넓고 모델화에 적합하지 않기 때문이다. 또한, 다이나믹 레인지를 압축하기 위해서, 리니어 영역의 델타를 산출한 후에 대수를 취하는 것도 고려된다. 하지만 델타의 값은 정(positive)으로도 부(negative)로도 되게 얻을 수 있으므로, 단순히 대수를 얻을 수 없다. 또한, 음성 인식에서는 전달 특성의 보정을 위해서 CMN(Cepstrum Mean Nomalization)을 병용하는 일이 많지만, 리니어 영역의 델타인 채로는 그와 같은 보정을 수행할 수 없다.
여기서, 본원 발명자는 상기 문제를 리니어 영역의 스펙트럼의 델타에 대해서 발화 전체에 대한 스펙트럼의 평균을 이용한 정규화를 수행하는 것으로 해결하였다. 여기서, 관측 음성의 t프레임의 리니어 영역의 스펙트럼의 델터를, Δst, 발화 전체인 모든 프레임에 대한 스펙트럼의 평균(이하, 단순하게 평균 스펙트럼이라고도 함)을 s바(bar)라고 하면, 본원 발명자가 제안하는 가장 심플한 델타 특징량은 다음 식으로 나타낸다. 또한, 본원 발명자가 제안하는 다른 델타 특징량의 베리에이션(variation)에 대해서는 후술한다.
[식1]
Figure pct00001

여기에서 비교를 위해, 종래의 관측 음성의 t프레임의 대수 영역의 스펙트럼의 델타를 다음 식과 같이 근사화한다.
[식2]
Figure pct00002

식1과 식2를 비교하면, 본원 발명자가 제안하는 델타 특징량은, 종래의 델타 특징량의 분모의 스펙트럼 st를 발화 전체의 평균 스펙트럼의 s바에서 치환한 것이라고 이해할 수 있다. 따라서, 본원 발명자가 제안하는 델타 특징량은 t프레임이 발화 전체에 비해 작은 파워를 가지고 있을 때에는, 종래의 델타 특징보다도 작은 델타 특징량을 준다. 또한 상기 두 개의 식이 유사하므로, 식1은 식2와 같은 정도의 다이나믹 레인지에 들어간다고 말할 수 있다. 또, 식1의 델타 특징량은 s바에서 뺀 것으로부터, 전달 특성의 보정의 효과도 들어있다.
(소음 환경)다음으로 식1을 예로, 본원 발명자가 제안하는 델타 특징량이 소음 환경에도 유효한지를 설명하겠다. 지금, 음향 모델의 학습시에 있어서 잡음이 없고, 식1 및 식2의 델타 특징량을 각각 이용하여 학습이 수행되었다고 하자. 음성 인식 실행 시에 있어서 잡음N이 부가된 상황에서는, 식1의 델타 특징량은 다음 식과 같이 관측된다.
[식3]
Figure pct00003

같은 방법으로 식2의 델타 특징량은 다음 식과 같이 관측된다.
[식4]
Figure pct00004

여기에서 잡음N이 더해진 것으로 인한 변화의 정도를 알아보기 위해, 식1과 식3, 식2와 식4의 비를 보고, 각각 식5 및 식6에 나타낸다.
[식5]
Figure pct00005

[식6]
Figure pct00006

식5와 식6을 비교하면 알 수 있듯이, 국소적인 SNR이 낮은 프레임, 즉, st가 잡음N이나 평균 스펙트럼 s바보다 상당히 작아지는 구간에서는, 잡음N이 부가되는 것으로 인한 델타 특징량의 변화의 정도는 식6 쪽이 크다. 이것은, 일반적으로 오인식이 일어나기 쉬운 저SNR구간에 있어서 발생하는 모델로부터의 정도는, 종래의 대수 영역의 델타를 이용하는 편이, 본원 발명자가 제안하는 델타 특징량을 이용하는 것보다, 매우 크다는 것을 의미한다. 이와 같이, 본원 발명자가 제안하는 델타 특징량은 소음 환경에 있어서도 유리하다.
도 3은, 본 발명을 실시하기 위한 컴퓨터(300)의 예시적인 하드웨어 구성을 나타낸다. 도 3에 있어서 마이크(305) 부근에서 발생한 소리는 마이크(305)에 의해 아날로그 신호로서 A/D변환기(310)에 입력되어, 거기서 CPU(325)가 처리 가능한 디지털 신호로 변환된다.
마이크(305)가 받아들이는 소리는, 예를 들면 자동차 내비게이션의 경우, 운전자의 화성, 동승자의 화성뿐만 아니라, 에어콘의 송풍음, 자동차 오디오로부터 출력되는 소리, 엔진음, 경적 소리 등이 포함된다. 또 자동차의 창문이 열려 있는 경우에는, 상대편 자동차로부터의 소음, 통행인의 화성 등도 포함된다.
외부 기억 장치(315)나 ROM(320)은 운영체제와 협동하여 CPU(325)에 명령을 부여하고, 본 발명을 실시하기 위한 음성 특징량 추출 프로그램 모듈을 포함하는 복수의 컴퓨터 프로그램의 코트나 각종 데이터를 기록할 수 있다. 그리고 외부 기억 장치(315)나 ROM(320)에 저장된 복수의 컴퓨터 프로그램은 각각 RAM(330)에 로드되는 것으로 CPU(325)에 의해 실행된다. 또한, 외부 기억 장치(315)는 SCSI 컨트롤러 등의 컨트롤러(도시하지 않음)를 경유하여 버스(345)에 접속된다.
컴퓨터 프로그램은 압축하고, 또 복수로 분할하여 복수의 매체에 기록할 수도 있다. 또한, CPU(325)가, A/D변환기(310)로부터 보내지는 디지털 신호에 대해서, 음성 특징량 추출 프로그램으로 인해 수행하는 처리의 상세 내용은 후술한다.
컴퓨터(300)는 또한, 시각 데이터를 유저에 제시하기 위한 표시 장치(335)를 포함한다. 표시장치(335)는 그래픽스 컨트롤러(도시하지 않음)를 경유하여 버스(345)에 접속된다. 컴퓨터(300)는, 통신 인터페이스(340)를 통하여 네트워크에 접속하고, 다른 컴퓨터 등과 통신을 수행하는 것이 가능하다.
또한, 상기 설명한 구성 요소는 예시이며, 이 모든 구성 요소가 본 발명의 필수 구성 요소가 되는 것은 아니다. 마찬가지로, 본 발명을 실시하기 위한 컴퓨터(300)는 키보드나 마우스와 같은 입력 디바이스, 스피커 등의 다른 구성 요소를 포함하는 것도 가능하다는 것은 말할 것도 없다.
도 4는 일반적인 음성 인식 장치(400)의 구성을 나타낸다. 이산 푸리에 변환부(405)는 디지털 신호로 변환된 음성 신호를 입력하고, 이것을 해닝 윈도(HanningWindow),해밍 윈도(Hamming Window) 등의 적당한 방법으로 프레임화 한 후, 이산 푸리에 변환하여 음성 신호의 스펙트럼을 출력한다. 노이즈 리덕션부(410)는, 이산 푸리에 변환부(405)의 출력인 스펙트럼을 입력하고, 스펙트럼 서브 트랙션법 등으로 스펙트럼으로부터 잡음을 제거한다. 단 노이즈 리덕션부(410)는 옵션임으로 없어도 된다.
특징량 추출부(415)는 음성 신호의 스펙트럼(노이즈 리덕션부(410)가 존재하는 경우는 잡음이 제거된 후의 음성 신호 스펙트럼)을 입력하고, 정적 특징량이나 동적 특징량을 추출하여 출력한다. 상술한 것처럼, 종래는 MFCC와 그 델타(1차 변화량) 및 델타 델타(2차 변화량)의 조합, 또는 그것들의 선형 변환이 이용되는 일이 많으며, 이것들이 각각 정적 특징량, 동적 특징량으로서 추출되어 있다.
스위치(420)는 학습시에 있어서는 학습부(430) 측으로 내려가 있고, 학습부(430)는 학습 데이터로서의 음성 신호로부터 특징량 추출부(415)가 추출한 특징량과, 학습 데이터로서의 음성 신호에 대응하는 입력 텍스트를 입력하고, 이것들 데이터로부터 음향 모델(425)을 구축한다. 또한, 학습 처리 자체는 본 발명의 요지가 아니므로, 더 이상의 설명은 생략한다.
또한 스위치(420)는, 인식 시에 음성 인식부(440) 측으로 내려가 있고, 음성 인식부(440)는 인식 데이터로서의 음성 신호로부터 특징량 추출부(415)가 추출한 특징량과, 음향 모델(425) 및 언어 모델(435)로부터의 데이터를 입력하고, 이것들 데이터로부터 음성 신호를 확인하여 인식 결과의 텍스트를 출력한다. 또한, 음성 인식 처리 자체는 본 발명의 요지가 아니므로, 더 이상의 설명은 생략한다.
이와 같이, 음성 인식 장치(400)는, 학습시에는, 음성 신호와 입력 테스트로부터 음향 모델(420)을 구축하고, 인식시에는, 입력 신호, 음향 모델, 언어 모델로부터 인식 결과의 텍스트를 출력한다. 본 발명은, 도 4에 나타낸 종래의 특징량 추출부(415)를 개량한 것이고, 구체적으로는, 동적 특징량인 델타 특징량 및 델타 델타 특징량의 산출 방법을 개선한다.
본 발명에 의해 개량되는 특징량 추출부(415)는, 종래의 많은 특징량 추출부(415)와 같이, 정적 특징량과 동적 특징량을 조합한 다차원의 특징량을 출력하지만, 필요에 따라, 정적 특징량 없이나, 델타 델타 특징량 없이 등과 같이 간략 구성으로 하는 것이 가능한 것은 말할 것도 없다. 이하에서는, 본 발명에 따른 특징량 추출부(415)를, 정적 특징량 산출부, 델타 특징량 산출부, 및 델타 델타 특징량 산출부를 포함하는 음성 특징량 추출 장치로서 설명한다.
도 5는 정적 특징량 산출부의 기능 구성의 한 예를 나타낸다. 본 실시 예에서는, 정적 특징량으로서 MFCC 특징량을 사용한다. 또한, 후술하는 제 1내지 제 5 실시 형태에 따른 음성 특징량 추출 장치의 모든 것에 대해서, 정적 특징량 산출부는 공통이다. 도 5에 대해서, 멜 필터 뱅크 처리부(500)는, 도 4에 관련하여 설명한 이산 푸리에 변환부(405) 또는 노이즈 리덕션부(410)로부터, 프레임화된 음성 신호의 주파수bin마다의 스펙트럼 st를 입력하고, 각 프레임에 관해, 그 기능에 따라, 주파수bin마다의 스펙트럼 st를, 멜 필터 뱅크의 중요도를 사용하여 필터 뱅크마다 스펙트럼(이하, 멜 스펙트럼 St라고 함)으로 변환하여, 멜 스펙트럼 St를 출력한다.
여기서 t를 프레임 번호, i를 주파수bin 번호, j를 필터 뱅크 번호, Mel_FB_Weight를 멜 필터 뱅크의 중요도라고 하면, 멜 필터 뱅크 처리부(500)에 의한 변환은 다음 식으로 나타낼 수 있다.
[식 7]
Figure pct00007

대수 산출부(505)는 멜 스펙트럼 St를 입력하고, 각 프레임에 대해서, 그 기능에 의해, 필터 뱅크마다 스펙트럼 St의 대수를 다음 식에 따라 구하고, 대수 멜 스펙트럼 St'을 출력한다.
[식 8]
Figure pct00008

[56] 이산 코사인 변환부(510)는 대수 멜 스펙트럼 St'을 입력하고, 각 프레임에 대해서, 그 기능에 의해, 대수 멜 스펙트럼 St'을 이산 코사인 변환하여 MFCC, 즉 멜 캡스트럼 Ct를 산출하고, 출력한다. 또한, 이산 코사인 변환부(510)는 이산 코사인 변환 행렬을 D(h, j)로 하면 다음 식으로 대수 멜 스펙트럼 St'의 이산 코사인 변환을 수행한다.
[식 9]
Figure pct00009

이와 같이 하여 정적 특징량 산출부는 스펙트럼 st를 입력으로 하여, 최종적으로 멜 캡스트럼 Ct를 정적 특징량으로서 출력한다.
(제 1 실시 형태) 도 6(a)는 본 발명의 제 1 실시 형태에 따른 음성 특징량 추출 장치의 델타 특징량 산출부의 기능 구성을 나타낸다. 제 1 차분 산출부(600)는 도 4와 관련하여 설명한 이산 푸리에 변환부(405) 또는 노이즈 리덕션부(410)로부터, 프레임화된 음성 신호의 주파수bin마다의 스펙트럼 st를 입력하고, 각 프레임에 대해서, 그 기능에 의해, 주파수bin마다, 전후의 프레임 간의 스펙트럼 st의 차분(이하, 델타 스펙트럼 Δst라고도 함)을 산출하고, 주파수bin마다의 델타 스펙트럼 Δst로서 출력한다. 제 1 차분 산출부(600)에 의한 차분 처리는, 다음 식에 의해 수행된다.
[식 10]
Figure pct00010
식 10에서, 주파수bin번호 i는 생략하였다.
제 1 정규화 처리부(605)는 주파수(bin마다의 델타 스펙트럼 Δst를 입력하고, 각 프레임화에 대해서, 그 기능에 의해, 주파수bin마다의 델타 스펙트럼 Δst를, 상기 주파수bin에 대한 발화 전체인 모든 프레임에 대한 스펙트럼의 평균인 평균 스펙트럼의 함수F로 제산하는 것에 의해 정규화한다. 본 실시 예에서는, 평균 스펙트럼의 함수F는 평균 스펙트럼 그 자체, 즉 주파수bin마다의 평균 스펙트럼s바라고 한다. 이 경우, 제 1 정규화 처리부(605)의 출력은 다음 식에 의해 나타낼 수 있다.
[식 11]
Figure pct00011
식 11에서, 주파수bin번호 i는 생략하였다. 제 1 실시 형태에 따라 음성 특징량 추출 장치의 델타 특징량 산출부는 제 1 정규화 처리부(605)의 출력을 델타 특징량으로 한다.
도 6(b)는 본 발명의 제 1 실시 형태에 따른 음성 특징량 추출 장치의 델타 델타 특징량 산출부의 기능 구성을 나타낸다. 본 발명의 제 1 실시 형태에 따른 음성 특징량 추출 장치의 델타 델타 특징량 산출부는 제 2 차분 산출부(610) 및 제 2 정규화 처리부(615)를 포함한다. 이것은 입력 및 출력을 서로 다르게 하는 것만으로, 그 기능은 각각 본 발명의 제 1 실시 형태에 따른 음성 특징량 장치의 델타 특징량 산출부의 대응하는 구성 요소와 같다.
즉, 제 2 차분 산출부(610)는 도 6(a)에 나타내는 제 1 차분 산출부(600)으로부터 델타 스펙트럼 Δst를 입력하고, 각 프레임에 대해서, 주파수bin마다, 전후의 프레임 간의 델타 스펙트럼 Δst의 차분을 델타 델타 스펙트럼 ΔΔst로서 산출한다. 제 2 차분 산출부(610)의 출력, 델타 델타 스펙트럼 ΔΔst는 다음식에 의해 나타낼 수 있다.
[식 12]
Figure pct00012
식 12에서 주파수bin번호 i는 생략하였다.
또한, 제 2 정규화 처리부(615)는 델타 델타 스펙트럼 ΔΔst를 입력하고, 각 프레임에 대해서, 주파수bin마다, 델타 델타 스펙트럼 ΔΔst를 평균 스펙트럼의 함수로 제산하는 것으로 정규화한다. 본 실시 예에서는, 평균 스펙트럼의 함수F는 평균 스펙트럼 그 자체, 즉 주파수bin마다의 평균 스펙트럼s바라고 한다. 이 경우, 제 2 정규화 처리부(615)의 출력은 다음 식에 의해 나타낼 수 있다.
[식 13]
Figure pct00013

식 13에서 주파수bin번호 i는 생략하였다. 제 1 실시 형태에 따른 음성 특징량 추출 장치의 델타 델타 특징량 산출부는 제 2 정규화 처리부(615)의 출력을 델타 델타 특징량으로 한다.
(제 2 실시 형태) 도 7(a)는 본 발명의 제 2 실시 형태에 따른 음성 특징량 추출 장치의 델타 특징량 산출부의 기능 구성을 나타낸다. 제 2 실시 형태에 따른 음성 특징량 추출 장치의 델타 특징량 산출부는, 제 1 실시 형태에 따른 음성 특징량 추출 장치의 델타 특징량 산출부에 제 1 멜 필터 뱅크 처리부(705)를 추가한 것이다. 새롭게 추가된 제 1 멜 필터 뱅크 처리부(705)는, 그 처리 순서가, 제 1 차분 산출부(700)의 다음이고, 또 제 1 정규화 처리부(710)보다도 먼저 또는 다음이 되는 위치에 배치된다.
여기에서 제 1 차분 산출부(700)는 제 1 실시 형태에 따른 음성 특징량 추출 장치의 제 1 차분 산출부(600)와 완전히 같은 것이 때문에. 여기에서는 설명을 반복하지 않기 위해 생략한다. 제 1 멜 필터 뱅크 처리부(705)는, 입력 및 출력을 서로 다르게 하는 것만으로, 그 기능은 도 5에 관하여 설명한 멜 필터 뱅크 처리부(500)와 같다.
즉, 제 1 멜 필터 뱅크 처리부(705)의 처리가 제 1 정규화 처리부(710)의 처리보다도 먼저인 경우를 예로 설명하면, 제 1 멜 필터 뱅크 처리부(705)는 제 1 차분 산출부(700)로부터 델타 스펙트럼 Δst를 입력하고, 각 프레임에 대해서, 주파수bin마다의 델타 스펙트럼 Δst에, 식 7의 우변과 같이 멜 필터 뱅크의 중요도를 곱하여 합산하고, 합산한 값을 필터 뱅크마다의 멜 델타 스펙트럼 ΔSt로서 산출한다.
제 1 정규화 처리부(710)도 또한, 입력 및 출력을 서로 다르게 하는 것 만으로, 그 기능은 제 1 실시 형태에 따른 음성 특징량 추출 장치의 제 1 정규화 처리부(605)와 같다. 따라서 설명을 반복하지 않기 위해 여기에서는 설명을 생략한다. 단, 제 1 멜 필터 뱅크 처리부(705)의 처리가 제 1 정규화 처리부(710)의 처리보다도 먼저가 되는 경우는, 제 1 정규화 처리부(710)가 정규화를 위해 이용하는 발화(utterance) 전체인 모든 프레임에 대한 평균 스펙트럼은 주파수bin마다 스펙트럼의 평균인 평균 스펙트럼 s바가 아니라, 필터 뱅크마다의 멜 스펙트럼의 평균인 평균 멜 스펙트럼 S바라는 것에 유의하길 바란다.
즉, 평균 스펙트럼의 함수F를 평균 스펙트럼 그 자체라고 하면, 이 경우, 제 1 정규화 처리부(710)는, 제 1 멜 필터 뱅크 처리부(705)로부터 필터 뱅크마다 멜 델타 스펙트럼 ΔSt를 입력하고, 각 프레임에 대해서, 필터 뱅크마다 멜 델타 스펙트럼 ΔSt를, 상기 필터 뱅크에 대한 모든 프레임에 대한 평균 멜 스펙트럼 S바에서 제산하는 것으로 정규화를 수행한다. 제 1 정규 처리부(710)의 출력은 다음식에 의해 나타낼 수 있다.
[식 14]
Figure pct00014
식 14에서 필터 뱅크 번호 j는 생략하였다. 또한 식 14의 우변의 분모는 필터 뱅크마다의 평균 멜 스펙트럼 S바이다. 제 2 실시 형태에 따라 음성 특징량 추출 장치의 델타 특징량 산출부는, 그 처리가 제일 마지막인 제 1 멜 필터 뱅크 처리부(705) 또는 제 1 정규화 처리부(710)의 출력을 델타 특징량으로 한다.
도 7(b)는 본 발명의 제 2 실시 형태에 따른 음성 특징량 추출 장치의 델타 델타 특징량 산출부의 기능 구성을 나타낸다. 본 발명의 제 2 실시 형태에 따른 음성 특징량 추출 장치의 델타 델타 특징량 산출부는, 제 2 차분 산출부(715), 제 2 멜 필터 뱅크 처리부(720) 및 제 2 정규화 처리부(725)를 포함한다. 제 2 멜 필터 뱅크 처리부(720)의 처리와 제 2 정규화 처리부(725)의 처리는 어떤 것이 먼저 수행되어도 된다. 제 2 차분 산출부(715)는, 제 1 실시 형태에 따른 음성 특징량 추출 장치의 제 2 차분 산출부(610)와 완전히 같기 때문에, 여기에서는 설명을 반복하지 않기 위해 생략한다. 제 2 멜 필터 뱅크 처리부(720)는 입력 및 출력을 서로 다르게 하는 것만으로, 그 기능은 도 5에 관하여 설명한 멜 필터 뱅크 처리부(500)와 같다.
즉, 제 2 멜 필터 뱅크 처리부(720)의 처리가 제 2 정규화 처리부(725)의 처리보다도 먼저인 경우를 예로 설명하면, 제 2 멜 필터 뱅크 처리부(720)는 제 2 차분 산출부(715)로부터 델타 델타 스펙트럼 ΔΔst를 입력하고, 각 프레임에 대해서, 주파수bin마다의 델타 델타 스펙트럼 ΔΔst에, 식 7의 우변과 같이 멜 필터 뱅크의 중요도를 곱하여 합산하고, 합산한 값을 필터 뱅크마다의 멜 델타 델타 스펙트럼 ΔΔSt로서 산출한다.
제 2 정규화 처리부(725)도 또한, 입력 및 출력을 서로 다르게 하는 것 만으로, 그 기능은 제 1 실시 형태에 따른 음성 특징량 추출 장치의 제 2 정규화 처리부(615)와 같다. 따라서 설명을 반복하지 않기 위해 여기에서는 설명을 생략한다. 단, 제 2 멜 필터 뱅크 처리부(720)의 처리가 제 2 정규화 처리부(725)의 처리보다도 먼저인 경우는, 제 2 정규화 처리부(725)가 정규화 하기 위해 이용하는 발화 전체인 모든 프레임에 대한 평균 스펙트럼은, 주파수bin마다의 스펙트럼의 평균인 평균 스펙트럼 s바가 아니라, 필터 뱅크마다 멜 스펙트럼의 평균인 평균 멜 스펙트럼 S바라는 것에 유의하길 바란다.
즉, 평균 스펙트럼의 함수F를 평균 스펙트럼 그 자체라고 하면, 이 경우, 제 2 정규화 처리부(725)는 제 2 멜 필터 뱅크 처리부(720)로부터 필터 뱅크마다의 멜 델타 델타 스펙트럼 ΔΔSt를 입력하고, 각 프레임에 대해서, 필터 뱅크마다의 멜 델타 델타 스펙트럼 ΔΔSt를, 상기 필터 뱅크에 대한 평균 멜 스펙트럼 S바에서 제산하는 것으로 정규화를 수행한다. 제 2 정규화 처리부(725)의 출력은 다음식에 의해 나타낼 수 있다.
[식 15]
Figure pct00015
식 15에서 필터 뱅크 번호 j는 생략하였다. 또 식 15의 우변의 분모는, 필터 뱅크마다의 평균 멜 스펙트럼 S바이다. 제 2 실시 형태에 따른 음성 특징량 추출 장치의 델타 델타 특징량 산출부는 그 처리가 제일 마지막이 되는 제 2 멜 필터 뱅크 처리부(720) 또는 제 2 정규화 처리부(725)의 출력을 델타 델타 특징량으로 한다.
(제 3 실시 형태) 도 8(a)는 본 발명의 제 3 실시 형태에 따른 음성 특징량 추출 장치의 델타 특징량 산출부의 기능 구성을 나타낸다. 제 3 실시 형태에 따른 음성 특징량 추출 장치의 델타 특징량 산출부는, 제 2 실시 형태에 따른 음성 특징량 추출 장치의 델타 특징량 산출부에 제 1 이산 코사인 변환부(815)를 새롭게 추가한 것이다. 따라서, 제 1 차분 산출부(800), 제 1 멜 필터 뱅크 처리부(805), 및 제 1 정규화 처리부(810)의 설명은, 반복하지 않기 위해 여기에서는 생략한다. 또한, 새롭게 추가된 제 1 이산 코사인 변환부(815)는, 그 처리 순서가 제일 마지막이 되는 위치에 배치된다.
제 1 이산 코사인 변환부(815)는, 입력 및 출력을 서로 다르게 하는 것만으로, 그 기능은 도 5에 관하여 설명한 이산 코사인 변환부(510)과 같다. 즉, 제 1 이산 코사인 변환부(815)는, 정규화된 필터 뱅크마다의 멜 델타 스펙트럼 ΔSt를 입력하고, 이것을 이산 코사인 변환한다. 제 1 이산 코사인 변환부(815)의 출력은 다음 식에 의해 나타낼 수 있다.
[식 16]
Figure pct00016
식 16에서 기호 DCT는 식 9의 이산 코사인 변환 행렬 D(h, j)에 의한 변환을 나타낸다. 제 3 실시 형태에 따른 음성 특징량 추출 장치의 델타 특징량 산출부는 제 1 이산 코사인 변환부(815)의 출력을 델타 특징량으로 한다.
도 8(b)는 본 발명의 제 3 실시 형태에 따른 음성 특징량 추출 장치의 델타 델타 특징량 산출부의 기능 구성을 나타낸다. 본 발명의 제 3 실시 형태에 따른 음성 특징량 추출 장치의 델타 델타 특징량 산출부는, 제 2 실시 형태에 따른 음성 특징량 추출 장치의 델타 델타 특징량 산출부에 제 2 이산 코사인 변환부(835)를 새롭게 추가한 것이다. 따라서, 제 2 차분 산출부(820), 제 2 멜 필터 뱅크 처리부(825), 및 제 2 정규화 처리부(830)의 설명은, 반복하지 않기 위해 여기에서는 생략한다. 또한, 새롭게 추가된 제 2 이산 코사인 변환부(835)는, 그 처리 순서가 제일 마지막이 되는 위치에 배치된다.
제 2 이산 코사인 변환부(835)는, 입력 및 출력을 서로 다르게 하는 것만으로, 그 기능은 도 5에 관하여 설명한 이산 코사인 변환부(510)와 같다. 즉, 제 2 이산 코사인 변환부(835)는, 정규화된 필터 뱅크마다의 멜 델타 델타 스펙트럼 ΔΔSt를 입력하고, 이것을 이산 코사인 변환한다. 제 2 이산 코사인 변환부(835)의 출력은 다음 식에 의해 나타낼 수 있다.
[식 17]
Figure pct00017
식 17에서 기호 DCT는 식 9의 이산 코사인 변환 행렬 D(h, j)에 의한 변환을 나타낸다. 제 3 실시 형태에 따른 음성 특징량 추출 장치의 델타 델타 특징량 산출부는 제 2 이산 코사인 변환부(835)의 출력을 델타 델타 특징량으로 한다.
또한, 제 3 실시 형태에 따른 음성 특징량 추출 장치의 델타 특징량 산출부 및 델타 델타 특징량 산출부에서는, 제 1 정규화 처리부(810) 및 제 2 정규화 처리부(830)에 의한 정규화의 방법을 다음과 같이 변경해도 된다. 즉, 제 1 정규화 처리부(810) 및 제 2 정규화 처리부(830)는, 평균 스펙트럼 s바나 평균 멜 스펙트럼 S바에 의한 제산에 더하여 대수 압축을 수행하는 것으로 정규화를 수행해도 된다. 이 경우, 예를 들면, 제 1 멜 필터 뱅크 처리부(805)에 의한 처리 후에 제 1 정규화 처리부(810)에 의한 처리가 수행된다고 하면, 제 1 정규화 처리부(810)에 의한 정규화는 다음식에 의해 수행된다.
[식 18]
Figure pct00018

즉, 멜 멜타 스펙트럼 ΔSt가 0이상인 경우, 제 1 정규화 처리부(810)는, 필터 뱅크마다의 멜 델타 스펙트럼 ΔSt를, 상기 필터 뱅크에 대한 평균 멜 스펙트럼 S바에서 제산하여 1을 더하고, 그 결과의 대수를 구하는 것으로 정규화를 수행한다. 한편, 멜 델타 스펙트럼 ΔSt가 0보다 작은 경우, 제 1 정규화 처리부(810)는, 필터 뱅크마다의 멜 델타 스펙트럼 ΔSt를, 상기 필터 뱅트에 대한 평균 멜 스펙트럼 S바에서 제산하여 마이너스 1을 곱한 것에 1을 더하고, 그 결과의 대수에 마이너스 1을 곱하는 것으로 정규화를 수행한다. 같은 방법으로 하여, 제 2 멜 필터 뱅크 처리부(825)에 의한 처리 후에 제 2 정규화 처리부(830)에 의한 처리가 수행된다고 하면, 제 2 정규화 처리부(830)는 식 19에 의해 정규화를 수행해도 된다.
[식 19]
Figure pct00019

이것에 대신하여, 제 3 실시 형태에 따른 음성 특징량 추출 장치의 델타 특징량 산출부 및 델타 델타 특징량 산출부에서는, 평균 멜 스펙트럼 S바의 함수F를, 평균 멜 스펙트럼 S바 그 자체가 아니라, 다음과 같은 평균 멜 스펙트럼 S바와 멜 스펙트럼 S와의 함수F로 하여도 된다. 즉, 임의의 프레임t 및 임의의 필터 뱅크j에 대해서 평균 멜 스펙트럼 S바의 함수F는, 프레임t의 필터 뱅크j에 대한 멜 스펙트럼S의 값과, 필터 뱅크j에 대한 모든 프레임에 대한 평균 멜 스펙트럼 S바의 값 중, 큰 쪽의 값 또는, 큰 쪽의 값에 가까운 값을 출력한다. 이와 같은 함수F의 한 예를 식 20 및 식 21에 나타내었다.
[식 20]
Figure pct00020

[식 21]
Figure pct00021
식 20 및 식 21에서 필터 뱅크 번호j는 생략하였다.
그리고 제 1 정규화 처리부(810)는 필터 뱅크마다의 멜 델타 스펙트럼 ΔSt를 입력하고, 각 프레임에 대해서, 필터 뱅크마다의 멜 델타 스펙트럼 ΔSt를, 상기 필터 뱅크에 대한 상기 식 20 또는 식 21에 의해 나타낸 함수F로 제산하는 것으로 정규화한다. 제 2 정규화 처리부(830)에 대해서도 같다. 이와 같은 평균 멜 스펙트럼 S바와 멜 스펙트럼 S와의 함수F를 이용한 정규화는, 성능의 시점으로부터, 평균 멜 스펙트럼 S바에서 제산하는 정규화보다도 바람직하다.
도 9(a)는 본 발명의 제 3 실시 형태에 따른 음성 특징량 추출 장치의 델타 특징량 산출부에 의한 음성의 델타 특징량 추출 처리의 흐름의 한 예를 나타내는 흐름도이다. 처리는 단계(900)로부터 개시하고, 제 1 차분 산출부(800)는 프레임화된 음성 신호의 주파수bin마다, 전후의 프레임 간의 스펙트럼의 차분을 델타 스펙트럼 Δst로서 산출하고, 도 3에 나타낸 RAM(330) 등의 기억 영역에 기억시킨다.
제 1 멜 필터 뱅크 처리부(805)는, 기억 영역으로부터 델타 스펙트럼 Δst를 리드하고, 각 프레임에 대해서, 주파수bin마다의 델타 스펙트럼 Δst에 멜 필터 뱅크의 중요도를 곱하여 합산하고, 이것을 필터 뱅크마다의 멜 델타 스펙트럼 ΔSt으로서 기억 영역에 기억한다(단계(905)). 제 1 정규화 처리부(810)는, 기억 영역으로부터 멜 델타 스펙트럼 ΔSt를 리드하고, 각 프레임에 대해서, 필터 뱅크마다의 멜 델타 스펙트럼 ΔSt를, 상기 필터 뱅크에 대한 평균 멜 스펙트럼 S바의 함수F로 제산하는 것으로 정규화하고, 기억 영역에 기억한다(단계(910)).
또한, 점선(920)으로 둘러싼, 제 1 멜 필터 뱅크 처리부(805)의 처리와 제 1 정규화 처리부(810)의 처리는 순서를 바꾸어도 된다. 단, 제 1 멜 필터 뱅크 처리부(805)의 처리가 제 1 정규화 처리부(810)의 처리 보다도 다음이 되는 경우, 제 1 정규화 처리부(810)가 정규화를 위해 이용하는 함수F는, 주파수bin마다의 평균 스펙트럼s바의 함수F이다. 또 상술한 것처럼, 함수F는, 평균 스펙트럼s바나 평균 멜 스펙트럼S바 그 자체여도 되고, 식 20이나 식 21에서 나타낸 것이어도 된다. 혹은 평균 스펙트럼s바나 평균 멜 스펙트럼S바에 의한 제산에 더하여 대수 압축을 수행하는 것으로 정규화를 수행해도 된다.
계속해서 제 1 이산 코사인 변환부(815)는 기억 영역으로부터 정규화된 필터 뱅크마다 멜 델타 스펙트럼을 리드하여 이산 코사인 변환하고, 그 결과를 델타 특징량으로서 출력한다(단계(915)). 그리고 처리를 종료한다. 또한, 제 1 및 제 2 실시 형태에 따른 음성 특징량 추출 장치의 델타 특징량 산출부에 의한 델타 특징량 추출 처리는, 도 9(a)에 있어서, 단계(905)와 단계(915)의 처리, 또는 단계(915)의 처리를 생략한 경우에 각각 해당한다.
도 9(b)는 본 발명의 제 3 실시 형태에 따른 음성 특징량 추출 장치의 델타 델타 특징량 산출부에 의한 델타 델타 특징량 추출 처리의 흐름의 한 예를 나타낸 흐름도이다. 처리는 단계(920)로부터 개시되고, 제 2 차분 산출부(820)는 제 1 차분 산출부(800)으로부터 델타 스펙트럼 Δst를 입력하여, 각 프레임에 대해서, 전후의 프레임 간의 주파수bin마다의 델타 스펙트럼 Δst의 차분을 델타 델타 스펙트럼 ΔΔst으로서 산출하고, 도 3에 나타낸 RAM(330) 등의 기억 영역에 기억시킨다.
제 2 메일 필터 밴크 처리부(825)는, 기억 영역으로부터 델타 델타 스펙트럼 ΔΔst를 리드하고, 각 프레임에 대해서, 주파수bin마다의 델타 델타 스펙트럼 ΔΔst에 멜 필터 뱅크의 중요도를 곱하여 합산하고, 이것을 필터 뱅크마다의 멜 델타 델타 스펙트럼 ΔΔSt로서 기억 영역에 기억시킨다(단계(925)). 제 2 정규화 처리부(830)는 기억 영역으로부터 멜 델타 델타 스펙트럼 ΔΔSt를 리드하고, 각 프레임에 대해서, 필터 뱅크마다의 멜 델타 델타 스펙트럼 ΔΔSt를, 상기 필터 뱅크에 대한 평균 멜 스펙트럼 S바의 함수F로 제산하는 것으로 정규화하고, 기억 영역에 기억시킨다(단계(930)).
또한, 점선(940)으로 둘러싼, 제 2 멜 필터 뱅크 처리부(825)의 처리와 제 2 정규화 처리부(830)의 처리는, 순서를 바꿔도 된다. 단, 제 2 멜 필터 뱅크 처리부(825)의 처리가 제 2 정규화 처리부(830)의 처리보다 다음이 되는 경우, 제 2 정규화 처리부(830)가 정규화를 위해 이용하는 함수F는, 주파수bin마다의 평균 스펙트럼 s바의 함수F이다. 또 상술한 것처럼, 함수F는, 평균 스펙트럼 s바나 평균 멜 스펙트럼 S바 그자체여도 되며, 식 20이나 식 21에서 나타낸 것이어도 된다. 혹은 평균 스펙트럼 s바나 평균 멜 스펙트럼 S바에 의한 제산에 더하여 대수 압축을 수행하는 것으로 정규화를 수행해도 된다.
계속해서 제 2 이산 코사인 변환부(835)는, 기억 영역으로부터 정규화된 필터 뱅크마다의 멜 델타 델타 스펙트럼을 리드하여 이산 코사인 변환하고, 그 결과를 델타 델타 특징량으로서 출력한다(단계(935)). 그리고 처리를 종료한다. 또한, 제 1 및 제 2 실시 형태에 따른 음성 특징량 추출 장치의 델타 델타 특징량 산출부에 의한 델타 델타 특징량 추출 처리는, 도 9(b)에 있어서 단계(925)와 단계(935)의 처리, 또는 단계(935)의 처리를 생략한 경우에 각각 해당한다.
그런데 제 2 및 제 3 실시 형태에서는, 제 1 멜 필터 뱅크 처리부(705), (805) 및 제 2 멜 필터 뱅크 처리부(720), (825)가 사용하는 멜 필터 뱅크의 중요도 대신에, 유성음의 구간에서는 조파 구조 부분에 중요도가 있고, 또 조파 구조가 없는 음성음의 구간에서는 플랫에 가까운 필터(이하, Local Peak Weight라고 함)를, 멜 필터 뱅크의 중요도에 곱한 것을 사용해도 된다. 이와 같이 하여 작성되는 새로운 중요도를 도 10 및 도 11을 참조하여 이하에 설명하였다.
도 10(a)는, 멜 필터 뱅크의 중요도의 한 예를 나타낸 그래프이다. 상술한 것처럼, 제 1 멜 필터 뱅크 처리부(705), (805) 및 제 2 멜 필터 뱅크 처리부(720, (825)는 주파수 방향으로 등간격 설정된 주파수bin마다의 스펙트럼을, 각각에 멜 필터 뱅크의 중요도를 곱하여 합산하는 것으로, 필터 뱅크라고 하기보다 큰 덩어리째로 스펙트럼 변환한다.
필터 뱅크는, 인간의 청각 특성에 적합한 메일 주파수 상에서 등간격으로 되도록 배치되어, 도 10(a)에 나타낸 것처럼 삼각형의 중요도(1000)로서 구성된다. 그리고, 식 7의 우변에 나타낸 것처럼, 주파수bin마다의 필터 뱅크의 기여도를 중요도로 하여, 멜 필터 뱅크의 중요도Mel_FB_Weight(j, i)가 정의된다.
그런데, 인간의 발음은 모음에 있어서 주파 구조를 가진다. 즉, 모든 주파수bin에 평균하게 에너지가 들어가 있는 것이 아니라, 여성이나 어린이와 같이 기본 주파수가 높은 발성의 경우는, 소리의 에너지는 드문드문한 주파수bin에 존재한다. 따라서 상술한 멜 필터 뱅크와 같이, 소리의 에너지가 없는 주파수bin에도 동등한 중요도를 할당하면, 그만큼 잡음을 잡기 쉬어진다. 따라서, 주파 구조에 대응하는 피크의 부분에는 보다 큰 중요도를 할당하여, 곡한 부분에는 보다 작은 중요도를 할당하고, 또, 피크가 관측되지 않을 때에는 통상의 Mel_FB Weight에 점근하도록, 새로운 중요도를 이용하는 것이 바람직하다.
그렇게 하기 위해선 우선, 스펙트럼의 주파 구조에 대응하는 산과 곡의 정보를, 도 10(b)에 나타낸 것과 같은 Local Peak Weight(LPW)로서, 입력 스펙트럼을 근거하여 프레임마다 산출한다. LPW의 산출 방법은 후술한다. 그리고 다음식에 나타낸 것처럼, Mel-FB Weight와 LPW의 곱을 구하여 새로운 중요도로 하고, 그 필터 뱅크마다의 합계에서 빼는 것으로 정규화한 것을, LPW-Mel-FB Weight로 한다.
[식 22]
Figure pct00022

도 10(c)는 이와 같이 하여 구해진 LPW-Mel-FB Weight를 나타낸 그래프이다. 제 2 및 제 3 실시 형태에 있어서 제 1 멜 필터 뱅크 처리부(705, 805) 및 제 2 멜 필터 뱅크 처리부(720, 825)는, 각각 다음식에 나타낸 것처럼, Mel-FB Weight 대신에 LPW-Mel-FB Weight를 이용하여 변환 처리를 수행해도 된다.
[식 23]
Figure pct00023

[식 24]
Figure pct00024

또한, LPW-Mel-FB Weight를 사용하는 것은, 광대역의 잡음에 대한 내성을 높이기 위한 것으로, 잡음이 음악이나 다른 사람의 발성인 경우나, 잡음이 없고 잔향만 있는 경우는, LPW-Mel_FB Weight를 사용할 필요는 없다.
다음으로 도 11을 참조하여, LPW의 작성 방법을 설명하겠다. 또한 LPW의 작성 방법은, 기본적으로는 본원 발명자에 의한 발명을 개시하는 인용 문헌 1에 기재된, 관측 음성을 강조하는 강조 필터의 작성 방법과 같다. 처리는 단계(1100)로부터 개시되며, 우선 관측 음성의 t프레임의 스펙트럼 st의 대수 파워 스펙트럼 Yt를 다음 식에 의해 구한다.
[식 25]
Figure pct00025

계속해서, 다음 식으로 대수 파워 스펙트럼 Yt를 이산 코사인 변환하고, 캡스트럼 Rt를 구한다(단계(1105)).
[식 26]
Figure pct00026

식 26에 있어서 기호DCT는, 식 9의 이산 코사인 변환 행렬D(h, j)에 의한 변환을 나타낸다. 계속해서, 캡스트럼 Rt는, 대수 스펙트럼의 외형의 특징을 추출한 계수이기 때문에, 다음 식으로, 인간의 발성의 주파 구조에 대응한 영역의 항만 남기고, 그 이외의 항을 컷한다(단계(1110)).
[식 27]
Figure pct00027
식 27에 있어서, ε은 0 또는 매우 작은 정수이다. 또, lower_cep_num과 upper_cep_num은, 주파 구조로서 얻을 수 있는 범위에 대응한다. 후술하는 평가 실험에서는, 인간의 발성의 기본 주파수는 100Hz로부터 400Hz 사이에 있다고 가정하고, lower_cep_num=40, upper_cep_num=160으로 설정했다. 단, 이것은 샘플링 주파수 16kHz, FFT폭 512점으로 한 경우의 설정값 예이다.
계속해서, 다음식에 나타낸 것처럼 역이산 코사인 변환을 곱하여, 가공된 캡스트럼 Rt를 대수 스펙트럼 영역에 리턴한다(단계(1115)).
[식 28]
Figure pct00028
식 28에 있어서 기호 DCT-1은, 식 9의 이산 코사인 변환 행렬D(h, j)의 역행렬에 의한 변환을 나타낸다.
마지막 단계(1120)에서는, 우선 식 29에 의해, 역이산 코사인 변환한 결과를, 대수 스펙트럼 영역으로부터 파워 스펙트럼 영역으로 리턴한다. 계속하여 식 30에 의해, 평균치가 1이 되도록 정규화를 수행하고, 최종적으로 LPW를 작성한다. 그리고 처리를 종료한다.
[식 29]
Figure pct00029

[식 30]
Figure pct00030
식 30에 있어서, Num_bin은 주파수bin의 총수이다.
(제 4 실시 형태) 도 12(a)는 본 발명의 제 4 실시 형태에 따른 음성 특징량 추출 장치의 델타 특징량 산출부의 기능 구성을 나타낸다. 제 4 실시 형태에 따른 음성 특징량 추출 장치의 델타 특징량 산출부는, 도 5에 관련하여 설명한 정적 특징량 산출부의 구성 요소에, 제 1 차분 산출부(1215)를 추가한 것이다. 제 1 차분 산출부(1215)는 도 12(a)에 나타낸 것처럼, 다른 모든 구성 요소의 처리 후에 그 처리가 수행되는 위치에 배치된다.
도 12(a)에 나타낸, 멜 필터 뱅크 처리부(1200), 대수 산출부(1205), 및 이산 코사인 변환부(1210)는 각각, 입력 및 출력을 서로 다르게 하는 것만으로, 그 기능은 도 5에 관하여 설명한 정적 특징량 산출부의 대응하는 구성 요소와 같다. 도 12(a)에 나타낸 제 1 차분 산출부(1215)도 또, 입력 및 출력을 서로 다르게 하는 것만으로, 그 기능은 제 1 실시 형태에 따른 음성 특징량 추출 장치의 제 1 차분 산출부(600)와 같다. 따라서 설명을 반복하지 않기 위해, 여기에서는 각 구성 요소의 기능의 설명은 생략한다.
단 상술한 것처럼, 도 12(a)에 나타낸 멜 필터 뱅크 처리부(500)의 그것과 다르게, 프레임화된 음성 신호의 주파수bin마다의 스펙트럼 st에, 상기 주파수bin에 대한 평균 스펙트럼s바를 합한 값이다. 이와 같은 값을 델타 특징량 산출부의 입력으로 하는 것으로, 델타 특징량으로서 최종적으로 얻어지는 값, 즉, 제 1 차분 산출부(1215)의 출력은, 식 21에 의해 나타낸 함수F를 이용하여 정규화를 수행하는 제 3 실시 형태에 따른 음성 특징량 추출 장치의 델타 특징량 산출부에 의해 출력되는 델타 특징량과 거의 등가하다. 하지만, 제 4 실시 형태에 따른 음성 특징량 추출 장치의 델타 특징량 산출부는, 기존의 정적 특징량 추출부를 근소하게 변경하는 것만으로 구성할 수 있는 것에서, 상기 제 3 실시 형태에 따른 음성 특징량 추출 장치의 델타 특징량 산출부보다 바람직하다고 할 수 있다.
또한, 델타 특징량으로서 최종적으로 얻어지는 제 1 차분 산출부(1215)의 출력은 다음 식으로 나타낼 수 있다.
[식 31]
Figure pct00031
식 31에서 필터 뱅크 번호 j는 생략하였다.
(제 5 실시 형태) 도 12(b)는 본 발명의 제 5 실시 형태에 따른 음성 특징량 추출 장치의 델타 특징량 산출부의 기능 구성을 나타낸다. 제 5 실시 형태에 따른 음성 특징량 추출 장치의 델타 특징량 산출부는, 평균 스펙트럼 s바를 합하는 타이밍을, 멜 필터 뱅크 처리부(1220)에 의한 처리 전이 아니라 처리 후로 하는 점을 빼고는, 기본적으로 제 4 실시 형태에 따른 음성 특징량 추출 장치의 델타 특징량 산출부의 구성과 같다. 단, 상기 타이밍에서 평균 스펙트럼 s바를 합할 필요가 있는 것에서, 제 5 실시 형태에 따른 음성 특징량 추출 장치의 델타 특징량 산출부는 제 4 실시 형태에 따른 음성 특징량 추출 장치의 델타 특징량 산출부의 구성 요소에, 새롭게 평균 산출부(1225)를 추가한다.
도 12(b)에 있어서, 평균 산출부(1225)는 멜 필터 뱅크 처리부(1220)로부터 멜 스펙트럼 St를 입력하고, 필터 뱅크마다, 모든 프레임에 대한 멜 스펙트럼 St의 평균인 평균 멜 스펙트럼 S바를 구하고, 대수 산출부(1230)에 출력한다. 대수 산출부(1230)는 멜 필터 뱅크 처리부(1220)로부터 멜 스펙트럼 St를, 또, 평균 산출부(1225)로부터 평균 멜 스펙트럼 S바를 입력하고, 멜 스펙트럼 St에 평균 멜 스펙트럼 S바를 합한 값의 대수를 구하여, 이산 코사인 변환부(1235)에 출력한다.
도 12(b)에 나타낸 그 외의 구성 요소, 즉, 멜 필터 뱅크 처리부(1220), 이산 코사인 처리부(1235), 및 제 1 차분 산출부(1240)는 각각, 입력 및 출력을 서로 다르게 하는 것만으로, 그 기능은 제 4 실시 형태에 수식하는 음성 특징량 추출 장치의 델타 특징량 산출부의 대응하는 구성 요소와 같다. 그렇기 때문에, 그 외의 구성 요소의 설명은 생략한다.
또한, 제 5 실시 형태에 따른 델타 특징량 산출부에 있어서도, 델타 특징량으로서 최종적으로 얻어지는 값, 즉, 제 1 차분 산출부(1240)의 출력은, 식 21에 의해 나타낸 함수F를 이용하여 정규화를 수행하는 제 3 실시 형태에 따른 음성 특징량 추출 장치의 델타 특징량 산출부에 의해 출력되는 델타 특징량과 거의 등가하다. 하지만, 제 5 실시 형태에 수식하는 음성 특징량 추출 장치의 델타 특징량 산출부는, 기존의 정적 특징량 추출부를 근소하게 변경하는 것만으로 구성되는 것에서, 상기 제 3 실시 형태에 따른 음성 특징량 추출 장치의 델타 특징량 산출부보다 바람직하다고 말할 수 있다.
또한, 델타 특징량으로서 최종적으로 얻어지는 제 1 차분 산출부(1240)의 출력은 다음 식으로 나타낼 수 있다.
[식 32]
Figure pct00032
식 32에서 필터 뱅크 번호 j는 생략하였다.
도 13(a)는 본 발명의 제 4 실시 형태에 따른 음성 특징량 추출 장치의 델타 특징량 산출부에 의한 음성의 델타 특징량 추출 처리의 흐름의 한 예를 나타낸 흐름도이다.처리는, 단계(1300)부터 개시되고, 멜 필터 뱅크 처리부(1200)는, 프레임화 된 음성 신호의 각 프레임의 주파수bin마다의 스펙트럼 st 각각에, 발화 전체인 모든 프레임에 대한 평균 스펙트럼 s바를 더한 값을 입력하여, 각 프레임에 대해서, 주파수bin마다의 상기 값에 멜 필터 뱅크의 중요도를 곱하여 합산하고, 그 출력 S1t를 도 3에 나타낸 RAM(330) 등의 기억 영역에 기억시킨다.
계속해서 대수 산출부(1205)는, 기억 영역으로부터 S1t를 리드하고, 각 프레임에 대해서, 필터 뱅크마다 S1t의 대수를 구하여, 그 출력 S1t'를 기억 영역에 기억한다(단계(1305)). 이산 코사인 변환부(1210)는 기억 영역으로부터 S1t'를 리드하고, 각 프레임에 대해서, 필터 뱅크 마다의 S1t'를 이산 코사인 변환하고, 그 출력 C1t를 기억 영역에 기억시킨다(단계(1310)).
마지막으로 제 1 차분 산출부(1215)는, 기억 영역으로부터 C1t를 리드하고, 각 프레임에 대해서, 필터 뱅크마다, 전후의 프레임 사이의 C1t의 차분 ΔC1t를 델타 특징량으로서 산출한다(단계(1315)). 그리고 처리를 종료한다.
도 13(b)는 본 발명의 제 5 실시 형태에 따른 음성 특징량 추출 장치의 델타 특징량 산출부에 의한 음성의 델타 특징량 추출 처리의 흐름의 한 예를 나타낸 흐름도이다. 처리는 단계(1320)부터 개시되고, 멜 필터 뱅크 처리부(1220)는, 프레임화 된 음성 신호의 각 프레임의 주파수bin마다의 스펙트럼을 입력하고, 각 프레임에 대해서, 주파수bin마다의 스펙트럼에 멜 필터 뱅크의 중요도를 곱하여 합산하는 것으로, 필터 뱅크마다의 멜 스펙트럼S를 산출하고, 도 3에 나타낸 RAM(330) 등의 기억 영역에 기억시킨다.
계속하여 평균 산출부(1225)는 기억 영역으로부터 각 프레임의 필터 뱅크마다의 멜 스펙트럼S를 리드하고, 필터 뱅크마다, 발화 전체인 모든 프레임에 대한 평균 멜 스펙트럼 S바를 산출하여 기억 영역에 기억시킨다(단계(1325)). 계속해서, 대수 산출부(1230)는 기억 영역으로부터 각 프레임의 필터 뱅크마다의 멜 스펙트럼S와 필터 뱅크마다의 평균 멜 스펙트럼 S바를 리드하고, 필터 뱅크마다의 멜 스펙트럼S에, 상기 필터 뱅크의 평균 멜 스펙트럼S바를 더한 값 S2t의 대수를 구하고, 그 출력 S2t'를 기억 영역에 기억시킨다(단계(1330)).
계속해서 이산 코사인 변환부(1235)는, 기억 영역으로부터 S2t'를 리드하고, 각 프레임에 대해서, 필터 뱅크마다의 S2t'를 이산 코사인 변환하여, 그 출력 C2t를 기억 영역에 기억시킨다(단계(1335)). 마지막으로 제 1 차분 산출부(1240)는, 기억 영역으로부터 C2t를 리드하고, 각 프레임에 대해서, 필터 뱅크마다, 전후의 프레임 사이의 C2t의 차분 ΔC2t를 델타 특징량으로서 산출한다(단계(1340)). 그리고 처리를 종료한다.
도 14는 본 발명의 제 4 및 제 5 실시 형태에 따른 음성 특징량 추출 장치의 델타 델타 특징량 산출부의 기능 구성을 나타낸다. 제 4 및 제 5 실시 형태에 따른 음성 특징량 추출 장치의 델타 델타 특징량 산출부는, 제 2 차분 산출부(1400)를 포함한다. 제 2 차분 산출부(1400)는, 입력 및 출력을 서로 다르게 하는 것만으로, 그 기능은 제 4 및 제 5 실시 형태에 따른 음성 특징량 추출 장치의 제 1 차분 산출부(1215) 또는 제 1 차분 산출부(1240)와 같다.
즉, 제 2 차분 산출부(1400)는 제 1 차분 산출부(1215) 또는 제 1 차분 산출부(1240)로부터의 출력, 즉 식 31 또는 식 32에 의해 나타내는 델타 멜 캡스트럼 ΔC1t 또는 ΔC2t를 입력하고, 각 프레임에 대해서, 필터 뱅크마다, 전후의 프레임 사이의 델타 멜 캡스트럼 ΔC1t 또는 ΔC2t의 차분 델타 멜 켑스트럼 ΔΔC1t 또는 ΔΔC2t를 델타 델타 특징량으로서 산출한다. 제 2 차분 산출부(1300)의 출력은 다음식에 의해 나타낼 수 있다.
[식 33]
Figure pct00033
식 33에서 필터 뱅크 번호 j는 생략하였다.
도 15는 본 발명의 제 4 및 제 5 실시 형태에 따른 음성 특징량 추출 장치의 델타 델타 특징량 산출부에 의한 델타 델타 특징량 추출 처리의 흐름의 한 예를 나타낸 흐름도이다. 처리는 단계(1500)부터 개시되고, 제 2 차분 산출부(1300)는, 제 1 차분 산출부(1215) 또는 제 1 차분 산출부(1240)로부터의 출력, 즉 식 31 또는 식 32에 의해 나타내는 델타 멜 캡스트럼 ΔC1t 또는 ΔC2t를 입력하고, 각 프레임에 대해서, 필터 뱅크마다, 전후의 프레임 사이의 델타 멜 캡스트럼 ΔC1t 또는 ΔC2t의 차분 델타 멜 캡스트럼 ΔΔC1t 또는 ΔΔC2t를 델타 델타 특징량으로서 산출한다. 그리고 처리를 종료한다.
다음으로 도 16 내지 도 18을 참조하여, 본 발명이 제안하는 특징량을 이용한 음성 인식의 평가 실험에 대해 설명하겠다. 도 16 내지 도 17을 참조하여 설명하는 평가 실험에는, 정보처리학회(IPSJ) SIG-SLP 잡음 하음성 인식 평가 워킹 그룹의, 잔향 환경의 평가용 데이터베이스 CENSREC-4(Corpus and Environment for Noisy Speech RECognishon)를 사용했다.
CENSREC-4는, 잔향이나 잡음이 없는 수록 음성인 드라이 소스에, 여러 가지 잔향 환경의 임펄스 응답을 집어넣는 것으로 잔향 환경을 시뮬레이션한다. CENSREC-4에는, Clean Condition과 Multi-Condition의 2개의 조건 아래에서 평가가 있다. Clean Condition에서는, 잔향이 없는 음성으로 학습한 음향 모델을 사용해서 음성 인식을 실행한다. 한 편 Multi-Condition에서는, 잔향이 있는 음성에서 학습한 음향 모델을 사용하여 음성 인식을 실행한다. 어느 조건 아래에서의 평가도, 음성 인식 실행 시, 즉 테스트 시에는 잔향이 있는 음성 데이터를 사용한다.
CENSREC-4의 테스트 세트는 2개의 테스트 세트(A, B)로 나누어져 있으며, Multi-Condition의 음향 모델의 학습과 같은 잔향 환경에서의 테스트를 테스트 세트A로 하고, 서로 다른 잔향 환경에서의 테스트 세트를 B로 한다. 또 테스트 세트A, B는, 도 16, 17에 나타낸 것처럼, 각각 서로 다른 4개의 환경에 대한 테스트를 포함한다.
CENSREC-4가 베이스 라인으로서 규정하는 특징량은, 정적 특징량으로서 MFCC 12차원, 델타 특징량으로서 델타 MFCC 12차원, 델타 델타 특징량으로서 델타 델타 MFCC 12차원, 또 음성의 대수 파워와 그 델타 및 델타 델타의 3차원을 합친, 합계 39차원의 벡터이다. 즉, CENSREC-4는 상기 39차원의 벡터의 특징량을 사용해서, Clean Condition과 Multi Condition의 각각에 있어서, 음향 모델을 구축하고 있다.
따라서, 본원 발명자는 다음의 2개의 평가 실험을 수행하였다.
평가 실험 1: 정적 특징량 MFCC 12차원만을 사용한 경우와, 거기에 델타 특징량 12차원을 추가한 24차원을 사용한 경우의 문자열 인식률의 비교를 수행하였다. 그 때 델타 특징량으로서는, 델타 MFCC 12차원과, 상술한 제 3 실시 형태에 따른 음성 특징량 추출 장치의 델타 특징량 산출부에 의해 산출되는 선형의 델타 특징량 12차원의 2종류를 평가하였다.
평가 실험 2: 상기 베이스 라인의 39차원에 있어서, 델타 특징량 및 델타 델타 특징량을 각각, 상술한 본 발명의 선형의 델타 특징량과 선형의 델타 델타 특징량으로 바꾼 경우(도 17의 표의 「linear」의 란을 참조)와, 베이스 라인의 39차원을 그대로 유지한 경우(도 17의 표의 「베이스 라인」의 란을 참조)의 문자열 인식률을 비교하였다. 또한, 본 발명의 선형의 델타 특징량 및 선형의 델타 델타 특징량으로서는, 상술한 제 3 실시 형태에 따른 음성 특징량 추출 장치의 델타 특징량 산출부와 델타 델타 특징량 산출부에 의해 각각에 산출되는 것을 사용하였다.
도 16에, 평가 실험 1의 결과를 나타낸다. 평가 실험 1의 결과로부터 이하의 것을 알 수 있다. 즉, 정적 특징량 FMCC 12차원만을 사용했을 때에 비해, 델타 특징량 12차원을 병용하는 것으로 음성 인식률은 개선된다. 또, 델타 특징량으로서 종래 자주 이용되는 델타 MFCC 대신에, 본 발명의 선형의 델타 특징량을 사용하는 것으로, 음성 인식률이 더욱 개선된다. 예를 들면 Clean Condition에서는, 테스트 세트 A, B의 평균 음성 인식률은 델타 MFCC를 사용한 경우의 35.5%에서 59.2%로 비약적으로 개선되었다. Multi-Condition에 있어서도, 테스트 세트 A, B의 평균 음성 인식률은 델타 MFCC를 사용한 경우의 71.9%에서 81.5%로 개선되었다.
또한 도 17에 평가 실험 2의 결과를 나타낸다. 평가 실험 2에 있어서도, 본 발명의 선형의 델타 특징량 및 선형의 델타 델타 특징량을 사용하는 것으로 음성 인식률이 더욱 개선된다. 예를 들면 Clean Condition에서는, 테스트 세트 A, B의 평균 음성 인식률은, 종래의 베이스 라인의 65.2%에서 73.1%로 개선되었다. Multi-Condition에 있어서도, 테스트 세트 A, B의 평균 인식률은, 종래의 베이스 라인의 75.2%에서 82.7%로 개선되었다.
이와 같이, 본 발명의 선형의 델타 특징량 및 선형의 델타 델타 특징량은, 잔향 환경에 있어서 음성 인식률을 대폭으로 개선하고, 평가 실험 1 및 2에 의해 그 잔향 환경에 있어서 특징량으로서의 유효성이 나타났다.
도 18을 참조하여 설명하는 평가 실험에는, 정보처리학회(IPSJ) SIG-SLP 잡음 하 음성 인식 평가 워킹 그룹의, 잡음 환경의 평가용 데이터베이스 CENSREC-3(Corpus and Environment for Noisy Speech RECognishon)을 사용했다.
CENSREC-3은, 자동차 내의 여러 가지 잡음 환경에서 발성한 음성을 수록하고 있어, 정지, 시가지 주행, 고속 주행 등의 주행 조건이나, 에어콘의 팬, 창문 열기, 음악 재생 등의 상황 등의 음성 인식률을 산출할 수 있다. CENSREC-3이 베이스 라인으로서 규정하는 특징량은 상술의 CENSREC-4와 같은 39차원이다. 따라서, CENSREC-3을 사용하여 본원 발명자는 다음의 평가 실험을 수행하였다.
즉, 베이스 라인의 39차원을 유지한 경우(도 18의 표의 「베이스 라인」의 란을 참조)와, 베이스 라인의 39차원에 있어서 MFCC, 델타 MFCC, 및 델타 델타 MFCC를, Mel-FB Weight의 대신에 LPW-Mel-FB Weight를 사용하여 구한 것으로 바꾼 경우(도 18의 표의 「LPW-Mel」의 란을 참조)의 단어 인식률(정확도%)를 비교하였다.
또한, 베이스 라인의 39차원에 있어서, 델타 특징량 및 델타 델타 특징량을 각각 상술한 본 발명의 선형의 델타 특징량과 선형의 델타 델타 특징량으로 바꾼 경우(도 18의 표의 「linear」의 란을 참조)의 단어 인식률(정확도%)도 비교했다. 또한, 본 발명의 선형의 델타 특징량 및 선형의 델타 델타 특징량으로서는, 상술한 제 3 실시 형태에 따른 음성 특징량 추출 장치의 델타 특징량 산출부와 델타 델타 특징량 산출부에 의해 각각에 산출되는 것을 사용했다.
또한, 본 발명의 선형의 델타 특징량 및 선형의 델타 델타 특징량으로서, 상술한 제 3 실시 형태에 따른 음성 특징량 추출 장치에 있어서, Mel-FB Weight의 대신에 LPW-Mel_FB Weight를 사용하는 델타 특징량 산출부와 델타 델타 특징량 산출부에 의해 각가에 산출되는 것을 사용하는 경우(도 18의 표의「LPW-Mel+linear」의 란을 참조)의 단어 인식률(정확도%)도 비교했다.
도 18에. 평가 실험 2의 결과를 나타낸다. 「베이스 라인」과「linear」을 비교하면, 총합에서는 단어 인식률(정확도%)은, 「베이스 라인」이 78.9%인 것에 비해, 「linear」는 83.3% 였고, 본 발명의 선형의 델타 특징량 및 선형의 델타 델타 특징량을 사용하는 것으로 단어 인식률이 개선된다는 것을 알 수 있다. 특히 고속 주행 시의 창문 열림이나 팬 최대 시에 있어서 개선이 현저하지만, 음악 잡음에 대해서도 개선이 보여, 본 발명의 선형의 델타 특징량 및 선형의 델타 델타 특징량이 넓은 범위에서 유효하다가는 것이 알 수 있다.
또한, 「베이스 라인」과「LPW-Mel」을 비교하면, 「LPW-Mel」은 음악 잡음 이외에 그 단어 인식률(정확도%)이「베이스 라인」보다 높고, 개선이 보였다. 특히, 고속 주행시의 창문 열림이나 팬 최대시에 있어서 개선이 현저하였다. 또한, 「베이스 라인」과「LPW-Mel+linear」을 비교하면, 고속 주행시의 창문 열림의 단어 인식률(정확도%)은, 「베이스 라인」이 22.2%인 것에 비해, 「LPW-Mel+linear」는 46.6%이다. 또, 고속 주행시의 팬 최대의 단어 인식률(정확도%)은, 「베이스 라인」이 58.2%인 것에 비해, 「LPW-Mel+linear」는 74.9%이다. 따라서, 본 발명의 선형의 델타 특징량 및 선형의 델타 델타 특징량과 LPW-Mel-FB를 조합하는 것으로, 대폭의 개선이 얻어진다는 것이 알 수 있다.
이상, 실시 형태를 이용하여 본 발명의 설명을 하였는데, 본 발명의 기술 범위는 상기 실시 형태에 기재의 범위에는 한정되지 않는다. 상기의 실시 형태에, 여러 가지의 변경 또는 개량을 더하는 것이 가능하다는 것은 당 업자라면 알 수 있다. 따라서, 그와 같은 변경 또는 개량을 더한 형태도 당연히 본 발명의 기술적 범위에 포함된다.

Claims (21)

  1. 음성 특징량(feature) 추출 장치에 있어서,
    프레임화된 음성 신호의 주파수bin마다의 스펙트럼을 입력하여, 각 프레임에 대해서, 상기 주파수bin마다, 전후의 프레임 사이의 상기 스펙트럼의 차분을 델타 스펙트럼으로서 산출하는 제 1차분 산출 수단과,
    상기 각 프레임에 대해서, 상기 주파수bin마다의 상기 델타 스펙트럼을 상기 주파수bin에 대한 발화(utterance) 전체인 모든 프레임에 대한 스펙트럼의 평균인 평균 스펙트럼의 함수로 제산(divide)하는 것으로 정규화하는 제 1 정규화 처리 수단을 포함하고,
    상기 제 1 정규화 처리 수단의 출력을 델타 특징량으로 하는,
    음성 특징량 추출 장치.
  2. 제1항에 있어서, 상기 평균 스펙트럼의 상기 함수는, 상기 평균 스펙트럼 그 자체인,
    음성 특징량 추출 장치.
  3. 제1항에 있어서, 상기 각 프레임에 대해서, 상기 주파수bin마다의 정규화된 상기 델타 스펙트럼에 멜 필터 뱅크(mel filter bank)의 중요도를 곱하여 합산한 것을, 필터 뱅크마다의 정규화된 멜 델타 스펙트럼으로서 산출하는 제 1 멜 필터 뱅크 처리 수단을 더 포함하고,
    상기 제 1 멜 필터 뱅크 처리 수단의 출력을 델타 특징량으로 하는,
    음성 특징량 추출 장치.
  4. 제3항에 있어서, 상기 필터 뱅크마다의 정규화된 멜 델타 스펙트럼을, 이산 코사인 변환하는 제 1 이산 코사인 변환 수단을 더 포함하고,
    상기 제 1 이산 코사인 변환 수단의 출력을 델타 특징량으로 하는,
    음성 특징량 추출 장치.
  5. 음성 특징량(feature) 추출 장치에 있어서,
    프레임화된 음성 신호의 주파수bin마다의 스펙트럼을 입력하여, 각 프레임에 대해서, 상기 주파수bin마다, 전후의 프레임 사이의 상기 스펙트럼의 차분을 델타 스펙트럼으로서 산출하는 제 1 차분 산출 수단과,
    상기 각 프레임에 대해서, 상기 주파수bin마다의 상기 델타 스펙트럼에 멜 필터 뱅크(mel filter bank)의 중요도를 곱하여 합산한 것을 필터 뱅크마다의 멜 델타 스펙트럼으로서 산출하는 제 1 멜 필터 뱅크 처리 수단과,
    상기 각 프레임에 대해서, 상기 필터 뱅크마다의 멜 델타 스펙트럼을, 상기 필터 뱅크에 대한 발화(utterance) 전체인 모든 프레임에 대한 멜 스펙트럼의 평균인 평균 멜 스펙트럼의 함수로 제산(divide)하는 것으로 정규화하는 제 1 정규화 처리 수단을 포함하고,
    상기 제 1 정규화 처리 수단의 출력을 델타 특징량으로 하는,
    음성 특징량 추출 장치.
  6. 제5항에 있어서, 상기 평균 멜 스펙트럼의 상기 함수는, 상기 평균 멜 스펙트럼 그 자체인,
    음성 특징량 추출 장치.
  7. 제5항에 있어서, 정규화된 상기 필터 뱅크마다의 상기 멜 델타 스펙트럼을, 이산 코사인 변환하는 제 1 이산 코사인 변환 수단을 더 포함하고,
    상기 제 1 이산 코사인 변환 수단의 출력을 델타 특징량으로 하는,
    음성 특징량 추출 장치.
  8. 제7항에 있어서, 임의의 프레임t 및 임의의 필터 뱅크j에 대해서 상기 평균 멜 스펙트럼의 상기 함수는, 프레임t의 필터 뱅크j에 대한 멜 스펙트럼의 값과, 필터 뱅크j에 대한 상기 평균 멜 스펙트럼의 값 중, 큰 쪽의 값 또는 큰 쪽의 값에 가까운 값을 출력하는,
    음성 특징량 추출 장치.
  9. 제4항 또는 제7항에 있어서, 상기 제 1 정규화 처리 수단은, 상기 제산에 더하여 대수 압축을 수행하는 것으로 상기 정규화를 수행하는,
    음성 특징량 추출 장치.
  10. 제4항 또는 제7항에 있어서, 상기 제 1 멜 필터 뱅크 처리 수단은, 상기 멜 필터 뱅크의 중요도 대신에, 유성음의 구간에서는 조파 구조 부분에 중요도가 있고, 또 조파 구조가 없는 무성음의 구간에서는 플랫에 가까운 필터를 상기 멜 필터 뱅크의 중요도에 곱한 것을 사용하는,
    음성 특징량 추출 장치.
  11. 제4항 또는 제7항에 있어서, MFCC(Mel-Frequency Cepstrum Coefficient)를 산출하는 MFCC 산출 수단을 더 포함하고, 상기 MFCC를 정적 특징량으로 하는,
    음성 특징량 추출 장치.
  12. 제5항에 있어서, 상기 델타 스펙트럼을 입력으로 하고, 각 프레임에 대해서, 상기 주파수bin마다, 전후의 프레임 사이의 상기 델타 스펙트럼의 차분을 델타 델타 스펙트럼으로서 산출하는 제 2 차분 산출 수단과,
    상기 각 프레임에 대해서, 주파수bin마다의 상기 델타 델타 스펙트럼에 멜 필터 뱅크의 중요도를 곱하여 합산한 것을, 필터 뱅크마다의 멜 델타 델타 스펙트럼으로서 산출하는 제 2 멜 필터 뱅크 처리 수단과,
    상기 각 프레임에 대해서, 상기 필터 뱅크마다의 상기 멜 델타 델타 스펙트럼을 상기 평균 멜 스펙트럼의 함수로 제산하는 것으로 정규화하는 제 2 정규화 처리 수단을 더 포함하고,
    상기 제 2 정규화 처리 수단의 출력을 델타 델타 특징량으로 하는,
    음성 특징량 추출 장치.
  13. 제7항에 있어서, 상기 델타 스펙트럼을 입력으로 하고, 각 프레임에 대해서, 전후의 프레임 사이의 상기 주파수bin마다의 상기 델타 스펙트럼의 차분을 델타 델타 스펙트럼으로서 산출하는 제 2 차분 산출 수단과,
    상기 각 프레임에 대해서, 주파수bin마다의 상기 델타 델타 스펙트럼에 멜 필터 뱅크의 중요도를 곱하여 합산한 것을, 필터 뱅크마다의 멜 델타 델타 스펙트럼으로서 산출하는 제 2 멜 필터 뱅크 처리 수단과,
    상기 각 프레임에 대해서, 상기 필터 뱅크마다의 상기 멜 델타 델타 스펙트럼을 상기 필터 뱅크에 대한 상기 평균 멜 스펙트럼의 함수로 제산하는 것으로 정규화하는 제 2 정규화 처리 수단과,
    정규화된 상기 필터 뱅크마다의 멜 델타 델타 스펙트럼을, 이산 코사인 변환하는 제 2 이산 코사인 변환 수단을 더 포함하고,
    상기 제 2 이산 코사인 변환 수단의 출력을 델타 델타 특징량으로 하는,
    음성 특징량 추출 장치.
  14. 음성 특징량(feature) 추출 장치에 있어서,
    프레임화된 음성 신호의 각 프레임의 스펙트럼에, 발화(utterance) 전체인 모든 프레임에 대한 스펙트럼의 평균인 평균 스펙트럼을 더한 값을 입력하여, 상기 각 프레임에 대해서, 상기 값에 멜 필터 뱅크의 중요도를 곱하여 합산하는 멜 필터 뱅크(mel filter bank) 처리 수단과,
    상기 각 프레임에 대해서, 상기 멜 필터 뱅크 처리 수단의 출력의 대수를 구하는 대수 산출 수단과,
    상기 각 프레임에 대해서, 상기 대수 산출 수단의 출력을, 이산 코사인 변환하는 이산 코사인 변환 수단과,
    상기 각 프레임에 대해서, 전후의 프레임 사이의 상기 이산 코사인 변환 수단의 출력의 차분을 산출하는 제 1 차분 산출 수단을 포함하고,
    상기 제 1 차분 산출 수단의 출력을 델타 특징량으로 하는,
    음성 특징량 추출 장치.
  15. 음성 특징량(feature) 추출 장치에 있어서,
    프레임화된 음성 신호의 각 프레임의 스펙트럼을 입력하여, 상기 각 프레임에 대해서, 상기 스펙트럼에 멜 필터 뱅크(mel filter bank)의 중요도를 곱하여 합산하는 것으로 멜 스펙트럼을 산출하는 멜 필터 뱅크 처리 수단과,
    각 프레임의 상기 멜 스펙트럼을 입력하여, 발화(utterance) 전체인 모든 프레임에 대한 상기 멜 스펙트럼의 평균인 평균 멜 스펙트럼을 산출하는 평균 산출 수단과,
    상기 각 프레임에 대해서, 상기 멜 스펙트럼에 상기 평균 멜 스펙트럼을 더한 값의 대수를 구하는 대수 산출 수단과,
    상기 각 프레임에 대해서, 상기 대수 산출 수단의 출력을, 이산 코사인 변환하는 이산 코사인 변환 수단과,
    상기 각 프레임에 대해서, 전후의 프레임 사이의 상기 이산 코사인 변환 수단의 출력의 차분을 산출하는 제 1 차분 산출 수단을 포함하고,
    상기 제 1 차분 산출 수단의 출력을 델타 특징량으로 하는,
    음성 특징량 추출 장치.
  16. 제14항 또는 제15항에 있어서, 상기 각 프레임에 대해서, 전후의 프레임 사이의 상기 제 1 차분 산출 수단의 출력의 차분을 산출하는 제 2 차분 산출 수단을 더 포함하고, 상기 2 차분 산출 수단의 출력을 델타 델타 특징량으로 하는,
    음성 특징량 추출 장치.
  17. 프로세서와 기억 영역을 갖춘 컴퓨터에 있어서 실행되는, 음성 특징량(feature)을 추출하는 음성 특징량 추출 프로그램으로서, 상기 음성 특징량 추출 프로그램은, 상기 컴퓨터에,
    상기 프로세서가, 프레임화된 음성 신호의 주파수bin마다의 스펙트럼을 입력하여, 각 프레임에 대해서, 상기 주파수bin마다, 전후의 프레임 사이의 상기 스펙트럼의 차분을 델타 스펙트럼으로서 산출하고, 상기 기억 영역에 기억하는 단계와,
    상기 프로세서가, 상기 각 프레임에 대해서, 상기 주파수bin마다의 델타 스펙트럼에 멜 필터 뱅크(mel filter bank)의 중요도를 곱하여 합산한 것을, 필터 뱅크마다의 멜 델타 스펙트럼으로서 산출하고, 상기 기억 영역에 기억시키는 단계와,
    상기 프로세서가, 상기 각 프레임에 대해서, 상기 필터 뱅크마다의 멜 델타 스펙트럼을, 상기 필터 뱅크에 대한 발화(utterance) 전체인 모든 프레임에 대한 멜 스펙트럼의 평균인 평균 멜 스펙트럼의 함수로 제산(divide)하는 것으로 정규화하고, 상기 기억 영역에 기억하는 단계와,
    상기 프로세서가, 상기 기억 영역으로부터 정규화된 상기 필터 뱅크마다의 멜 델타 스펙트럼을 리드(read)하여, 이산 코사인 변환하는 단계;
    를 실행시켜, 상기 이산 코사인 변환 후의 값을 델타 특징량으로 하는,
    음성 특징량 추출 프로그램.
  18. 제17항에 있어서, 임의의 프레임t 및 임의의 필터 뱅크j에 대해서 상기 평균 멜 스펙트럼의 상기 함수는, 프레임t의 필터 뱅크j에 대한 멜 스펙트럼의 값과, 필터 뱅크j에 대한 상기 평균 멜 스펙트럼의 값 중, 큰 쪽의 값 또는 큰 쪽에 가까운 값을 출력하는,
    음성 특징량 추출 프로그램.
  19. 제17항에 있어서, 상기 평균 멜 스펙트럼의 상기 함수는, 상기 평균 멜 스펙트럼의 그 자체인,
    음성 특징량 추출 프로그램.
  20. 제17항에 있어서, 상기 멜 필터 뱅크의 중요도에 대신하여, 유성음의 구간에서는 조파 구조 부분에 중요도가 있고, 또한 조파 구조가 없는 무성음의 구간에서는 플랫에 가까운 필터를 상기 멜 필터 뱅크의 중요도에 곱한 것이 사용되는,
    음성 특징량 추출 프로그램.
  21. 프로세서와 기억 영역을 갖춘 컴퓨터에 있어서 실행되는, 음성 특징량(feature)을 추출하는 음성 특징량 추출 방법에 있어서,
    프레임화된 음성 신호의 주파수bin마다의 스펙트럼을 입력하여, 각 프레임에 대해서, 상기 주파수bin마다, 전후의 프레임 사이의 상기 스펙트럼의 차분을 델타 스펙트럼으로서 산출하고, 상기 기억 영역에 기억시키는 단계와,
    상기 각 프레임에 대해서, 상기 주파수bin마다의 상기 델타 스펙트럼에 멜 필터 뱅크(mel filter bank)의 중요도를 곱하여 합산한 것을, 필터 뱅크마다의 멜 델타 스펙트럼으로서 산출하고, 상기 기억 영역에 기억시키는 단계와,
    상기 각 프레임에 대해서, 상기 필터 뱅크마다의 멜 델타 스펙트럼을, 상기 필터 뱅크에 대한 발화(utterance) 전체인 모든 프레임에 대한 멜 스펙트럼의 평균인 평균 멜 스펙트럼의 함수로 제산(divide)하는 것으로 정규화하고, 상기 기억 영역에 기억시키는 단계와,
    상기 기억 영역으로부터 정규화된 상기 필터 뱅크마다의 멜 델타 스펙트럼을 리드(read)하여, 이산 코사인 변환하는 단계를 포함하고,
    상기 이산 코사인 변환 후의 값을 델타 특징량으로 하는,
    음성 특징량 추출 방법.
KR1020127005189A 2009-08-28 2010-07-12 음성 특징량 추출 장치, 음성 특징량 추출 방법, 및 음성 특징량 추출 프로그램 KR101332143B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2009197853 2009-08-28
JPJP-P-2009-197853 2009-08-28
PCT/JP2010/061800 WO2011024572A1 (ja) 2009-08-28 2010-07-12 音声特徴量抽出装置、音声特徴量抽出方法、及び音声特徴量抽出プログラム

Publications (2)

Publication Number Publication Date
KR20120046298A true KR20120046298A (ko) 2012-05-09
KR101332143B1 KR101332143B1 (ko) 2013-11-21

Family

ID=43627683

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020127005189A KR101332143B1 (ko) 2009-08-28 2010-07-12 음성 특징량 추출 장치, 음성 특징량 추출 방법, 및 음성 특징량 추출 프로그램

Country Status (8)

Country Link
US (2) US8930185B2 (ko)
JP (2) JP5315414B2 (ko)
KR (1) KR101332143B1 (ko)
CN (1) CN102483916B (ko)
DE (1) DE112010003461B4 (ko)
GB (1) GB2485926B (ko)
TW (1) TW201123169A (ko)
WO (1) WO2011024572A1 (ko)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2795884A4 (en) * 2011-12-20 2015-07-29 Nokia Corp AUDIOCONFERENCING
JP5875414B2 (ja) * 2012-03-07 2016-03-02 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 雑音抑制方法、プログラム及び装置
TWI463487B (zh) * 2012-05-18 2014-12-01 Nyquest Corp Ltd 修音處理裝置、修音處理方法及其驗證裝置
US20150130652A1 (en) * 2012-06-05 2015-05-14 Panasonic Intellectual Property Management Co., Lt Signal processing device
JP6152639B2 (ja) * 2012-11-27 2017-06-28 沖電気工業株式会社 音声帯域拡張装置及びプログラム、並びに、音声特徴量算出装置及びプログラム
US20140278415A1 (en) * 2013-03-12 2014-09-18 Motorola Mobility Llc Voice Recognition Configuration Selector and Method of Operation Therefor
CN104063155B (zh) * 2013-03-20 2017-12-19 腾讯科技(深圳)有限公司 内容分享方法、装置及电子设备
KR101756287B1 (ko) * 2013-07-03 2017-07-26 한국전자통신연구원 음성인식을 위한 특징 추출 장치 및 방법
EP2980801A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals
US9659578B2 (en) * 2014-11-27 2017-05-23 Tata Consultancy Services Ltd. Computer implemented system and method for identifying significant speech frames within speech signals
CN107203539B (zh) * 2016-03-17 2020-07-14 曾雅梅 复数字词学习机的语音评测装置及其评测与连续语音图像化方法
CN106683687B (zh) * 2016-12-30 2020-02-14 杭州华为数字技术有限公司 异常声音的分类方法和装置
EP3574499B1 (en) * 2017-01-26 2022-01-05 Cerence Operating Company Methods and apparatus for asr with embedded noise reduction
US10062378B1 (en) * 2017-02-24 2018-08-28 International Business Machines Corporation Sound identification utilizing periodic indications
CN108449323B (zh) * 2018-02-14 2021-05-25 深圳市声扬科技有限公司 登录认证方法、装置、计算机设备和存储介质
US11170799B2 (en) * 2019-02-13 2021-11-09 Harman International Industries, Incorporated Nonlinear noise reduction system
CN110412366B (zh) * 2019-06-04 2021-06-22 广西电网有限责任公司电力科学研究院 一种基于动态时间算法的变压器带电检测方法
CN113160797B (zh) * 2021-04-25 2023-06-02 北京华捷艾米科技有限公司 音频特征处理方法及装置、存储介质及电子设备

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1013525B (zh) * 1988-11-16 1991-08-14 中国科学院声学研究所 认人与不认人实时语音识别的方法和装置
US6324505B1 (en) * 1999-07-19 2001-11-27 Qualcomm Incorporated Amplitude quantization scheme for low-bit-rate speech coders
GB2355834A (en) * 1999-10-29 2001-05-02 Nokia Mobile Phones Ltd Speech recognition
JP2003255983A (ja) * 2002-03-05 2003-09-10 Nippon Telegr & Teleph Corp <Ntt> コンテンツ情報配信方法、コンテンツ情報配信装置、コンテンツ情報配信プログラム
DE60204827T2 (de) 2001-08-08 2006-04-27 Nippon Telegraph And Telephone Corp. Anhebungsdetektion zur automatischen Sprachzusammenfassung
JP3803302B2 (ja) * 2002-03-06 2006-08-02 日本電信電話株式会社 映像要約装置
JP3907194B2 (ja) 2003-05-23 2007-04-18 株式会社東芝 音声認識装置、音声認識方法及び音声認識プログラム
US7567900B2 (en) 2003-06-11 2009-07-28 Panasonic Corporation Harmonic structure based acoustic speech interval detection method and device
US8438026B2 (en) 2004-02-18 2013-05-07 Nuance Communications, Inc. Method and system for generating training data for an automatic speech recognizer
JP4313724B2 (ja) * 2004-05-18 2009-08-12 日本電信電話株式会社 音声再生速度調節方法、音声再生速度調節プログラム、およびこれを格納した記録媒体
EP2312475B1 (en) 2004-07-09 2012-05-09 Nippon Telegraph and Telephone Corporation Sound signal detection and image signal detection
JP4316583B2 (ja) * 2006-04-07 2009-08-19 株式会社東芝 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
JP2007292827A (ja) * 2006-04-21 2007-11-08 Dainippon Printing Co Ltd 音響信号検索装置
JP4597919B2 (ja) * 2006-07-03 2010-12-15 日本電信電話株式会社 音響信号特徴抽出方法、抽出装置、抽出プログラム、該プログラムを記録した記録媒体、および該特徴を利用した音響信号検索方法、検索装置、検索プログラム、並びに該プログラムを記録した記録媒体
JP4658022B2 (ja) 2006-11-20 2011-03-23 株式会社リコー 音声認識システム
JP4673828B2 (ja) * 2006-12-13 2011-04-20 日本電信電話株式会社 音声信号区間推定装置、その方法、そのプログラム及び記録媒体
JP5089295B2 (ja) * 2007-08-31 2012-12-05 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声処理システム、方法及びプログラム
JP4901657B2 (ja) * 2007-09-05 2012-03-21 日本電信電話株式会社 音声認識装置、その方法、そのプログラム、その記録媒体
KR100930060B1 (ko) 2008-01-09 2009-12-08 성균관대학교산학협력단 신호 검출 방법, 장치 및 그 방법을 실행하는 프로그램이기록된 기록매체
CN101404160B (zh) * 2008-11-21 2011-05-04 北京科技大学 一种基于音频识别的语音降噪方法

Also Published As

Publication number Publication date
JPWO2011024572A1 (ja) 2013-01-24
JP5315414B2 (ja) 2013-10-16
CN102483916A (zh) 2012-05-30
WO2011024572A1 (ja) 2011-03-03
DE112010003461T5 (de) 2012-07-26
GB2485926B (en) 2013-06-05
US20120185243A1 (en) 2012-07-19
GB2485926A (en) 2012-05-30
US8930185B2 (en) 2015-01-06
US20120330657A1 (en) 2012-12-27
CN102483916B (zh) 2014-08-06
DE112010003461B4 (de) 2019-09-05
GB201202741D0 (en) 2012-04-04
TW201123169A (en) 2011-07-01
JP5723923B2 (ja) 2015-05-27
JP2013178575A (ja) 2013-09-09
KR101332143B1 (ko) 2013-11-21
US8468016B2 (en) 2013-06-18

Similar Documents

Publication Publication Date Title
KR101332143B1 (ko) 음성 특징량 추출 장치, 음성 특징량 추출 방법, 및 음성 특징량 추출 프로그램
Bou-Ghazale et al. A comparative study of traditional and newly proposed features for recognition of speech under stress
Hirsch et al. A new approach for the adaptation of HMMs to reverberation and background noise
Wang et al. Speaker identification by combining MFCC and phase information in noisy environments
JP5089295B2 (ja) 音声処理システム、方法及びプログラム
Sonawane et al. Sound based human emotion recognition using MFCC & multiple SVM
Shrawankar et al. Adverse conditions and ASR techniques for robust speech user interface
Nanavare et al. Recognition of human emotions from speech processing
Shahnawazuddin et al. Enhancing noise and pitch robustness of children's ASR
Ghai et al. Exploring the effect of differences in the acoustic correlates of adults' and children's speech in the context of automatic speech recognition
Narayanan et al. Speech rate estimation via temporal correlation and selected sub-band correlation
Chadha et al. Optimal feature extraction and selection techniques for speech processing: A review
WO2003098597A1 (fr) Dispositif d&#39;extraction de noyau syllabique et progiciel associe
JP3587966B2 (ja) 音声認識方法、装置そよびその記憶媒体
Kaur et al. Optimizing feature extraction techniques constituting phone based modelling on connected words for Punjabi automatic speech recognition
CN112151066A (zh) 基于声音特征识别的语言冲突监测方法、介质及设备
Hasija et al. Recognition of Children Punjabi Speech using Tonal Non-Tonal Classifier
Prakash et al. Fourier-Bessel cepstral coefficients for robust speech recognition
Fukuda et al. Improved voice activity detection using static harmonic features
Singh et al. A comparative study of recognition of speech using improved MFCC algorithms and Rasta filters
Rahman et al. Performance evaluation of MLPC and MFCC for HMM based noisy speech recognition
JP4576612B2 (ja) 音声認識方法および音声認識装置
Shome et al. Non-negative frequency-weighted energy-based speech quality estimation for different modes and quality of speech
Kathania et al. Experiments on children's speech recognition under acoustically mismatched conditions
Markov et al. Text-independent speaker recognition using multiple information sources.

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20161026

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20171026

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20191029

Year of fee payment: 7