KR100814143B1 - 데이터 처리 장치 및 데이터 처리 장치 제어 프로그램 - Google Patents

데이터 처리 장치 및 데이터 처리 장치 제어 프로그램 Download PDF

Info

Publication number
KR100814143B1
KR100814143B1 KR1020067005832A KR20067005832A KR100814143B1 KR 100814143 B1 KR100814143 B1 KR 100814143B1 KR 1020067005832 A KR1020067005832 A KR 1020067005832A KR 20067005832 A KR20067005832 A KR 20067005832A KR 100814143 B1 KR100814143 B1 KR 100814143B1
Authority
KR
South Korea
Prior art keywords
data
pattern
pattern model
speaker
voice data
Prior art date
Application number
KR1020067005832A
Other languages
English (en)
Other versions
KR20060087585A (ko
Inventor
마코토 쇼자카이
고슈 나기노
Original Assignee
아사히 가세이 가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 아사히 가세이 가부시키가이샤 filed Critical 아사히 가세이 가부시키가이샤
Publication of KR20060087585A publication Critical patent/KR20060087585A/ko
Application granted granted Critical
Publication of KR100814143B1 publication Critical patent/KR100814143B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/2163Partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)

Abstract

화자의 종류, 발화 어휘, 발화 양식, 발화 환경 등의 특정 조건에 의하여 다양화하는 특징 파라미터의 분포를 고려하여 불특정 화자용 음향 모델을 생성하는데 적합하고, 또한 특정 개인의 음성에 가장 적합한 불특정 화자용의 음향 모델을 제공하는데 적합한 데이터 처리장치 및 데이터 처리 장치 제어 프로그램을 제공한다. 데이터 처리장치(1)을 데이터 분류부(1a)와, 데이터 기억부(1b)와, 패턴 모델 생성부(1c)와, 데이터 제어부 (1d)와, 수학적 거리 산출부(1e)와, 패턴 모델 변화부(1f)와, 패턴 모델 표시부(1g)와, 영역 구분부(1h)와, 구분 내용 변경부(1i)와, 영역 선택부(1i)와, 영역 선택부(1j)와, 특정 패턴 모델 생성부(1k)를 포함한 구성으로 하였다.

Description

데이터 처리 장치 및 데이터 처리 장치 제어 프로그램 {DATA PROCESSING DEVICE AND DATA PROCESSING DEVICE CONTROL PROGRAM}
본 발명은 불특정 대상의 소정의 데이터를 패턴 인식하기 위한 패턴 모델의 생성에 관한 것으로, 특히 대상의 종류, 소정의 데이터의 측정 환경 등, 복수의 요인의 조합에 의한 특정 조건에 따라, 다양화하는 특징 파라미터의 분포를 고려하여 불특정 대상용 패턴 모델을 생성하는데 매우 적합하고, 또한 특정 대상의 소정의 데이터의 패턴 인식에 적합한 불특정 대상용의 패턴 모델을 제공하는데 매우 적합한 데이터 처리 장치, 데이터 처리 장치 제어 프로그램, 패턴 모델 탐색 장치, 패턴 모델 탐색 장치 제어 프로그램 및 특정 패턴 모델 제공 시스템과 복수의 화자 (話者) 음성 데이터에 대하여 생성된 패턴 모델을 사용하여 불특정 화자의 음성 데이터의 가치를 평가하는데 매우 적합한 데이터 처리 장치, 데이터 처리 시스템, 데이터 처리 방법 및 데이터 처리 장치 제어 프로그램과, 복수의 화자 중에서 대상 화자와 음성이 유사한 화자를 검출하는데 매우 적합하고, 한편 대상 화자에 대하여 상기 대상 화자의 음성과 목적 화자의 음성의 유사성을 높이기 위한 정보를 제공하는데 매우 적합한 데이터 처리 장치, 데이터 처리 시스템, 데이터 처리 방법 및 데이터 처리 장치 제어 프로그램에 관한 것이다.
어느 대상에 대하여 그 성질 중 몇 가지를 관측 또는 측정하고, 그 결과 얻은 데이터에 기초하여 대상을 식별 분류하는 패턴 인식과 같은 정보처리 기술이 종래에 알려져 있다.
일반적으로, 패턴 인식의 한 종류인 음성인식은 화자가 발성한 음성 샘플을 어느 특징 파라미터의 계열로 변환하는 음향 분석부와, 음향 분석부에서 얻은 특징 파라미터의 계열을 미리 메모리나 하드 디스크 등의 기억장치에 축적한 어휘 단어의 특징 파라미터에 관한 정보와 상호 대조하여, 가장 유사도가 높은 어휘 단어를 인식 결과로 하는 음성 조합부의 2개의 부분으로 구성된다.
음성 샘플을 어느 특징 파라미터 계열로 변환하는 음향 분석 방법으로서는 캡스트럼 분석이나 선형(線形) 예측 분석 등이 알려져 있고, 비특허 문헌 1에도 상세하게 기술되어 있다.
음성인식 중에서, 불특정 화자의 음성을 인식하는 기술을 일반적으로 불특정 화자 음성인식이라고 부른다. 불특정 화자 음성인식에 있어서는 어휘 단어의 특징 파라미터에 관한 정보가 미리 기억장치에 축적되어 있기 때문에, 특정 화자 음성인식과 같이 사용자가 음성 인식시키고 싶은 단어를 등록하는 작업은 발생하지 않는다.
또한, 어휘 단어의 특징 파라미터에 관한 정보의 작성 및 그 정보와 입력된 음성으로부터 변환된 특징 파라미터의 계열과의 음성 조합 방법으로서는 히든 마르코프 모델 (Hidden Markov Model, HMM)에 의한 방법이 일반적으로 이용되고 있다. HMM에 의한 방법에서는 음절, 반음절, 음운, 음소, 바이폰 (biphone), 트라이폰 (triphone) 등의 음성 단위가 HMM에 의하여 모델화된다. 이들 음성 단위의 패턴 모델을 일반적으로, 음향 모델이라 부른다.
음향 모델의 작성 방법에 대하여는 비특허 문헌 1의 Sec.6.4에 상세하게 기술되어 있다.
또한, 비특허 문헌 1의 Sec. 6.4에 기재되어 있는 비터비 (Viterbi) 알고리즘에 의하여, 당업자는 불특정 화자 음성 인식 장치를 용이하게 구성할 수 있다.
또한, 종래, 음향 모델은 남성/여성의 성별, 어린이/성인/고령자의 연령별, 잡음에 의존하는 발화(發話) 환경 별로, 복수 개 만들어지는 경우가 많았다.
또한, 비특허 문헌 2에는 복수의 고차원의 음향 모델에서의 각 음향 모델 상호 간의 거리를 이용하고, 복수의 고차원의 음향 모델을 자동적으로 클러스터링하는 방법에 대하여 개시되어 있다. 이 클러스터링 방법은 다수의 클러스터링 조건을 설정하고, 적합한 클러스터링 결과를 얻을 때까지, 시행 착오를 겪으면서 몇 번이고 클러스터링을 실시하는 것이다.
비특허 문헌 1: L. Rabiner et al., “Fundamentals of Speech Recognition, “Prentice Hal1, Inc., 1993.
비특허 문헌2: T. Kosaka et al., “Tree-Structured Speaker C1ustering for Fast Speaker Adaptation, “Proc. ICASSP, vol.I, pp.I-245-248, Adelaide, Austra1ia, 1994. 그러나, 상기한 바와 같이, 음향 모델의 종류는 기껏해야, 남성/여성의 성별, 어린이/성인/고령자의 연령별, 잡음에 의존하는 발화 환경 별로 소수개 만들어지는 경우가 많다. 그 때문에, 이러한 음향 모델의 분할은 선험적인 지식 에 기초한 경험적 방법이 되지 않을 수 없어, 수득한 인식율에는 한계가 있었다.
또한, 상기 비특허 문헌 2에서는 음향 모델의 상대적인 원근, 음향 모델의 집단의 수나 집단의 대소 등의 복수의 음향 모델의 상호 관계를, 시각 등에 의하여 간단하고 쉽게 파악하기 위한 수단이 없기 때문에, 매우 적합한 클러스터링 결과를 얻기 위하여, 다수의 클러스터링 조건에 대한 계산을 몇 번이나 반복하여 실시하게 되고, 많은 계산 시간을 필요로 하는 문제가 있었다.
또한, 일반적으로, 고정밀도의 음성 인식을 실현하기 위하여, 음향 모델은 상기 케프스트럼이나, MFCC (Mel-Frequency Cepstrum Coefficient) 등의 고차원 (10-30차원)의 특징 파라미터를 사용하여 생성되기 때문에, 복수의 음향 모델의 상호 관계를 시각적으로 표시하는 것은 곤란하였다.
상기한 것은 음향 모델에 한정되지 않고, 화상 인식 등의 다른 분야의 패턴 모델에 대하여도 적용되는 것이다.
이에, 본 발명은 이러한 종래 기술의 미해결 과제에 주목하여 이루어진 것으로, 복수의 요인의 조합에 의한 특정 조건에 의하여, 다양화하는 특징 파라미터의 분포를 고려하여 불특정 대상용의 패턴 모델을 생성하는데 적합하고, 또한 특정 대상의 소정의 데이터 패턴 인식에 적합한 불특정 대상용 패턴 모델을 제공하는데 매우 적합한 데이터 처리 장치, 데이터 처리 장치 제어 프로그램, 패턴 모델 탐색 장치, 패턴 모델 탐색 장치 제어 프로그램 및 특정 패턴 모델 제공 시스템, 복수의 화자의 음성 데이터에 대하여 생성된 패턴 모델을 사용하여 불특정 화자의 음성 데이터의 가치를 평가하는데 매우 적합한 데이터 처리 장치, 데이터 처리 시스템, 데 이터 처리 방법 및 데이터 처리 장치 제어 프로그램, 및 복수의 화자 중에서 대상 화자와 음성이 유사한 화자를 검출하는데 적합하고, 또한 대상 화자에 대하여, 상기 대상 화자의 음성과 목적 화자의 음성의 유사성을 높이기 위한 정보를 제공하는데 매우 적합한 데이터 처리 장치, 데이터 처리 시스템, 데이터 처리 방법 및 데이터 처리 장치 제어 프로그램을 제공하는 것을 목적으로 하고 있다.
상기 목적을 달성하기 위하여, 본 발명에 관한 청구 범위 제1항에 기재된 데이터 처리장치는 복수의 대상에 관한 복수의 소정의 데이터를, 복수의 특정 조건에 기초하여, 복수의 그룹으로 분류하는 데이터 분류 수단과 상기 데이터 분류 수단에 의하여 분류된 상기 소정의 데이터에 기초하여, 상기 소정의 데이터의 각 그룹마다 4차원 이상의 고차원의 요소를 가지는 복수의 패턴 모델을 생성하는 패턴 모델 생성 수단과, 상기 패턴 모델 생성 수단에 의하여 각 그룹마다 생성된 패턴 모델의 각 패턴 모델 상호 간의 수학적 거리를 산출하는 수학적 거리 산출 수단과, 상기 수학적 거리 산출 수단에 의하여 산출된 상기 수학적 거리에 기초하여, 상기 각 패턴 모델 상호 간의 거리 관계를 유지하면서, 상기 복수의 패턴 모델을 그보다 저차원의 동일한 수의 패턴 모델 대응 저차원 벡터로 변환하는 패턴 모델 변환 수단과,
상기 복수의 패턴 모델 대응 저차원 벡터를, 저차원의 요소의 값에 기초하여, 상기 거리 관계를 유지한 상태로, 상기 패턴 모델 대응 저차원 벡터와 동일한 차원의 저차원 공간상의 좌표점으로서 표시하는 패턴 모델 대응 저차원 벡터 표시 수단을 포함하는 것을 특징으로 하고 있다.
상기와 같은 구성으로 하면, 데이터 분류 수단에 의하여, 복수 대상에 관한 복수의 소정의 데이터를, 복수의 특정 조건에 기초하여, 복수의 그룹으로 분류하는 것이 가능하고, 패턴 모델 생성 수단에 의하여, 상기 데이터 분류 수단에 의하여 분류된 소정의 데이터에 기초하여, 상기 소정의 데이터의 각 그룹마다 4차원 이상의 고차원의 요소를 가지는 복수의 패턴 모델을 생성하는 것이 가능하고, 수학적 거리 산출 수단에 의하여, 상기 패턴 모델 생성 수단에 의하여 각 그룹마다 생성된 패턴 모델의 각 패턴 모델 상호 간의 수학적 거리를 산출하는 것이 가능하고, 패턴 모델 변환 수단에 의하여, 상기 수학적 거리 산출 수단에 의하여 산출된 상기 수학적 거리에 기초하여, 상기 각 패턴 모델 상호 간의 거리 관계를 유지하면서, 상기 복수의 패턴 모델을 그보다 저차원의 동일한 수의 패턴 모델 대응 저차원 벡터로 변환하는 것이 가능하고, 패턴 모델 대응 저차원 벡터 표시 수단에 의하여, 상기 복수의 패턴 모델 대응 저차원 벡터를, 저차원의 요소의 값에 기초하여, 상기 거리 관계를 유지한 상태로, 상기 패턴 모델 대응 저차원 벡터와 동일한 차원의 저차원 공간상의 좌표점으로서 표시하는 것이 가능하다.
따라서, 각 패턴 모델 상호 간의 거리 관계 (유사 관계)를 시각적으로 간단하고 쉽게 파악하는 것이 가능하게 된다. 또한, 4차원 이상의 고차원의 패턴 모델을 3차원 이하의 저차원의 패턴 모델로 변환하는 것이 가능하게 되므로, 클러스터링 등의 여러 가지 처리가 실시하기 쉬워진다.
이때, 패턴 모델이라 함은, 예를 들면 소정의 데이터가 음성 데이터인 경우에, 이 음성 데이터에 대하여 매칭을 실시하는 패턴을 모델화한 것으로서, 통계 모델 등을 사용하여 표현되는 것이다.
또한, 소정의 데이터로서는 예를 들면, 인간의 음성, 주택 내의 생활 잡음, 공장 소음, 교통 소음 등의 음향 데이터나 새, 곤충, 개구리, 박쥐, 동물 등의 야생 생물의 울음 소리 데이터, 화상 데이터, 적외선 센서 데이터, 가속도 센서 데이터, 방위각 센서 데이터, 압력 센서 데이터, 압전 소자나 진동계 등의 진동 센서 데이터 및 그 외의 모든 센서 데이터, 리튬 이온 2차 전지나 연료 전지 등의 전지의 충전 상황에 관한 물리적 데이터, 심전도, 근전도, 혈압, 체중 등의 생체 신호 데이터, 유전자 해석용 마이크로 어레이 데이터, 기온, 습도, 기압 등의 기상 데이터, 산소 농도, 질소 산화물 농도 등의 환경 데이터, 주가, 물가 등의 경제 동향 데이터 등의 시계열 데이터 등이 있다.
또한, 패턴 모델을 4차원 이상의 고차원의 요소를 포함하는 모델로 하였는데, 이것은, 예를 들면 음성인식 등의 패턴 인식에서 적어도 4차원 이상의 특징 파라미터를 이용하지 않으면 높은 인식 성능을 얻을 수 없기 때문이고, 또한 음성인식에서는 실용상 유효한 인식 성능을 실현 가능한 3차원 이하의 특징 파라미터가 현재로서는 발견되지 않았기 때문이다.
또한, 소정의 데이터란, 예를 들면 복수 대상으로부터 측정할 수 있는 데이터 그 자체, 상기 데이터로부터 추출한 특징량, 상기 특징량에 기초하여 생성한 패턴 모델 등과 그러한 내용을 기술한 텍스트 파일의 조(組)를 가리킨다. 예를 들면, 복수의 화자가 발성한 음성 데이터, 상기 음성 데이터로부터 추출한 특징량, 상기 특징량에 기초하여 생성한 패턴 모델 등과 상기 발성 내용을 기술한 텍스트 파일의 조(組)가 된다.
또한, 수학적 거리라 함은 특정 대상의 소정의 데이터로부터 생성되는 패턴 모델과 복수 대상의 패턴 모델의 유사도를 나타내는 것으로, 이 유사도를 측정하는 측정수단의 종류에 따라 여러 가지가 있다. 이 측정수단은, 예를 들면 유클리드 거리 등의 보통 측정단위로도 측정할 수 있는 거리에 대응하는 것이나, 유사도를 측정하는 거리를 두 개의 벡터의 내적으로 하고, 두 개의 벡터가 이루는 각을 유사도로서 평가하는 마하라노비스의 범거리 등의, 보통의 측정기구로는 측정할 수 없는 유사도에 대응하는 것이 있다. 또한, 본 발명에서는 수학적 거리로서 그 밖에, 바타체리야 (Bhattachariya) 거리, 평방 유클리드 거리, 코사인 거리, 피어손의 상관, 체비쉐프, 도시 블록 거리 (또는 맨하탄 거리), 민코우스키 합, 쿨백 정보량, 체르노프 거리 등이 있다. 즉, 거리라고 부르고 있기는 하지만, 유사도를 나타내는 것이면 어떠한 것이든 좋다.
또한, 상기 패턴 모델 변환 수단은, 예를 들면 투영 등을 이용하여, 4차원 이상의 고차원의 정보를, 처리를 하기 쉬운 2차원이나 3차원 등의 저차원의 정보로 변환한다. 예를 들면, 상호 간의 수학적 거리가 작은 2개의 패턴 모델은 서로 가깝게, 상호 간의 수학적 거리가 큰 2개의 패턴 모델은 서로 멀리 위치하도록 모든 패턴 모델을 저차원 공간 (예를 들면, 2차원, 3차원 공간)에 투영한다.
예를 들면, 수학적 거리의 산출에 유클리드 거리를 사용하였을 경우, 투영된 저차원 공간에서, 유클리드 거리가 가까운 패턴 모델은 패턴 모델이 상호 유사한 것을 의미하는 것으로 생각할 수 있다.
또한, 고차의 패턴 모델을, 그보다 저차의 패턴 모델 대응 저차원 벡터로 변환하여 저차원 공간상에 표시하는 공지의 수법으로서는 새먼법 (J. W. Sammon, "A nonlinear mapping for data structure ana1ysis," IEEE Trans. Computers, vol. C-18, no.5, pp.401-409, May 1969. 참조), 판별 분석법 (R. A. Fisher, "The use of multiple measurements in taxonomic Problems," Ann. Eugenics, vol. 7, no. PartII, pp.179-188, 1936. 참조), Aladjam법 (M. Aladjem, “Multiclass discriminant mappings," Signa1 Process., vol.35, pp.1-18, 1994. 참조), 뉴럴 네트워크 (neural network)에 의한 수법 (J. Mao et al., "Altificial neural networks for feature extraction and multivariate data projection," IEEE Trans. Neural Networks, vo1. 6, no. 2, pp.296-317, 1995. 참조), 그래프를 이용한 수법 (Y.Mori et al., "Comparison of 1ow-dimensional mapping techniques based on dischminatory information, "Pro. 2nd International ICSC Symposium on Advances in Intelligent Data Analysis (AIDA' 2001), CD-ROM Paper-no. 1724-166, Bangor, United Kingdom, 2001. 참조), 투영 추적법 (J. H. Freidman et al., "A projection pursuit algorithm for exploratory data ana1ysis," IEEE Trans. Comput., vo1. C-23, no. 9, pp. 881-889, 1974. 참조), SOM법 (T. Kohonen, "Self- Organizing Maps," Springer Series in Information Sciences, vol. 30, Berlin, 1995. 참조) 등이 있다.
또한, 청구 범위 제2항에 관한 발명은 청구 범위 제1항에 기재된 데이터 처리 장치에서의 상기 복수 대상에 관한 복수의 소정의 데이터는 음성 데이터, 생활 잡음 데이터, 울음 소리 데이터, 화상 데이터, 적외선 데이터 및 가속도 데이터 중 어느 하나인 것을 특징으로 하고 있다.
즉, 데이터 처리 장치에서 인간의 음성 데이터, 주택 내의 생활 잡음 등의 생활 잡음 데이터, 들새, 곤충, 개구리, 박쥐, 동물 등의 야생 생물의 울음 소리 데이터, 화상 데이터, 적외선 센서 데이터 및 가속도 센서 데이터 중 어느 1 종류의 데이터로부터 패턴 모델을 생성하는 것이 가능하다.
또한, 청구 범위 제3항에 관한 발명은 청구 범위 제1항에 기재된 데이터 처리 장치에서 상기 복수 대상에 관한 복수의 소정의 데이터는 복수의 화자가 발성한 복수의 음성 데이터로서, 상기 복수의 특정 조건은 적어도, 화자의 종류, 발화 어휘, 발화 양식 및 발화 환경을 포함하는 것을 특징으로 하고 있다.
따라서, 적어도, 화자의 이름, 남성/여성의 성별, 어린이/성인/고령자의 연령별 등의 화자의 종류, 발화하는 숫자, 문장, 단어 등의 발화 어휘, 발화 속도, 발화 음량, 방언에 유래하는 특징 등의 발화 양식 및 실내, 자동차 내, 공장 내, 옥외 (장소 등에 따라 종류를 나눈다) 등의 발화 환경을 고려하여 음성 데이터에 대한 패턴 모델을 생성하는 것이 가능하다.
또한, 청구 범위 제4항에 관한 발명은 청구 범위 제1항 내지 청구 범위 제3항 중 어느 하나의 항에 기재된 데이터 처리 장치에서 상기 데이터 분류 수단은 상기 복수의 특정 조건을 각각 임의로 조합한 각 조마다 상기 그룹을 형성하는 것을 특징으로 하고 있다.
즉, 상기 데이터 분류 수단은 상기 복수의 특정 조건을 각각 임의로 조합한 각 조마다 상기 그룹을 형성하는 것이 가능하다.
따라서, 예를 들면 소정의 데이터가 음성 데이터의 경우에, 실내 (발화 환경)에서 성인 남자 (화자의 종류)가 단어 (발화 어휘)를 빠른 속도 (발화 양식)로 발화한 경우와 같이, 임의의 특정 조건의 조합을 하나의 그룹으로서 형성하는 것이 가능하게 된다. 물론, 예를 들면 실내 (발화 환경)에서 성인 남자 (화자의 종류)가 발화하였다고 한 바와 같이, 더 큰 그룹으로 나누어도 좋다.
또한, 청구 범위 제5항에 관한 발명은 청구 범위 제1항 내지 청구 범위 제4항 중 어느 하나의 항에 기재된 데이터 처리 장치에서 상기 패턴 모델은 HMM (Hidden Markov Model)에 의하여 생성되는 것을 특징으로 하고 있다.
즉, 상기 패턴 모델은 HMM (Hidden Markov Model)에 의하여 생성된다.
예를 들면, 음성은 말하는 속도에 의하여 그 시간적 길이가 바뀌고, 발성 내용에 의하여, 주파수 영역상에서 특징적인 형상 ("스펙트럼 포락"이라 한다)을 나타내지만, 그 형상은 상기 특정 조건에 의존하여 변동이 생긴다. 예를 들면, 상기 HMM는 그러한 변동을 흡수할 수 있는 통계적 모델이다.
또한, 청구 범위 제6항에 관한 발명은 청구 범위 제5항에 기재된 데이터 처리 장치에서 상기 수학적 거리 산출 수단은 상기 HMM에 의하여 생성된, 상기 패턴 모델의 정규 분포의 평균 벡터에 기초하는 유클리드 거리, 상기 패턴 모델의 정규 분포의 표준 편차에 의하여 정규화된 상기 패턴 모델의 정규 분포의 평균 벡터에 기초하는 유클리드 거리, 및 상기 패턴 모델의 정규 분포에 기초하는 바타체리야 거리의 어느 하나를 사용하여 상기 수학적 거리를 산출하는 것을 특징으로 하고 있다.
즉, 상기 수학적 거리 산출 수단은 상기 HMM에 의하여 생성된, 상기 패턴 모델의 정규 분포의 평균 벡터에 기초하는 유클리드 거리, 상기 패턴 모델의 정규 분포의 표준 편차에 의하여 정규화된 상기 패턴 모델의 정규 분포의 평균 벡터에 기초하는 유클리드 거리, 및 상기 패턴 모델의 정규 분포에 기초하는 바타체리야 거리 중 어느 하나를 사용하여 상기 수학적 거리를 산출하는 것이 가능하다.
따라서, 상기 몇 가지 거리를 사용함으로써, 각 패턴 모델 간의 보다 적절한 수학적 거리를 산출하는 것이 가능하다.
또한, 청구 범위 제7항에 관한 발명은 청구 범위 제1항 내지 청구 범위 제6항 중 어느 하나의 항에 기재된 데이터 처리 장치에서 상기 패턴 모델 변환 수단은 새먼법을 사용하여 상기 패턴 모델을 상기 패턴 모델 대응 저차원 벡터로 변환하는 것을 특징으로 하고 있다.
즉, 상기 패턴 모델 변환 수단은 새먼법을 사용하여, 상기 패턴 모델을 상기 패턴 모델 대응 저차원 벡터로 변환하는 것이 가능하다.
따라서, 공지의 새먼법을 사용함으로써, 각 패턴 모델 상호 간의 거리 관계를 유지하면서, 복수의 패턴 모델을 이것과 동일한 수의 패턴 모델 대응 저차원 벡터로 변환하는 것이 가능하다.
또한, 청구 범위 제 8항에 관한 발명은 청구 범위 제1항 내지 청구 범위 제7항 중 어느 하나의 항에 기재된 데이터 처리 장치에서 상기 패턴 모델 대응 저차원 벡터 표시 수단에 의하여 상기 저차원 공간상에 표시되는 상기 복수의 패턴 모델 대응 저차원 벡터의 좌표점을, 상기 저차원 공간상에서의 복수의 영역으로 자동으로 구분하는 영역 구분 수단을 포함하는 것을 특징으로 하고 있다.
이러한 구성이라면, 영역 구분 수단에 의하여, 상기 패턴 모델 대응 저차원 벡터 표시 수단에 의하여 상기 저차원 공간상에 표시되는 상기 복수의 패턴 모델 대응 저차원 벡터의 좌표점을, 상기 저차원 공간상에서의 복수의 영역에 자동적으로 구분하는 것이 가능하다.
따라서, 복수의 패턴 모델 대응 저차원 벡터의 좌표점을 간단하고 쉽게 구분하는 것이 가능하고, 이로써, 특정의 패턴 모델이 어느 구분 영역에 해당하는지, 시각적으로 간편하게 파악할 수 있게 된다.
또한, 청구 범위 제 9항에 관한 발명은 청구 범위 제 8항에 기재된 데이터 처리 장치에서 상기 영역 구분 수단은 상기 복수의 패턴 모델 대응 저차원 벡터를, 상기 전체 패턴 모델 대응 저차원 벡터의 좌표점의 중심을 기준으로 하고, 또한 상기 중심과 상기 기준으로부터 가장 멀리 떨어진 위치의 패턴 모델 대응 저차원 벡터의 좌표점과의 거리를 반경으로 하는 1개의 바깥쪽 원과 상기 중심을 기준으로 하고 또한 상기 바깥 원보다 반경이 작은 n개의 안쪽 원 (n는 1 이상의 정수)에 의하여 구분하고, 또한 상기 바깥쪽 원 및 안쪽 원으로 이루어지는 복수의 동심원끼리의 각 외주 사이에 형성되는 환상의 영역을, 반경 방향으로 그은 선에 의하여 복수 개로 구분하는 것을 특징으로 하고 있다.
따라서, 상기 바깥쪽 원 및 안쪽 원으로 이루어지는 복수의 동심원끼리의 각 외주 사이에 형성되는 환상의 영역을, 복수의 선형의 영역으로 구분하는 것이 가능하게 된다.
또한, 청구 범위 제10항에 관한 발명은 청구 범위 제8항 또는 청구 범위 제9항에 기재된 데이터 처리 장치에서 상기 영역 구분 수단에 의하여 자동 구분된 구분 내용을 변경하는 구분 내용 변경 수단을 포함하는 것을 특징으로 하고 있다.
이러한 구성이라면, 구분 내용 변경 수단에 의하여, 상기 영역 구분 수단에 의하여 자동 구분된 구분 내용을 변경하는 것이 가능하다.
따라서, 구분 내용이 적절하지 않을 때나, 새로운 패턴 모델이 추가되었을 때 등의 경우, 적절한 구분 내용으로 변경하는 것이 가능하다.
또한, 시각화된 패턴 모델의 구분 내용을 변경하게 되므로, 용이하게 구분 내용의 변경을 실시하는 것이 가능하다.
또한, 청구 범위 제11항에 관한 발명은 청구 범위 제8항 내지 청구 범위 제10 항 중 어느 하나의 항에 기재된 데이터 처리 장치에서 상기 영역 구분 수단에 의하여 구분된 각 영역마다 복수의 상기 패턴 모델 대응 저차원 벡터를 선택 가능한 영역 선택 수단과, 상기 영역 선택 수단에 의하여 선택된 영역 내에 있는 상기 복수의 패턴 모델 대응 저차원 벡터에 각각 대응하는 상기 패턴 모델에 관련된다, 상기 소정의 데이터에 기초하여, 상기 패턴 모델을 생성하는 영역 패턴 모델 생성 수단을 포함하는 것을 특징으로 하고 있다.
이러한 구성이라면, 영역 선택 수단에 의하여, 상기 영역 구분 수단에 의하여 구분된 각 영역마다 복수의 상기 패턴 모델 대응 저차원 벡터를 선택하는 것이 가능하고, 영역 패턴 모델 생성 수단에 의하여, 상기 영역 선택 수단에 의하여 선택된 영역 내에 있는 상기 복수의 패턴 모델 대응 저차원 벡터에 각각 대응하는 상기 패턴 모델과 관련된 상기 소정 데이터에 기초하여, 상기 패턴 모델을 생성하는 것이 가능하다.
따라서, 예를 들면 특정 대상의 패턴 모델 대응 저차원 벡터가 포함되는 영역에 대응하는 소정의 데이터를 사용하여 패턴 모델을 생성함으로써, 특정 대상을 위한 적절한 패턴 모델의 생성이 가능하다.
또한, 특정 구분 영역의 소정의 데이터를 사용하여 패턴 모델을 생성하므로, 패턴 모델을 소규모로 하는 것이 가능하고, 패턴 모델이 사용하는 메모리 용량을 줄일 수 있다.
또한, 청구 범위 제12항에 기재된 데이터 처리 장치 제어 프로그램은 청구 범위 제1항에 기재된 데이터 처리 장치를 제어하기 위한 컴퓨터가 실행 가능한 프로그램으로서,
복수 대상에 관한 복수의 소정의 데이터를, 복수의 특정 조건에 기초하여, 복수의 그룹으로 분류하는 데이터 분류 스텝과,
상기 데이터 분류 스텝에 대하여 분류된 상기 소정의 데이터에 기초하여, 상기 소정의 데이터의 각 그룹마다 4차원 이상의 고차원의 요소를 가지는 복수의 패턴 모델을 생성하는 패턴 모델 생성 스텝과,
상기 패턴 모델 생성 스텝에서 각 그룹마다 생성된 패턴 모델의 각 패턴 모델 상호 간의 수학적 거리를 산출하는 수학적 거리 산출 스텝과,
상기 수학적 거리 산출 스텝에 대하여 산출된 상기 수학적 거리에 기초하여, 상기 각 패턴 모델 상호 간의 거리 관계를 유지하면서, 상기 복수의 패턴 모델을 그보다 저차원의 동일한 수의 패턴 모델 대응 저차원 벡터로 변환하는 패턴 모델 변환 스텝과,
상기 복수의 패턴 모델 대응 저차원 벡터를, 저차원의 요소의 값에 기초하여, 상기 거리 관계를 유지한 상태로, 상기 패턴 모델 대응 저차원 벡터와 동일한 차원의 저차원 공간상의 좌표점으로서 표시하는 패턴 모델 대응 저차원 벡터 표시 스텝을 포함하는 것을 특징으로 하고 있다.
이때, 본 발명은 청구 범위 제1항에 기재된 데이터 처리 장치를 제어하기 위한 프로그램으로서, 그 효과는 중복되므로 기재를 생략한다.
또한, 청구 범위 제13항에 관한 발명은 청구 범위 제12항에 기재된 데이터 처리 장치 제어 프로그램에서 상기 패턴 모델 대응 저차원 벡터 표시 스텝에 대하여 저차원 공간상에 표시되는 상기 복수의 패턴 모델 대응 저차원 벡터를, 상기 저차원 공간상에서 복수의 영역에 자동적으로 구분하는 영역 구분 스텝과, 상기 영역 구분 스텝에 의하여 자동 구분된 구분 내용을 변경하는 구분 내용 변경 스텝과,
상기 영역 구분 스텝에 의하여 구분된 각 영역마다 복수의 상기 패턴 모델 대응 저차원 벡터를 선택하는 영역 선택 스텝과,
상기 영역 선택 스텝에 의하여 선택된 영역 내의 상기 패턴 모델 대응 저차원 벡터에 대응하는 상기 패턴 모델에 관한 상기 소정의 데이터에 기초하여, 선택 영역에 대응하는 상기 패턴 모델을 생성하는 영역 패턴 모델 생성 스텝을 포함하는 것을 특징으로 하고 있다.
이때, 본 발명은 청구 범위 제11항에 기재된 데이터 처리 장치를 제어하기 위한 프로그램으로서, 그 효과는 중복되므로 기재를 생략한다.
또한, 청구 범위 제14항에 기재된 패턴 모델 탐색 장치는 청구 범위 제1항 내지 청구 범위 제7항 중 어느 하나의 항에 기재된 데이터 처리 장치에 의하여 표시되는 상기 저차원 공간상의 좌표점을, 상기 저차원 공간상에서의 복수의 영역에 자동적으로 구분하는 영역 구분 수단과,
상기 구분된 영역 내에 포함되는 상기 패턴 모델 대응 저차원 벡터의 좌표점에 대응하는 소정의 데이터에 기초하여, 각 영역 마다의 영역 패턴 모델을 생성하는 영역 패턴 모델 생성 수단과,
신규 대상에 관한 소정의 데이터를 취득하는 소정의 데이터 취득 수단과,
상기 취득한 소정의 데이터에 대한 상기 구분된 각 영역에 대응하는 영역 패턴 모델의 우도 (likelihood)를 산출하고, 상기 산출한 우도에 기초하여 상기 신규 대상의 소정의 데이터를 인식하는데 적합한 인식 성능의 영역 패턴 모델을 탐색하는 영역 패턴 모델 탐색 수단을 포함하는 것을 특징으로 하고 있다.
이러한 구성이라면, 영역 구분 수단에 의하여, 상기 저차원 공간상의 좌표점을, 상기 저차원 공간상에서의 복수의 영역에 자동적으로 구분하는 것이 가능하고, 영역 패턴 모델 생성 수단에 의하여, 상기 구분된 영역 내에 포함되는 상기 패턴 모델 대응 저차원 벡터의 좌표점에 대응하는 소정의 데이터에 기초하여, 각 영역 마다의 영역 패턴 모델을 생성하는 것이 가능하고, 소정의 데이터 취득 수단에 의하여, 상기 신규 대상에 관한 소정의 데이터를 취득하는 것이 가능하며, 영역 패턴 모델 탐색 수단에 의하여, 상기 취득한 소정의 데이터에 대한 상기 구분된 각 영역에 대응하는 영역 패턴 모델의 우도를 산출하고, 상기 산출한 우도에 기초하여 상기 신규 대상의 소정의 데이터의 인식에 적절한 인식 성능의 영역 패턴 모델을 탐색하는 것이 가능하다.
따라서, 신규 대상에 관한 소정의 데이터에 대한 구분 결과의 각 영역에 대응하는 영역 패턴 모델의 우도에 기초하여, 각 영역 패턴 모델 중에서 신규 대상의 소정의 데이터를 패턴 인식하는데 적합한 영역 패턴 모델을 탐색하는 것이 가능하다.
또한, 청구 범위 제15항에 기재된 패턴 모델 탐색 장치 제어 프로그램은 청구 범위 제14항에 기재된 패턴 모델 탐색 장치를 제어하기 위한 컴퓨터가 실행 가능한 프로그램으로서, 청구 범위 제1항 내지 청구 범위 제7항 중 어느 하나의 항에 기재된 데이터 처리 장치에 의하여 표시되는 상기 저차원 공간상의 좌표점을, 상기 저차원 공간상에서의 복수의 영역에 자동적으로 구분하는 영역 구분 스텝과,
상기 구분된 영역 내에 포함되는 상기 패턴 모델 대응 저차원 벡터의 좌표점에 대응하는 음성 데이터에 기초하여, 각 영역 마다의 패턴 모델을 생성하는 영역 패턴 모델 생성 스텝과,
신규 대상에 관한 소정의 데이터를 취득하는 소정의 데이터 취득 스텝과,
상기 취득한 소정의 데이터에 대한 상기 구분된 각 영역에 대응하는 영역 패턴 모델의 우도를 산출하고, 상기 산출한 우도에 기초하여 상기 신규 대상의 소정의 데이터를 인식하는데 적합한 인식 성능의 영역 패턴 모델을 탐색하는 영역 패턴 모델 탐색 스텝을 포함하는 것을 특징으로 하고 있다.
이때, 본 발명은 청구 범위 제14항에 기재된 패턴 모델 탐색 장치를 제어하기 위한 프로그램으로서, 그 효과는 중복되므로 기재를 생략한다.
한편, 상기 목적을 달성하기 위하여, 본 발명에 관한 청구 범위 제16항에 기재된 데이터 처리 장치는 복수의 대상에 관한 복수의 소정의 데이터를 복수의 특정 조건에 기초하여 복수의 그룹으로 분류하는 데이터 분류 수단과,
상기 데이터 분류 수단에 의하여 분류된 상기 소정의 데이터에 기초하여, 상기 소정의 데이터의 각 그룹마다 4차원 이상의 고차원의 요소를 가지는 복수의 패턴 모델을 생성하는 패턴 모델 생성 수단과,
상기 패턴 모델 생성 수단에 의하여 각 그룹마다 생성된 패턴 모델의 각 패턴 모델 상호 간의 수학적 거리를 산출하는 수학적 거리 산출 수단과,
상기 수학적 거리 산출 수단에 의하여 산출된 상기 수학적 거리에 기초하여, 상기 각 패턴 모델 상호 간의 거리 관계를 유지하면서, 상기 복수의 패턴 모델을 그보다 저차원의 동일한 수의 패턴 모델 대응 저차원 벡터로 변환하는 패턴 모델 변환 수단과,
상기 복수의 패턴 모델 대응 저차원 벡터를, 저차원의 요소의 값에 기초하여, 상기 거리 관계를 유지한 상태로, 상기 패턴 모델 대응 저차원 벡터와 동일한 차원의 저차원 공간상의 좌표점으로서 표시하는 패턴 모델 대응 저차원 벡터 표시 수단을 포함하고,
상기 수학적 거리 산출 수단은 상기 수학적 거리의 산출에 대하여, 상기 복수의 대상에 관한 복수의 소정의 데이터에서의 각 패턴 단위의 출현 빈도를 사용하는 것을 특징으로 하고 있다.
이러한 구성이라면, 데이터 분류 수단에 의하여, 복수의 대상에 관한 복수의 소정의 데이터를, 복수의 특정 조건에 기초하여, 복수의 그룹으로 분류하는 것이 가능하고, 패턴 모델 생성 수단에 의하여, 상기 데이터 분류 수단에 의하여 분류된 소정의 데이터에 기초하여, 상기 소정의 데이터의 각 그룹마다 4차원 이상의 고차원의 요소를 가지는 복수의 패턴 모델을 생성하는 것이 가능하고, 수학적 거리 산출 수단에 의하여, 상기 패턴 모델 생성 수단에 의하여 각 그룹마다 생성된 패턴 모델의 각 패턴 모델 상호 간의 수학적 거리를 산출하는 것이 가능하며, 패턴 모델 변환 수단에 의하여, 상기 수학적 거리 산출 수단에 의하여 산출된 상기 수학적 거리에 기초하여, 상기 각 패턴 모델 상호 간의 거리 관계를 유지하면서, 상기 복수의 패턴 모델을 그보다 저차원의 동일한 수의 패턴 모델 대응 저차원 벡터로 변환하는 것이 가능하고, 패턴 모델 대응 저차원 벡터 표시 수단에 의하여, 상기 복수의 패턴 모델 대응 저차원 벡터를, 저차원의 요소의 값에 기초하여, 상기 거리 관계를 유지한 상태로, 상기 패턴 모델 대응 저차원 벡터와 동일한 차원의 저차원 공간상의 좌표점으로서 표시하는 것이 가능하며, 상기 수학적 거리 산출 수단은 상기 수학적 거리의 산출에서 상기 복수의 대상에 관한 복수의 소정의 데이터에서의 각 패턴 단위의 출현 빈도를 사용하는 것이 가능하다.
따라서, 각 패턴 모델 상호 간의 거리 관계 (유사 관계)를 시각적으로 간단하고 쉽게 파악하는 것이 가능하게 된다.
또한, 4차원 이상의 고차원의 패턴 모델을 3차원 이하의 저차원의 패턴 모델 대응 저차원 벡터로 변환하는 것이 가능하게 되므로, 클러스터링 등의 여러 가지 처리를 하기 쉬워진다. 또한, 수학적 거리의 산출에 각 패턴 단위의 출현 빈도를 이용하였으므로, 예를 들면 이 출현 빈도에 의하여 수학적 거리에 가중치를 곱함으로써, 각 패턴 모델에 대응하는 모든 패턴 단위를 고려한 패턴 모델 상호 간의 거리를 정의하는 것이 가능해져, 패턴 모델 상호 간의 거리 관계를 정확하게 산출하는 것이 가능하게 된다.
이때, 예를 들면 소정의 데이터가 음성 데이터인 경우에는, 상기 패턴 단위로서 음절, 음운, 음소, 바이폰 (biphone), 트라이폰 (triphone) 등의 음성 단위를 이용한다.
또한, 청구 범위 제17항에 관한 발명은 청구 범위 제16항에 기재된 데이터 처리 장치에서 상기 패턴 단위의 출현 빈도는 상기 복수의 소정의 데이터에 대한 상기 패턴 모델을 사용한 패턴 인식에서의 상기 복수의 대상에 관한 복수의 패턴 단위 중에서, 인식 성능이 소정의 역치보다 낮은 패턴 단위의 출현 빈도인 것을 특징으로 하고 있다.
즉, 수학적 거리의 산출에 사용하는 출현 빈도로, 인식 성능이 소정의 역치 보다 낮은 패턴 단위의 출현 빈도를 사용하도록 하였으므로, 이로써, 인식 성능이 낮은 대상의 패턴 모델을 정확한 거리 관계로 저차원 표시하는 것이 가능하게 되고, 이것에 의하여, 인식 성능이 낮은 대상의 패턴 모델을 클러스터링하기 쉽게 만드는 것이 가능하다.
이때, 소정의 역치로서는 예를 들면, 0% 이상 100% 미만의 범위의 값을 사용하면 좋다.
또한, 상기 목적을 달성하기 위하여, 본 발명에 관한 청구 범위 제18항에 기재된 데이터 처리 장치는 복수의 대상에 관한 복수의 소정의 데이터를 복수의 특정 조건에 기초하여 복수의 그룹으로 분류하는 데이터 분류 수단과,
상기 데이터 분류 수단에 의하여 분류된 상기 소정의 데이터에 기초하여, 상기 소정의 데이터의 각 그룹마다 4차원 이상의 고차원의 요소를 가지는 복수의 패턴 모델을 생성하는 패턴 모델 생성 수단과,
상기 패턴 모델 생성 수단에 의하여 각 그룹마다 생성된 패턴 모델의 각 패턴 모델 상호 간의 수학적 거리를 산출하는 수학적 거리 산출 수단과,
상기 수학적 거리 산출 수단에 의하여 산출된 상기 수학적 거리에 기초하여, 상기 각 패턴 모델 상호 간의 거리 관계를 유지하면서, 상기 복수의 패턴 모델을 그보다 저차원의 동일한 수의 패턴 모델 대응 저차원 벡터로 변환하는 패턴 모델 변환 수단과,
상기 복수의 패턴 모델 대응 저차원 벡터를, 저차원의 요소의 값에 기초하여, 상기 거리 관계를 유지한 상태로, 상기 패턴 모델 대응 저차원 벡터와 동일한 차원의 저차원 공간상의 좌표점으로서 표시하는 패턴 모델 대응 저차원 벡터 표시 수단과,
상기 패턴 모델 대응 저차원 벡터 표시 수단에 의하여 상기 저차원 공간상에 표시되는 상기 복수의 패턴 모델 대응 저차원 벡터의 좌표점을, 상기 저차원 공간상에서의 복수의 영역에 자동적으로 구분하는 영역 구분 수단과,
상기 구분된 영역 내에 포함되는 상기 패턴 모델 대응 저차원 벡터의 좌표 점에 대응하는 소정의 데이터에 기초하여, 각 영역 마다의 영역 패턴 모델을 생성하는 영역 패턴 모델 생성 수단과,
신규 대상에 관한 소정의 데이터를 취득하는 소정의 데이터 취득 수단과,
상기 취득한 소정의 데이터에 대한 상기 구분된 각 영역에 대응하는 영역 패턴 모델의 우도를 산출하고, 상기 산출한 우도에 기초하여, 상기 영역 패턴 모델 생성 수단에 의하여 생성된 영역 패턴 모델 중에서 상기 신규 대상에 적절한 인식 성능의 영역 패턴 모델을 탐색하는 영역 패턴 모델 탐색 수단을 포함하는 것을 특징으로 하고 있다.
이러한 구성이라면, 데이터 분류 수단에 의하여, 복수의 대상에 관한 복수의 소정의 데이터를, 복수의 특정 조건에 기초하여 복수의 그룹으로 분류하는 것이 가능하고, 패턴 모델 생성 수단에 의하여, 상기 데이터 분류 수단에 의하여 분류된 소정의 데이터에 기초하여, 상기 소정의 데이터의 각 그룹마다 4차원 이상의 고차원의 요소를 가지는 복수의 패턴 모델을 생성하는 것이 가능하고, 수학적 거리 산출 수단에 의하여, 상기 패턴 모델 생성 수단에 의하여 각 그룹마다 생성된 패턴 모델의 각 패턴 모델 상호 간의 수학적 거리를 산출하는 것이 가능하고, 패턴 모델 변환 수단에 의하여, 상기 수학적 거리 산출 수단에 의하여 산출된 상기 수학적 거리에 기초하여, 상기 각 패턴 모델 상호 간의 거리 관계를 유지하면서, 상기 복수의 패턴 모델을 그보다 저차원의 동일한 수의 패턴 모델 대응 저차원 벡터로 변환하는 것이 가능하고, 패턴 모델 대응 저차원 벡터 표시 수단에 의하여, 상기 복수의 패턴 모델 대응 저차원 벡터를, 저차원의 요소의 값에 기초하여, 상기 거리 관계를 유지한 상태로, 상기 패턴 모델 대응 저차원 벡터와 동일한 차원의 저차원 공간상의 좌표점으로서 표시하는 것이 가능하고, 영역 구분 수단에 의하여, 상기 패턴 모델 대응 저차원 벡터 표시 수단에 의하여 상기 저차원 공간상에 표시되는 상기 복수의 패턴 모델 대응 저차원 벡터의 좌표점을, 상기 저차원 공간상에서의 복수의 영역에 자동적으로 구분하는 것이 가능하고, 영역 패턴 모델 생성 수단에 의하여, 상기 구분된 영역 내에 포함되는 상기 패턴 모델 대응 저차원 벡터의 좌표점에 대응하는 소정의 데이터에 기초하여, 각 영역마다 영역 패턴 모델을 생성하는 것이 가능하고, 소정의 데이터 취득 수단에 의하여, 신규 대상에 관한 소정의 데이터를 취득하는 것이 가능하고, 영역 패턴 모델 탐색 수단에 의하여, 상기 취득한 소정의 데이터에 대한 상기 구분된 각 영역에 대응하는 영역 패턴 모델의 우도를 산출하고, 상기 산출한 우도에 기초하여 상기 신규 대상에 적절한 인식 성능의 영역 패턴 모델을 탐색하는 것이 가능하다.
따라서, 각 패턴 모델 상호 간의 거리 관계 (유사 관계)를 시각적으로 간단하고 쉽게 파악하는 것이 가능하게 되는 동시에, 복수의 패턴 모델 대응 저차원 벡터의 좌표점을 간단하고 쉽게 구분할 수 있도록 하였으므로, 특정의 패턴 모델이 어느 구분 영역에 해당하는지 등을 시각적으로 간편하게 파악할 수 있게 된다.
또한, 신규 대상에 관한 소정의 데이터에 대한 구분 결과의 각 영역에 대응하는 영역 패턴 모델의 우도에 기초하여, 각 영역 패턴 모델 중에서 신규 대상의 소정의 데이터를 패턴 인식하는데 적합한 영역 패턴 모델을 탐색하는 것이 가능하다.
또한, 청구 범위 제19항에 관한 발명은 청구 범위 제18항에 기재된 데이터 처리 장치에서 상기 수학적 거리 산출 수단은 상기 수학적 거리의 산출에서의 상기 복수의 대상에 관한 복수의 소정의 데이터에서의 각 패턴 단위의 출현 빈도를 이용하는 것을 특징으로 하고 있다.
따라서, 수학적 거리의 산출에 패턴 단위의 출현 빈도를 이용하였으므로, 예를 들면 이 출현 빈도에 의하여 수학적 거리에 가중치를 곱함으로써, 각 패턴 모델에 대응하는 모든 패턴 단위를 고려한 패턴 모델 상호 간의 거리를 정의하는 것이 가능하게 되고, 패턴 모델 상호 간의 거리 관계를 정확하게 산출하는 것이 가능하게 된다.
또한, 청구 범위 제20항에 관한 발명은 청구 범위 제19항에 기재된 데이터 처리 장치에서 상기 패턴 단위의 출현 빈도는 상기 복수의 대상에 관한 복수의 소정의 데이터에 대한 상기 패턴 모델을 사용한 패턴 인식에서 상기 복수의 대상에 관한 복수의 패턴 단위 중에서, 인식 성능이 소정의 역치보다 낮은 패턴 단위의 출현 빈도인 것을 특징으로 하고 있다.
즉, 수학적 거리의 산출에 이용하는 출현 빈도에, 인식 성능이 소정의 역치보다 낮은 패턴 단위의 출현 빈도를 이용하도록 하였으므로, 이로써, 인식 성능의 낮은 대상의 패턴 모델을 정확한 거리 관계로 저차원 표시하는 것이 가능하게 되고, 이것에 의하여, 인식 성능의 낮은 대상의 패턴 모델을 클러스터링하기 쉽게 하는 것이 가능하다.
또한, 청구 범위 제21항에 관한 발명은 청구 범위 제18항 내지 청구 범위 제20항 중 어느 하나의 항에 기재된 데이터 처리 장치에서 상기 영역 구분 수단은 상기 복수의 패턴 모델 대응 저차원 벡터를, 상기 전체 패턴 모델 대응 저차원 벡터의 좌표점의 중심을 기준으로 하고, 또한 상기 중심과 상기 중심으로부터 가장 멀리 떨어진 위치의 패턴 모델 대응 저차원 벡터의 좌표점과의 거리를 반경으로 하는 1개의 바깥쪽 원과, 상기 중심을 기준으로 하고, 또한 상기 바깥쪽 원보다 반경이 작은 n개의 안쪽 원 (n는 1 이상의 정수)에 의하여 구분하고, 또한 상기 바깥쪽 원 및 안쪽 원으로 이루어지는 복수의 동심원끼리의 각 외주 사이에 형성되는 환상의 영역을, 반경 방향으로 그어진 선에 의하여 복수 개로 구분하는 것을 특징으로 하고 있다.
따라서, 상기 바깥쪽 원 및 안쪽 원으로 이루어지는 복수의 동심원끼리의 각 외주 사이에 형성되는 환상의 영역을, 복수의 선형의 영역으로 구분하는 것이 가능하게 된다.
또한, 청구 범위 제22항에 관한 발명은 청구 범위 제21항에 기재된 데이터 처리 장치에서 상기 영역 구분 수단은 가장 안쪽 원으로부터 바깥쪽 원 방향으로 갈수록, 상기 각 환상의 영역에 포함되는 패턴 모델 대응 저차원 벡터를 세밀하게 구분하는 것을 특징으로 하고 있다.
즉, 2차원 시각화된 패턴 모델은 중심으로부터 바깥쪽으로 향하는 인식 성능이 낮은 (다른 모델과 유사성이 낮다) 패턴 모델이 분포하는 특성이 있으므로, 인식 성능이 낮은 패턴 모델의 분포하고 있는 영역을 세밀하게 구분함으로써 보다 정확한 그룹핑 (grouping)이 가능하게 된다.
또한, 청구 범위 제23항에 관한 발명은 청구 범위 제21항 또는 청구 범위 제22항에 기재된 데이터 처리 장치에서 상기 영역 구분 수단은 구분 결과의 각 영역에서 상기 각 영역에 포함되는 패턴 모델 대응 저차원 벡터와 이것과 서로 이웃하는 영역에 포함되는 패턴 모델 대응 저차원 벡터의 일부가 중복되도록 영역을 구분하는 것을 특징으로 하고 있다.
따라서, 특정 대상용의 패턴 모델을 생성할 때에, 상기 특정 대상의 소정의 데이터가 구분된 영역의 경계에 위치하는 경우에도 간편하게 대응하는 것이 가능하게 된다.
또한, 청구 범위 제24항에 관한 발명은 청구 범위 제21항 내지 청구 범위 제23항 중 어느 하나의 항에 기재된 데이터 처리 장치에서 상기 영역 패턴 모델 탐색 수단은 상기 구분 결과의 가장 안쪽 원으로부터 바깥쪽 원 방향을 향하여 순서대로, 상기 취득한 소정의 데이터에 대한 상기 구분된 영역에 대응하는 영역 패턴 모델의 우도를 산출하고, 상기 산출한 우도에 기초하여, 상기 영역 패턴 모델 생성 수단에 의하여 생성된 영역 패턴 모델 중에서 상기 신규 대상에 적절한 인식 성능의 영역 패턴 모델을 탐색하는 것을 특징으로 하고 있다.
즉, 가장 안쪽 원으로부터 바깥쪽 원 방향을 향하여 신규 대상의 소정의 데이터에 대한 영역 패턴 모델의 우도를 산출하도록 하였으므로, 신규 대상의 소정의 데이터에 적합한 구분 영역의 영역 패턴 모델을 고속으로 탐색하는 것이 가능하게 된다.
또한, 청구 범위 제25항에 관한 발명은 청구 범위 제24항에 기재된 데이터 처리 장치에서 상기 영역 패턴 모델 탐색 수단은 상기 취득한 소정의 데이터에 대한, 가장 안쪽 원의 영역에 대응하는 영역 패턴 모델의 우도를 산출하고, 다음으로, 가장 안쪽 원에 인접하는 환상의 영역에서의 각 구분 영역에 대응하는 영역 패턴 모델의 우도를 산출하고, 상기 산출한 우도 중 가장 높은 우도의 영역 패턴 모델에 대응하는 영역에 대응하는 바깥쪽 원 방향의 영역에 대응하는 영역 패턴 모델의 우도를 산출하고, 그 후 바깥쪽 원 방향을 향하여 순서대로, 바로 직전의 안쪽 환상 영역에서 산출된 우도의 가장 높은 영역 패턴 모델의 대응하는 영역에 인접하는 바깥쪽 원 방향의 영역에 대응하는 영역 패턴 모델의 우도를 산출하는 것을 특징으로 하고 있다.
즉, 구분 결과의 가장 안쪽 원으로부터 바깥쪽 원 방향을 향하여 순서대로, 가장 우도가 높은 (인식 성능이 높다) 영역 패턴 모델에 대응하는 구분 영역을 향하여 탐색하도록 하였으므로, 신규 대상의 소정의 데이터에 적합한 구분 영역의 영역 패턴 모델을 고속으로 탐색하는 것이 가능하게 된다.
또한, 청구 범위 제26항에 관한 발명은 청구 범위 제24항에 기재된 데이터 처리 장치에서 상기 영역 패턴 모델 탐색 수단은 상기 취득한 소정의 데이터에 대한, 가장 안쪽 원의 영역에 대응하는 영역 패턴 모델의 우도를 산출하고, 다음으로, 가장 안쪽 원에 인접하는 환상의 영역에서의 각 구분 영역에 대응하는 영역 패턴 모델의 우도를 산출하고, 상기 산출한 우도 중 상위 m개의 우도에 대응하는 영역 패턴 모델 (m는 2 이상의 정수)에 각각 대응하는 영역에 인접하는 바깥쪽 원 방향의 구분 영역에 대응하는 영역 패턴 모델의 우도를 산출하고, 이후는 바깥쪽 원 방향을 향하여 순서대로, 바로 직전의 안쪽 환상의 영역에서 산출된 우도의 가장 높은 영역 패턴 모델이 대응하는 영역에 인접하는 바깥쪽 원 방향의 영역에 대응하는 영역 패턴 모델의 우도를 산출하는 것을 특징으로 하고 있다.
즉, 구분 결과의 가장 안쪽 원으로부터 바깥쪽 원 방향을 향하여 순서대로, 상위 m개의 우도에 대응하는 영역 패턴 모델에 대응하는 구분 영역을 향하여 탐색하도록 하였으므로, 신규 대상의 소정의 데이터에 의하여 적합한 구분 영역의 영역 패턴 모델을 고속으로 탐색하는 것이 가능하게 된다.
또한, 청구 범위 제27항에 관한 발명은 청구 범위 제18항 내지 청구 범위 제26항 중 어느 하나의 항에 기재된 데이터 처리 장치에서 상기 복수의 대상에 관한 복수의 소정의 데이터는 복수의 화자가 발성한 복수의 음성 데이터로서, 상기 복수의 특정 조건은 적어도, 화자의 종류, 발화 어휘, 발화 양식 및 발화 환경을 포함하는 것을 특징으로 하고 있다.
따라서, 적어도, 화자의 이름, 남성/여성의 성별, 어린이/성인/고령자의 연령별 등의 화자의 종류, 발화하는 숫자, 문장, 단어 등의 발화 어휘, 발화 속도, 발화 음량, 방언에 유래하는 특징 등의 발화 양식 및 실내, 자동차 내, 공장 내, 옥외 (장소 등에 의하여 종류를 구분한다) 등의 발화 환경을 고려해 음성 데이터에 대한 패턴 모델을 생성하는 것이 가능하다.
또한, 청구 범위 제28항에 관한 발명은 청구 범위 제18항 내지 청구 범위 제27항 중 어느 하나의 항에 기재된 데이터 처리 장치에서 상기 데이터 분류 수단은 상기 복수의 특정 조건을 각각 임의로 조합한 각 조마다 상기 그룹를 형성하는 것을 특징으로 하고 있다.
따라서, 예를 들면 소정의 데이터가 음성 데이터의 경우에, 실내 (발화 환경)에서 성인 남자 (화자의 종류)가 단어 (발화 어휘)를 빠른 속도 (발화 양식)로 발화하는 경우와 같이, 임의의 특정 조건의 조합을 하나의 그룹으로서 형성하는 것이 가능하게 된다.
물론, 예를 들면 실내 (발화 환경)에서 성인 남자 (화자의 종류)가 발화한 경우와 같이, 더 큰 그룹으로 나누어도 좋다.
또한, 청구 범위 제29항에 관한 발명은 청구 범위 제18항 내지 청구 범위 제28항 중 어느 하나의 항에 기재된 데이터 처리 장치에서 상기 패턴 모델은 HMM에 의하여 생성되는 것을 특징으로 하고 있다.
즉, 상기 패턴 모델은 HMM에 의하여 생성된다.
예를 들면, 음성은 말하는 속도에 의하여 그 시간적인 길이가 변화하고, 발성 내용에 의하여, 주파수 영역상에서 특징적인 형상 ("스펙트럼 포락"이라 부른다)을 나타내지만, 그 형상은 상기 특정 조건에 의존하여 변동이 생긴다. 예를 들면, 상기 HMM는 그러한 변동을 흡수할 수 있는 통계적 모델이다.
또한, 청구 범위 제30항에 관한 발명은 청구 범위 제29항에 기재된 데이터 처리 장치에서 상기 수학적 거리 산출 수단은 상기 HMM에 의하여 생성된, 상기 패턴 모델의 정규 분포의 평균 벡터에 유클리드 거리, 상기 패턴 모델의 정규 분포의 표준 편차에 의하여 정규화된 상기 패턴 모델의 정규 분포의 평균 벡터에 기초하는 유클리드 거리, 및 상기 패턴 모델의 정규 분포에 기초하는 바타체리야 거리 중 어느 하나를 사용하여 상기 수학적 거리를 산출하는 것을 특징으로 하고 있다.
따라서, 상기 몇 가지 거리를 이용함으로써, 각 패턴 모델 간의 보다 적절한 수학적 거리를 산출하는 것이 가능하다.
또한, 청구 범위 제31항에 관한 발명은 청구 범위 제18항 내지 청구 범위 제30항 중 어느 하나의 항에 기재된 데이터 처리 장치에서 상기 패턴 모델 변환 수단은 새먼법(Sammon법)을 이용하고, 상기 패턴 모델을 상기 패턴 모델 대응 저차원 벡터로 변환하는 것을 특징으로 하고 있다.
즉, 상기 패턴 모델 변환 수단은 새먼법을 사용하여, 상기 패턴 모델을 상기 패턴 모델 대응 저차원 벡터로 변환하는 것이 가능하다.
따라서, 공지의 새먼법을 사용함으로써, 각 패턴 모델 상호 간의 거리 관계를 유지하면서, 복수의 패턴 모델을 이것과 동일한 수의 패턴 모델 대응 저차원 벡터로 변환하는 것이 가능하다.
또한, 청구 범위 제32항에 관한 발명은 청구 범위 제18항 내지 청구 범위 제31항 중 어느 하나의 항에 기재된 데이터 처리 장치에서 상기 영역 구분 수단에 의하여 자동 구분된 구분 내용을 변경하는 구분 내용 변경 수단을 포함하는 것을 특징으로 하고 있다.
따라서, 구분 내용이 적절하지 않을 때나, 새로운 패턴 모델이 첨가되었을, 때 등에 적절한 구분 내용으로 변경하는 것이 가능하다. 또한, 시각화된 패턴 모델의 구분 내용을 변경하게 되므로, 용이하게 구분 내용을 변경하는 것이 가능하다.
또한, 청구 범위 제33항에 관한 발명은 청구 범위 제18항 내지 청구 범위 제32항 중 어느 하나의 항에 기재된 데이터 처리 장치에서 상기 영역 패턴 모델 탐색 수단에 의하여 탐색된 영역 패턴 모델을 신규 대상의 소정의 데이터에 기초하여, 상기 신규 대상용에 적응하는 패턴 모델 적응 수단을 포함하는 것을 특징으로 하고 있다.
이러한 구성이라면, 패턴 모델 적응 수단에 의하여, 상기 영역 패턴 모델 탐색 수단에 의하여 탐색된 영역 패턴 모델을 신규 대상의 소정의 데이터에 기초하여, 상기 신규 대상용으로 적응하는 것이 가능하다.
따라서, 신규 대상을 향한 적절한 패턴 모델의 생성이 가능하고, 또한 특정 구분 영역의 소정의 데이터를 사용하여 패턴 모델을 생성하므로, 패턴 모델을 소규모로 하는 것이 가능하고, 패턴 모델이 사용하는 메모리 용량을 경감하는 것이 가능하다. 이때, 적응에는 화자 적응법 MLLR 등을 이용하는 것이 가능하다.
또한, 청구 범위 제34항에 관한 발명은 청구 범위 제33항에 기재된 데이터 처리 장치에서 상기 패턴 모델 변환 수단은 상기 영역 패턴 모델 탐색 수단에 의하여 탐색된 영역 패턴 모델에 대응하는 영역 내에 포함되는 상기 복수의 패턴 모델 대응 저차원 벡터에 대응하는 고차원 패턴 모델을, 상기 패턴 모델 대응 저차원 벡터에 변환 가능하고, 상기 패턴 모델 대응 저차원 벡터 표시 수단은 상기 변환 후의 패턴 모델 대응 저차원 벡터를, 저차원의 요소의 값에 기초하여, 상기 거리 관계를 유지한 상태로, 상기 패턴 모델 대응 저차원 벡터와 동일한 차원의 저차원 공간상의 좌표점으로서 표시 가능하고, 상기 영역 구분 수단은 상기 저차원 공간상에 표시되는 상기 복수의 패턴 모델 대응 저차원 벡터의 좌표점을, 상기 저차원 공간상에서의 복수의 영역에 자동적으로 구분 가능한 것을 특징으로 하고 있다.
즉, 영역 패턴 모델 탐색 수단에 의하여 탐색된 영역 패턴 모델에 대응하는 영역에 포함되는 복수의 패턴 모델 대응 저차원 벡터에 대응하는 고차원 패턴 모델을, 다시 패턴 모델 대응 저차원 벡터로 변환하고, 또한 구분하도록 하였으므로, 상기 구분한 영역으로부터 재차 신규 대상에 적절한 영역 패턴 모델을 탐색함으로써, 신규 대상에 관한 소정의 데이터의 패턴 인식에 의하여 적합한 특정 패턴 모델의 생성이 가능하게 된다.
또한, 청구 범위 제35항에 기재된 데이터 처리 장치 제어 프로그램은 청구 범위 제16항에 기재된 데이터 처리 장치를 제어하기 위한 컴퓨터가 실행 가능한 프로그램으로서,
복수의 대상에 관한 복수의 소정의 데이터를, 복수의 특정 조건에 기초하여, 복수의 그룹으로 분류하는 데이터 분류 스텝과,
상기 데이터 분류 스텝에 대하여 분류된 상기 소정의 데이터에 기초하여, 상기 소정의 데이터의 각 그룹마다 4차원 이상의 고차원의 요소를 가지는 복수의 패턴 모델을 생성하는 패턴 모델 생성 스텝과,
상기 패턴 모델 생성 스텝에서 각 그룹마다 생성된 패턴 모델의 각 패턴 모델 상호 간의 수학적 거리를 산출하는 수학적 거리 산출 스텝과,
상기 수학적 거리 산출 스텝에 대하여 산출된 상기 수학적 거리에 기초하여, 상기 각 패턴 모델 상호 간의 거리 관계를 유지하면서, 상기 복수의 패턴 모델을 그보다 저차원의 동일한 수의 패턴 모델 대응 저차원 벡터로 변환하는 패턴 모델 변환 스텝과,
상기 복수의 패턴 모델 대응 저차원 벡터를, 저차원의 요소의 값에 기초하여, 상기 거리 관계를 유지한 상태로, 상기 패턴 모델 대응 저차원 벡터와 동일한 차원의 저차원 공간상의 좌표점으로서 표시하는 패턴 모델 대응 저차원 벡터 표시 스텝을 포함하고,
상기 수학적 거리 산출 스텝에서는 상기 수학적 거리의 산출에서 상기 복수의 대상에 관한 복수의 소정의 데이터에서의 각 패턴 단위의 출현 빈도를 사용하는 것을 특징으로 하고 있다.
이때, 본 발명은 청구 범위 제16항에 기재된 데이터 처리 장치를 제어하기 위한 프로그램으로서, 그 효과는 중복되므로 기재를 생략한다.
또한, 청구 범위 제36항에 기재된 데이터 처리 장치 제어 프로그램은 청구 범위 제18항에 기재된 데이터 처리 장치를 제어하기 위한 컴퓨터가 실행 가능한 프로그램으로서,
복수의 대상에 관한 복수의 소정의 데이터를, 복수의 특정 조건에 기초하여, 복수의 그룹으로 분류하는 데이터 분류 스텝과,
상기 데이터 분류 스텝에 대하여 분류된 상기 소정의 데이터에 기초하여, 상기 소정의 데이터의 각 그룹마다 4차원 이상의 고차원의 요소를 가지는 복수의 패턴 모델을 생성하는 패턴 모델 생성 스텝과,
상기 패턴 모델 생성 스텝에 대하여 각 그룹마다 생성된 패턴 모델의 각 패턴 모델 상호 간의 수학적 거리를 산출하는 수학적 거리 산출 스텝과,
상기 수학적 거리 산출 스텝에서는 산출된 상기 수학적 거리에 기초하여, 상기 각 패턴 모델 상호 간의 거리 관계를 유지하면서, 상기 복수의 패턴 모델을 그보다 저차원의 동일한 수의 패턴 모델 대응 저차원 벡터로 변환하는 패턴 모델 변환 스텝과,
상기 복수의 패턴 모델 대응 저차원 벡터를, 저차원의 요소의 값에 기초하여, 상기 거리 관계를 유지한 상태로, 상기 패턴 모델 대응 저차원 벡터와 동일한 차원의 저차원 공간상의 좌표점으로서 표시하는 패턴 모델 대응 저차원 벡터 표시 스텝과,
상기 패턴 모델 대응 저차원 벡터 표시 스텝에서는 상기 저차원 공간상에 표시되는 상기 복수의 패턴 모델 대응 저차원 벡터의 좌표점을, 상기 저차원 공간상에서의 복수의 영역에 자동적으로 구분하는 영역 구분 스텝과,
상기 구분된 영역 내에 포함되는 상기 패턴 모델 대응 저차원 벡터의 좌표점에 대응하는 소정의 데이터에 기초하여, 각 영역 마다의 패턴 모델을 생성하는 영역 패턴 모델 생성 스텝과,
신규 대상에 관한 소정의 데이터를 취득하는 소정의 데이터 취득 스텝과,
상기 취득한 소정의 데이터에 대한 상기 구분된 각 영역에 대응하는 상기 영역 패턴 모델의 우도를 산출하고, 상기 산출한 우도에 기초하여 상기 신규 대상에 적절한 인식 성능의 영역 패턴 모델을 탐색하는 영역 패턴 모델 탐색 스텝을 포함하는 것을 특징으로 하고 있다.
이때, 본 발명은 청구 범위 제18항에 기재된 데이터 처리 장치를 제어하기 위한 프로그램으로서, 그 효과는 중복되므로 기재를 생략한다.
또한, 청구 범위 제37항에 기재된 특정 패턴 모델 제공 시스템은 시스템 이용자의 관리 하에 있는 정보처리 단말과,
청구 범위 제18항 내지 청구 범위 제34항 중 어느 하나의 항에 기재된 데이터 처리 장치를 포함하고,
상기 정보처리 단말 및 상기 데이터 처리 장치를 서로 데이터 통신 가능하게 접속하고, 상기 데이터 처리 장치에서, 상기 복수의 대상에 관한 복수의 소정의 데이터는 복수의 화자가 발성한 복수의 음성 데이터이며,
상기 정보처리 단말은,
상기 시스템 이용자가 발성한 음성 데이터를 취득하고, 상기 취득한 음성 데이터를 상기 데이터 처리 장치에 송신하는 음성 데이터 송신 수단과,
상기 데이터 처리 장치로부터 상기 시스템 이용자의 음성 데이터를 패턴 인식하는데 적합한 상기 특정 패턴 모델을 취득하는 특정 패턴 모델 취득 수단을 포함하고,
상기 데이터 처리 장치는,
상기 소정의 데이터 취득 수단에 의하여 상기 정보처리 단말로부터의 상기 음성 데이터를 취득하고, 또한 상기 취득한 음성 데이터에 기초하여 상기 시스템 이용자용으로 상기 특정 패턴 모델을 생성하게 되어 있고,
상기 생성한 특정 패턴 모델을 상기 정보처리 단말에 송신하는 특정 패턴 모델 송신 수단을 추가로 포함하고 있는 것을 특징으로 하고 있다.
이러한 구성이라면, 정보처리 단말은 음성 데이터 송신 수단에 의하여, 상기 시스템 이용자의 발성한 음성 데이터를 취득하고, 상기 취득한 음성 데이터를 상기 데이터 처리 장치에 송신하는 것이 가능하고, 특정 패턴 모델 취득 수단에 의하여, 상기 데이터 처리 장치로부터 상기 시스템 이용자의 음성 데이터를 패턴 인식하는데 적절한 상기 특정 패턴 모델을 취득하는 것이 가능하다.
또한, 데이터 처리 장치는 상기 소정의 데이터 취득 수단에 의하여 상기 정보처리 단말로부터의 상기 음성 데이터를 취득하는 것이 가능하고, 또한 상기 취득한 음성 데이터에 기초하여 상기 시스템 이용자용으로 상기 특정 패턴 모델을 생성하는 것이 가능하고, 특정 패턴 모델 송신 수단에 의하여 상기 생성한 특정 패턴 모델을 상기 정보처리 단말에 송신하는 것이 가능하다.
따라서, 시스템 이용자는 예를 들면 인터넷 등을 거쳐 PC, 휴대 전화, PDA 등의 정보처리 단말과, 데이터 처리 장치를 접속하여, 자기의 음성 데이터를 데이터 처리 장치에 송신함으로써, 자기의 음성 데이터를 음성인식하는데 적합한 특정 패턴 모델을 간단하고 쉽게 취득하는 것이 가능하다.
한편, 상기 목적을 달성하기 위하여, 본 발명에 관한 청구 범위 제38항에 기재된 데이터 처리 장치는 복수의 화자의 음성 데이터로부터 생성된 복수의 패턴 모델에 의하여 구성된 음향 공간을 기억하는 음향 공간 기억 수단과,
대상 화자의 음성 데이터를 취득하는 음성 데이터 취득 수단과,
상기 음성 데이터 취득 수단에 의하여 취득된 상기 대상 화자의 음성 데이터와 상기 음향 공간 기억 수단이 기억하는 음향 공간 내의 상기 복수의 패턴 모델에 기초하여, 상기 음향 공간 내에서의 상기 대상 화자의 음성 데이터의 위치를 산출하는 위치 산출 수단과,
상기 위치 산출 수단에 의하여 산출된 상기 위치에 기초하여, 상기 대상 화자의 음성 데이터의 가치를 평가하는 음성 데이터 평가 수단과,
상기 음성 데이터 평가 수단의 평가 결과를 표시하는 평가 결과 표시 수단과,
상기 산출된 위치에 기초하여, 상기 음향 공간 내에서의 상기 음성 데이터와 그 주변의 패턴 모델과의 위치 관계를 나타내는 정보를 표시하는 위치 관계 정보 표시 수단을 포함하는 것을 특징으로 하고 있다.
이러한 구성이라면, 음성 데이터 취득 수단에 의하여, 대상 화자의 음성 데이터를 취득하는 것이 가능하고, 위치 산출 수단에 의하여, 상기 음성 데이터 취득 수단에 의하여 취득된 상기 대상 화자의 음성 데이터와 상기 음향 공간 내의 상기 복수의 패턴 모델에 기초하여, 상기 음향 공간 내에서의 상기 대상 화자의 음성 데이터의 위치를 산출하는 것이 가능하고, 음성 데이터 평가 수단에 의하여, 상기 위치 산출 수단에 의하여 산출된 상기 위치에 기초하여 상기 대상 화자의 음성 데이터의 가치를 평가하는 것이 가능하고, 평가 결과 표시 수단에 의하여, 상기 음성 데이터 평가 수단의 평가 결과를 표시하는 것이 가능하고, 위치 관계 정보 표시 수단에 의하여, 상기 산출된 위치에 기초하여 상기 음향 공간 내에서의 상기 음성 데이터와 그 주변의 패턴 모델의 위치 관계를 나타내는 정보를 표시하는 것이 가능하다.
따라서, 음향 공간 내에서의 대상 화자의 음성 데이터와 다른 패턴 모델과의 위치 관계에 기초하여, 대상 화자의 음성 데이터의 가치 평가를 실시하고, 그 평가 결과를 표시하는 것이 가능하고, 또한 음성 데이터와 다른 패턴 모델과의 위치 관계를 표시하는 것이 가능하다.
즉, 이 시스템을 이용함으로써, 대상 화자가 발성한 음성 데이터의 가치가 높은지 아닌지를 시각적으로 간편하게 파악하는 것이 가능하게 되고, 또한 대상 화자의 음성 데이터의 음향 공간 내의 위치를 시각적으로 간단하고 쉽게 파악하는 것이 가능하다.
이때, 패턴 모델이라 함은, 음성 데이터에 대하여 매칭을 실시하는 패턴이며, 통계 모델 등을 사용하여 표현되는 것이다.
또한, 음성 데이터란, 예를 들면 복수의 화자가 발성한 음성 데이터, 상기 음성 데이터로부터 추출한 특징량, 상기 특징량에 기초하여 생성한 패턴 모델 등과, 그 발성 내용을 기술한 텍스트 파일과의 조(組)를 가리킨다. 따라서, 상기 음성 데이터 취득 수단은 대상 화자가 발화한 음성을 마이크 등에 의하여 취득하고, 상기 취득한 음성을 데이터화하고, 필요에 따라서, 상기 데이터를 분석하여 특징량의 추출 등을 실시하는 각 처리 수단을 가진다.
또한, 청구 범위 제39항에 관한 발명은 청구 범위 제38항에 기재된 데이터 처리 장치에서, 상기 음성 데이터 평가 수단은 상기 위치 산출 수단에 의하여 산출된 상기 대상 화자의 음성 데이터의 위치로부터 소정 거리의 범위 내에 존재하는 상기 패턴 모델의 수에 기초하여, 상기 음성 데이터의 가치를 평가하는 것을 특징으로 하고 있다.
즉, 상기 음성 데이터 평가 수단은 상기 위치 산출 수단에 의하여 산출된 상기 대상 화자의 음성 데이터의 위치로부터 소정 거리의 범위 내에 존재하는 상기 패턴 모델의 수에 기초하여, 상기 음성 데이터의 가치를 평가하는 것이 가능하다.
따라서, 예를 들면 대상 화자의 음성 데이터 주변에 다른 화자의 패턴 모델이 거의 존재하지 않으면, 그 음성 데이터의 가치가 높다고 판단하고, 한편 주변에 많은 패턴 모델이 존재하고 있으면, 그 음성 데이터의 가치는 낮다고 판단하는 평가방법이 가능하게 된다.
또한, 청구 범위 제40항에 관한 발명은 청구 범위 제38항 또는 청구 범위 제39항에 기재된 데이터 처리 장치에서 상기 소정 거리는 상기 음성 데이터의 가치의 정도에 따라 단계적으로 설정되어 있고,
상기 음성 데이터 평가 수단은 각 단계마다 설정된 각 거리 범위 내에서의 상기 패턴 모델의 수에 기초하여, 상기 음성 데이터의 가치를 평가하는 것을 특징으로 하고 있다.
즉, 상기 소정 거리는 상기 음성 데이터의 가치의 정도에 따라 단계적으로 설정되어 있고,
상기 음성 데이터 평가 수단은 각 단계마다 설정된 각 거리 범위 내에서의 상기 패턴 모델의 수에 기초하여, 상기 음성 데이터의 가치를 평가하는 것이 가능하다.
따라서, 각 범위 내의 패턴 모델의 수에 의하여, 대상 화자의 음성 데이터의 가치를 단계적으로 평가하는 것이 가능하다.
또한, 청구 범위 제41항에 관한 발명은 청구 범위 제38항 내지 청구 범위 제40항 중 어느 하나의 항에 기재된 데이터 처리 장치에서, 상기 음성 데이터 평가 수단은 상기 위치 산출 수단에 의하여 산출된 상기 위치에 기초하여, 상기 복수의 패턴 모델 중에서, 상기 대상 화자의 음성 데이터의 특징과 유사한 특징이 있는 패턴 모델을, 상기 대상 화자의 패턴 모델로서 상기 평가에 이용하는 것을 특징으로 하고 있다.
즉, 상기 음성 데이터 평가 수단은 상기 위치 산출 수단에 의하여 산출된 상기 위치에 기초하여, 상기 복수의 패턴 모델 중에서, 상기 대상 화자의 음성 데이터의 특징과 유사한 특징이 있는 패턴 모델을, 상기 대상 화자의 패턴 모델로서 상기 평가에 사용하는 것이 가능하다.
따라서, 대상 화자가 발성한 음성의 패턴 모델을 생성하지 않고 , 유사한 패턴 모델의 위치를 대상 화자가 발성한 음성 데이터의 음향 공간 내의 위치로 하게 되므로, 계산량이 줄어들어, 실시간 처리 등에 적절하다.
또한, 청구 범위 제42항에 관한 발명은 청구 범위 제41항에 기재된 데이터 처리 장치에서, 상기 음성 데이터 평가 수단은 상기 복수의 패턴 모델 중에서, 상기 대상 화자의 음성 데이터의 특징과 유사한 특징이 있는 상위 몇 개의 패턴 모델을, 상기 대상 화자의 패턴 모델로서 상기 평가에 이용하는 것을 특징으로 하고 있다.
즉, 상기 음성 데이터 평가 수단은 상기 복수의 패턴 모델 중에서, 상기 대상 화자의 음성 데이터의 특징과 유사한 특징이 있는 상위 몇 개의 패턴 모델을 상기 대상 화자의 패턴 모델로 하여 상기 평가에 이용하는 것이 가능하다.
따라서, 예를 들면 유사도가 높은 순서로 상위 몇 개의 패턴 모델을 선택하고, 이 복수의 패턴 모델의 평균값를 평가에 이용하는 등으로, 패턴 모델을 단수로 선택하여 이용하는 경우에서 유사하다고 판단하여 선택된 패턴 모델이 실제는 유사하지 않은 것이었을 경우 등과 비교하여, 잘못된 패턴 모델이 선택되어도 그 오차를 경감하는 것이 가능하게 된다.
또한, 청구 범위 제43항에 관한 발명은 청구 범위 제41항 또는 청구 범위 제42항에 기재된 데이터 처리 장치에서, 상기 위치 산출 수단은 상기 음성 데이터 취득 수단에 의하여 취득된 음성 데이터를 고차원의 특징량 데이터로 변환하고, 상기 특징량 데이터와 상기 복수의 화자의 복수의 패턴 모델에 기초하여, 상기 특징량 데이터와 각 패턴 모델의 우도를 산출하고, 상기 산출된 우도에 기초하여 상기 복수의 화자의 복수의 패턴 모델 중에서 특정 패턴 모델을 선택하고, 상기 선택된 특정 패턴 모델과 다른 패턴 모델 상호 간의 수학적 거리를 산출하고, 상기 산출된 수학적 거리에 기초하여, 상기 음향 공간 내에서의 상기 취득된 음성 데이터의 위치를 산출하는 것을 특징으로 하고 있다.
즉, 대상 화자의 음성 데이터와 복수의 화자의 복수의 패턴 모델의 우도를 산출하여, 유사성을 판단하는 것이 가능하고, 이것에 의하여, 대상 화자의 음성 데이터의 특징과 유사한 특징이 있는 패턴 모델을 간편하게 선택하는 것이 가능하다.
이때, 수학적 거리라 함은, 대상 화자의 음성 데이터로부터 생성되는 음향 모델과 복수의 화자의 음향 모델과의 유사도를 나타내는 것으로, 이 유사도를 측정하는 측정기구의 종류에 따라 여러 가지가 있다.
이 측정기구는 예를 들면, 유클리드 거리 등의 보통의 측정기구로도 측정할 수 있는 거리에 대응하는 것이나, 유사도를 측정하는 거리를 두 개의 벡터의 내적으로 하고, 두 개의 벡터가 이루는 각을 유사도로서 평가하는 마하라노비스의 범거리 등의, 보통의 측정기구로는 측정할 수 없는 유사도에 대응하는 것이 있다. 또한, 본 발명에 대하여는 수학적 거리로서 그 밖에, 바타체리야 (Bhattacharrya) 거리, 평방 유크리드 거리, 코사인 거리, 피어손의 상관, 체비쉐프, 도시 블록거리 (또는 맨하탄 거리), 민코우스키 합, 쿨백 정보량, 체르노프 거리 등이 있다. 즉, 거리라고 부르고는 있으나, 유사도를 나타내는 것이면 무엇이든 좋다. 이것은 이후의 청구항에 대하여도 같다.
또한, 청구 범위 제44항에 관한 발명은 청구 범위 제38항 내지 청구 범위 제40항 중 어느 하나의 항에 기재된 데이터 처리 장치에서, 상기 위치 산출 수단은 상기 음성 데이터 취득 수단에 의하여 취득된 음성 데이터를 고차원의 특징량 데이터로 변환하고, 상기 특징량 데이터에 기초하여 대상 화자용 패턴 모델을 생성하고, 상기 생성된 패턴 모델과 상기 복수의 화자의 복수의 패턴 모델의 상호 간의 수학적 거리를 산출하고, 상기 산출된 수학적 거리에 기초하여, 상기 음향 공간 내에서의 상기 취득된 음성 데이터의 위치를 산출하는 것을 특징으로 하고 있다.
즉, 상기 위치 산출 수단은 상기 음성 데이터 취득 수단에 의하여 취득된 음성 데이터를 고차원의 특징량 데이터로 변환하고, 상기 특징량 데이터에 기초하여 대상 화자용의 패턴 모델을 생성하고, 상기 생성된 패턴 모델과 상기 복수의 화자의 복수의 패턴 모델과의 상호 간의 수학적 거리를 산출하고, 상기 산출된 수학적 거리에 기초하여, 상기 음향 공간 내에서의 상기 취득된 음성 데이터의 위치를 산출하는 것이 가능하다.
따라서, 대상 화자의 음성 데이터의 가치를 더 정확하게 평가하는 것이 가능하다.
또한, 청구 범위 제45항에 관한 발명은 청구 범위 제43항 또는 청구 범위 제44항에 기재된 데이터 처리 장치에서, 상기 패턴 모델은 4차원 이상의 고차원의 요소로 구성되어 있고,
상기 위치 관계 정보 표시 수단은 상기 대상 화자의 음성 데이터에 대응하는 패턴 모델을 포함한 상기 음향 공간 내의 복수의 패턴 모델을, 이러한 거리 관계를 유지한 상태로, 그보다 저차원의 패턴 모델로 변환하고, 상기 변환 후의 패턴 모델을 저차원 공간상의 좌표점으로서 표시하는 것을 특징으로 하고 있다.
즉, 상기 위치 관계 정보 표시 수단은 상기 대상 화자의 음성 데이터에 대응하는 패턴 모델을 포함하는 상기 음향 공간 내의 복수의 패턴 모델을, 이러한 위치 관계를 유지한 상태로, 그보다 저차원의 패턴 모델로 변환하고, 상기 변환 후의 패턴 모델을 저차원 공간상의 좌표점으로서 표시하는 것이 가능하다.
따라서, 대상 화자의 음성 데이터의 음향 공간 내의 위치를 시각적으로 간단하고 쉽게 파악하는 것이 가능하다.
이때, 음성 데이터 및 패턴 모델이 다차원 (4차원 이상)의 정보를 가지는 경우에는 그 위치 정보도 다차원이 된다.
위치 관계 정보 표시 수단은 이와 같은 경우에, 음성 데이터 및 패턴 모델을, 예를 들면 투영 등을 이용하여, 다차원의 정보를 2차원 등의 저차원의 정보로 변환하고 나서, 그 저차원의 공간상에 좌표점으로서 표시하는 것이 가능하다. 이와 같은 투영 방법으로서는 예를 들면, 공지의 새먼법 등이 있다.
또한, 청구 범위 제46항에 관한 발명은 청구 범위 제38항 내지 청구 범위 제45항 중 어느 하나의 항에 기재된 데이터 처리 장치에서, 상기 패턴 모델을 HMM (Hidden Markov Model)에 의하여 구성하는 것을 특징으로 하고 있다.
즉, 패턴 모델을, 공지의 기술인 HMM를 사용하여 구성한 것이다.
이때, 음성은 말하는 속도에 따라서 그 시간적인 길이가 바뀌고, 발성 내용에 따라서, 주파수 영역상에서 특징적인 형상 ("스펙트럼 포락"이라 한다)을 나타내지만, 그 형상은 발성하는 사람, 환경, 내용 등에 의존하여 변동이 생긴다. 예를 들면, 상기 HMM는 그러한 변동을 흡수할 수 있는 통계적 모델이다.
또한, 청구 범위 제47항에 관한 발명은 청구 범위 제38항 내지 청구 범위 제46항 중 어느 하나의 항에 기재된 데이터 처리 장치에서, 상기 음성 데이터 평가 수단은 상기 대상 화자의 음성 데이터에서의 음소별 가치를 평가하도록 되어 있고, 상기 평가 결과 표시 수단은 상기 대상 화자의 음성 데이터의 음소별 평가 결과를 표시하는 것을 특징으로 하고 있다.
즉, 대상 화자의 음성 데이터를 단어나 문장 단위가 아니라, 음소 단위로 그 가치를 평가하고, 음소마다 평가 결과를 표시하므로, 간편하게 음소 단위의 가치 판단이 가능하게 된다.
또한, 청구 범위 제48항에 관한 발명은 청구 범위 제38항 내지 청구 범위 제47항 중 어느 하나의 항에 기재된 데이터 처리 장치에서, 상기 평가 결과 표시 수단은 상기 음성 데이터 평가 수단에 의하여 상기 대상 화자의 음성 데이터의 가치가 낮다고 평가되었을 경우에, 그 음성 데이터에 대한 보정 정보를 표시하는 것을 특징으로 하고 있다.
즉, 보정 정보로서 발음 방법이나 발화 속도 등의, 평가 대상 (또는 취득 대상)으로서 희망하는 음성 데이터의 발화를 요구하는 정보를 표시함으로써, 같은 대상 화자로부터 여러 가지 음성 데이터를 취득하여 평가하는 것이 가능하게 된다.
요컨대, 같은 대상 화자의 음성 데이터에서도, 발음 방법 등에 따라서는 가치가 높아질 가능성이 있으므로, 그것을 고려한 것이다.
또한, 청구 범위 제49항에 관한 발명은 청구 범위 제38항 내지 청구 범위 제48항 중 어느 하나의 항에 기재된 데이터 처리 장치에서, 상기 대상 화자와의 사이에 상기 음성 데이터의 제공 가부에 관한 교섭을 하기 위한 교섭 수단과,
상기 교섭 수단에 의하여 교섭이 성립된 상기 음성 데이터를 기억하는 음성 데이터 기억 수단을 포함하는 것을 특징으로 하고 있다.
즉, 교섭 수단에 의하여, 상기 대상 화자와의 사이에 상기 음성 데이터의 제공 가부에 관한 교섭을 하는 것이 가능하고, 음성 데이터 기억 수단에 의하여, 상기 교섭 수단에 의하여 교섭이 성립한 상기 음성 데이터를 기억하는 것이 가능하다.
이로써, 대상 화자가 발화한 음성 데이터가, 예를 들면 가치가 높은 것으로 평가된 데이터였을 경우에, 대상 화자와 교섭하고, 그 음성 데이터를 취득하는 것이 가능하게 된다.
또한, 청구 범위 제50항에 기재된 데이터 처리 시스템은 대상 화자의 관리하에 있는 정보처리 단말과,
청구 범위 제38항 내지 청구 범위 제49항 중 어느 하나의 항에 기재된 데이터 처리 장치를 포함하고,
상기 정보처리 단말과 상기 데이터 처리 장치를 서로 데이터 통신 가능하게 접속하고,
상기 정보처리 단말은 상기 대상 화자의 음성 데이터를 취득하고, 상기 취득한 음성 데이터를 상기 데이터 처리 장치에 송신하는 음성 데이터 송신 수단과 상기 데이터 처리 장치로부터 취득한, 상기 대상 화자의 음성 데이터의 평가 결과에 관한 정보를 표시하는 평가 정보 표시 수단을 포함하고,
상기 데이터 처리 장치는 상기 평가 결과에 관한 정보를 상기 정보처리 단말에 송신하는 평가 정보 송신 수단을 포함하는 것을 특징으로 하고 있다.
즉, 상기 정보처리 단말은 음성 데이터 송신 수단에 의하여, 상기 대상 화자의 음성 데이터를 취득하고, 상기 취득한 음성 데이터를 상기 데이터 처리 장치에 송신하는 것이 가능하고, 평가 정보 표시 수단에 의하여, 상기 데이터 처리 장치로부터 취득한 상기 대상 화자의 음성 데이터의 평가 결과에 관한 정보를 표시하는 것이 가능하고, 상기 데이터 처리 장치는 평가 정보 송신 수단에 의하여, 상기 평가 결과에 관한 정보를 상기 정보처리 단말에 송신하는 것이 가능하다.
따라서, 예를 들면 인터넷 등을 통하여 정보처리 단말과 데이터 처리 장치를 접속함으로써, 인터넷을 통하여 다수의 대상 화자의 음성 데이터의 평가를 실시하는 것이 가능하게 되어, 가치가 높은 음성 데이터의 취득을 보다 간편하게 실시하는 것이 가능하게 된다.
또한, 청구 범위 제51항에 기재된 데이터 처리 방법은 복수의 화자의 음성 데이터로부터 생성된 복수의 패턴 모델에 의하여 구성된 음향 공간을 준비하고,
대상 화자의 음성 데이터를 취득하고,
상기 취득된 상기 대상 화자의 음성 데이터와 상기 음향 공간 내의 상기 복수의 패턴 모델에 기초하여, 상기 음향 공간 내에서의 상기 대상 화자의 음성 데이터의 위치를 산출하고, 상기 산출된 상기 위치에 기초하여, 상기 대상 화자의 음성 데이터의 가치를 평가하고, 상기 평가 결과를 표시하는 것을 특징으로 하고 있다.
이때, 본 발명은 상기 청구 범위 제38항 내지 청구 범위 제50항 중 어느 하나의 항에 기재된 데이터 처리 장치에 의하여 실현되는 것으로서, 그 효과는 중복되므로 기재를 생략한다.
또한, 청구 범위 제52항에 기재된 데이터 처리 장치 제어 프로그램은 청구 범위 제38항에 기재된 데이터 처리 장치를 제어하기 위한 컴퓨터가 실행 가능한 프로그램으로서,
복수의 화자의 음성 데이터로부터 생성된 복수의 패턴 모델에 의하여 구성된 음향 공간을 기억하는 음향 공간 기억 스텝과,
대상 화자의 음성 데이터를 취득하는 음성 데이터 취득 스텝과,
상기 음성 데이터 취득 스텝에서 취득된 상기 대상 화자의 음성 데이터와, 상기 음향 공간 기억 스텝에서 기억된 음향 공간 내의 상기 복수의 패턴 모델에 기초하여, 상기 음향 공간 내에서의 상기 대상 화자의 음성 데이터의 위치를 산출하는 위치 산출 스텝과,
상기 위치 산출 스텝에서는 산출된 상기 위치에 기초하여, 상기 대상 화자의 음성 데이터의 가치를 평가하는 음성 데이터 평가 스텝과,
상기 음성 데이터 평가 스텝에 의한 평가 결과를 표시하는 평가 결과 표시 스텝을 포함하는 것을 특징으로 하고 있다.
이때, 본 발명은 청구 범위 제38항에 기재된 데이터 처리 장치를 제어하기 위한 프로그램으로서, 그 효과는 중복되므로 기재를 생략한다.
또한, 청구 범위 제53항에 기재된 데이터 처리 장치는 청구 범위 제50항에 기재된 데이터 처리 시스템에 적용 가능한 상기 데이터 처리 장치로서,
복수의 화자의 음성 데이터로부터 생성된 복수의 패턴 모델에 의하여 구성된 음향 공간을 기억하는 음향 공간 기억 수단과,
대상 화자의 음성 데이터를 취득하는 음성 데이터 취득 수단과 상기 음성 데이터 취득 수단에 의하여 취득된 상기 대상 화자의 음성 데이터와 상기 음향 공간 기억 수단이 기억하는 음향 공간 내의 상기 복수의 패턴 모델에 기초하여, 상기 음향 공간 내에서의 상기 대상 화자의 음성 데이터의 위치를 산출하는 위치 산출 수단과,
상기 위치 산출 수단에 의하여 산출된 상기 위치에 기초하여, 상기 대상 화자의 음성 데이터의 가치를 평가하는 음성 데이터 평가 수단과,
상기 음성 데이터 평가 수단의 평가 결과를 표시하는 평가 결과 표시 수단과,
상기 산출된 위치에 기초하여, 상기 음향 공간 내에서의 상기 음성 데이터와 그 주변의 패턴 모델의 위치 관계를 나타내는 정보를 표시하는 위치 관계 정보 표시 수단과,
상기 평가 결과에 관한 정보를 상기 정보처리 단말에 송신하는 평가 정보 송신 수단을 포함하는 것을 특징으로 하고 있다.
이때, 본 발명은 청구 범위 제50항에 기재된 데이터 처리 시스템에서의 데이터 처리 장치와 동일한 작용 효과가 되므로, 그에 대한 기재를 생략한다.
또한, 청구 범위 제54항에 기재된 정보처리 단말은 청구 범위 제50항에 기재된 데이터 처리 시스템에 적용 가능한 상기 정보처리 단말로서,
상기 대상 화자의 음성 데이터를 취득하고, 상기 취득한 음성 데이터를 상기 데이터 처리 장치에 송신하는 음성 데이터 송신 수단과,
상기 데이터 처리 장치로부터 취득한, 상기 대상 화자의 음성 데이터의 평가 결과에 관한 정보를 표시하는 평가 정보 표시 수단을 포함하는 것을 특징으로 하고 있다.
이때, 본 발명은 청구 범위 제50항에 기재된 데이터 처리 시스템에서의 정보처리 단말과 동일한 작용 효과가 되므로, 기재를 생략한다.
또한, 청구 범위 제55항에 기재된 데이터 처리 장치 제어 프로그램은 청구 범위 제53항에 기재된 데이터 처리 장치를 제어하기 위한 컴퓨터가 실행 가능한 프로그램으로서,
복수의 화자의 음성 데이터로부터 생성된 복수의 패턴 모델에 의하여 구성된 음향 공간을 기억하는 음향 공간 기억 스텝과,
대상 화자의 음성 데이터를 취득하는 음성 데이터 취득 스텝과,
상기 음성 데이터 취득 스텝에서 취득된 상기 대상 화자의 음성 데이터와,
상기 음향 공간 기억 스텝에서 기억된 음향 공간 내의 상기 복수의 패턴 모델에 기초하여, 상기 음향 공간 내에서의 상기 대상 화자의 음성 데이터의 위치를 산출하는 위치 산출 스텝과,
상기 위치 산출 스텝에 대하여 산출된 상기 위치에 기초하여, 상기 대상 화자의 음성 데이터의 가치를 평가하는 음성 데이터 평가 스텝과,
상기 음성 데이터 평가 스텝에 의한 평가 결과를 표시하는 평가 결과 표시 스텝과,
상기 산출된 위치에 기초하여, 상기 음향 공간 내에서의 상기 음성 데이터와 그 주변의 패턴 모델의 위치 관계를 나타내는 정보를 표시하는 위치 관계 정보 표시 스텝과,
상기 평가 결과에 관한 정보를 상기 정보처리 단말에 송신하는 평가 정보 송신 스텝을 포함하는 것을 특징으로 하고 있다.
이때, 본 발명은 청구 범위 제53항에 기재된 데이터 처리 장치를 제어하기 위한 프로그램으로서, 그 효과는 중복되므로 기재를 생략한다.
또한, 청구 범위 제56항에 기재된 정보처리 단말 제어 프로그램은 청구 범위 제54항에 기재된 정보처리 단말을 제어하기 위한 컴퓨터가 실행 가능한 프로그램으로서, 상기 대상 화자의 음성 데이터를 취득하고, 상기 취득한 음성 데이터를 상기 데이터 처리 장치에 송신하는 음성 데이터 송신 스텝과,
상기 데이터 처리 장치로부터 취득한, 상기 대상 화자의 음성 데이터의 평가 결과에 관한 정보를 표시하는 평가 정보 표시 스텝을 포함하는 것을 특징으로 하고 있다.
이때, 본 발명은 청구 범위 제54항에 기재된 정보처리 단말을 제어하기 위한 프로그램으로서, 그 효과는 중복되므로 기재를 생략한다.
한편, 상기 목적을 달성하기 위하여, 본 발명에 관한 청구 범위 제57항에 기재된 데이터 처리 장치는 복수의 화자의 음성 데이터로부터 생성된 복수의 패턴 모델에 의하여 구성된 음향 공간을 기억하는 음향 공간 기억 수단과,
대상 화자의 음성 데이터를 취득하는 음성 데이터 취득 수단과,
상기 대상 화자의 음성 데이터와 상기 음향 공간 내의 상기 복수의 패턴 모델에 기초하여, 상기 음향 공간 내에서의 상기 대상 화자의 음성 데이터의 위치를 산출하는 위치 산출 수단과,
상기 위치와 상기 복수의 패턴 모델에 기초하여, 상기 복수의 화자 중에서 상기 대상 화자의 음성과 유사한 음성을 가진 유사 화자를 검출하는 유사 화자 검출 수단과,
상기 위치와 상기 유사 화자의 패턴 모델에 기초하여, 상기 음향 공간 내에 서의 상기 대상 화자의 음성 데이터와 상기 유사 화자의 패턴 모델과의 위치 관계를 나타내는 정보를 표시하는 위치 관계 정보 표시 수단을 포함하는 것을 특징으로 하고 있다.
이러한 구성이라면, 음향 공간 기억 수단에 의하여, 복수의 화자의 음성 데이터로부터 생성된 복수의 패턴 모델에 의하여 구성된 음향 공간을 기억하는 것이 가능하고, 음성 데이터 취득 수단에 의하여, 대상 화자의 음성 데이터를 취득하는 것이 가능하며, 위치 산출 수단에 의하여, 상기 대상 화자의 음성 데이터와 상기 음향 공간 내의 상기 복수의 패턴 모델에 기초하여, 상기 음향 공간 내에서의 상기 대상 화자의 음성 데이터의 위치를 산출하는 것이 가능하고, 유사 화자 검출 수단에 의하여, 상기 위치와 상기 복수의 패턴 모델에 기초하여 상기 복수의 화자 중에서 상기 대상 화자의 음성과 유사한 음성을 가진 유사 화자를 검출하는 것이 가능하고, 위치 관계 정보 표시 수단에 의하여, 상기 위치와 상기 유사 화자의 패턴 모델에 기초하여, 상기 음향 공간 내에서의 상기 대상 화자의 음성 데이터와 상기 유사 화자의 패턴 모델과의 위치 관계를 나타내는 정보를 표시하는 것이 가능하다.
따라서, 대상 화자의 음성이, 복수의 화자 중의 누구의 음성을 닮았는지 시각적으로 간단하고 쉽게 파악하는 것이 가능하다.
또한, 청구 범위 제58항에 관한 발명은 청구 범위 제57항에 기재된 데이터 처리 장치에서, 상기 복수의 화자 중에서 특정 화자를 지정하는 특정 화자 지정 수단과,
상기 위치와 상기 음향 공간 내에서의 상기 특정 화자의 패턴 모델에 기초하여, 상기 특정 화자의 음성과 상기 대상 화자의 음성과의 유사성을 평가하는 유사성 평가 수단과,
상기 유사성 평가 수단의 평가 결과를 표시하는 평가 결과 표시 수단을 포함하고,
상기 위치 관계 정보 표시 수단은 상기 위치와 상기 특정 화자의 패턴 모델에 기초하여, 상기 음향 공간 내에서의 상기 대상 화자의 음성 데이터와 상기 특정 화자의 패턴 모델과의 위치 관계를 나타내는 정보를 표시하게 되어 있는 것을 특징으로 하고 있다.
즉, 특정 화자 지정 수단에 의하여, 상기 복수의 화자 중에서 특정 화자를 지정하는 것이 가능하고, 유사성 평가 수단에 의하여, 상기 위치와 상기 음향 공간 내에서의 상기 특정 화자의 패턴 모델에 기초하여, 상기 특정 화자의 음성과 상기 대상 화자의 음성과의 유사성을 평가하는 것이 가능하며, 평가 결과 표시 수단에 의하여, 상기 유사성 평가 수단의 평가 결과를 표시하는 것이 가능하고, 상기 위치 관계 정보 표시 수단은 상기 위치와 상기 특정 화자의 패턴 모델에 기초하여, 상기 음향 공간 내에서의 상기 대상 화자의 음성 데이터와 상기 특정 화자의 패턴 모델과의 위치 관계를 나타내는 정보를 표시하는 것이 가능하다.
따라서, 지정한 특정 화자의 음성과 대상 화자의 음성과의 유사성을 시각적으로 간단하고 쉽게 파악하는 것이 가능하고, 또한 음향 공간 내에서의 대상 화자의 음성 데이터와 특정 화자의 패턴 모델과의 위치 관계를 시각적으로 간단하고 쉽게 파악하는 것이 가능하다.
또한, 청구 범위 제59항에 기재된 데이터 처리 장치는 복수의 화자의 음성 데이터로부터 생성된 복수의 패턴 모델에 의하여 구성된 음향 공간을 기억하는 음향 공간 기억 수단과,
상기 복수의 화자 중에서 특정 화자를 지정하는 특정 화자 지정 수단과,
대상 화자의 음성 데이터를 취득하는 음성 데이터 취득 수단과,
상기 대상 화자의 음성 데이터와 상기 복수의 패턴 모델에 기초하여, 상기 음향 공간 내에서의 상기 대상 화자의 음성 데이터의 위치를 산출하는 위치 산출 수단과,
상기 위치와 상기 특정 화자의 패턴 모델에 기초하여, 상기 특정 화자의 음성과 상기 대상 화자의 음성과의 유사성을 평가하는 유사성 평가 수단과,
상기 유사성 평가 수단의 평가 결과를 표시하는 평가 결과 표시 수단과,
상기 위치와 상기 특정 화자의 패턴 모델에 기초하여, 상기 음향 공간 내붙인다, 상기 대상 화자의 음성 데이터와 상기 특정 화자의 패턴 모델과의 위치 관계를 나타내는 정보를 표시하는 위치 관계 정보 표시 수단을 포함하는 것을 특징으로 하고 있다.
이러한 구성이라면, 음향 공간 기억 수단에 의하여, 복수의 화자의 음성 데이터로부터 생성된 복수의 패턴 모델에 의하여 구성된 음향 공간을 기억하는 것이 가능하고, 음성 데이터 취득 수단에 의하여, 대상 화자의 음성 데이터를 취득하는 것이 가능하며, 위치 산출 수단에 의하여, 상기 대상 화자의 음성 데이터와 상기 음향 공간 내의 상기 복수의 패턴 모델에 기초하여 상기 음향 공간 내에서의 상기 대상 화자의 음성 데이터의 위치를 산출하는 것이 가능하고, 유사성 평가 수단에 의하여, 상기 위치와 상기 특정 화자의 패턴 모델에 기초하여, 상기 특정 화자의 음성과 상기 대상 화자의 음성과의 유사성을 평가하는 것이 가능하고, 평가 결과 표시 수단에 의하여, 상기 유사성 평가 수단의 평가 결과를 표시하는 것이 가능하며, 위치 관계 정보 표시 수단에 의하여, 상기 위치와 상기 특정 화자의 패턴 모델에 기초하여 상기 음향 공간 내에서의 상기 대상 화자의 음성 데이터와 상기 특정 화자의 패턴 모델과의 위치 관계를 나타내는 정보를 표시하는 것이 가능하다.
따라서, 지정한 특정 화자의 음성과 대상 화자의 음성과의 유사성을 시각적으로 간단하고 쉽게 파악하는 것이 가능하고, 또한 음향 공간 내에서의 대상 화자의 음성 데이터와 특정 화자의 패턴 모델과의 위치 관계를 시각적으로 간단하고 쉽게 파악하는 것이 가능하다.
또한, 청구 범위 제60항에 관한 발명은 청구 범위 제58항 또는 청구 범위 제59항에 기재된 데이터 처리 장치에서, 상기 유사성 평가 수단의 평가 결과에 기초하여, 상기 대상 화자의 음성과 상기 특정 화자의 음성과의 유사성을 높이기 위한 상기 대상 화자의 음성에 대한 교정 내용을 나타내는 교정 정보를 생성하는 교정 정보 생성 수단과 상기 교정 정보를 표시하는 교정 정보 표시 수단을 포함하는 것을 특징으로 하고 있다.
즉, 교정 정보 생성 수단에 의하여, 상기 유사성 평가 수단의 평가 결과에 기초하여, 상기 대상 화자의 음성과 상기 특정 화자의 음성과의 유사성을 높이기 위한 상기 대상 화자의 음성에 대한 교정 내용을 나타내는 교정 정보를 생성하는 것이 가능하고, 교정 정보 표시 수단에 의하여, 상기 교정 정보를 표시하는 것이 가능하다.
따라서, 대상 화자는 표시된 교정 정보를 보고, 자기의 발성 방법을 교정하는 것이 가능하다.
또한, 청구 범위 제61항에 관한 발명은 청구 범위 제58항에 기재된 데이터 처리 장치에서, 상기 유사 화자 검출 수단은 상기 위치에 기초하여, 상기 복수의 패턴 모델 중에서, 상기 대상 화자의 음성 데이터의 특징과 유사한 특징이 있는 패턴 모델을, 상기 대상 화자의 패턴 모델로서 사용하여 상기 유사성 평가 수단은 상기 위치에 기초하여, 상기 복수의 패턴 모델 중에서 상기 대상 화자의 음성 데이터의 특징과 유사한 특징이 있는 패턴 모델을, 상기 대상 화자의 패턴 모델로서 이용하는 것을 특징으로 하고 있다.
즉, 상기 유사 화자 검출 수단은 상기 위치에 기초하여, 상기 복수의 패턴 모델 중에서, 상기 대상 화자의 음성 데이터의 특징과 유사한 특징이 있는 패턴 모델을 상기 대상 화자의 패턴 모델로서 이용하는 것이 가능하고, 상기 유사성 평가 수단은 상기 위치에 기초하여, 상기 복수의 패턴 모델 중에서, 상기 대상 화자의 음성 데이터의 특징과 유사한 특징이 있는 패턴 모델을 상기 대상 화자의 패턴 모델로서 이용하는 것이 가능하다.
따라서, 대상 화자가 발성한 음성의 패턴 모델을 생성하지 않고 , 유사한 패턴 모델의 위치를 대상 화자가 발성한 음성 데이터의 음향 공간 내의 위치로 하도록 하였으므로 계산량을 줄일 수 있고, 또한 대상 화자가 발성한 음성의 패턴 모델을 생성하지 않고 , 유사한 패턴 모델의 위치를 대상 화자가 발성한 음성 데이터의 음향 공간 내의 위치로 하도록 하였기 때문에, 이로 인하여 계산량을 줄일 수 있으므로, 본 발명은 실시간 처리 등에 적절하다.
또한, 청구 범위 제62항에 관한 발명은 청구 범위 제58항에 기재된 데이터 처리 장치에서, 상기 유사 화자 검출 수단은 상기 위치에 기초하여, 상기 복수의 패턴 모델 중에서, 상기 대상 화자의 음성 데이터의 특징과 유사한 특징이 있는 상위 몇 개의 패턴 모델을, 상기 대상 화자의 패턴 모델로서 사용하여 상기 유사성 평가 수단은 상기 위치에 기초하여, 상기 복수의 패턴 모델 중에서 상기 대상 화자의 음성 데이터의 특징과 유사한 특징이 있는 상위 몇 개의 패턴 모델을 상기 대상 화자의 패턴 모델로서 이용하는 것을 특징으로 하고 있다.
즉, 상기 유사 화자 검출 수단은 상기 위치에 기초하여, 상기 복수의 패턴 모델 중에서, 상기 대상 화자의 음성 데이터의 특징과 유사한 특징이 있는 상위 몇 개의 패턴 모델을, 상기 대상 화자의 패턴 모델로서 이용하는 것이 가능하고, 상기 유사성 평가 수단은 상기 위치에 기초하여, 상기 복수의 패턴 모델 중에서, 상기 대상 화자의 음성 데이터의 특징과 유사한 특징이 있는 상위 몇 개의 패턴 모델을 상기 대상 화자의 패턴 모델로서 이용하는 것이 가능하다.
따라서, 예를 들면 유사도가 높은 순서로 상위 몇 개의 패턴 모델을 선택하고, 이들 복수의 패턴 모델의 평균값를 검출 처리 및 평가 처리 등에 이용함으로써, 패턴 모델을 단수로 선택하여 이용하는 경우에, 유사하다고 판단하여 선택된 패턴 모델이 실제는 유사하지 않았던 것이었을 경우 등과 비교하여, 잘못된 패턴 모델이 선택되어도 그 오차를 경감하는 것이 가능하게 된다.
또한, 청구 범위 제63항에 관한 발명은 청구 범위 제61항 내지 청구 범위 제62항 중 어느 하나의 항에 기재된 데이터 처리 장치에서, 상기 위치 산출 수단은 상기 음성 데이터 취득 수단에 의하여 취득된 음성 데이터를 고차원의 특징량 데이터로 변환하고, 상기 특징량 데이터와 상기 복수의 화자의 복수의 패턴 모델에 기초하여, 상기 특징량 데이터와 각 패턴 모델과의 우도를 산출하고, 상기 산출된 우도에 기초하여 상기 복수의 화자의 복수의 패턴 모델 중에서 특정의 패턴 모델을 선택하고, 상기 선택된 특정의 패턴 모델과 다른 패턴 모델과의 상호 간의 수학적 거리를 산출하고, 상기 산출된 수학적 거리에 기초하여, 상기 음향 공간 내에서의 상기 취득된 음성 데이터의 위치를 산출하는 것을 특징으로 하고 있다.
즉, 대상 화자의 음성 데이터와 복수의 화자의 복수의 패턴 모델의 우도를 산출하여 유사성을 판단하는 것이 가능하고, 이로써, 대상 화자의 음성 데이터의 특징과 유사한 특징이 있는 패턴 모델을 간편하게 선택하는 것이 가능하다.
이때, 수학적 거리라 함은, 대상 화자의 음성 데이터로부터 생성되는 음향 모델과 복수의 화자의 음향 모델과의 유사도를 나타내는 것으로, 이 유사도를 측정하는 측정기구의 종류에 따라 여러 가지가 있다.
이 측정기구는 예를 들면, 유클리드 거리 등의 보통 측정기구로도 측정할 수 있는 거리에 대응하는 것이나, 유사도를 측정하는 거리를 두 개의 벡터의 내적으로 하고, 두 개의 벡터가 이루는 각을 유사도로서 평가하는 마하라노비스의 범거리 등의, 보통 측정기구에서는 측정할 수 없는 유사도에 대응하는 것이 있다.
또한, 본 발명에 대하여는 수학적 거리로서 그 밖에, 바타체리야 (Bhattacharrya) 거리, 평방 유크리드 거리, 코사인 거리, 피어손의 상관, 체비쉐프, 도시 블록 거리 (또는 맨하탄 거리), 민코우스키 합, 쿨백 정보량, 체르노프 거리 등이 있다.
즉, 거리라고 부르고는 있지만, 유사도를 나타내는 것이면 어떠한 것이라도 좋다.
또한, 청구 범위 제64항에 관한 발명은 청구 범위 제57항 내지 청구 범위 제6O항 중 어느 하나의 항에 기재된 데이터 처리 장치에서, 상기 위치 산출 수단은 상기 음성 데이터 취득 수단에 의하여 취득된 음성 데이터를 고차원의 특징량 데이터로 변환하고, 상기 특징량 데이터에 기초하여 대상 화자용 패턴 모델을 생성하고, 상기 생성된 패턴 모델과 상기 복수의 화자의 복수의 패턴 모델의 상호 간의 수학적 거리를 산출하고, 상기 산출된 수학적 거리에 기초하여, 상기 음향 공간 내에서의 상기 취득된 음성 데이터의 위치를 산출하는 것을 특징으로 하고 있다.
즉, 상기 위치 산출 수단은 상기 음성 데이터 취득 수단에 의하여 취득된 음성 데이터를 고차원의 특징량 데이터로 변환하고, 상기 특징량 데이터에 기초하여 대상 화자용의 패턴 모델을 생성하고, 상기 생성된 패턴 모델과 상기 복수의 화자의 복수의 패턴 모델의 상호 간의 수학적 거리를 산출하고, 상기 산출된 수학적 거리에 기초하여, 상기 음향 공간 내에서의 상기 취득된 음성 데이터의 위치를 산출하는 것이 가능하다.
따라서, 대상 화자의 음성 데이터 그 자체에 대하여 검출 처리나 평가 처리를 실시하는 것이 가능하다.
또한, 청구 범위 제65항에 관한 발명은 청구 범위 제63항 또는 청구 범위 제64항에 기재된 데이터 처리 장치에서, 상기 패턴 모델은 4차원 이상의 고차원의 요소로 구성되어 있고, 상기 위치 관계 정보 표시 수단은 상기 대상 화자의 음성 데이터에 대응하는 패턴 모델을 포함한 상기 음향 공간 내의 복수의 패턴 모델을, 이와 같은 거리 관계를 유지한 상태로, 그보다 저차원의 패턴 모델로 변환하고, 상기 변환 후의 패턴 모델을 저차원 공간상의 좌표점으로서 표시하는 것을 특징으로 하고 있다.
즉, 상기 위치 관계 정보 표시 수단은 상기 대상 화자의 음성 데이터에 대응하는 패턴 모델을 포함한 상기 음향 공간 내의 복수의 패턴 모델을, 이러한 위치 관계를 유지한 상태로, 그보다 저차원의 패턴 모델로 변환하고, 상기 변환 후의 패턴 모델을 저차원 공간상의 좌표점으로서 표시하는 것이 가능하다.
따라서, 대상 화자의 음성 데이터의 음향 공간 내의 위치를 시각적으로 간단하고 쉽게 파악하는 것이 가능하다.
이때, 음성 데이터 및 패턴 모델이 다차원 (4차원 이상)의 정보를 가지는 경우에는 그 위치 정보도 다차원이 된다. 위치 관계 정보 표시 수단은, 이와 같은 경우에, 음성 데이터 및 패턴 모델을, 예를 들면 투영 등을 이용하여 다차원의 정보를 2차원 등의 저차원의 정보로 변환하고 나서, 그 저차원의 공간상에 좌표점으로서 표시하는 것이 가능하다. 이와 같은 투영 방법으로는 예를 들면, 공지의 새먼법 등이 있다.
또한, 청구 범위 제66항에 관한 발명은 청구 범위 제58항 내지 청구 범위 제65항 중 어느 하나의 항에 기재된 데이터 처리 장치에서, 상기 유사성 평가 수단은 상기 대상 화자의 음성 데이터에서의 음소 마다의 유사성을 평가하게 되어 있는 것을 특징으로 하고 있다.
즉, 상기 유사성 평가 수단은 상기 대상 화자의 음성 데이터에서의 음소 마다의 유사성을 평가하는 것이 가능하기 때문에, 대상 화자의 음성 데이터를 단어나 문장 단위가 아니고, 음소 단위로 그 유사성을 평가하고, 음소마다 평가 결과를 표시하므로, 간단하고 쉽게 음소 단위의 유사성의 평가 결과를 아는 것이 가능하게 된다.
또한, 청구 범위 제67항에 관한 발명은 청구 범위 제58항 내지 청구 범위 제66항 중 어느 하나의 항에 기재된 데이터 처리 장치에서, 상기 음향 공간은 복수 종류의 발화 양식에 의하여 각각 발성된 상기 복수의 화자의 음성 데이터보다 생성된 복수의 패턴 모델로 구성되어 있어 상기 유사성 평가 수단은 상기 발화 양식의 종류마다, 상기 유사성 평가를 실시하게 되어 있는 것을 특징으로 하고 있다.
즉, 상기 음향 공간은 복수 종류의 발화 양식에 의하여 각각 발성된 상기 복수의 화자의 음성 데이터에 의하여 생성된 복수의 패턴 모델로 구성되어 있고, 상기 유사성 평가 수단은 상기 발화 양식의 종류마다, 상기 유사성의 평가를 실시하는 것이 가능하다.
따라서, 예를 들면 높은 목소리에 의한 발성, 낮은 목소리에 의한 발성, 빠른 속도의 발성, 느린 속도의 발성 등, 다양한 종류의 발화 양식으로 발성된 특정 화자의 음성에 대하여, 대상 화자의 음성의 유사성을 평가하는 것이 가능하다. 이로써, 예를 들면 대상 화자는 자신에게 맞는 발화 양식으로 발성된 특정 화자의 음성을 흉내내는 것 등이 가능하게 된다.
또한, 청구 범위 제68항에 관한 발명은 청구 범위 제67항에 기재된 데이터 처리 장치에서, 상기 위치 관계 정보 표시 수단은 상기 복수의 패턴 모델에 각각 대응하는 상기 발화 양식에 기초하여, 상기 저차원 공간의 좌표축을 설정하게 되어 있는 것을 특징으로 하고 있다.
즉, 저차원 공간의 축을, 예를 들면 발화 속도나 소리의 높이 등에 의하여 설정함으로써, 대상 화자의 음성 데이터의 특징이나, 그 주변의 복수의 화자 또는 특정 화자의 음성 데이터의 특징 등을 용이하게 파악하는 것이 가능하게 된다.
또한, 청구 범위 제69항에 관한 발명은 청구 범위 제57항 내지 청구 범위 제68항 중 어느 하나의 항에 기재된 데이터 처리 장치에서, 상기 패턴 모델을 HMM (Hidden Markov Model)에 의하여 구성하는 것을 특징으로 하고 있다.
즉, 패턴 모델을, 공지의 기술인 HMM를 사용하여 구성한 것이다.
이때, 음성은 말하는 속도에 따라 그 시간적 길이가 바뀌고, 발성 내용에 따라, 주파수 영역상에서 특징적인 형상 ("스펙트럼 포락"이라 한다.)을 나타내지 만, 그 형상은 발성하는 사람, 환경, 내용 등에 의존하여 변동이 생긴다.
예를 들면, 상기 HMM는 그러한 변동을 흡수할 수 있는 통계적 모델이다.
또한, 청구 범위 제70항에 기재된 데이터 처리 시스템은 대상 화자의 관리하에 있는 정보처리 단말과,
청구 범위 제57항 내지 청구 범위 제69항 중 어느 하나의 항에 기재된 데이터 처리 장치를 포함하고,
상기 정보처리 단말과 상기 데이터 처리 장치를 서로 데이터 통신 가능하게 접속하고, 상기 정보처리 단말은 상기 대상 화자의 음성 데이터를 취득하고, 상기 취득한 음성 데이터를 상기 데이터 처리 장치에 송신하는 음성 데이터 송신 수단과 상기 데이터 처리 장치로부터 취득한 상기 음성 데이터의 처리 결과에 관한 정보를 표시하는 정보 표시 수단을 포함하고,
상기 데이터 처리 장치는 상기 음성 데이터의 처리 결과에 관한 정보를 상기 정보처리 단말에 송신하는 정보 송신 수단을 포함하는 것을 특징으로 하고 있다.
즉, 상기 정보처리 단말은 음성 데이터 송신 수단에 의하여, 상기 대상 화자의 음성 데이터를 취득하고, 상기 취득한 음성 데이터를 상기 데이터 처리 장치에 송신하는 것이 가능하고, 정보 표시 수단에 의하여, 상기 데이터 처리 장치로부터 취득한 상기 음성 데이터의 처리 결과에 관한 정보를 표시하는 것이 가능하다.
또한, 상기 데이터 처리 장치는 정보 송신 수단에 의하여, 상기 음성 데이터의 처리 결과에 관한 정보를 상기 정보처리 단말에 송신하는 것이 가능하다.
따라서, 예를 들면 인터넷 등을 통하여 정보처리 단말과 데이터 처리 장치를 접속함으로써, 인터넷을 통하여, 대상 화자의 음성 데이터에 대하여, 상기 검출 처리나 평가 처리 등을 실시하는 것이 가능하게 되고, 대상 화자는 자택 등으로부터 간편하게 자신의 음성의 검출 처리 또는 평가 처리를 실시하는 것이 가능하다.
또한, 청구 범위 제71항에 기재된 데이터 처리 방법은 복수의 화자의 음성 데이터로 생성된 복수의 패턴 모델에 의하여 구성된 음향 공간을 준비하고,
대상 화자의 음성 데이터를 취득하고,
상기 대상 화자의 음성 데이터와 상기 음향 공간 내의 상기 복수의 패턴 모델에 기초하여, 상기 음향 공간 내에서의 상기 대상 화자의 음성 데이터의 위치를 산출하고,
상기 위치와 상기 복수의 패턴 모델에 기초하여, 상기 복수의 화자 중에서 상기 대상 화자의 음성과 유사한 음성을 가진 유사 화자를 검출하고,
상기 위치와 상기 유사 화자의 패턴 모델에 기초하여, 상기 음향 공간 내에 서의 상기 대상 화자의 음성 데이터와 상기 유사 화자의 패턴 모델과의 위치 관계를 나타내는 정보를 표시하는 것을 특징으로 하고 있다.
이때, 본 발명은 상기 청구의 범위 제57항에 기재된 데이터 처리 장치에 의하여 실현되는 것이고, 그 효과는 중복되므로 기재를 생략한다.
또한, 청구 범위 제72항에 관한 발명은 청구 범위 제71항에 기재된 데이터 처리 방법에서, 상기 복수의 화자 중에서 특정 화자를 지정하고,
상기 위치와 상기 음향 공간 내에서의 상기 특정 화자의 패턴 모델에 기초하여, 상기 특정 화자의 음성과 상기 대상 화자의 음성의 유사성을 평가하고, 상기 평가 결과를 표시하는 것을 특징으로 하고 있다.
이때, 본 발명은 상기 청구 범위 제58항에 기재된 데이터 처리 장치에 의하여 실현되는 것이고, 그 효과는 중복되므로 기재를 생략한다.
또한, 청구 범위 제73항에 기재된 데이터 처리 방법은 복수의 화자의 음성 데이터로부터 생성된 복수의 패턴 모델에 의하여 구성된 음향 공간을 준비하고,
상기 복수의 화자 중에서 특정 화자를 지정하고,
대상 화자의 음성 데이터를 취득하고,
상기 대상 화자의 음성 데이터와 상기 복수의 패턴 모델에 기초하여, 상기 음향 공간 내에서의 상기 대상 화자의 음성 데이터의 위치를 산출하고,
상기 위치와 상기 특정 화자의 패턴 모델에 기초하여, 상기 특정 화자의 음성과 상기 대상 화자의 음성과의 유사성을 평가하고,
상기 평가 결과를 표시하고,
상기 위치와 상기 특정 화자의 패턴 모델에 기초하여, 상기 음향 공간 내에 서의 상기 대상 화자의 음성 데이터와 상기 특정 화자의 패턴 모델의 위치 관계를 나타내는 정보를 표시하는 것을 특징으로 하고 있다.
이때, 본 발명은 상기 청구 범위 제59항에 기재된 데이터 처리 장치에 의하여 실현되는 것으로서, 그 효과는 중복되므로 기재를 생략한다.
또한, 청구 범위 제74항에 기재된 데이터 처리 장치 제어 프로그램은 복수의 화자의 음성 데이터로부터 생성된 복수의 패턴 모델에 의하여 구성된 음향 공간을 기억하는 음향 공간 기억 스텝과,
대상 화자의 음성 데이터를 취득하는 음성 데이터 취득 스텝과,
상기 대상 화자의 음성 데이터와 상기 음향 공간 내의 상기 복수의 패턴 모델에 기초하여, 상기 음향 공간 내에서의 상기 대상 화자의 음성 데이터의 위치를 산출하는 위치 산출 스텝과,
상기 위치와 상기 복수의 패턴 모델에 기초하여, 상기 복수의 화자 중에서 상기 대상 화자의 음성과 유사한 음성을 가진 유사 화자를 검출하는 유사 화자 검출 스텝과,
상기 위치와 상기 유사 화자의 패턴 모델에 기초하여, 상기 음향 공간에서의 상기 대상 화자의 음성 데이터와 상기 유사 화자의 패턴 모델과의 위치 관계를 나타내는 정보를 표시하는 위치 관계 정보 표시 스텝과,
특정 화자를 지정하는 특정 화자 지정 스텝과,
상기 위치와 상기 음향 공간에서의 상기 특정 화자의 패턴 모델에 기초하여, 상기 특정 화자의 음성과 상기 대상 화자의 음성의 유사성을 평가하는 유사성 평가 스텝과,
상기 유사성 평가 스텝에 의한 평가 결과를 표시하는 평가 결과 표시 스텝을 포함하고,
상기 위치 관계 정보 표시 스텝에서는 상기 위치와 상기 특정 화자의 패턴 모델에 기초하여, 상기 음향 공간 내에서의 상기 대상 화자의 음성 데이터와 상기 특정 화자의 패턴 모델의 위치 관계를 나타내는 정보를 표시하게 되어 있는 것을 특징으로 하고 있다.
이때, 본 발명은 청구 범위 제58항에 기재된 데이터 처리 장치를 제어하기 위한 프로그램으로서, 그 효과는 중복되므로 기재를 생략한다.
또한, 청구 범위 제75항에 기재된 데이터 처리 장치 제어 프로그램은 복수의 화자의 음성 데이터로부터 생성된 복수의 패턴 모델에 의하여 구성된 음향 공간을 기억하는 음향 공간 기억 스텝과,
상기 복수의 화자 중에서 특정 화자를 지정하는 특정 화자 지정 스텝과,
대상 화자의 음성 데이터를 취득하는 음성 데이터 취득 스텝과,
상기 대상 화자의 음성 데이터와 상기 복수의 패턴 모델에 기초하여, 상기 음향 공간 내에서의 상기 대상 화자의 음성 데이터의 위치를 산출하는 위치 산출 스텝과 상기 위치와 상기 특정 화자의 패턴 모델에 기초하여, 상기 특정 화자의 음성과 상기 대상 화자의 음성과의 유사성을 평가하는 유사성 평가 스텝과,
상기 유사성 평가 스텝에 의한 평가 결과를 표시하는 평가 결과 표시 스텝과,
상기 위치와 상기 특정 화자의 패턴 모델에 기초하여, 상기 음향 공간 내에 서의 상기 대상 화자의 음성 데이터와 상기 특정 화자의 패턴 모델과의 위치 관계를 나타내는 정보를 표시하는 위치 관계 정보 표시 스텝을 포함하는 것을 특징으로 하고 있다.
이때, 본 발명은 청구 범위 제59항에 기재된 데이터 처리 장치를 제어하기 위한 프로그램으로서, 그 효과는 중복되므로 기재를 생략한다.
도 1은 본 발명에 관한 데이터 처리 장치 (1)의 구성을 나타내는 블록도이다.
도 2는 2차원의 음향 모델 대응 저차원 벡터의 2차원 공간상에서의 표시의 일례를 나타내는 도면이다.
도 3은 표시된 좌표점의 2차원 공간상에서의 영역 구분의 일례를 나타내는 도면이다.
도 4는 제1 구분 영역을 나타내는 도면이다.
도 5는 제2 구분 영역을 나타내는 도면이다.
도 6은 제3 구분 영역을 나타내는 도면이다.
도 7은 제4 구분 영역을 나타내는 도면이다.
도 8은 제5 구분 영역을 나타내는 도면이다.
도 9는 도 3에 나타내는 구분 내용의 변경의 일례를 나타내는 도면이다.
도 10은 데이터 처리 장치 (1)의 동작 처리를 나타내는 플로차트이다.
도 11은 데이터 처리 장치 (1)에서의 특정 패턴 모델의 생성 처리를 나타내는 플로차트이다.
도 12는 데이터 처리 장치 (1)에서의 구분 내용의 변경 처리를 나타내는 플로차트이다.
도 13은 실시예에서의 음향 모델 대응 저차원 벡터의 표시 내용을 나타내는 도면이다.
도 14는 각 구분 영역마다 생성한 영역 음향 모델 및 전체 영역에 대한 음향 모델의 인식율을 나타내는 도면이다.
도 15는 발화 양식을 나타내는 도면이다.
도 16은 도 15에 나타내는 발화 양식의 조합마다 작성한 음향 모델을 2차원 투영 표시한 일례를 나타내는 도면이다.
도 17은 생활 잡음, 새의 울음 소리, 인간의 음성 데이터를 사용하여 작성한 음향 모델을 2차원 투영 표시한 일례를 나타내는 도이다.
도 18은 인간의 입술부의 화상 데이터를 사용하여 작성한 패턴 모델을 2차원 투영 표시한 일례를 나타내는 도이다.
도 19는 적외선 센서의 출력 데이터를 사용하여 작성한 패턴 모델을 2차원 투영 표시한 일례를 나타내는 도이다.
도 20은 가속도 센서의 출력 데이터를 사용하여 작성한 패턴 모델을 2차원 투영 표시한 일례를 나타내는 도이다.
도 21은 본 발명에 관한 데이터 처리 장치 (21)의 구성을 나타내는 블록도이다.
도 22는 데이터 처리장치 (1)과 데이터 처리장치 (21)의 영역 구분 방법의 차이를 나타내는 도이다.
도 23은 고차원 음향 모델을 2차원 좌표 표시한 때의 인식율이 높은 화자와 인식율이 낮은 화자와의 분포를 나타내는 도이다.
도 24는 각 구분 영역의 구조를 나타내는 도이다.
도 25는 영역 패턴 모델의 제1 탐색 방법을 나타내는 도이다.
도 26은 영역 패턴 모델의 제2 탐색 방법을 나타내는 도이다.
도 27은 영역 패턴 모델 탐색부 (21c)의 제1 탐색 방법에 의한 탐색 처리를 나타내는 플로챠트이다.
도 28은 영역 패턴 모델 탐색부 (21c)의 제2 탐색 방법에 의한 탐색 처리를 나타내는 플로챠트이다.
도 29a는 음향 모델의 생성에 사용하는 발화 양식의 종류를 나타내는 도이다.
도 29b는 본 발명에 관한 데이터 처리장치 (21)에 의하여 2차원 평면상에 표시된 음향 모델 대응 저차원 벡터를 나타내는 도이다.
도 30은 본 발명에 관한 데이터 처리장치 (21)의 탐색 방법을 사용하여 선택한 음향 모델과, 종래 법의 화자 적응 수법 MLLR을 사용하여 선택한 음향 모델에 대한 각 화자와 인식 성능과의 관계를 나타내는 도이다.
도 31은 음향 모델 탐색 시의 발성 수와 당해 발성수에 의하여 선택한 음향 모델의 인식 성능과의 관계를 나타내는 도이다.
도 32는 제1 탐색 방법을 사용하여 탐색한 음향 모델과, 전영역 음향 모델과의 우도 계산에 의하여 탐색한 음향 모델에 대하여 각 화자와 인식율과의 관계를 나타내는 도이다.
도 33은 가중치로 2종류의 출현빈도를 사용한 경우와 가중치에 통상의 출현 빈도를 사용한 경우와, 가중치에 인식 성능이 소정의 역치보다 어휘 단어에 포함되는 음성 단위의 출현 빈도를 사용하는 경우에 대하여, 화자와 인식율의 관계는 나 타내는 도이다.
도 34a는 출현 빈도로서 단순한 다이폰 (diphone)의 출현 빈도를 사용하여 생성한 음향 공간 지도를 나타내는 도이다.
도 34b는 출현 빈도로서 인식 성능이 낮은 다이폰 (diphone)의 출현 빈도를 사용하여 생성한 음향 공간 지도를 나타내는 도면이다.
도 35는 본 발명에 관한 데이터 처리 시스템의 구성을 나타내는 블록도이다.
도 36는 정보처리 단말 (350)의 상세한 구성을 나타내는 도면이다.
도 37은 데이터 처리 장치 (37)의 상세 구성을 나타내는 블록도이다.
도 38은 시스템 이용자에게 적합한 음향 모델의 전달(delivery)을 실시할 때의 표시 정보의 일례를 나타내는 도면이다.
도 39는 시스템 이용자가 사용하고 있는 음향 모델의 성능을 평가하고, 새로운 음향 모델을 전달할 때의 표시 정보의 일례를 나타내는 도면이다.
도 40은 정보처리 단말 (350)에서의 데이터 송신 처리를 나타내는 플로차트이다.
도 41은 데이터 처리 장치 (37)의 동작 처리를 나타내는 플로차트이다.
도 42는 정보처리 단말 (350)에서의 표시용 정보 수신시의 동작 처리를 나타내는 플로차트이다.
도 43은 본 발명에 관한 데이터 처리 시스템 (7)의 구성을 나타내는 블록도이다.
도 44는 정보처리 단말 (2)의 상세한 구성을 나타내는 도면이다.
도 45는 데이터 처리 장치 (3)의 상세 구성을 나타내는 블록도이다.
도 46은 데이터 처리 시스템 (7)의 초기 데이터베이스의 구축 처리 및 데이터 평가 처리의 흐름을 나타내는 도면이다.
도 47은 음향 공간을 2차원 투영하여 표시한 일례를 나타내는 도면이다.
도 48은 정보처리 단말 (2)의 동작 처리를 나타내는 플로차트이다.
도 49는 데이터 처리 장치 (3)의 동작 처리를 나타내는 플로차트이다.
도 50은 제2 정보 표시부 (3f)에서의 2차원 투영화에 의한 좌표 정보의 표시 처리를 나타내는 플로차트이다.
도 51은 본 발명에 관한 데이터 처리 시스템 (8)의 구성을 나타내는 블록도이다.
도 52는 정보처리 단말 (9)의 상세한 구성을 나타내는 도면이다.
도 53은 데이터 처리 장치 (10)의 상세 구성을 나타내는 블록도이다.
도 54는 데이터 처리 시스템 (8)의 초기 데이터 페이스의 구축 처리 및 데이터 평가 처리의 흐름을 나타내는 도면이다.
도 55는 음향 공간을 2차원 투영하여 표시한 일례를 나타내는 도이며, (a)는 HMM를 단어 (또는 문장) 단위로 취급하였을 경우의 HMM의 각 좌표를 점으로 표시한 것이고, (b)는 HMM를 음소 단위 (도에서는「a」,「i」,「u」,「e」,「o」)로 취급하였을 경우의 각 HMM의 음소 마다의 각 좌표를 점으로 표시한 것이다.
도 56은 발화 양식을 축의 요소로 하였을 때의 2차원 투영 표시의 일례를 나타내는 도면이다.
도 57은 정보처리 단말 (9)의 동작 처리를 나타내는 플로차트이다.
도 58은 데이터 처리 장치 (10)의 동작 처리를 나타내는 플로차트이다.
도 59는 제2 정보 표시부 (10g)에서의 2차원 투영화에 의한 좌표 정보의 표시 처리를 나타내는 플로챠트이다.
발명을 실시하기 위한 최선의 형태
[제1 실시 형태]
이하, 본 발명의 제1 실시 형태를 도면에 기초하여 설명한다. 도 1 내지 도 14는 본 발명에 관한 데이터 처리 장치의 제1 실시 형태를 나타내는 도면이다.
먼저, 본 발명에 관한 데이터 처리 장치의 구성을 도 1에 기초하여 설명한다. 도 1은 본 발명에 관한 데이터 처리 장치 (1)의 구성을 나타내는 블록도이다.
데이터 처리 장치 (1)은 데이터 분류부 (1a)와, 데이터 기억부 (1b)와, 패턴 모델 생성부 (1c)와, 데이터 제어부 (1d)와, 수학적 거리 산출부 (1e)와, 패턴 모델 변환부 (1f)와, 패턴 모델 표시부 (1g)와, 영역 구분부 (1h)와, 구분 내용 변경부 (1i)와, 영역 선택부 (1j)와, 특정 패턴 모델 생성부 (1k)를 포함한 구성으로 되어 있다.
데이터 분류부 (1a)는 복수 대상에 관한 불특정 다수의 데이터를 복수의 특정 조건에 기초하여, 그룹핑하는 것이다. 본 실시 형태에서는 복수의 화자로부터 취득한 불특정 다수의 음성 데이터를, 화자의 이름, 남성/여성의 성별, 어린이/성인/고령자의 연령별 등의「화자의 종류」, 발화하는 숫자, 문장, 단어 등의 「발화 어휘」, 발화 속도, 발화 음량, 방언에 유래하는 특징 등의 「발화 양식」및 실내, 자동차내, 공장내, 옥외 (장소 등에 의하여 종류를 나눈다) 등의 「발화 환경」의 4개의 특정 조건에 기초하여, 그룹핑한다. 이때, 각 특정 조건의 조합 (특정 조건 내의 각 요소의 조합 및 특정 조건끼리의 조합 등)에 대하여는 이용자에 의하여 임의의 내용으로 설정 가능하다.
데이터 기억부 (1b)는 복수 대상에 관한 데이터나, 상기 데이터로부터 생성한 패턴 모델 등의 데이터 처리에 관한 데이터를 기억하는 것이다. 본 실시 형태에서는 상기 음성 데이터나, 음성 데이터로부터 생성한 패턴 모델 (이하, 음향 모델이라 한다.) 등의 음성 데이터 처리에 관한 데이터를 기억한다.
패턴 모델 생성부 (1c)는 데이터 분류부 (1a)에 의하여 그룹을 나눈 데이터에 기초하여, 각 그룹마다 4차원 이상의 고차원의 패턴 모델을 생성하는 것이다. 본 실시 형태에서는 데이터 분류부 (1a)에 의하여 그룹을 나눈 음성 데이터에 기초하여, 각 그룹마다 4차원 이상의 고차원의 음향 모델 (이하, 고차원 음향 모델이라 부른다)을 생성한다.
데이터 제어부 (1d)는 데이터 처리 장치 (1)을 구성하는 각 구성요소 사이의 데이터의 흐름을 제어하거나, 각부의 동작의 흐름을 제어하거나 하는 것이다.
수학적 거리 산출부 (1e)는 패턴 모델 생성부 (1c)에서 생성된 복수의 패턴 모델에서의 각 패턴 모델 상호 간의 수학적 거리를 산출하는 것이다. 본 실시 형태에서는 각 고차원 음향 모델 상호 간의 수학적 거리를 산출한다.
패턴 모델 변환부 (1f)는 패턴 모델 생성부 (1c)에서 생성된 패턴 모델 및 수학적 거리 산출부 (1e)에서 산출된 수학적 거리에 기초하여, 패턴 모델을 상기 패턴 모델보다 저차원의 모델 (이하, "패턴 모델 대응 저차원 벡터"라 부른다)로 변환하는 것이다. 본 실시 형태에서는 패턴 모델 생성부 (1c)에서 생성된 고차원 음향 모델 및 수학적 거리 산출부 (1e)에서 산출된 수학적 거리에 기초하여, 고차원 음향 모델을 상기 고차원 음향 모델보다 저차원의 음향 모델 (이하, "음향 모델 대응 저차원 벡터"라 한다.)로 변환한다.
패턴 모델 표시부 (1g)는 패턴 모델 변환부 (1f)에서, 패턴 모델 대응 저차원 벡터로 변환된 패턴 모델을, 이것과 동일한 차원의 저차원 공간상의 좌표점으로서 표시하는 것이다.
본 실시 형태에서는 패턴 모델 변환부 (1f)에서, 음향 모델 대응 저차원 벡터로 변환된 음향 모델을, 이것과 동일한 차원의 저차원 공간상의 좌표점으로서 표시한다.
영역 구분부 (1h)는 패턴 모델 표시부 (1g)에 의하여 저차원 공간상의 좌표점으로서 표시된 패턴 모델 대응 저차원 벡터를, 상기 저차원 공간상에서의 복수의 영역에 자동 구분하는 것이다. 본 실시 형태에서는 패턴 모델 표시부 (1g)에 의하여 저차원 공간상의 좌표점으로서 표시된 음향 모델 대응 저차원 벡터를 상기 저차원 공간상에서 복수의 영역에 자동 구분한다. 또한, 본 실시 형태에서는 복수로 구분된 영역의 각각을 구분 영역이라 부르기로 한다.
구분 내용 변경부 (1i)는 데이터 처리 장치 (1)가 포함한 도시하지 않는 입력 디바이스로부터의 입력 정보에 기초하여, 영역 구분부 (1h)에 의하여 구분된 구분 내용을 변경하는 것이다.
영역 선택부 (1j)는 데이터 처리 장치 (1)가 포함한, 도시하지 않은 입력 데 바이스로부터 입력받은 입력 정보에 기초하여, 영역 구분부 (1h)에 의하여 형성된 복수의 구분 영역 중에서 특정 구분 영역을 선택하는 것이다.
특정 패턴 모델 생성부 (1k)는 영역 선택부 (1j)에 의하여 선택된 특정 영역내의 패턴 모델 대응 저차원 벡터에 대응하는 패턴 모델에 관한 데이터에 기초하여, 고차원의 패턴 모델을 생성하는 것이다. 또한, 본 실시 형태에서는 영역 선택부 (1j)에 의하여 선택된 특정 영역 내의 음향 모델 대응 저차원 벡터에 대응하는 고차원 음향 모델에 관한 음성 데이터에 기초하여, 고차원의 음향 모델을 생성한다. 이때, 본 실시 형태에서 특정 패턴 모델 생성부 (1k)에 의하여 생성되는 고차원의 패턴 모델을 특정 패턴 모델 (본 실시 형태에서는 특정 음향 모델) 이라 부르기로 한다.
또한, 본 실시 형태에서, 데이터 처리 장치 (1)는 도시하지 않는 프로세서와, RAM (Random Access Memory)와, 전용 프로그램이 기억된 ROM (Read Only Memory)를 포함하고 있고, 프로세서에 의하여 전용 프로그램을 실행함으로써 상기 각부의 기능을 완수한다. 이때, 상기 각부는 전용 프로그램만으로 그 기능을 완수하는 것, 전용의 프로그램에 의하여 하드웨어를 제어하고 그 기능을 완수하는 것 등이 혼재되어 있다.
또한, 도 2 내지 도 9에 기초하여, 데이터 처리 장치 (1)의 구체적인 동작을 설명한다.
도 2는 2차원의 음향 모델 대응 저차원 벡터의 2차원 공간상으로의 표시의 일례를 나타내는 도며, 도 3은 표시된 좌표점의 2차원 공간상에서의 영역 구분의 일례를 나타내는 도며, 도 4일도 8은 도 3에서의 각 구분 영역을 나타내는 도며, 도 9는 도 3에 나타내는 구분 내용의 변경의 일례를 나타내는 도면이다.
먼저, 데이터 분류부 (1a)에 의하여, 데이터 기억부 (1b)에 기억된 복수의 화자의 음성 데이터를, 전술한 화자의 종류, 발화 어휘, 발화 양식 및 발화 환경의 4개의 특정 조건에 기초하여, 그룹을 나눈다. 예를 들면, 화자의 이름, 단어, 빠른 속도, 실내로 1 그룹, 화자의 이름, 단어, 큰 목소리, 실내로 1 그룹, 화자의 이름, 단어, 빠른 속도, 옥외에서 1 그룹으로, 4개의 특정 조건을 모두 포함하는 조합으로 그룹을 나눈다. 이때, 음성 데이터에는 그룹 나누기에 관한 정보가 부가된다.
다음으로, 패턴 모델 생성부 (1c)에 의하여, 상기 그룹을 나눈 음성 데이터를 이용하여, 각 그룹마다 고차원 음향 모델을 생성한다. 음향 모델은 예를 들면 HMM 등의 공지의 수법을 사용하여 생성된다. 생성된 고차원 음향 모델은 생성시의 음성 데이터에 대응시켜 데이터 기억부 (1b)에 기억된다.
또한, 수학적 거리 산출부 (1e)에 의하여, 상기 생성된 각 고차원 음향 모델 상호 간의 수학적 거리를 산출한다. 일반적으로 고차원 음향 모델은 복수의 음성 단위의 HMM의 집합으로부터 완성된다. 이에 고차원 음향 모델 i 및 j의 거리를 아래의 식 (1)로 정의한다.
[수학식 1]
Figure 112006020663175-pct00001
상기 수학식 (1)에서, d*는 고차원 음향 모델 i와 고차원 음향 모델 j의 상호 거리이며, d (i, j, k)는 고차원 음향 모델 i에 포함되는 음성 단위 (k)의 모델과 고차원 음향 모델 j에 포함되는 음성 단위 (k)의 모델의 상호 거리이다. w (k)는 음성 단위 (k)의 출현 빈도이며, 용도에 의하여 임의로 설정할 수 있다. K는 수학적 거리를 산출할 때 사용하는 음성 단위의 수이다.
또한, 수학적 거리를 산출할 때에 사용하는 음성 단위로서는 음성 단위 전체, 음향적으로 동종의 음성 단위의 집합, 또는 특정한 음성 단위를 목적에 따라 선택하면 된다.
d (i, j, k)로서는 정규 분포의 평균 벡터의 유클리드 거리, 바타체리야 거리, 쿨백 정보량 등의 공지의 거리 척도를 사용하는 것이 가능하지만, 여기에서는 인식 성능에 대한 효과가 쿨백 정보량과 동일한 정도인 것이 밝혀진, 정규 분포의 표준 편차의 적(積)으로 정규화된 평균값 벡터의 유클리드 거리를 이용한다. 모든 고차원 음향 모델의 음성 단위 (k)의 HMM가 동일 구조의 혼합 정규 분포에 따르는 것으로 한다. 음향 모델의 상태 얼라인먼트가 1:1이라고 가정하면, d (i, j, k)를 아래의 식 (2) 내지 (5)로 정의할 수 있다.
[수학식 2]
Figure 112006020663175-pct00002
여기서, μ (i, k, s, l, m), δ (i, k, s, l, m) 및 p (i, k, s, l, m)는 각각 고차원 음향 모델 i , 음성 단위 (k), 상태 s, 차원 l 및 m번째의 정규 분포에서의 평균값, 표준 편차 및 중량감이다. S (k)는 음성 단위 (k) 상태수, L는 차원수, Mi, Mj는 각각 고차원 음향 모델 i 및 j의 정규 분포의 혼합수를 나타낸다. 음향 파라미터로서, 예를 들면, 10 차원의 멜 주파수 케프스트럼 계수 (MFCC)와 그 일차 차분 (ΔMFCC)과 파워의 1차 차분 (Δlog-Power)의 합계 21 차원을 사용한다.
또한, 모델 사이즈의 관점에서, 단일 정규 분포에 의한 고차원 음향 모델을 전제로 하여, 분포 간의 거리 계산에도 마찬가지로 단일 정규 분포 간의 거리를 사용하면, 상기 수학식 (2) 내지 (5)는 아래의 식 (6)으로 간단화할 수 있다.
[수학식 3]
Figure 112006020663175-pct00003
또한, 패턴 모델 변환부 (1f)에 의하여, 상기 산출된 수학적 거리를 사용하여, 복수의 고차원 음향 모델을 이것과 동일한 수의 음향 모델 대응 저차원 벡터로 변환한다. 이때, 상호 간의 수학적 거리가 작은 2개의 고차원 음향 모델은 서로 가깝게, 상호 간의 수학적 거리가 큰 2개의 고차원 음향 모델은 서로 멀리 위치하도록, 모든 고차원 음향 모델을 상호 간의 거리 관계를 유지한 채로 음향 모델 대응 저차원 벡터 (2차원 또는 3차원)로 변환한다. 본 실시 형태에서, 패턴 모델 변환부 (1f)는 고차원 음향 모델을 2차원의 음향 모델 대응 저차원 벡터로 변환하는 것으로 한다.
이때, 거리 관계를 유지한 채로 고차원 음향 모델을 2차원의 음향 모델 대응 저차원 벡터로 변환하는 변환 방법으로서는 당업자에게는 공지인 새먼법이 있다.
새먼법은 고차원 공간상의 고차원 정보의 상호 거리의 총합과 저차원 공간상의 사상 위치 좌표의 상호 유클리드 거리의 총합의 차이가 최소가 되도록, 최급강하법에 의하여 저차원 공간상의 사상(寫像) 위치 좌표를 최적화하는 비선형 사상 수법이다. 상호 거리가 작은 2개의 고차원 정보는 저차원 공간상에서도 서로 가깝게, 상호 거리가 큰 2개의 고차원 정보는 저차원 공간상에서도 서로 멀리 위치하도록 모든 고차원 정보를 저차원 공간에 투영한다. 이때, 새먼법에서 최소화하여야 할 오차 함수 E (t)는 아래의 식 (7)로 구할 수 있다.
[수학식 4]
Figure 112006020663175-pct00004
본 실시 형태에서, 패턴 모델 변환부 (1f)는 상기 새먼법을 사용하여 고차원 음향 모델을 2차원의 음향 모델 대응 저차원 벡터로 변환한다. 따라서, 이 경우의 변환 처리는 고차원 음향 모델에 저차원 공간 좌표를 부여하고, 복수의 고차원 음향 모델을 저차원 공간에 투영하게 된다.
즉, 변환된 음향 모델 대응 저차원 벡터와 동일한 차원의 저차원 공간에서, 저차원 공간 좌표의 수학적 거리 (예를 들면, 유클리드 거리)가 가까운 음향 모델 대응 저차원 벡터에 대응하는 고차원 음향 모델은 서로 유사하고, 대응하는 특정 조건도 유사하다는 것을 의미하고 있는 것으로 생각할 수 있다. 또한, 고차원 음향 모델이 중앙에 위치하는 만큼, 대응하는 특정 조건은 보다 평균적이라고 생각할 수 있다.
이때, 본 실시 형태에서는 이 좌표 정보가 음향 모델 대응 저차원 벡터의 요소의 값이 된다. 또한, 부여되는 좌표 정보는 대응하는 고차원 음향 모델에 대응시켜 데이터 기억부 (1b)에 기억된다.
또한, 패턴 모델 표시부 (1g)에 의하여, 복수의 음향 모델 대응 저차원 벡터의 요소의 값 (좌표 정보)에 기초하여, 상기 복수의 음향 모델 대응 저차원 벡터 를, 도 2에 나타내는 바와 같이, 이들 좌표 정보의 중심을 중심 (원점)으로 하는 2차원 공간상의 좌표점으로서 표시한다. 이하, 이와 같이 하여 작성된 도를 음향 공간 지도라고 부르기로 한다.
또한, 영역 구분부 (1h)에 의하여, 2차원 공간 내의 좌표점이 존재하는 영역을, 도 3에 나타내는 바와 같이, 제1 내지 제5의 구분 영역 (30-34)의 5개의 구분 영역으로 구분한다.
즉, 2차원 공간 내의 좌표점이 존재하는 영역을, 중심으로부터 가장 떨어진 점과 중심 사이의 거리를 반경으로 하는 바깥쪽 원과 이 바깥쪽 내의 제1 구분 영역 (30)인 안쪽 원에 의하여 구분하고, 또한 안쪽 원과 바깥쪽 원의 양 외주 사이에 형성되는 환상의 영역을 4개로 구분 ( 제2 내지 제5 구분 영역 31 내지 34)한다.
따라서, 패턴 모델 표시부 (1g)는 영역 구분부 (1h)에 의한 구분 내용에 기초하여, 도 3에 나타내는 바와 같이, 표시 좌표점에 맞추어 구분 내용을 표시한다. 이 구분 처리에 의하여, 도 4 내지 도 8에 나타내는 제1 내지 제5 구분 영역 (30 내지 34)과 같이, 바깥 원 내의 복수의 음향 모델 대응 저차원 벡터가, 각 구분 영역 내의 음향 모델 대응 저차원 벡터로 그룹이 나누어지게 된다.
또한, 마우스나 키보드 등의 입력 디바이스로부터의 입력 정보에 기초하여, 영역 선택부 (1j)에 의하여 제1 내지 제5 구분 영역 (30 내지 34)중 어느 하나가 선택된다. 또한, 특정의 구분 영역이 선택되면, 특정 패턴 모델 생성부 (1k)에 의하여, 상기 선택된 구분 영역 내의 음향 모델 대응 저차원 벡터에 대응하는 고차원 음향 모델의 생성시에 사용된 음성 데이터에 기초하여, 특정 음향 모델이 생성된다. 이때, 특정 음향 모델은 상기 고차원 음향 모델과 마찬가지로, 예를 들면 HMM 등의 공지의 수법을 사용하여 생성된다. 생성된 특정 음향 모델은 데이터 기억부 (1b)에 기억된다.
또한, 본 실시 형태에서는 구분 내용 변경부 (1i)에 의하여, 영역 구분부 (1h)에 의하여 자동적으로 구분된 구분 내용을 변경하는 것이 가능하다. 예를 들면, 변경 내용으로서는 도 9에 나타내는 바와 같이, 마우스나 키보드 등의 입력 디바이스로부터 입력된 입력 정보에 기초하여, 영역 구분부 (1h)에 의한 구분 내용을 그대로, 전체를 도 중의 화살표의 방향으로 회전시키거나, 안쪽 원 (35)를 1개 늘려, 새로운 구분 영역 (30a 내지 30d)를 형성하는 것이 가능하다. 이때, 구분 내용 변경부 (1i)는 청구 범위 제10항에 기재된 구분 내용 변경 수단에 대응한다.
또한, 도 10에 기초하여, 데이터 처리 장치 (1)의 동작 처리의 흐름을 설명한다. 도 10는 데이터 처리 장치 (1)의 동작 처리를 나타내는 플로차트이다. 또한, 도 10에 나타내는 플로차트에서는 실시 형태에 맞추어, 취급하는 데이터를 음성 데이터로 하고, 생성하는 패턴 모델을 음향 모델로 하고 있으나, 이것에 한정되는 것이 아니며, 용도에 따라 여러 가지 데이터나 패턴 모델을 취급하는 것이 가능하다.
도 10에 나타내는 바와 같이, 우선 스텝 S10O으로 진행하고, 데이터 분류부 (1a)에서, 데이터 기억부 (1b)에 기억된 복수의 화자의 음성 데이터를 데이터 제어부 (1d)를 통하여 읽어내고, 스텝 S102로 진행한다.
스텝 S102에서는 데이터 분류부 (1a)에서, 상기한 각 특정 조건의 조합에 기 초하여, 읽어낸 음성 데이터를 그룹을 나누고 스텝 S104로 진행한다.
스텝 S104에서는 데이터 제어부 (1d)에서, 데이터 분류부 (1a)의 그룹 나누기 처리가 완료되었는 지 여부를 판정하고, 완료되었다고 판정하였을 경우 (Yes)에는 스텝 S106으로 진행하고, 그렇지 않은 경우 (No)에는 스텝 S10O으로 진행한다.
스텝 S106로 진행하였을 경우에는 패턴 모델 생성부 (1c)에서, 그룹을 나눈 각 그룹마다 음성 데이터를 읽어내고, 각 그룹마다 고차원 음향 모델을 생성하고, 스텝 S108로 진행한다.
스텝 S108에서는 수학적 거리 산출부 (1e)에서, 각 그룹마다 생성된 상기 복수의 고차원 음향 모델 상호 간의 수학적 거리를 상기 식 (1)을 사용하여 산출하고, 스텝 S110로 진행한다.
스텝 S110에서는 패턴 모델 변환부 (1f)에서, 상기 생성된 복수의 고차원 음향 모델 및 각 고차원 음향 모델 상호 간의 수학적 거리에 기초하여, 새먼법을 사용하고, 고차원 음향 모델을 음향 모델 대응 저차원 벡터로 변환하고 스텝 S112로 진행한다.
스텝 S112에서는 데이터 제어부 (1d)에서, 패턴 모델 변환부 (1f)에 의한 변환 처리가 종료되었는 지 여부를 판정하고, 종료되었다고 판정하였을 경우 (Yes)에는 스텝 S114로 진행하고, 그렇지 않은 경우 (No)에는 스텝 S110로 진행하여 변환 처리를 속행한다.
스텝 S114로 진행하였을 경우에는 패턴 모델 표시부 (1g)에서, 복수의 음향 모델 대응 저차원 벡터를 저차원 공간상에 표시하는 처리를 행하고 스텝 S116으로 진행한다.
스텝 S116으로 진행하면, 영역 구분부 (1h)에서, 저차원 공간에서 음향 모델 대응 저차원 벡터가 존재하는 영역을 복수의 구분 영역으로 구분하는 처리를 실시하고, 처리를 종료한다.
또한, 도 11에 기초하여, 데이터 처리 장치 (1)에서의 특정 음향 모델의 생성 처리의 흐름에 대하여 설명한다. 도 11은 데이터 처리 장치 (1)에서의 특정 음향 모델의 생성 처리를 나타내는 플로차트이다. 또한, 도 11에 나타내는 플로차트에서는 실시 형태에 맞추어, 취급하는 데이터를 음성 데이터로 하고, 생성하는 특정 패턴 모델을 특정 음향 모델로 하고 있으나, 이것에 한정되는 것이 아니고, 용도에 따라 여러 가지 데이터나 특정 패턴 모델을 취급하는 것이 가능하다.
도 11에 나타내는 바와 같이, 데이터 제어부 (1d)에서, 우선 스텝 S200로 진행하고, 영역 선택부 (1j)에 의하여, 입력 정보에 기초하는 구분영역이 선택되었는 지 아닌 지를 판정하고, 선택되었다고 판정하였을 경우 (Yes)에는 스텝 S202로 진행하고, 그렇지 않은 경우 (No)에는 선택될 때까지 대기한다.
스텝 S202로 진행하였을 경우에는 특정 패턴 모델 생성부 (1k)에서, 영역 선택부 (1j)에 의하여 선택된 구분 영역 내의 음향 모델 대응 저차원 벡터에 대응하는 고차원 음향 모델에 관한 음성 데이터를, 데이터 제어부 (1d)를 통하여 데이터 기억부 (1b)로부터 읽어내고 스텝 S204로 진행한다.
스텝 S204에서는, 특정 패턴 모델 생성부 (1k)에서, 상기 읽어낸 음성 데이터로부터 특정 음향 모델을 생성하고 스텝 S206로 진행한다.
스텝 S206에서는 특정 음향 모델 생성부 (1k)에서, 상기 생성한 특정 음향 모델을, 데이터 제어부 (1d)를 통하여 데이터 기억부 (1b)에 기억시키고 처리를 종료한다.
또한, 도 12에 기초하여, 데이터 처리 장치 (1)에서의 구분 내용을 변경하는 처리의 흐름에 대하여 설명한다. 도 12는 데이터 처리 장치 (1)에서의 구분 내용의 변경 처리를 나타내는 플로차트이다.
도 12에 나타내는 바와 같이, 우선 스텝 S3OO로 진행하고, 구분 내용 변경부 (1i)에 대하여 변경 모드가 선택되었는 지 아닌 지를 판정하고, 선택되었다고 판정하였을 경우 (Yes)에는 스텝 S302로 진행하고, 그렇지 않은 경우 (No)에는 선택될 때까지 대기한다. 이때, 본 실시 형태에서는 변경 모드를 선택함으로써 구분 내용의 변경 처리가 가능하게 된다.
스텝 S302로 진행하였을 경우에는 구분 내용 변경부 (1i)에서, 변경 내용이 입력되었는 지 아닌 지를 판정하고, 입력되었다고 판정하였을 경우 (Yes)에는 스텝 S304로 진행하고, 그렇지 않은 경우 (No)에는 입력될 때까지 대기한다.
스텝 S304로 진행하였을 경우에는 구분 내용 변경부 (1i)에서, 입력된 변경 내용에 기초하여 구분 내용을 변경하고 스텝 S306로 진행한다.
스텝 S306에서는 구분 내용 변경부 (1i)에서, 입력 디바이스로부터의 입력에 의하여 변경 처리가 종료되었다고 판정하였을 경우 (Yes)에는 스텝 S308로 진행하고, 그렇지 않은 경우 (No)에는 스텝 S302로 진행한다.
스텝 S308로 진행하였을 경우에는 구분 내용 변경부 (1i)에서, 데이터 제어부 (1d)를 개입시키고, 변경된 구분 내용의 정보를 데이터 기억부 (1b)에 기억시키 고 스텝 S302로 진행한다. 이때, 본 실시 형태에서는 입력 디바이스로부터 변경 모드의 종료를 지시하는 입력이 있으면, 변경 모드 자체를 종료한다.
이상, 데이터 분류부 (1a)에 의하여, 복수 대상에 관한 소정의 데이터 (상기 실시 형태에서는 복수의 화자의 음성 데이터)를, 특정 조건에 기초하여 그룹을 나누어 하는 것이 가능하다.
또한, 패턴 모델 생성부 (1c)에 의하여, 그룹을 나눈 소정의 데이터 (상기 실시 형태에서는 음성 데이터)로부터 각 그룹 마다의 패턴 모델 (상기 실시 형태에서는 고차원 음향 모델)을 생성하는 것이 가능하다.
또한, 수학적 거리 산출부 (1e)에 의하여, 복수의 패턴 모델 (상기 실시 형태에서는 고차원 음향 모델)에서의 각 패턴 모델 상호 간의 수학적 거리를 산출하는 것이 가능하다.
또한, 패턴 모델 변환부 (1f)에 의하여, 복수의 패턴 모델 (상기 실시 형태에서는 고차원 음향 모델) 및 이들 상호 간의 수학적 거리에 기초하여, 복수의 패턴 모델 (상기 실시 형태에서는 고차원 음향 모델)을 이것과 동일한 수의 패턴 모델 대응 저차원 벡터 (상기 실시 형태에서는 음향 모델 대응 저차원 벡터)로 변환하는 것이 가능하다.
또한, 패턴 모델 표시부 (1g)에 의하여, 복수의 패턴 모델 대응 저차원 벡터 (상기 실시 형태에서는 음향 모델 대응 저차원 벡터)를, 이것과 동일한 차원의 저차원 공간 (상기 실시 형태에서는 2차원 공간) 상에 좌표점으로서 표시하는 것이 가능하다.
이와 같이 하여 작성된 도를 패턴 공간 지도라고 부르기로 한다.
또한, 영역 구분부 (1h)에 의하여, 가장 안쪽 원으로부터 바깥쪽 원 방향을 향하여 갈수록, 환상 영역에 포함되는 패턴 모델 대응 저차원 벡터 (상기 실시 형태에서는 음향 모델 대응 저차원 벡터)이 세밀하게 구분되도록, 저차원 공간상의 좌표점이 존재하는 영역을 자동적으로 구분하는 것이 가능하다.
또한, 구분 내용 변경부 (1i)에 의하여, 영역 구분부 (1h)에 의하여 자동적으로 구분된 구분 내용을 입력 정보에 기초하여 변경하는 것이 가능하다.
또한, 영역 선택부 (1j)에 의하여, 표시된 구분 영역 중 입력된 정보에 기초하는 구분 영역을 선택하는 것이 가능하다.
또한, 특정 패턴 모델 생성부 (1k)에 의하여, 영역 선택부 (1j)에 의하여 선택된 구분 영역 내의 복수의 패턴 모델 대응 저차원 벡터 (상기 실시 형태에서는 음향 모델 대응 저차원 벡터)에 대응하는 패턴 모델 (상기 실시 형태에서는 고차원 음향 모델)에 관한 데이터 (상기 실시 형태에서는 음성 데이터)로부터, 특정 패턴 모델 (상기 실시 형태에서는 특정 음향 모델)을 생성하는 것이 가능하다.
[제1 실시예]
또한, 상기 데이터 처리 장치 (1)에 의한 특정 음향 모델 생성의 실시예를 도면에 기초하여 설명한다.
도 13 및 도 14는 본 발명의 실시예를 나타내는 도면이다.
도 13은 실시예에서의 음향 모델 대응 저차원 벡터의 표시 내용을 나타내는 도이며, 도 14는 각 구분 영역마다 생성한 특정 음향 모델 및 전체 영역에 대한 음 향 모델의 인식율을 나타내는 도면이다.
본 실시예에서는 「통상 (대상 화자의 평상시의 어조)」,「빠른 속도」,「큰 목소리」, 「음절 강조 (음절마다 똑똑하게 발음)」,「작은 목소리」의 5 종류의 발화 양식을 복수의 화자에게 제시하고 동일한 일본어 어휘를 발성하게 하였다. 이때, 각 화자가 제시된 발화 양식대로 충실하게 발성하도록 강제하지는 않았기 때문에, 반드시 제시된 발화 양식과 실제의 발화 양식이 일치하는 것은 아니다. 이러한 상황에서는 제시된 발화 양식과 같은 선견적인 정보가 완전히 올바르다는 전제하에 제시한 발화 양식만 따라서 음향 모델을 작성하여도, 최고의 성능을 얻을 수 있다는 보증은 없다. 이에 최고의 성능을 얻을 수 있도록, 본 발명을 실시한 예를 이하에 나타낸다.
먼저, 「통상」, 「빠른 속도」, 「큰 목소리」, 「음절 강조」, 「작은 목소리」의 5 종류의 발화 양식을 복수의 화자에게 제시하고 동일한 어휘를 발성시킨 음성 데이터를 데이터 기억부 (1b)에 기억하게 하였다.
여기에서는 제시한 발화 양식과 화자 (이름 등)의 조합을 특정 조건의 1조로 하고, 이 1조의 특정 조건마다 데이터 분류부 (1a)로 그룹을 나눈 후, 패턴 모델 생성부 (1c)에서 각 그룹마다 고차원 음향 모델을 HMM에 의하여 생성함으로써, 다수의 고차원 음향 모델을 얻었다.
이때, 본 실시예에 대하여, 음성 단위로서는 바이폰 (biphone)를 사용하고, HMM 상태수는 3으로, 각 상태는 1개의 정규 분포를 가지는 것으로 하였다.
또한, 수학적 거리 산출부 (1e)에서, 각 고차원 음향 모델 상호 간의 수학적 거리를 상기 식 (1)에 의하여 산출하였다. 이때, 정규 분포 간의 수학적 거리로서 정규 분포의 표준 편차로 정규화된 평균 벡터의 유클리드 거리를 사용하였다. 또한, 어휘에 포함되는 바이폰의 출현 빈도 (w (k))도, 상기 식 (1)에 의한 산출 처리에 사용하였다.
또한, 산출된 수학적 거리를 사용하여, 패턴 모델 변환부 (1f)에서, 새먼법에 의하여 고차원 음향 모델을 음향 모델 대응 저차원 벡터로 변환하는 처리를 실시하고, 도 13에 나타내는 바와 같이, 패턴 모델 표시부 (1g)에 의하여 2차원 평면상으로 좌표점에 의하여 표시하였다. 즉, 이들 각 점이 화자와 발화 양식의 조합을 가지는 각 고차원 음향 모델 상호 간의 거리 관계를 나타내고 있다.
또한, 도 13에 나타내는 바와 같이, 영역 구분부 (1h)에 의하여, 2차원 공간상에서의 좌표점이 존재하는 영역을, 상기 실시 형태와 같이, 제1 내지 제5의 구분 영역 (30 내지 34)의 5개의 구분 영역으로 구분하였다.
본 실시예에서는 도 13중의 A 내지 D의 4개의 음향 모델 대응 저차원 벡터의 특정 조건에 각각 대응하는 특정 음향 모델을 생성하였다. 이때, A 내지 D는 제3 구분 영역 (32) 내에 있으므로, 여기에서는 영역 선택부 (1j)에 의하여, 제3 구분 영역 (32)을 선택하게 하였다.
제3 구분 영역 (32)이 선택되면, 특정 패턴 모델 생성부 (1k)에 의하여, 제3 구분 영역 (32) 내의 복수의 음향 모델 대응 저차원 벡터에 각각 대응하는 복수의 고차원 음향 모델에 관한 음성 데이터로부터 1개의 영역음향모델이 생성된다.
또한, 비교를 위하여, 제1, 제2, 제4, 제5의 구분 영역 (30, 31, 33, 34)에 서도, 각각의 영역 내의 복수의 음향 모델 대응 저차원 벡터에 각각 대응하는 복수의 고차원 음향 모델에 관한 음성 데이터로부터 각각의 영역 음향 모델을 생성하였다.
또한, 종래의 음향 모델과의 비교도 하기 위하여, 영역 내의 모든 음향 모델 대응 저차원 벡터에 각각 대응하는 고차원 음향 모델에 각각 관계되는 음성 데이터로부터 1개의 영역 음향 모델을 생성하였다.
또한, 이 작성한 6개의 영역 음향 모델을 사용하였을 경우의 상기 A 내지 D의 4개의 특정 음향 모델에 대한 전체 음성 데이터의 음성 인식율을 측정한 결과가 도 14이다. 이때, 어휘 사이즈는 176 단어이다.
도 14의 측정 결과로부터 아래와 같은 사실을 알 수 있다.
(1) 제3 구분 영역 (32)에 속하는 4개의 특정 조건 (A, B, C, D)은 모두, 그 조건들이 속하는 구분 영역인 제3 구분 영역 (32)에 대응하는 영역 음향 모델이 가장 높은 인식율을 준다. 다음으로, 인식율이 높은 것은 전체 영역에 대응하는 영역 음향 모델이다.
(2) 전체 영역으로부터 작성된 영역 음향 모델을 사용하였을 경우, A 내지 D의 4개의 특정 음향 모델에 대한 전체 음성 데이터의 인식율을 비교하면, 도 13의 중심점과 A 내지 D의 4개의 각 점과의 사이의 각각의 유클리드 거리와, 인식율에 선형의 관계가 있는 것을 알 수 있다. 즉, 중심점으로부터의 거리가 멀수록, 인식율이 낮은 것을 알 수 있다.
상기 실시예로부터, 본 발명의 효과를 아래와 같이 정리한다.
(1) 좌표점이 존재하는 영역을 몇 가지 구분 영역으로 분할하고, 각 구분 영역 마다의 영역 음향 모델을 작성함으로써, 전체 영역에 대응하는 모든 음성 데이터로부터 작성된 음향 모델보다 높은 인식율을 얻을 수 있다.
(2) 중심점으로부터의 거리를 이용하면, 각 특정 조건의 인식율을 예측할 수 있다. 중심으로부터 먼 위치에 있는 음향 모델 대응 저차원 벡터의 특정 조건은 인식 성능이 낮다. 반대로, 중심으로 가까운 위치에 있는 음향 모델 대응 저차원 벡터의 특정 조건의 인식 성능이 높다.
[제2 실시예]
또한, 도 15 및 도 16를 참조하여, 본 발명을 사용하여 발화 양식의 조합마다 작성한 음향 모델을 2차원 투영 표시한 실시예에 대하여 설명한다.
도 15는 발화 양식을 나타내는 도면이고, 도 16은 도 15에 나타내는 발화 양식의 조합마다 작성한 음향 모델을 2차원 투영 표시한 도면이다.
본 실시예에서는 남성 145명에, 도 15에 나타내는 발화 양식 중에서 복수의 발화 양식을 지정하고, 5240 단어 중 176 단어로 완성되는 복수의 단어 리스트를 발성하도록 하였다.
음성 데이터 수록시의 발화 양식으로서는 도 15에 나타내는 바와 같이, 통상 (평상시의 속도로 단어 리스트를 읽어라), 빠른 속도 (통상보다 빠른 말로 단어 리스트를 읽어라), 높은 목소리 (통상보다 높은 목소리로 단어 리스트를 읽어라), 작은 목소리 (가까이의 사람으로 들리지 않게 단어 리스트를 읽어라), 큰 목소리 (떨어져 있는 사람에게도 들리도록 큰 목소리로 단어 리스트를 읽어라), 롬버드 (자동 차의 잡음을 들으면서 단어 리스트를 읽어라), 음절 강조 (음절 각각을 강조하도록 단어 리스트를 읽어라)의 7 종류가 적용되어 수록시에는 대상자에게 괄호 내의 지시를 하였다.
먼저, 수록된 모든 데이터를 사용하고, 남성용 불특정 화자 음향 모델을 작성하였다. 다음으로, 이 음향 모델을 초기 모델로 하여, 연결 학습에 의하여, 화자와 수록시에 지시받은 발화 양식의 조합마다 음향 모델 (이하, 화자·발화 양식 음향 모델이라고 부른다)을 작성하였다. 이와 같이 작성된 화자·발화 양식 음향 모델을, 새먼법을 사용하여 2차원 투영화하고, 도 16에 나타내는 바와 같이, 그 좌표점을 표시하였다. 이때, 상기 식 (1)의 w (k)로서 5240 단어의 음성 단위의 출현 빈도를 이용하였다. 중심 부근에 표시되고 있는「▲」은 초기 모델로서 사용한 남성용 불특정 화자 음향 모델의 좌표점을 나타낸다.
도 16으로부터, 이하가 관찰되었다.
1) 동일한 발화 양식을 지정하였다고 하여도, 실제의 발화 양식은 화자에 따라서 다른 것을 알 수 있다. 이것은 미리 부여된 발화 양식 명칭을 전체로 받아들여, 발화 양식 마다의 불특정 화자의 음향 모델을 작성하는 경우의 단점을 시사하고 있다.
2) 발성 속도 및 발성 음량이 서로 상반되는 발화 양식 (예를 들면, 음절 강조 vs 빠른 속도, 속삭이는 목소리 vs 큰 목소리/롬버드)이 원점 대칭의 장소에 위치하고 있다.
또한, 도 16에 나타내는 좌표점을 상기한 바와 같이 영역 구분부 (1h)에 의 하여 동심원상의 영역에 분할하고, 또한 특정 패턴 모델 생성부 (1k)에 의하여 각 구분 영역마다 음향 모델을 재작성하면, 전체 영역의 데이터로부터 작성한 불특정 화자 음향 모델과 비교하고, 주변부에 위치하는 화자에 관하여 현저한 성능 개선이 일어나는 것을 알 수 있다.
또한, 상기 제1 실시 형태, 제1및 제2 실시예에서는 인간의 음성을 예를 들어 설명하였지만, 본원 발명은 인간의 음성에만 적용 가능한 것은 아니며, 대상 데이터로서 인간의 음성 이외의 데이터를 이용하였을 경우에도 같은 과제를 해결하고, 같은 효과를 가진다.
인간의 음성 이외의 데이터로서는 예를 들면, 주택 내의 생활 잡음, 공장 소음, 교통 소음 등의 음향 데이터나 들새, 곤충, 개구리, 박쥐, 동물 등의 야생 생물의 울음 소리 데이터, 화상 데이터, 적외선 센서 데이터, 가속도 센서 데이터, 방위각 센서 데이터, 압력 센서 데이터, 압전 소자나 진동계 등의 진동 센서 데이터 및 그 외의 모든 센서 데이터, 리튬 이온 2차 전지나 연료 전지 등의 전지의 충전 상황에 관한 물리적 데이터, 심전도, 근전도, 혈압이나 체중 등의 생체 신호 데이터, 유전자 해석용의 마이크로 어레이 데이터, 기온, 습도, 기압 등의 기상 데이터, 산소 농도, 질소산화물 농도 등의 환경 데이터, 주가, 물가 등의 경제 동향 데이터 등의 시계열 데이터 등이 있다.
[제3 실시예]
이하에서는 도 17에 기초하여, 상기 데이터 처리 장치 (1)에서, 생활 잡음, 새의 우는 소리, 인간의 음성 데이터를 사용하여 패턴 모델을 생성하고, 이들 생성 한 패턴 모델을 2차원 투영 표시한 실시예를 나타낸다. 이때, 도 17은 생활 잡음, 새의 우는 소리, 인간의 음성 데이터를 사용하여 작성한 패턴 모델을 2차원 투영 표시한 일례를 나타내는 도면이다.
본 실시예에서는 슬리퍼의 소리, 덧문을 닫는 소리, 펜을 나무바닥 마루에 떨어뜨리는 소리 등의 주택 내의 33종의 생활 잡음, 까마귀, 나이팅게일, 호도애(turtledove) 등 40종의 새의 우는 소리 및 일본인의 일본어의 25종의 음소 (모음 5종, 반모음 2종, 자음 18종)의 스펙트럼 데이터로부터 HMM에 의하여 패턴 모델을 생성하였다. 또한, 상기 생성된 패턴 모델을 음향 모델 변환부 (1f)에서, 2차원의 패턴 모델 대응 저차원 벡터로 변환하고, 이 변환 결과를, 도 17에 나타내는 바와 같이 2차원 공간상의 좌표점으로서 표시하였다.
도 17 중에서, 생활 잡음의 패턴 모델은 ▲으로, 새의 우는 소리의 패턴 모델은 ×로, 일본 남성의 일본어의 음소의 패턴 모델은●으로, 일본 여성의 일본어 음소의 패턴 모델은 □로 각각 나타내었다.
이 표시 결과로부터, 생활 잡음, 새의 우는 소리, 인간의 음성은 각각이 거의 3개의 영역으로 나누어져 있고, 이것에 의하여, 생활 잡음인지, 새의 우는 소리인지, 인간의 음성인지를 식별하는 것은 용이하다고 추측된다.
즉, 음향 데이터, 울음 소리 데이터, 인간의 음성 데이터와 같이, 여러 가지 종류의 소리를 식별 가능한 지를 판단하는데 있어서, 본원 발명에 의하여 얻은 패턴 모델의 저차원 (여기에서는 2차원) 공간상의 표시 결과는 상당히 유용하다라고 할 수 있다.
[제4 실시예]
또한, 도 18에 기초하여, 상기 데이터 처리 장치 (1)에서, 사람의 입술부의 화상 데이터를 사용하여 패턴 모델을 생성하고, 이들 생성한 패턴 모델을 2차원 투영 표시한 실시예를 나타낸다. 이때, 도 18은 인간의 입술부의 화상 데이터를 사용하여 작성한 패턴 모델을 2차원 투영 표시한 일례를 나타내는 도면이다.
본 실시예에서는 9명의 남성의 얼굴 화상으로부터 추출한 입술부의 동화상 데이터를 , 발화에 수반되는 개폐 상황에 따라서, 닫혀 있는 상황, 닫혀 있는 상태으로부터 열려 있는 상태로 옮겨가고 있는 상황, 열려 있는 상황, 열려 있는 상태로부터 닫혀 있는 상태에 옮겨가고 있는 상황의 4개의 정지화상 그룹으로 분류하고, 각각에 대하여 2차원 케프스트럼과 그 차분을 특징 벡터로 하여 HMM에 의하여 패턴 모델을 생성하였다.
그리고, 상기 생성된 패턴 모델을 패턴 모델 변환부 (1f)에서, 2차원의 패턴 모델 대응 저차원 벡터로 변환하고, 이 변환 결과를, 도 18에 도시하는 바와 같이 2차원 공간상의 좌표점으로서 표시하였다.
도 18 중, 닫혀 있는 상황의 9개의 패턴 모델은 ■로, 닫혀 있는 상태로부터 열려 있는 상태에 옮겨가고 있는 상황의 9개의 패턴 모델은 ▲으로, 열려 있는 상황의 9개의 패턴 모델은 □로, 열려 있는 상태로부터 닫혀 있는 상태로 옮겨가고 있는 상황의 9개의 패턴 모델은 △로 각각 나타내었다.
이 표시 결과로부터, 닫혀 있는 상태, 닫혀 있는 상태로부터 열려 있는 상태로 옮겨가고 있는 상황, 열려 있는 상태, 열려 있는 상태로부터 닫혀 있는 상태로 옮겨가고 있는 상황의 4개의 정지화상 그룹이 명확하게 분리되어 하나의 집단를 형성하고 있는 것을 볼 때, 입술의 4개의 개폐 상황을 식별하는 것은 용이할 것으로 추측된다.
즉, 입술 화상의 개폐의 상황을 나타내는 화상 데이터와 같이, 대상의 여러 가지 상태를 나타내는 화상을 식별 가능한 지를 판단하는데 있어서, 본원 발명에 의하여 얻은 패턴 모델의 저차원 (여기에서는 2차원) 공간상의 표시 결과는 몹시 유용하다고 할 수 있다.
[제5 실시예]
또한, 도 19에 기초하여, 적외선 센서 데이터를 사용하여 패턴 모델을 생성하고, 이들 생성한 패턴 모델을 2차원 투영 표시한 실시예를 나타낸다.
이때, 도 19는 , 적외선 센서의 출력 데이터를 사용하여 작성한 패턴 모델을 2차원 투영 표시한 일례를 나타내는 도면이다.
본 실시예에서는 아날로그 출력형의 적외선 센서 (본 실시예에서는 초전센서)를 높이 2.4m의 천정에 설치하고, 그 바로 밑에 있는 사람이 3144회, 개가 632회 보행하였을 경우의 적외선 센서의 출력 데이터를 FFT (Fast Fourie Transform) 한 결과로부터, HMM에 의하여 패턴 모델을 생성하였다.
그리고, 상기 생성된 패턴 모델을 패턴 모델 변환부 (1f)에서, 2차원의 패턴 모델 대응 저차원 벡터로 변환하고, 이 변환 결과를, 도 19에 나타내는 바와 같이 2차원 공간상의 좌표점으로서 표시하였다.
도 19중, 사람의 패턴 모델을×로, 개의 패턴 모델을 ▲으로 각각 나타낸다.
이 표시 결과로부터, 사람과 개는 각각 다른 집단을 형성하기 때문에, 적외선 센서를 이용하여 사람인지 개인지를 식별하는 것이 용이하다는 것을 알 수 있다.
즉, 사람이나 개 등의 행동에 대한 적외선 센서의 출력 데이터와 같이, 대상 상태 (예를 들면, 동작 상태 등)에 대한 적외선 센서의 출력 데이터로부터 대상을 식별 가능할 지를 판단하는데 있어서, 본원 발명에 의하여 얻은 패턴 모델을 저차원 (여기에서는 2차원) 공간상에 표시하는 표시 결과는 몹시 유용하다라고 할 수 있다.
[제6 실시예]
또한, 도 20에 기초하여, 가속도 센서의 출력 데이터를 사용하여 패턴 모델을 생성하고, 이들 생성한 패턴 모델을 2차원 투영 표시한 실시예를 나타낸다.
이때, 도 20은 가속도 센서의 출력 데이터를 사용하여 작성한 패턴 모델을 2차원 투영 표시한 일례를 나타내는 도면이다.
본 실시예에서는 남성 1명에게 가속도 센서를 바지 주머니에 삽입하게 하고, 계단을 내려갔을 경우, 계단을 올라갔을 경우, 복도를 직진 보행하였을 경우의 가속도 센서의 3축 (X축, Y축, Z축)의 시계열 데이터를 FFT한 결과로부터, HMM에 의하여 패턴 모델을 생성하였다. 생성한 패턴 모델의 수는 계단을 내려갔을 경우 29개, 계단을 올라갔을 경우 28개, 복도를 직진 보행하였을 경우 24개이다. 또한, 상기 생성된 패턴 모델을 패턴 모델 변환부 (1f)에서, 2차원의 패턴 모델 대응 저차원 벡터로 변환하고, 이 변환 결과를, 도 20에 나타내는 바와 같이 2차원 공간상의 좌표점으로서 표시하였다.
도 20 중에서, 계단을 내려갔을 경우의 패턴 모델은 ●으로, 계단을 내려갔을 경우의 패턴 모델은 ▲으로, 복도를 직진 보행하였을 경우의 패턴 모델은 ×으로 각각 나타내었다.
이 표시 결과로부터, 통상에 계단을 내려갔을 경우의 패턴 모델은 좌표점의 표시 영역 상부의 타원으로 둘러싸이는 범위에 모여 있으나, 표시 영역 하부의 타원으로 둘러싸이는 범위에서도 산발적으로 볼 수 있다. 이것은 계단을 내려가고 있을 때 층계참에 다다랐을 때 3축의 가속도 패턴에 변화가 생겨 복도의 직진 보행에 가까운 보행 상태가 된 것을 시사하고 있다.
즉, 인간의 보행 패턴에 대한 가속도 센서의 출력 데이터라고 한 바와 같이, 대상의 행동에 대한 가속도 센서의 출력 데이터로부터 대상의 행동 내용을 식별 가능한 지를 판단하는데 있어서, 본원 발명에 의하여 얻은 패턴 모델을 저차원 (여기에서는 2차원) 공간상에 표시하는 표시 결과는 몹시 유용하다라고 할 수 있다.
이때, 도 1에 나타내는 데이터 분류부 (1a)는 청구 범위 제1, 4 및 12 중 어느 하나의 항에 기재된 데이터 분류 수단에 대응하고, 패턴 모델 생성부 (1c)는 청구 범위 제1, 11 및 12 중 어느 하나의 항에 기재된 패턴 모델 생성 수단에 대응하며, 수학적 거리 산출부 (1e)는 청구 범위 제1, 6 및 12 중 어느 하나의 항에 기재된 수학적 거리 산출 수단에 대응하고, 패턴 모델 변환부 (1f)는 청구 범위 제1항 또는 제7항에 기재된 패턴 모델 변환 수단에 대응하며, 패턴 모델 표시부 (1g)는 청구 범위 제1항 또는 제8항에 기재된 패턴 모델 대응 저차원 벡터 표시 수단에 대응하고, 영역 구분부 (1h)는 청구 범위 제8 내지 11항 중 어느 하나의 항에 기재된 영역 구분 수단에 대응하고, 구분 내용 변경부 (1i)는 청구 범위 제10항에 기재된 구분 내용 변경 수단에 대응하며, 영역 선택부 (1j)는 청구 범위 제11항에 기재된 영역 선택 수단에 대응하고, 특정 패턴 모델 생성부 (1k)는 청구 범위 제11항에 기재된 영역 패턴 모델 생성 수단에 대응한다.
또한, 상기 제1 실시 형태에서는 패턴 모델 변환부 (1f)에 의한 변환 후의 음향 모델 대응 저차원 벡터를 2차원으로 하였지만, 이것에 한정하지 않고, 1차원이나 3차원으로 변환하도록 하여도 좋다.
또한, 상기 실시 형태에서는 영역 구분부 (1h)에 의한 영역의 구분 처리에서, 각 구분 영역 내의 음향 모델 대응 저차원 벡터가 다른 구분 영역과 중복되지 않도록 구분되어 있으나, 이것에 한정되지 않고, 각 구분 영역이 다른 구분 영역의 음향 모델 대응 저차원 벡터를 중복하여 포함하는 구분 내용으로 구분하여도 좋다.
또한, 상기 제1 실시 형태에 대하여, 각 구분 영역마다 구분 영역 내의 음향 모델 대응 저차원 벡터에 대응하는 고차원 음향 모델만을, 마찬가지로 본 발명을 적용하여 새로운 음향 모델 대응 저차원 벡터로 변환한 후, 새로운 저차원 공간상에 재표시하고, 또한 세밀한 영역으로 구분하여 영역 음향 모델을 생성함으로써, 보다 높은 인식 성능을 얻는 것이 가능하다는 것은 말할 필요도 없다.
[제2 실시 형태]
또한, 본 발명의 제2 실시 형태를 도면에 기초하여 설명한다. 도 21 내지 도 39는 본 발명에 관한 데이터 처리 장치의 제2 실시 형태를 나타내는 도면이다.
먼저, 본 발명에 관한 데이터 처리 장치의 구성을 도 21에 기초하여 설명한다. 도 21은 본 발명에 관한 데이터 처리 장치 (21)의 구조를 나타내는 블록도이다. 또한, 상기 제1 실시 형태에서 데이터 처리 장치 (1)와 중복되는 기능부는 동일한 부호를 붙이고, 기능이 같은 것에 대하여는 그 설명을 생략한다.
데이터 처리 장치 (21)는 데이터 분류부 (1a)와, 데이터 기억부 (1b)와, 패턴 모델 생성부 (1c)와, 데이터 제어부 (1d)와, 수학적 거리 산출부 (1e')와, 패턴 모델 변환부 (1f)와, 패턴 모델 표시부 (1g)와, 영역 구분부 (1h)와, 구분 내용 변경부 (1i)와, 영역 선택부 (1j)와, 특정 패턴 모델 생성부 (1k)와, 영역 패턴 모델 생성부 (21a)와, 데이터 취득부 (21b)와, 영역 패턴 모델 탐색부 (21c)를 포함한 구성으로 되어 있다.
수학적 거리 산출부 (1e')는 패턴 모델 생성부 (1c)에서 생성된 복수의 패턴 모델에서, 각 패턴 모델 상호 간의 수학적 거리를 산출하는 것이다. 본 실시 형태에서는 고차원 음향 모델에서의, 각 고차원 음향 모델 상호 간의 수학적 거리를 산출한다. 또한, 상기 제1 실시 형태에서의 수학적 거리 산출부 (1e)와 다른 점은 수학적 거리의 산출에서의 상기 식 (1)에서의 음성 단위 (k)의 출현 빈도 (w (k))에, 패턴 모델 생성부 (1c)에서 생성된 음향 모델에 대하여 인식 성능이 소정의 역치보다 낮은 음성 단위의 출현 빈도를 사용하고 있다는 점이다.
제1 실시 형태에서는 단순한 출현 빈도 (예를 들면, 음성 데이터 중의 음소「a」의 출현 빈도)를 w (k)로서 사용하고 있다.
영역 패턴 모델 생성부 (21a)는 영역 구분부 (1h)에서 자동 구분된, 각 구분 영역마다의 패턴 모델 대응 저차원 벡터에 대응하는 패턴 모델의 생성에 관한 데이터에 기초하여, 각 구분 영역마다의 패턴 모델인 영역 패턴 모델을 생성하는 기능을 가진 것이다. 본 실시 형태에서는 영역 구분부 (1h)에 대하여 자동 구분된, 각 구분 영역마다의 음향 모델 대응 저차원 벡터에 대응하는 고차원 음향 모델의 생성과 관련되는 음성 데이터에 기초하여, 각 구분 영역마다의 고차원 음향 모델인 영역 음향 모델을 생성한다.
데이터 취득부 (21b)는 패턴 모델의 생성 대상에 관한 소정의 데이터를 취득하는 기능을 가진 것으로서, 이것에 의하여, 신규 대상 (미지의 대상)에 관한 소정의 데이터를 취득하는 것이 가능하다. 본 실시 형태에서는 마이크 등의 화자가 발성한 음성 (아날로그 데이터)을 취득하는 수단과 A/D 변환기 등의 상기 아날로그 데이터인 음성을 디지털 데이터로 변환하는 수단을 포함하고 있다.
영역 패턴 모델 탐색부 (21c)는 데이터 취득부 (21b)에 의하여 취득된 신규 대상에 관한 소정의 데이터에 기초하여, 상기 소정의 데이터에 대한 각 구분 영역에 대응하는 영역 패턴 모델의 우도를 산출하고, 상기 산출한 우도에 기초하여, 신규 대상의 소정의 데이터를 패턴 인식하는데 적합한 영역 패턴 모델을 탐색하는 기능을 가진 것이다.
본 실시 형태에서는 데이터 취득부 (21b)에 의하여 취득된 신규 화자의 음성 데이터에 대한 각 구분 영역에 대응하는 영역 음향 모델의 우도를 산출하고, 상기 산출한 우도에 기초하여, 신규 화자의 음성 데이터를 패턴 인식하는데 적합한 영역 음향 모델을 탐색한다.
또한, 도 22 내지 도 26에 기초하여, 데이터 처리 장치 (21)의 구체적인 동작을 설명한다.
도 22는 데이터 처리 장치 (1)와 데이터 처리 장치 (21)의 영역 구분 방법의 차이를 나타내는 도면이다. 또한, 도 23은 고차원 음향 모델을 2차원 좌표 표시하였을 때, 인식율이 높은 화자와 인식율이 낮은 화자의 분포를 나타내는 도면이다.
또한, 도 24는 각 구분 영역의 구조를 나타내는 도면이다.
또한, 도 25는 영역 패턴 모델의 제1 탐색 방법을 나타내는 도면이며, 도 26은 영역 패턴 모델의 제2 탐색 방법을 나타내는 도면이다.
먼저, 데이터 분류부 (1a)에 의하여, 데이터 기억부 (1b)에 기억된 복수의 화자의 음성 데이터를, 전술한 화자의 종류, 발화 어휘, 발화 양식 및 발화 환경의 4개의 특정 조건에 기초하여 그룹을 나누었다. 예를 들면, 화자의 이름, 단어, 빠른 속도, 실내라는 조건으로 1 그룹, 화자의 이름, 단어, 큰 목소리, 실내라는 조건으로 1 그룹, 화자의 이름, 단어, 빠른 속도, 옥외라는 조건으로 1 그룹을 지어, 4개의 특정 조건을 모두 포함한 조합으로 그룹을 나누었다. 이때, 음성 데이터에는 그룹 나누기에 관한 정보가 부가된다.
다음으로, 패턴 모델 생성부 (1c)에 의하여 상기 그룹을 나눈 음성 데이터를 이용하여, 각 그룹마다 고차원 음향 모델을 생성한다. 음향 모델은 예를 들면 HMM 등의 공지의 수법을 사용하여 생성된다. 생성된 고차원 음향 모델은 생성시의 음성 데이터에 대응시켜 데이터 기억부 (1b)에 기억된다.
또한, 수학적 거리 산출부 (1e')에 의하여, 상기 생성된 각 고차원 음향 모 델 상호 간의 수학적 거리를 산출한다. 산출시에는 예를 들면, 상기 식 (1)을 이용한다.
이때, 상기 식 (1)에서의 음성 단위 (k)에 대한 출현 빈도 (w (k))로서 패턴 모델 생성부 (1c)에 의하여 생성된 고차원 음향 모델과 데이터 기억부 (1b)에 기억된 복수의 화자의 음성 데이터와의 우도를 산출하고, 우도 (인식 성능)가 소정의 역치보다 낮은 음성 단위의 출현 빈도를 사용하였다.
일반적으로, 음향적으로 화자의 원근을 거리로 정의하는 경우, 그 원근 관계는 음소에 따라 다르다. 음소마다 거리를 구하는 경우에는 문제가 없지만, 모든 음소를 고려한 화자 사이의 거리를 정의하는 경우에는 그 중요성을 구분하여 중요도를 부여할 필요가 있다. 중요도 부여에는 인식 성능에 기여하는 것을 이용하는 것이 중요하다. 상기 제1 실시 형태에서, 중요도 부여에는 음성 단위 (음소 등)의 출현 빈도를 사용하고 있으나, 이것은 출현 빈도가 높은 음성 단위가 인식시에 중요한 음성 단위라고 가정하고 있기 때문에, 예를 들면 출현 빈도가「0」인 음소는 인식에 필요하지 않기 때문에, 거리 계산시에도 필요하지 않다는 판단에 의한 것이다.
본 실시 형태에서는 상기한 바와 같이, 인식 성능이 소정의 역치보다 낮은 음성 단위의 출현 빈도를 사용하고 있는데, 이것은 예를 들면, 출현 빈도가 높은 음성 단위에서도, 어느 화자가 말을 하더라도 높은 확률로 인식하는 음성 단위 (음소 등)라면 특별하게 고려할 필요가 없고, 따라서 거리 계산에서도 불필요하다라고 판단할 수 있다는 것과, 인식 성능이 낮은 음성 단위를 거리 계산T시에 고려함으로 써, 오인식 경향과 음향적 특징 모두를 고려하여, 인식 성능이 낮은 화자에게 더 초점을 맞춘 클러스터링을 실시하는 것을 목적으로 하고 있는 것에 따른 것이다.
또한, 수학적 거리를 산출할 때에 이용하는 음성 단위로서는 음성 단위 전체, 음향적으로 동종의 음성 단위의 집합, 또는 특정의 음성 단위를 목적에 따라 선택하면 된다.
또한, 패턴 모델 변환부 (1f)에 의하여, 상기 산출된 수학적 거리를 이용하고, 복수의 고차원 음향 모델을 이것과 동일한 수의 음향 모델 대응 저차원 벡터로 변환한다. 이때, 상호 간의 수학적 거리가 작은 2개의 고차원 음향 모델은 서로 근접하게, 상호 간의 수학적 거리가 큰 2개의 고차원 음향 모델은 서로 멀리 위치하도록, 모든 고차원 음향 모델을 상호 간의 거리 관계를 유지한 채로 음향 모델 대응 저차원 벡터 (2차원 또는 3차원)로 변환한다. 본 실시 형태에서, 패턴 모델 변환부 (1f)는 고차원 음향 모델을 2차원의 음향 모델 대응 저차원 벡터로 변환하도록 한다. 이때, 거리 관계를 유지한 채 고차원 음향 모델을 2차원의 음향 모델 대응 저차원 벡터로 변환하는 변환 방법으로서는 상기 제1 실시 형태와 같이, 당업자에게는 공지인 새먼법을 사용한다.
즉, 상기 제1 실시 형태와 같이, 패턴 모델 변환부 (1f)는 상기 새먼법을 사용하여 고차원 음향 모델을 2차원의 음향 모델 대응 저차원 벡터로 변환한다. 따라서, 이 경우의 변환 처리는 고차원 음향 모델에 저차원 공간 좌표를 부여하고, 복수의 고차원 음향 모델을 저차원 공간에 투영하게 된다.
상기 제1 실시 형태와 마찬가지로, 변환된 음향 모델 대응 저차원 벡터와 동 일한 차원의 저차원 공간에서, 저차원 공간 좌표의 수학적 거리 (예를 들면, 유클리드 거리)가 가까운 음향 모델 대응 저차원 벡터에 대응하는 고차원 음향 모델은 서로 유사하고, 대응하는 특정 조건도 유사하다는 것을 의미하고 있는 것으로 생각된다. 또한, 고차원 음향 모델이 중앙에 위치하는 만큼, 대응하는 특정 조건은 더 평균적이라고 생각할 수 있다.
이때, 본 실시 형태에서는 이 좌표 정보가 음향 모델 대응 저차원 벡터의 요소의 값이 된다. 또한, 부여되는 좌표 정보는 대응하는 고차원 음향 모델에 대응시켜 데이터 기억부 (1b)에 기억된다.
또한, 패턴 모델 표시부 (1g)에 의하여, 상기 제1 실시 형태와 같이, 복수의 음향 모델 대응 저차원 벡터의 요소의 값 (좌표 정보)에 기초하여, 상기 복수의 음향 모델 대응 저차원 벡터를, 도 2에 나타내는 바와 같이, 이들을 중심 (원점)으로 하는 2차원 공간상의 좌표점으로서 표시한다.
또한, 영역 구분부 (1h)에 의하여, 2차원 공간 내의 좌표점이 존재하는 영역을, 복수의 구분 영역으로 구분한다. 본 실시 형태에서, 영역의 구분 방법은 상기 제1 실시 형태에서의 데이터 처리 장치 (1)의 방법 (도 22a 참조)과 달리, 도 22b에 나타내는 바와 같이, 가장 안쪽 원 (220)으로부터 바깥쪽 원 방향으로 향하여 갈수록, 안쪽 원과 바깥쪽 원의 양 외주 사이에 형성되는 환상의 영역들이 각각 세밀하게 구분되도록 되어 있다. 즉, 가장 안쪽 원 (220)의 중심을 원점 O로 하고, 가로축을 x, 세로축을 y로 한 2차원 공간상의 좌표점P (x, y)에 대하여, 이 좌표점 P를, 반경 r 및 x축과 P가 이루는 각도 θ로 나타내는 이른바 극좌표계로 파악하였 을 경우에, 반경 r의 값이 큰 좌표점이 위치하는 영역만큼 세밀하게 구분되게 된다.
이와 같이, 좌표점의 분포에서의 주변부보다 세밀하게 구분하는 것의 유효성에 대하여, 도 23에 기초하여 설명한다. 도 23에 나타내는 실시예는 평가 화자를 포함한 복수의 화자에 대하여, 상기 복수의 화자로부터 취득한 전체 음성 데이터를 사용하여 생성한 불특정 화자 음향 모델을 사용한 음성인식의 결과에 기초하는 것이고, 2차원 좌표 표시된 고차원 음향 모델에서, 인식 성능이 80% 이하가 되는 화자의 좌표점 형상을 「×」로, 그 이외로 「○」로 한 것이다.
도 23에 나타내는 바와 같이, 인식 성능이 낮은 화자 (도23에서 「×」)가 좌표점의 분포의 주변부에 가까워질수록 현저하게 존재한다. 따라서, 주변부에 존재하는 화자에 대하여 음향 모델의 인식 성능을 향상시키기 위해서는 더 정밀도가 높은 (특화된) 음향 모델을 생성할 필요가 있다. 즉, 인식 성능이 낮은 화자가 존재하는 주변부에 가까워질수록 영역을 세밀하게 구분함으로써, 각 구분 영역에서의 음향 모델의 성질의 불균일을 억제하고 이들 구분된 영역에 포함되는 음성 데이터로부터 인식 성능이 낮은 화자용으로 불특정 화자 음향 모델을 생성함으로써, 인식 성능을 향상시킨다.
또한, 영역 구분부 (1h)는 영역을 구분할 때에, 도 24에 나타내는 바와 같이, 실제로 나타나는 각 구분 영역의 구분선에 대하여, 도 24 중에서 점선으로 나타내는 바와 같이, 인접한 구분 영역의 일부를 포함하는 폭을 갖도록 하고 있다. 이것에 의하여, 영역 음향 모델의 생성시 등에서 문제가 되는 각 구분 영역의 경계 에 위치하는 좌표점에 대응하게 되어 있다.
상기한 바와 같이 영역이 구분되면, 패턴 모델 표시부 (1g)는 영역 구분부 (1h)에 의한 구분 내용에 기초하여, 도 22 (b)에 나타내는 바와 같이, 표시 좌표점에 맞추어 구분 내용을 표시한다. 이 구분 처리에 의하여, 영역 내의 복수의 음향 모델 대응 저차원 벡터가 각 구분 영역 내의 음향 모델 대응 저차원 벡터로 그룹이 나누어 지게 된다.
또한, 마우스나 키보드 등의 입력 디바이스로부터 입력된 입력 정보에 기초하여, 영역 선택부 (1j)에 의하여 상기 구분된 영역 중에서 특정한 구분 영역이 선택되면, 특정 패턴 모델 생성부 (1k)에 의하여, 상기 선택된 구분 영역 내의 음향 모델 대응 저차원 벡터에 대응하는 고차원 음향 모델의 생성시에 이용된 음성 데이터에 기초하여, 영역 음향 모델을 생성하는 것이 가능하게 된다. 이때, 영역 음향 모델은 상기 고차원 음향 모델과 마찬가지로 예를 들면 HMM 등의 공지의 수법을 사용하여 생성된다. 생성된 영역 음향 모델은 데이터 기억부 (1b)에 기억된다.
또한, 영역 선택부 (1j)에 의하여 상기 구분된 영역 중에서 특정한 구분 영역이 선택되면, 패턴 모델 변환부 (1f)에 의하여, 상기 선택된 구분 영역 내의 음향 모델 대응 저차원 벡터에 대응하는 복수의 고차원 음향 모델을, 재차 새먼법을 사용하여 2차원의 음향 모델 대응 저차원 벡터로 변환하는 것이 가능하다. 이와 같이 하여, 다시 변환을 실시함으로써 좌표점의 분포 모양이 변경되고, 이것을 다시 영역 구분부 (1h)에 의하여 구분함으로써, 더 특화한 불특정 화자 음향 모델의 생성이 가능하게 된다.
또한, 전술한 선택 영역에 대한 영역 음향 모델의 생성 처리 및 재차 음향 모델 대응 저차원 벡터를 변환하는 처리는 본 장치의 이용자가 두 가지 처리 중 어느 하나를 임의로 선택할 수 있는 것으로 한다.
또한, 본 실시 형태에서는 구분 내용 변경부 (1i)에 의하여, 영역 구분부 (1h)에 의하여 자동적으로 구분된 구분 내용을 변경하는 것이 가능하다. 예를 들면, 변경 내용으로서는 상기 제1 실시 형태와 같이, 마우스나 키보드 등의 입력 디바이스로부터 입력된 입력 정보에 기초하여, 영역 구분부 (1h)에 의한 구분 내용을 그대로, 구분선 전체를 회전시키거나 동안엔 35를 1개 늘려, 새로운 구분 영역 (30a 내지 30d)을 형성하거나 영역의 구분수를 변경하거나 하는 것이 가능하다.
또한, 도 25및 도 26에 기초하여, 영역 패턴 모델 생성부 (21a), 데이터 취득부 2 1 b 및 영역 패턴 모델 탐색부 (21c)에 의하여, 신규 화자 (평가 화자에게 동있어의 음성 데이터를 음성인식하는데 적절한 영역 패턴 모델 (본 실시 형태에서는 영역 음향 모델)을 탐색하는 처리를 설명한다.
본 실시 형태에서, 영역 패턴 모델의 탐색 처리를 실시하는지 아닌지의 모드 설정은 데이터 처리 장치 (21)의 이용자에 의하여 실시하는 것이 가능하게 되고 있다.
영역 패턴 모델의 탐색 처리를 실시하는 모드로 설정되어 있는 경우에는 상기 영역 구분부 (1h)에 의한 영역의 구분 처리의 뒤에, 영역 패턴 모델 생성부 (21a)에 의하여, 각 구분 영역 내에 포함되는 음향 모델 대응 저차원 벡터에 대응하는 음성 데이터를 이용하고, 각 구분 영역 마다의 영역 음향 모델을 생성한다.
그리고, 데이터 취득부 (21b)에 의하여, 신규 화자의 음성 데이터를 취득하면, 영역 패턴 모델 탐색부 (21c)에 의하여, 상기 취득한 음성 데이터와 각 구분 영역의 영역 음향 모델에 기초하여, 신규 화자의 음성 데이터를 음성인식하는데 적절한 영역 음향 모델의 탐색 처리를 실시한다.
이때, 본 실시 형태에서, 탐색 방법은 제1 탐색 방법 및 제2 탐색 방법의 2 종류가 있고, 데이터 처리 장치 (21)의 이용자에 의하여, 어느 쪽의 탐색 방법을 사용하는지를 임의로 설정하는 것이 가능하다 (양쪽 모두를 이용하는 설정도 가능).
먼저, 도 25에 기초하여, 제1 탐색 방법을 사용하였을 경우의 탐색 처리에 대하여 설명한다 .
도 25의 (1)에 나타내는 바와 같이, 영역 패턴 모델 탐색부 (21c)는 우선 가장 안쪽 원 (250)의 영역에 대응하는 영역 음향 모델과 신규 화자의 음성 데이터의 우도를 산출하고, 상기 산출한 우도를 영역 음향 모델에 대응시켜 RAM에 보존한다.
다음으로, 도 25의 (2)에 나타내는 바와 같이, 가장 안쪽 원 (250)과 그 1개의 외측의 바깥쪽 원에 의하여 형성된 4개로 구분된 환상의 영역에 대하여, 이들 4개의 구분 영역에 각각 대응하는 영역 음향 모델과 신규 화자의 음성 데이터의 우도를 각각 산출하고, 상기 산출한 4개의 우도를 각각 비교한다. 또한, 이 비교에 의하여, 산출된 우도 중, 가장 높은 우도를 그 영역 음향 모델에 대응시켜 RAM에 보존 함과 동시에, 이 영역 음향 모델에 대응하는 구분 영역에 대하여 바깥 원 방향을 향하여 인접하는 구분 영역을 다음 탐색 방향으로서 결정한다.
즉, 본 실시 형태에서는 도 25의 (3)에 나타내는 4개로 구분된 환상 영역의 오른 쪽 위의 선형 구분 영역에 대응하는 영역 음향 모델의 우도가 가장 높다고 하고, 이 구분 영역에 대하여 바깥 원 방향에 인접하는 2개의 구분 영역을 다음 탐색 방향으로서 결정하고, 이들 2개의 구분 영역에 각각 대응하는 영역 음향 모델과 신규 화자의 음성 데이터의 우도를 산출한다. 또한, 상기 (2)와 같이, 이들 산출한 2개의 우도를 비교하고, 산출된 우도 중 높은 쪽의 우도를 그 영역 음향 모델에 대응시켜 RAM에 보존함과 동시에, 이 영역 음향 모델에 대응하는 구분 영역에 대하여 바깥 원 방향을 향하여 인접하는 구분 영역을 다음 탐색 방향으로서 결정한다.
즉, 본 실시 형태에서는 도 25의 (4)에 나타내는 상기 오른쪽 위의 선형의 2개의 구분 영역 중, 왼쪽 구분 영역에 대응하는 영역 음향 모델의 우도가 높은 것으로 하고, 이 구분 영역에 대하여 바깥 원 방향에 인접하는 2개의 구분 영역을 다음 탐색 방향으로서 결정하고, 이들 2개의 구분 영역에 각각 대응하는 영역 음향 모델과 신규 화자의 음성 데이터의 우도를 산출한다. 또한, 상기 (3)과 같이, 이들 산출한 2개의 우도를 비교하고, 산출된 우도 중 높은 쪽의 우도를, 그 영역 음향 모델에 대응시켜 RAM에 보존시킴과 동시에, 이 영역 음향 모델에 대응하는 구분 영역에 대하여 바깥 원 방향을 향하여 인접하는 구분 영역을 다음 탐색 방향으로서 결정한다.
즉, 본 실시 형태에서는 도 25의 (5)에 나타낸, 상기 (4)에서 탐색 방향으로서 결정된 2개의 구분 영역의 오른쪽의 선형(扇形)에 대응하는 영역 음향 모델의 우도가 높은 것으로 하고, 이 구분 영역에 대하여 바깥 원 방향에 인접하는 구분 영역을 다음 탐색 방향으로서 결정하고, 이들 2개의 구분 영역에 각각 대응하는 영역 음향 모델과 신규 화자의 음성 데이터의 우도를 산출한다. 또한, 이들 산출된 2개의 우도를 비교하고, 산출된 우도 중 가장 높은 우도를 그 영역 음향 모델에 대응시켜 RAM에 보존한다. 그 결과, 본 실시 형태에서는 도 25의 (6)에 나타내는 구분 영역의 우도가 높게 된다. 또한, 이 시점에서, 탐색은 최외주의 환상 영역에 도달하므로 탐색 처리를 종료한다.
최종적으로, 영역 패턴 모델 탐색부 (21c)는 상기 RAM에 보존한 우도를 각각 비교하고, 가장 우도가 높은 영역 음향 모델을 신규 화자의 음성 데이터를 음성 인식하는데 적절한 음향 모델로서 선택한다.
즉, 가장 안쪽 원으로부터 바깥쪽 원 방향을 향하여 우도 계산을 실시할 때에, 각 환상의 영역에서의 최대우도의 구분 영역에 인접한 구분 영역을 탐색 방향으로서 결정함과 동시에, 각 환상의 영역에서의 상기 구분 영역의 우도 계산 결과를 각각 비교하고, 상기 비교 결과에 기초하여 최대우도를 보존한다. 이러한 처리를 최외주의 환상 영역에 도달할 때까지 실시하고, 최종적으로, 보존된 우도 중의 최대우도의 영역 음향 모델을 신규 화자에게 적합한 음향 모델로서 선택한다.
또한, 제1 탐색 방법에서는 최외주의 환상 영역에 도달할 때까지 차례로 우도 산출을 행하고 나서, 최종적으로 탐색 대상이 된 각 구분 영역 내의 최대우도 중에서 가장 높은 우도를 선택함으로써, 신규 화자에게 적합한 영역 음향 모델을 선택하도록 하고 있으나, 이것에 한정하지 않고, 우도 산출에 해당하는 구분 영역의 우도와 그 바로 직전 안쪽 영역의 이미 산출된 우도를 비교하고, 상기 구분 영 역의 몇 가지 우도가 그 바로 직전 안쪽 영역의 이미 산출된 최대우도보다 큰 경우에는 상기 제1 탐색 방법과 마찬가지로 바깥쪽 원 방향을 향하여 탐색을 속행하고, 또한 바로 직전 안쪽 영역의 우도가 큰 경우에는 거기서 탐색을 중지하고, 상기 바로 직전 안쪽 영역의 최대우도를 신규 화자에게 적합한 영역 음향 모델로서 선택하여도 좋다.
다음으로, 도 26에 기초하여, 제2 탐색 방법을 사용하였을 경우의 탐색 처리에 대하여 설명한다. 도 26의 (1)에 나타내는 바와 같이, 영역 패턴 모델 탐색부 (21c)는 먼저 안쪽으로 두번 째 원 (250의 영역에 대응하는 영역 음향 모델과 신규 화자의 음성 데이터의 우도를 산출하고, 상기 산출한 우도를 영역 음향 모델에 대응시켜 RAM에 보존한다. 다음으로, 도 26의 (2)에 나타내는 바와 같이, 가장 안쪽 원 (250)과 바로 그 다음의 바깥쪽 원에 의하여 형성된 4개로 구분된 환상의 영역에 대하여, 이들 4개의 구분 영역에 각각 대응하는 영역 음향 모델과 신규 화자의 음성 데이터의 우도를 각각 산출하고, 상기 산출한 4개의 우도를 각각 비교한다. 그리고, 이 비교에 의하여, 산출된 우도의 가장 높은 우도를, 그 영역 음향 모델에 대응시켜 RAM에 보존함과 동시에, 이 영역 음향 모델에 대응하는 구분 영역에 대하여 바깥 원 방향을 향하여 인접하는 구분 영역을 다음의 탐색 방향으로서 결정한다.
즉, 본 실시 형태에서는 도 26의 (3)에 나타내는 4개로 구분된 환상 영역의 오른쪽 위 및 오른쪽 아래의 2개의 선형의 구분 영역에 대응하는 영역 음향 모델의 우도가 1번째 및 2번째로 높다고 하고, 이 구분 영역에 대하여 바깥 원 방향에 인 접하는 4개의 구분 영역을 다음 탐색 방향으로서 결정하고, 이들 4개의 구분 영역에 각각 대응하는 영역 음향 모델과 신규 화자의 음성 데이터의 우도를 산출한다. 또한, 상기 (2)와 같이, 이들 산출한 4개의 우도를 비교하고, 산출된 우도의 가장 높은 우도 및 그 다음으로 높은 우도를, 각각의 영역 음향 모델에 대응시켜 RAM에 보존함과 동시에, 이 영역 음향 모델에 대응하는 구분 영역에 대하여 바깥 원 방향을 향하여 인접하는 구분 영역을 다음 탐색 방향으로서 결정한다.
즉, 본 실시 형태에서는 도 26의 것 (4)에 나타내는 상기 오른쪽 위의 2개의 선형(扇形) 구분 영역의 우측 구분 영역에 대응하는 영역 음향 모델의 우도와, 상기 오른쪽 아래의 2개의 선형 구분 영역의 왼쪽의 구분영역에 대응하는 영역 음향 모델의 우도가 1번째 및 2번째로 높은 것으로 하고, 이러한 구분 영역에 대하여 바깥 원 방향에 인접하는 4개의 구분 영역을 다음 탐색 방향으로서 결정하고, 이들 4개의 구분 영역에 각각 대응하는 영역 음향 모델과 신규 화자의 음성 데이터의 우도를 산출한다. 또한, 상기 (3)와 같이, 이들 산출한 4개의 우도를 비교하고, 산출된 우도의 가장 높은 우도 및 그 다음으로 높은 우도를, 각각의 영역 음향 모델에 대응시켜 RAM에 보존함과 동시에, 이 영역 음향 모델에 대응하는 구분 영역에 대하여 바깥 원 방향을 향하여 인접하는 구분 영역을 다음 탐색 방향으로서 결정한다.
즉, 본 실시 형태에서는 도 26의 것 (5)에 나타내는 바와 같이, 상기 (4)로 탐색 방향으로서 결정된 4개의 구분 영역으로부터 완성되는 2개의 선형 영역의 하부의 선형에 대응하는 2개의 영역 음향 모델의 우도가 1번째 및 2번째로 높다고 하고, 이러한 구분 영역에 대하여바깥 원 방향에 인접하는 4개의 구분 영역을 다음의 탐색 방향으로서 결정하고, 이들 4개의 구분 영역에 각각 대응하는 영역 음향 모델과 신규 화자의 음성 데이터와의 우도를 산출한다. 또한, 이들 산출된 4개의 우도를 비교하고, 산출된 우도의 가장 높은 우도 및 그 다음으로 높은 우도를 각각의 영역 음향 모델에 대응시켜 RAM에 보존한다. 그 결과, 본 실시 형태에서는 도 26의 (6)에 나타내는 2개의 구분 영역의 우도가 1번째 및 2번째로 높은 우도가 된다. 또한, 이 시점에서, 탐색은 최외주의 환상 영역에 도달하고 있으므로 탐색 처리를 종료한다.
최종적으로, 영역 패턴 모델 탐색부 (21c)는 상기 RAM에 보존한 우도를 각각 비교하고, 가장 우도가 높은 영역 음향 모델을 신규 화자의 음성 데이터를 음성 인식하는데 적절한 음향 모델로서 선택한다.
즉, 가장 안쪽 원으로부터 바깥쪽 원 방향을 향하여 우도 계산을 실시할 때에, 각 환상 영역에서의 최대우도 및 그 다음으로 큰 우도의 2개의 구분 영역에 인접한 구분 영역을 탐색 방향으로서 결정하는 동시에, 각 환상의 영역에서 해당 구분 영역의 우도 계산 결과를 각각 비교하고, 상기 비교 결과에 기초하여 최대우도 및 그 다음에 큰 우도를 보존한다. 이러한 처리를 최외주의 환상 영역에 도달할 때까지 실시하고, 최종적으로, 보존된 우도 중의 최대우도의 영역 음향 모델을 신규 화자에게 적합한 음향 모델로서 선택한다.
또한, 상기 제2 탐색 방법에서는 상위 2개의 우도에 대응하는 구분 영역에 대하여 바깥 원 방향에 인접한 구분 영역을 다음 탐색 방향으로서 결정하고, 한편 각 구분 영역마다 상위 2개의 우도를 보존하도록 하고 있으나, 이것에 한정하지 않 고, 상위 n개 (n은 정수이고, 상기 환상 영역의 분할 개수 미만)에 대응하는 구분 영역에 대하여 바깥 원 방향에 인접한 구분 영역을 다음 탐색 방향으로서 결정하고, 또한 각 구분 영역마다 상위 n개의 우도를 보존하도록 하여도 좋다.
또한, 상기 제1 탐색 방법 및 제2 탐색 방법에 의하여 선택된 음향 모델은 신규 화자가 소지하고 있는 휴대 전화나 PDA 등의 정보처리 단말에 케이블 등을 이용하여 전송할 수 있도록 하여도 좋다.
또한, 상기 제1 탐색 방법 및 제2 탐색 방법에 의한 영역 음향 모델의 탐색은 인식 성능이 소정의 역치보다 낮은 음성 단위의 출현 빈도를 w (k)로서 이용하였을 경우의, 2차원 투영 표시된 탐색 공간에 대하여 행하고 있으나, 이것에 한정하지 않고, 인식 성능이 소정의 역치보다 낮은 음성 단위의 출현 빈도와 단순한 출현 빈도를 이용하여, 따로 따로 탐색 공간을 생성하고, 각각의 탐색 공간에 대하여 상기 제1 탐색 방법 또는 제2 탐색 방법에 따른 영역 음향 모델의 탐색을 실시하고, 최종적으로 탐색된 각 탐색 공간의 영역 음향 모델의 우도를 비교하고, 보다 높은 우도를 제공한 탐색 공간의 영역 패턴 모델을 선택하도록 하여도 좋다.
또한, 도 27에 기초하여, 데이터 처리 장치 (21)에서 영역 패턴 모델 탐색부 (21c)의 제1 탐색 방법에 따른 탐색 처리의 흐름을 설명한다. 도 27은 영역 패턴 모델 탐색부 (21c)의 제1 탐색 방법에 따른 탐색 처리를 나타내는 플로차트이다.
도 27에 나타내는 바와 같이, 우선 스텝 S400로 진행하고, 데이터 처리 장치 (21)의 이용자의 입력 디바이스의 조작에 의하여 제1 탐색 방법이 선택되면 스텝 S402로 진행한다.
스텝 S402에서는 데이터 취득부 (21b)가 신규 데이터를 취득하였는지 아닌지를 판정하고, 취득하였다고 판정하였을 경우 (Yes)에는 스텝 S404로 진행하고, 그렇지 않은 경우 (No)에는 취득할 때까지 판정 처리를 속행한다. 이때, 신규 데이터는 신규 화자 등의 신규 대상에 관한 데이터를 나타낸다. 예를 들면, 신규 화자의 음성 데이터 등이 이에 해당된다.
스텝 S404로 진행하였을 경우에는 상기 취득한 신규 데이터를 데이터 기억부 (1b)에 기억시키고 스텝 S406로 진행한다.
스텝 S406에서는., 데이터 처리 장치 (21)의 이용자의 입력 디바이스의 조작에 의하여, 데이터 제어부 (1d)로부터 탐색 개시 지령을 받았는지 여부를 판정하고, 받았다고 판정하였을 경우 (Yes)에는 스텝 S408로 진행하고, 그렇지 않은 경우 (No)에는 탐색 개시 지령을 접수할 때까지 판정 처리를 속행한다.
스텝 S408로 진행하였을 경우에는 데이터 기억부 (1b)로부터 상기 보존한 신규 데이터를 읽어내고, 상기 읽어낸 신규 데이터와 영역 구분부 (1h)에 의하여 구분된 영역 가운데, 가장 안쪽 원의 영역에 대응하는 영역 패턴 모델과의 우도를 산출하고 스텝 S410로 진행한다.
스텝 S410에서는 스텝 S408로 산출한 우도를 RAM에 보존하고 스텝 S4 12로 진행한다.
스텝 S412에서는 가장 안쪽 원에 인접하는 환상 영역에 포함되는 구분 영역에 대응하는 영역 패턴 모델과 상기 읽어낸 신규 데이터의 우도를 산출하고 스텝 S414로 진행한다.
스텝 S414에서는 산출한 구분 영역의 우도를 각각 비교하여 스텝 S416 로 진행한다.
스텝 S416에서는 스텝 S414의 비교 결과로부터, 최대의 우도를 그 영역 패턴 모델에 대응시켜 RAM에 보존하고 스텝 S418로 진행한다.
스텝 S418에서는 우도의 산출이 최외주의 환상 영역에 도달하였는지 아닌지를 판정하고, 최외주에 도달하였다고 판정하였을 경우 (Yes)에는 스텝 S420로 진행하고, 그렇지 않은 경우 (No)에는 스텝 S424로 진행한다.
스텝 S420로 진행하였을 경우에는 RAM에 보존된 모든 우도를 각각 비교하여 스텝 S422로 진행한다.
스텝 S422에서는 스텝 S420의 비교 결과로부터, 최대우도에 대응하는 영역 패턴 모델을 선택하여 처리를 종료한다.
한편, 스텝 S418에서, 최외주에 도달하고 있지 않고 스텝 S424로 진행하였을 경우에는 스텝 S414의 비교 결과로부터, 최대우도의 영역에 대하여 바깥 원 방향에 인접한 구분 영역의 우도를 산출하여 스텝 S414로 진행한다.
또한, 도 28에 기초하여, 데이터 처리 장치 (21)에서의 영역 패턴 모델 탐색부 (21c)의 제2 탐색 방법에 따른 탐색 처리의 흐름을 설명한다. 도 28은 영역 패턴 모델 탐색부 (21c)의 제2 탐색 방법에 따르는 탐색 처리를 나타내는 플로차트이다.
도 28에 나타내는 바와 같이, 우선 스텝 S500로 진행하고, 데이터 처리 장치 (21)의 이용자의 입력 디바이스의 조작에 의하여, 제2 탐색 방법이 선택되면 스텝 S502로 진행한다.
스텝 S502에서는 데이터 취득부 (21b)가 신규 데이터를 취득하였는지 여부를 판정하고, 취득하였다고 판정하였을 경우 (Yes)에는 스텝 S504로 진행하고, 그렇지 않은 경우 (No)에는 취득할 때까지 판정 처리를 속행한다. 이때, 신규 데이터는 신규 화자 등의 신규 대상에 관한 데이터를 나타낸다. 예를 들면, 신규 화자의 음성 데이터 등이 이에 해당된다.
스텝 S504로 진행하였을 경우에는 상기 취득한 신규 데이터를 데이터 기억부 (1b)에 기억시키고 스텝 S506로 진행한다.
스텝 S506에서는 데이터 처리 장치 (21)의 이용자가 입력 디바이스를 조작함으로써, 데이터 제어부 (1d)로부터 탐색 개시 지령을 받았는지 여부를 판정하고, 받았다고 판정하였을 경우 (Yes)에는 스텝 S508로 진행하고, 그렇지 않은 경우 (No)에는 탐색 개시 지령을 받을 때까지 판정 처리를 속행한다.
스텝 S508로 진행하였을 경우에는 데이터 기억부 (1b)로부터 상기 보존한 신규 데이터를 읽어내고, 상기 읽어낸 신규 데이터와 영역 구분부 (1h)에 의하여 구분된 영역 가운데, 가장 안쪽 원의 영역에 대응하는 영역 패턴 모델의 우도를 산출하여 스텝 S510로 진행한다.
스텝 S510에서는 스텝 S508에서 산출한 우도를 RAM에 보존시키고 스텝 S512로 진행한다.
스텝 S512에서는 가장 안쪽 원에 인접하는 환상 영역에 포함되는 구분 영역에 대응하는 영역 패턴 모델과 상기 읽어낸 신규 데이터의 우도를 산출하여 스텝 S514로 진행한다.
스텝 S514에서는 산출한 구분 영역의 우도를 각각 비교하여 스텝 S516 로 진행한다.
스텝 S516에서는 스텝 S514의 비교 결과로부터, 우도가 큰 것부터 차례로 상위 n개의 우도를 각각의 영역 패턴 모델에 대응시켜 RAM에 보존하고 스텝 S518로 진행한다.
스텝 S518에서는 우도의 산출이 최외주의 환상 영역에 도달하였는지 여부를 판정하고, 최외주에 도달하였다고 판정하였을 경우 (Yes)에는 스텝 S520로 진행하고, 그렇지 않은 경우 (No)에는 스텝 S524로 진행한다.
스텝 S520로 진행하였을 경우에는 RAM에 보존된 모든 우도를 각각 비교하여 스텝 S522로 진행한다.
스텝 S522에서는 스텝 S520의 비교 결과로부터, 최대우도에 대응하는 영역 패턴 모델을 선택하여 처리를 종료한다.
한편, 스텝 S518에서, 최외주에 도달하고 있지 않고 스텝 S524로 진행하였을 경우에는 스텝 S514의 비교 결과로부터, 상위 n개의 우도에 대응하는 영역에 대하여 바깥 원 방향에 인접한 구분 영역의 우도를 산출하여 스텝 S514로 진행한다.
이상, 데이터 분류부 (1a)에 의하여, 복수 대상에 관한 소정의 데이터 (상기 실시 형태에서는 복수의 화자의 음성 데이터)를 특정 조건에 기초하여 나눌 수 있다.
또한, 패턴 모델 생성부 (1c)에 의하여, 그룹을 나눈 소정의 데이터 (상기 실시 형태에서는 음성 데이터)로부터 각 그룹마다 패턴 모델 (상기 실시형태에서는 고차원 음향 모델)을 생성하는 것이 가능하다.
또한, 수학적 거리 산출부 (1e')에 의하여, 상기 식 (1)에서의 w (k)에 인식 성능이 소정의 역치보다 낮은 패턴 단위 (상기 실시 형태에서는 음성 단위)의 출현 빈도를 사용하여, 복수의 패턴 모델 (상기 실시 형태에서는 고차원 음향 모델) 에서 각 패턴 모델 상호 간의 수학적 거리를 산출하는 것이 가능하다.
또한, 패턴 모델 변환부 (1f)에 의하여, 복수의 패턴 모델 (상기 실시 형태에서는 고차원 음향 모델) 및 이들 상호 간의 수학적 거리에 기초하여, 복수의 패턴 모델 (상기 실시 형태에서는 고차원 음향 모델)을 이것과 동일한 수의 패턴 모델 대응 저차원 벡터 (상기 실시 형태에서는 음향 모델 대응 저차원 벡터)로 변환하는 것이 가능하다.
또한, 패턴 모델 표시부 (1g)에 의하여, 복수의 패턴 모델 대응 저차원 벡터 (상기 실시 형태에서는 음향 모델 대응 저차원 벡터)를 이것과 동일한 차원의 저차원 공간 (상기 실시 형태에서는 2차원 공간) 상에 좌표점으로서 표시하는 것이 가능하다.
또한, 영역 구분부 (1h)에 의하여, 가장 안쪽 원으로부터 바깥쪽 원 방향을 향할수록, 환상 영역에 포함되는 패턴 모델 대응 저차원 벡터 (상기 실시 형태에서는 음향 모델 대응 저차원 벡터)가 세밀하게 구분되도록, 저차원 공간상의 좌표점이 존재하는 영역을 자동적으로 구분하는 것이 가능하다.
또한, 구분 내용 변경부 (1i)에 의하여, 영역 구분부 (1h)에 의하여 자동적 으로 구분된 구분 내용을 입력 정보에 기초하여 변경하는 것이 가능하다.
또한, 영역 선택부 (1j)에 의하여, 표시된 구분 영역 중 입력된 정보에 기초하는 구분 영역을 선택하는 것이 가능하다.
또한, 특정 패턴 모델 생성부 (1k)에 의하여, 영역 선택부 (1i)에 의하여 선택된 구분 영역 내의 복수의 패턴 모델 대응 저차원 벡터 (상기 실시 형태에서는 음향 모델 대응 저차원 벡터)에 대응하는 패턴 모델 (상기 실시 형태에서는 고차원 음향 모델)에 관한 데이터 (상기 실시 형태에서는 음성 데이터)로부터, 특정 패턴 모델 (상기 실시 형태에서는 특정 음향 모델)을 생성하는 것이 가능하다.
또한, 영역 패턴 모델 생성부 (21a)에 의하여, 영역 구분부 (1h)에 의하여 구분된 각 구분 영역에 대응하는 영역 패턴 모델 (상기 실시 형태에서는 영역 음향 모델)을 생성하는 것이 가능하다.
또한, 데이터 취득부 (21b)에 의하여, 신규 대상에 관한 소정의 데이터 (상기 실시 형태에서는 신규 화자의 음성 데이터)를 취득하는 것이 가능하다.
또한, 영역 패턴 모델 탐색부 (21c)에 의하여, 제1 탐색 방법 또는 제2 탐색 방법을 사용하고, 영역 구분부 (1h)에 의하여 구분된 각 구분 영역에 대응하는 영역 패턴 모델 (상기 실시 형태에서는 영역 음향 모델) 중에서, 데이터 취득부 (21b)에 의하여 취득한 소정의 데이터 (상기 실시 형태에서는 음성 데이터)를 패턴 인식하는데 적합한 영역 패턴 모델을 탐색하는 것이 가능하다.
[제7 실시예]
도 29 내지 도 31에 기초하여, 상기 제2 실시 형태의 데이터 처리 장치 (21) 에 의하여 발화 양식마다 복수의 고차원 음향 모델을 2차원 투영 표시하는 동시에 복수의 구분 영역으로 구분하고, 상기 구분 영역마다 생성한 복수의 영역 음향 모델 (이하, "음향 모델 라이브러리"라 부른다)에 대하여, 상기 제1 탐색 방법을 사용하여 선택한 영역 음향 모델과 종래법의 MLLR (Maximum Likelihood Linear Regression)에 의하여 얻은 음향 모델의 성능 비교를 실시한 실시예를 설명한다.
이때, 도 29a는 음향 모델의 생성에 이용하는 발화 양식의 종류를 나타내는 도면이며, (b)는 본 발명에 관한 데이터 처리 장치 (21)에 의하여 2차원 평면상에 표시된 음향 모델 대응 저차원 벡터를 나타내는 도면이다. 또한, 도 30은 본 발명에 관한 데이터 처리 장치 (21)의 탐색 방법을 사용하여 선택한 음향 모델과 종래법의 화자 적응법 MLLR를 사용하여 선택한 음향 모델에 대한 각 화자와 인식 성능의 관계를 나타내는 도면이다.
또한, 도 31은 음향 모델 탐색시의 발성수와 상기 발성수에 의하여 선택한 음향 모델의 인식 성능과의 관계를 나타내는 도면이다.
먼저, 성능 비교에는 5240 단어의 음소 밸런스 단어를 175 단어로 이루어지는 복수의 단어 리스트로 분할하고, 남성 화자 145명이 복수의 발화 양식에 의하여 발성한 음성 데이터를 이용하였다. 발화자수는 561명이며, 533명을 학습 데이터 화자, 28명을 평가 데이터 화자로 하였다. 평가 화자의 선정에 관한 자세한 사항은 후술한다. 음성 데이터에는 전시회에서 녹취한 배경 잡음이 SN비 20 dB로 중첩되어 있다. 샘플링 주파수는 11.025 kHz이다. 발성된 발화 양식의 개요는 도 29a에 나타내는 바와 같이, 통상 (평상시의 속도로 발성), 빠른 말 (통상의 경우보다 빠른 속 도로 발성), 높은 목소리 (통상의 경우보다 높은 목소리로 발성), 작은 목소리 (가까이에 있는 사람에게도 들리지 않도록 발성), 큰 목소리 (떨어져 있는 사람에게도 들리도록 높은 목소리로 발성), 롬버드 (자동차의 잡음을 들으면서 발성), 음절 강조 (음절 각각을 강조하도록 발성)의 7가지로 되어 있다. 음향 모델은 단일 정규 분포에 의한 다이폰 (diphone)을 HMM에 의하여 모델화한 것이다.
도 29b는 학습 데이터 화자인 남성 533명의 특정 화자 음향 모델을 데이터 처리 장치 (21)에 의하여, 2차원 평면상에 좌표점 표시한 음향 공간 지도이다. 이때, 식 (1)에서의 음성 단위 (k)의 출현 빈도 (w (k))에는 학습 데이터 내에서의 다이폰의 출현 빈도를 사용하였다. 이때, 본 실시예에서는 데이터 처리 장치 (21)에서, 상기 식 (1)의 출현 빈도 (w (k))로서 단순한 다이폰의 출현 빈도와 인식 성능이 소정의 역치보다 낮은 다이폰의 출현 빈도 두 종류를 사용하고, 영역 음향 모델의 탐색에서 이 두 종류의 출현 빈도로부터 생성된 각각의 음향 공간 지도에서 탐색한 결과를 비교하고, 보다 높은 우도를 제공한 영역 음향 모델을 선택한다.
또한, 각 좌표점의 심볼은 도 29a에 따른다.
제29b 도로부터, 발화 양식마다 좌표점이 모여 있는 것을 알 수 있다. 이것은 발화 양식의 차이에 따라 음향적 특징이 다른 것을 나타내고 있는 것으로 생각할 수 있다. 분포의 중심에는 「통상」의 좌표점이 모여 있으므로, 데이터 처리 장치 (21)에 의하여 2차원 평면에 사상 (寫像)되었을 경우, 보다 평균적인 특징을 가진 발화 양식이 중심에 나타날 것으로 생각할 수 있다. 점선의 화살표는 발화 양식이 다른 동일 화자의 음향 공간상에서의 차이를 보여주는 예이다. 음향 해석을 하 여 추가로 통계 처리되었을 경우, 발화 양식의 변화에 의한 음향적 특징의 차이가 화자성(話者性)의 그것과 비교하여 더 큰 것을 나타내고 있다.
평가 화자는 도 29b에서 분포의 외연, 내연에 존재하는 화자를 발화 양식마다 각각 2명씩 선택하고 있다 (합계 28명).
평가에는 HTK (The Hidden Markov Model Toolkit:「http://htk.eng.cam.ac. uk/」 참조 (2004/7/12에 존재 확인))를 사용하여 각 평가 화자에 대하여, 수록 어휘인 175 단어의 병렬 네트워크를 이용한다. 평가에 사용하는 척도로서 단어의 정해 (正解) 정도 (이하, 간단하게 "인식 성능"이라 부른다)에 추가하여, 인식 성능 X% 이하인 평가 화자의 비율 (이하, "Population"이라 부른다)을 이용한다. 이것은 조립 기기 제조업체측이 음성 인식 벤더에 요구하는 성능 보증 지표의 하나이다.
이러한 평가 데이터에 대하여, 음향 모델 라이브러리의 평가를 실시한다. 음향 모델 라이브러리에 대하여, 소량의 음성 샘플을 기초로 상기 제1 탐색 방법에 의하여 선택된 음향 모델을 "커스텀 (custom) 음향 모델"이라 부른다. 먼저, 이 커스텀 음향 모델과 베이스 라인의 성능으로서 불특정 화자 음향 모델과의 성능 비교, 및 커스텀 음향 모델과 종래법으로서 화자 적응 수법인 MLLR에 의하여 얻은 화자 적응 음향 모델과의 성능 비교를 실시한다. 다음으로, 모델 선택시에 필요한 음성 샘플수에 의한 성능 비교를 실시하고, 충분한 성능 개선에 필요한 음성 샘플수에 대하여 검토를 실시한다. 이때, 모델 선택시, 또는 MLLR에 의한 화자 적응을 실시할 때 이용하는 음성 샘플에는 실용상에서는 태스크 내의 단어를 사용하는 것이 일반적이라고 생각하고 각 평가 화자의 평가 데이터 내로부터 랜덤하게 선택한 것 을 사용한다.
도 3O에 각 평가 화자에 대한 불특정 화자 음향 모델, 화자 적응 음향 모델 (적응 발성수 10 (도 3O 중, MLLR#N10), 3O (도 3O 중, MLLR#N30)) 및 커스텀 음향 모델 (모델 선택용 발성수 5 (도 30 중, Custom#N5))의 인식 성능 비교를 나타낸다. 이때, 도 30에서, 가로축은 각 화자에게 대응되는 번호이며, 세로축은 각 화자에게 대응되는 각 음향 모델의 인식율이다. 또한, 화자 적응 음향 모델은 각각 가장 높은 성능을 나타내는 학습 회수에 의하여 적응화가 이루어지고 있는 것으로 한다. 이때, 적응 발성수 및 모델 선택용 발성수는 모델 선택 시에 필요한 각 화자의 음성 샘플수이다.
도 30에 나타내는 바와 같이, 커스텀 음향 모델 (제3O중의「■」)이 불특정 화자 음향 모델 (도 30중의「×」)을, 특히, 스피커 1 내지 11에 대하여는 큰 폭으로 웃도는 성능을 나타내고, 적응 발성수 (30)의 MLLR에 의한 화자 적응 음향 모델 (제30 중의「◇」)과 동등한 것 이상의 성능을 나타내고 있는 것을 알 수 있다. 따라서, 탐색에 필요한 음성 샘플수가 종래법보다 적어도 되기 때문에 (즉, 연산량이 종래법보다 적어도 된다), 각 화자에게 적절한 커스텀 음향 모델을, 종래법보다 고속으로 탐색하는 것이 가능한 것을 나타낸다. 또한, 불특정 화자 음향 모델이나 MLLR에 의한 화자 적응 음향 모델에서 인식 성능이 나쁜 화자 (도 30 중의 스피커1 내지 4)에 대하여, 커스텀 음향 모델은 모두 인식율 80% 이상의 고성능이므로, 음향 모델 간의 거리 산출에서, 상기 식 (1)의 출현 빈도 (w (k))에 단순한 다이폰 출현 빈도와, 인식 성능이 소정의 역치보다 낮은 다이폰 출현 빈도의 두 종류를 사 용하고, 이들 두 종류의 출현 빈도에 의한 각 음향 모델 상호 간의 거리를 사용하여 생성된 음향 공간 지도에 대하여 선택적인 영역 음향 모델의 탐색을 실시한 점도 유효하였다고 생각할 수 있다.
또한, 도 31에, 본 발명에 관한 데이터 처리 장치 (21)에 의하여 탐색하는 커스텀 음향 모델에 대하여, 탐색시의 음성 샘플수에 의한 커스텀 음향 모델의 인식 성능의 비교로서 발성수와 평균 인식 성능과의 관계 (도 31 중의「■」)와, 발성수와 인식율 80% 이하의 Popu1ation의 관계 (도 31 중의「●」를 나타낸다. 이때, 도 31 중의 N=0의 결과는 불특정 화자 음향 모델 (Base#Line)에 의한 것이다. 또한, 도 31에 대하여, 가로축은 발성수이며, 세로 제1축 (왼쪽)은 인식율 (화자 평균)이며, 세로 제2축 (우측)은 인식율이 80% 이하인 화자의 비율이다.
도 31로부터, 발성수와 평균 인식 성능과의 관계 (가로 축과 세로 제1축)로부터, 불과 3 단어, 또는 5 단어로, 인식율의 대폭적인 개선을 볼 수 있고, 또한 발성수와 인식율 80% 이하의 Population의 비율이 0이 되었다. 이러한 것으로부터 본 발명에 관한 데이터 처리장치 (21)는 3 단어 또는 5 단어라는 적은 발성수로도 각 화자에 대하여 충부한 인식 성능을 가진 음향 모델을 탐색하는 것이 가능하다..
[제8 실시예]
또한, 도 32에 기초하여, 본 발명에 관한 데이터 처리 장치 (21)에서, 상기 제1 탐색 방법을 사용하여 신규 화자에게 적절한 영역 음향 모델의 탐색을 실시하였을 경우와 모든 영역 음향 모델의 우도 계산을 실시하여 신규 화자에게 적절한 영역 음향 모델의 탐색을 실시하였을 경우의 인식 성능의 비교를 실시한 실시예에 대하여 설명한다. 발화 양식이나 평가자 등에 대하여는 상기 제7 실시예와 같다.
이때, 도 32는 제1 탐색 방법을 사용하여 탐색한 음향 모델과, 전체 영역 음향 모델의 우도 계산에 의하여 탐색한 음향 모델에 대하여, 각 화자와 인식율의 관계를 나타내는 도면이다.
도 32에서, 탐색에는 상기 제7 실시예와 마찬가지로 각 화자의 음성 샘플중에서 랜덤하게 5개를 선택한 것을 이용하였다. 도 32에 나타내는 바와 같이, 모든 영역 음향 모델과 음성 샘플과의 우도 계산을 실시하고, 이들 산출한 우도의 비교에 의하여 최대우도의 영역 음향 모델을 선택하는 방법 (도 32 중의「▲」)과, 상기 제1 탐색 방법을 사용한 방법 (도 32 중의「■」)이라는 인식율은 일부 서로 우열이 있으나, 전체적으로 거의 동등한 것으로 보인다. 따라서, 상기 제1 탐색 방법과 같이, 모든 영역 음향 모델과의 우도 계산을 실시하지 않아도 각 화자에게 적절한 영역 음향 모델의 탐색이 가능하다는 것을 알 수 있다. 이것으로부터, 영역 음향 모델의 탐색에 상기 제1 탐색 방법 및 제2 탐색 방법을 사용하는 것은 유효하고, 이것에 의하여 화자에게 적절한 영역 음향 모델 탐색을 고속으로 실시하는 것이 가능하다.
[제9 실시예]
또한, 도 33 및 도 34에 기초하여, 상기 식 (1)의 출현 빈도 (w (k))의 차이에 의한 인식 성능의 비교를 실시한 실시예를 설명한다. 발화 양식이나 평가자 등에 대하여는 상기 제7 실시예와 같다.
이때, 도 33은 가중치에 2 종류의 출현 빈도를 이용하였을 경우와, 가중치에 통상의 출현 빈도를 이용하였을 경우와, 중량감에 인식 성능이 소정의 역치보다 낮은 음성 단위의 출현 빈도를 사용하였을 경우에 대하여, 화자와 인식율과의 관계를 나타낸 도면이다. 또한, 도 34a는 거리의 중량감에 단순한 다이폰의 출현 빈도를 사용하여 생성한 음향 공간 지도를 나타내는 도면이며, 도 34b는 거리의 가중치에 인식 성능이 소정의 역치보다 낮은 다이폰의 출현 빈도를 사용하여 생성한 음향 공간 지도를 나타내는 도면이다.
도 33 중의, Base#Line (「×」)는 전체 영역 음향 모델로부터 생성한 불특정 화자 음향 모델을 사용하였을 경우이고, Custom#N5 (「■」)는 상기 제7 실시예와 마찬가지로, 상기 식 (1)의 출현 빈도 (w (k))에, 단순한 다이폰의 출현 빈도와 인식 성능이 최저인 다이폰의 출현 빈도의 두 종류를 사용하여 생성된 음향 공간 지도에 대하여 선택적인 영역 음향 모델 탐색을 실시하였을 경우이며, Frequency ( 「○」)는 단순한 다이폰의 출현 빈도를 사용하여 생성된 음향 공간 지도에 대하여 영역 음향 모델의 탐색을 실시하였을 경우이고, Badphoneme Frequency (「◇」)는 인식 성능이 최저인 다이폰의 출현 빈도를 사용하여 생성된 음향 공간 지도에 대하여 영역 음향 모델의 탐색을 실시한 경우이다.
도 33으로부터 알 수 있는 바와 같이, Frequency에서는 스피커1에 대하여 인식율이 75% 이하로 인식 성능이 좋지 않지만, Badphoneme Frequency에서는 스피커1에 대하여 인식율 80% 이상으로 인식 성능이 양호하다. 한편, Frequency에 대하여는 스피커2에 대하여 인식율 8O% 이상으로 인식 성능이 좋지만, Badphoneme Frequency에 대하여는 스피커2에 대하여 인식율이 70% 이하로 인식 성능이 나쁘다. 이와 같이, 수는 적지만 가중치에 이용하는 출현 빈도의 차이로 화자에 따라서는 인식 성능에 큰 차이가 발생하는 것을 알 수 있다. 따라서, Frequency 및 Badphoneme Frequency의 양자로부터 우도가 높은 영역 음향 모델을 선택하는 Custom#N5는 Frequency 및 Badphoneme Frequency가 각각 단점 (서투른 화자)을 서로 보충하게 되어, 보다 폭넓게 여러 화자에게 대응할 수 있다고 할 수 있다.
또한, 도 34a 중에는 원에 둘러싸인 5개의 좌표점이 있으나, 이들 5개의 좌표점은 각각 근방에 위치하고 있는 것을 알 수 있다. 한편, 도 34b 중에는 원에 둘러싸인 좌표점은 도 34a 중의 좌표점에 비하여 다른 위치에 흩어져 있는 것을 알 수 있다. 이때, 도 34a에서 원으로 둘러싸인 5개의 좌표점의 음향 모델과, 도 34b에서, 동일하게 원으로 둘러싸인 5개의 좌표점의 음향 모델은 동일한 것이고, 이것으로부터, 사용하는 출현 빈도에 따라서 음향 모델의 분포가 크게 변하는 경우가 있다고 할 수 있다. 이미 설명한 바와 같이, 화자의 원근을 거리로 정의하는 경우, 그 원근 관계는 음성 단위 (음소등 )에 따라서 다르지만, 이 문제는 출현 빈도를 사용한 경우에도 완전하게 해소되는 것은 아니며, 어느 하나의 출현 빈도를 사용하여 얻은 거리에 따르는 원근 관계는 반드시 모든 음성 단위에 대하여 성립되는 것은 아니다. 그 중에는 인식시에 중요한 음성 단위이면서, 원근 관계가 바르게 얻어지지 않는 경우도 있다. 따라서, 본 실시예의 두 종류의 출현 빈도를 사용하여 거리를 계산하는 Custom#N5와 같이, 복수의 출현 빈도를 사용하여 각 음향 모델간의 거리를 계산하고, 각 출현 빈도마다 복수의 음향 공간 지도를 생성함으로써, 영역 음향 모델의 탐색시에는 각각의 음향 공간 지도에서 서로의 단점을 상호 보완하여 상기 문제를 완화한다.
상기 제2의 실시의 형태에서, 데이터 분류부 (1a)는 청구 범위 제16, 18및 28항 중 어느 하나의 항에 기재된 데이터 분류 수단에 대응하고, 패턴 모델 생성부 (1c)는 청구 범위 제16, 18, 24, 33 및 37항 중 어느 하나의 항에 기재된 파타지 모델 생성 수단에 대응하고, 수학적 거리 산출부 (1e')는 청구 범위 제16, 19 및 30항 중 어느 하나의 항에 기재된 수학적 거리 산출 수단에 대응하고, 패턴 모델 변환부 (1f)는 청구 범위 제16, 18, 31항 중 어느 하나의 항에 기재된 패턴 모델 변환 수단에 대응하고, 패턴 모델 표시부 (1g)는 청구 범위 제16, 18 및 34항 중 어느 하나의 항에 기재된 패턴 모델 대응 저차원 벡터 표시 수단에 대응하고, 영역 구분부 (1h)는 청구 범위 제18, 21 내지 23, 32, 34 및 37항 중 어느 하나의 항에 기재된 영역 구분 수단에 대응하고, 영역 패턴 모델 생성부 (21a)는 청구 범위 제18, 24 및 37항 중 어느 하나의 항에 기재된 영역 패턴 모델 생성 수단에 대응하고, 데이터 취득부 (21b)는 청구 범위 제18 또는 37항에 기재된 소정의 데이터 취득 수단에 대응하고, 영역 패턴 모델 탐색부 (21c)는 청구 범위 제18, 24 내지 26, 33, 34 및 37항 중 어느 하나의 항에 기재된 영역 패턴 모델 탐색 수단에 대응하고, 구분 내용 변경부 (1i)는 청구 범위 제32항에 기재된 구분 내용 변경 수단에 대응하고, 패턴 모델 적응부 (1k)는 청구 범위 제33항에 기재된 패턴 모델 적응 수단에 대응한다.
또한, 상기 제2 실시 형태에서는 인간의 음성을 예를 들어 설명하였으나, 본원 발명은 인간의 음성에 대하여만 적용 가능한 것은 아니며, 대상 데이터로서 인 간의 음성 이외의 데이터를 이용하였을 경우에도 동일한 과제를 해결하고, 동일한 효과를 가진다.
또한, 상기 제2의 실시 형태에서는 패턴 모델 변환부 (1f)에 의한 변환 후의 음향 모델 대응 저차원 벡터를 2차원으로 하였지만, 이것에 한정하지 않고, 1 차원이나 3차원으로 변환하도록 하여도 좋다.
[제3 실시 형태]
이하, 본 발명의 제3 실시 형태를 도면에 기초하여 설명한다. 도 35 내지 도 42는 본 발명에 관한 데이터 처리 시스템의 제3 실시 형태를 나타내는 도면이다.
먼저, 본 발명에 관한 데이터 처리 시스템의 구성을 도 35에 기초하여 설명한다. 도 35는 본 발명에 관한 데이터 처리 시스템의 구성을 나타내는 블록도이다.
도 35에 나타내는 바와 같이, 데이터 처리 시스템 (5)은 정보처리 단말 (350A, 350B, 350C, ‥·)과, 데이터 처리 장치 (37)와, 네트워크 (6)를 포함한 구성으로 되어 있다.
정보처리 단말 (350A 내지 350C)은 시스템 이용자 (A 내지 C)의 관리하에 있는 단말이며, 각 시스템 이용자의 음성 데이터를 취득하고, 이것을 네트워크 (6)을 거쳐 데이터 처리 장치 (37)에 송신하는 기능과, 데이터 처리 장치 (37)으로부터 취득한 정보를 표시하는 기능을 포함하고 있다. 본 실시 형태에서는 휴대 전화, PDA, PC, WS 등의 정보처리 장치에, 상기 기능을 실현하기 위한 하드웨어 및 소프트웨어를 갖춘 것이다. 또한, 상세한 구성은 후술한다.
데이터 처리 장치 (37)는 정보처리 단말 (350A 내지 350C)로부터 네트워크 (6)을 사이에 두고 취득한 음성 데이터에 기초하여 영역 구분된 음향 공간 지도로부터 취득한 음성 데이터의 화자에게 적절한 영역 음향 모델을 탐색하는 기능과, 복수의 화자의 음향 모델로부터 구성된 음향 공간 지도 내에서의 상기 취득한 음성 데이터의 위치 정보 및 상기 탐색 결과를 표시하는 기능과, 탐색 결과의 음향 모델을 시스템 이용자에게 송신하는 기능을 포함하고 있다. 또한, 상세한 구성은 후술한다.
네트워크 (6)은 LAN나 WAN 등의 복수의 정보처리 기기를 서로 데이터 통신 가능하게 접속하는 네트워크이며, 본 실시 형태에서는 인터넷을 적용한다.
또한, 도 36에 기초하여 정보처리 단말 (350A 내지 350C)의 상세한 구성을 설명한다. 도 36은 정보처리 단말 (350)의 상세한 구성을 나타내는 도면이다. 이때, 본 실시 형태에서, 정보처리 단말 (350A 내지 350C (그 밖에도 다수의 단말이 존재하여도 좋다)은 같은 구성으로 되어 있고, 이들을 정리하여 정보처리 단말 (350)로서 설명한다. 또한, 이후, 정보처리 단말 (350A 내지 350C)에 공통된 사항을 설명하는 경우에는 이들을 총칭한 정보처리 단말 (350)에 대하여 설명한다. 또한, 도 35에 나타내는 바와 같이, 정보처리 단말은 (350A 내지 350C)의 3대에 한정하지 않고, 그 밖에도 다른 시스템 이용자의 관리하에 있는 정보처리 단말이 접속된 구성으로 하여도 좋다.
도 36에 나타내는 바와 같이, 정보처리 단말 (350)은 음성 데이터 취득부 (350a)와, 제1 데이터 제어부 (350b)와, 제1 데이터 통신부 (350c)와, 정보 표시부 (350d)와, 조작부 (35Oe)를 포함하는 구성으로 되어 있다. 음성 데이터 취득부 (350a)는 마이크 등의 대상 화자가 발성한 음성 (아날로그 데이터)을 취득하는 수단과, A/D변환기 등의 상기 아날로그 데이터인 음성을 디지털 데이터로 변환하는 수단을 포함한 것이다.
제1 데이터 제어부 (350b)는 음성 데이터 취득부 (350a)에 대하여 취득된 음성 데이터를 제1 데이터 통신부 (350c)를 거쳐 데이터 처리 장치 (37)에 송신하는 처리를 제어하는 기능, 데이터 처리 장치 (37)로부터 취득한 정보를 정보 표시부 (350d)에 의하여 표시하는 처리를 제어하는 기능 등의, 각부의 처리를 제어하는 기능을 가진 것이다.
제1 데이터 통신부 (350c)는 제1 데이터 제어부 (350b)의 제어에 의하여, 네트워크 (6)을 개입시키고, 데이터 처리 장치 (37) 사이에서 각종 데이터 통신을 실시하는 기능을 가진 것이다.
정보 표시부 (350d)는 제1 데이터 제어부 (350b)의 제어에 의하여, 데이터 처리 장치 (37) 취득한 각종 정보를 표시하는 등, 정보의 표시 처리를 실시하는 기능을 가진 것이다.
조작부 (350e)는 시스템 이용자가 특정 화자를 지정하거나 음성 데이터 처리 제어 프로그램에 대한 설정을 실시하기 위한 정보를 입력하기 위한 것이다.
이때, 본 실시 형태에서, 정보처리 단말 (350)은 도시하지 않는 프로세서와 RAM (Random Access Memory)와 전용 프로그램이 기억된 ROM (Read Only Memory)를 포함하고 있어 프로세서에 의하여 전용의 프로그램을 실행함으로써 상기 각부의 제어를 실시한다.
도 37에 기초하여, 데이터 처리 장치 (37)의 상세한 구성을 설명한다. 도 37은 데이터 처리 장치 (37)의 상세 구성을 나타내는 블록도이다. 또한, 상기 제2 실시 형태의 데이터 처리 장치 (21)와 중복되는 기능부는 동일한 부호를 붙이고, 기능이 같은 것에 대하여는 그 설명을 생략한다.
데이터 처리 장치 (37)는 데이터 분류부 (1a)와, 데이터 기억부 (1b)와, 패턴 모델 생성부 (1c)와, 제 2 데이터 제어부 (1d')와, 수학적 거리 산출부 (1e')와, 패턴 모델 변환부 (1f)와, 패턴 모델 표시부 (1g)와, 영역 구분부 (1h)와, 구분 내용 변경부 (1i)와, 영역 선택부 (1j)와, 특정 패턴 모델 생성부 (1k)와, 영역 패턴 모델 생성부 (21a)와, 제2 데이터 통신부 (37a)와, 영역 패턴 모델 탐색부 (21c)를 포함하는 구성으로 되고 있다.
즉, 데이터 처리 장치 (21)에서의 데이터 취득부 (21b)를 대신하여, 제2 데이터 통신부 (37a)가 포함된다.
제 2 데이터 제어부 1d'는 상기 제2 실시의 형태에서의 데이터 제어부 (1d)의 기능에 추가하여 정보처리 단말 (350)로부터의 시스템 이용자의 음성 데이터에 기초하여, 상기 음성 데이터가 복수의 화자의 음성 데이터로부터 미리 생성된 음향 공간 지도의 어느 영역에 속하고 있는지를 산출하고, 또한 해당하는 영역의 가치를 산출하고, 이러한 산출 결과 및 산출 결과에 대한 코멘트의 데이터를 정보처리 단말 (350)에 송신하는 처리를 제어한다. 또한, 새로 취득 시스템 이용자의 음성 데이터에 기초하여, 상기 시스템 이용자가 현재 사용하고 있는 음향 모델의 성능을 평가하고, 상기 평가 결과와 그에 대한 코멘트의 데이터를 정보처리 단말 (350)에 송신하는 처리를 제어한다.
제2 데이터 통신부 (37a)는 제2 데이터 제어부 (1d')의 제어에 의하여, 네트워크 (6)를 거쳐, 정보처리 단말 (350)과의 사이에 각종 데이터 통신을 실시하는 기능을 가진 것이다.
이하, 도 38 및 도 39에 기초하여, 데이터 처리 시스템 (5)에 의하여 구체적인 동작을 설명한다. 이때, 도 38은 시스템 이용자에게 적합한 음향 모델을 전달할 때의 표시 정보의 일례를 나타내는 도면이며, 도 39는 시스템 이용자의 사용하고 있는 음향 모델의 성능을 평가하고, 새로운 음향 모델을 전달할 때의 표시 정보의 일례를 나타내는 도면이다.
먼저, 데이터 처리 장치 (37)는 상기 제2 실시의 형태와 같은 순서로, 복수의 화자의 음성 데이터로부터 고차원 음향 모델을 생성하고, 이것을 음향 모델 대응 저차원 벡터로 변환하여 2차원 평면상에 좌표점 표시한다. 또한, 음향 모델 대응 저차원 벡터가 좌표점 표시된 음향 공간을 복수의 영역으로 구분하고, 각 구분 영역의 음향 모델 대응 저차원 벡터에 대응하는 음성 데이터로부터, 각 구분 영역 마다의 영역 음향 모델을 생성한다. 영역 음향 모델이 생성되면, 정보처리 단말 (350)로부터 시스템 이용자에게 적합한 음향 모델의 전달 의뢰 및 음향 모델의 평가 의뢰를 기다린다.
한편, 시스템 이용자는 자신의 음성을 인식하는데 적합한 음향 모델을 취득하기 위하여, 정보처리 단말 (350)의 조작부 (350e)를 조작하여 제1 데이터 제어부 (350b)에 지시를 하고 음성 데이터의 취득 프로그램을 기동하고, 먼저 음성 데이터 취득부 (350a)에 의하여 자신의 음성 데이터를 취득시킨다. 그 후, 조작부 (350e)의 조작에 의하여 제1 데이터 제어부 (350b)에 지시를 하고, 취득시킨 음성 데이터와 음향 모델의 전달 의뢰 정보 및 평가 의뢰 정보를 조(組)로 하여 데이터 처리 장치 (37)에 송신한다.
데이터 처리 장치 (37)는 정보처리 단말 (350)로부터 음성 데이터, 전달 의뢰 정보 및 평가 의뢰 정보를 수신하면, 상기 제2 실시의 형태에서 제1 탐색 방법에 의하여, 상기 취득한 음성 데이터를 음성 인식하는데 적합한 영역 음향 모델의 탐색을 실시한다. 또한, 취득한 음성 데이터로부터 시스템 이용자의 음성 데이터가 어느 발화 양식에 속하는지 등도 알 수 있다. 이와 같이 하여, 시스템 이용자의 음성 데이터에 대하여 얻은 정보는 미리 준비된 코멘트 데이터와 함께 표시용 정보로서 음성 데이터의 송신원의 정보처리 단말 (350)에 송신된다. 이때, 본 실시의 형태에서, 데이터 처리 장치 (37)는 과거에 시스템 이용자에게 전달한 음향 모델의 이력을 가지고 있고, 이 이력으로부터 이번 음성 데이터에 대한 과거에 전달한 음향 모델의 성능을 평가하고, 이번 새롭게 탐색된 음향 모델과의 성능 비교를 실시한다. 이것은 데이터 처리 장치 (37)에 축적된 음성 데이터가 신규 화자 등의 음성 데이터의 추가 등에 의하여 날마다 갱신되고, 이 갱신에 따라 음향 공간 지도도 갱신되기 위하여 실시된다. 이 성능 비교에 의하여, 새로운 음향 공간 지도로부터 탐색되는 음향 모델이 과거의 음향 모델의 인식 성능을 뛰어넘는 것인 지 등을 판단할 수 있고, 인식 성능이 더 높은 음향 모델의 획득이 가능하게 된다. 따라서, 본 실시 형태에서, 평가 결과의 정보도 표시용 정보로서 정보처리 단말 (350)에 송신 된다. 또한, 전달 의뢰 정보에는 시스템 이용자를 식별하기 위한 식별 정보가 포함되어 있다.
정보처리 단말 (350)은 데이터 처리 장치 (37)로부터의 표시용 정보를 수신하면, 제1 데이터 제어부 (350b)의 제어에 의하여, 정보 표시부 (350d)는 수신한 표시용 정보에 기초한 정보를 표시한다. 표시 내용으로서는 예를 들면, 도 38에 나타내는 바와 같이, 발화 양식 마다의 음향 공간과 시스템 이용자의 음성 데이터가 속하는 음향 공간을 상기 제2 실시의 형태의 수법으로 영역 구분한 결과, 이들 음향 공간 및 구분 영역에서의 시스템 이용자의 음성 데이터의 상대 위치, 발화 양식 마다의 큰 구분에서 음향 모델의 가격 산출식, 영역 구분된 각 환상 영역 (여기에서는 "BAND"라고 부른다) 마다의 음향 모델의 가격 산출식, 시스템 이용자에게 적합한 음향 모델의 설명문, 구입하는지 아닌지의 결정, 또는 시스템 이용자에게 좋아하는 음향 모델을 선택시키기 위한 메뉴, 음향 모델의 선택수 및 누계 금액의 정보 등이 있다.
시스템 이용자는 도 38에 도시한 설명문을 읽고, 현재 사용하고 있는 음향 모델보다, 새로 탐색된 음향 모델이 인식 성능이 높아지는 것을 알아내고, 탐색된 각 모델의 가격을 보고 구입할 것인지 여부, 또는 스스로 새로운 음향 모델을 선택하는지 여부를 판단하고, 조작부 (350e)의 조작에 의하여 희망하는 메뉴를 선택하여 실행한다. 음향 모델의 구입을 하는 (「예」)를 선택하여 실행하였을 경우에는 그 정보가 데이터 처리 장치 (37)에 송신되고, 상기 정보 수신한 데이터 처리 장치 (37)는 선택된 음향 모델을 정보처리 단말 (350)에 전달한다. 한편, 「스스로 구입 할 음향 모델을 선택한다」가 선택 실행되었을 경우에는, 발화 양식에 대응하는 음향 공간과 시스템 이용자의 음성 데이터가 속하는 음향 공간을 상기 제2의 실시 형태의 수법으로 영역 구분한 결과에 대하여 커서를 맞추고 희망하는 음향 모델을 선택한다. 이것에 의하여 선택된 음향 모델의 정보가 데이터 처리 장치 (37)에 송신되고, 상기 정보 수신한 데이터 처리 장치 (37)는 선택된 음향 모델을 정보처리 단말 (350)에 전달한다.
또한, 데이터 처리 시스템 (5)를, 시스템 이용자의 현재 사용하고 있는 음향 모델의 평가 및 그 교체에 사용한 경우의 다른 형태를 설명한다.
시스템 이용자는 자신이 사용하고 있는 음향 모델을 평가하기 위하여, 정보처리 단말 (350)의 조작부 (350e)를 조작하여 제1 데이터 제어부 (350b)에 지시를 하여 음성 데이터의 취득 프로그램을 기동하고, 우선 음성 데이터 취득부 (350a)에 의하여 자신의 음성 데이터를 취득시킨다. 그 후, 조작부 (350e)의 조작에 의하여 제1 데이터 제어부 (350b)에 지시를 하여, 취득된 음성 데이터와 음향 모델의 평가 의뢰 정보를 조를 이루어 데이터 처리 장치 (37)에 송신시킨다. 이때, 평가 의뢰 정보에는 시스템 이용자의 식별 정보가 포함되어 있다.
데이터 처리 장치 (37)는 정보처리 단말 (350)로부터 음성 데이터 및 평가 의뢰 정보를 수신하면, 상기 제2 실시 형태에서 제1 탐색 방법에 의하여, 상기 취득한 음성 데이터를 음성 인식하는데 적합한 영역 음향 모델의 탐색을 실시한다. 또한, 취득한 음성 데이터로부터 시스템 이용자의 음성 데이터가 어느 발화 양식에 속하는지 등도 알 수 있다. 또한, 평가 의뢰 정보에 포함되는 식별 정보로부터, 과 거에 전달한 음향 모델의 정보를 취득하고, 이 음향 모델에 대한 현재의 인식율을 산출함과 동시에, 상기 탐색된 음향 모델에 대하여 취득한 음성 데이터의 인식율을 산출하고, 이들 산출 결과에 기초한 코멘트를 생성한다. 이들 시스템 이용자의 음성 데이터에 대하여 얻은 정보는 미리 준비된 코멘트 데이터와 함께 표시용 정보로서 음성 데이터의 송신원의 정보처리 단말 (350)에 송신된다.
정보처리 단말 (350)은 데이터 처리 장치 (37)로부터의 표시용 정보를 수신하면, 제1 데이터 제어부 (350b)의 제어에 의하여, 정보 표시부 (350d)는 수신한 표시용 정보에 기초한 정보를 표시한다. 표시 내용으로서는 예를 들면, 도 39에 나타내는 바와 같이, 발화 양식 마다의 음향공간과, 시스템 이용자의 음성 데이터가 속하는 음향 공간을 상기 제2의 실시 형태의 수법으로 영역 구분한 결과, 이들 음향 공간 및 구분 영역에서 시스템 이용자의 음성 데이터의 상대 위치, 시스템 이용자가 사용하고 있는 음향 모델의 평가 내용문, 현재의 음향 모델을 교체할 것인지 여부의 결정, 또는 시스템 이용자가 좋아하는 음향 모델을 선택할 수 있도록 하기 위한 메뉴, 음향 모델의 선택수의 정보 등이 있다.
시스템 이용자는 도 39에 도시하는 평가 내용문을 읽고, 현재 사용하고 있는 음향 모델보다, 이번에 새롭게 탐색된 음향 모델이 인식 성능이 높아지는 것을 알아내고, 탐색된 음향 모델로 교체할 것인지 여부, 또는 스스로 새로운 음향 모델을 선택할 것인지 여부를 판단하고, 조작부 (350e)의 조작에 의하여 희망하는 메뉴 선택하여 실행한다. 음향 모델을 교체하는 (「예」)를 선택하여 실행하였을 경우에는 그 정보가 데이터 처리 장치 (37)에 송신되고, 상기 정보를 수신한 데이터 처리 장 치 (37)는 선택된 음향 모델을 정보처리 단말 (350)에 전달한다. 한편,「스스로 교체하는 음향 모델을 선택한다」가 선택 실행된 경우에는 발화 양식에 대응하는 각 음향 공간과 시스템 이용자의 음성 데이터가 속하는 음향 공간을 상기 제2의 실시의 형태의 수법으로 영역 구분한 결과에 대하여 커서를 놓고 희망하는 음향 모델을 선택한다. 이것에 의하여 선택된 음향 모델의 정보가 데이터 처리 장치 (37)에 송신되고, 상기 정보 수신한 데이터 처리 장치 (37)는 선택된 음향 모델을 정보처리 단말 (350)에 전달한다. 음향 모델의 성능은 예를 들면, 대상 화자의 발성 방법, 발성하는 단어의 종류, 발성하는 시기, 발성하는 환경, 컨디션 등에 의하여 변화하기 때문에, 몸이 불편하거나, 발성하는 환경이 갑자기 변경되었을 경우 등에, 현재의 음향 모델로는 충분한 인식 성능을 얻을 수 없는 경우가 있다. 이와 같은 경우에, 현재 사용하고 있는 음향 모델을 평가하고, 그 평가 결과에 기초하여 새로운 음향 모델로 교체함으로써 인식 성능을 향상시키는 것이 가능하다.
또한, 도 40에 기초하여, 정보처리 단말 (350)에서의 데이터 송신 처리의 흐름을 설명한다. 도 40은 정보처리 단말 (350)에서 데이터 송신 처리를 나타내는 플로차트이다.
도 40에 나타내는 바와 같이, 우선 스텝 S600로 진행하고, 제1 데이터 제어부 (350b)에서, 음성 취득 모드가 기동하고 있는지 아닌지를 판정하고, 기동하고 있다고 판정하였을 경우 (Yes)에는 스텝 S602로 진행하고, 그렇지 않은 경우 (No)에는 기동될 때까지 대기한다.
스텝 S602로 진행하였을 경우에는 제1 데이터 제어부 (350b)에 의하여, 음성 데이터 취득부 (350a)를 사이에 두고 음성 데이터를 취득하였는지 아닌지를 판정하고, 취득하였다고 판정하였을 경우 (Yes)에는 스텝 S604로 진행하고, 그렇지 않은 경우 (No)에는 취득할 때까지 대기한다. 스텝 S604로 진행하였을 경우에는 제1 데이터 제어부 (350b)에 의하여, 취득한 음성 데이터 (아날로그 데이터)를 디지털 데이터로 변환하여 스텝 S606으로 진행한다.
스텝 S606에서는 제1 데이터 제어부 (350b)에서, 시스템 이용자의 조작부 (350e)의 조작에 의하여, 음향 모델의 구입이 지정되었는지 여부를 판정하고, 지정되었다고 판정한 경우 (Yes)에는 스텝 S608로 진행하고, 그렇지 않은 경우 (No)에는 스텝 S610로 진행한다.
스텝 S608로 진행한 경우에는 제1 데이터 제어부 (350b)에서, 음성 데이터의 디지털 데이터와 식별 정보를 포함한 전달 의뢰 정보와, 평가 의뢰 정보를 조를 이루게 하여, 제1 데이터 통신부 (350c)를 거쳐 데이터 처리 장치 (37)에 송신하고 처리를 종료한다.
한편, 스텝 S610으로 진행하였을 경우에는 시스템 이용자의 조작부 (350 e)의 조작에 의하여, 평가 의뢰가 지정되었는 지 아닌지를 판정하고, 지정되었다고 판정하였을 경우 (Yes)에는 스텝 S612로 진행하고, 그렇지 않은 경우 (No)에는 스텝 S614로 진행한다.
스텝 S612로 진행하였을 경우에는 제1 데이터 제어부 (350b)에서, 음성 데이터의 디지털 데이터와 식별 정보를 포함한 평가 의뢰 정보를 한 조(組)를 이루게 하여, 제1 데이터 통신부 (350c)를 거쳐 데이터 처리 장치 (37)에 송신하고 처리를 종료한다.
한편, 스텝 S614로 진행하는 경우에는 제1 데이터 제어부 (350b)에서, 시스템 이용자의 조작부 (350e)의 조작에 의하여, 처리 종료가 지정되었는 지 여부를 판정하고, 지정되었다고 판정하는 경우 (Yes)에는 처리를 종료하고, 그렇지 않은 경우 (No)에는 스텝 S606로 진행한다.
또한, 도 41에 기초하여, 데이터 처리 장치 (37)의 영역 음향 모델 생성 후의 동작 처리의 흐름을 설명한다. 도 41은 데이터 처리 장치 (37)의 동작 처리를 나타내는 플로차트이다.
도 41에 나타내는 바와 같이, 우선 스텝 S700으로 진행하고, 제2 데이터 제어부 (1d')에서, 정보처리 단말 (350)로부터의 정보를 수신하였는지 여부를 판정하고, 수신하였다고 판정하였을 경우 (Yes)에는 스텝 S702로 진행하고, 그렇지 않은 경우 (No)에는 수신할 때까지 대기한다.
스텝 S702로 진행하는 경우에는 제2 데이터 제어부 (1d')에서, 수신한 정보가 전달 의뢰 정보 및 평가 의뢰 정보의 양쪽 모두를 포함하고 있는지 여부를 판정하고, 포함하고 있다고 판정하였을 경우 (Yes)에는 스텝 S704로 진행하고, 그렇지 않은 경우 (No)에는 스텝 S710로 진행한다.
스텝 S704로 진행하였을 경우에는 제2 데이터 제어부 (1d')의 제어에 의하여, 영역 음향 모델의 탐색 및 음향 모델의 평가 등이 상기 음성 데이터 처리를 실시하여 스텝 S706로 진행한다.
스텝 S706에서는 제2 데이터 제어부 (1d')에서, 스텝 S704의 음성 데이터 처 리 결과에 기초하여, 표시용 정보를 생성하고 스텝 S708로 진행한다.
스텝 S708에서는 제2 데이터 제어부 (1d')에서, 제2 데이터 통신부 (37a)를 개입시키고, 스텝 S706에서 생성된 표시용 정보를 해당하는 정보처리 단말 (350)에 송신하고 스텝 S700으로 진행한다.
한편, 스텝 S702에서, 수신한 정보에 전달 의뢰 정보가 포함되어 있지 않고 스텝 S710로 진행하였을 경우에는 제2 데이터 제어부 (1d')에서, 수신한 정보가 평가 의뢰 정보만을 포함하고 있는지 여부를 판정하고, 포함하고 있다고 판정하였을 경우 (Yes)에는 스텝 S712로 진행하고, 그렇지 않은 경우 (No)에는 스텝 S718로 진행한다.
스텝 S712로 진행하였을 경우에는 제2 데이터 제어부 (1d')의 제어에 의하여, 영역 음향 모델의 탐색 및 음향 모델의 평가 등이 상기 음성 데이터 처리를 실시하고 스텝 S714로 진행한다.
스텝 S714에서는 제2 데이터 제어부 (1d')에서, 스텝 S712의 음성 데이터 처리 결과에 기초하여, 표시용 정보를 생성하고 스텝 S716로 진행한다.
스텝 S716에서는 제2 데이터 제어부 (1d')에서, 제2 데이터 통신부 (37a)를 거쳐, 스텝 S714에서 생성된 표시용 정보를 해당하는 정보처리 단말 (350)에 송신하고 스텝 S700으로 진행한다.
한편, 스텝 S710에서 수신한 정보가 평가 의뢰가 아닌데도 스텝 S718로 진행하였을 경우에는 수신한 정보를 파기하고 스텝 S700으로 진행한다.
또한, 도 42에 기초하여, 정보처리 단말 (350)에서 표시용 정보 수신시의 동 작 처리의 흐름을 설명한다. 도 42는 정보처리 단말 (350)에서 표시용 정보 수신시의 동작 처리를 나타내는 플로차트이다.
도 42에 나타내는 바와 같이, 우선 스텝 S800으로 진행하고, 제1 데이터 제어부 (350b)에서, 데이터 처리 장치 (37)로부터의 표시용 정보를 수신하였는지 여부를 판정하고, 수신하였다고 판정하였을 경우 (Yes)에는 스텝 S802로 진행하고, 그렇지 않은 경우 (No)에는 수신할 때까지 대기한다.
스텝 S802로 진행하였을 경우에는 제1 데이터 제어부 (350b)의 제어에 의하여, 정보 표시부 (350d)에 의하여, 상기 수신한 표시용 정보에 기초하여 정보를 표시하고 스텝 S804로 진행한다.
스텝 S804에서는 제1 데이터 제어부 (350b)에서, 시스템 이용자의 조작부 (350e)의 조작에 의하여, 표시된 메뉴로부터 음향 모델이 선택되었는지 여부를 판정하고, 선택되었다고 판정하였을 경우 (Yes)에는 스텝 S806으로 진행하고, 그렇지 않은 경우 (No)에는 스텝 S812로 진행한다.
스텝 S806로 진행하였을 경우에는 제1 데이터 제어부 (350b)에서, 선택된 음향 모델의 정보를 제1 데이터 통신부 (350c)를 거쳐 데이터 처리 장치 (37)에 송신하고 스텝 S808로 진행한다.
스텝 S808에서는 제1 데이터 제어부 (350b)에서, 데이터 처리 장치 (37)로부터 상기 선택한 음향 모델을 수신하였는지 여부를 판정하고, 수신하였다고 판정하였을 경우 (Yes)에는 스텝 S810로 진행하고, 그렇지 않은 경우 (No)에는 수신할 때까지 대기한다.
스텝 S810으로 진행하였을 경우에는 제1 데이터 제어부 (350b)에서, 상기 수신한 음향 모델을 도시하지 않는 기억부에 기억하고 처리를 종료한다.
한편, 스텝 S804에서, 음향 모델이 선택되지 않고 스텝 S812로 진행하였을 경우에는 제1 데이터 제어부 (350b)에서, 시스템 이용자의 조작부 (350e)의 조작에 의하여, 표시된 메뉴로부터 음향 모델의 교체가 선택되었는 지 여부를 판정하고, 선택되었다고 판정하였을 경우 (Yes)에는 스텝 S814로 진행하고, 그렇지 않은 경우 (No)에는 스텝 S804로 진행한다.
스텝 S814로 진행하였을 경우에는 제1 데이터 제어부 (350b)에서, 선택된 음향 모델의 교체 정보를 제1 데이터 통신부 (350c)를 거쳐 데이터 처리 장치 (37)에 송신하여 스텝 S816으로 진행한다.
스텝 S816에서는 제1 데이터 제어부 (350b)에서, 데이터 처리 장치 (37)로부터 상기 선택한 음향 모델을 수신하였는지 여부를 판정하고, 수신하였다고 판정하였을 경우 (Yes)에는 스텝 S818로 진행하고, 그렇지 않은 경우 (No)에는 수신할 때까지 대기한다.
스텝 S818에서는 제1 데이터 제어부 (350b)에서, 현재 사용하고 있는 음향 모델을 상기 수신한 음향 모델로 갱신하여 처리를 종료한다.
상기 제3의 실시 형태에서, 제1 데이터 제어부 (350b) 및 제1 데이터 통신부 (350c)에 의한 음성 데이터의 송신 처리는 청구 범위 제37항에 기재된 음성 데이터 송신 수단에 대응하고, 제1 데이터 제어부 (350b) 및 제1 데이터 통신부 (350c)에 의한 음향 모델의 수신 처리는 청구 범위 제37항에 기재된 특정 패턴 모델 취득 수 단에 대응하고, 제2 데이터 제어부 (1d') 및 제2 데이터 통신부 (37a)에 의한 음향 모델의 전달 처리는 청구 범위 제37항에 기재된 특정 패턴 모델 송신 수단에 대응한다.
[제4의 실시 형태]
이하, 본 발명의 제4 실시 형태를 도면에 기초하여 설명한다. 도 43 내지 도 50은 본 발명에 관한 데이터 처리 시스템의 제4 실시 형태를 나타내는 도면이다.
먼저, 본 발명에 관한 데이터 처리 시스템의 구성을 도 43에 기초하여 설명한다. 도 43 은 본 발명에 관한 데이터 처리 시스템의 구성을 나타내는 블록도이다.
도 43에 나타내는 바와 같이, 데이터 처리 시스템 (7)은 정보처리 단말 (2A 내지 2C)과, 데이터 처리 장치 (3)과 네트워크 (4)를 포함하는 구성으로 되어 있다.
정보처리 단말 (2A 내지 2C)는 시스템 이용자 (A 내지 C)의 관리하에 있는 단말이며, 각 시스템 이용자의 음성 데이터를 취득하고, 이것을 네트워크 (4)를 거쳐 데이터 처리 장치 (3)에 송신하는 기능과, 데이터 처리 장치 (3)으로부터 취득한 정보를 표시하는 기능과, 데이터 처리 장치 (3)과의 사이에서, 음성 데이터의 제공 가부에 관한 교섭을 실시하는 기능을 포함하고 있다. 본 실시 형태에서는 PC나 WS 등의 정보처리 장치에, 상기 기능을 실현하기 위한 하드웨어 및 소프트웨어를 갖춘 것이다. 상세한 구성에 대하여는 후술한다.
데이터 처리 장치 (3)는 정보처리 단말 (2A 내지 2C)로부터 네트워크 (4)를 사이에 두고 취득한 음성 데이터의 가치를 평가하는 기능과, 복수의 화자의 패턴 모델로 구성된 음향 공간 내에서 상기 취득한 음성 데이터의 위치 정보 및 상기 평가 결과를 표시하는 기능과, 네트워크 (4)를 사이에 두고 정보처리 단말 (2A 내지 2C)의 사이에 음성 데이터의 제공 가부에 관한 교섭을 실시하는 기능을 포함하고 있다. 또한, 상세한 구성은 후술한다.
네트워크 (4), LAN나 WAN 등의 복수의 정보처리 기기를 상호 데이터 통신 가능하게 접속하는 네트워크로서, 본 실시 형태에서는 WAN의 하나인 인터넷을 적용한다.
또한, 도 44에 기초하여 정보처리 단말 (2A 내지 2C)의 상세한 구성을 설명한다. 도 44는 정보처리 단말 (2)의 상세한 구성을 나타내는 도면이다. 이때, 본 실시 형태에서, 정보처리 단말 (2A 내지 2C) (실제는 그 밖에도 단말은 존재한다)는 동일한 구성으로 되어 있는데, 이들을 정리하여 정보처리 단말 (2)로서 설명한다. 또한, 이하에서 정보처리 단말 (2A 내지 2C)에 공통된 사항을 설명하는 경우에는 이들을 총칭한 정보처리 단말 (2)에 대하여 설명한다. 또한, 도 43에 나타내는 바와 같이, 정보처리 단말은 2A 내지 2C의 3대에 한정하지 않고, 그 밖에도 다른 시스템 이용자의 관리하에 있는 정보처리 단말이 접속된 구성으로 되어 있다.
도 44에 도시하는 바와 같이, 정보처리 단말 (2)은 제1 데이터 취득부 (2a)와, 제1 데이터 제어부 (2b)와, 제1 데이터 통신부 (2c)와, 제1 정보 표시부 (2d)와, 제1 교섭부 (2e)를 포함하는 구성으로 되어 있다.
제1 데이터 취득부 (2a)는 마이크 등의 대상 화자가 발성한 음성 (아날로그 데이터)을 취득하는 수단과 A/D변환기 등의 상기 아날로그 데이터인 음성을 디지털 데이터로 변환하는 수단을 갖춘 것이다.
제1 데이터 제어부 (2b)는 제1 데이터 취득부 (2a)에 대하여 취득된 음성 데이터를 제1 데이터 통신부 (2c)를 사이에 두고 데이터 처리 장치 (3)에 송신하는 처리를 제어하는 기능, 데이터 처리 장치 (3)로부터 취득한 정보를 제1 정보 표시부 (2d)에 의하여 표시하는 처리를 제어하는 기능, 제1 교섭부 (2e)에 의한 데이터 처리 장치 (3)와의 사이의 교섭 처리를 제어하는 기능 등의, 각부의 처리를 제어하는 기능을 하는 것이다.
제1 데이터 통신부 (2c)는 제1 데이터 제어부 (2b)의 제어에 의하여, 네트워크 (4)를 개입시키고, 데이터 처리 장치 (3)와의 사이에 각종 데이터 통신을 실시하는 기능을 가진 것이다.
제1 정보 표시부 (2d)는 제1 데이터 제어부 (2b)의 제어에 의하여, 데이터 처리 장치 (3)로부터 취득한 각종 정보를 표시하는 등, 정보의 표시 처리를 실시하는 기능을 하는 것이다.
제1 교섭부 (2e)는 제1 데이터 제어부 (2b)의 제어에 의하여, 데이터 처리 장치 (3)와의 사이에서, 네트워크 (4)를 개입시킨 음성 데이터 제공 가부의 교섭 처리를 실시하는 기능을 가진 것이다. 이때, 교섭 처리란, 예를 들면 채팅 기능을 포함한 소프트 등에 의하여 시스템 이용자 데이터 처리 장치 (3)를 관리하는 오퍼레이터와의 사이에서 메시지의 교환을 실시하거나, 데이터 처리 장치 (3)가 가치가 높은 음성 데이터에 대하여 미리 준비된 정보 (평가 결과나 메시지 등)를 정보처리 단말 (2)에 자동적으로 송신하고, 그 정보를 보고 시스템 이용자가 응답을 하는 등, 최종적으로는 시스템 이용자가 자기의 음성 데이터의 제공 가부의 판단을 실시하고, 그 판단 결과를 데이터 처리 장치 (3)에 되돌려보낸다.
또한, 도 45에 기초하여, 데이터 처리 장치 (3)의 상세한 구성을 설명한다. 도 45는 데이터 처리 장치 (3)의 상세 구성을 나타내는 블록도이다.
도 45에 나타내는 바와 같이, 데이터 처리 장치 (3)는 제2 데이터 통신부 (3 a)와, 제2 데이터 취득부 (3b)와, 제2 데이터 제어부 (3c)와, 위치 산출부 (3d)와, 데이터 평가부 (3e)와, 제2 정보 표시부 (3f)와, 제2 교섭부 (3g)와, 조작부 (3h)와, 데이터 기억부 (3i)를 포함하는 구성으로 되어 있다.
제2 데이터 통신부 (3a)는 제2 데이터 제어부 (3c)의 제어에 의하여, 네트워크 (4)를 개입시키고, 정보처리 단말 (2)과의 사이에 각종 데이터 통신을 실시하는 기능을 가진 것이다.
제2 데이터 취득부 (3b)는 제2 데이터 통신부 (3a)를 개입시키고, 정보처리 단말 (2)로부터의 음성 데이터를 취득하는 기능을 가진 것으로, 취득한 음성 데이터를 해석하여 그 특징부인 특징량 데이터를 추출하는 수단도 포함하고 있다. 또한, 이 추출된 특징량 데이터에 기초하여, HMM를 구성함으로써 대상 화자의 패턴 모델을 생성하는 수단도 포함하고 있다. 또한, 본 실시 형태에서는 상기 특징량 데이터 및 대상 화자의 패턴 모델을 모두, 음성 데이터라고 부른다.
제2 데이터 제어부 (3c)는 데이터 처리 장치 (3)의 각 구성요소 간의 데이터의 수수 (授受)를 제어하거나 처리의 흐름을 제어하는 기능을 포함한 것이다.
위치 산출부 (3d)는 취득한 음성 데이터와 복수의 화자의 패턴 모델과의 위치 관계를 산출하는 기능을 가진 것이다.
즉, 특징량 데이터가 음성 데이터인 경우에는 이 음성 데이터와 후술하는 데이터 기억부 (3i)에 기억된 복수의 화자의 패턴 모델의 우도 계산을 실시하고, 이 산출 결과에 기초하여, 복수의 화자의 패턴 모델 중에서 가장 우도가 높은 패턴 모델을 선택하고, 이 패턴 모델을 상기 대상 화자의 음성 데이터와 등가인 것으로 취급한다. 이때, 본 실시 형태에서, 상기 복수의 화자의 패턴 모델은 HMM에 의하여 생성되고 있고, 이들 중에서 특정 패턴 모델 (대상 화자의 음성 데이터에 대응하는 패턴 모델이어도 좋다)을 기준으로 하여 각각 상대 위치를 결정할 수 있다. 또한, 이 상대 위치 정보를 가지는 패턴 모델에 의하여 음향 공간이 형성된다.
따라서, 이 경우에는 선택된 패턴 모델의 상대 위치 정보가 대상 화자의 음성 데이터의 위치 정보가 된다.
한편, 특징량 데이터로부터 HMM를 구성함으로써 생성된 패턴 모델이 음성 데이터인 경우에는 이 음성 데이터와 상기 기준이 되는 패턴 모델의 상대 위치를 산출하고, 이 산출 결과를 음성 데이터의 위치 정보로 한다.
데이터 평가부 (3e)는 특징량 데이터가 음성 데이터인 경우에는 선택된 패턴 모델과 그 이외의 복수의 화자의 패턴 모델의 수학적 거리를 산출하고, 이 산출된 각 거리를 미리 설정된 수학적 거리의 역치 (Th)와 비교하고, 상기 비교 결과에 기초하여 대상 화자의 음성 데이터의 가치를 평가하는 것이다. 예를 들면, 역치 (Th) 내에 존재하는 패턴 모델이 소수인 경우에는 대상 화자의 음성 데이터는 성긴 공간 에 있고, 유사한 특징을 가진 것이 적기 때문에 희소 가치가 높다고 평가하고, 한편 역치 (Th)내에 존재하는 패턴 모델이 다수일 경우에는 조밀한 공간에 있고, 유사한 특징을 가진 것이 많기 때문에 희소 가치가 낮다고 평가한다.
이때, 본 실시 형태에서는 수학적 거리로서 아래 식 (8)으로 나타내는 유클리드 거리 또는 아래 식 (9)으로 나타내는 바타체리야 거리를 산출한다.
[수학식 5]
Figure 112006020663175-pct00005
단, 상기 식 (8) 및 식 (9)에서, J는 차원수, L는 HMM 상태수, μ는 HMM의 출력 확률의 평균, Σ은 HMM의 출력 확률의 분산이다.
이때, 수학적 거리의 산출은 음소마다 실시하는 것이 가능하고, 음성 데이터의 가치를 평가하는 처리도 음소마다 실시하는 것이 가능하다. 본 실시 형태에서는 이 처리 방법을 시스템 이용자가 임의로 전환하여 설정하는 것이 가능하다.
제2 정보 표시부 (3f)는 데이터 평가부 (3e)의 평가 결과 등의 정보를 표시하는 기능을 가진 것이다. 여기에서 표시되는 정보로서는 예를 들면, 평가 결과를 수치화한 정보, HMM인 패턴 모델의 상기 산출된 수학적 거리의 관계를 바탕으로, 공지의 새먼법에 의하여, 상기 HMM의 거리 관계를 2차원에 투영한 것 등이 있다.
제2 교섭부 (3g)는 제2 데이터 제어부 (3c)의 제어에 의하여, 정보처리 단말 (2)과의 사이에서, 네트워크 (4)를 개입시킨 음성 데이터의 제공 가부의 교섭 처리를 실시하는 기능을 하는 것이다.
조작부 (3h)는 오퍼레이터가, 제2 정보 표시부 (3f)에 표시된 정보를 보고 시스템 이용자와 교섭을 실시할 것인지 여부를 판단하거나, 시스템 이용자와의 사이에서 메시지를 교환할 때의 메시지의 입력 등을 하기 위한 것이다.
데이터 기억부 (3i)는 복수의 화자의 패턴 모델, 교섭이 성립된 음성 데이터 등의 필요한 데이터를 기억하는 것이다.
이때, 본 실시 형태에서, 데이터 처리 장치 (3)는 도시하지 않은 프로세서와 RAM (Random Access Memory)와 전용 프로그램이 기억된 ROM (Read Only Memory)를 포함하고 있고, 프로세서에 의하여 전용 프로그램을 실행함으로써 상기 각부의 제 어를 실시한다.
또한, 도 46 및 도 47에 기초하여, 데이터 처리 시스템 (7)의 더 구체적인 동작을 설명한다. 도 46은 데이터 처리 시스템 (7)의 초기 데이터베이스의 구축 처리 및 데이터 평가 처리의 흐름을 나타내는 도면이며, 도 47은 음향 공간 지도를 2차원 투영하여 표시한 일례를 나타내는 도면이다.
이하, 도 46a 및 도 47에 기초하여, 특징량 데이터가 음성 데이터인 경우의 초기 데이터베이스의 구축 처리 및 데이터 평가 처리의 제1 실시 형태를 설명한다. 먼저, 도 46a의 (1) 내지 (4)에 도시한, 평가 처리를 행하기 위한 초기 데이터베이스의 생성처리의 흐름을 설명한다. 이때, 이미 데이터베이스가 생성되어 있는 경우에는 이 (1) 내지 (4)의 처리는 필요가 없다.
(1) 제2 데이터 취득부 (3b)에 의하여, 등록 대상 화자 N명 (N는 정수)의 음성을 취득한다.
(2) 제2 데이터 취득부 (3b)에 의하여, 취득한 음성의 음향 분석을 실시하여 특징량의 추출을 실시한다.
(3) 제2 데이터 취득부 (3b)에 의하여, 추출된 특징량에 기초하여 특정 화자 및 불특정 화자용 HMM를 생성하고, 각 특정 화자용의 패턴 모델 및 불특정 화자의 패턴 모델을 생성하기 위하여 소정의 학습 수법을 사용하여 상기 각 HMM의 학습을 실시한다.
(4) 제2 데이터 취득부 (3b)에 의하여, 특정 화자 N명분의 패턴 모델 (HMM) 및 불특정 화자의 패턴 모델 (HMM)을 데이터 기억부 (3i)에 기억한다.
다음으로, 도 46a의 (5) 내지 (10)에 나타내는 음성 데이터의 평가 처리의 흐름을 설명한다.
(5) 제2 데이터 취득부 (3b)에 의하여, 정보처리 단말 (2)로부터 시스템 이용자의 음성 데이터를 취득한다.
(6) 제2 데이터 취득부 (3b)에 의하여, 취득한 음성 데이터의 분석을 실시하고 특징량의 추출을 실시한다.
(7) 위치 산출부 (3d)에 의하여, 추출한 특징량 데이터와 복수의 특정 화자의 패턴 모델의 우도를 산출한다. 이때, 발성 내용은 이미 알려진 것으로 한다 (발성시에 입력되어 있는 것으로 한다).
(8) 위치 산출부 (3d)에 의하여, 산출된 우도로부터 가장 우도가 높은 패턴 모델을 선택하고, 이 패턴 모델과 다른 특정 화자의 패턴 모델의 수학적 거리를 산출한다. 이때, 상위 M개 (M는 정수 (M<N))의 패턴 모델을 사용하여도 되고, 이 경우에는 선택된 M개의 패턴 모델 각각에 대하여, 다른 패턴 모델과의 수학적 거리를 산출한다. 이때, 본 실시 형태에서는 오퍼레이터가 음성 데이터의 위치 관계를 시각적으로 판단 가능하도록, 수학적 거리가 산출된 시점에서, 후술하는 (11) 및 (12)의 처리에 의하여, 이들 산출된 수학적 거리에 기초하는 2차원 투영화에 의하여, 그 좌표 데이터를 도 47에 도시하는 바와 같이 표시하는 것이 가능하게 되어 있다.
(9) 데이터 평가부 (3e)에 의하여, 상기 산출된 수학적 거리에 기초하여, 음성 데이터의 가치 평가를 실시한다. 즉, 상기한 바와 같이 산출된 대상 화자용 패턴 모델의 거리가 역치 (Th) 이하인 것이 다수인 경우에는 대상 화자용 패턴 모델의 주변에 음향적 특징이 유사한 패턴 모델이 다수 있다고 판단한다. 한편, 역치 (Th) 이하인 것이 소수인 경우에는 주변에 음향적 특징이 유사한 패턴 모델은 소수밖에 없다고 판단한다.
이것으로부터, 주변에 음향적 특징이 유사한 패턴 모델이 다수 있는 경우에는 그 음성 데이터는 희소 가치가 낮다고 평가되고, 주변에 음향적 특징이 유사한 패턴 모델이 소수밖에 없는 경우에는 그 음성 데이터는 희소 가치가 높다고 평가된다.
평가 결과에 관한 정보는 제2 데이터 통신부 (3a)를 거쳐, 예를 들면 대상 화자가 시스템 이용자 A이면, 정보처리 단말 (2A)에 송신된다.
이때, 본 실시 형태에서, 평가 결과에 관한 정보는, 희소 가치가 높다고 평가된 경우에는 2차원 투영화된 위치 관계 정보, 평가 결과를 나타내는 정보 (수치나 희소 가치의 높고 낮음 등) 및 취득 희망인 것을 나타내는 정보가 되고, 한편 희소 가치가 낮다고 평가되었을 경우에는 2차원 투영화된 위치 관계 정보, 평가 결과를 나타내는 정보 (수치나 희소 가치의 높고 낮음 등), 취득 희망은 아닌 것을 나타내는 정보 및 취득 희망의 음성 데이터의 특성을 나타내는 정보가 된다. 또한, 취득 희망의 음성 데이터의 특성을 나타내는 정보라 함은, 예를 들면 속삭이는 음성이나 잠자는 자세로 말하는 음성 등의 발화 방법을 나타내는 정보 등이다.
또한, 상기한 바와 같이 상위 M개의 패턴 모델에 대하여 수학적 거리를 산출하였을 경우, 이것은 선택된 패턴 모델이 잘못 선택되었을 경우를 고려한 것이고, 이 경우에는 각각에 대하여 역치 (Th)의 거리 내에 다른 화자가 얼마나 존재하는 지를 조사하여 그 평균에 대하여 상기와 같은 평가를 실시한다.
이때, 본 실시 형태에서, 상기 평가는 데이터 평가부 (3e)에 의하여 자동적으로 하고 있으나, 2차원 투영화에 의하여 표시된 음향 공간이나 그 외의 표시 정보로부터 오퍼레이터가 스스로 평가하도록 하여도 좋다.
또한, 음성 데이터가 희소 가치가 높다고 평가되었을 경우에는 도 46 (a)에서의 처리 (10)로 진행한다.
(10) 제2 교섭부 (3g)에 의하여, 취득 희망의 음성 데이터의 송신원인 정보처리 단말 (2)과의 사이에 교섭 처리를 실시한다. 본 실시 형태에서는 데이터 처리 장치 (3)로부터 미리 설정된 메시지를 네트워크 (4)를 사이에 두고 정보처리 단말 (2)에 송신하고, 그 메시지에 대한 시스템 이용자로부터의 응답을 마찬가지로 네트워크 (4)를 사이에 두고 데이터 처리 장치 (3)에 의하여 수신한다. 이때, 예를 들면 어떻게 해서라도 입수하고 싶은 음성 데이터에 대하여, 시스템 이용자가 제공을 거부할 경우에 대비하여, 데이터 처리 장치 (3) 및 정보처리 단말 (2)의 사이에 네트워크 (4)를 통한 메시지 교환을 실시함으로써, 시스템 이용자와 오퍼레이터의 사이에 메시지에 의한 교섭을 실시할 수 있도록 하여도 좋다.
(11) 제2 정보 표시부 (3f)에 의하여, 상기 산출된 수학적 거리에 기초하여, 공지의 새먼법에 의하여 모든 패턴 모델 (HMM)의 거리 관계를 2차원으로 투영한다.
(12) 제2 정보 표시부 (3f)에 의하여, 상기 2차원으로 투영된 각 HMM의 좌표 정보를 도 47 (a), 도 47 (b)에 나타내는 바와 같이 평면상의 점으로서 표시한다. 도 47 (a)는 HMM를 단어 (또는 문장) 단위로 취급하였을 경우의 HMM의 각 좌표를 점으로 표시한 것이다. 즉, 하나 하나의 점이 각 화자의 패턴 모델이 되고, 점과 점 사이의 거리가 양자의 유사도를 나타낸다 (양자의 거리가 짧은 것이 유사도가 높다).
따라서, 도에서 점 40과 같은 위치의 점은 바로 옆 주변에 많은 점이 있기 때문에, 비슷한 음향적 특징을 가지는 패턴 모델이 많고, 이 패턴 모델의 희소 가치는 낮다는 것을 시각적으로 평가할 수 있다.
한편, 도에서, 점 41과 같은 위치의 점은 바로 옆 주변에는 다른 점은 없고, 음향 공간 내의 변두리에 위치하고 있으므로 희소 가치가 높다고 시각적으로 평가할 수 있다.
또한, 도 47 (b)는 HMM를 음소 단위 (도에서는 「a」, 「i」, 「u」, 「e」, 「o」)로 취급하였을 경우의 각 HMM의 음소 마다의 각 좌표를 점으로 표시한 것이다. 이 경우에는 음성 데이터의 가치를 음소마다 시각적으로 평가하는 것이 가능하다.
또한, 상기한 바와 같이, 패턴 모델의 성기고 조밀한 관계나 평가 결과를 수치화한 수치 그 자체나 상기 수치를 그래프로 한 것 등을 표시한다. 도 47 (a)에 나타내는 바와 같이, 시스템 이용자 (A)의 음성 데이터가 ☆42의 위치에 있었을 경우에는, 예를 들면, 도의 오른쪽 아래에 나타내는 바와 같이, 그 음성 데이터의 가치도를 수치 70으로 표시한다. 가치도의 평균값이 57이라 하면 음성 데이터의 가치는 평균값보다 높으면 간단하고 쉽게 판단할 수 있다.
(13) 상기 (10)의 교섭 처리에 의하여, 시스템 이용자와의 사이에 교섭이 성립하였을 경우에는 제2 데이터 제어부 (3c) 및 데이터 기억부 (3i)에 의하여, 대상의 음성 데이터를 기억하는 처리를 실시한다. 이때, 본 실시 형태에서, 음성 데이터는 HMM에 의하여 패턴 모델화하고 나서, 상기 생성된 초기 데이터 베이스에 추가하는 형태로 기억된다. 또한, 도 46 (b) 및 도 47에 기초하여, 특징량 데이터로부터 생성된 패턴 모델이 음성 데이터인 경우의 초기 데이터 페이스의 구축 처리 및 조합 성능 판단 처리의 제2 실시 형태를 설명한다.
먼저, 도 46b의 (1) 내지 (4)에 나타내는 화자 조합을 행하기 위한 데이터베이스의 생성 처리는 상기 제1 실시 형태에서의 도 46 (a)의 (1) 내지 (4)와 마찬가지이므로 기재를 생략한다.
다음으로, 도 46b의 (5) 내지 (11)에 나타내는 음성 데이터의 평가 처리의 흐름을 설명한다.
(5) 제2 데이터 취득부 (3b)에 의하여, 정보처리 단말 (2)로부터 시스템 이용자의 음성 데이터를 취득한다.
(6) 제2 데이터 취득부 (3b)에 의하여, 취득한 음성 데이터의 분석을 실시하고 특징량의 추출을 실시한다.
(7) 제2 데이터 취득부 (3b)에 의하여, 추출된 특징량 데이터에 기초하여 취득한 음성의 HMM를 구성하고, 소정의 학습 수법에 의하여 학습을 실시한다.
(8) 제2 데이터 취득부 (3b)에 의하여, HMM의 학습에 의하여, 대상 화자의 음성의 패턴 모델을 생성하고 데이터 기억부 (3i)에 기억한다.
(9) 위치 산출부 (3d)에 의하여, 상기 생성된 대상 화자의 패턴 모델과 다른 특정 화자의 패턴 모델의 수학적 거리를 산출한다. 이때, 본 실시 형태에서는 오퍼레이터가 음성 데이터의 위치 관계를 시각적으로 판단할 수 있도록, 수학적 거리가 산출된 시점에서, 후술하는 (12) 및 (13)의 처리에 의하여, 이들 산출된 수학적 거리에 기초하는 2차원 투영화에 의하여, 그 좌표 데이터를 도 55에 나타내는 바와 같이 표시하는 것이 가능하도록 되어 있다.
(10) 데이터 평가부 (3e)에 의하여, 상기 산출된 수학적 거리에 기초하여, 음성 데이터의 가치 평가를 실시한다. 즉, 상기한 바와 같이 산출된 대상 화자용 패턴 모델의 거리가 역치 (Th)이하인 것이 다수였을 경우에는 대상 화자용 패턴 모델의 주변에 음향적 특징이 유사한 패턴 모델이 다수였다고 판단한다. 한편, 역치 (Th) 이하의 것이 소수인 경우에는 주변에 음향적 특징이 유사한 패턴 모델은 소수밖에 없다고 판단한다.
이것으로부터, 주변에 음향적 특징이 유사한 패턴 모델이 다수 있는 경우에는 그 음성 데이터는 희소 가치가 낮다고 평가되고, 주변에 음향적 특징이 유사한 패턴 모델이 소수밖에 없는 경우에는 그 음성 데이터는 희소 가치가 높다고 평가된다.
평가 결과에 관한 정보는 제2 데이터 통신부 (3a)를 개입시키고, 예를 들면 대상 화자가 시스템 이용자 B이면, 정보처리 단말 (2B)에 송신된다.
또한, 상기한 바와 같이 상위 M개의 패턴 모델에 대하여 수학적 거리를 산출한 경우, 이것은 선택된 패턴 모델이 잘못 선택되었을 경우를 고려한 것으로서, 이 경우에는 각각에 대하여 역치 (Th)의 거리 내에 다른 화자가 얼마나 존재하는 지를 조사하여, 그 평균에 대하여 상기와 같은 평가를 실시한다.
이때, 본 실시 형태에서, 상기 평가는 데이터 평가부 (3e)에 의하여 자동적으로 실시하고 있으나, 2차원 투영화에 의하여 표시된 음향 공간이나 그 외의 표시 정보로부터 오퍼레이터가 스스로 평가하도록 하여도 좋다.
또한, 음성 데이터가 희소 가치가 높다고 평가되었을 경우에는 도 46 (b)에서의 처리 (11)로 진행한다.
(11) 제2 교섭부 (3g)에 의하여, 취득 희망 음성 데이터의 송신원인 정보처리 단말 (2)과의 사이에 교섭 처리를 실시한다. 본 실시 형태에서는 데이터 처리 장치 (3)로부터 미리 설정된 메시지를 네트워크 (4)를 거쳐 정보처리 단말 (2)에 송신하고, 그 메시지에 대한 시스템 이용자로부터의 응답을 마찬가지로 하여 네트워크 (4)를 거쳐 데이터 처리 장치 (3)에 의하여 수신한다. 이때, 예를 들면 어떻게 해서라도 입수하고 싶은 음성 데이터에 대하여, 시스템 이용자가 제공을 거부하였을 경우에 대비하여, 데이터 처리 장치 (3) 및 정보처리 단말 (2)의 사이에 네트워크 (4)를 통한 메시지의 교환을 실시함으로써, 시스템 이용자와 오퍼레이터와의 사이에 메시지에 의한 교섭 (예를 들면, 금액 교섭 등)을 실시할 수 있도록 하여도 좋다.
이때, 도 46 (b)의 (12), (13)에 나타내는 2차원 투영화에 의한 음향 공간의 표시 처리 및 평가 결과의 표시 처리는 상기 제1 실시 형태에서 도 46 (a)의 (11), (12)와 마찬가지 처리이므로 기재를 생략한다.
또한, 도 48에 기초하여, 정보처리 단말 (2)의 동작 처리의 흐름에 대하여 설명한다. 도 48은 정보처리 단말 (2)의 동작 처리를 나타내는 플로차트이다.
도 48에 나타내는 바와 같이, 우선 스텝 S900로 진행하고, 제1 데이터 제어부 (2b)에서 , 음성 데이터의 취득 처리가 개시되었는 지 여부를 판정하고, 개시되었다고 판정하였을 경우 (Yes)에는 스텝 S902로 진행하고, 그렇지 않은 경우 (No)에는 개시될 때까지 판정 처리를 속행한다.
스텝 S902로 진행하였을 경우에는 제1 데이터 취득부 (2a)에 의하여, 대상 화자 (본 실시 형태에서는 시스템 이용자 (A 내지 C 중 어느 한 명)가 발성한 음성 (아날로그 데이터)을 취득하여 스텝 S904로 진행한다.
스텝 S904에서는 제1 데이터 취득부 (2a)에서, 취득한 음성 (아나로그 데이터)을 디지털 데이터로 변환하여 스텝 S906으로 진행한다.
스텝 S906에서는 제1 데이터 제어부 (2b)에 의하여, 상기 디지털 데이터로 변환된 음성 데이터를, 제1 데이터 통신부 (2c)를 거쳐 데이터 처리 장치 (3)에 송신하고 스텝 S908로 진행한다.
스텝 S908에서는 제1 데이터 제어부 (2b)에서, 데이터 처리 장치 (3)로부터 상기 송신한 음성 데이터에 대한 평가 결과를, 제1 데이터 통신부 (2c)를 통하여 수신하였는지 여부를 판정하고, 수신하였다고 판정하였을 경우 (Yes)에는 스텝 S910로 진행하고, 그렇지 않은 경우 (No)에는 수신할 때까지 판정 처리를 속행한다.
스텝 S910로 진행하였을 경우에는 제1 데이터 제어부 (2b)의 제어 명령에 따 르고, 제1 정보 표시부 (2d)에서, 상기 수신한 평가 결과를 표시하고 스텝 S912로 진행한다.
스텝 S912에서는 제1 데이터 제어부 (2b)에서, 상기 수신한 평가 결과로부터 교섭 요구가 있는지 여부를 판정하고, 교섭 요구가 있다고 판정하였을 경우 (Yes)에는 스텝 S914로 진행하고, 그렇지 않은 경우 (No)에는 스텝 S918로 진행한다.
스텝 S914로 진행하였을 경우에는 제1 데이터 제어부 (2b), 제1 교섭부 (2e) 및 제1 데이터 통신부 (2c)에서, 데이터 처리 장치 (3)와의 사이에서 네트워크 (4)를 통한 음성 데이터 제공 가부의 교섭을 실시하는 교섭 처리를 개시하고 스텝 S916로 진행한다.
스텝 S916에서는 제1 데이터 제어부 (2b), 제1 교섭부 (2e) 및 제1 데이터 통신부 (2c)에서, 대상 화자로부터의 입력 정보에 기초하여, 음성 데이터의 제공 가부의 판단 결과를 데이터 처리 장치 (3)에 송신하고 스텝 S918로 진행한다.
스텝 S918에서는 제1 데이터 제어부 (2b)에서, 음성 데이터의 취득 처리를 종료하는지 여부를 판정하고, 종료한다고 판정하였을 경우 (Yes)에는 스텝 S900으로 진행하고, 그렇지 않은 경우 (No)에는 스텝 S902로 진행한다.
이때, 종료의 판단은 도시하지 않는 마우스나 키보드 등의 입력 디바이스에 의한 시스템 이용자로부터의 입력 정보에 기초하여 행하여진다.
또한, 도 49에 기초하여, 데이터 처리 장치 (3)의 동작 처리의 흐름을 설명한다. 도 49는 데이터 처리 장치 (3)의 동작 처리를 나타내는 플로차트이다.
도 49에 나타내는 바와 같이, 우선 스텝 S1000으로 진행하고, 제2 데이터 제 어부 (3c)에서, 제2 데이터 통신부 (3a)를 사이에 두고 정보처리 단말 (2)로부터 음성 데이터를 취득하였는지 여부를 판정하고, 취득하였다고 판정하였을 경우 (Yes)에는 스텝 S1002로 진행하고, 그렇지 않은 경우 (No)에는 취득할 때까지 판정 처리를 속행한다.
스텝 S1002로 진행하였을 경우에는 제2 데이터 취득부 (3b)에 대하여, 취득한 음성의 특징량을 추출하고 스텝 S1004로 진행한다. 이때, 상기 제1 실시 형태에서는 상기 우도 계산을 실시하고, 복수의 화자의 패턴 모델 중에서 가장 음향적 특징이 유사한 패턴을 선택하고, 이것을 취득한 음성의 패턴 모델로 하는 한편, 상기 제2 실시 형태의 경우에는 추출한 특징량으로부터 취득한 음성 패턴 모델을 생성한다.
스텝 S1004에서는 위치 산출부 (3d)에서, 취득한 음성의 패턴 모델과 다른 복수의 화자의 패턴 모델의 수학적 거리를 산출하여 스텝 S1006로 진행한다.
스텝 S1006에서는 데이터 평가부 (3e)에서, 상기 산출된 수학적 거리에 기초하여, 취득한 음성 데이터의 가치를 평가하여 스텝 S1008로 진행한다.
스텝 S1008에서는 제2 정보 표시부 (3f)에서, 상기 평가 결과를 표시하여 스텝 S1010로 진행한다.
스텝 S1010에서는 제2 데이터 제어부 (3c)에 의하여, 제2 데이터 통신부 (3a)를 거쳐, 상기 평가 결과를 대상의 정보처리 단말 (2)에 송신하고 스텝 S1012로 진행한다.
스텝 S1012에서는 제2 데이터 제어부 (3c)에서, 상기 평가에 의하여, 취득한 음성 데이터의 제공 가부의 교섭을 실시하는지 여부를 판정하고, 교섭을 실시한다고 판정한 경우 (Yes)에는 스텝 S1014로 진행하고, 그렇지 않은 경우 (No)에는 스텝 S1000로 진행한다.
스텝 S1014로 진행하였을 경우에는 제2 데이터 제어부 (3c), 제2 교섭부 (3g) 및 제2 데이터 통신부 (3a)에서, 정보처리 단말 (2)과의 사이의 네트워크 (4)를 개입시킨 상기 교섭 처리를 실시하고 스텝 S1016로 진행한다.
스텝 S1016에서는 제2 데이터 제어부 (3c)에서, 대상의 정보처리 단말 (2)로부터 교섭 결과를 취득하였는지 여부를 판정하고, 취득하였다고 판정하였을 경우 (Yes)에는 스텝 S1018로 진행하고, 그렇지 않은 경우 (No)에는 취득할 때까지 판정 처리를 속행한다.
스텝 S1018로 진행하였을 경우에는 제2 데이터 제어부 (3c)에서, 상기 취득한 교섭 결과에 기초하여, 교섭이 성립되었는지 여부를 판정하고, 교섭이 성립되었다고 판정하였을 경우 (Yes)에는 스텝 S1020로 진행하고, 그렇지 않은 경우 (No)에는 스텝 S1022로 진행한다.
스텝 S102O로 진행하였을 경우에는 제2 데이터 제어부 (3c)에 의하여, 교섭이 성립한 음성 데이터를 데이터 기억부 (3i)에 기억하고 스텝 S1000로 진행한다.
한편, 스텝 S1022로 진행하였을 경우에는 제2 데이터 제어부 (3c)에서, 교섭이 결렬된 음성 데이터를 파기하고 스텝 S1000로 진행한다.
또한, 도 50에 기초하여, 제2 정보 표시부 (3f)에서의 2차원 투영화에 의한 좌표 정보의 표시 처리의 흐름을 설명한다. 도 50은 제2 정보 표시부 (3f)에서 2차 원 투영화에 의한 좌표 정보의 표시 처리를 나타내는 플로차트이다.
도 5O에 나타내는 바와 같이, 우선 스텝 S1100로 진행하고, 위치 산출부 (3d)에서 수학적 거리의 산출이 완료되었는지 여부를 판정하고, 완료되었다고 판정된 경우 (Yes)에는 스텝 S1102로 진행하고, 그렇지 않은 경우 (No)에는 완료할 때까지 대기한다.
스텝 S1102로 진행하였을 경우에는 공지의 새먼법을 사용하여, 대상 화자의 음성의 패턴 모델과 다른 복수의 화자의 패턴 모델과 수학적 거리를 2차원 투영화하여 스텝 S1104로 진행한다.
스텝 S1104에서는 상기 2차원 투영화 처리에 의하여 2차원의 정보가 된 수학적 거리에 기초하여, 각 패턴 모델의 좌표 정보를 평면상의 점으로서 표시하고 처리를 종료한다.
이상, 제2 데이터 취득부 (3b)에 의하여, 대상 화자의 음성 데이터를 취득하고, 위치 산출부 (3d) 및 데이터 평가부 (3e)에 의하여, 상기 음성 데이터의 가치를 평가하고, 제2 정보 표시부 (3f)에 의하여, 이 평가 결과와, 대상 화자의 음성의 패턴 모델과 다른 복수의 화자의 패턴 모델의 위치 관계를 2차원의 좌표로서 표시하는 것이 가능하다.
또한, 정보처리 단말 (2)의 제1 교섭부 (2e) 및 데이터 처리 장치 (3)의 제2 교섭부 (3g)에 의하여, 음성 데이터의 제공 가부에 관한 교섭 처리를 실시하는 것이 가능하다.
또한, 데이터 처리 장치 (3)은 교섭이 성립한 음성 데이터를 데이터 기억부 (3i)에 기억하는 것이 가능하다.
이때, 도 44에 나타내는 제1 데이터 취득부 (2a), 제1 데이터 제어부 (2b) 및 제1 데이터 통신부 (2c)에 의한, 음성 데이터의 취득 처리 및 송신 처리는 청구 범위 제50항 또는 54항에 기재된 음성 데이터 송신 수단에 대응하고, 제1 데이터 제어부 (2b) 및 제1 정보 표시부 (2d)에 의한 평가 결과에 관한 정보의 표시 처리는 청구 범위 제50항 또는 54항에 기재된 평가 정보 표시 수단에 대응한다.
또한, 도 45에 나타내는 제2 데이터 통신부 (3a) 및 제2 데이터 취득부 (3b)에 의한 음성 데이터의 취득 처리는 청구 범위 제38, 43, 44 및 53항 중 어느 하나의 항에 기재된 음성 데이터 취득 수단에 대응하고, 위치 산출부 (3d)는 청구 범위 제38, 39, 41, 43, 44 및 53항 중 어느 하나의 항에 기재된 위치 산출 수단에 대응하고, 데이터 평가부 (3e)는 청구 범위 제38 내지 42, 47, 48 및 53항 중 어느 하나의 항에 기재된 음성 데이터 평가 수단에 대응하고, 제2 정보 표시부 (3f)는 청구 범위 제38, 47, 48 및 53항 중 어느 하나의 항에 기재된 평가 결과 표시 수단, 및 청구 범위 제38, 45 및 53항 중 어느 하나의 항에 기재된 위치 관계 정보 표시 수단에 대응하고, 제2 교섭부 (3g)는 청구 범위 제49항에 기재된 교섭 수단에 대응하고, 데이터 기억부 (3i)는 청구 범위 제49항에 기재된 음성 데이터 기억 수단에 대응한다.
[제5의 실시 형태]
이하, 본 발명의 제5의 실시 형태를 도면에 기초하여 설명한다. 도 51 내지 59는 본 발명에 관한 데이터 처리 시스템의 제5 실시 형태를 나타내는 도면이다.
먼저, 본 발명에 관한 데이터 처리 시스템의 구성을 도 51에 기초하여 설명한다. 도 51은 본 발명에 관한 데이터 처리 시스템의 구성을 나타내는 블록도이다.
도 51에 나타내는 바와 같이, 데이터 처리 시스템 (8)은 정보처리 단말 (9A 내지 9C)과 데이터 처리 장치 (10)와 네트워크 (11)를 포함하는 구성으로 되어 있다.
정보처리 단말 (9A 내지 9C)는 시스템 이용자 (A 내지 C)의 관리하에 있는 단말로서, 각 시스템 이용자의 음성 데이터를 취득하고, 이것을 네트워크 (11)를 거쳐 데이터 처리 장치 (10)에 송신하는 기능과 데이터 처리 장치 (10)로부터 취득한 정보를 표시하는 기능을 포함하고 있다.
본 실시 형태에서는 PC나 WS 등의 정보처리 장치에, 상기 기능을 실현하기 위한 하드웨어 및 소프트웨어를 포함한 것이다.
또한, 상세한 구성은 후술한다.
데이터 처리 장치 (10)은 정보처리 단말 (9A 내지 9C)로부터 네트워크 (11)을 통하여 취득한 음성 데이터와 다른 화자의 음성 데이터의 유사성을 평가하는 기능과, 복수의 화자의 패턴 모델로부터 구성된 음향 공간 내에서의 상기 취득한 음성 데이터의 위치 정보 및 상기 평가 결과를 표시하는 기능을 포함하고 있다. 또한, 상세한 구성은 후술한다.
네트워크 (11)은 LAN나 WAN 등의 복수의 정보처리 기기를 상호 데이터 통신 가능하게 접속하는 네트워크로서, 본 실시 형태에서는 WAN의 하나인 인터넷을 적용한다.
또한, 도 52에 기초하여 정보처리 단말 (9A 내지 9C)의 상세한 구성을 설명한다. 도 52는 정보처리 단말 (9)의 상세한 구성을 나타내는 도면이다. 이때, 본 실시 형태에서, 정보처리 단말 (9A 내지 9C) (그 밖에도 다수의 단말이 존재하여도 좋다)는 동일한 구성으로 되어 있는데, 이들을 정리하여 정보처리 단말 (9)로서 설명한다.
또한, 이후, 정보처리 단말 (9A 내지 9C)에 공통된 사항을 설명하는 경우에는 이들을 총칭한 정보처리 단말 (9)에 대하여 설명한다. 또한, 도 51에 나타내는 바와 같이, 정보처리 단말은 (9A 내지 9C)의 3대에 한정하지 않고, 그 밖에도 다른 시스템 이용자의 관리하에 있는 정보처리 단말이 접속된 구성으로 하여도 좋다.
도 52에 나타내는 바와 같이, 정보처리 단말 (9)은 제1 데이터 취득부 (9a)와, 제1 데이터 제어부 (9b)와, 제1 데이터 통신부 (9c)와, 제1 정보 표시부 (9d)와, 조작부 (9e)를 포함하는 구성으로 되어 있다.
제1 데이터 취득부 (9a)는 마이크 등의 대상 화자가 발성한 음성 (아날로그 데이터)을 취득하는 수단과 A/D변환기 등의 상기 아날로그 데이터인 음성을 디지털 데이터로 변환하는 수단을 포함한 것이다.
제1 데이터 제어부 (9b)는 제1 데이터 취득부 (9a)에서 취득된 음성 데이터를 제1 데이터 통신부 (9c)를 거쳐 데이터 처리 장치 (10)에 송신하는 처리를 제어하는 기능, 데이터 처리 장치 (10)로부터 취득한 정보를 제1 정보 표시부 (9d)에 의하여 표시하는 처리를 제어하는 기능 등의, 각부의 처리를 제어하는 기능을 하는 것이다.
제1 데이터 통신부 (9c)는 제1 데이터 제어부 (9b)의 제어에 의하여, 네트워크 (11)을 개입시키고, 데이터 처리 장치 (10)와의 사이에서 각종 데이터 통신을 실시하는 기능을 가진 것이다.
제1 정보 표시부 (9d)는 제1 데이터 제어부 (9b)의 제어에 의하여, 데이터 처리 장치 (10)로부터 취득한 각종 정보를 표시하는 등, 정보의 표시 처리를 실시하는 기능을 가진 것이다.
조작부 (9e)는 시스템 이용자가 특정 화자를 지정하거나 음성 데이터 처리의 제어 프로그램에 대한 설정을 하기 위한 정보 입력을 행하기 위한 것이다.
또한, 도 53에 기초하여, 데이터 처리 장치 (10)의 상세한 구성을 설명한다. 도 53은 데이터 처리 장치 (10)의 상세 구성을 나타내는 블록도이다.
도 53에 나타내는 바와 같이, 데이터 처리 장치 (10)는 제2 데이터 통신부 (10a)와, 제2 데이터 취득부 (10b)와, 제2 데이터 제어부 (10c)와, 위치 산출부 (10d)와, 유사 화자 검출부 (10e)와, 유사성 평가부 (10f)와 제2 정보 표시부 (10g)와, 교정 정보 생성부 (10h)와, 데이터 기억부 (10i)를 포함하는 구성으로 되어 있다.
제2 데이터 통신부 (10a)는 제2 데이터 제어부 (10c)의 제어에 의하여, 네트워크 (11)를 통하여, 정보처리 단말 (9)과의 사이에 각종 데이터 통신을 실시하는 기능을 가진 것이다.
제2 데이터 취득부 (10b)는 제2 데이터 통신부 (10a)를 거쳐, 정보처리 단말 (9)로부터의 음성 데이터를 취득하는 기능을 가진 것으로, 취득한 음성 데이터를 해석하여 그 특징 부분인 특징량 데이터를 추출하는 수단도 포함하고 있다. 또한, 이 추출된 특징량 데이터에 기초하여, HMM를 구성함으로써 대상 화자의 패턴 모델을 생성하는 수단도 포함하고 있다. 또한, 본 실시 형태에서는 상기 한 특징량 데이터 및 대상 화자의 패턴 모델을 모두 음성 데이터라고 부른다.
제2 데이터 제어부 (10c)는 데이터 처리 장치 (10)의 각 구성요소 간의 데이터의 수수를 제어하거나 처리의 흐름을 제어하거나 하는 기능을 포함한 것이다.
위치 산출부 (10d)는 취득한 음성 데이터와 복수의 화자의 패턴 모델과의 위치 관계를 산출하는 기능을 가진 것이다.
즉, 특징량 데이터가 음성 데이터인 경우에는 이 음성 데이터와 후술하는 데이터 기억부 (10i)에 기억된 복수의 화자의 패턴 모델의 우도 계산을 실시하고, 이 산출 결과에 기초하여, 복수의 화자의 패턴 모델 중에서 가장 우도가 높은 패턴 모델을 선택하고, 이 패턴 모델을 상기 대상 화자의 음성 데이터와 등가인 것으로서 취급한다. 이때, 본 실시 형태에서, 상기 복수의 화자의 패턴 모델은 HMM에 의하여 생성되어 있고, 이들 중에서 특정 패턴 모델 (대상 화자의 음성 데이터에 대응하는 패턴 모델이어도 좋다)을 기준으로 하여 각각 상대 위치가 결정된다. 또한, 이 상대 위치 정보를 가지는 패턴 모델에 의하여 음향 공간이 형성된다.
따라서, 이 경우에는 선택된 패턴 모델의 상대 위치 정보가 대상 화자의 음성 데이터의 위치 정보가 된다.
한편, 특징량 데이터로부터 HMM를 구성함으로써 생성된 패턴 모델이 음성 데이터인 경우에는 이 음성 데이터와 상기 기준이 되는 패턴 모델의 상대 위치를 산 출하고, 이 산출 결과를 음성 데이터의 위치 정보로 한다.
유사 화자 검출부 (10e)는 특징량 데이터가 음성 데이터인 경우에는 선택된 패턴 모델과 그 이외의 복수의 화자의 패턴 모델의 수학적 거리를 산출하고, 이 산출된 각 거리를, 미리 설정된 수학적 거리의 역치 (Th)와 비교하고, 상기 비교 결과에 기초하여 대상 화자의 음성 데이터로부터 역치 (Th)의 거리 내에 있는 음성 데이터를 검출하고, 그 음성 데이터에 대응하는 화자를 유사 화자로 하는 것이다.
예를 들면, 역치 (Th) 내에 존재하는 패턴 모델 중 대상 화자의 음성 데이터와 가장 가까운 위치에 있는 것에 대응하는 화자를 유사 화자로 하거나 대상 화자의 음성 데이터에 가까운 순서로 몇 가지 음성 데이터에 대응하는 화자를 유사 화자로 하거나 또는 역치 (Th) 내에 존재하는 패턴 모델이 하나도 없는 경우에는 역치를 변경하여 재차 비교 처리를 실시하거나 유사 화자가 없다고 판단하거나 한다. 이때, 본 실시 형태에서는 수학적 거리로서 상기 식 (8)에 나타내는 유클리드 거리 또는 상기 식 (9)에 나타내는 바타체리야 거리를 산출한다.
이때, 수학적 거리의 산출은 음소마다 실시하는 것이 가능하고, 유사 화자를 검출하는 처리도 음소마다 실시하는 것이 가능하다. 본 실시 형태에서는 이 처리 방법을, 시스템 이용자가 임의로 전환하여 설정하는 것이 가능하다.
유사성 평가부 (10f)는 조작부 (3h)에 의하여 특정 화자가 지정된 때에는, 이 특정 화자의 패턴 모델과 대상 화자의 음성 데이터의 수학적 거리를 산출하고, 이 산출된 거리에 기초하여 대상 화자의 음성과 특정 화자의 음성의 유사성을 평가하는 것이다.
이때, 음향 공간의 구축에서, 패턴 모델로서는 높은 목소리로 발성된 음성 데이터, 낮은 목소리로 발성된 음성 데이터, 빠른 속도로 발성된 음성 데이터, 느린 속도로 발성된 음성 데이터 등의 여러 종류의 발화 양식에 의하여 발성된 음성 데이터로 구성된 것을 이용한다.
따라서, 상기 유사성의 평가는 복수 종류의 발화 양식의 패턴 모델에 대하여 내려지게 된다.
제2 정보 표시부 (10g)는 유사 화자 검출부 (10e)의 검출 결과나 유사성 평가부 (10f)의 평가 결과 등의 정보를 표시하는 기능을 가진 것이다. 여기서 표시되는 정보로서는 예를 들면, 평가 결과를 수치화한 정보, HMM인 패턴 모델의 상기 산출된 수학적 거리의 관계를 바탕으로, 공지의 새먼법에 의하여, 상기 HMM의 거리 관계를 2차원에 투영한 것 등이 있다.
교정 정보 생성부 (10h)는 유사성 평가부 (10f)의 평가 결과에 기초하여, 대상 화자의 음성과 특정 화자의 음성의 유사성을 높이기 위하여, 대상 화자가 자기의 음성을 어떻게 교정하면 좋을지를 나타내는 교정 정보를 생성하는 것이다. 생성된 교정 정보는 제1 데이터 제어부 (9b) 및 제2 데이터 통신부 (10a)에 의하여, 대응하는 정보처리 단말 (9)에 송신된다. 이때, 교정 정보는 예를 들면, 미리 대상 화자의 발화시의 특징 데이터를 취득하여 두고, 이 특징 데이터와 평가 결과에 기초하여 생성되는 것으로, 대상 화자의 음성과 특정 화자의 음성과의 유사성을 높이기 위하여, 발성할 때의 입 모양을 어떻게 하면 좋은 지를 지시하는 정보나, 엑센트 위치를 지시하는 정보 등을 포함하는 것이다.
데이터 기억부 (10i)는 복수의 화자의 패턴 모델 등의 필요한 데이터를 기억하는 것이다.
이때, 본 실시 형태에서, 데이터 처리 장치 (10)은 도시하지 않는 프로세서와 RAM (Random Access Memory)와 전용 프로그램이 기억된 ROM (Read Only Memory)를 포함하고 있고 프로세서에 의하여 전용 프로그램을 실행함으로써 상기 각부의 제어를 실시한다.
또한, 도 54 내지 56에 기초하여, 데이터 처리 시스템 (8)의 더 구체적인 동작을 설명한다. 도 54는 데이터 처리 시스템 (8)의 초기 데이터베이스의 구축 처리 및 데이터 평가 처리의 흐름을 나타내는 도이고, 도 55는 음향 공간을 2차원 투영하여 표시한 일례를 나타내는 도면이며, (a)는 톤 HMM를 단어 (또는 문장) 단위로 취급하였을 경우의 HMM의 각 좌표를 점으로 표시한 것이고, (b)는 HMM를 음소 단위 (도에서는「a」,「i」,「u」,「e」,「o」)로 취급하였을 경우의 각 HMM의 음소 마다의 각 좌표를 점으로 표시한 것이고, 도 56은 발화 양식을 축의 요소로 하였을 때의 2차원 투영 표시의 일례를 나타내는 도면이다.
이하, 도 54 (a) 및 도 55에 기초하여, 특징량 데이터가 음성 데이터인 경우의 초기 데이터베이스의 구축 처리, 유사 화자의 검출 처리 및 유사성 평가 처리의 제1 실시 형태를 설명한다.
먼저, 도 54 (a)의 (1) 내지 (4)에 나타낸다, 평가 처리를 실시하기 위한 초기 데이터 페이스의 생성 처리의 흐름을 설명한다. 이때, 이미 데이터베이스가 생성되어 있는 경우에는 이하의 (1) 내지 (4)의 처리는 실시할 필요가 없다.
(1) 제2 데이터 취득부 (10b)에 의하여, 등록 대상 화자 N인 (N는 정수)의 음성을 취득한다. 상기한 바와 같이, 본 실시 형태에서는 높은 목소리에 의하여 발성된 음성, 낮은 목소리에 의하여 발성된 음성, 빠른 속도로 발성된 음성, 느린 속도로 발성된 음성 등의 다양한 종류의 발화 양식에 의하여 발성된 음성을 취득한다.
(2) 제2 데이터 취득부 (10b)에 의하여, 취득한 음성의 음향 분석을 실시하여 특징량의 추출을 실시한다.
(3) 제2 데이터 취득부 (10b)에 의하여, 추출한 특징량에 기초하여 특정 화자 및 불특정 화자용의 HMM를 생성하고, 각 특정 화자용의 패턴 모델 및 불특정 화자의 패턴 모델을 생성하기 위하여 소정의 학습 수법을 사용하여 상기 각 HMM의 학습을 실시한다.
(4) 제2 데이터 취득부 (10b)에 의하여, 특정 화자 N명분의 패턴 모델 (HMM) 및 불특정 화자의 패턴 모델 (HMM)을 데이터 기억부 (10i)에 기억한다.
다음으로, 도 54 (a)의 (5) 내지 (10)에 나타내는 유사 화자의 검출 처리 및 유사성의 평가 처리의 흐름을 설명한다.
(5) 제2 데이터 취득부 (10b)에 의하여, 정보처리 단말 (9)로부터 시스템 이용자의 음성 데이터를 취득한다.
(6) 제2 데이터 취득부 (10b)에 의하여, 취득한 음성 데이터의 분석을 실시하고 특징량을 추출한다.
(7) 위치 산출부 (10d)에 의하여, 추출한 특징량 데이터와 복수의 특정 화자 의 패턴 모델의 우도를 산출한다.
이때, 발성 내용은 이미 알려져 있는 것으로 한다 (발성시에 입력되어 있는 것으로 한다).
(8) 위치 산출부 (10d)에 의하여, 산출된 우도로부터 가장 우도가 높은 패턴 모델을 선택하고, 이 패턴 모델과 다른 특정 화자의 패턴 모델과의 수학적 거리를 산출한다. 이때, 상위 M개 (M는 정수 (M<N))의 패턴 모델을 사용하여도 되고, 이 경우에는 선택된 M개의 패턴 모델 각각에 대하여, 다른 패턴 모델과의 수학적 거리를 산출한다. 이때, 본 실시 형태에서는 오퍼레이터가 음성 데이터의 위치 관계를 시각적으로 판단할 수 있도록, 수학적 거리가 산출된 시점에서, 후술하는 (12) 및 (13)의 처리에 의하여, 이들 산출된 수학적 거리에 기초하여 2차원 투영화에 의하여, 그 좌표 데이터를 도 55에 나타내는 바와 같이 표시하는 것이 가능하게 되어 있다.
(9) 유사 화자 검출부 (10e)에 의하여, 상기 산출된 수학적 거리에 기초하여, 유사 화자의 검출 처리를 실시한다. 즉, 상기 산출된 대상 화자용의 패턴 모델로부터의 거리가 역치 (Th) 이내에 있는 패턴 모델을 검출한다. 예를 들면, 도 55 a에 나타내는 바와 같이, 대상 화자의 패턴 모델이 도중의 ×표로 표시한 좌표점 (50)인 경우에, 그 패턴 모델을 중심으로 한 반경 (Th)의 원 내에 있는 패턴 모델 중에서 유사 화자를 검출한다. 여기에서는 도 55a 중에서, 좌표점 (50)에 가까운 순서로 좌표점 (50a 내지 50c)의 3개의 패턴 모델을 선택한다.
이와 같이 하여, 선택된 패턴 모델에 대응하는 화자가 대상 화자의 음성에 유사한 음성을 가진 유사 화자로서 검출된다. 검출 결과는 제2 데이터 제어부 (10c) 및 제2 정보 표시부 (10g)에 의하여 표시된다.
또한, 상기 검출 결과에 관한 정보는 제2 데이터 통신부 (10a)를 개입시키고, 예를 들면 대상 화자가 시스템 이용자 (A)이면, 정보처리 단말 (9A)에 송신된다.
이때, 본 실시 형태에서, 검출 결과에 관한 정보는 선택된 패턴 모델에 대응하는 화자의 이름 등의 유사 화자에 관한 정보, 2차원 투영화된 대상 화자의 패턴 모델과 유사 화자의 패턴 모델의 위치 관계 정보가 된다.
또한, 상기한 바와 같이 상위 M개의 패턴 모델에 대하여 수학적 거리를 산출하였을 경우, 이것은 선택된 패턴 모델이 잘못 선택된 경우였을 경우 (선택된 패턴 모델이 대상 화자의 음성과 동떨어진 특징을 가지고 있었을 경우 등)를 고려한 것이고, 이 경우에는 각각에 대하여 역치 (Th)의 거리 내에 있는 타자의 패턴 모델을 선택하고, 이들을 유사 화자로 한다.
이때, 본 실시 형태에서, 상기 검출 처리는 유사 화자 검출부 (10e)에 의하여 자동적으로 처리하고 있으나, 2차원 투영화에 의하여 표시된 음향 공간이나 그 외의 표시 정보로부터 오퍼레이터가 스스로 판단하여 검출하도록 하여도 좋다.
또한, 상기 검출 처리는 상기 복수 종류의 발화 양식에 대응하는 패턴 모델에 대하여 각각 실시함으로써, 발화 양식 A의 음성은 유사하나, 발화 양식 B의 음 성은 유사하지 않다고 하는 등과 같이, 발화 양식의 종류 마다의 검출이 가능하고, 이러한 검출 결과로부터 유사한 음성이 가장 많은 화자를 유사 화자로 하거나 각각 의 발화 양식마다 가장 가까운 화자를 유사 화자로 하거나 하는 것이 가능하다.
또한, 유사 화자가 검출되어 그 데이터가 정보처리 단말 (9)에 송신되면, 정보처리 단말 (9)측에서는 취득한 정보가 표시된다. 즉, 상기 유사 화자에 관한 정보 및 2차원 투영화된 대상 화자의 패턴 모델과 유사 화자의 패턴 모델의 위치 관계 정보가 표시된다. 이것에 의하여, 시스템 이용자는 조작부 (9e)의 조작에 의하여, 표시된 정보를 보고, 음성을 흉내낼 특정 화자를 지정한다. 지정된 정보는 데이터 처리 장치 (10)에 송신되어 도 54 (a)에서의 처리 (10)로 진행한다.
(10) 유사성 평가부 (10f)에 의하여, 시스템 이용자 (대상 화자)에 의하여 지정된 특정 화자의 패턴 모델과 대상 화자의 패턴 모델과의 유사성을 평가한다.
예를 들면, 대상 화자의 패턴 모델과 특정 화자의 패턴 모델과의 수학적 거리에 기초하여, 양자 사이의 거리가 짧으면 유사성이 높고, 한편 거리가 길면 유사성은 낮다는 평가를 한다.
본 실시 형태에서는 양자의 좌표가 일치하였을 때를 유사율 10O% (완전 동일)로 하고, 대상 화자의 좌표점 (52)으로부터 거리 S 이상의 위치에 있는 패턴 모델을 특정 화자의 패턴 모델과의 유사율 0% (전혀 유사하지 않음)로 하고, 도 55 (a)에 나타내는 바와 같이, 대상 화자의 좌표 (52)로부터 특정 화자의 좌표점 (52a)까지의 거리를 유사율 (%)로 표시한 것을 평가 결과로서 표시한다.
이때, 유사성의 평가 처리는 특정 화자가 상기 복수 종류의 발화 양식에 대응하는 패턴 모델에 대하여 각각 실시한다. 또한, 평가 결과에 관한 정보는 제2 데이터 통신부 (10a)를 개입시키고, 예를 들면 대상 화자가 시스템 이용자 B이면, 정 보처리 단말 (9B)에 송신된다.
또한, 본 실시 형태에서, 평가 결과에 관한 정보는 특정 화자의 복수 종류의 발화 양식에 각각 대응하는 패턴 모델에 대한 평가 결과, 이들 패턴 모델과 대상 화자의 패턴 모델의 2차원 투영화된 위치 관계 정보, 후술하는 교정 정보가 된다.
(11) 교정 정보 생성부 (10h)에 의하여, 상기 유사성 평가부 (10f)의 평가 결과에 기초하여, 대상 화자의 음성과 특정 화자의 음성의 유사성을 높이기 위한, 대상 화자의 음성에 대한 교정 정보를 생성한다.
이때, 이 교정 정보의 생성은 재차 대상 화자의 음성 데이터를 취득하고, 그 음성 데이터에 대응하는 패턴 모델에 대하여 하여도 좋고, 상기 처리 (5) 및 처리 (6)에서 처음으로 취득한 음성 데이터에 대하여 하여도 좋다.
또한, 생성된 교정 정보는 상기 평가 결과에 관한 정보에 포함하여 정보처리 단말 (9)에 송신된다.
한편, 정보처리 단말 (9)에서는 상기 교정 정보를 취득하면, 제1 정보 표시부 (9d)에 의하여 교정 정보를 표시한다. 따라서, 대상 화자는 표시된 교정 정보를 보고, 자기의 음성을 교정하여 특정 화자의 음성과 자기의 음성과의 유사성을 높이는 연습을 하는 것이 가능하다.
(12) 제2 정보 표시부 (10g)에 의하여 상기 산출된 수학식 거리의 관계 (상대 거리)에 기초하여, 공지의 새먼법에 의하여 모든 패턴 모델 (HMM)의 거리 관계를 2차원에 투영한다.
(13) 제2 정보 표시부 (10g)에 의하여, 상기 2차원에 투영된 각 HMM의 좌표 정보를 도 55 (a), 도55 (b)에 나타내는 바와 같이 평면상의 점으로서 표시한다. 즉, 하나 하나의 점이 각 화자의 패턴 모델이 되어, 점과 점의 거리가 양자의 유사도를 나타낸다 (양자의 거리가 짧은 것이 유사도가 높다).
또한, 도 55 (b)는 상기한 바와 같이, HMM를 음소 단위 (도에서는 「a」,「i」,「u」,「e」,「o」)로 취급하였을 경우의 각 HMM의 음소 마다의 각 좌표를 점으로 표시한 것이다. 이 경우에는 상기 유사 화자의 검출이나 유사성의 평가를 음소마다 시각적으로 실시하는 것이 가능하다.
또한, 발화 양식 마다의 패턴 모델에 대하여, 예를 들면 각각의 발화 양식의 정보를 부가함으로써, 도 56에 나타내는 바와 같이, 발화 양식의 요소 (여기에서는 발화 속도 및 소리의 높이)를 축으로 한 2차원 공간을 구성하는 것이 가능하다. 이러한 발화 양식의 요소를 축으로 한 2차원 투영화 표시를 정보처리 단말 (9)측에서 실시간으로 실시함으로써, 대상 화자는 발화할 때마다, 자기의 음성 데이터의 위치 변이를 시각적으로 파악할 수 있기 때문에, 자기의 음성을, 목표로 하는 특정 화자의 음성과 닮게 하기 위한 발화 방법을 체득하기 쉬워진다. 다만, 실시간 표시를 하기 위하여는 상기 정보처리 단말 (9)과 데이터 처리 장치 (10)를 인터넷을 통하여 접속하는 구성으로 하지 않고, 데이터 처리 장치 (10)에 직접 대상 화자의 음성을 입력하는 구성이 적합하다.
또한, 도 54 (b) 및 도 55에 기초하여, 특징량 데이터로부터 생성된 패턴 모델이 음성 데이터인 경우의 초기 데이터베이스의 구축 처리 및 조합 성능 검출 처리의 제2 실시 형태에 대하여 설명한다.
먼저, 도 54 (b)의 (1) 내지 (4)에 나타내는 화자 조합을 행하기 위한 데이터베이스의 생성 처리는 상기 제1 실시 형태에서의 도 54 (a)의 (1) 내지 (4)와 동일하므로 기재를 생략한다.
다음으로, 도 54 (b)의 (5) 내지 (11)에 나타내는 유사 화자의 검출 처리 및 유사성의 평가 처리의 흐름을 설명한다.
(5) 제2 데이터 취득부 (10b)에 의하여, 정보처리 단말 (9) 로부터 시스템 이용자의 음성 데이터를 취득한다.
(6) 제2 데이터 취득부 (10b)에 의하여, 취득한 음성 데이터의 분석을 실시하여 특징량의 추출을 실시한다.
(7) 제2 데이터 취득부 (10b)에 의하여, 추출된 특징량 데이터에 기초하여 취득한 음성의 HMM를 구성하고, 소정의 학습 수법에 의하여 학습을 실시한다.
(8) 제2 데이터 취득부 (10b)에 의하여, HMM의 학습에 의하여, 대상 화자의 음성의 패턴 모델을 생성하고 데이터 기억부 (10i)에 기억시킨다.
(9) 위치 산출부 (10d)에 의하여, 상기 생성된 대상 화자의 패턴 모델과 다른 특정 화자의 패턴 모델의 수학적 거리를 산출한다.
이때, 본 실시 형태에서는 오퍼레이터가, 음성 데이터의 위치 관계를 시각적으로 판단할 수 있도록, 수학적 거리가 산출된 시점에서, 후술하는 (13) 및 (14)의 처리에 의하여, 이들 산출된 수학적 거리에 기초하는 2차원 투영화에 의하여, 그 좌표 데이터를 도 55에 나타내는 바와 같이 표시하는 것이 가능해진다.
(10) 유사 화자 검출부 (10e)에 의하여, 상기 산출된 수학적 거리에 기초하 여, 유사 화자의 검출 처리를 실시한다.
즉, 상기 산출된 대상 화자용의 패턴 모델로부터의 거리가 역치 (Th) 이내에 있는 패턴 모델을 검출한다. 예를 들면, 도 55a에 나타내는 바와 같이, 대상 화자의 패턴 모델이 도중의 ×표로 나타낸 좌표점 (50)인 경우에, 그 패턴 모델을 중심으로 한 반경 (Th)의 원 내에 있는 패턴 모델 중에서 유사 화자를 검출한다.
여기에서는 도 55a 중에서의, 좌표점 (50)에 가까운 순서로 좌표점 (50a 내지 50c)의 3개의 패턴 모델을 선택한다.
이와 같이 하여, 선택된 패턴 모델에 대응하는 화자가, 대상 화자의 음성에 유사한 음성을 가진 유사 화자로서 검출된다. 검출 결과는 제2 데이터 제어부 (2c) 및 제2 정보 표시부 (10g)에 의하여 표시된다.
또한, 검출 결과에 관한 정보는 제2 데이터 통신부 (10a)를 개입시키고, 예를 들면 대상 화자가 시스템 이용자 (A)이면, 정보처리 단말 (9A)에 송신된다.
이때, 본 실시 형태에서, 검출 결과에 관한 정보는 선택된 패턴 모델에 대응하는 화자의 이름 등의 유사 화자에 관한 정보, 2차원 투영화된 위치 관계 정보가 된다.
또한, 상기한 바와 같이 상위 M개의 패턴 모델에 대하여 수학적 거리를 산출하였을 경우, 이것은 선택된 패턴 모델이 잘못 선택되었을 경우 (선택된 패턴 모델이 대상 화자의 음성과 동떨어진 특징이 있는 경우 등)를 고려한 것이고, 이 경우에는 각각에 대하여 역치 (Th)의 거리 내에 있는 다른 사람의 패턴 모델로부터 유사 화자를 검출한다.
이때, 본 실시 형태에서, 상기 검출 처리는 유사 화자 검출부 (10e)에 의하여 자동적으로 행하고 있으나, 2차원 투영화에 의하여 표시된 음향 공간이나 그 외의 표시 정보로부터 오퍼레이터가 스스로 판단하여 검출하도록 하여도 좋다.
또한, 상기 검출 처리는 상기 한 복수 종류의 발화 양식에 대응하는 패턴 모델에 대하여 각각 실시함으로써, 발화 양식 A의 음성은 유사하나, 발화 양식 B의 음성은 유사하지 않은 경우와 같이, 발화 양식의 종류 마다의 검출이 가능하고, 이러한 검출 결과로부터 유사한 음성이 가장 많은 화자를 유사 화자로 하거나 각각의 발화 양식마다 가장 가까운 화자를 유사 화자로 하는 것이 가능하다.
또한, 유사 화자가 검출되고, 그 데이터가 정보처리 단말 (9)에 송신되면, 정보처리 단말 (9)측에서는 취득한 정보가 표시된다. 즉, 상기 유사 화자에 관한 정보 및 2차원 투영화 된 대상 화자의 패턴 모델과 유사 화자의 패턴 모델과의 위치 관계 정보가 표시된다. 이것에 의하여, 시스템 이용자는 조작부 (9e)의 조작에 의하여, 표시된 정보를 보고, 음성을 흉내내고자 하는 특정 화자를 지정한다.
지정된 정보는 데이터 처리 장치 (10)에 송신되고, 도 54 (b)에서의 처리 (11)로 진행한다.
(11) 유사성 평가부 (10f)에 의하여, 시스템 이용자 (대상 화자)에 의하여 지정된 특정 화자의 패턴 모델과 대상 화자의 패턴 모델과의 유사성을 평가한다.
예를 들면, 대상 화자의 패턴 모델과 특정 화자의 패턴 모델과의 수학적 거리에 기초하여, 양자 사이의 거리가 짧으면 유사성이 높고, 한편 양자 사이의 거리가 길면 유사성은 낮다 평가하는 등과 같이 평가를 실시한다.
본 실시 형태에서는 양자의 좌표가 일치하였을 때를 유사율 10O% (완전 동일)로 하고, 대상 화자의 좌표점 (52)로부터 거리 S 이상의 위치에 있는 패턴 모델을 특정 화자의 패턴 모델과의 유사율 0% (전혀 유사하지 않음)로 하고, 도 55 (a)에 나타내는 바와 같이, 대상 화자의 좌표점 (52)로부터 특정 화자의 좌표점 (52a)까지의 거리를 유사율 (%)로 나타낸 것을 평가 결과로서 표시한다.
이때, 유사성의 평가 처리는 특정 화자가 상기 복수 종류의 발화 양식에 대응하는 패턴 모델에 대하여 각각 실시한다.
또한, 평가 결과에 관한 정보는 제2 데이터 통신부 (10a)를 거쳐, 예를 들면 대상 화자가 시스템 이용자 B이면, 정보처리 단말 (9B)에 송신된다.
또한, 본 실시 형태에서, 평가 결과에 관한 정보는 특정 화자의 복수 종류의 발화 양식에 각각 대응하는 패턴 모델에 대한 평가 결과, 이들 패턴 모델과 대상 화자의 패턴 모델의 2차원 투영화된 위치 관계 정보 및 후술하는 교정 정보가 된다.
(12) 교정 정보 생성부 (10h)에 의하여, 상기 유사성 평가부 (10f)의 평가 결과에 기초하여, 대상 화자의 음성과 특정 화자의 음성의 유사성을 높이기 위한, 대상 화자의 음성에 대한 교정 정보를 생성한다.
이때, 이 교정 정보의 생성은 재차 대상 화자의 음성 데이터를 취득하고, 그 음성 데이터에 대응하는 패턴 모델에 대하여 생성하여도 좋고, 상기 처리 (5) 및 처리 (6)에서 처음으로 취득한 음성 데이터에 대하여 생성하여도 좋다.
또한, 생성된 교정 정보는 상기 평가 결과에 관한 정보에 포함하여 정보처리 단말 (9)에 송신된다.
한편, 정보처리 단말 (9)에서는 상기 교정 정보를 취득하면, 제1 정보 표시부 (9d)에 의하여 교정 정보를 표시한다. 따라서, 대상 화자는 표시된 교정 정보를 보고, 그것으로부터 자기의 음성을 교정하고 특정 화자의 음성과 자기의 음성과의 유사성을 높이는 연습을 하는 것이 가능하다.
이때, 도 54 (b)의 (13), (14)에 나타내는 2차원 투영화에 의한 음향 공간의 표시 처리 및 평가 결과의 표시 처리는 상기 제1 실시 형태에서의 도 54 (a)의 (12), (13)와 동일한 처리이므로 기재를 생략한다.
또한, 도 57에 기초하여, 정보처리 단말 (9)의 동작 처리의 흐름에 대하여 설명한다. 도 57은 정보처리 단말 (9)의 동작 처리를 나타내는 플로차트이다.
도 57에 나타내는 바와 같이, 먼저 스텝 S1200로 진행하고, 제1 데이터 제어부 (9b)에서, 음성 데이터의 취득 처리가 개시되었는 지 여부를 판정하고, 개시되었다고 판정하였을 경우 (Yes)에는 스텝 S1202로 진행하고, 그렇지 않은 경우 (No)에는 개시될 때까지 판정 처리를 속행한다.
스텝 S1202로 진행하였을 경우에는 제1 데이터 취득부 (9a)에 의하여, 대상 화자 (본 실시 형태에서는 시스템 이용자 (A 내지 C)중 어느 한 명)가 발성한 음성 (아날로그 데이터)을 취득하여 스텝 S1204로 진행한다.
스텝 S1204에서는 제1 데이터 취득부 (9a)에서, 취득한 음성 (아날로그 데이터)을 디지털 데이터로 변환하고 스텝 S1206로 진행한다.
스텝 S1206에서는 제1 데이터 제어부 (9b)에 의하여, 상기 디지털 데이터로 변환된 음성 데이터를, 제1 데이터 통신부 (9c)를 거쳐 데이터 처리 장치 (10)에 송신하고 스텝 S1208로 진행한다.
스텝 S1208에서는 제1 데이터 제어부 (9b)에서, 데이터 처리 장치 (10)로부터 상기 송신한 음성 데이터에 대한 유사 화자의 검출 결과 정보를, 제1 데이터 통신부 (9c)를 거쳐 수신하였는지 여부를 판정하고, 수신하였다고 판정하였을 경우 (Yes)에는 스텝 S1210로 진행하고, 그렇지 않은 경우 (No)에는 수신할 때까지 판정 처리를 속행한다.
스텝 S1210로 진행하였을 경우에는 제1 데이터 제어부 (9b)의 제어 명령에 따라서, 제1 정보 표시부 (9d)에서, 상기 수신한 검출 결과 정보를 표시하여 스텝 S1212로 진행한다.
스텝 S1212에서는 제1 데이터 제어부 (9b)에서, 조작부 (9e)의 조작에 의하여, 특정 화자가 선택되었는지 여부를 판정하고, 선택되었다고 판정하였을 경우 (Yes)에는 스텝 S1214로 진행하고, 그렇지 않은 경우 (No)에는 선택될 때까지 대기한다.
스텝 S1214로 진행하였을 경우에는 제1 데이터 제어부 (9b)에 의하여, 상기 선택된 화자의 정보를, 제1 데이터 통신부 (9c)를 거쳐 데이터 처리 장치 (10)에 송신하여 스텝 S1216로 진행한다.
스텝 S1216에서는 제1 데이터 제어부 (9b)에서, 데이터 처리 장치 (10)로부터 상기 송신한 음성 데이터 및 선택 화자 정보에 대한 평가 결과 정보를, 제1 데이터 통신부 (9c)를 통하여 수신하였는지 여부를 판정하고, 수신하였다고 판정하였 을 경우 (Yes)에는 스텝 S1218로 진행하고, 그렇지 않은 경우 (No)에는 수신할 때까지 판정 처리를 속행한다.
스텝 S1218로 진행하였을 경우에는 제1 데이터 제어부 (9b)의 제어 명령에 따라서, 제1 정보 표시부 (9d)에서, 상기 수신한 평가 결과 정보를 표시하여 스텝 S1200로 진행한다.
또한, 도 58에 기초하여, 데이터 처리 장치 (10)의 동작 처리의 흐름을 설명한다.
도 58은 데이터 처리 장치 (10)의 동작 처리를 나타내는 플로차트이다. 도 58에 나타내는 바와 같이, 우선 스텝 S1300로 진행하고, 제2 데이터 제어부 (10c)에서, 제2 데이터 통신부 (10a)를 거쳐 정보처리 단말 (9)로부터 음성 데이터를 취득하였는지 여부를 판정하고, 취득하였다고 판정하였을 경우 (Yes)에는 스텝 S1302로 진행하고, 그렇지 않은 경우 (No)에는 취득할 때까지 판정 처리를 속행한다.
스텝 S1302로 진행하였을 경우에는 제2 데이터 취득부 (10b)에 대하여, 취득한 음성의 특징량을 추출하여 스텝 S1304로 진행한다. 이때, 상기 제1 실시 형태에서는 상기 우도 계산을 실시하고, 복수의 화자의 패턴 모델 중에서 가장 음향적 특징이 유사한 패턴을 선택하고, 이것을 취득한 음성의 패턴 모델로 한다. 한편, 상기 제2 실시 형태의 경우에는 추출한 특징량으로부터 취득한 음성의 패턴 모델을 생성한다.
스텝 S1304에서는 위치 산출부 (10d)에서, 취득한 음성의 패턴 모델과 다른 복수의 화자의 패턴 모델의 수학적 거리를 산출하여 스텝 S1306로 진행한다.
스텝 S1306에서는 유사 화자 검출부 (10e)에 대하여, 상기 산출된 수학적 거리에 기초하여, 취득한 음성 데이터에 대한 유사 화자 검출 처리를 실시하여 스텝 S1308로 진행한다.
스텝 S1308에서는 제2 정보 표시부 (10g)에서, 상기 검출 결과에 관한 정보인 검출 결과 정보를 표시하여 스텝 S1310로 진행한다.
스텝 S1310에서는 제2 데이터 제어부 (10c)에 의하여, 제2 데이터 통신부 (10a)를 거쳐, 상기 검출 결과 정보를 대상인 정보처리 단말 (9)에 송신하여 스텝 S1312로 진행한다.
스텝 S1312에서는 제2 데이터 제어부 (10c)에서, 제2 데이터 통신부 (10a)를 거쳐 정보처리 단말 (9)로부터 선택 화자 정보를 취득하였는지 여부를 판정하고, 취득 판정하였을 경우 (Yes)에는 스텝 S1314로 진행하고, 그렇지 않은 경우 (No)에는 취득할 때까지 판정 처리를 속행한다.
스텝 S1314로 진행하였을 경우에는 유사성 평가부 (10f)에서, 대상 화자의 패턴 모델과 선택된 화자의 패턴 모델에 기초하여, 양자의 유사성을 평가하고 스텝 S1316로 진행한다.
이때, 유사성의 평가 후에, 상기 평가 결과에 기초하여 교정 정보 생성부 10h에 대하여, 대상 화자의 음성과 특정 화자의 음성의 유사성을 높이기 위한 교정 정보를 생성한다.
스텝 S1316에서는 제2 정보 표시부 (10g)에서, 상기 평가 결과에 관한 정보인 평가 결과 정보를 표시하고 스텝 S1318로 진행한다.
스텝 S1318에서는 제2 데이터 제어부 (10c)에 의하여, 제2 데이터 통신부 (10a)를 개입시키고, 상기 평가 결과 정보를 대상의 정보처리 단말 (9)에 송신해 스텝 S1300로 진행한다.
또한, 도 59에 기초하여, 제2 정보 표시부 (10g)에서의 2차원 투영화에 의한 좌표 정보의 표시 처리의 흐름을 설명한다. 도 59는 제2 정보 표시부 (10g)에서 2차원 투영화에 의한 좌표 정보의 표시 처리를 나타내는 플로차트이다.
도 59에 나타내는 바와 같이, 우선 스텝 S1400로 진행하고, 위치 산출부 (10d)에 대하여 수학적 거리의 산출이 완료되었는지 여부를 판정하고, 완료되었다고 판정하였을 경우 (Yes)에는 스텝 S1402로 진행하고, 그렇지 않은 경우 (No)에는 완료할 때까지 대기한다.
스텝 S1402로 진행하였을 경우에는 공지의 새먼법을 사용하고, 대상 화자의 음성의 패턴 모델과 다른 복수의 화자의 패턴 모델과 수학적 거리를 2차원 투영화하여 스텝 S1404로 진행한다.
스텝 S1404에서는 상기 2차원 투영화 처리에 의하여 2차원의 정보가 된 수학적 거리에 기초하여, 각 패턴 모델의 좌표 정보를 평면상의 점으로서 표시하고 처리를 종료한다.
이상, 데이터 처리 장치 (10)는 제2 데이터 취득부 (10b)에 의하여, 대상 화자의 음성 데이터를 취득하고, 위치 산출부 (10d) 및 유사 화자 평가부 (10e)에 의하여, 상기 음성 데이터와 유사한 음성을 가진 화자를 검출하고, 제2 정보 표시부 (10g)에 의하여, 이 검출 결과와 관련된 검출 결과 정보를 표시하고, 또한 대상 화자의 음성의 패턴 모델, 유사 화자 또는 다른 복수의 화자의 패턴 모델의 위치 관계를 2차원의 좌표로서 표시하는 것이 가능하다.
또한, 정보처리 단말 (9)는 데이터 처리 장치 (10)로부터 상기 검출 결과 정보를 취득하고, 제1 정보 표시부 (9d)에 의하여, 상기 검출 결과 정보를 표시하고, 대상 화자는 조작부 (9e)를 조작함으로써 표시된 검출 결과 정보에 기초하여, 특정의 화자를 선택하여 지정하는 것이 가능하다.
또한, 데이터 처리 장치 (10)는 상기 지정된 특정 화자의 정보를 취득하고, 유사성 평가부 (10f)에 의하여, 상기 특정 화자의 음성과 대상 화자의 음성과의 유사성을 평가하고, 제2 정보 표시부 10g에 의하여, 상기 평가 결과 정보를 표시하는 것이 가능하다.
또한, 정보처리 단말 (9)은 데이터 처리 장치 (10)로부터 상기 평가 결과 정보를 취득하고, 제1 정보 표시부 (9d)에 의하여, 상기 평가 결과 정보를 표시하는 것이 가능하다.
이때, 도 52에 나타내는 제1 데이터 취득부 (9a), 제1 데이터 제어부 (9b) 및 제1 데이터 통신부 (9c)에 의한, 음성 데이터의 취득 처리 및 송신 처리는 청구 범위 제70항에 기재된 음성 데이터 송신 수단에 대응하고, 제1 데이터 제어부 (9b) 및 제1 정보 표시부 (9d)에 의한 검출 결과 정보 및 평가 결과 정보의 표시 처리는 청구 범위 제70항에 기재된 정보 표시 수단에 대응하고, 조작부 (9e)에 의한 특정 화자의 선택 처리는 청구 범위 제59항에 기재된 특정 화자 지정 수단에 대응한다.
또한, 도 53에 나타내는 제2 데이터 통신부 (10a) 및 제2 데이터 취득부 (10b)에 의한 음성 데이터의 취득 처리는 청구 범위 제57, 63 및 64항 중 어느 하나의 항에 기재된 음성 데이터 취득 수단에 대응하고, 위치 산출부 (10d)는 청구 범위 제57, 63 및 64항 중 어느 하나의 항에 기재된 위치 산출 수단에 대응하고, 유사 화자 검출부 (10e)는 청구 범위 제57, 61 및 62항 중 어느 하나의 항에 기재된 유사 화자 검출 수단에 대응하고, 유사성 평가부 (10f)는 청구 범위 제58, 60, 61, 62, 66 및 67항 중 어느 하나의 항에 기재된 유사성 평가 수단에 대응하고, 제2 정보 표시부 (10g)는 청구 범위 제58항에 기재된 평가 결과 표시 수단, 및 청구 범위 제57, 58, 60 및 65항 중 어느 하나의 항에 기재된 위치 관계 정보 표시 수단에 대응하고, 교정 정보 생성부 (10h)는 청구 범위 제60항에 기재된 교정 정보 생성 수단에 대응한다.
또한, 상기 실시 형태에서는 정보처리 단말 (9)과 데이터 처리 장치 (10)를 인터넷을 통하여 접속하는 구성으로 하고 있으나, 이것에 한정하지 않고, 데이터 처리 장치 (10)에 직접 대상 화자의 음성을 입력하는 구성으로 하여도 좋다. 이것에 의하여, 입력되는 대상 화자의 음성에 대한 특정 화자의 음성의 유사성의 평가 결과를 실시간으로 표시하는 등의 응답 속도를 필요로 하는 처리가 용이해진다.
이상 설명한 바와 같이, 본 발명에 관한 청구 범위 제1항 내지 청구 범위 제7항의 어느 한 항에 기재된 데이터 처리 장치에 의하면, 복수의 패턴 모델 대응 저차원 벡터를, 저차원의 요소의 값에 기초하여, 상기 거리 관계를 유지한 상태로, 상기 패턴 모델 대응 저차원 벡터와 동일한 차원의 저차원 공간상의 좌표점으로서 표시하도록 하였으므로, 각 패턴 모델 상호 간의 거리 관계 (유사 관계)를 시각적으로 간단하고 쉽게 파악하는 것이 가능하게 된다. 또한, 4차원 이상의 고차원의 패턴 모델을 3차원 이하의 저차원의 패턴 모델 대응 저차원 벡터로 변환하는 것이 가능하게 되므로, 클러스터링 등의 여러 가지 처리를 하기가 쉬워진다.
또한, 청구 범위 제 8항 또는 청구 범위 제 9항에 기재된 데이터 처리 장치에 따르면 패턴 모델 대응 저차원 벡터 표시 수단에 의하여 저차원 공간상에 표시되는 복수의 패턴 모델 대응 저차원 벡터의 좌표점을, 상기 저차원 공간상에서 복수의 영역으로 자동적으로 구분하도록 하였으므로, 복수의 패턴 모델 대응 저차원 벡터의 좌표점을 간단하고 쉽게 구분하는 것이 가능하고, 이것에 의하여, 특정의 패턴 모델이 어느 구분 영역에 해당하는지를, 시각적으로 간단하고 쉽게 파악하는 것이 가능하다.
또한, 청구 범위 제10항에 기재된 데이터 처리 장치에 의하면, 영역 구분 수단에 의하여 자동 구분된 구분 내용을 변경할 수 있도록 하였으므로, 구분 내용이 적절하지 않을 때나, 새로운 패턴 모델이 추가된 경우 등에서, 적절한 구분 내용으로 변경하는 것이 가능하다.
또한, 청구 범위 제11항에 기재된 데이터 처리 장치에 의하면, 구분된 각 영역마다 선택된 패턴 모델 대응 저차원 벡터에 대응하는 대상의 소정의 데이터에 기초하여 특정 패턴 모델을 생성하도록 하였으므로, 예를 들면 특정 대상의 패턴 모델이 포함되는 영역 내의 패턴 모델 대응 저차원 벡터에 대응하는 대상의 소정의 데이터를 사용하여 패턴 모델을 생성함으로써, 특정의 대상을 향한 적절한 패턴 모 델의 생성이 가능하다. 또한, 특정 영역의 소정의 데이터를 사용하여 패턴 모델을 생성하므로, 패턴 모델이 사용하는 메모리 용량을 경감하는 것이 가능하다.
이때, 청구 범위 제12항에 기재된 데이터 처리 장치 제어 프로그램은 청구 범위 제1항에 기재된 데이터 처리 장치를 제어하기 위한 프로그램으로서, 그 효과는 중복되므로 기재를 생략한다.
또한, 청구 범위 제13항에 기재된 데이터 처리 장치 제어 프로그램은 청구 범위 제11항에 기재된 데이터 처리 장치를 제어하기 위한 하는그 효과는 중복되므로 기재를 생략한다.
또한, 청구 범위 제14항에 기재된 패턴 모델 탐색 장치에 의하면, 신규 대상에 관한 소정의 데이터에 대한 구분 결과의 각 영역에 대응하는 영역 패턴 모델의 우도에 기초하여, 각 영역 패턴 모델 중에서 신규 대상의 소정의 데이터를 패턴 인식하는데 적합한 영역 패턴 모델을 탐색하는 것이 가능하다.
또한, 청구 범위 제15항에 기재된 패턴 모델 탐색 장치 제어 프로그램은 청구 범위 제14항에 기재된 패턴 모델 탐색 장치를 제어하기 위한 하는그 효과는 중복되므로 기재를 생략한다.
또한, 청구 범위 제16항에 기재된 데이터 처리 장치에 의하면, 각 패턴 모델 상호 간의 거리 관계 (유사 관계)를 시각적으로 간단하고 쉽게 파악하는 것이 가능하게 된다. 또한, 4차원 이상의 고차원의 패턴 모델을 3차원 이하의 저차원의 패턴 모델 대응 저차원 벡터로 변환하는 것이 가능하게 되므로, 클러스터링 등의 여러 가지 처리가 실시하기 쉬워진다. 또한, 수학적 거리의 산출에 소정의 데이터의 출 현 빈도를 사용하였으므로, 예를 들면 이 출현 빈도에 의하여 수학적 거리에 가중치를 곱합으로써, 각 패턴 모델에 대응하는 모든 소정의 데이터를 고려한 패턴 모델 상호 간의 거리를 정의하는 것이 가능하게 되고, 패턴 모델 상호 간의 거리 관계를 정확하게 산출하는 것이 가능하게 된다.
또한, 청구 범위 제17항에 기재된 데이터 처리 장치에 의하면, 청구 범위 제16항의 상기 효과에 추가하여 수학적 거리의 산출에 이용하는 출현 빈도에, 인식 성능이 소정의 역치보다 낮은 패턴 단위의 출현 빈도를 사용하도록 하였으므로, 이것에 의하여, 인식 성능이 낮은 대상의 패턴 모델을 정확한 거리 관계로 저차원 표시하는 것이 가능하게 되고, 이것에 의하여, 인식 성능이 낮은 대상의 패턴 모델을 클러스터링 등 하기 쉽게 하는 것이 가능하다.
또한, 청구 범위 제18항에 기재된 데이터 처리 장치에 의하면, 각 패턴 모델 상호 간의 거리 관계 (유사 관계)를 시각적으로 간단하고 쉽게 파악하는 것이 가능해짐과 동시에, 복수의 패턴 모델 대응 저차원 벡터의 좌표점을 간단하고 쉽게 구분할 수 있도록 하였으므로, 특정의 패턴 모델이 어느 구분 영역에 해당하는지 등을 시각적으로 간단하고 쉽게 파악하는 것이 가능하게 된다. 또한, 신규 대상에 관한 소정의 데이터에 대한 구분 결과의 각 영역에 대응하는 영역 패턴 모델의 우도에 기초하여, 각 영역 패턴 모델 중에서 신규 대상의 소정의 데이터를 패턴 인식하는데 적합한 영역 패턴 모델을 탐색하는 것이 가능하다.
또한, 청구 범위 제19항에 기재된 데이터 처리 장치에 의하면, 청구 범위 제18항의 상기 효과에 추가하여 수학적 거리의 산출에 음성 데이터의 출현 빈도를 사 용하였으므로, 예를 들면 이 출현 빈도에 의하여 수학적 거리에 가중치를 곱함으로써, 각 패턴 모델에 대응하는 모든 소정의 데이터를 고려한 패턴 모델 상호 간의 거리를 정의하는 것이 가능하게 되고, 패턴 모델 상호 간의 거리 관계를 정확하게 산출하는 것이 가능하게 된다.
또한, 청구 범위 제20항에 기재된 데이터 처리 장치에 의하면, 청구 범위 제19항의 상기 효과에 추가하여 수학적 거리의 산출에 이용하는 출현 빈도에, 인식 성능이 소정의 역치보다 낮은 패턴 단위의 출현 빈도를 이용하도록 하였으므로, 이것에 의하여, 인식 성능의 낮은 대상의 패턴 모델을 정확한 거리 관계로 저차원 표시하는 것이 가능해져, 이것에 의하여, 인식 성능의 낮은 대상의 패턴 모델을 클러스터링등 하기 쉽게 하는 것이 가능하다.
또한, 청구 범위 제21항에 기재된 데이터 처리 장치에 의하면, 청구 범위 제18항 내지 청구 범위 제20항 중 어느 하나의 상기 효과에 추가하여 상기 바깥쪽 원 및 안쪽 원으로 이루어지는 복수의 동심원끼리의 각 외주 사이에 형성되는 환상의 영역을, 복수의 선형의 영역으로 구분하는 것이 가능하게 된다.
또한, 청구 범위 제22항에 기재된 데이터 처리 장치에 의하면, 청구 범위 제21항의 상기 효과에 추가하여 2차원 시각화된 패턴 모델은 중심으로부터 외측으로 향할수록 인식 성능이 낮은 (다른 모델과 유사성이 낮음) 패턴 모델이 분포하는 특성이 있으므로, 인식 성능이 낮은 패턴 모델의 분포하고 있는 영역을 세세하게 구분함으또한, 청구 범위 제23항에 기재된 데이터 처리 장치에 의하면, 청구 범위 제21항 또는 청구 범위 제22항의 상기 효과에 추가하여 특정 대상용 패턴 모델을 생 성할 때에, 상기 특정 대상의 소정의 데이터가 구분된 영역의 경계에 위치하는 경우에도 간편하게 대응하는 것이 가능하게 된다.
또한, 청구 범위 제24항에 기재된 데이터 처리 장치에 의하면, 청구 범위 제21항 내지 청구 범위 제23항의 몇 가지 상기 효과에 추가하여 가장 안쪽 원으로부터 바깥쪽 원 방향을 향하여 신규 대상의 소정의 데이터에 대한 영역 패턴 모델의 우도를 산출하도록 하였으므로, 신규 대상의 소정의 데이터에 적합한 구분 영역의 영역 패턴 모델을 고속으로 탐색하는 것이 가능하게 된다.
또한, 청구 범위 제25항에 기재된 데이터 처리 장치에 의하면, 청구 범위 제24항의 상기 효과에 추가하여 구분 결과의 가장 안쪽 원으로부터 바깥쪽 원 방향을 향하여 순서대로, 가장 우도가 높은 (인식 성능이 높은) 영역 패턴 모델에 대응하는 구분 영역을 향하여 탐색하도록 하였으므로, 신규 대상의 소정의 데이터에 적합한 구분 영역의 영역 패턴 모델을 고속으로 탐색하는 것이 가능하게 된다.
또한, 청구 범위 제26항에 기재된 데이터 처리 장치에 의하면, 청구 범위 제24항의 상기 효과에 추가하여 구분 결과의 가장 안쪽 원으로부터 바깥쪽 원 방향을 향하여 순서대로, 상위 m개의 우도에 대응하는 영역 패턴 모델에 대응하는 구분 영역을 향하여 탐색하도록 하였으므로, 신규 대상의 소정의 데이터에 의하여 적합한 구분 영역의 영역 패턴 모델을 고속으로 탐색하는 것이 가능하게 된다.
또한, 청구 범위 제27항에 기재된 데이터 처리 장치에 의하면, 청구 범위 제18항 내지 청구 범위 제26항 중 어느 하나의 상기 효과에 추가하여 적어도, 화자의 이름, 남성/여성의 성별, 어린이/성인/고령자의 연령별 등의 화자의 종류, 발화하 는 숫자, 문장, 단어 등의 발화 어휘, 발화 속도, 발화 음량, 방언에 유래하는 특징 등의 발화 양식 및 실내, 자동차 내, 공장 내, 옥외 (장소 등에 의하여 종류를 나눔) 등의 발화 환경을 고려하여 음성 데이터에 대한 패턴 모델을 생성하는 것이 가능하다.
또한, 청구 범위 제28항에 기재된 데이터 처리 장치에 의하면, 청구 범위 제18항 내지 청구 범위 제27항 중 어느 하나의 상기 효과에 추가하여 예를 들면, 소정의 데이터가 음성 데이터의 경우에, 실내 (발화 환경)에서 성인 남자 (화자의 종류)가 단어 (발화 어휘)를 빠른 속도 (발화 양식)로 발화하였다고 하는 것과 같이, 임의의 특정 조건의 조합을 하나의 그룹으로서 형성하는 것이 가능하게 된다. 물론, 예를 들면 실내 (발화 환경)에서 성인 남자 (화자의 종류)가 발화하였다고 하는 경우와 같이, 더 크게 묶어 그룹을 나누어도 좋다.
또한, 청구 범위 제30항에 기재된 데이터 처리 장치에 의하면, 각 패턴 모델간의 더 적절한 수학적 거리를 산출하는 것이 가능하다.
또한, 청구 범위 제31항에 기재된 데이터 처리 장치에 의하면, 청구 범위 제18항 내지 청구 범위 제30항 중 어느 하나의 상기 효과에 추가하여 각 패턴 모델 상호 간의 거리 관계를 유지하면서, 복수의 패턴 모델을 이것과 동일한 수의 패턴 모델 대응 저차원 벡터로 변환하는 것이 가능하다.
또한, 청구 범위 제32항에 기재된 데이터 처리 장치에 의하면, 청구 범위 제18항 내지 청구 범위 제31항 중 어느 하나의 상기 효과에 추가하여 구분 내용이 적절하지 않을 때나, 새로운 패턴 모델이 추가되었을 때 등에, 적절한 구분 내용으로 변경하는 것이 가능하다.
또한, 시각화된 패턴 모델의 구분 내용을 변경하게 되므로, 용이하게 구분 내용의 변경을 실시하는 것이 가능하다.
또한, 청구 범위 제33항에 기재된 데이터 처리 장치에 의하면, 청구 범위 제18항 내지 청구 범위 제32항 중 어느 하나의 상기 효과에 추가하여 특정 구분 영역의 영역 패턴 모델을 신규 대상에 대하여 적용하는 것이 가능하고, 패턴 모델이 사용하는 메모리 용량을 경감하는 것이 가능하다.
또한, 청구 범위 제34항에 기재된 데이터 처리 장치에 의하면, 청구 범위 제33항의 상기 효과에 추가하여 영역 패턴 모델 탐색 수단에 의하여 탐색된 영역 패턴 모델에 대응하는 영역에 포함되는 복수의 패턴 모델 대응 저차원 벡터에 대응 한 패턴 모델을, 재차 패턴 모델 대응 저차원 벡터로 변환하고, 또한 구분하도록 하였으므로, 상기 구분한 영역으로부터 재차 신규 대상에 적절한 영역 패턴 모델을 탐색함으로써, 신규 대상에 관한 소정의 데이터의 패턴 인식에 의하여 적합한 특정 패턴 모델의 생성이 가능하게 된다.
이때, 청구 범위 제35항에 기재된 데이터 처리 장치 제어 프로그램은 청구 범위 제16항에 기재된 데이터 처리 장치를 제어하기 위한 프로그램으로서, 그 효과는 중복되므로 기재를 생략한다.
또한, 청구 범위 제36항에 기재된 데이터 처리 장치 제어 프로그램은 청구 범위 제18항에 기재된 데이터 처리 장치를 제어하기 위한 프로그램으로서, 그 효과는 중복되므로 기재를 생략한다.
또한, 청구 범위 제37항에 기재된 특정 패턴 모델 제공 시스템에 의하면, 시스템 이용자는 예를 들면 인터넷 등을 통하여 PC, 휴대 전화, PDA 등의 정보처리 단말과 데이터 처리 장치를 접속하고, 자신의 음성 데이터를 데이터 처리 장치에 송신함으로써, 자신의 음성 데이터를 음성 인식하는데 적합한 특정 패턴 모델을 간단하고 쉽게 취득하는 것이 가능하다.
또한, 청구 범위 제38항에 기재된 데이터 처리 장치에 의하면, 음향 공간 내에서의 대상 화자의 음성 데이터와 다른 패턴 모델의 위치 관계에 근거하여, 대상 화자의 음성 데이터의 가치 평가를 실시하고, 그 평가 결과를 표시하고, 또한 음성 데이터와 다른 패턴 모델의 위치 관계를 표시하도록 하였으므로, 대상 화자가 발성한 음성 데이터의 가치가 높은지 여부를 시각적으로 간편하게 파악하는 것이 가능하게 되고, 또한 대상 화자의 음성 데이터의 음향 공간 내의 위치를 시각적으로 간단하고 쉽게 파악하는 것이 가능하다.
또한, 청구 범위 제39항에 기재된 데이터 처리 장치에 의하면, 청구 범위 제38항의 상기 효과에 추가하여 음향 공간 내에서의 상기 대상 화자의 음성 데이터의 위치로부터 소정 거리의 범위 내에 존재하는 상기 패턴 모델의 수에 기초하여, 상기 음성 데이터의 가치를 평가하도록 하였으므로, 예를 들면 대상 화자의 음성 데이터 주변에 다른 화자의 패턴 모델이 그다지 존재하고 있지 않으면, 그 음성 데이터의 가치가 높다고 판단하고, 한편 주변에 많은 패턴 모델이 존재하고 있으면, 그 음성 데이터의 가치는 낮다고 판단하는 평가방법이 가능하게 된다.
또한, 청구 범위 제40항에 기재된 데이터 처리 장치에 의하면, 청구 범위 제 38항 또는 제39항의 상기 효과에 추가하여 상기 소정 거리를 상기 음성 데이터의 가치의 정도에 따라 단계적으로 설정하도록 하였으므로, 각 단계마다 설정된 각 거리 범위에서 상기 패턴 모델의 수에 기초하여, 상기 음성 데이터의 가치를 평가하는 것이 가능하고, 이것에 의하여, 각 범위 내의 패턴 모델의 수에 의하여, 대상 화자의 음성 데이터의 가치를 단계적으로 평가하는 것이 가능하게 된다.
또한, 청구 범위 제41항에 기재된 데이터 처리 장치에 의하면, 청구 범위 제38항 내지 제40항 중 어느 하나의 상기 효과에 추가하여 상기 복수의 패턴 모델 중에서, 상기 대상 화자의 음성 데이터의 특징과 유사한 특징이 있는 패턴 모델을, 상기 대상 화자의 패턴 모델로서 상기 평가에 이용하도록 하였으므로, 대상 화자가 발성한 음성의 패턴 모델을 생성하지 않고, 유사한 패턴 모델의 위치를 대상 화자가 발성한 음성 데이터의 음향 공간 내의 위치로 하게 되므로, 계산량이 적게되어, 실시간 처리 등에 적절한 구성으로 하는 것이 가능하게 된다.
또한, 청구 범위 제42항에 기재된 데이터 처리 장치에 의하면, 청구 범위 제41항의 상기 효과에 추가하여 상기 복수의 패턴 모델 중에서, 상기 대상 화자의 음성 데이터의 특징과 유사한 특징이 있는 상위 몇 개의 패턴 모델을, 상기 대상 화자의 패턴 모델로서 상기 평가에 이용하도록 하였으므로, 예를 들면 유사도가 높은 순서로 상위 몇 개의 패턴 모델을 선택하고, 이들 복수의 패턴 모델의 평균값를 평가에 이용하는 등을 하여, 패턴 모델을 단수로 선택하여 이용하는 경우에서 유사하고 있다고 판단하여 선택된 패턴 모델이 실제로는 유사하지 않았던 것이었을 경우 등과 비교하여, 잘못된 패턴 모델이 선택되어도 그 오차를 경감하는 것이 가능하게 된다.
또한, 청구 범위 제43항에 기재된 데이터 처리 장치에 의하면, 청구 범위 제41항 또는 제42항의 상기 효과에 추가하여 대상 화자의 음성 데이터와 복수의 화자의 복수의 패턴 모델과의 우도를 산출하고, 유사성을 판단하도록 하였으므로, 대상 화자의 음성 데이터의 특징과 유사한 특징이 있는 패턴 모델을 간편하게 선택하는 것이 가능하다 또한, 청구 범위 제44항에 기재된 데이터 처리 장치에 의하면, 청구 범위 제38항 내지 제40항의 몇 가지 상기 효과에 추가하여 상기 음성 데이터 취득 수단에 의하여 취득된 음성 데이터를 고차원의 특징량 데이터로 변환하고, 상기 특징량 데이터에 기초하여 대상 화자용의 패턴 모델을 생성하고, 상기 생성된 패턴 모델과 상기 복수의 화자의 복수의 패턴 모델과의 상호 간의 수학적 거리를 산출하고, 상기 산출된 수학적 거리에 기초하여, 상기 음향 공간 내에서의, 상기 취득된 음성 데이터의 위치를 산출하도록 하였으므로, 대상 화자의 음성 데이터의 가치를 더 정확하게 평가하는 것이 가능하다.
또한, 청구 범위 제45항에 기재된 데이터 처리 장치에 의하면, 청구 범위 제43항 또는 제44항의 상기 효과에 추가하여 상기 대상 화자의 음성 데이터에 대응하는 패턴 모델을 포함한 상기 음향 공간 내의 복수의 패턴 모델을, 이러한 위치 관계를 유지한 상태로, 그보다 저차원의 패턴 모델로 변환하고, 상기 변환 후의 패턴 모델을 저차원 공간상의 좌표점으로서 표시하도록 하였으므로, 대상 화자의 음성 데이터의 음향 공간 내의 위치를 시각적으로 간단하고 쉽게 파악하는 것이 가능하다.
또한, 청구 범위 제46항에 기재된 데이터 처리 장치에 의하면, 청구 범위 제38항 내지 제45항 중 어느 하나의 상기 효과에 추가하여 패턴 모델을, 공지의 기술인 HMM (일본어로는 숨겨진 마르코프 모델이라 한다)를 사용하여 구성하도록 하였으므로, 음성 데이터를 적절하게 모델화하는 것이 가능하다.
또한, 청구 범위 제47항에 기재된 데이터 처리 장치에 의하면, 청구 범위 제38항 내지 제46항 중 어느 하나의 상기 효과에 추가하여 대상 화자의 음성 데이터를, 단어나 문장 단위가 아니라, 음소 단위로 그 가치를 평가하고, 음소마다 평가 결과를 표시하도록 하였으므로, 간단하고 쉽게 음소 단위의 가치의 판단이 가능하게 된다.
또한, 청구 범위 제48항에 기재된 데이터 처리 장치에 의하면, 청구 범위 제38항 내지 제47항 중 어느 하나의 상기 효과에 추가하여 보정 정보로서 발음의 방법이나 발화 속도 등의, 평가 대상 (또는 취득 대상)으로서 희망하는 음성 데이터의 발화를 재촉하는 정보를 표시하도록 하였으므로, 같은 대상 화자로부터 여러 가지 음성 데이터를 취득하여 평가하는 것이 가능하게 된다.
또한, 청구 범위 제49항에 기재된 데이터 처리 장치에 의하면, 청구 범위 제38항 내지 제48항 중 어느 하나의 상기 효과에 추가하여 상기 대상 화자와의 사이에 상기 음성 데이터의 제공 가부에 관한 교섭을 실시하고, 교섭이 성립된 상기 음성 데이터를 기억하도록 하였으므로, 예를 들면 대상 화자가 발화한 음성 데이터가 가치가 높다고 평가된 데이터였을 경우에, 대상 화자와 교섭하고, 그 음성 데이터를 취득하는 것이 가능하게 된다.
또한, 청구 범위 제50항에 기재된 데이터 처리 시스템에 의하면, 예를 들면 인터넷 등을 통하여 정보처리 단말과 데이터 처리 장치를 접속함으로써, 인터넷을 통하여, 다수의 대상 화자의 음성 데이터의 평가를 실시하는 것이 가능하게 되고, 가치가 높은 음성 데이터의 취득을 더 간편하게 실시하는 것이 가능하게 된다.
이때, 청구 범위 제51항에 기재된 데이터 처리 방법은 상기 청구 범위 제38항 내지 청구 범위 제50항 중 어느 하나의 항에 기재된 데이터 처리 장치에 의하여 실현되는 것이고, 그 효과는 중복되므로 기재를 생략한다.
또한, 청구 범위 제52항에 기재된 데이터 처리 장치 제어 프로그램은 상기 청구 범위 제39항에 기재된 데이터 처리 장치를 제어하기 위한 하는그 효과는 중복되므로 기재를 생략한다.
또한, 청구 범위 제53항에 기재된 데이터 처리 장치는 상기 청구 범위 제50항에 기재된 데이터 처리 시스템에서의 데이터 처리 장치와 같은 효과가 되므로, 기재를 생략한다.
또한, 청구 범위 제54항에 기재된 정보처리 단말은 상기 청구 범위 제50항에 기재된 데이터 처리 시스템에서의 정보처리 단말과 같은 효과가 되므로, 기재를 생략한다.
또한, 청구 범위 제55항에 기재된 데이터 처리 장치 제어 프로그램은 상기 청구 범위 제53항에 기재된 데이터 처리 장치를 제어하기 위한 프로그램으로서, 그 효과는 중복되므로 기재를 생략한다.
또한, 청구 범위 제56항에 기재된 정보처리 단말 제어 프로그램은 상기 청구 범위 제54항에 기재된 정보처리 단말을 제어하기 위한 프로그램으로서, 그 효과는 중복되므로 기재를 생략한다.
또한, 청구 범위 제57항에 기재된 데이터 처리 장치에 의하면, 대상 화자의 음성이, 복수의 화자 중 누구의 음성과 닮았는지를 시각적으로 간편하게 파악할 수 있다고 하는 효과를 얻을 수 있다.
또한, 청구 범위 제58항에 기재된 데이터 처리 장치에 의하면, 청구 범위 제57항의 상기 효과에 추가하여 지정한 특정 화자의 음성과 대상 화자의 음성의 유사성을 시각적으로 간편하게 파악할 수 있고, 또한 음향 공간 내에서의 대상 화자의 음성 데이터와 특정 화자의 패턴 모델과의 위치 관계를 시각적으로 간편하게 파악할 수 있다고 하는 효과를 얻을 수 있다.
또한, 청구 범위 제59항에 기재된 데이터 처리 장치에 의하면, 지정한 특정 화자의 음성과 대상 화자의 음성과의 유사성을 시각적으로 간편하게 파악할 수 있고, 또한 음향 공간 내에서 대상 화자의 음성 데이터와 특정 화자의 패턴 모델의 위치 관계를 시각적으로 간편하게 파악할 수 있다고 하는 효과를 얻을 수 있다.
또한, 청구 범위 제60항에 기재된 데이터 처리 장치에 의하면, 청구 범위 제58항 또는 청구 범위 제59항의 상기 효과에 추가하여 대상 화자는 표시된 교정 정보를 보고, 자기의 발성 방법을 교정할 수 있다고 하는 효과를 얻을 수 있다.
또한, 청구 범위 제61항에 기재된 데이터 처리 장치에 의하면, 청구 범위 제57항 또는 청구 범위 제58항의 상기 효과에 추가하여 대상 화자가 발성한 음성의 패턴 모델을 생성하지 않고 , 유사한 패턴 모델의 위치를 대상 화자가 발성한 음성 데이터의 음향 공간 내의 위치로 하도록 하였으므로 계산량을 줄일 수 있고, 또한 대상 화자가 발성한 음성의 패턴 모델을 생성하지 않고, 유사한 패턴 모델의 위치를 대상 화자가 발성한 음성 데이터의 음향 공간 내의 위치로 할 수 있도록 하였기 때문에 이것에 의하여도 계산량을 줄일 수 있으므로, 본 발명은 실시간 처리 등에 적절하다.
또한, 청구 범위 제62항에 기재된 데이터 처리 장치에 의하면, 청구 범위 제57항 또는 청구 범위 제58항의 상기 효과에 추가하여 예를 들면, 유사도가 높은 순서로 상위 몇 개의 패턴 모델을 선택하고, 이들 복수의 패턴 모델의 평균값를 검출 처리 및 평가 처리 등에 이용함으로써, 패턴 모델을 단수로 선택하여 이용하는 경우에서 유사하다고 판단하여 선택된 패턴 모델이 실제는 유사하지 않았던 것이었을 경우 등과 비교하여, 잘못된 패턴 모델이 선택되더라도 그 오차를 경감하는 것이 가능하게 된다.
또한, 청구 범위 제63항에 기재된 데이터 처리 장치에 의하면, 청구 범위 제61항 내지 청구 범위 제62항 중 어느 하나의 상기 효과에 추가하여 대상 화자의 음성 데이터와 복수의 화자의 복수의 패턴 모델과의 우도를 산출하여, 유사성을 판단하도록 하였으므로, 이것에 의하여, 대상 화자의 음성 데이터의 특징과 유사한 특징이 있는 패턴 모델을 간단하고 쉽게 선택할 수 있다고 하는 효과를 얻을 수 있다.
또한, 청구 범위 제64항에 기재된 데이터 처리 장치에 의하면, 청구 범위 제57항 내지 청구 범위 제60항 중 어느 하나의 상기 효과에 추가하여 대상 화자의 음 성 데이터 그 자체에 대하여 검출 처리나 평가 처리를 실시할 수 있다고 하는 효과를 얻을 수 있다.
또한, 청구 범위 제65항에 기재된 데이터 처리 장치에 의하면, 청구 범위 제63항 또는 청구 범위 제64항의 상기 효과에 추가하여 대상 화자의 음성 데이터의 음향 공간 내의 위치를 시각적으로 간편하게 파악할 수 있다고 하는 효과를 얻을 수 있다.
또한, 청구 범위 제66항에 기재된 데이터 처리 장치에 의하면, 청구 범위 제58항 내지 청구 범위 제65항 중 어느 하나의 상기 효과에 추가하여 대상 화자의 음성 데이터를, 단어나 문장 단위가 아니라, 음소 단위로 그 가치를 평가하고, 음소마다 평가 결과를 표시하도록 하였으므로, 간편하게 음소 단위의 유사성의 평가 결과를 알 수 있다고 하는 효과를 얻을 수 있다.
또한, 청구 범위 제67항에 기재된 데이터 처리 장치에 의하면, 청구 범위 제58항 내지 청구 범위 제66항 중 어느 하나의 상기 효과에 추가하여 예를 들면, 높은 목소리에 의한 발성, 낮은 목소리에 의하여 발성, 빠른 속도로 발성, 천천히 발성 등이 다양한 종류의 발화 양식에서 발성된 특정 화자의 음성에 대하여, 대상 화자의 음성의 유사성을 평가하도록 하였으므로, 대상 화자는 자신에게 맞은 발화 양식으로 발성된 특정 화자의 음성을 흉내내는 것 등을 할 수 있다고 하는 효과를 얻을 수 있다.
또한, 청구 범위 제68항에 기재된 데이터 처리 장치에 의하면, 청구 범위 제58항 내지 청구 범위 제67항 중 어느 하나의 상기 효과에 추가하여 저차원 공간의 축을, 예를 들면 발화 속도나 소리의 높이 등에 의하여 설정함으로써, 대처 화자의 음성 데이터의 특징이나, 그 주변의 복수의 화자 또는 특정 화자의 음성 데이터의 특징 등을 용이하게 파악할 수 있다고 하는 효과를 얻을 수 있다.
또한, 청구 범위 제69항에 기재된 데이터 처리 장치에 의하면, 청구 범위 제57항 내지 청구 범위 제68항 중 어느 하나의 상기 효과에 추가하여 패턴 모델을, 공지의 기술인 HMM를 사용하여 구성하도록 하였으므로, 취득한 음성 데이터의 파형에 생기는 변동을 흡수하는 것 등을 할 수 있다고 하는 효과를 얻을 수 있다.
또한, 청구 범위 제70항에 기재된 데이터 처리 시스템에 의하면, 예를 들면 인터넷 등을 통하여 정보처리 단말과 데이터 처리 장치를 접속함으로써, 인터넷을 통하여, 대상 화자의 음성 데이터에 대하여, 상기 검출 처리나 평가 처리 등을 실시하는 것이 가능하게 되고, 대상 화자는 자택 등으로부터 간편하게 자신의 음성의 검출 처리 또는 평가 처리를 실시할 수 있다고 하는 효과 등을 얻을 수 있다.
이때, 청구 범위 제71항에 기재된 데이터 처리 방법은 청구 범위 제57항의 데이터 처리 장치에 의하여 실현되는 것이며, 그 효과는 중복되므로 기재를 생략한다.
또한, 청구 범위 제72항에 기재된 데이터 처리 방법은 청구 범위 제58항의 데이터 처리 장치에 의하여 실현되는 것이며, 그 효과는 중복되므로 기재를 생략한다.
또한, 청구 범위 제73항에 기재된 데이터 처리 방법은 청구 범위 제59항의 데이터 처리 장치에 의하여 실현되는 것이고, 그 효과는 중복되므로 기재를 생략한 다.
또한, 청구 범위 제74항에 기재된 데이터 처리 장치 제어 프로그램은 청구 범위 제58항의 데이터 처리 장치를 제어하기 위한 프로그램으로서, 그 효과는 중복되므로 기재를 생략한다.
또한, 청구 범위 제75항에 기재된 데이터 처리 장치 제어 프로그램은 청구 범위 제59항의 데이터 처리 장치를 제어하기 위한 프로그램으로서, 그 효과는 중복되므로 기재를 생략한다.

Claims (75)

  1. 복수의 대상에 관한 복수의 소정의 데이터를 복수의 특정 조건에 기초하여 복수의 그룹으로 분류하는 데이터 분류 수단과,
    상기 데이터 분류 수단에 의하여 분류된 상기 소정의 데이터에 기초하여, 상기 소정의 데이터의 각 그룹마다 4차원 이상의 고차원의 요소를 가지는 복수의 패턴 모델을 생성하는 패턴 모델 생성 수단과,
    상기 패턴 모델 생성 수단에 의하여 각 그룹마다 생성된 패턴 모델의 각 패턴 모델 상호 간의 수학적 거리를 산출하는 수학적 거리 산출 수단과,
    상기 수학적 거리 산출 수단에 의하여 산출된 상기 수학적 거리에 기초하여, 상기 각 패턴 모델 상호 간의 거리 관계를 유지하면서, 상기 복수의 패턴 모델을 그보다 저차원의 동일한 수의 패턴 모델 대응 저차원 벡터로 변환하는 패턴 모델 변환 수단과,
    상기 복수의 패턴 모델 대응 저차원 벡터를, 저차원의 요소의 값에 기초하여, 상기 거리 관계를 유지한 상태로, 상기 패턴 모델 대응 저차원 벡터와 동일한 차원의 저차원 공간상의 좌표점으로서 표시하는 패턴 모델 대응 저차원 벡터 표시 수단을 포함하는 것을 특징으로 하는 데이터 처리 장치.
  2. 제1항에 있어서, 상기 복수의 대상에 관한 복수의 소정의 데이터는 음성 데이터, 생활 잡음 데이터, 울음 소리 데이터, 화상 데이터, 적외선 데이터 및 가속 도 데이터 중 어느 하나인 것을 특징으로 하는 데이터 처리 장치.
  3. 제1항에 있어서, 상기 복수의 대상에 관한 복수의 소정의 데이터는 복수의 화자가 발성한 복수의 음성 데이터이며, 상기 복수의 특정 조건은 적어도, 화자의 종류, 발화 어휘, 발화 양식 및 발화 환경을 포함하는 것을 특징으로 하는 데이터 처리 장치.
  4. 제1항에 있어서, 상기 데이터 분류 수단은 상기 복수의 특정 조건을 각각 임의로 조합한 각 조(組)마다 상기 그룹을 형성하는 것을 특징으로 하는 데이터 처리 장치.
  5. 제1항에 있어서, 상기 패턴 모델은 HMM (Hidden Markov Model)에 의하여 생성되는 것을 특징으로 하는 데이터 처리 장치.
  6. 제5항에 있어서, 상기 수학적 거리 산출 수단은 상기 HMM에 의하여 생성된, 상기 패턴 모델의 정규 분포의 평균 벡터에 기초하는 유클리드 거리, 상기 패턴 모델의 정규 분포의 표준 편차에 의하여 정규화된 상기 패턴 모델의 정규 분포의 평균 벡터에 기초하는 유클리드 거리 및 상기 패턴 모델의 정규 분포에 기초하는 바타체리야 거리 중 어느 하나를 사용하여 상기 수학적 거리를 산출하는 것을 특징으로 하는 데이터 처리 장치.
  7. 제6항에 있어서, 상기 패턴 모델 변환 수단은 새먼법을 사용하여, 상기 패턴 모델을 상기 패턴 모델 대응 저차원 벡터로 변환하는 것을 특징으로 하는 데이터 처리 장치.
  8. 제6항에 있어서, 상기 패턴 모델 대응 저차원 벡터 표시 수단에 의하여 상기 저차원 공간상에 표시되는 상기 복수의 패턴 모델 대응 저차원 벡터의 좌표점을 상기 저차원 공간상에서의 복수의 영역에 자동적으로 구분하는 영역 구분 수단을 포함하는 것을 특징으로 하는 데이터 처리 장치.
  9. 제8항에 있어서, 상기 영역 구분 수단은 상기 복수의 패턴 모델 대응 저차원 벡터를, 상기 전체 패턴 모델 대응 저차원 벡터의 좌표점의 중심을 기준으로 하고, 또한 상기 중심과 이 중심에서 가장 멀리 떨어진 위치의 패턴 모델 대응 저차원 벡터의 좌표점과의 거리를 반경으로 한 1개의 바깥쪽 원과, 상기 중심을 기준으로 하고, 또한 상기 바깥쪽 원보다 반경이 작은 n개의 안쪽 원 (n는 1 이상의 정수)에 의하여 구분하고, 또한 상기 바깥쪽 원 및 안쪽 원으로 이루어지는 복수의 동심원들의 각 외주 사이에 형성되는 환상의 영역을, 반경 방향으로 그어진 선에 의하여 복수로 구분하는 것을 특징으로 하는 데이터 처리 장치.
  10. 제9항에 있어서, 상기 영역 구분 수단에 의하여 자동 구분된 구분 내용을 변경하는 구분 내용 변경 수단을 포함하는 것을 특징으로 하는 데이터 처리 장치.
  11. 제8항 내지 제10항 중 어느 하나의 항에 있어서, 상기 영역 구분 수단에 의하여 구분된 각 영역마다 복수의 상기 패턴 모델 대응 저차원 벡터를 선택 가능한 영역 선택 수단과, 상기 영역 선택 수단에 의하여 선택된 영역 내에 있는 상기 복수의 패턴 모델 대응 저차원 벡터에 각각 대응하는 상기 패턴 모델에 관한 상기 소정의 데이터에 기초하여, 상기 패턴 모델을 생성하는 영역 패턴 모델 생성 수단을 포함하는 것을 특징으로 하는 데이터 처리 장치.
  12. 제1항에 기재된 데이터 처리 장치를 제어하기 위한 프로그램을 포함하는 컴퓨터 판독 가능 기록 매체로서, 상기 프로그램은,
    복수의 대상에 관한 복수의 소정의 데이터를, 복수의 특정 조건에 기초하여, 복수의 그룹으로 분류하는 데이터 분류 스텝과,
    상기 데이터 분류 스텝에 대하여 분류된 상기 소정의 데이터에 기초하여 상기 소정의 데이터의 각 그룹마다 4차원 이상의 고차원의 요소를 가지는 복수의 패턴 모델을 생성하는 패턴 모델 생성 스텝과,
    상기 패턴 모델 생성 스텝에 대하여 각 그룹마다 생성된 패턴 모델의 각 패턴 모델 상호 간의 수학적 거리를 산출하는 수학적 거리 산출 스텝과,
    상기 수학적 거리 산출 스텝에 대하여 산출된 상기 수학적 거리에 기초하여, 상기 각 패턴 모델 상호 간의 거리 관계를 유지하면서, 상기 복수의 패턴 모델을 그보다 저차원의 동일한 수의 패턴 모델 대응 저차원 벡터로 변환하는 패턴 모델 변환 스텝과,
    상기 복수의 패턴 모델 대응 저차원 벡터를, 저차원의 요소의 값에 기초하여, 상기 거리 관계를 유지한 상태로, 상기 패턴 모델 대응 저차원 벡터와 동일한 차원의 저차원 공간상의 좌표점으로서 표시하는 패턴 모델 대응 저차원 벡터 표시 스텝을 포함하는 것을 특징으로 하는 컴퓨터 판독 가능 기록 매체.
  13. 제12항에 있어서, 상기 패턴 모델 대응 저차원 벡터 표시 스텝에 있어서 저차원 공간상에 표시되는 상기 복수의 패턴 모델 대응 저차원 벡터를, 상기 저차원 공간상에 있어서 복수의 영역에 자동적으로 구분하는 영역 구분 스텝과,
    상기 영역 구분 스텝에 의하여 자동 구분된 구분 내용을 변경하는 구분 내용 변경 스텝과,
    상기 영역 구분 스텝에 의하여 구분된 각 영역마다 복수의 상기 패턴 모델 대응 저차원 벡터를 선택하는 영역 선택 스텝과,
    상기 영역 선택 스텝에 의하여 선택된 영역 내의 상기 패턴 모델 대응 저차원 벡터에 대응하는 상기 패턴 모델에 관한, 상기 소정의 데이터에 기초하여, 선택 영역에 대응하는 상기 패턴 모델을 생성하는 영역 패턴 모델 생성 스텝을 포함하는 것을 특징으로 하는 컴퓨터 판독 가능 기록 매체.
  14. 청구 범위 제1항 내지 청구 범위 제7항 중 어느 하나의 항에 기재된 데이터 처리 장치에 의하여 표시된 상기 저차원 공간상의 좌표점을, 상기 저차원 공간상에 있어서 복수의 영역에 자동적으로 구분하는 영역 구분 수단과,
    상기 구분된 영역 내에 포함되는 상기 패턴 모델 대응 저차원 벡터의 좌표점에 대응하는 소정의 데이터에 기초하여, 각 영역 마다의 패턴 모델을 생성하는 영역 패턴 모델 생성 수단과,
    신규 대상에 관한 소정 데이터를 취득하는 소정 데이터 취득 수단과,
    상기 취득한 소정의 데이터에 대한 상기 구분된 각 영역에 대응하는 영역 패턴 모델의 우도를 산출하고, 상기 산출한 우도에 기초하여 상기 신규 대상의 소정의 데이터를 인식하는데 적합한 인식 성능의 영역 패턴 모델을 탐색하는 영역 패턴 모델 탐색 수단을 포함하는 것을 특징으로 하는 패턴 모델 탐색 장치.
  15. 제14항에 기재된 패턴 모델 탐색 장치를 제어하기 위한 프로그램을 포함하는 컴퓨터 판독 가능 기록 매체로서, 상기 프로그램은,
    청구 범위 제1항 내지 청구 범위 제7항 중 어느 하나의 항에 기재된 데이터 처리 장치에 의하여 표시된 상기 저차원 공간상의 좌표점을, 상기 저차원 공간상에 있어서 복수의 영역에 자동적으로 구분하는 영역 구분 스텝과,
    상기 구분된 영역 내에 포함되는 상기 패턴 모델 대응 저차원 벡터의 좌표점에 대응하는 음성 데이터에 기초하여, 각 영역 마다의 패턴 모델을 생성하는 영역 패턴 모델 생성 스텝과,
    신규 대상에 관한 소정의 데이터를 취득하는 소정의 데이터 취득 스텝과,
    상기 취득한 소정의 데이터에 대한 상기 구분된 각 영역에 대응하는 영역 패턴 모델의 우도를 산출하고, 상기 산출한 우도에 기초하여 상기 신규 대상의 소정의 데이터를 인식하는데 적합한 인식 성능의 영역 패턴 모델을 탐색하는 영역 패턴 모델 탐색 스텝을 포함하는 것을 특징으로 하는 컴퓨터 판독 가능 기록 매체.
  16. 복수의 대상에 관한 복수의 소정의 데이터를, 복수의 특정 조건에 기초하여, 복수의 그룹으로 분류하는 데이터 분류 수단과,
    상기 데이터 분류 수단에 의하여 분류된 상기 소정의 데이터에 기초하여, 상기 소정의 데이터의 각 그룹마다 4차원 이상의 고차원의 요소를 가지는 복수의 패턴 모델을 생성하는 패턴 모델 생성 수단과,
    상기 패턴 모델 생성 수단에 의하여 각 그룹마다 생성된 패턴 모델의 각 패턴 모델 상호 간의 수학적 거리를 산출하는 수학적 거리 산출 수단과,
    상기 수학적 거리 산출 수단에 의하여 산출된 상기 수학적 거리에 기초하여, 상기 각 패턴 모델 상호 간의 거리 관계를 유지하면서, 상기 복수의 패턴 모델을 그보다 저차원의 동일한 수의 패턴 모델 대응 저차원 벡터로 변환하는 패턴 모델 변환 수단과,
    상기 복수의 패턴 모델 대응 저차원 벡터를, 저차원의 요소의 값에 기초하여, 상기 거리 관계를 유지한 상태로 상기 패턴 모델 대응 저차원 벡터와 동일한 차원의 저차원 공간상의 좌표점으로서 표시하는 패턴 모델 대응 저차원 벡터 표시 수단을 포함하고,
    상기 수학적 거리 산출 수단은 상기 수학적 거리의 산출에 있어서, 상기 복수의 대상에 관한 복수의 소정의 데이터에 있어서 각 패턴 단위의 출현 빈도를 사용하는 것을 특징으로 하는 데이터 처리 장치.
  17. 제16항에 있어서, 상기 패턴 단위의 출현 빈도는 상기 복수의 소정의 데이터에 대한 상기 패턴 모델을 사용한 패턴 인식에 있어서 상기 복수의 대상에 관한 복수의 소정의 데이터 중, 인식 성능이 소정의 역치보다 낮은 패턴 단위의 출현 빈도인 것을 특징으로 하는 데이터 처리 장치.
  18. 복수의 대상에 관한 복수의 소정의 데이터를, 복수의 특정 조건에 기초하여, 복수의 그룹으로 분류하는 데이터 분류 수단과,
    상기 데이터 분류 수단에 의하여 분류된 상기 소정 데이터에 기초하여, 상기 소정 데이터의 각 그룹마다 4차원 이상의 고차원의 요소를 가지는 복수의 패턴 모델을 생성하는 패턴 모델 생성 수단과,
    상기 패턴 모델 생성 수단에 의하여 각 그룹마다 생성된 패턴 모델의 각 패턴 모델 상호 간의 수학적 거리를 산출하는 수학적 거리 산출 수단과,
    상기 수학적 거리 산출 수단에 의하여 산출된 상기 수학적 거리에 기초하여, 상기 각 패턴 모델 상호 간의 거리 관계를 유지하면서, 상기 복수의 패턴 모델을 그보다 저차원의 동일한 수의 패턴 모델 대응 저차원 벡터로 변환하는 패턴 모델 변환 수단과,
    상기 복수의 패턴 모델 대응 저차원 벡터를, 저차원 요소의 값에 기초하여, 상기 거리 관계를 유지한 상태로, 상기 패턴 모델 대응 저차원 벡터와 동일한 차원의 저차원 공간상의 좌표점으로서 표시하는 패턴 모델 대응 저차원 벡터 표시 수단과,
    상기 패턴 모델 대응 저차원 벡터 표시 수단에 의하여 상기 저차원 공간상에 표시되는 상기 복수의 패턴 모델 대응 저차원 벡터의 좌표점을, 상기 저차원 공간상에 있어서 복수의 영역에 자동적으로 구분하는 영역 구분 수단과,
    상기 구분된 영역 내에 포함되는 상기 패턴 모델 대응 저차원 벡터의 좌표점에 대응하는 소정의 데이터에 기초하여, 각 영역마다의 영역 패턴 모델을 생성하는 영역 패턴 모델 생성 수단과,
    신규 대상에 관한 소정의 데이터를 취득하는 소정의 데이터 취득 수단과,
    상기 취득한 소정의 데이터에 대한 상기 구분된 각 영역에 대응하는 영역 패턴 모델의 우도를 산출하고, 상기 산출한 우도에 기초하여, 상기 영역 패턴 모델 생성 수단에 의하여 생성된 영역 패턴 모델 중에서 상기 신규 대상의 소정의 데이터를 인식하는데 적합한 인식 성능의 영역 패턴 모델을 탐색하는 영역 패턴 모델 탐색 수단을 포함하는 것을 특징으로 하는 데이터 처리 장치.
  19. 제18항에 있어서, 상기 수학적 거리 산출 수단은 상기 수학적 거리의 산출에 대하여, 상기 복수의 대상에 관한 복수의 소정의 데이터에 있어서 각 패턴 단위의 출현 빈도를 사용하는 것을 특징으로 하는 데이터 처리 장치.
  20. 제19항에 있어서, 상기 패턴 단위의 출현 빈도는 상기 복수의 대상에 관한 복수의 소정의 데이터에 대한 상기 패턴 모델을 사용한 패턴 인식에 있어서 상기 복수의 대상에 관한 복수의 패턴 단위 중, 인식 성능이 소정의 역치보다 낮은 패턴 단위의 출현 빈도인 것을 특징으로 하는 데이터 처리 장치.
  21. 제19항에 있어서, 상기 영역 구분 수단은 상기 복수의 패턴 모델 대응 저차원 벡터를, 상기 전체 패턴 모델 대응 저차원 벡터의 좌표점의 중심을 기준으로 하고, 또한 상기 중심과 상기 중심으로부터 가장 멀리 떨어진 위치의 패턴 모델 대응 저차원 벡터의 좌표점과의 거리를 반경으로 한 1개의 바깥쪽 원과, 상기 중심을 기준으로 하고, 또한 상기 바깥쪽 원보다 반경이 작은 n개의 안쪽 원 (n는 1 이상의 정수)에 의하여 구분하고, 또한 상기 바깥쪽 원 및 안쪽 원으로 이루어지는 복수의 동심원끼리의 각 외주 사이에 형성되는 환상의 영역을, 반경 방향으로 그은 선에 의하여 복수 개로 구분하는 것을 특징으로 하는 데이터 처리 장치.
  22. 제21항에 있어서, 상기 영역 구분 수단은 가장 안쪽 원으로부터 바깥쪽 원 방향으로 갈수록, 상기 각 환상의 영역에 포함되는 패턴 모델 대응 저차원 벡터를 세밀하게 구분하는 것을 특징으로 하는 데이터 처리 장치.
  23. 제21항에 있어서, 상기 영역 구분 수단은 구분 결과의 각 영역에서 상기 각 영역에 포함되는 패턴 모델 대응 저차원 벡터와 이것과 서로 이웃하는 영역에 포함되는 패턴 모델 대응 저차원 벡터의 일부가 중복되도록 영역을 구분하는 것을 특징으로 하는 데이터 처리 장치.
  24. 제21항에 있어서, 상기 영역 패턴 모델 탐색 수단은 상기 구분 결과의 가장 안쪽 원으로부터 바깥쪽 원 방향을 향하여 순서대로, 상기 취득한 소정의 데이터에 대한 상기 구분된 영역에 대응하는 영역 패턴 모델의 우도를 산출하고, 상기 산출한 우도에 기초하여, 상기 영역 패턴 모델 생성 수단에 의하여 생성된 영역 패턴 모델 중에서 상기 신규 대상의 소정의 데이터의 인식에 적절한 인식 성능의 영역 패턴 모델을 탐색하는 것을 특징으로 하는 데이터 처리 장치.
  25. 제24항에 있어서, 상기 영역 패턴 모델 탐색 수단은 상기 취득한 소정의 데이터에 대한, 가장 안쪽 원의 영역에 대응하는 영역 패턴 모델의 우도를 산출하고, 다음으로, 가장 안쪽 원에 인접하는 환상의 영역에서의 각 구분 영역에 대응하는 영역 패턴 모델의 우도를 산출하고, 상기 산출한 우도의 가장 높은 우도의 영역 패턴 모델에 대응하는 영역에 인접한 바깥쪽 원 방향의 영역에 대응하는 영역 패턴 모델의 우도를 산출하고, 이후 바깥쪽 원 방향을 향하여 순서대로, 바로 직전 안쪽의 환상의 영역에서 산출된 우도가 가장 높은 영역 패턴 모델이 대응하는 영역에 인접하는 바깥쪽 원 방향의 영역에 대응하는 영역 패턴 모델의 우도를 산출하는 것을 특징으로 하는 데이터 처리 장치.
  26. 제 24항에 있어서, 상기 영역 패턴 모델 탐색 수단은 상기 취득한 소정의 데이터에 대한, 가장 안쪽 원의 영역에 대응하는 영역 패턴 모델의 우도를 산출하고, 다음으로, 가장 안쪽 원에 인접하는 환상의 영역에서의 각 구분 영역에 대응하는 영역 패턴 모델의 우도를 산출하고, 상기 산출한 우도 중 상위 m개의 우도에 대응하는 영역 패턴 모델 (m는 2이상의 정수)에 각각 대응하는 영역에 인접한 바깥쪽 원 방향의 구분 영역에 대응하는 영역 패턴 모델의 우도를 산출하고, 그 이후는 바깥쪽 원 방향을 향하여 순서대로, 바로 직전 안쪽의 환상의 영역에 있어 산출된 우도의 가장 높은 영역 패턴 모델의 대응하는 영역에 인접하는 바깥쪽 원 방향의 영역에 대응하는 영역 패턴 모델의 우도를 산출하는 것을 특징으로 하는 데이터 처리 장치.
  27. 제22항에 있어서, 상기 복수의 대상에 관한 복수의 소정의 데이터는 복수의 화자가 발성한 복수의 음성 데이터이며,
    상기 복수의 특정 조건은 적어도, 화자의 종류, 발화 어휘, 발화 양식 및 발화 환경을 포함하는 것을 특징으로 하는 데이터 처리 장치.
  28. 제27항에 있어서, 상기 데이터 분류 수단은 상기 복수의 특정 조건을 각각 임의로 조합한 각 조마다 상기 그룹을 형성하는 것을 특징으로 하는 데이터 처리 장치.
  29. 제28항에 있어서, 상기 패턴 모델은 HMM (Hidden Markov Model)에 의하여 생성되는 것을 특징으로 하는 데이터 처리 장치.
  30. 제29항에 있어서, 상기 수학적 거리 산출 수단은 상기 HMM에 의하여 생성된, 상기 패턴 모델의 정규 분포의 평균 벡터에 기초하는 유클리드 거리, 상기 패턴 모델 정규 분포의 표준 편차에 의하여 정규화된 상기 패턴 모델의 정규 분포의 평균 벡터에 기초하는 유클리드 거리 및 상기 패턴 모델의 정규 분포에 기초하는 바타체리야 거리 중 어느 하나를 사용하여 상기 수학적 거리를 산출하는 것을 특징으로 하는 데이터 처리 장치.
  31. 제30항에 있어서, 상기 패턴 모델 변환 수단은 새먼법을 사용하여, 상기 패턴 모델을 상기 패턴 모델 대응 저차원 벡터로 변환하는 것을 특징으로 하는 데이터 처리 장치.
  32. 제31항에 있어서, 상기 영역 구분 수단에 의하여 자동 구분된 구분 내용을 변경하는 구분 내용 변경 수단을 포함하는 것을 특징으로 하는 데이터 처리 장치.
  33. 제32항에 있어서, 상기 영역 패턴 모델 탐색 수단에 의하여 탐색된 영역 패턴 모델을 신규 대상의 소정의 데이터에 기초하여, 상기 신규 대상용으로 적응하는 패턴 모델 적응 수단을 포함하는 것을 특징으로 하는 데이터 처리 장치.
  34. 제33항에 있어서, 상기 패턴 모델 변환 수단은 상기 영역 패턴 모델 탐색 수단에 의하여 탐색된 영역 패턴 모델에 대응하는 영역 내에 포함되는 상기 복수의 패턴 모델 대응 저차원 벡터에 대응하는 고차원 패턴 모델을, 상기 패턴 모델 대응 저차원 벡터로 변환 가능하고, 상기 패턴 모델 대응 저차원 벡터 표시 수단은 상기 변환 후의 패턴 모델 대응 저차원 벡터를, 저차원의 요소의 값에 기초하여, 상기 거리 관계를 유지한 상태로, 상기 패턴 모델 대응 저차원 벡터와 동일한 차원의 저차원 공간상의 좌표점으로서 표시하는 것이 가능하고, 상기 영역 구분 수단은 상기 저차원 공간상에 표시되는 상기 복수의 패턴 모델 대응 저차원 벡터의 좌표점을 상기 저차원 공간상에서의 복수의 영역에 자동적으로 구분 가능한 것을 특징으로 하는 데이터 처리 장치.
  35. 제16항에 기재된 데이터 처리 장치를 제어하기 위한 프로그램을 포함하는 컴퓨터 판독 가능 기록 매체로서, 상기 프로그램은,
    복수의 대상에 관한 복수의 소정의 데이터를, 복수의 특정 조건에 기초하여, 복수의 그룹으로 분류하는 데이터 분류 스텝과,
    상기 데이터 분류 스텝에서의 분류된 상기 소정의 데이터에 기초하여, 상기 소정의 데이터의 각 그룹마다 4차원 이상의 고차원의 요소를 가지는 복수의 패턴 모델을 생성하는 패턴 모델 생성 스텝과,
    상기 패턴 모델 생성 스텝에서의 각 그룹마다 생성된 패턴 모델의 각 패턴 모델 상호 간의 수학적 거리를 산출하는 수학적 거리 산출 스텝과,
    상기 수학적 거리 산출 스텝에서 산출된 상기 수학적 거리에 기초하여, 상기 각 패턴 모델 상호 간의 거리 관계를 유지하면서, 상기 복수의 패턴 모델을 그보다 저차원의 동일한 수의 패턴 모델 대응 저차원 벡터로 변환하는 패턴 모델 변환 스텝과,
    상기 복수의 패턴 모델 대응 저차원 벡터를, 저차원의 요소의 값에 기초하여, 상기 거리 관계를 유지한 상태로, 상기 패턴 모델 대응 저차원 벡터와 동일한 차원의 저차원 공간상의 좌표점으로서 표시하는 패턴 모델 대응 저차원 벡터 표시 스텝을 포함하고,
    상기 수학적 거리 산출 스텝에 있어서는 상기 수학적 거리의 산출에서 상기 복수의 대상에 관한 복수의 소정 데이터에서의 각 패턴 단위의 출현 빈도를 사용하는 것을 특징으로 하는 컴퓨터 판독 가능 기록 매체.
  36. 제18항에 기재된 데이터 처리 장치를 제어하기 위한 프로그램을 포함하는 컴퓨터 판독 가능 기록 매체로서, 상기 프로그램은,
    복수의 대상에 관한 복수의 소정의 데이터를 복수의 특정 조건에 기초하여 복수의 그룹으로 분류하는 데이터 분류 스텝과,
    상기 데이터 분류 스텝에서의 분류된 상기 소정의 데이터에 기초하여, 상기 소정의 데이터의 각 그룹마다 4차원 이상의 고차원의 요소를 가지는 복수의 패턴 모델을 생성하는 패턴 모델 생성 스텝과,
    상기 패턴 모델 생성 스텝에 있어서 각 그룹마다 생성된 패턴 모델의 각 패턴 모델 상호 간의 수학적 거리를 산출하는 수학적 거리 산출 스텝과,
    상기 수학적 거리 산출 스텝에 있어서 산출된 상기 수학적 거리에 기초하여, 상기 각 패턴 모델 상호 간의 거리 관계를 유지하면서, 상기 복수의 패턴 모델을 그보다 저차원의 동일한 수의 패턴 모델 대응 저차원 벡터로 변환하는 패턴 모델 변환 스텝과,
    상기 복수의 패턴 모델 대응 저차원 벡터를, 저차원의 요소의 값에 기초하여, 상기 거리 관계를 유지한 상태로, 상기 패턴 모델 대응 저차원 벡터와 동일한 차원의 저차원 공간상의 좌표점으로서 표시하는 패턴 모델 대응 저차원 벡터 표시 스텝과,
    상기 패턴 모델 대응 저차원 벡터 표시 스텝에 대하여 상기 저차원 공간상에 표시되는 상기 복수의 패턴 모델 대응 저차원 벡터의 좌표점을 상기 저차원 공간상에서의 복수의 영역에 자동적으로 구분하는 영역 구분 스텝과,
    상기 구분된 영역 내에 포함되는 상기 패턴 모델 대응 저차원 벡터의 좌표점에 대응하는 소정의 데이터에 기초하여, 각 영역 마다의 패턴 모델을 생성하는 영역 패턴 모델 생성 스텝과,
    신규 대상에 관한 소정의 데이터를 취득하는 소정의 데이터 취득 스텝과,
    상기 취득한 소정의 데이터에 대한 상기 구분된 각 영역에 대응하는 상기 영역 패턴 모델의 우도를 산출하고, 상기 산출한 우도에 기초하여 상기 신규 대상의 소정의 데이터의 인식에 적절한 인식 성능의 영역 패턴 모델을 탐색하는 영역 패턴 모델 탐색 스텝을 포함하는 것을 특징으로 하는 컴퓨터 판독 가능 기록 매체.
  37. 시스템 이용자의 관리하에 있는 정보처리 단말과; 그리고
    제18항 내지 청구 범위 제34항 중 어느 하나의 항에 기재된 데이터 처리 장치를 포함하고;
    상기 정보처리 단말 및 상기 데이터 처리 장치를 서로 데이터 통신 가능하게 접속하며;
    상기 데이터 처리 장치에서의 상기 복수의 대상에 관한 복수의 소정의 데이터는 복수의 화자가 발성한 복수의 음성 데이터이며,
    상기 정보처리 단말은 상기 시스템 이용자가 발성한 음성의 데이터를 취득하고, 상기 취득한 음성 데이터를 상기 데이터 처리 장치에 송신하는 음성 데이터 송신 수단과, 상기 데이터 처리 장치로부터 상기 시스템 이용자의 음성 데이터를 패턴 인식하는데 적합한 상기 특정 패턴 모델을 취득하는 특정 패턴 모델 취득 수단 을 포함하고,
    상기 데이터 처리 장치는 상기 소정의 데이터 취득 수단에 의하여 상기 정보처리 단말로부터의 상기 음성 데이터를 취득하고, 또한 상기 취득한 음성 데이터에 기초하여 상기 시스템 이용자용의 상기 특정 패턴 모델을 생성하도록 되어 있고; 그리고
    상기 생성한 특정 패턴 모델을 상기 정보처리 단말에 송신하는 특정 패턴 모델 송신 수단을 더 포함하는 것을 특징으로 하는 특정 패턴 모델 제공 시스템.
  38. 복수의 화자의 음성 데이터로부터 생성된 복수의 패턴 모델에 의하여 구성된 음향 공간을 기억하는 음향 공간 기억 수단과,
    대상 화자의 음성 데이터를 취득하는 음성 데이터 취득 수단과,
    상기 음성 데이터 취득 수단에 의하여 취득된 상기 대상 화자의 음성 데이터와 상기 음향 공간 기억 수단이 기억하는 음향 공간 내의 상기 복수의 패턴 모델에 기초하여, 상기 음향 공간 내에서의 상기 대상 화자의 음성 데이터의 위치를 산출하는 위치 산출 수단과,
    상기 위치 산출 수단에 의하여 산출된 상기 위치에 기초하여 상기 대상 화자의 음성 데이터의 가치를 평가하는 음성 데이터 평가 수단과,
    상기 음성 데이터 평가 수단의 평가 결과를 표시하는 평가 결과 표시 수단과,
    상기 산출된 위치에 기초하여, 상기 음향 공간 내에서의 상기 음성 데이터와 그 주변의 패턴 모델의 위치 관계를 나타내는 정보를 표시하는 위치 관계 정보 표시 수단을 포함하는 것을 특징으로 하는 데이터 처리 장치.
  39. 제38항에 있어서,
    상기 음성 데이터 평가 수단은 상기 위치 산출 수단에 의하여 산출된 상기 대상 화자의 음성 데이터의 위치로부터 소정 거리의 범위 내에 존재하는 상기 패턴 모델의 수에 기초하여, 상기 음성 데이터의 가치를 평가하는 것을 특징으로 하는 데이터 처리 장치.
  40. 제39항에 있어서, 상기 소정 거리는 단계적으로 설정되어 있고,
    상기 음성 데이터 평가 수단은 각 단계마다 설정된 각 거리 범위 내에서의 상기 패턴 모델의 수에 기초하여, 상기 음성 데이터의 가치를 평가하는 것을 특징으로 하는 데이터 처리 장치.
  41. 제38항에 있어서, 상기 음성 데이터 평가 수단은 상기 위치 산출 수단에 의하여 산출된 상기 위치에 기초하여, 상기 복수의 패턴 모델 중에서, 상기 대상 화자의 음성 데이터의 특징과 유사한 특징이 있는 패턴 모델을 상기 대상 화자의 패턴 모델로서 상기 평가에 사용하는 것을 특징으로 하는 데이터 처리 장치.
  42. 제41항에 있어서, 상기 음성 데이터 평가 수단은 상기 복수의 패턴 모델 중에서, 상기 대상 화자의 음성 데이터의 특징과 유사한 특징이 있는 상위 몇 개의 패턴 모델을 상기 대상 화자의 패턴 모델로서 상기 평가에 이용하는 것을 특징으로 하는 데이터 처리 장치.
  43. 제42항에 있어서, 상기 위치 산출 수단은 상기 음성 데이터 취득 수단에 의하여 취득된 음성 데이터를 고차원의 특징량 데이터로 변환하고, 상기 특징량 데이터와 상기 복수의 화자의 복수의 패턴 모델에 기초하여, 상기 특징량 데이터와 각 패턴 모델의 우도를 산출하고, 상기 산출된 우도에 기초하여 상기 복수의 화자의 복수의 패턴 모델 중에서 특정한 패턴 모델을 선택하고, 상기 선택된 특정한 패턴 모델과 다른 패턴 모델 상호 간의 수학적 거리를 산출하고, 상기 산출된 수학적 거리에 기초하여, 상기 음향 공간 내에서의 상기 취득된 음성 데이터의 위치를 산출하는 것을 특징으로 하는 데이터 처리 장치.
  44. 제38항에 있어서, 상기 위치 산출 수단은 상기 음성 데이터 취득 수단에 의하여 취득된 음성 데이터를 고차원의 특징량 데이터로 변환하고, 상기 특징량 데이터에 기초하여 대상 화자용의 패턴 모델을 생성하고, 상기 생성된 패턴 모델과 상기 복수의 화자의 복수의 패턴 모델의 상호 간의 수학적 거리를 산출하고, 상기 산출된 수학적 거리에 기초하여, 상기 음향 공간 내에서의 상기 취득된 음성 데이터의 위치를 산출하는 것을 특징으로 하는 데이터 처리 장치.
  45. 제44항에 있어서, 상기 패턴 모델은 4차원 이상의 고차원의 요소로 구성되어 있고,
    상기 위치 관계 정보 표시 수단은 상기 대상 화자의 음성 데이터에 대응하는 패턴 모델을 포함하는 상기 음향 공간 내의 복수의 패턴 모델을, 이러한 거리 관계를 유지한 상태로, 이보다 저차원의 패턴 모델로 변환하고, 상기 변환 후의 패턴 모델을 저차원 공간상의 좌표점으로서 표시하는 것을 특징으로 하는 데이터 처리 장치.
  46. 제38항 내지 제45항 중 어느 하나의 항에 있어서, 상기 패턴 모델을 HMM (Hidden Markov Model)에 의하여 구성한 것을 특징으로 하는 데이터 처리 장치.
  47. 제38항 내지 제45항 중 어느 하나의 항에 있어서, 상기 음성 데이터 평가 수단은 상기 대상 화자의 음성 데이터에서의 음소별 가치를 평가하게 되어 있고,
    상기 평가 결과 표시 수단은 상기 대상 화자의 음성 데이터의 음소별 평가 결과를 표시하는 것을 특징으로 하는 데이터 처리 장치.
  48. 제38항 내지 제45항 중 어느 하나의 항에 있어서, 상기 평가 결과 표시 수단은 상기 음성 데이터 평가 수단에 의하여 상기 대상 화자의 음성 데이터의 가치가 낮다고 평가되었을 경우에, 그 음성 데이터에 대한 보정 정보를 표시하는 것을 특징으로 하는 데이터 처리 장치.
  49. 제38항 내지 제45항 중 어느 하나의 항에 있어서, 상기 대상 화자와의 사이에 상기 음성 데이터의 제공 가부에 관한 교섭을 행하기 위한 교섭 수단과,
    상기 교섭 수단에 의하여 교섭이 성립된 상기 음성 데이터를 기억하는 음성 데이터 기억 수단을 포함하는 것을 특징으로 하는 데이터 처리 장치.
  50. 대상 화자의 관리하에 있는 정보처리 단말과,
    제38항 내지 제49항 중 어느 하나의 항에 기재된 데이터 처리 장치를 포함하고,
    상기 정보처리 단말과 상기 데이터 처리 장치를 서로 데이터 통신 가능하게 접속하며,
    상기 정보처리 단말은 상기 대상 화자의 음성 데이터를 취득하고, 상기 취득한 음성 데이터를 상기 데이터 처리 장치에 송신하는 음성 데이터 송신 수단과 상기 데이터 처리 장치로부터 취득한, 상기 대상 화자의 음성 데이터의 평가 결과에 관한 정보를 표시하는 평가 정보 표시 수단을 포함하고,
    상기 데이터 처리 장치는 상기 평가 결과에 관한 정보를 상기 정보처리 단말에 송신하는 평가 정보 송신 수단을 포함하는 것을 특징으로 하는 데이터 처리 시스템.
  51. 복수의 화자의 음성 데이터로부터 생성된 복수의 패턴 모델에 의하여 구성된 음향 공간을 준비하고,
    대상 화자의 음성 데이터를 취득하고,
    상기 취득된 상기 대상 화자의 음성 데이터와 상기 음향 공간 내의 상기 복수의 패턴 모델에 기초하여, 상기 음향 공간 내에서의 상기 대상 화자의 음성 데이터의 위치를 산출하고,
    상기 산출된 상기 위치에 기초하여, 상기 대상 화자의 음성 데이터의 가치를 평가하고, 상기 평가 결과를 표시하는 것을 특징으로 하는 데이터 처리 방법.
  52. 제38항에 기재된 데이터 처리 장치를 제어하기 위한 프로그램을 포함하는 컴퓨터 판독 가능 기록 매체로서, 상기 프로그램은,
    복수의 화자의 음성 데이터로부터 생성된 복수의 패턴 모델에 의하여 구성된 음향 공간을 기억하는 음향 공간 기억 스텝과,
    대상 화자의 음성 데이터를 취득하는 음성 데이터 취득 스텝과,
    상기 음성 데이터 취득 스텝에서 취득된 상기 대상 화자의 음성 데이터와, 상기 음향 공간 기억 스텝에서 기억된 음향 공간 내의 상기 복수의 패턴 모델에 기초하여, 상기 음향 공간 내에서의 상기 대상 화자의 음성 데이터의 위치를 산출하는 위치 산출 스텝과,
    상기 위치 산출 스텝에서 산출된 상기 위치에 기초하여, 상기 대상 화자의 음성 데이터의 가치를 평가하는 음성 데이터 평가 스텝과,
    상기 음성 데이터 평가 스텝에 의한 평가 결과를 표시하는 평가 결과 표시 스텝을 포함하는 것을 특징으로 하는 컴퓨터 판독 가능 기록 매체.
  53. 제5O항에 기재된 데이터 처리 시스템에 적용 가능한 상기 데이터 처리 장치로서,
    복수의 화자의 음성 데이터로부터 생성된 복수의 패턴 모델에 의하여 구성된 음향 공간을 기억하는 음향 공간 기억 수단과,
    대상 화자의 음성 데이터를 취득하는 음성 데이터 취득 수단과,
    상기 음성 데이터 취득 수단에 의하여 취득된 상기 대상 화자의 음성 데이터와 상기 음향 공간 기억 수단의 기억하는 음향 공간 내의 상기 복수의 패턴 모델에 기초하여, 상기 음향 공간에 있어서 상기 대상 화자의 음성 데이터의 위치를 산출하는 위치 산출 수단과,
    상기 위치 산출 수단에 의하여 산출된 상기 위치에 기초하여, 상기 대상 화자의 음성 데이터의 가치를 평가하는 음성 데이터 평가 수단과,
    상기 음성 데이터 평가 수단의 평가 결과를 표시하는 평가 결과 표시 수단과,
    상기 산출된 위치에 기초하여, 상기 음향 공간 내에서의 상기 음성 데이터와 그 주변의 패턴 모델의 위치 관계를 나타내는 정보를 표시하는 위치 관계 정보 표시 수단과,
    상기 평가 결과에 관한 정보를 상기 정보처리 단말에 송신하는 평가 정보 송신 수단을 포함하는 것을 특징으로 하는 데이터 처리 장치.
  54. 제50항에 기재된 데이터 처리 시스템에 적용 가능한 상기 정보처리 단말로서,
    상기 대상 화자의 음성 데이터를 취득하고, 상기 취득한 음성 데이터를 상기 데이터 처리 장치에 송신하는 음성 데이터 송신 수단과,
    상기 데이터 처리 장치로부터 취득한, 상기 대상 화자의 음성 데이터의 평가 결과에 관한 정보를 표시하는 평가 정보 표시 수단을 포함하는 것을 특징으로 하는 정보처리 단말.
  55. 제53항에 기재된 데이터 처리 장치를 제어하기 위한 프로그램을 포함하는 컴퓨터 판독 가능 기록 매체로서, 상기 프로그램은,
    상기 데이터 처리 장치는 복수의 화자의 음성 데이터로부터 생성된 복수의 패턴 모델로 구성된 음향 공간을 포함하고 있고,
    대상 화자의 음성 데이터를 취득하는 음성 데이터 취득 스텝과,
    상기 음성 데이터 취득 스텝에서 취득된 상기 대상 화자의 음성 데이터와 상 기 음향 공간 내의 상기 복수의 패턴 모델에 기초하여, 상기 음향 공간 내에서의 상기 대상 화자의 음성 데이터의 위치를 산출하는 위치 산출 스텝과,
    상기 위치 산출 스텝에서 산출된 상기 위치에 기초하여, 상기 대상 화자의 음성 데이터의 가치를 평가하는 음성 데이터 평가 스텝과,
    상기 음성 데이터 평가 스텝에 의한 평가 결과를 표시하는 평가 결과 표시 스텝과,
    상기 산출된 위치에 기초하여, 상기 음향 공간 내에서의 상기 음성 데이터와 그 주변의 패턴 모델의 위치 관계를 나타내는 정보를 표시하는 위치 관계 정보 표시 스텝과,
    상기 평가 결과에 관한 정보를 상기 정보처리 단말에 송신하는 평가 정보 송신 스텝을 포함하는 것을 특징으로 하는 컴퓨터 판독 가능 기록 매체.
  56. 제54항에 기재된 정보처리 단말을 제어하기 위한 프로그램을 포함하는 컴퓨터 판독 가능 기록 매체로서, 상기 프로그램은,
    상기 대상 화자의 음성 데이터를 취득하고, 상기 취득한 음성 데이터를 상기 데이터 처리 장치에 송신하는 음성 데이터 송신 스텝과,
    상기 데이터 처리 장치로부터 취득한 상기 대상 화자의 음성 데이터의 평가 결과에 관한 정보를 표시하는 평가 정보 표시 스텝을 포함하는 것을 특징으로 하는 컴퓨터 판독 가능 기록 매체.
  57. 복수의 화자의 음성 데이터로부터 생성된 복수의 패턴 모델에 의하여 구성된 음향 공간을 기억하는 음향 공간 기억 수단과,
    대상 화자의 음성 데이터를 취득하는 음성 데이터 취득 수단과,
    상기 대상 화자의 음성 데이터와 상기 음향 공간 내의 상기 복수의 패턴 모델에 기초하여, 상기 음향 공간 내에서의 상기 대상 화자의 음성 데이터의 위치를 산출하는 위치 산출 수단과,
    상기 위치와 상기 복수의 패턴 모델에 기초하여, 상기 복수의 화자 중에서 상기 대상 화자의 음성과 유사한 음성을 가진 유사 화자를 검출하는 유사 화자 검출 수단과,
    상기 위치와 상기 유사 화자의 패턴 모델에 기초하여, 상기 음향 공간 내에서의 상기 대상 화자의 음성 데이터와 상기 유사 화자의 패턴 모델과의 위치 관계를 나타내는 정보를 표시하는 위치 관계 정보 표시 수단을 포함하는 것을 특징으로 하는 데이터 처리 장치.
  58. 제57항에 있어서,
    상기 복수의 화자 중에서 특정 화자를 지정하는 특정 화자 지정 수단과,
    상기 위치와 상기 음향 공간 내에서의 상기 특정 화자의 패턴 모델에 기초하여, 상기 특정 화자의 음성과 상기 대상 화자의 음성의 유사성을 평가하는 유사성 평가 수단과,
    상기 유사성 평가 수단의 평가 결과를 표시하는 평가 결과 표시 수단을 포함하고,
    상기 위치 관계 정보 표시 수단은 상기 위치와 상기 특정 화자의 패턴 모델에 기초하여, 상기 음향 공간 내에서의 상기 대상 화자의 음성 데이터와 상기 특정 화자의 패턴 모델의 위치 관계를 나타내는 정보를 표시하게 되어 있는 것을 특징으로 하는 데이터 처리 장치.
  59. 복수의 화자의 음성 데이터로부터 생성된 복수의 패턴 모델에 의하여 구성된 음향 공간을 기억하는 음향 공간 기억 수단과,
    상기 복수의 화자 중에서 특정 화자를 지정하는 특정 화자 지정 수단과,
    대상 화자의 음성 데이터를 취득하는 음성 데이터 취득 수단과,
    상기 대상 화자의 음성 데이터와 상기 복수의 패턴 모델에 기초하여, 상기 음향 공간 내에서의 상기 대상 화자의 음성 데이터의 위치를 산출하는 위치 산출 수단과,
    상기 위치와 상기 특정 화자의 패턴 모델에 기초하여, 상기 특정 화자의 음성과 상기 대상 화자의 음성의 유사성을 평가하는 유사성 평가 수단과,
    상기 유사성 평가 수단의 평가 결과를 표시하는 평가 결과 표시 수단과,
    상기 위치와 상기 특정 화자의 패턴 모델에 기초하여, 상기 음향 공간 내에 서의 상기 대상 화자의 음성 데이터와 상기 특정 화자의 패턴 모델의 위치 관계를 나타내는 정보를 표시하는 위치 관계 정보 표시 수단을 포함하는 것을 특징으로 하는 데이터 처리 장치.
  60. 제58항 또는 제59항에 있어서, 상기 유사성 평가 수단의 평가 결과에 기초하여, 상기 대상 화자의 음성과 상기 특정 화자의 음성과의 유사성을 높이기 위한 상 기 대상 화자의 음성에 대한 교정 내용을 나타내는 교정 정보를 생성하는 교정 정보 생성 수단과, 상기 교정 정보를 표시하는 교정 정보 표시 수단을 포함하는 것을 특징으로 하는 데이터 처리 장치.
  61. 제59항에 있어서, 상기 유사 화자 검출 수단은 상기 위치에 기초하여, 상기 복수의 패턴 모델 중, 상기 대상 화자의 음성 데이터의 특징과 유사한 특징이 있는 패턴 모델을 상기 대상 화자의 패턴 모델로서 사용하고,
    상기 유사성 평가 수단은 상기 위치에 기초하여, 상기 복수의 패턴 모델 중에서, 상기 대상 화자의 음성 데이터의 특징과 유사한 특징이 있는 패턴 모델을 상기 대상 화자의 패턴 모델로서 이용하는 것을 특징으로 하는 데이터 처리 장치.
  62. 제59항에 있어서, 상기 유사 화자 검출 수단은 상기 위치에 기초하여, 상기 복수의 패턴 모델 중 , 상기 대상 화자의 음성 데이터의 특징과 유사한 특징을 가지는 상위 몇 개의 패턴 모델을 상기 대상 화자의 패턴 모델로서 사용하고,
    상기 유사성 평가 수단은 상기 위치에 기초하여, 상기 복수의 패턴 모델 중에서, 상기 대상 화자의 음성 데이터의 특징과 유사한 특징이 있는 상위 몇 개의 패턴 모델을 상기 대상 화자의 패턴 모델로서 이용하는 것을 특징으로 하는 데이터 처리 장치.
  63. 제61항에 있어서, 상기 위치 산출 수단은 상기 음성 데이터 취득 수단에 의하여 취득된 음성 데이터를 고차원의 특징량 데이터로 변환하고, 상기 특징량 데이터와 상기 복수의 화자의 복수의 패턴 모델에 기초하여, 상기 특징량 데이터와 각 패턴 모델의 우도를 산출하고, 상기 산출된 우도에 기초하여 상기 복수의 화자의 복수의 패턴 모델 중에서 특정 패턴 모델을 선택하고, 상기 선택된 특정 패턴 모델과 다른 패턴 모델 상호 간의 수학적 거리를 산출하고, 상기 산출된 수학적 거리에 기초하여, 상기 음향 공간 내에서의 상기 취득된 음성 데이터의 위치를 산출하는 것을 특징으로 하는 데이터 처리 장치.
  64. 제57항 내지 제59항 중 어느 하나의 항에 있어서, 상기 위치 산출 수단은 상기 음성 데이터 취득 수단에 의하여 취득된 음성 데이터를 고차원의 특징량 데이터로 변환하고, 상기 특징량 데이터에 기초하여 대상 화자용 패턴 모델을 생성하고, 상기 생성된 패턴 모델과 상기 복수의 화자의 복수의 패턴 모델 상호 간의 수학적 거리를 산출하고, 상기 산출된 수학적 거리에 기초하여, 상기 음향 공간 내에서의 상기 취득된 음성 데이터의 위치를 산출하는 것을 특징으로 하는 데이터 처리 장치.
  65. 제63항에 있어서, 상기 패턴 모델은 4차원 이상의 고차원의 요소로 구성되어 있고,
    상기 위치 관계 정보 표시 수단은 상기 대상 화자의 음성 데이터에 대응하는 패턴 모델을 포함하는 상기 음향 공간 내의 복수의 패턴 모델을, 이러한 거리 관계를 유지한 상태로, 그보다 저차원의 패턴 모델로 변환하고, 상기 변환 후의 패턴 모델을 저차원 공간상의 좌표점으로서 표시하는 것을 특징으로 하는 데이터 처리 장치.
  66. 제58항, 제59항, 제61항 내지 제63항 및 제65항 중 어느 하나의 항에 있어서, 상기 유사성 평가 수단은 상기 대상 화자의 음성 데이터에서의 음소 마다의 유사성을 평가하게 되어 있는 것을 특징으로 하는 데이터 처리 장치.
  67. 제58항, 제59항, 제61항 내지 제63항 및 제65항 중 어느 하나의 항에 있어서, 상기 음향 공간은 복수 종류의 발화 양식에 의하여 각각 발성된 상기 복수의 화자의 음성 데이터로부터 생성된 복수의 패턴 모델로 구성되어 있고,
    상기 유사성 평가 수단은 상기 발화 양식의 종류마다 상기 유사성 평가를 실시하게 되어 있는 것을 특징으로 하는 데이터 처리 장치.
  68. 제67항에 있어서, 상기 위치 관계 표시 수단은 상기 복수의 패턴 모델에 각각 대응하는 상기 발화 양식에 기초하여, 상기 저차원 공간의 좌표축을 설정하게 되어 있는 것을 특징으로 하는 데이터 처리 장치.
  69. 제57항 내지 제59항, 제61항 내지 제63항 및 제65항 중 어느 하나의 항에 있어서,
    상기 패턴 모델을 HMM (Hidden Markov Model)에 의하여 구성한 것을 특징으로 하는 데이터 처리 장치.
  70. 대상 화자의 관리하에 있는 정보처리 단말과,
    청구 범위 제57항 내지 청구 범위 제69항 중 어느 하나의 항에 기재된 데이터 처리 장치를 포함하고,
    상기 정보처리 단말과 상기 데이터 처리 장치를 서로 데이터 통신 가능하게 접속하고,
    상기 정보처리 단말은 상기 대상 화자의 음성 데이터를 취득하고, 상기 취득한 음성 데이터를 상기 데이터 처리 장치에 송신하는 음성 데이터 송신 수단과, 상기 데이터 처리 장치로부터 취득한 상기 음성 데이터의 처리 결과에 관한 정보를 표시하는 정보 표시 수단을 포함하고,
    상기 데이터 처리 장치는 상기 음성 데이터의 처리 결과에 관한 정보를 상기 정보처리 단말에 송신하는 정보 송신 수단을 포함하는 것을 특징으로 하는 데이터 처리 시스템.
  71. 복수의 화자의 음성 데이터로부터 생성된 복수의 패턴 모델에 의하여 구성된 음향 공간을 준비하고,
    대상 화자의 음성 데이터를 취득하고,
    상기 대상 화자의 음성 데이터와 상기 음향 공간 내의 상기 복수의 패턴 모델에 기초하여, 상기 음향 공간 내에서의 상기 대상 화자의 음성 데이터의 위치를 산출하고,
    상기 위치와 상기 복수의 패턴 모델에 기초하여, 상기 복수의 화자 중에서 상기 대상 화자의 음성과 유사한 음성을 가진 유사 화자를 검출하고,
    상기 위치와 상기 유사 화자의 패턴 모델에 기초하여, 상기 음향 공간에서의 상기 대상 화자의 음성 데이터와 상기 유사 화자의 패턴 모델과의 위치 관계를 나타내는 정보를 표시하는 것을 특징으로 하는 데이터 처리 방법.
  72. 제71항에 있어서, 상기 복수의 화자 중에서 특정 화자를 지정하고,
    상기 위치와 상기 음향 공간 내에서의 상기 특정 화자의 패턴 모델에 기초하여, 상기 특정 화자의 음성과 상기 대상 화자의 음성과의 유사성을 평가하고,
    상기 평가 결과를 표시하는 것을 특징으로 하는 데이터 처리 방법.
  73. 복수의 화자의 음성 데이터로부터 생성된 복수의 패턴 모델에 의하여 구성된 음향 공간을 준비하고,
    상기 복수의 화자 중에서 특정 화자를 지정하고,
    대상 화자의 음성 데이터를 취득하고,
    상기 대상 화자의 음성 데이터와 상기 복수의 패턴 모델에 기초하여, 상기 음향 공간 내에서의 상기 대상 화자의 음성 데이터의 위치를 산출하고,
    상기 위치와 상기 특정 화자의 패턴 모델에 기초하여, 상기 특정 화자의 음성과 상기 대상 화자의 음성과의 유사성을 평가하고,
    상기 평가 결과를 표시하고,
    상기 위치와 상기 특정 화자의 패턴 모델에 기초하여, 상기 음향 공간 내에 서의 상기 대상 화자의 음성 데이터와 상기 특정 화자의 패턴 모델과의 위치 관계를 나타내는 정보를 표시하는 것을 특징으로 하는 데이터 처리 방법.
  74. 데이터 처리 장치를 제어하는 프로그램을 포함하는 컴퓨터 판독 가능 기록 매체로서, 상기 프로그램은,
    복수의 화자의 음성 데이터로부터 생성된 복수의 패턴 모델에 의하여 구성된 음향 공간을 기억하는 음향 공간 기억 스텝과,
    대상 화자의 음성 데이터를 취득하는 음성 데이터 취득 스텝과,
    상기 대상 화자의 음성 데이터와 상기 음향 공간 내의 상기 복수의 패턴 모델에 기초하여, 상기 음향 공간 내에서의 상기 대상 화자의 음성 데이터의 위치를 산출하는 위치 산출 스텝과,
    상기 위치와 상기 복수의 패턴 모델에 기초하여, 상기 복수의 화자 중에서 상기 대상 화자의 음성과 유사한 음성을 가진 유사 화자를 검출하는 유사 화자 검출 스텝과,
    상기 위치와 상기 유사 화자의 패턴 모델에 기초하여, 상기 음향 공간 내에 서의 상기 대상 화자의 음성 데이터와 상기 유사 화자의 패턴 모델과의 위치 관계를 나타내는 정보를 표시하는 위치 관계 정보 표시 스텝과,
    특정 화자를 지정하는 특정 화자 지정 스텝과,
    상기 위치와 상기 음향 공간 내에서의 상기 특정 화자의 패턴 모델에 기초하여, 상기 특정 화자의 음성과 상기 대상 화자의 음성과의 유사성을 평가하는 유사성 평가 스텝과,
    상기 유사성 평가 스텝에 의한 평가 결과를 표시하는 평가 결과 표시 스텝을 포함하고,
    상기 위치 관계 정보 표시 스텝에서는 상기 위치와 상기 특정 화자의 패턴 모델에 기초하여, 상기 음향 공간 내에서의 상기 대상 화자의 음성 데이터와 상기 특정 화자의 패턴 모델과의 위치 관계를 나타내는 정보를 표시하게 되어 있는 것을 특징으로 하는 컴퓨터 판독 가능 기록 매체.
  75. 데이터 처리 장치를 제어하는 프로그램을 포함하는 컴퓨터 판독 가능 기록 매체로서, 상기 프로그램은,
    복수의 화자의 음성 데이터로부터 생성된 복수의 패턴 모델에 의하여 구성된 음향 공간을 기억하는 음향 공간 기억 스텝과,
    상기 복수의 화자 중에서 특정 화자를 지정하는 특정 화자 지정 스텝과,
    대상 화자의 음성 데이터를 취득하는 음성 데이터 취득 스텝과,
    상기 대상 화자의 음성 데이터와 상기 복수의 패턴 모델에 기초하여, 상기 음향 공간 내에서의 상기 대상 화자의 음성 데이터의 위치를 산출하는 위치 산출 스텝과,
    상기 위치와 상기 특정 화자의 패턴 모델에 기초하여, 상기 특정 화자의 음성과 상기 대상 화자의 음성의 유사성을 평가하는 유사성 평가 스텝과,
    상기 유사성 평가 스텝에 의한 평가 결과를 표시하는 평가 결과 표시 스텝과,
    상기 위치와 상기 특정 화자의 패턴 모델에 기초하여, 상기 음향 공간 내에 서의 상기 대상 화자의 음성 데이터와 상기 특정 화자의 패턴 모델의 위치 관계를 나타내는 정보를 표시하는 위치 관계 정보 표시 스텝을 포함하는 것을 특징으로 하는 컴퓨터 판독 가능 기록 매체.
KR1020067005832A 2003-10-03 2004-07-22 데이터 처리 장치 및 데이터 처리 장치 제어 프로그램 KR100814143B1 (ko)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
JPJP-P-2003-00345984 2003-10-03
JP2003345984 2003-10-03
JPJP-P-2003-00370980 2003-10-30
JP2003370980 2003-10-30
JPJP-P-2003-00428015 2003-12-24
JP2003428015 2003-12-24

Publications (2)

Publication Number Publication Date
KR20060087585A KR20060087585A (ko) 2006-08-02
KR100814143B1 true KR100814143B1 (ko) 2008-03-14

Family

ID=34396848

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020067005832A KR100814143B1 (ko) 2003-10-03 2004-07-22 데이터 처리 장치 및 데이터 처리 장치 제어 프로그램

Country Status (7)

Country Link
US (2) US7548651B2 (ko)
EP (2) EP1669979B1 (ko)
JP (3) JP4413867B2 (ko)
KR (1) KR100814143B1 (ko)
CN (2) CN101661754B (ko)
DE (2) DE602004020527D1 (ko)
WO (1) WO2005034086A1 (ko)

Families Citing this family (195)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4550882B2 (ja) * 2004-11-25 2010-09-22 シャープ株式会社 情報分類装置、情報分類方法、情報分類プログラム、情報分類システム
EP1852847A4 (en) * 2005-01-17 2008-05-21 Nec Corp VOICE RECOGNITION SYSTEM, VOICE RECOGNITION METHOD, AND VOICE RECOGNITION PROGRAM
US10417700B2 (en) 2005-03-03 2019-09-17 Refinitiv Us Organization Llc System and method for graphical display of multivariate data
US7805300B2 (en) * 2005-03-21 2010-09-28 At&T Intellectual Property Ii, L.P. Apparatus and method for analysis of language model changes
US7693713B2 (en) * 2005-06-17 2010-04-06 Microsoft Corporation Speech models generated using competitive training, asymmetric training, and data boosting
GB0514555D0 (en) * 2005-07-15 2005-08-24 Nonlinear Dynamics Ltd A method of analysing separation patterns
GB0514553D0 (en) * 2005-07-15 2005-08-24 Nonlinear Dynamics Ltd A method of analysing a representation of a separation pattern
JP4763387B2 (ja) * 2005-09-01 2011-08-31 旭化成株式会社 パターンモデル生成装置、パターンモデル評価装置およびパターン認識装置
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US20070076001A1 (en) * 2005-09-30 2007-04-05 Brand Matthew E Method for selecting a low dimensional model from a set of low dimensional models representing high dimensional data based on the high dimensional data
JP4825014B2 (ja) * 2006-01-24 2011-11-30 旭化成株式会社 評価用データ生成装置、認識性能分布情報生成装置およびシステム
US8036896B2 (en) * 2006-04-18 2011-10-11 Nuance Communications, Inc. System, server and method for distributed literacy and language skill instruction
KR100901640B1 (ko) * 2006-05-10 2009-06-09 주식회사 케이티 음성 인식을 위한 음성 특징 벡터 양자화에 있어 비균일표본을 기반으로 하는 학습 데이터 선정 방법
JP4728972B2 (ja) * 2007-01-17 2011-07-20 株式会社東芝 インデキシング装置、方法及びプログラム
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
WO2008149547A1 (ja) * 2007-06-06 2008-12-11 Panasonic Corporation 声質編集装置および声質編集方法
JP5060224B2 (ja) * 2007-09-12 2012-10-31 株式会社東芝 信号処理装置及びその方法
WO2009057739A1 (ja) * 2007-10-31 2009-05-07 Nec Corporation 話者選択装置、話者適応モデル作成装置、話者選択方法および話者選択用プログラム
US8503721B2 (en) * 2007-12-14 2013-08-06 Panasonic Corporation Image judgment device
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US20100290642A1 (en) * 2008-01-17 2010-11-18 Tomomi Hasegawa Speaker characteristic correction device, speaker characteristic correction method and speaker characteristic correction program
US20090198602A1 (en) * 2008-01-31 2009-08-06 Intuit Inc. Ranking commercial offers based on user financial data
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US8195460B2 (en) * 2008-06-17 2012-06-05 Voicesense Ltd. Speaker characterization through speech analysis
US20090319916A1 (en) * 2008-06-24 2009-12-24 Microsoft Corporation Techniques to auto-attend multimedia conference events
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
EP2182512A1 (en) * 2008-10-29 2010-05-05 BRITISH TELECOMMUNICATIONS public limited company Speaker verification
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US8386251B2 (en) * 2009-06-08 2013-02-26 Microsoft Corporation Progressive application of knowledge sources in multistage speech recognition
JP5611546B2 (ja) * 2009-06-30 2014-10-22 株式会社東芝 自動診断支援装置、超音波診断装置及び自動診断支援プログラム
US9031243B2 (en) * 2009-09-28 2015-05-12 iZotope, Inc. Automatic labeling and control of audio algorithms by audio recognition
JP5644772B2 (ja) * 2009-11-25 2014-12-24 日本電気株式会社 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8490056B2 (en) * 2010-04-28 2013-07-16 International Business Machines Corporation Automatic identification of subroutines from test scripts
US8949125B1 (en) * 2010-06-16 2015-02-03 Google Inc. Annotating maps with user-contributed pronunciations
US8812310B2 (en) * 2010-08-22 2014-08-19 King Saud University Environment recognition of audio input
CN101923854B (zh) * 2010-08-31 2012-03-28 中国科学院计算技术研究所 一种交互式语音识别系统和方法
DE102010047444B4 (de) * 2010-10-04 2014-04-03 Audi Ag Verfahren zur Visualisierung von Maßabweichungen zwischen einer Ist- und Soll-Geometrie eines Bauteils
CN101950564A (zh) * 2010-10-13 2011-01-19 镇江华扬信息科技有限公司 一种远程数字化语音采集分析识别系统
KR101791907B1 (ko) * 2011-01-04 2017-11-02 삼성전자주식회사 위치 기반의 음향 처리 장치 및 방법
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US20130090926A1 (en) * 2011-09-16 2013-04-11 Qualcomm Incorporated Mobile device context information using speech detection
CN102509548B (zh) * 2011-10-09 2013-06-12 清华大学 一种基于多距离声传感器的音频索引方法
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
KR101992676B1 (ko) * 2012-07-26 2019-06-25 삼성전자주식회사 영상 인식을 이용하여 음성 인식을 하는 방법 및 장치
KR20150104615A (ko) 2013-02-07 2015-09-15 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
KR102029055B1 (ko) * 2013-02-08 2019-10-07 삼성전자주식회사 고차원 데이터의 시각화 방법 및 장치
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
EP3008641A1 (en) 2013-06-09 2016-04-20 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR102158210B1 (ko) * 2013-09-04 2020-09-22 엘지전자 주식회사 음성 인식 장치 및 그 방법
GB2517952B (en) * 2013-09-05 2017-05-31 Barclays Bank Plc Biometric verification using predicted signatures
JP5777178B2 (ja) * 2013-11-27 2015-09-09 国立研究開発法人情報通信研究機構 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
JP6241612B2 (ja) * 2014-02-26 2017-12-06 トヨタ自動車株式会社 シリンダブロックの加工方法及び装置
JP6413263B2 (ja) * 2014-03-06 2018-10-31 株式会社デンソー 報知装置
JP6150340B2 (ja) * 2014-03-14 2017-06-21 Kddi株式会社 データ交換装置およびデータ価値評価装置
CN103905650A (zh) * 2014-04-28 2014-07-02 深圳市中兴移动通信有限公司 移动终端及基于语音识别调节通话音量的方法
US9633649B2 (en) 2014-05-02 2017-04-25 At&T Intellectual Property I, L.P. System and method for creating voice profiles for specific demographics
KR102225404B1 (ko) * 2014-05-23 2021-03-09 삼성전자주식회사 디바이스 정보를 이용하는 음성인식 방법 및 장치
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9959863B2 (en) * 2014-09-08 2018-05-01 Qualcomm Incorporated Keyword detection using speaker-independent keyword models for user-designated keywords
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
KR20160058470A (ko) * 2014-11-17 2016-05-25 삼성전자주식회사 음성 합성 장치 및 그 제어 방법
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9721559B2 (en) * 2015-04-17 2017-08-01 International Business Machines Corporation Data augmentation method based on stochastic feature mapping for automatic speech recognition
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) * 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
KR102559199B1 (ko) * 2015-11-02 2023-07-25 삼성전자주식회사 배터리 관리 방법 및 배터리 관리 장치
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
CN106887230A (zh) * 2015-12-16 2017-06-23 芋头科技(杭州)有限公司 一种基于特征空间的声纹识别方法
CN108369451B (zh) * 2015-12-18 2021-10-29 索尼公司 信息处理装置、信息处理方法及计算机可读存储介质
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
CN106971730A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种基于信道补偿的声纹识别方法
CN106971729A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种基于声音特征范围提高声纹识别速度的方法及系统
CN106971737A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种基于多人说话的声纹识别方法
CN105654954A (zh) * 2016-04-06 2016-06-08 普强信息技术(北京)有限公司 一种云端语音识别系统及方法
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10635800B2 (en) * 2016-06-07 2020-04-28 Vocalzoom Systems Ltd. System, device, and method of voice-based user authentication utilizing a challenge
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10565513B2 (en) * 2016-09-19 2020-02-18 Applied Materials, Inc. Time-series fault detection, fault classification, and transition analysis using a K-nearest-neighbor and logistic regression approach
JP6904361B2 (ja) * 2016-09-23 2021-07-14 ソニーグループ株式会社 情報処理装置、及び情報処理方法
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
KR101926837B1 (ko) 2017-02-20 2018-12-07 아주대학교산학협력단 데이터 빈도수 기반의 단일 클래스 모델 생성 방법 및 장치
EP3599604A4 (en) * 2017-03-24 2020-03-18 Sony Corporation INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US20190019500A1 (en) * 2017-07-13 2019-01-17 Electronics And Telecommunications Research Institute Apparatus for deep learning based text-to-speech synthesizing by using multi-speaker data and method for the same
US10229092B2 (en) 2017-08-14 2019-03-12 City University Of Hong Kong Systems and methods for robust low-rank matrix approximation
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10984795B2 (en) * 2018-04-12 2021-04-20 Samsung Electronics Co., Ltd. Electronic apparatus and operation method thereof
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
KR102043342B1 (ko) * 2018-05-14 2019-11-12 고려대학교 세종산학협력단 소리감지 센서를 이용한 반려견 소리 분류 시스템 및 방법
KR102562227B1 (ko) * 2018-06-12 2023-08-02 현대자동차주식회사 대화 시스템, 그를 가지는 차량 및 차량의 제어 방법
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
KR20190136578A (ko) 2018-05-31 2019-12-10 삼성전자주식회사 음성 인식 방법 및 장치
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US10210860B1 (en) 2018-07-27 2019-02-19 Deepgram, Inc. Augmented generalized deep learning with special vocabulary
KR102225984B1 (ko) * 2018-09-03 2021-03-10 엘지전자 주식회사 음성 인식 서비스를 제공하는 서버
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US20210232567A1 (en) * 2018-10-10 2021-07-29 Toor Inc. Analyzer, analysis system, and analysis method
US10720149B2 (en) * 2018-10-23 2020-07-21 Capital One Services, Llc Dynamic vocabulary customization in automated voice systems
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
CN109348359B (zh) * 2018-10-29 2020-11-10 歌尔科技有限公司 一种音响设备及其音效调整方法、装置、设备、介质
KR102236458B1 (ko) * 2018-11-05 2021-04-06 고려대학교 세종산학협력단 보간법과 lstm-fcn 기법을 적용한 분리불안 증세의 반려견 소리 분류를 위한 방법 및 그 시스템
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US10785171B2 (en) 2019-02-07 2020-09-22 Capital One Services, Llc Chat bot utilizing metaphors to both relay and obtain information
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
WO2020246638A2 (ko) * 2019-06-05 2020-12-10 엘지전자 주식회사 음성인식 기기를 위한 지능형 음성인식 모델을 제공하는 방법
US11545132B2 (en) 2019-08-28 2023-01-03 International Business Machines Corporation Speech characterization using a synthesized reference audio signal
US11900246B2 (en) 2019-09-02 2024-02-13 Samsung Electronics Co., Ltd. Method and apparatus for recognizing user based on on-device training
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
US11043220B1 (en) 2020-05-11 2021-06-22 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
DE102021209106A1 (de) 2021-08-19 2023-02-23 Robert Bosch Gesellschaft mit beschränkter Haftung Verfahren und Vorrichtung zur Durchführung eines Ladevorgangs einer Gerätebatterie
CN118103836A (zh) * 2021-10-20 2024-05-28 索尼集团公司 信息处理装置、信息处理方法和程序

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003096324A1 (fr) * 2002-05-10 2003-11-20 Asahi Kasei Kabushiki Kaisha Dispositif de reconnaissance vocale
WO2005015547A1 (fr) * 2003-07-01 2005-02-17 France Telecom Procede et systeme d'analyse de signaux vocaux pour la representation compacte de locuteurs
KR20050063299A (ko) * 2003-12-22 2005-06-28 한국전자통신연구원 최대 사후 고유공간에 근거한 화자적응 방법
JP2007098001A (ja) * 2005-10-07 2007-04-19 Juki Corp ボタン付けミシン
JP2008001008A (ja) * 2006-06-23 2008-01-10 Zebra Pen Corp リフィール構成部材の接続構造

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3163185B2 (ja) * 1992-11-27 2001-05-08 株式会社東芝 パターン認識装置およびパターン認識方法
KR100247969B1 (ko) * 1997-07-15 2000-03-15 윤종용 대용량패턴정합장치및방법
US6990238B1 (en) * 1999-09-30 2006-01-24 Battelle Memorial Institute Data processing, analysis, and visualization system for use with disparate data types
DE10047724A1 (de) * 2000-09-27 2002-04-11 Philips Corp Intellectual Pty Verfahren zur Ermittlung eines Eigenraumes zur Darstellung einer Mehrzahl von Trainingssprechern
JP2002162989A (ja) * 2000-11-28 2002-06-07 Ricoh Co Ltd 音響モデル配信システムおよび音響モデル配信方法
JP2004199377A (ja) * 2002-12-18 2004-07-15 Toshiba Corp 遠隔監視診断システム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003096324A1 (fr) * 2002-05-10 2003-11-20 Asahi Kasei Kabushiki Kaisha Dispositif de reconnaissance vocale
WO2005015547A1 (fr) * 2003-07-01 2005-02-17 France Telecom Procede et systeme d'analyse de signaux vocaux pour la representation compacte de locuteurs
KR20050063299A (ko) * 2003-12-22 2005-06-28 한국전자통신연구원 최대 사후 고유공간에 근거한 화자적응 방법
JP2007098001A (ja) * 2005-10-07 2007-04-19 Juki Corp ボタン付けミシン
JP2008001008A (ja) * 2006-06-23 2008-01-10 Zebra Pen Corp リフィール構成部材の接続構造

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
10-2005-0063299
특1998-0011007
특2001-0086402

Also Published As

Publication number Publication date
CN1867966B (zh) 2012-05-30
EP1669979A4 (en) 2006-12-27
US7548651B2 (en) 2009-06-16
JP5155943B2 (ja) 2013-03-06
EP1881443A2 (en) 2008-01-23
US20090138263A1 (en) 2009-05-28
US8606580B2 (en) 2013-12-10
CN101661754B (zh) 2012-07-11
DE602004011545T2 (de) 2009-01-08
JP4413867B2 (ja) 2010-02-10
WO2005034086A1 (ja) 2005-04-14
CN1867966A (zh) 2006-11-22
EP1669979B1 (en) 2008-01-23
EP1669979A1 (en) 2006-06-14
JP2009205178A (ja) 2009-09-10
JPWO2005034086A1 (ja) 2007-10-04
US20050075875A1 (en) 2005-04-07
EP1881443A3 (en) 2008-02-27
DE602004020527D1 (de) 2009-05-20
DE602004011545D1 (de) 2008-03-13
EP1881443B1 (en) 2009-04-08
JP2009205177A (ja) 2009-09-10
KR20060087585A (ko) 2006-08-02
JP5155944B2 (ja) 2013-03-06
CN101661754A (zh) 2010-03-03

Similar Documents

Publication Publication Date Title
KR100814143B1 (ko) 데이터 처리 장치 및 데이터 처리 장치 제어 프로그램
US11107456B2 (en) Artificial intelligence (AI)-based voice sampling apparatus and method for providing speech style
US11056096B2 (en) Artificial intelligence (AI)-based voice sampling apparatus and method for providing speech style in heterogeneous label
KR20160030168A (ko) 음성 인식 방법, 장치 및 시스템
US11705105B2 (en) Speech synthesizer for evaluating quality of synthesized speech using artificial intelligence and method of operating the same
KR20190087353A (ko) 음성 인식 검증 장치 및 방법
KR20030018073A (ko) 음성 인식 장치 및 음성 인식 방법
KR102281504B1 (ko) 인공 지능을 이용한 음성 합성 장치, 음성 합성 장치의 동작 방법
KR20090025939A (ko) 음성 인식을 이용한 홈 미디어 pc 시스템 및 그 제어방법
CN108364655A (zh) 语音处理方法、介质、装置和计算设备
KR102113879B1 (ko) 참조 데이터베이스를 활용한 화자 음성 인식 방법 및 그 장치
KR102418232B1 (ko) 보이스 유사도 평가 방법 및 그 장치
KR20230120790A (ko) 가변적 언어모델을 이용한 음성인식 헬스케어 서비스
Minematsu et al. Speaker-basis Accent Clustering Using Invariant Structure Analysis and the Speech Accent Archive.
KR102631143B1 (ko) 인공 지능을 이용한 음성 합성 장치, 음성 합성 장치의 동작 방법 및 컴퓨터로 판독 가능한 기록 매체
JP2007199173A (ja) 評価用データ生成装置、認識性能分布情報生成装置およびシステム
KR102642617B1 (ko) 인공 지능을 이용한 음성 합성 장치, 음성 합성 장치의 동작 방법 및 컴퓨터로 판독 가능한 기록 매체
KR102603282B1 (ko) 인공 지능을 이용한 음성 합성 장치, 음성 합성 장치의 동작 방법 및 컴퓨터로 판독 가능한 기록 매체
US11017782B2 (en) Speaker classification
KR20230149894A (ko) 개인화 가능한 기계학습 기반의 운전자 이상행동 감지 시스템
JPH09114483A (ja) Hmmの学習装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130227

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20140220

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20150224

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20160219

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20170221

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20180220

Year of fee payment: 11

LAPS Lapse due to unpaid annual fee