KR19990087263A

KR19990087263A - 인식장치 및 인식방법과, 학습장치 및 학습 방법

Info

Publication number: KR19990087263A
Application number: KR1019980706664A
Authority: KR
Inventors: 데츠지로 곤도
Original assignee: 이데이 노부유끼; 소니 가부시끼 가이샤
Priority date: 1996-12-26
Filing date: 1997-12-22
Publication date: 1999-12-15
Also published as: KR100578260B1; EP0896319A1; JPH10187186A; US6396954B1; EP0896319A4; CN1119795C; WO1998029864A1; JP3702978B2; EP0896319B1; CN1214141A; DE69730705D1; DE69730705T2

Abstract

화자에 의해 발생되는 음성 데이터와, 화자의 입을 이미지 형성함에 의해 얻어지는 화상 데이터와, 주변 잡음 데이터 등의 복수개의 형태를 가진 데이터가 입력부(10)로부터 출력된다. 상기 데이터는 전처리부(20 내지 23)에 의해 분석되어 특징 파라미터가 얻어진다. 클래스 분류용 데이터 구성부(24)에서 특징 파라미터로부터 클래스 데이터가 얻어지고, 클래스 분류부(25)에서 분류된다. 통합 파라미터 구성부(26)에서, 전처리부(20 내지 23)로부터 출력된 특징 파라미터로부터 통합 파라미터가 형성된다. 적응 판정부(27)에서, 클래스 분류부(25)에 의한 분류 결과에 대응하는 테이블이 선택된다. 화자에 의해 발생된 음성은 선택된 테이블내에 저장된 기준 파라미터와, 통합 파라미터 구성부(26)로부터 출력된 통합 파라미터에 따라 인식된다. 음성의 인식율이 향상된다.

Description

인식장치 및 인식방법과, 학습장치 및 학습방법

종래의 예를 들면, 음성을 인식하는 음성 인식 장치에서는 마이크로폰(마이크)으로부터 출력되는 음성 데이터를(음향) 분석하고, 그 분석 결과를 사용하여 화자가 발성한 음성을 인식하도록 되어 있다.

그러나, 종래의 음성 인식 장치에서는 마이크로부터의 음성 데이터의 분석 결과만을 사용하여 음성 인식을 하고 있기 때문에, 그 인식 성능은 어느 정도의 한계가 있다.

즉, 화자가 말하는 것을 인식하는데 있어서는 마이크로부터의 음성 데이터뿐만아니라, 그 상대의 표정이나 입의 움직임 등도 중요한 요소라고 생각되며, 따라서, 그와 같은 여러가지의 요소를 고려하여야 한다.

또한, 음성 인식 장치는 방음실 등과 같이 인식 대상인 소리 음성만이 마이크에 입력되는 바와 같은 환경에서 사용되는 경우는 거의 없고, 그 밖의 다양한 잡음이 존재하는 환경하에서 사용되는 것이 많다. 즉, 최근에는 음성 인식 장치를 구비한 예를 들면, 네비게이션 시스템이 실용화되고 있지만, 이 경우, 음성 인식 장치에서는 인식해야할 화자의 음성 외에, 자동차에 장비된 CD(Compact Disc) 플레이어가 출력하는 소리나, 엔진 소리, 에어 컨디셔너의 소리, 그 밖의 잡음이 입력된다. 그리고, 이러한 잡음이 혼합된 음성 데이터에서 잡음만을 제거하는 것은 곤란하기 때문에, 인식 성능을 향상시키기 위해서는 인식 대상의 음성 이외의 소리인 잡음도 가미할 필요가 있다.

또한, 종래의 음성 인식 장치에서는 마이크에서 출력되는 음성 데이터에 대하여, 소정의 분석 처리를 실시하고, 그 특징 파라미터를 구하고, 그 특징 파라미터의 파라미터 공간에 있어서의 거리 등에 근거하여, 음성이 인식되도록 되어 있다. 그러나, 인식에 있어서 중요한 특징 파라미터는 음성 인식 장치가 사용되는 환경에 의해서 변화하는 것으로 고려된다.

본 발명은 인식 장치 및 인식 방법과, 학습 장치 및 학습 방법에 관한 것이다. 특히, 예를 들면, 음성이나 물체 등을 그 음성 데이터나 화상 데이터뿐만아니라, 다른 데이터도 사용하여 인식함으로써, 그 인식 정밀도를 향상시킬 수 있도록 하는 인식 장치 및 인식 방법과, 학습 장치 및 학습 방법에 관한 것이다.

도 1은 본 발명을 적용한 네비게이션 시스템 구성의 예를 도시하는 블록도.

도 2는 본 발명을 적용한 음성 인식 장치의 제 1 실시예의 구성의 예를 도시하는 블록도.

도 3은 전처리부(21)의 처리를 설명하기 위한 도면.

도 4는 본 발명을 적용한 학습 장치의 제 1 실시예의 구성의 예를 도시하는 블록도.

도 5는 파라미터 공간을 도시하는 도면.

도 6은 본 발명을 적용한 음성 인식 장치의 제 2 실시예의 구성의 예를 도시하는 블록도.

도 7은 본 발명을 적용한 학습 장치의 제 2 실시예의 구성의 예를 도시하는 블록도.

도 8은 본 발명을 적용한 음성 인식 장치의 제 3 실시예의 구성의 예를 도시하는 블록도.

도 9는 본 발명을 적용한 학습 장치의 제 3 실시예의 구성의 예를 도시하는 블록도.

본 발명은 이러한 상황에 비추어 이루어진 것이며, 본 발명의 목적은 음성 이외의 인식을 행하는 인식 장치의 인식 성능을 향상시킬 수 있도록 하는 것이다. 청구범위 제 1 항에 기재된 인식 장치는 복수 종류의 입력 데이터를 그 성질에 따라서, 소정의 클래스로 분류하는 클래스 분류를 행하는 제 1 클래스 분류 수단과, 복수 종류의 입력 데이터를 통합한 통합 파라미터를 구성하는 통합 파라미터 구성 수단과, 제 1 클래스 분류 수단이 출력하는 클래스마다 소정의 표준 파라미터가 등록되어 있는 테이블을 기억하고 있는 표준 파라미터 기억 수단과, 제 1 클래스 분류 수단이 출력하는 클래스에 대응하는 테이블에 등록된 표준 파라미터와, 통합 파라미터에 근거하여, 인식 대상을 인식하는 인식 수단을 구비하는 것을 특징으로 한다.

청구범위 제 5 항에 기재된 인식 방법은 복수 종류의 입력 데이터를 그 성질에 따라서, 소정의 클래스로 분류하는 클래스 분류를 행하는 동시에 복수 종류의 입력 데이터를 통합한 통합 파라미터를 구성하여, 클래스 분류의 결과에서 얻어지는 클래스에 대응하는 표준 파라미터가 등록된 테이블과, 통합 파라미터에 근거하여 인식 대상을 인식하는 것을 특징으로 한다.

청구범위 제 6 항에 기재된 학습 장치는 복수 종류의 입력 데이터를 그 성질에 따라서, 소정의 클래스로 분류하는 클래스 분류를 행하는 제 1 클래스 분류 수단과, 복수 종류의 입력 데이터를 통합한 통합 파라미터를 구성하는 통합 파라미터 구성 수단과, 통합 파라미터를 제 1 클래스 분류 수단이 출력하는 클래스마다 분류하는 분류 수단을 구비하는 것을 특징으로 한다.

청구범위 제 9 항에 기재된 학습 방법은 복수 종류의 입력 데이터를 그 성질에 따라서, 소정의 클래스로 분류하는 클래스 분류를 행하는 동시에, 복수 종류의 입력 데이터를 통합한 통합 파라미터를 구성하고, 통합 파라미터를 클래스 분류의 결과에서 얻어지는 클래스마다 분류하는 것을 특징으로 한다.

청구범위 제 1 항에 기재된 인식 장치에 있어서는 제 1 클래스 분류 수단은 복수 종류의 입력 데이터를 그 성질에 따라서 소정의 클래스로 분류하는 클래스 분류를 하고, 통합 파라미터 구성 수단은 복수 종류의 입력 데이터를 통합한 통합 파라미터를 구성하도록 되어 있다. 표준 파라미터 기억 수단은 제 1 클래스 분류 수단이 출력하는 클래스마다, 소정의 표준 파라미터가 등록되어 있는 테이블을 기억하고 있고, 인식 수단은 제 1 클래스 분류 수단이 출력하는 클래스에 대응하는 테이블에 등록된 표준 파라미터와, 통합 파라미터에 근거하여 인식 대상을 인식하도록 되어 있다.

청구범위 제 5 항에 기재된 인식 방법에 있어서는 복수 종류의 입력 데이터를 그 성질에 따라서, 소정의 클래스로 분류하는 클래스 분류를 행하는 동시에, 복수 종류의 입력 데이터를 통합한 통합 파라미터를 구성하고, 클래스 분류의 결과에서 얻어지는 클래스에 대응하는 표준 파라미터가 등록된 테이블과, 통합 파라미터에 근거하여 인식 대상을 인식하도록 되어 있다.

청구범위 제 6 항에 기재된 학습 장치에 있어서는 제 1 클래스 분류 수단은 복수 종류의 입력 데이터를 그 성질에 따라서 소정의 클래스로 분류하는 클래스 분류를 하고, 통합 파라미터 구성 수단은 복수 종류의 입력 데이터를 통합한 통합 파라미터를 구성하도록 되어 있다. 분류 수단은 통합 파라미터를 제 1 클래스 분류 수단이 출력하는 클래스마다 분류하도록 되어 있다.

청구범위 제 9 항에 기재된 학습 방법에 있어서는 복수 종류의 입력 데이터를 그 성질에 따라서 소정의 클래스로 분류하는 클래스 분류를 행하는 동시에, 복수 종류의 입력 데이터를 통합한 통합 파라미터를 구성하고, 통합 파라미터를 클래스 분류의 결과에서 얻어지는 클래스마다 분류하도록 되어 있다.

도 1은 본 발명을 적용한 네비게이션 시스템의 일실시예의 구성의 예를 도시하고 있다.

이 네비게이션 시스템은 자동차 등에 장비되어 시스템 제어부(1), 위치 측정 장치(2), 데이터 베이스 장치(3), 입력 장치(4) 및 출력 장치(5)를 구비하며, 예를 들면, 버튼 등의 조작에 의한 조작 이외에도 대화적으로 발생하는 입력 음성에 대응하여, 장치의 제어가 행하여지도록 되어 있다. 또한, 이 네비게이션 시스템은 예를 들면, 휴대하여 사용할 수도 있다.

시스템 제어부(1)는 시스템을 구성하는 각 블록과의 사이에 정보 송수신을 행하고, 시스템 전체의 동작을 제어하도록 되어 있다. 위치 측정 장치(2)는 GPS(Globa1 Positioning System) 위성으로부터 전파를 수신하거나, 예를 들면 자이로스코프나 차속 센서 등의 측정 장치를 사용하여 현재 위치를 측정하도록 되어 있다. 데이터 베이스 장치(3)에는 예를 들면 복수 스케일의 전자화된 지도 정보, 그 밖의 네비게이션에 필요한 정보가 기록(기억)되어 있고, 거기서부터는 시스템 제어부(1)로부터의 지령에 근거하여 필요한 정보가 검색되고, 시스템 제어부(1)에 공급되도록 되어 있다.

입력 장치(4)에는 네비게이션 시스템에 소정의 처리를 행하게 하기 위한 버튼이나 죠이 스틱, 음성을 입력하기 위한 마이크, 사용자를 촬상하기 위한 CCD(Charge Coupled Device) 카메라, 게다가, 자동차의 진동을 측정하기 위한 가속도 센서나, 습도나 온도를 측정하기 위한 센서, 그 밖의 각종 센서 등이 장비되어 있다. 입력 장치(4)에서는 버튼이나 죠이 스틱 등의 조작에 대응한 신호가 시스템 제어부(1)에 송신되도록 되어 있다. 또한, 입력 장치(4)는 음성 인식 장치를 가지고 있고, 입력된 음성을 음성 인식하고, 그 음성 인식 결과를 시스템 제어부(1)에 송신하도록 되어 있다.

출력 장치(5)는 화상 등을 표시하기 위한, 예를 들면 액정 모니터나 CRT(Cathod Ray Tube), 음성 등을 출력하기 위한 스피커, 텍스트 정보로부터 합성음을 생성하는 음성 합성 장치 등을 가지고 있고, 시스템 제어부(1)로부터 이송되어 오는 정보, 예를 들면 지도 정보나 현재 위치 정보 등을 표시하거나, 또한 음성 정보를 출력하거나 하도록 되어 있다. 또한, 출력 장치(5)는 시스템 제어부(1)로부터 텍스트 정보가 송신되어 온 경우에는 그 텍스트 정보에 대응하는 음성을 음성 합성 장치에 합성시켜서 출력하도록도 되어 있다.

이상과 같이 구성되는 네비게이션 시스템에는 예를 들면, 사용자가 목적지로서의 지명을 발화하면, 그 음성은 입력 장치(4)가 내장하는 음성 인식 장치에서 음성 인식되고, 그 음성 인식 결과가 시스템 제어부(1)에 공급된다. 시스템 제어부(1)는 목적지로서의 지명의 음성 인식 결과를 수신하면, 위치 측정 장치(2)의 출력으로부터 현재 위치를 인식하고, 게다가, 데이터 베이스 장치(3)에 기억된 지도 정보를 참조하는 것으로 현재 위치에서 목적지까지의 루트를 구한다. 그리고, 시스템 제어부(1)는 그 루트를 나타낸 지도 정보를 출력 장치(5)에 공급하여 표시시키는 동시에, 그 루트를 안내하는 합성음을 출력 장치(5)가 내장하는 음성 합성 장치에 생성시켜 출력시킨다.

따라서, 이 경우, 사용자는 용이하게 목적지에 도착할 수 있다.

다음에, 도 2는 도 1 입력 장치(4)가 내장하는 음성 인식 장치의 제 1 실시예의 구성의 예를 도시하고 있다.

입력부(10)는 마이크(11), CCD 카메라(12), 마이크(13), 센서(14), 앰플리파이어(15), A/D 변환기(16), 앰플리파이어(17), A/D 변환기(18 및 19)로부터 구성되며, 그들로부터는 운전자인 사용자의 음성을 인식하기 위해서 사용되는 각종의 입력 데이터가 출력된다.

구체적으로는 마이크(11)는 예를 들면 지향성을 갖는 것이며, 운전자인 사용자의 방향을 향하여 설치되어 있다. 따라서, 마이크(11)에는 주로 사용자의 음성이 입력된다. 마이크(11)에 입력된 음성은 음성 신호로 변환되어 앰플리파이어(15)를 통함으로써 증폭되어 A/D 변환기(18)에 공급된다. A/D 변환기(18)에서는 앰플리파이어(15)를 통하여 공급되는 아날로그의 음성 신호가 소정의 샘플링 클록에 따라서 샘플링되며, 또한, 소정의 양자화 스텝에서 양자화됨으로써, 디지털 신호인 음성 데이터로 변환된다. A/D 변환기(18)가 출력하는 음성 데이터는 전처리부(20)에 공급된다.

CCD 카메라(12)는 사용자의 입 부분을 촬영하도록 설치되어 있고, 이 CCD 카메라(12)로 촬상된 사용자의 입 부분은 화상 신호로 되어 A/D 변환기(16)에 공급된다. A/D 변환기(16)는 A/D 변환기(18)에 있어서의 경우와 같이, 아날로그의 화상 신호를 화상 데이터로 변환하여 전처리부(21)에 공급한다.

마이크(13)는 예를 들면, 무지향성의 것으로 주로 사용자의 음성 이외의 소리가 입력된다. 즉, 예를 들면, 엔진 소리나, 자동차에 장비된 라디오 수신기나 CD 플레이어 등으로부터 출력되는 소리, 에어 컨디셔너의 소리, 게다가, 창문이 열려 있는 경우에는 외부의 잡음 등이 입력된다. 마이크(13)에 입력된 소리는 앰플리파이어(17) 또는 A/D 변환기(19)에 있어서, 상술한 앰플리파이어(15) 또는 A/D 변환기(18)에 있어서의 경우와 각각 동일하게 처리되고, 이것에 의해 음성 데이터로 되어 전처리부(22)에 공급된다.

센서(14)는 자동차의 진동을 측정하기 위한 가속도 센서나, 습도나 온도를 측정하기 위한 센서 등으로, 그 출력은 전처리부(23)에 공급된다. 또, 가속도 센서의 출력에서는 예를 들면, 자동차가 진동함으로써 생기는 소음의 정도(크기)를 알 수 있다. 또한, 습도나 온도를 측정하기 위한 센서의 출력으로는 예를 들면, 비가 내리고 있는지 어떤지를 알 수 있으며, 또 비가 내리고 있다면 그 빗소리의 정도를 알 수 있다.

전처리부(20 내지 23)에서는 각각 공급되는 데이터가 분석되고, 그 특징을 나타내는 특징 파라미터가 구해진다.

즉, 전처리부(20 및 22)에서는 음성 데이터로부터, 예를 들면, 그 제로 크로스 수나, 소정의 주파수 대역마다의 파워, 선형(線形) 예측 계수, 켑스트럼 계수 등이 소정 시간으로서의 음성 프레임 단위로 구해지고, 특징 파라미터로서 클래스 분류용 데이터 구성부(24) 및 통합 파라미터 구성부(26)에 출력된다.

전처리부(21)에서는 사용자의 입 부분의 화상 데이터로부터 예를 들면, 도 3에 도시하는 바와 같이, 사용자의 입의 가로 길이(L₁) 및 세로 길이(L₂)가 구해지며, 그의 비 L₁／L₂가 특징 파라미터로서 클래스 분류용 데이터 구성부(24) 및 통합 파라미터 구성부(26)에 출력된다. 또한, 전처리부(21)에서는 사용자의 입 부분의 화상 데이터로부터 움직임 벡터나, 에지, DCT(이산 코사인 변환) 계수 등이 구해지고, 특징 파라미터로서 클래스 분류용 데이터 구성부(24) 및 통합 파라미터 구성부(26)에 출력된다.

전처리부(23)에서는 센서(14)의 출력이 분석됨으로써, 상술한 바와 같이 예를 들면, 자동차가 진동함으로써 생기는 소음의 정도(크기)를 반영하는 특징 파라미터나, 비의 소리 정도를 반영하는 특징 파라미터 등이 구해지고, 역시, 클래스 분류용 데이터 구성부(24) 및 통합 파라미터 구성부(26)에 출력된다.

클래스 분류용 데이터 구성부(24)는 전처리부(20 내지 24)가 출력하는 특징 파라미터의 적어도 일부를 클래스 분류에 사용하는 클래스 분류용 데이터로서 클래스 분류부(25)에 출력한다. 클래스 분류부(25)에서는 클래스 분류용 데이터 구성부(24)로부터의 클래스 분류용 데이터를 그 성질에 따라서, 소정의 클래스로 분류하는 클래스 분류를 한다.

즉, 클래스 분류부(25)는 클래스 분류용 데이터를 구성하는 특징 파라미터의 값의 패턴에 미리 할당된 값을 그 클래스 분류용 데이터의 클래스로서 적응 판정부(27)에 공급한다.

여기서, 특징 파라미터를 나타내는 데, 예를 들면 A비트가 할당되고 있는 경우에, 그와 같은 특징 파라미터를 B개 모아 클래스 분류용 데이터를 구성하면, 그와 같은 클래스 분류용 데이터를 구성하는 특징 파라미터 값의 패턴수는 (2^A)^B와 같이 된다. 따라서, A 또는 B가 크면, 클래스수가 막대한 수로 되어 그 후의 처리의 신속화가 곤란하게 된다.

그래서, 클래스 분류를 하기 전의 전처리로서 클래스 분류용 데이터에는 그것을 구성하는 특징 파라미터의 비트수를 저감하기 위한 처리이다, 예를 들면 ADRC(Adaptive Dynamic Range Coding) 처리 등이 실시된다.

즉, ADRC 처리에서는 우선, 클래스 분류용 데이터를 구성하는 B개의 특징 파라미터로부터, 그 값의 최대의 것(이하, 최대 특징 파라미터라 한다)과 최소의 것(이하, 최소 특징 파라미터라 한다)이 검출된다. 그리고, 최대 특징 파라미터의 값(MAX)과 최소 특징 파라미터의 값(MIN)과의 차분(DR(=MAX-MIN))이 연산되고, 이 DR을 클래스 분류용 데이터가 국소적인 다아내믹 레인지로 하며, 이 다아내믹 레인지(DR)에 근거하여 클래스 분류용 데이터를 구성하는 각 특징 파라미터가, 원래의 상기 비트수 A보다 적은 C비트에 재양자화된다. 즉, 클래스 분류용 데이터를 구성하는 각 특징 파라미터로부터 최소 특징 파라미터의 값(MIN)이 감산되어 각 감산치가 DR／2^C에서 제산된다.

그 결과, 클래스 분류용 데이터를 구성하는 각 특징 파라미터는 C비트로 표현되게 된다. 따라서, 예를 들면 C=1로 한 경우 B개의 특징 파라미터의 패턴수는 (2^A)^B와 같이 되고, ADRC 처리를 하지 않은 경우에 비교하여 패턴수를 매우 적은 것으로 할 수 있다.

또한, 클래스 분류용 데이터를 구성하는 특징 파라미터의 패턴수를 적게 하는 관점에서는 클래스 분류용 데이터를 구성하는 특징 파라미터의 수(B)는 너무 큰 값으로 하지 않는 편이 바람직하다. 단, 특징 파라미터의 수(B)는 너무 적어도 적절한 클래스 분류가 행하여지지 않을 우려가 있다. 따라서, 특징 파라미터의 수(B)는 이들을 밸런스시켜서 정하는 것이 바람직하다.

한편, 통합 파라미터 구성부(26)는 전처리부(20 내지 24)가 출력하는 특징 파라미터의 적어도 일부를 통합하여 통합 파라미터로서, 적응 판정부(27)에 출력한다.

여기서, 통합 파라미터는 클래스 분류용 데이터를 구성하는 특징 파라미터와 동일한 것을 통합하여 구성하여도 되고, 또, 클래스 분류용 데이터를 구성하는 특징 파라미터와는 다른 것을 통합하여 구성하여도 된다.

적응 판정부(27)는 표준 파라미터 기억부(28) 및 매칭부(29)로부터 구성되어 있고, 클래스 분류부(25) 또는 통합 파라미터 구성부(26)로부터 클래스 또는 통합 파라미터를 각각 수신하면, 우선 클래스 분류부(25)로부터 수신한 클래스에 대응하는 표준 파라미터가 등록된 표준 파라미터 테이블을 표준 파라미터 기억부(28)로부터 선택한다.

즉, 표준 파라미터 기억부(28)는 후술하는 학습 장치(도 4)에 의한 학습처리에 의해서 얻어지는 예를 들면 음소에 대응하는 표준 파라미터가 등록되어 있는 표준 파라미터 테이블을 클래스마다 나누어 기억하고 있고, 매칭부(29)에서는 그 클래스마다의 표준 파라미터 테이블 중에서, 클래스 분류부(25)가 출력한 클래스에 대응하는 것이 선택된다.

또한, 매칭부(29)는 선택된 표준 파라미터 테이블에 등록되어 있는 표준 파라미터 각각과, 통합 파라미터 구성부(26)로부터의 통합 파라미터와의, 예를 들면, 유클리드 거리를 산출하고, 그 유클리드 거리를 가장 작게 하는 표준 파라미터에 대응하는 음소를 음성 인식 결과로서 출력한다.

따라서, 이 음성 인식 장치에 의하면, 주로 사용자의 음성이 입력되는 마이크(11)로부터 출력되는 음성 데이터뿐만아니라, CCD 카메라(12)가 출력하는 화상 데이터로부터 얻어지는 예를 들면 사용자의 입 모양이나 움직임, 마이크(13)가 출력하는 음성 데이터나 센서(14)의 출력으로부터 얻어지는 예를 들면 잡음의 종류나 주파수 대역 성분 등도 사용하고, 사용자의 음성이 인식되기 때문에, 그 인식율을 향상시킬 수 있다.

또한, 클래스마다 표준 파라미터 테이블을 준비하고, 입력부(10)가 출력하는 복수 종류의 데이터의 클래스에 대응하는 표준 패턴 테이블을 선택하도록 하였기 때문에, 입력부(10)가 출력하는 복수 종류의 데이터에 근거하여, 사용자의 음성을 인식하는 데 알맞은 표준 패턴 테이블을 사용할 수 있고, 그 결과, 인식율을 또한 향상시킬 수 있게 된다.

다음에, 도 4는 도 2 표준 파라미터 기억부(28)에 기억시키는 클래스마다의 표준 파라미터 테이블에 등록하는 표준 파라미터를 구하는 학습 처리를 행하는 학습 장치의 구성의 예를 도시하고 있다.

입력부(30)(마이크(31), CCD 카메라(32), 마이크(33), 센서(34), 앰플리파이어(35), A／D 변환기(36), 앰플리파이어(37), A／D 변환기(38, 및 39), 전처리부(40 내지 43) A 클래스 분류용 데이터 구성부(44), 클래스 분류부(45), 또는 통합 파라미터 구성부(46)는 도 2 음성 인식 장치에 있어서의 입력부(10)(마이크(11), CCD 카메라(12), 마이크(13), 센서(14), 앰플리파이어(15), A／D 변환기(16), 앰플리파이어(17), A／D 변환기(18 및 19), 전처리부(20 내지 23), 클래스 분류용 데이터 구성부(24), 클래스 분류부(25), 또는 통합 파라미터 구성부(26)로 각각 동일하게 구성되어 있다. 메모리(47)는 그 어드레스 단자(AD)에 클래스 분류부(45)가 출력하는 클래스가 어드레스로서 주어지도록 되어 있고, 통합 파라미터 구성부(46)가 출력하는 통합 파라미터를 기억하도록 되어 있다.

이상과 같이 구성되는 학습 장치에서는 입력부(30)에 학습을 하기 위한 학습 데이터가 입력된다. 즉, 마이크(31)에는 예를 들면, 어느 화자가 말한 음성이 입력된다. 또, 그 때 화자의 입 부분이 CCD 카메라(32)에 촬상된다. 또한, 마이크(33)에는 예를 들면, 각종 자동차의 에진 소리나, CD 플레이어로 재생된 곡, 비의 소리, 에어 컨디셔너의 소리, 그 밖의 잡음이 입력된다. 센서(34)에 대해서는 각종의 진동이나, 또는 마이크(33)에 비의 소리가 입력될 때에는 그 비가 내리고 있는 상태에 있어서의 온도, 습도 등이 주어진다.

입력부(30)에 입력된 학습 데이터로서의 각종의 데이터는 전처리부(40 내지 43), 클래스 분류용 데이터 구성부(44), 클래스 분류부(45), 또는 통합 파라미터 구성부(46)에 있어서, 도 2 전처리부(20 내지 23), 클래스 분류용 데이터 구성부(24), 클래스 분류부(25), 또는 통합 파라미터 구성부(26)에 있어서의 경우로 각각 동일하게 처리되고, 이것에 의해, 메모리(47)에는 클래스 분류부(45)로부터 클래스가 공급되는 동시에 통합 파라미터 구성부(46)로부터 통합 파라미터가 공급된다.

메모리(47)는 클래스 분류부(45)로부터의 클래스에 대응하는 어드레스에 통합 파라미터 구성부(46)로부터의 통합 파라미터를 표준 파라미터로서 기억한다.

이상의 처리가 많은 사람이 이야기한 각 음소(音素)에 관해서, 마이크(33)에 입력하는 잡음 및 센서(34)에의 입력을 다양한 것으로 변환하여 행하여진다.

그 결과, 메모리(47)에는 동일한 클래스에 속하는 통합 파라미터가 각 어드레스에 분류되어 기억된다.

도 2 표준 파라미터 기억부(28)에는 메모리(47)의 각 어드레스에 기억된 통합 파라미터(의 집합)가 표준 파라미터로서 각 클래스에 대응하는 표준 파라미터 테이블에 등록된 것이 기억되고 있다.

이 학습 장치에 의하면 예를 들면, 마이크(33)에 잡음을 입력하지 않은 경우와, 입력한 경우에는 클래스 분류부(45)에 있어서 다른 클래스로 분류되고, 그 결과 잡음이 있는 경우에 알맞은 표준 파라미터 테이블과, 잡음이 없는 경우에 알맞은 표준 파라미터 테이블이 작성되게 된다. 그리고, 도 2 음성 인식 장치에는 클래스 분류부(45)의 출력과 동일한 클래스가 클래스 분류부(25)로부터 출력되기 때문에 잡음이 있는 경우에는 그 경우에 알맞은 표준 파라미터 테이블이, 또, 잡음이 없는 경우에도, 그 경우에 알맞은 표준 파라미터 테이블이 선택되게 된다.

또한, 학습 장치에 있어서는 표준 파라미터는 상술한 바와 같이, 잡음이 있는 경우와, 없는 경우로 다른 클래스로 분류되고, 또, 잡음의 종류나 레벨, 또한, 화자가 말한 음소의 종류나, 화자가 남성인지 또는 여성인지 등에 의해서도 다른 클래스로 분류되는 것이 예상되지만, 표준 파라미터가 어떻게 분류되는지는 특히 문제가 되지 않는다. 이것은 예를 들면, 음성 인식 장치의 입력부(10)에의 입력이, 학습 장치의 입력부(30)와 동일하다면, 음성 인식 장치의 클래스 분류부(25)에 있어서의 클래스 분류 결과는 학습 장치의 클래스 분류부(45)에 있어서의 클래스 분류 결과와 동일하게 되며, 따라서, 음성 인식 장치에서는 입력부(10)에의 입력과 동일한 입력으로부터 얻어진 표준 파라미터, 즉, 그 입력에 대하여 알맞은 표준 파라미터를 사용하여 음성 인식이 행하여지기 때문이다.

또한, 도 4 학습 장치에 있어서, 메모리(47)에는 각 클래스마다 어떤 음소에 관해서의 통합 파라미터가 복수 기억되는 경우가 있다. 즉, 학습에 있어서는 1 화자에서, 다양한 잡음 환경하에서 동일한 음소를 말하게 하고, 또한, 이러한 말을 다수의 화자에게 시켜서, 어떤 클래스의 어떤 음소에 관해서 파라미터 공간이 어느 정도의 범위로 흩어진 복수의 통합 파라미터가 얻어지는 경우이다.

구체적으로는 예를 들면, 도 5는 간단하게 하기 위해서, 통합 파라미터가 3개의 성분(P₁, P₂, P₃)을 갖는 것으로서, 3차원의 파라미터 공간을 나타내고 있지만, 이러한 파라미터 공간에, 어떤 클래스에 대하여 얻어진 음소 「아」나 「이」에 관해서의 통합 파라미터를 플롯하면, 그 점은 어느 정도의 범위로 흩어진다.

그래서, 이러한 어느 정도의 범위로 흩어지는 모든 점을 그 음소에 관해서의 표준 파라미터로 사용해도 되지만, 기타, 예를 들면, 도 5에 도시하는 바와 같이 그 범위의 중심 등을 구하고, 이것을 그 음소의 표준 파라미터로 하는 것 등도 가능하다.

다음에, 도 6은 도 1 입력 장치(4)가 내장하는 음성 인식 장치의 제 2 실시예의 구성의 예를 도시하고 있다. 또한, 도면 중 도 2에 있어서의 경우와 대응하는 부분에 관해서는 동일한 부호를 붙이고 있고, 이하에서는 그 설명은 생략한다. 즉, 이 음성 인식 장치는 표준 파라미터 기억부(28)를 대신하여, 표준 파라미터 기억부(28₁내지 28_M)가 설치되고, 또한, 클래스 분류용 데이터 구성부(51) 및 클래스 분류부(52)가 새롭게 설치되고 있는 외에, 도 2 음성 인식 장치와 기본적으로 동일하게 구성되어 있다.

클래스 분류용 데이터 구성부(51)는 입력부(10)가 출력하는 복수 종류의 데이터로부터, 클래스 분류용 데이터를 구성하고, 클래스 분류부(52)에 출력한다. 클래스 분류부(52)는 클래스 분류용 데이터 구성부(51)가 출력하는 클래스 분류용 데이터를 클래스 분류하고, 그 클래스 분류 결과로서의 클래스를 전처리부(20 내지 23)에 공급한다.

이 경우, 전처리부(20 내지 23)에서는 클래스 분류부(52)가 출력하는 클래스에 대응한 전처리가 행하여진다. 즉, 예를 들면, 마이크(11)에 입력된 음성이 모음 등의 유성음인 경우는 제로 크로스 수 등보다도, 선형 예측 계수나 켑스트럼 계수 등이, 또한, 마이크(11)에 입력된 음성이 무성음인 경우는 선형 예측 계수나 켑스트럼 계수 등보다도, 제로 크로스 수나 주파수 대역마다의 파워, 무음의 기간 등이 음성의 특징을 갖기 쉽다. 또한, 마이크(13)에 입력되는 잡음의 레벨이 작은 경우는 그 잡음에 의한 영향은 고려할 필요가 없지만, 그 레벨이 큰 경우에는 잡음에 의한 영향을 고려하여 음성 인식을 하는 것이 바람직하다. 또한, 사용자의 입의 움직임이 거의 없는 경우는 그 움직임 벡터는 고려할 필요가 없고, 반대로, 움직임이 있는 경우에는 그 움직임 벡터를 고려하여 음성 인식을 하는 것이 바람직하다. 또한, 자동차의 진동이 거의 없는 경우나, 비가 내리고 있지 않은 경우 등에는 센서(14)의 출력을 고려할 필요는 없지만, 그 반대의 경우는 센서(14)의 출력을 고려하여 음성 인식을 하는 것이 바람직하다.

즉, 인식의 대상인 음성은 물론, 그 밖의 요인에 관해서도, 음성을 인식하는 데 있어서 알맞은 특징 파라미터(보다 정답율이 높은 인식 결과를 얻기 위한 특징 파라미터)는 경우에 따라서 변화한다고 생각된다.

그래서, 도 6의 음성 인식 장치에서는 입력부(10)가 출력하는 데이터로부터 클래스 분류용 데이터를 구성하고, 그것을 클래스 분류하는 것으로, 몇개인가의 경우로 나누어, 각 경우에 관해서 알맞은 특징 파라미터가 전처리부(20 내지 23)에서 구해진다.

따라서, 도 6의 실시예에서는 적응 판정부(27; 매칭부(29))에 있어서 거리 계산할 때의 파라미터 공간이, 클래스 분류부(52)의 클래스 분류 결과에 의해서 변화하게 된다. 즉, 적응 판정부(27)에서는 클래스 분류부(52)가 출력하는 클래스에 대응하는 파라미터 공간에 있어서의 거리가 계산되고, 그 거리에 근거하여 음성 인식 결과가 출력된다.

또한, 여기서는 클래스 분류부(52)에 있어서 클래스 분류 용도 데이터 구성부(51)가 출력하는 클래스 분류용 데이터가, M개의 클래스 중 어느것인가에 클래스 분류되게 한다.

또한, 전처리부(20 내지 23)에는 클래스 분류부(52)가 출력하는 클래스에 대응한 종류의 특징 파라미터를 출력시키는 외에, 동일한 특징 파라미터라도, 그 다음수를 변화시키거나(예를 들면, 8차나 12차 그 밖의 선형 예측 계수를 출력시키거나), 또는 특징 파라미터를 출력시키지 않도록 하는(예를 들면, 자동차가 조용한 장소에서 정지하고 있는 경우에는 마이크(13) 및 센서(14)의 출력은 고려할 필요가 없다고 생각되기 때문에, 전처리부(22 및 23)에는 특히 처리를 하지 않도록 한다) 것 등도 가능하다.

클래스 분류부(52)가 출력하는 클래스는 전처리부(20 내지 23) 외에, 적응 판정부(27)에도 공급된다. 적응 판정부(27)는 상술한 바와 같이, M개의 표준 파라미터 기억부(28₁내지 28_M)를 가지고 있고, 이 표준 파라미터 기억부(28₁내지 28_M) 각각에는 클래스 분류부(52)가 출력하는 M개의 클래스 각각에 대응하는 파라미터 공간에 있어서의 표준 파라미터가 기억되어 있다.

또한, 표준 파라미터 기억부(28)(단지, m=1, 2,···, M)에는 도 2 표준 파라미터 기억부(28)에 있어서의 경우와 동일하게, 클래스 분류부(25)가 출력하는 클래스마다의 표준 파라미터 테이블이 기억되어 있다.

또한, 표준 파라미터 기억부(28₁내지 28_M)가 기억하고 있는 표준 파라미터 테이블은 후술하는 학습 장치(도 7)에 있어서 학습에 의해 구해지도록 되어 있다. 적응 판정부(27)에서는 클래스 분류부(52)로부터 클래스를 수신하면, 표준 파라미터 기억부(28₁내지 28_M) 중에서, 그 클래스에 대응하는 것이 선택된다(표준 파라미터 기억부(28₁내지 28_M) 중에서 선택된 것을 이하, 표준 파라미터 기억부(28_MS)라 기재한다).

한편, 전처리부(20 내지 23)가 출력하는 특징 파라미터는 클래스 분류용 데이터 구성부(24)를 통하여 클래스 분류부(25)에 공급되는 것으로 클래스 분류되고, 그 클래스 분류 결과로서의 클래스가 적응 판정부(27)에 공급된다. 또한, 전처리부(20 내지 23)가 출력하는 특징 파라미터는 통합 파라미터 구성부(26)에도 공급되고, 거기서, 통합 파라미터가 된다. 또한, 통합 파라미터 구성부(26)에서는 적응 판정부(27)에서 선택된 표준 파라미터 기억부(28_MS)가 기억하고 있는 표준 파라미터 테이블에 등록되어 있는 표준 파라미터와 동일한 파라미터 공간에 있어서의 파라미터가 통합 파라미터로서 구성된다.

통합 파라미터 구성부(26)에서 얻어진 통합 파라미터는 적응 판정부(27)에 공급된다. 적응 판정부(27)에서는 표준 파라미터 기억부(28_MS)가 기억하고 있는 표준 파라미터 테이블로부터, 클래스 분류부(25)가 출력한 클래스에 대응하는 것이 선택되고, 매칭부(29)에 있어서, 그 표준 파라미터 테이블에 등록되어 있는 표준 파라미터 각각과, 통합 파라미터 구성부(26)로부터의 통합 파라미터와의 거리가 산출된다. 그리고, 그 거리를 가장 작게하는 표준 파라미터에 대응하는 음소가, 음성 인식 결과로서 출력된다.

이상과 같이, 클래스 분류부(52)가 출력하는 클래스에 대응한 전처리를 행하며, 각 경우에 있어서 알맞은 특징 파라미터를 얻도록 하였기 때문에, 각 경우에 알맞은 파라미터 공간에 있어서의 거리에 근거하여, 보다 정밀도가 높은 음성 인식 결과를 얻을 수 있게 된다.

다음에, 도 7은 도 6의 표준 파라미터 기억부(28₁내지 28_M)에 기억시키는 클래스마다의 표준 파라미터 테이블에 등록하는 표준 파라미터를 구하는 학습 처리를 행하는 학습 장치의 구성의 예를 도시하고 있다.

또한, 도면 중 도 4에 있어서의 경우와 대응하는 부분에 관해서는 동일한 부호를 붙이고 있어서, 이하에서는 그 설명은 생략한다. 즉, 이 학습 장치는 메모리(47)를 대신하여, 메모리(47₁내지 47_M)가 설치되며, 또, 클래스 분류용 데이터 구성부(61), 클래스 분류부(62) 및 실렉터(63)가 새롭게 설치되어 있는 외에, 도 4 학습 장치와 기본적으로 동일하게 구성되어 있다.

클래스 분류용 데이터 구성부(61) 또는 클래스 분류부(62)에서는 도 6의 클래스 분류용 데이터 구성부(51) 또는 클래스 분류부(52)에 있어서의 경우와 각각 동일한 처리가 행하여지고, 그 결과에서 얻어지는 클래스가 전처리부(40 내지 43) 및 실렉터(63)에 공급된다. 전처리부(40 내지 43)에서는 도 6의 전처리부(20 내지 23)에 있어서의 경우와 동일하게 클래스 분류부(62)가 출력하는 클래스에 대응한 전처리가 행하여지고, 이것에 의해, 지금의 경우에 알맞은 특징 파라미터가 출력된다.

이하, 클래스 분류용 데이터 구성부(44), 클래스 분류부(45), 또는 통합 파라미터 구성부(46)에 있어서, 도 6의 클래스 분류용 데이터 구성부(24), 클래스 분류부(25), 또는 통합 파라미터 구성부(26)에 있어서의 경우와 각각 동일한 처리가 행하여지고, 그 결과, 클래스 분류부(45)로부터는 클래스가 통합 파라미터 구성부(46)로부터는 통합 파라미터가 각각 출력된다.

한편, 실렉터(63)에서는 클래스 분류부(62)가 출력하는 클래스에 따라서, 메모리(47₁내지 47_M) 중 어느 하나의 칩 실렉트(CS) 단자에 선택 신호가 출력된다. 즉, 이것에 의해, 메모리(47₁내지 47_M) 중 클래스 분류부(62)가 출력하는 클래스에 대응하는 것이 선택된다.

또한, 클래스 분류부(45)가 출력하는 클래스는 메모리(47₁내지 47_M)의 어드레스(AD) 단자에 공급되어 있고, 이것에 의해 통합 파라미터 구성부(46)가 출력하는 통합 파라미터는 메모리(47₁내지 47_M) 중 클래스 분류부(62)가 출력하는 클래스에 대응하면서, 클래스 분류부(45)가 출력하는 클래스에 대응하는 어드레스에 기억된다. 도 6의 표준 파라미터 기억부(28₁내지 28_M) 각각에는 이상과 같이 하여 메모리(47₁내지 47_M) 각각의 각 어드레스에 기억된 통합 파라미터(의 집합)가 표준 파라미터로서 각 클래스(클래스 분류부(25)가 출력하는 클래스)에 대응하는 표준 파라미터 테이블에 등록된 것이 기억되고 있다.

또, 이 경우에 있어서도 도 6의 표준 파라미터 기억부(28₁내지 28_M) 각각에는 도 5a 및 도 5b에서 설명한 바와 같이 어떤 범위로 흩어지는 통합 파라미터의 중심 등을 표준 파라미터로서 기억시키도록 할 수 있다.

다음에, 도 8은 도 1 입력 장치(4)가 내장하는 음성 인식 장치의 제 3 실시예의 구성의 예를 도시하고 있다. 또, 도면 중 도 6에 있어서의 경우와 대응하는 부분에 관해서는 동일한 부호를 붙이고 있어서, 이하에서는 그 설명은 생략한다. 즉, 이 음성 인식 장치는 전처리부(71 내지 74)가 새롭게 설치되고, 전처리부(20 내지 23)를 대신하여, 전처리부(71 내지 74)의 출력이 통합 파라미터 구성부(26)에 공급되는 외에, 도 6의 음성 인식 장치와 동일하게 구성되어 있다.

전처리부(71 내지 74)에는 전처리부(20 내지 23)에 대한 입력과 동일한 입력이 주어지도록 되어 있다. 또한, 전처리부(71 내지 74)에는 클래스 분류부(52)가 출력하는 클래스도 공급되도록 되어 있다.

전처리부(71 내지 74)에서는 클래스 분류부(52)가 출력하는 클래스에 대응한 전처리가 행하여지고, 이것에 의해, 지금의 경우에 알맞은 특징 파라미터가 통합 파라미터 구성부(26)에 출력된다. 단, 여기에서는 전처리부(71 내지 74) 각각과, 전처리부(20 내지 23) 각각에서는 기본적으로 다른 전처리가 행하여지도록 되어 있다. 즉, 여기에서는 전처리부(20 내지 23)의 출력에서는 클래스 분류부(25)가 출력하는 클래스가 최종적으로 얻어지는 데 대하여, 전처리부(71)의 출력에서는 통합 파라미터 구성부(26)가 출력하는 통합 파라미터가 얻어진다. 그래서, 전처리부(20 내지 23)에서는 클래스 분류부(25)에 있어서 클래스 분류를 하는 데 알맞은 특징 파라미터가, 클래스 분류부(52)가 출력하는 클래스에 대응하여 구해지고, 다른쪽, 전처리부(71 내지 74)에서는 음성 인식에 사용하는 데 알맞은 통합 파라미터를 구성하는 데 알맞은 특징 파라미터가, 클래스 분류부(52)가 출력하는 클래스에 대응하여 구해진다.

다음에, 도 9는 도 8의 표준 파라미터 기억부(28₁내지 28_M)에 기억시키는 클래스마다의 표준 파라미터 테이블에 등록하는 표준 파라미터를 구하는 학습 처리를 하는 학습 장치의 구성의 예를 도시하고 있다.

또한, 도면 중 도 7에 있어서의 경우와 대응하는 부분에 관해서는 동일한 부호를 붙이고 있어서, 이하에서는 그 설명은 생략한다. 즉, 이 학습 장치는 전처리부(81 내지 84)가 새롭게 설치되고, 전처리부(40 내지 43)를 대신하여, 전처리부(81 내지 84)의 출력이 통합 파라미터 구성부(46)에 공급되는 외에, 도 7의 학습 장치와 기본적으로 동일하게 구성되어 있다.

전처리부(40 내지 43)에서는 도 8의 전처리부(20 내지 23)에 있어서의 경우와 같이, 클래스 분류부(45)에 있어서 클래스 분류를 하는 데 알맞은 특징 파라미터가, 클래스 분류부(62)가 출력하는 클래스에 대응하여 구해지고, 또, 전처리부(81 내지 84)에서는 도 8의 전처리부(71 내지 74)에 있어서의 경우와 같이, 음성 인식에 사용하는 데 알맞은 통합 파라미터를 구성하는 데 알맞은 특징 파라미터가, 클래스 분류부(62)가 출력하는 클래스에 대응하여 구해진다.

또, 도 9의 학습 장치에 의한 학습에 의해 얻어지는 통합 파라미터가 도 8의 표준 파라미터 기억부(28₁내지 28_M)에 기억되지만, 이 경우도, 학습에 의해 얻어진 통합 파라미터를 전부 기억시키는 것이 아니고, 도 5에서 설명한 바와 같이, 어떤 범위로 흩어지는 통합 파라미터의 중심 등을 표준 파라미터로서 기억시키도록 할 수 있다.

이상, 본 발명을 적용한 음성 인식 장치에 관해서 설명하였지만, 본 발명은 음성 이외의, 예를 들면, 화상이나 문자, 인물 등을 대상으로 한 인식 장치에도 적용 가능하다.

또한, 본 실시예에서는 인식 대상인 사용자의 음성 외에, CCD 카메라(32), 마이크(33), 및 센서(34)의 출력을 사용하여 인식을 행하도록 하였지만, 이 인식에 사용하는 데이터는 이들에 한정되는 것이 아니다.

또한, 도 2 실시예에서는 전처리부(20 내지 23)의 출력에서 클래스 분류용 데이터를 구성하여, 클래스 분류부(25)에 그 클래스 분류용 데이터를 클래스 분류시키도록 하였지만, 클래스 분류부(25)에는 기타, 예를 들면, 입력부(10)의 출력에서 직접 클래스 분류용 데이터를 구성하여, 이것을 클래스 분류시키도록 하는 것 등도 가능하다.

또한, 도 6내지 도 9의 실시예에 있어서는 전처리부(20 내지 23, 40 내지 43, 71 내지 73, 81 내지 83)에 클래스를 공급하여, 그 클래스에 대응한 전처리를 행하도록 하였지만, 전처리부(20 내지 23, 40 내지 43, 71 내지 73, 81 내지 83)에는 클래스에 대응한 함수를 공급하도록 하고, 이 함수에 따라서 연산을 행하게 하는 것으로 그 클래스에 대응한 전처리를 행하도록 할 수도 있다.

또한, 본 실시예에서는 설명을 간단히 하기 위해서, 매칭부(29)에 있어서, 어떤 파라미터 공간에 있어서의, 통합 파라미터와 표준 파라미터와의 거리에 근거하여, 음성 인식 결과를 얻을 수 있도록 하였지만, 매칭부(29)에는 기타 시계열에 얻어지는 통합 파라미터와 표준 파라미터와의 계열 간의 거리나, 그와 같은 계열이 관측되는 확률을 산출시키고, 이것에 근거하여 음성 인식 결과를 얻게 할 수도 있다. 또한, 매칭부(29)에는 클래스 분류부(25나 52)가 출력하는 클래스마다, 다른 음성 인식 알고리즘을 사용하여 음성 인식을 행하도록 할 수도 있다.

또한, 도 2, 도 6, 및 도 8에서 설명한 음성 인식 장치, 및 도 4, 도 7 및 도 9에서 설명한 학습 장치는 하드웨어로 실현하는 것은 물론, CPU나 메모리 등을 갖는 마이크로 프로세서의 애플리케이션으로서 소프트웨어로 실현할 수도 있다.

청구범위 제 1 항에 기재된 인식 장치 및 청구범위 제 5 항에 기재된 인식 방법에 의하면, 복수 종류의 입력 데이터를 그 성질에 따라서, 소정의 클래스로 분류하는 클래스 분류가 행하여지는 동시에, 복수 종류의 입력 데이터를 통합한 통합 파라미터가 구성되며, 클래스 분류의 결과에서 얻어지는 클래스에 대응하는 표준 파라미터가 등록된 테이블과, 통합 파라미터에 근거하여 인식 대상이 인식된다. 따라서, 각 경우마다 적절한 테이블이 사용되기 때문에 인식 성능을 향상시킬 수 있게 된다.

청구범위 제 6 항에 기재된 학습 장치 및 청구범위 제 9 항에 기재된 학습 방법에 의하면, 복수 종류의 입력 데이터를 그 성질에 따라서, 소정의 클래스로 분류하는 클래스 분류가 행하여지는 동시에, 복수 종류의 입력 데이터를 통합한 통합 파라미터가 구성되며, 그 통합 파라미터가 클래스 분류의 결과에서 얻어지는 클래스마다 분류된다. 따라서, 각 경우마다 인식에 사용하는 데 알맞은 파라미터를 얻을 수 있게 된다.

Claims

소정의 인식 대상을 복수 종류의 입력 데이터로부터 인식하는 인식 장치에 있어서,

상기 복수 종류의 입력 데이터를 그 성질에 따라서 소정의 클래스로 분류하는 클래스 분류를 행하는 제 1 클래스 분류 수단과,

상기 복수 종류의 입력 데이터를 통합한 통합 파라미터를 구성하는 통합 파라미터 구성 수단과,

상기 제 1 클래스 분류 수단이 출력하는 클래스마다 소정의 표준 파라미터가 등록되어 있는 테이블을 기억하고 있는 표준 파라미터 기억 수단과,

상기 제 1 클래스 분류 수단이 출력하는 클래스에 대응하는 테이블에 등록된 표준 파라미터와, 상기 통합 파라미터에 근거하여 상기 인식 대상을 인식하는 인식 수단을 구비하는 것을 특징으로 하는 인식 장치.
제 1 항에 있어서, 상기 입력 데이터를 분석하고, 그 특징 파라미터를 구하는 분석 수단을 추가로 구비하고,

상기 제 1 클래스 분류 수단은 상기 특징 파라미터에 근거하여, 상기 클래스 분류를 행하는 것을 특징으로 하는 인식 장치.
제 1 항에 있어서, 상기 입력 데이터를 상기 제 1 클래스 분류 수단이 출력하는 클래스에 대응하여 분석하고, 그 특징 파라미터를 구하는 분석 수단과,

상기 복수 종류의 입력 데이터 각각의 상기 특징 파라미터를 사용하여 상기 클래스 분류를 행하는 제 2 클래스 분류 수단을 추가로 구비하며,

상기 통합 파라미터 구성 수단은 상기 복수 종류의 입력 데이터 각각의 상기 특징 파라미터를 통합하고, 상기 통합 파라미터를 구성하며,

상기 표준 파라미터 기억 수단은 상기 제 1 클래스 분류 수단이 출력하는 클래스마다, 그리고, 상기 제 2 클래스 분류 수단이 출력하는 클래스마다에 소정의 표준 파라미터가 등록되어 있는 테이블을 기억하고 있고,

상기 인식 수단은 상기 제 1 및 제 2 클래스 분류 수단이 출력하는 양방의 클래스에 대응하는 테이블에 등록된 표준 파라미터와, 상기 통합 파라미터에 근거하여, 상기 인식 대상을 인식하는 것을 특징으로 하는 인식 장치.
제 1 항에 있어서, 상기 인식 대상은 소정의 화자가 발성한 음성이며,

상기 복수 종류의 입력 데이터는 적어도 그 음성 데이터와 화자의 입을 촬영하여 얻어지는 화상 데이터를 포함하는 것을 특징으로 하는 인식 장치.
소정의 인식 대상을 복수 종류의 입력 데이터로부터 인식하는 인식 방법에 있어서,

상기 복수 종류의 입력 데이터를 그 성질에 따라서, 소정의 클래스로 분류하는 클래스 분류를 행하는 동시에, 상기 복수 종류의 입력 데이터를 통합한 통합 파라미터를 구성하고,

상기 클래스 분류의 결과에서 얻어지는 클래스에 대응하는 표준 파라미터가 등록된 테이블과, 상기 통합 파라미터에 근거하여, 상기 인식 대상을 인식하는 것을 특징으로 하는 인식 방법.
소정의 인식 대상을 복수 종류의 입력 데이터로부터 인식하는 데 사용하는 표준 파라미터를 구하는 학습 장치에 있어서,

상기 복수 종류의 입력 데이터를 그 성질에 따라서, 소정의 클래스로 분류하는 클래스 분류를 행하는 제 1 클래스 분류 수단과,

상기 복수 종류의 입력 데이터를 통합한 통합 파라미터를 구성하는 통합 파라미터 구성 수단과,

상기 통합 파라미터를 상기 제 1 클래스 분류 수단이 출력하는 클래스마다 분류하는 분류 수단을 구비하는 것을 특징으로 하는 학습 장치.
제 6 항에 있어서, 상기 입력 데이터를 분석하고, 그 특징 파라미터를 구하는 분석 수단을 추가로 구비하며,

상기 제 1 클래스 분류 수단은 상기 특징 파라미터에 근거하여, 상기 클래스 분류를 행하는 것을 특징으로 하는 학습 장치.
제 6 항에 있어서, 상기 입력 데이터를 상기 제 1 클래스 분류 수단이 출력하는 클래스에 대응하여 분석하고, 그 특징 파라미터를 구하는 분석 수단과,

상기 복수 종류의 입력 데이터 각각의 상기 특징 파라미터를 사용하여 상기 클래스 분류를 행하는 제 2 클래스 분류 수단을 추가로 구비하며,

상기 통합 파라미터 구성 수단은 상기 복수 종류의 입력 데이터 각각의 상기 특징 파라미터를 통합하며, 상기 통합 파라미터를 구성하고,

상기 분류 수단은 상기 통합 파라미터를 상기 제 1 클래스 분류 수단이 출력하는 클래스마다, 그리고, 상기 제 2 클래스 분류 수단이 출력하는 클래스마다에 분류하는 것을 특징으로 하는 학습 장치.
소정의 인식 대상을 복수 종류의 입력 데이터로부터 인식하는 데 사용하는 표준 파라미터를 구하는 학습 방법에 있어서,

상기 복수 종류의 입력 데이터를 그 성질에 따라서, 소정의 클래스로 분류하는 클래스 분류를 행하는 동시에, 상기 복수 종류의 입력 데이터를 통합한 통합 파라미터를 구성하고,

상기 통합 파라미터를 상기 클래스 분류의 결과에서 얻어지는 클래스마다 분류하는 특징으로 하는 학습 방법.