KR19990087263A - 인식장치 및 인식방법과, 학습장치 및 학습 방법 - Google Patents

인식장치 및 인식방법과, 학습장치 및 학습 방법 Download PDF

Info

Publication number
KR19990087263A
KR19990087263A KR1019980706664A KR19980706664A KR19990087263A KR 19990087263 A KR19990087263 A KR 19990087263A KR 1019980706664 A KR1019980706664 A KR 1019980706664A KR 19980706664 A KR19980706664 A KR 19980706664A KR 19990087263 A KR19990087263 A KR 19990087263A
Authority
KR
South Korea
Prior art keywords
parameter
classifying
class
input data
integrated
Prior art date
Application number
KR1019980706664A
Other languages
English (en)
Other versions
KR100578260B1 (ko
Inventor
데츠지로 곤도
Original Assignee
이데이 노부유끼
소니 가부시끼 가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 이데이 노부유끼, 소니 가부시끼 가이샤 filed Critical 이데이 노부유끼
Publication of KR19990087263A publication Critical patent/KR19990087263A/ko
Application granted granted Critical
Publication of KR100578260B1 publication Critical patent/KR100578260B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Navigation (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

화자에 의해 발생되는 음성 데이터와, 화자의 입을 이미지 형성함에 의해 얻어지는 화상 데이터와, 주변 잡음 데이터 등의 복수개의 형태를 가진 데이터가 입력부(10)로부터 출력된다. 상기 데이터는 전처리부(20 내지 23)에 의해 분석되어 특징 파라미터가 얻어진다. 클래스 분류용 데이터 구성부(24)에서 특징 파라미터로부터 클래스 데이터가 얻어지고, 클래스 분류부(25)에서 분류된다. 통합 파라미터 구성부(26)에서, 전처리부(20 내지 23)로부터 출력된 특징 파라미터로부터 통합 파라미터가 형성된다. 적응 판정부(27)에서, 클래스 분류부(25)에 의한 분류 결과에 대응하는 테이블이 선택된다. 화자에 의해 발생된 음성은 선택된 테이블내에 저장된 기준 파라미터와, 통합 파라미터 구성부(26)로부터 출력된 통합 파라미터에 따라 인식된다. 음성의 인식율이 향상된다.

Description

인식장치 및 인식방법과, 학습장치 및 학습방법
종래의 예를 들면, 음성을 인식하는 음성 인식 장치에서는 마이크로폰(마이크)으로부터 출력되는 음성 데이터를(음향) 분석하고, 그 분석 결과를 사용하여 화자가 발성한 음성을 인식하도록 되어 있다.
그러나, 종래의 음성 인식 장치에서는 마이크로부터의 음성 데이터의 분석 결과만을 사용하여 음성 인식을 하고 있기 때문에, 그 인식 성능은 어느 정도의 한계가 있다.
즉, 화자가 말하는 것을 인식하는데 있어서는 마이크로부터의 음성 데이터뿐만아니라, 그 상대의 표정이나 입의 움직임 등도 중요한 요소라고 생각되며, 따라서, 그와 같은 여러가지의 요소를 고려하여야 한다.
또한, 음성 인식 장치는 방음실 등과 같이 인식 대상인 소리 음성만이 마이크에 입력되는 바와 같은 환경에서 사용되는 경우는 거의 없고, 그 밖의 다양한 잡음이 존재하는 환경하에서 사용되는 것이 많다. 즉, 최근에는 음성 인식 장치를 구비한 예를 들면, 네비게이션 시스템이 실용화되고 있지만, 이 경우, 음성 인식 장치에서는 인식해야할 화자의 음성 외에, 자동차에 장비된 CD(Compact Disc) 플레이어가 출력하는 소리나, 엔진 소리, 에어 컨디셔너의 소리, 그 밖의 잡음이 입력된다. 그리고, 이러한 잡음이 혼합된 음성 데이터에서 잡음만을 제거하는 것은 곤란하기 때문에, 인식 성능을 향상시키기 위해서는 인식 대상의 음성 이외의 소리인 잡음도 가미할 필요가 있다.
또한, 종래의 음성 인식 장치에서는 마이크에서 출력되는 음성 데이터에 대하여, 소정의 분석 처리를 실시하고, 그 특징 파라미터를 구하고, 그 특징 파라미터의 파라미터 공간에 있어서의 거리 등에 근거하여, 음성이 인식되도록 되어 있다. 그러나, 인식에 있어서 중요한 특징 파라미터는 음성 인식 장치가 사용되는 환경에 의해서 변화하는 것으로 고려된다.
본 발명은 인식 장치 및 인식 방법과, 학습 장치 및 학습 방법에 관한 것이다. 특히, 예를 들면, 음성이나 물체 등을 그 음성 데이터나 화상 데이터뿐만아니라, 다른 데이터도 사용하여 인식함으로써, 그 인식 정밀도를 향상시킬 수 있도록 하는 인식 장치 및 인식 방법과, 학습 장치 및 학습 방법에 관한 것이다.
도 1은 본 발명을 적용한 네비게이션 시스템 구성의 예를 도시하는 블록도.
도 2는 본 발명을 적용한 음성 인식 장치의 제 1 실시예의 구성의 예를 도시하는 블록도.
도 3은 전처리부(21)의 처리를 설명하기 위한 도면.
도 4는 본 발명을 적용한 학습 장치의 제 1 실시예의 구성의 예를 도시하는 블록도.
도 5는 파라미터 공간을 도시하는 도면.
도 6은 본 발명을 적용한 음성 인식 장치의 제 2 실시예의 구성의 예를 도시하는 블록도.
도 7은 본 발명을 적용한 학습 장치의 제 2 실시예의 구성의 예를 도시하는 블록도.
도 8은 본 발명을 적용한 음성 인식 장치의 제 3 실시예의 구성의 예를 도시하는 블록도.
도 9는 본 발명을 적용한 학습 장치의 제 3 실시예의 구성의 예를 도시하는 블록도.
본 발명은 이러한 상황에 비추어 이루어진 것이며, 본 발명의 목적은 음성 이외의 인식을 행하는 인식 장치의 인식 성능을 향상시킬 수 있도록 하는 것이다. 청구범위 제 1 항에 기재된 인식 장치는 복수 종류의 입력 데이터를 그 성질에 따라서, 소정의 클래스로 분류하는 클래스 분류를 행하는 제 1 클래스 분류 수단과, 복수 종류의 입력 데이터를 통합한 통합 파라미터를 구성하는 통합 파라미터 구성 수단과, 제 1 클래스 분류 수단이 출력하는 클래스마다 소정의 표준 파라미터가 등록되어 있는 테이블을 기억하고 있는 표준 파라미터 기억 수단과, 제 1 클래스 분류 수단이 출력하는 클래스에 대응하는 테이블에 등록된 표준 파라미터와, 통합 파라미터에 근거하여, 인식 대상을 인식하는 인식 수단을 구비하는 것을 특징으로 한다.
청구범위 제 5 항에 기재된 인식 방법은 복수 종류의 입력 데이터를 그 성질에 따라서, 소정의 클래스로 분류하는 클래스 분류를 행하는 동시에 복수 종류의 입력 데이터를 통합한 통합 파라미터를 구성하여, 클래스 분류의 결과에서 얻어지는 클래스에 대응하는 표준 파라미터가 등록된 테이블과, 통합 파라미터에 근거하여 인식 대상을 인식하는 것을 특징으로 한다.
청구범위 제 6 항에 기재된 학습 장치는 복수 종류의 입력 데이터를 그 성질에 따라서, 소정의 클래스로 분류하는 클래스 분류를 행하는 제 1 클래스 분류 수단과, 복수 종류의 입력 데이터를 통합한 통합 파라미터를 구성하는 통합 파라미터 구성 수단과, 통합 파라미터를 제 1 클래스 분류 수단이 출력하는 클래스마다 분류하는 분류 수단을 구비하는 것을 특징으로 한다.
청구범위 제 9 항에 기재된 학습 방법은 복수 종류의 입력 데이터를 그 성질에 따라서, 소정의 클래스로 분류하는 클래스 분류를 행하는 동시에, 복수 종류의 입력 데이터를 통합한 통합 파라미터를 구성하고, 통합 파라미터를 클래스 분류의 결과에서 얻어지는 클래스마다 분류하는 것을 특징으로 한다.
청구범위 제 1 항에 기재된 인식 장치에 있어서는 제 1 클래스 분류 수단은 복수 종류의 입력 데이터를 그 성질에 따라서 소정의 클래스로 분류하는 클래스 분류를 하고, 통합 파라미터 구성 수단은 복수 종류의 입력 데이터를 통합한 통합 파라미터를 구성하도록 되어 있다. 표준 파라미터 기억 수단은 제 1 클래스 분류 수단이 출력하는 클래스마다, 소정의 표준 파라미터가 등록되어 있는 테이블을 기억하고 있고, 인식 수단은 제 1 클래스 분류 수단이 출력하는 클래스에 대응하는 테이블에 등록된 표준 파라미터와, 통합 파라미터에 근거하여 인식 대상을 인식하도록 되어 있다.
청구범위 제 5 항에 기재된 인식 방법에 있어서는 복수 종류의 입력 데이터를 그 성질에 따라서, 소정의 클래스로 분류하는 클래스 분류를 행하는 동시에, 복수 종류의 입력 데이터를 통합한 통합 파라미터를 구성하고, 클래스 분류의 결과에서 얻어지는 클래스에 대응하는 표준 파라미터가 등록된 테이블과, 통합 파라미터에 근거하여 인식 대상을 인식하도록 되어 있다.
청구범위 제 6 항에 기재된 학습 장치에 있어서는 제 1 클래스 분류 수단은 복수 종류의 입력 데이터를 그 성질에 따라서 소정의 클래스로 분류하는 클래스 분류를 하고, 통합 파라미터 구성 수단은 복수 종류의 입력 데이터를 통합한 통합 파라미터를 구성하도록 되어 있다. 분류 수단은 통합 파라미터를 제 1 클래스 분류 수단이 출력하는 클래스마다 분류하도록 되어 있다.
청구범위 제 9 항에 기재된 학습 방법에 있어서는 복수 종류의 입력 데이터를 그 성질에 따라서 소정의 클래스로 분류하는 클래스 분류를 행하는 동시에, 복수 종류의 입력 데이터를 통합한 통합 파라미터를 구성하고, 통합 파라미터를 클래스 분류의 결과에서 얻어지는 클래스마다 분류하도록 되어 있다.
도 1은 본 발명을 적용한 네비게이션 시스템의 일실시예의 구성의 예를 도시하고 있다.
이 네비게이션 시스템은 자동차 등에 장비되어 시스템 제어부(1), 위치 측정 장치(2), 데이터 베이스 장치(3), 입력 장치(4) 및 출력 장치(5)를 구비하며, 예를 들면, 버튼 등의 조작에 의한 조작 이외에도 대화적으로 발생하는 입력 음성에 대응하여, 장치의 제어가 행하여지도록 되어 있다. 또한, 이 네비게이션 시스템은 예를 들면, 휴대하여 사용할 수도 있다.
시스템 제어부(1)는 시스템을 구성하는 각 블록과의 사이에 정보 송수신을 행하고, 시스템 전체의 동작을 제어하도록 되어 있다. 위치 측정 장치(2)는 GPS(Globa1 Positioning System) 위성으로부터 전파를 수신하거나, 예를 들면 자이로스코프나 차속 센서 등의 측정 장치를 사용하여 현재 위치를 측정하도록 되어 있다. 데이터 베이스 장치(3)에는 예를 들면 복수 스케일의 전자화된 지도 정보, 그 밖의 네비게이션에 필요한 정보가 기록(기억)되어 있고, 거기서부터는 시스템 제어부(1)로부터의 지령에 근거하여 필요한 정보가 검색되고, 시스템 제어부(1)에 공급되도록 되어 있다.
입력 장치(4)에는 네비게이션 시스템에 소정의 처리를 행하게 하기 위한 버튼이나 죠이 스틱, 음성을 입력하기 위한 마이크, 사용자를 촬상하기 위한 CCD(Charge Coupled Device) 카메라, 게다가, 자동차의 진동을 측정하기 위한 가속도 센서나, 습도나 온도를 측정하기 위한 센서, 그 밖의 각종 센서 등이 장비되어 있다. 입력 장치(4)에서는 버튼이나 죠이 스틱 등의 조작에 대응한 신호가 시스템 제어부(1)에 송신되도록 되어 있다. 또한, 입력 장치(4)는 음성 인식 장치를 가지고 있고, 입력된 음성을 음성 인식하고, 그 음성 인식 결과를 시스템 제어부(1)에 송신하도록 되어 있다.
출력 장치(5)는 화상 등을 표시하기 위한, 예를 들면 액정 모니터나 CRT(Cathod Ray Tube), 음성 등을 출력하기 위한 스피커, 텍스트 정보로부터 합성음을 생성하는 음성 합성 장치 등을 가지고 있고, 시스템 제어부(1)로부터 이송되어 오는 정보, 예를 들면 지도 정보나 현재 위치 정보 등을 표시하거나, 또한 음성 정보를 출력하거나 하도록 되어 있다. 또한, 출력 장치(5)는 시스템 제어부(1)로부터 텍스트 정보가 송신되어 온 경우에는 그 텍스트 정보에 대응하는 음성을 음성 합성 장치에 합성시켜서 출력하도록도 되어 있다.
이상과 같이 구성되는 네비게이션 시스템에는 예를 들면, 사용자가 목적지로서의 지명을 발화하면, 그 음성은 입력 장치(4)가 내장하는 음성 인식 장치에서 음성 인식되고, 그 음성 인식 결과가 시스템 제어부(1)에 공급된다. 시스템 제어부(1)는 목적지로서의 지명의 음성 인식 결과를 수신하면, 위치 측정 장치(2)의 출력으로부터 현재 위치를 인식하고, 게다가, 데이터 베이스 장치(3)에 기억된 지도 정보를 참조하는 것으로 현재 위치에서 목적지까지의 루트를 구한다. 그리고, 시스템 제어부(1)는 그 루트를 나타낸 지도 정보를 출력 장치(5)에 공급하여 표시시키는 동시에, 그 루트를 안내하는 합성음을 출력 장치(5)가 내장하는 음성 합성 장치에 생성시켜 출력시킨다.
따라서, 이 경우, 사용자는 용이하게 목적지에 도착할 수 있다.
다음에, 도 2는 도 1 입력 장치(4)가 내장하는 음성 인식 장치의 제 1 실시예의 구성의 예를 도시하고 있다.
입력부(10)는 마이크(11), CCD 카메라(12), 마이크(13), 센서(14), 앰플리파이어(15), A/D 변환기(16), 앰플리파이어(17), A/D 변환기(18 및 19)로부터 구성되며, 그들로부터는 운전자인 사용자의 음성을 인식하기 위해서 사용되는 각종의 입력 데이터가 출력된다.
구체적으로는 마이크(11)는 예를 들면 지향성을 갖는 것이며, 운전자인 사용자의 방향을 향하여 설치되어 있다. 따라서, 마이크(11)에는 주로 사용자의 음성이 입력된다. 마이크(11)에 입력된 음성은 음성 신호로 변환되어 앰플리파이어(15)를 통함으로써 증폭되어 A/D 변환기(18)에 공급된다. A/D 변환기(18)에서는 앰플리파이어(15)를 통하여 공급되는 아날로그의 음성 신호가 소정의 샘플링 클록에 따라서 샘플링되며, 또한, 소정의 양자화 스텝에서 양자화됨으로써, 디지털 신호인 음성 데이터로 변환된다. A/D 변환기(18)가 출력하는 음성 데이터는 전처리부(20)에 공급된다.
CCD 카메라(12)는 사용자의 입 부분을 촬영하도록 설치되어 있고, 이 CCD 카메라(12)로 촬상된 사용자의 입 부분은 화상 신호로 되어 A/D 변환기(16)에 공급된다. A/D 변환기(16)는 A/D 변환기(18)에 있어서의 경우와 같이, 아날로그의 화상 신호를 화상 데이터로 변환하여 전처리부(21)에 공급한다.
마이크(13)는 예를 들면, 무지향성의 것으로 주로 사용자의 음성 이외의 소리가 입력된다. 즉, 예를 들면, 엔진 소리나, 자동차에 장비된 라디오 수신기나 CD 플레이어 등으로부터 출력되는 소리, 에어 컨디셔너의 소리, 게다가, 창문이 열려 있는 경우에는 외부의 잡음 등이 입력된다. 마이크(13)에 입력된 소리는 앰플리파이어(17) 또는 A/D 변환기(19)에 있어서, 상술한 앰플리파이어(15) 또는 A/D 변환기(18)에 있어서의 경우와 각각 동일하게 처리되고, 이것에 의해 음성 데이터로 되어 전처리부(22)에 공급된다.
센서(14)는 자동차의 진동을 측정하기 위한 가속도 센서나, 습도나 온도를 측정하기 위한 센서 등으로, 그 출력은 전처리부(23)에 공급된다. 또, 가속도 센서의 출력에서는 예를 들면, 자동차가 진동함으로써 생기는 소음의 정도(크기)를 알 수 있다. 또한, 습도나 온도를 측정하기 위한 센서의 출력으로는 예를 들면, 비가 내리고 있는지 어떤지를 알 수 있으며, 또 비가 내리고 있다면 그 빗소리의 정도를 알 수 있다.
전처리부(20 내지 23)에서는 각각 공급되는 데이터가 분석되고, 그 특징을 나타내는 특징 파라미터가 구해진다.
즉, 전처리부(20 및 22)에서는 음성 데이터로부터, 예를 들면, 그 제로 크로스 수나, 소정의 주파수 대역마다의 파워, 선형(線形) 예측 계수, 켑스트럼 계수 등이 소정 시간으로서의 음성 프레임 단위로 구해지고, 특징 파라미터로서 클래스 분류용 데이터 구성부(24) 및 통합 파라미터 구성부(26)에 출력된다.
전처리부(21)에서는 사용자의 입 부분의 화상 데이터로부터 예를 들면, 도 3에 도시하는 바와 같이, 사용자의 입의 가로 길이(L1) 및 세로 길이(L2)가 구해지며, 그의 비 L1/L2가 특징 파라미터로서 클래스 분류용 데이터 구성부(24) 및 통합 파라미터 구성부(26)에 출력된다. 또한, 전처리부(21)에서는 사용자의 입 부분의 화상 데이터로부터 움직임 벡터나, 에지, DCT(이산 코사인 변환) 계수 등이 구해지고, 특징 파라미터로서 클래스 분류용 데이터 구성부(24) 및 통합 파라미터 구성부(26)에 출력된다.
전처리부(23)에서는 센서(14)의 출력이 분석됨으로써, 상술한 바와 같이 예를 들면, 자동차가 진동함으로써 생기는 소음의 정도(크기)를 반영하는 특징 파라미터나, 비의 소리 정도를 반영하는 특징 파라미터 등이 구해지고, 역시, 클래스 분류용 데이터 구성부(24) 및 통합 파라미터 구성부(26)에 출력된다.
클래스 분류용 데이터 구성부(24)는 전처리부(20 내지 24)가 출력하는 특징 파라미터의 적어도 일부를 클래스 분류에 사용하는 클래스 분류용 데이터로서 클래스 분류부(25)에 출력한다. 클래스 분류부(25)에서는 클래스 분류용 데이터 구성부(24)로부터의 클래스 분류용 데이터를 그 성질에 따라서, 소정의 클래스로 분류하는 클래스 분류를 한다.
즉, 클래스 분류부(25)는 클래스 분류용 데이터를 구성하는 특징 파라미터의 값의 패턴에 미리 할당된 값을 그 클래스 분류용 데이터의 클래스로서 적응 판정부(27)에 공급한다.
여기서, 특징 파라미터를 나타내는 데, 예를 들면 A비트가 할당되고 있는 경우에, 그와 같은 특징 파라미터를 B개 모아 클래스 분류용 데이터를 구성하면, 그와 같은 클래스 분류용 데이터를 구성하는 특징 파라미터 값의 패턴수는 (2A)B와 같이 된다. 따라서, A 또는 B가 크면, 클래스수가 막대한 수로 되어 그 후의 처리의 신속화가 곤란하게 된다.
그래서, 클래스 분류를 하기 전의 전처리로서 클래스 분류용 데이터에는 그것을 구성하는 특징 파라미터의 비트수를 저감하기 위한 처리이다, 예를 들면 ADRC(Adaptive Dynamic Range Coding) 처리 등이 실시된다.
즉, ADRC 처리에서는 우선, 클래스 분류용 데이터를 구성하는 B개의 특징 파라미터로부터, 그 값의 최대의 것(이하, 최대 특징 파라미터라 한다)과 최소의 것(이하, 최소 특징 파라미터라 한다)이 검출된다. 그리고, 최대 특징 파라미터의 값(MAX)과 최소 특징 파라미터의 값(MIN)과의 차분(DR(=MAX-MIN))이 연산되고, 이 DR을 클래스 분류용 데이터가 국소적인 다아내믹 레인지로 하며, 이 다아내믹 레인지(DR)에 근거하여 클래스 분류용 데이터를 구성하는 각 특징 파라미터가, 원래의 상기 비트수 A보다 적은 C비트에 재양자화된다. 즉, 클래스 분류용 데이터를 구성하는 각 특징 파라미터로부터 최소 특징 파라미터의 값(MIN)이 감산되어 각 감산치가 DR/2C에서 제산된다.
그 결과, 클래스 분류용 데이터를 구성하는 각 특징 파라미터는 C비트로 표현되게 된다. 따라서, 예를 들면 C=1로 한 경우 B개의 특징 파라미터의 패턴수는 (2A)B와 같이 되고, ADRC 처리를 하지 않은 경우에 비교하여 패턴수를 매우 적은 것으로 할 수 있다.
또한, 클래스 분류용 데이터를 구성하는 특징 파라미터의 패턴수를 적게 하는 관점에서는 클래스 분류용 데이터를 구성하는 특징 파라미터의 수(B)는 너무 큰 값으로 하지 않는 편이 바람직하다. 단, 특징 파라미터의 수(B)는 너무 적어도 적절한 클래스 분류가 행하여지지 않을 우려가 있다. 따라서, 특징 파라미터의 수(B)는 이들을 밸런스시켜서 정하는 것이 바람직하다.
한편, 통합 파라미터 구성부(26)는 전처리부(20 내지 24)가 출력하는 특징 파라미터의 적어도 일부를 통합하여 통합 파라미터로서, 적응 판정부(27)에 출력한다.
여기서, 통합 파라미터는 클래스 분류용 데이터를 구성하는 특징 파라미터와 동일한 것을 통합하여 구성하여도 되고, 또, 클래스 분류용 데이터를 구성하는 특징 파라미터와는 다른 것을 통합하여 구성하여도 된다.
적응 판정부(27)는 표준 파라미터 기억부(28) 및 매칭부(29)로부터 구성되어 있고, 클래스 분류부(25) 또는 통합 파라미터 구성부(26)로부터 클래스 또는 통합 파라미터를 각각 수신하면, 우선 클래스 분류부(25)로부터 수신한 클래스에 대응하는 표준 파라미터가 등록된 표준 파라미터 테이블을 표준 파라미터 기억부(28)로부터 선택한다.
즉, 표준 파라미터 기억부(28)는 후술하는 학습 장치(도 4)에 의한 학습처리에 의해서 얻어지는 예를 들면 음소에 대응하는 표준 파라미터가 등록되어 있는 표준 파라미터 테이블을 클래스마다 나누어 기억하고 있고, 매칭부(29)에서는 그 클래스마다의 표준 파라미터 테이블 중에서, 클래스 분류부(25)가 출력한 클래스에 대응하는 것이 선택된다.
또한, 매칭부(29)는 선택된 표준 파라미터 테이블에 등록되어 있는 표준 파라미터 각각과, 통합 파라미터 구성부(26)로부터의 통합 파라미터와의, 예를 들면, 유클리드 거리를 산출하고, 그 유클리드 거리를 가장 작게 하는 표준 파라미터에 대응하는 음소를 음성 인식 결과로서 출력한다.
따라서, 이 음성 인식 장치에 의하면, 주로 사용자의 음성이 입력되는 마이크(11)로부터 출력되는 음성 데이터뿐만아니라, CCD 카메라(12)가 출력하는 화상 데이터로부터 얻어지는 예를 들면 사용자의 입 모양이나 움직임, 마이크(13)가 출력하는 음성 데이터나 센서(14)의 출력으로부터 얻어지는 예를 들면 잡음의 종류나 주파수 대역 성분 등도 사용하고, 사용자의 음성이 인식되기 때문에, 그 인식율을 향상시킬 수 있다.
또한, 클래스마다 표준 파라미터 테이블을 준비하고, 입력부(10)가 출력하는 복수 종류의 데이터의 클래스에 대응하는 표준 패턴 테이블을 선택하도록 하였기 때문에, 입력부(10)가 출력하는 복수 종류의 데이터에 근거하여, 사용자의 음성을 인식하는 데 알맞은 표준 패턴 테이블을 사용할 수 있고, 그 결과, 인식율을 또한 향상시킬 수 있게 된다.
다음에, 도 4는 도 2 표준 파라미터 기억부(28)에 기억시키는 클래스마다의 표준 파라미터 테이블에 등록하는 표준 파라미터를 구하는 학습 처리를 행하는 학습 장치의 구성의 예를 도시하고 있다.
입력부(30)(마이크(31), CCD 카메라(32), 마이크(33), 센서(34), 앰플리파이어(35), A/D 변환기(36), 앰플리파이어(37), A/D 변환기(38, 및 39), 전처리부(40 내지 43) A 클래스 분류용 데이터 구성부(44), 클래스 분류부(45), 또는 통합 파라미터 구성부(46)는 도 2 음성 인식 장치에 있어서의 입력부(10)(마이크(11), CCD 카메라(12), 마이크(13), 센서(14), 앰플리파이어(15), A/D 변환기(16), 앰플리파이어(17), A/D 변환기(18 및 19), 전처리부(20 내지 23), 클래스 분류용 데이터 구성부(24), 클래스 분류부(25), 또는 통합 파라미터 구성부(26)로 각각 동일하게 구성되어 있다. 메모리(47)는 그 어드레스 단자(AD)에 클래스 분류부(45)가 출력하는 클래스가 어드레스로서 주어지도록 되어 있고, 통합 파라미터 구성부(46)가 출력하는 통합 파라미터를 기억하도록 되어 있다.
이상과 같이 구성되는 학습 장치에서는 입력부(30)에 학습을 하기 위한 학습 데이터가 입력된다. 즉, 마이크(31)에는 예를 들면, 어느 화자가 말한 음성이 입력된다. 또, 그 때 화자의 입 부분이 CCD 카메라(32)에 촬상된다. 또한, 마이크(33)에는 예를 들면, 각종 자동차의 에진 소리나, CD 플레이어로 재생된 곡, 비의 소리, 에어 컨디셔너의 소리, 그 밖의 잡음이 입력된다. 센서(34)에 대해서는 각종의 진동이나, 또는 마이크(33)에 비의 소리가 입력될 때에는 그 비가 내리고 있는 상태에 있어서의 온도, 습도 등이 주어진다.
입력부(30)에 입력된 학습 데이터로서의 각종의 데이터는 전처리부(40 내지 43), 클래스 분류용 데이터 구성부(44), 클래스 분류부(45), 또는 통합 파라미터 구성부(46)에 있어서, 도 2 전처리부(20 내지 23), 클래스 분류용 데이터 구성부(24), 클래스 분류부(25), 또는 통합 파라미터 구성부(26)에 있어서의 경우로 각각 동일하게 처리되고, 이것에 의해, 메모리(47)에는 클래스 분류부(45)로부터 클래스가 공급되는 동시에 통합 파라미터 구성부(46)로부터 통합 파라미터가 공급된다.
메모리(47)는 클래스 분류부(45)로부터의 클래스에 대응하는 어드레스에 통합 파라미터 구성부(46)로부터의 통합 파라미터를 표준 파라미터로서 기억한다.
이상의 처리가 많은 사람이 이야기한 각 음소(音素)에 관해서, 마이크(33)에 입력하는 잡음 및 센서(34)에의 입력을 다양한 것으로 변환하여 행하여진다.
그 결과, 메모리(47)에는 동일한 클래스에 속하는 통합 파라미터가 각 어드레스에 분류되어 기억된다.
도 2 표준 파라미터 기억부(28)에는 메모리(47)의 각 어드레스에 기억된 통합 파라미터(의 집합)가 표준 파라미터로서 각 클래스에 대응하는 표준 파라미터 테이블에 등록된 것이 기억되고 있다.
이 학습 장치에 의하면 예를 들면, 마이크(33)에 잡음을 입력하지 않은 경우와, 입력한 경우에는 클래스 분류부(45)에 있어서 다른 클래스로 분류되고, 그 결과 잡음이 있는 경우에 알맞은 표준 파라미터 테이블과, 잡음이 없는 경우에 알맞은 표준 파라미터 테이블이 작성되게 된다. 그리고, 도 2 음성 인식 장치에는 클래스 분류부(45)의 출력과 동일한 클래스가 클래스 분류부(25)로부터 출력되기 때문에 잡음이 있는 경우에는 그 경우에 알맞은 표준 파라미터 테이블이, 또, 잡음이 없는 경우에도, 그 경우에 알맞은 표준 파라미터 테이블이 선택되게 된다.
또한, 학습 장치에 있어서는 표준 파라미터는 상술한 바와 같이, 잡음이 있는 경우와, 없는 경우로 다른 클래스로 분류되고, 또, 잡음의 종류나 레벨, 또한, 화자가 말한 음소의 종류나, 화자가 남성인지 또는 여성인지 등에 의해서도 다른 클래스로 분류되는 것이 예상되지만, 표준 파라미터가 어떻게 분류되는지는 특히 문제가 되지 않는다. 이것은 예를 들면, 음성 인식 장치의 입력부(10)에의 입력이, 학습 장치의 입력부(30)와 동일하다면, 음성 인식 장치의 클래스 분류부(25)에 있어서의 클래스 분류 결과는 학습 장치의 클래스 분류부(45)에 있어서의 클래스 분류 결과와 동일하게 되며, 따라서, 음성 인식 장치에서는 입력부(10)에의 입력과 동일한 입력으로부터 얻어진 표준 파라미터, 즉, 그 입력에 대하여 알맞은 표준 파라미터를 사용하여 음성 인식이 행하여지기 때문이다.
또한, 도 4 학습 장치에 있어서, 메모리(47)에는 각 클래스마다 어떤 음소에 관해서의 통합 파라미터가 복수 기억되는 경우가 있다. 즉, 학습에 있어서는 1 화자에서, 다양한 잡음 환경하에서 동일한 음소를 말하게 하고, 또한, 이러한 말을 다수의 화자에게 시켜서, 어떤 클래스의 어떤 음소에 관해서 파라미터 공간이 어느 정도의 범위로 흩어진 복수의 통합 파라미터가 얻어지는 경우이다.
구체적으로는 예를 들면, 도 5는 간단하게 하기 위해서, 통합 파라미터가 3개의 성분(P1, P2, P3)을 갖는 것으로서, 3차원의 파라미터 공간을 나타내고 있지만, 이러한 파라미터 공간에, 어떤 클래스에 대하여 얻어진 음소 「아」나 「이」에 관해서의 통합 파라미터를 플롯하면, 그 점은 어느 정도의 범위로 흩어진다.
그래서, 이러한 어느 정도의 범위로 흩어지는 모든 점을 그 음소에 관해서의 표준 파라미터로 사용해도 되지만, 기타, 예를 들면, 도 5에 도시하는 바와 같이 그 범위의 중심 등을 구하고, 이것을 그 음소의 표준 파라미터로 하는 것 등도 가능하다.
다음에, 도 6은 도 1 입력 장치(4)가 내장하는 음성 인식 장치의 제 2 실시예의 구성의 예를 도시하고 있다. 또한, 도면 중 도 2에 있어서의 경우와 대응하는 부분에 관해서는 동일한 부호를 붙이고 있고, 이하에서는 그 설명은 생략한다. 즉, 이 음성 인식 장치는 표준 파라미터 기억부(28)를 대신하여, 표준 파라미터 기억부(281내지 28M)가 설치되고, 또한, 클래스 분류용 데이터 구성부(51) 및 클래스 분류부(52)가 새롭게 설치되고 있는 외에, 도 2 음성 인식 장치와 기본적으로 동일하게 구성되어 있다.
클래스 분류용 데이터 구성부(51)는 입력부(10)가 출력하는 복수 종류의 데이터로부터, 클래스 분류용 데이터를 구성하고, 클래스 분류부(52)에 출력한다. 클래스 분류부(52)는 클래스 분류용 데이터 구성부(51)가 출력하는 클래스 분류용 데이터를 클래스 분류하고, 그 클래스 분류 결과로서의 클래스를 전처리부(20 내지 23)에 공급한다.
이 경우, 전처리부(20 내지 23)에서는 클래스 분류부(52)가 출력하는 클래스에 대응한 전처리가 행하여진다. 즉, 예를 들면, 마이크(11)에 입력된 음성이 모음 등의 유성음인 경우는 제로 크로스 수 등보다도, 선형 예측 계수나 켑스트럼 계수 등이, 또한, 마이크(11)에 입력된 음성이 무성음인 경우는 선형 예측 계수나 켑스트럼 계수 등보다도, 제로 크로스 수나 주파수 대역마다의 파워, 무음의 기간 등이 음성의 특징을 갖기 쉽다. 또한, 마이크(13)에 입력되는 잡음의 레벨이 작은 경우는 그 잡음에 의한 영향은 고려할 필요가 없지만, 그 레벨이 큰 경우에는 잡음에 의한 영향을 고려하여 음성 인식을 하는 것이 바람직하다. 또한, 사용자의 입의 움직임이 거의 없는 경우는 그 움직임 벡터는 고려할 필요가 없고, 반대로, 움직임이 있는 경우에는 그 움직임 벡터를 고려하여 음성 인식을 하는 것이 바람직하다. 또한, 자동차의 진동이 거의 없는 경우나, 비가 내리고 있지 않은 경우 등에는 센서(14)의 출력을 고려할 필요는 없지만, 그 반대의 경우는 센서(14)의 출력을 고려하여 음성 인식을 하는 것이 바람직하다.
즉, 인식의 대상인 음성은 물론, 그 밖의 요인에 관해서도, 음성을 인식하는 데 있어서 알맞은 특징 파라미터(보다 정답율이 높은 인식 결과를 얻기 위한 특징 파라미터)는 경우에 따라서 변화한다고 생각된다.
그래서, 도 6의 음성 인식 장치에서는 입력부(10)가 출력하는 데이터로부터 클래스 분류용 데이터를 구성하고, 그것을 클래스 분류하는 것으로, 몇개인가의 경우로 나누어, 각 경우에 관해서 알맞은 특징 파라미터가 전처리부(20 내지 23)에서 구해진다.
따라서, 도 6의 실시예에서는 적응 판정부(27; 매칭부(29))에 있어서 거리 계산할 때의 파라미터 공간이, 클래스 분류부(52)의 클래스 분류 결과에 의해서 변화하게 된다. 즉, 적응 판정부(27)에서는 클래스 분류부(52)가 출력하는 클래스에 대응하는 파라미터 공간에 있어서의 거리가 계산되고, 그 거리에 근거하여 음성 인식 결과가 출력된다.
또한, 여기서는 클래스 분류부(52)에 있어서 클래스 분류 용도 데이터 구성부(51)가 출력하는 클래스 분류용 데이터가, M개의 클래스 중 어느것인가에 클래스 분류되게 한다.
또한, 전처리부(20 내지 23)에는 클래스 분류부(52)가 출력하는 클래스에 대응한 종류의 특징 파라미터를 출력시키는 외에, 동일한 특징 파라미터라도, 그 다음수를 변화시키거나(예를 들면, 8차나 12차 그 밖의 선형 예측 계수를 출력시키거나), 또는 특징 파라미터를 출력시키지 않도록 하는(예를 들면, 자동차가 조용한 장소에서 정지하고 있는 경우에는 마이크(13) 및 센서(14)의 출력은 고려할 필요가 없다고 생각되기 때문에, 전처리부(22 및 23)에는 특히 처리를 하지 않도록 한다) 것 등도 가능하다.
클래스 분류부(52)가 출력하는 클래스는 전처리부(20 내지 23) 외에, 적응 판정부(27)에도 공급된다. 적응 판정부(27)는 상술한 바와 같이, M개의 표준 파라미터 기억부(281내지 28M)를 가지고 있고, 이 표준 파라미터 기억부(281내지 28M) 각각에는 클래스 분류부(52)가 출력하는 M개의 클래스 각각에 대응하는 파라미터 공간에 있어서의 표준 파라미터가 기억되어 있다.
또한, 표준 파라미터 기억부(28)(단지, m=1, 2,···, M)에는 도 2 표준 파라미터 기억부(28)에 있어서의 경우와 동일하게, 클래스 분류부(25)가 출력하는 클래스마다의 표준 파라미터 테이블이 기억되어 있다.
또한, 표준 파라미터 기억부(281내지 28M)가 기억하고 있는 표준 파라미터 테이블은 후술하는 학습 장치(도 7)에 있어서 학습에 의해 구해지도록 되어 있다. 적응 판정부(27)에서는 클래스 분류부(52)로부터 클래스를 수신하면, 표준 파라미터 기억부(281내지 28M) 중에서, 그 클래스에 대응하는 것이 선택된다(표준 파라미터 기억부(281내지 28M) 중에서 선택된 것을 이하, 표준 파라미터 기억부(28MS)라 기재한다).
한편, 전처리부(20 내지 23)가 출력하는 특징 파라미터는 클래스 분류용 데이터 구성부(24)를 통하여 클래스 분류부(25)에 공급되는 것으로 클래스 분류되고, 그 클래스 분류 결과로서의 클래스가 적응 판정부(27)에 공급된다. 또한, 전처리부(20 내지 23)가 출력하는 특징 파라미터는 통합 파라미터 구성부(26)에도 공급되고, 거기서, 통합 파라미터가 된다. 또한, 통합 파라미터 구성부(26)에서는 적응 판정부(27)에서 선택된 표준 파라미터 기억부(28MS)가 기억하고 있는 표준 파라미터 테이블에 등록되어 있는 표준 파라미터와 동일한 파라미터 공간에 있어서의 파라미터가 통합 파라미터로서 구성된다.
통합 파라미터 구성부(26)에서 얻어진 통합 파라미터는 적응 판정부(27)에 공급된다. 적응 판정부(27)에서는 표준 파라미터 기억부(28MS)가 기억하고 있는 표준 파라미터 테이블로부터, 클래스 분류부(25)가 출력한 클래스에 대응하는 것이 선택되고, 매칭부(29)에 있어서, 그 표준 파라미터 테이블에 등록되어 있는 표준 파라미터 각각과, 통합 파라미터 구성부(26)로부터의 통합 파라미터와의 거리가 산출된다. 그리고, 그 거리를 가장 작게하는 표준 파라미터에 대응하는 음소가, 음성 인식 결과로서 출력된다.
이상과 같이, 클래스 분류부(52)가 출력하는 클래스에 대응한 전처리를 행하며, 각 경우에 있어서 알맞은 특징 파라미터를 얻도록 하였기 때문에, 각 경우에 알맞은 파라미터 공간에 있어서의 거리에 근거하여, 보다 정밀도가 높은 음성 인식 결과를 얻을 수 있게 된다.
다음에, 도 7은 도 6의 표준 파라미터 기억부(281내지 28M)에 기억시키는 클래스마다의 표준 파라미터 테이블에 등록하는 표준 파라미터를 구하는 학습 처리를 행하는 학습 장치의 구성의 예를 도시하고 있다.
또한, 도면 중 도 4에 있어서의 경우와 대응하는 부분에 관해서는 동일한 부호를 붙이고 있어서, 이하에서는 그 설명은 생략한다. 즉, 이 학습 장치는 메모리(47)를 대신하여, 메모리(471내지 47M)가 설치되며, 또, 클래스 분류용 데이터 구성부(61), 클래스 분류부(62) 및 실렉터(63)가 새롭게 설치되어 있는 외에, 도 4 학습 장치와 기본적으로 동일하게 구성되어 있다.
클래스 분류용 데이터 구성부(61) 또는 클래스 분류부(62)에서는 도 6의 클래스 분류용 데이터 구성부(51) 또는 클래스 분류부(52)에 있어서의 경우와 각각 동일한 처리가 행하여지고, 그 결과에서 얻어지는 클래스가 전처리부(40 내지 43) 및 실렉터(63)에 공급된다. 전처리부(40 내지 43)에서는 도 6의 전처리부(20 내지 23)에 있어서의 경우와 동일하게 클래스 분류부(62)가 출력하는 클래스에 대응한 전처리가 행하여지고, 이것에 의해, 지금의 경우에 알맞은 특징 파라미터가 출력된다.
이하, 클래스 분류용 데이터 구성부(44), 클래스 분류부(45), 또는 통합 파라미터 구성부(46)에 있어서, 도 6의 클래스 분류용 데이터 구성부(24), 클래스 분류부(25), 또는 통합 파라미터 구성부(26)에 있어서의 경우와 각각 동일한 처리가 행하여지고, 그 결과, 클래스 분류부(45)로부터는 클래스가 통합 파라미터 구성부(46)로부터는 통합 파라미터가 각각 출력된다.
한편, 실렉터(63)에서는 클래스 분류부(62)가 출력하는 클래스에 따라서, 메모리(471내지 47M) 중 어느 하나의 칩 실렉트(CS) 단자에 선택 신호가 출력된다. 즉, 이것에 의해, 메모리(471내지 47M) 중 클래스 분류부(62)가 출력하는 클래스에 대응하는 것이 선택된다.
또한, 클래스 분류부(45)가 출력하는 클래스는 메모리(471내지 47M)의 어드레스(AD) 단자에 공급되어 있고, 이것에 의해 통합 파라미터 구성부(46)가 출력하는 통합 파라미터는 메모리(471내지 47M) 중 클래스 분류부(62)가 출력하는 클래스에 대응하면서, 클래스 분류부(45)가 출력하는 클래스에 대응하는 어드레스에 기억된다. 도 6의 표준 파라미터 기억부(281내지 28M) 각각에는 이상과 같이 하여 메모리(471내지 47M) 각각의 각 어드레스에 기억된 통합 파라미터(의 집합)가 표준 파라미터로서 각 클래스(클래스 분류부(25)가 출력하는 클래스)에 대응하는 표준 파라미터 테이블에 등록된 것이 기억되고 있다.
또, 이 경우에 있어서도 도 6의 표준 파라미터 기억부(281내지 28M) 각각에는 도 5a 및 도 5b에서 설명한 바와 같이 어떤 범위로 흩어지는 통합 파라미터의 중심 등을 표준 파라미터로서 기억시키도록 할 수 있다.
다음에, 도 8은 도 1 입력 장치(4)가 내장하는 음성 인식 장치의 제 3 실시예의 구성의 예를 도시하고 있다. 또, 도면 중 도 6에 있어서의 경우와 대응하는 부분에 관해서는 동일한 부호를 붙이고 있어서, 이하에서는 그 설명은 생략한다. 즉, 이 음성 인식 장치는 전처리부(71 내지 74)가 새롭게 설치되고, 전처리부(20 내지 23)를 대신하여, 전처리부(71 내지 74)의 출력이 통합 파라미터 구성부(26)에 공급되는 외에, 도 6의 음성 인식 장치와 동일하게 구성되어 있다.
전처리부(71 내지 74)에는 전처리부(20 내지 23)에 대한 입력과 동일한 입력이 주어지도록 되어 있다. 또한, 전처리부(71 내지 74)에는 클래스 분류부(52)가 출력하는 클래스도 공급되도록 되어 있다.
전처리부(71 내지 74)에서는 클래스 분류부(52)가 출력하는 클래스에 대응한 전처리가 행하여지고, 이것에 의해, 지금의 경우에 알맞은 특징 파라미터가 통합 파라미터 구성부(26)에 출력된다. 단, 여기에서는 전처리부(71 내지 74) 각각과, 전처리부(20 내지 23) 각각에서는 기본적으로 다른 전처리가 행하여지도록 되어 있다. 즉, 여기에서는 전처리부(20 내지 23)의 출력에서는 클래스 분류부(25)가 출력하는 클래스가 최종적으로 얻어지는 데 대하여, 전처리부(71)의 출력에서는 통합 파라미터 구성부(26)가 출력하는 통합 파라미터가 얻어진다. 그래서, 전처리부(20 내지 23)에서는 클래스 분류부(25)에 있어서 클래스 분류를 하는 데 알맞은 특징 파라미터가, 클래스 분류부(52)가 출력하는 클래스에 대응하여 구해지고, 다른쪽, 전처리부(71 내지 74)에서는 음성 인식에 사용하는 데 알맞은 통합 파라미터를 구성하는 데 알맞은 특징 파라미터가, 클래스 분류부(52)가 출력하는 클래스에 대응하여 구해진다.
다음에, 도 9는 도 8의 표준 파라미터 기억부(281내지 28M)에 기억시키는 클래스마다의 표준 파라미터 테이블에 등록하는 표준 파라미터를 구하는 학습 처리를 하는 학습 장치의 구성의 예를 도시하고 있다.
또한, 도면 중 도 7에 있어서의 경우와 대응하는 부분에 관해서는 동일한 부호를 붙이고 있어서, 이하에서는 그 설명은 생략한다. 즉, 이 학습 장치는 전처리부(81 내지 84)가 새롭게 설치되고, 전처리부(40 내지 43)를 대신하여, 전처리부(81 내지 84)의 출력이 통합 파라미터 구성부(46)에 공급되는 외에, 도 7의 학습 장치와 기본적으로 동일하게 구성되어 있다.
전처리부(40 내지 43)에서는 도 8의 전처리부(20 내지 23)에 있어서의 경우와 같이, 클래스 분류부(45)에 있어서 클래스 분류를 하는 데 알맞은 특징 파라미터가, 클래스 분류부(62)가 출력하는 클래스에 대응하여 구해지고, 또, 전처리부(81 내지 84)에서는 도 8의 전처리부(71 내지 74)에 있어서의 경우와 같이, 음성 인식에 사용하는 데 알맞은 통합 파라미터를 구성하는 데 알맞은 특징 파라미터가, 클래스 분류부(62)가 출력하는 클래스에 대응하여 구해진다.
또, 도 9의 학습 장치에 의한 학습에 의해 얻어지는 통합 파라미터가 도 8의 표준 파라미터 기억부(281내지 28M)에 기억되지만, 이 경우도, 학습에 의해 얻어진 통합 파라미터를 전부 기억시키는 것이 아니고, 도 5에서 설명한 바와 같이, 어떤 범위로 흩어지는 통합 파라미터의 중심 등을 표준 파라미터로서 기억시키도록 할 수 있다.
이상, 본 발명을 적용한 음성 인식 장치에 관해서 설명하였지만, 본 발명은 음성 이외의, 예를 들면, 화상이나 문자, 인물 등을 대상으로 한 인식 장치에도 적용 가능하다.
또한, 본 실시예에서는 인식 대상인 사용자의 음성 외에, CCD 카메라(32), 마이크(33), 및 센서(34)의 출력을 사용하여 인식을 행하도록 하였지만, 이 인식에 사용하는 데이터는 이들에 한정되는 것이 아니다.
또한, 도 2 실시예에서는 전처리부(20 내지 23)의 출력에서 클래스 분류용 데이터를 구성하여, 클래스 분류부(25)에 그 클래스 분류용 데이터를 클래스 분류시키도록 하였지만, 클래스 분류부(25)에는 기타, 예를 들면, 입력부(10)의 출력에서 직접 클래스 분류용 데이터를 구성하여, 이것을 클래스 분류시키도록 하는 것 등도 가능하다.
또한, 도 6내지 도 9의 실시예에 있어서는 전처리부(20 내지 23, 40 내지 43, 71 내지 73, 81 내지 83)에 클래스를 공급하여, 그 클래스에 대응한 전처리를 행하도록 하였지만, 전처리부(20 내지 23, 40 내지 43, 71 내지 73, 81 내지 83)에는 클래스에 대응한 함수를 공급하도록 하고, 이 함수에 따라서 연산을 행하게 하는 것으로 그 클래스에 대응한 전처리를 행하도록 할 수도 있다.
또한, 본 실시예에서는 설명을 간단히 하기 위해서, 매칭부(29)에 있어서, 어떤 파라미터 공간에 있어서의, 통합 파라미터와 표준 파라미터와의 거리에 근거하여, 음성 인식 결과를 얻을 수 있도록 하였지만, 매칭부(29)에는 기타 시계열에 얻어지는 통합 파라미터와 표준 파라미터와의 계열 간의 거리나, 그와 같은 계열이 관측되는 확률을 산출시키고, 이것에 근거하여 음성 인식 결과를 얻게 할 수도 있다. 또한, 매칭부(29)에는 클래스 분류부(25나 52)가 출력하는 클래스마다, 다른 음성 인식 알고리즘을 사용하여 음성 인식을 행하도록 할 수도 있다.
또한, 도 2, 도 6, 및 도 8에서 설명한 음성 인식 장치, 및 도 4, 도 7 및 도 9에서 설명한 학습 장치는 하드웨어로 실현하는 것은 물론, CPU나 메모리 등을 갖는 마이크로 프로세서의 애플리케이션으로서 소프트웨어로 실현할 수도 있다.
청구범위 제 1 항에 기재된 인식 장치 및 청구범위 제 5 항에 기재된 인식 방법에 의하면, 복수 종류의 입력 데이터를 그 성질에 따라서, 소정의 클래스로 분류하는 클래스 분류가 행하여지는 동시에, 복수 종류의 입력 데이터를 통합한 통합 파라미터가 구성되며, 클래스 분류의 결과에서 얻어지는 클래스에 대응하는 표준 파라미터가 등록된 테이블과, 통합 파라미터에 근거하여 인식 대상이 인식된다. 따라서, 각 경우마다 적절한 테이블이 사용되기 때문에 인식 성능을 향상시킬 수 있게 된다.
청구범위 제 6 항에 기재된 학습 장치 및 청구범위 제 9 항에 기재된 학습 방법에 의하면, 복수 종류의 입력 데이터를 그 성질에 따라서, 소정의 클래스로 분류하는 클래스 분류가 행하여지는 동시에, 복수 종류의 입력 데이터를 통합한 통합 파라미터가 구성되며, 그 통합 파라미터가 클래스 분류의 결과에서 얻어지는 클래스마다 분류된다. 따라서, 각 경우마다 인식에 사용하는 데 알맞은 파라미터를 얻을 수 있게 된다.

Claims (9)

  1. 소정의 인식 대상을 복수 종류의 입력 데이터로부터 인식하는 인식 장치에 있어서,
    상기 복수 종류의 입력 데이터를 그 성질에 따라서 소정의 클래스로 분류하는 클래스 분류를 행하는 제 1 클래스 분류 수단과,
    상기 복수 종류의 입력 데이터를 통합한 통합 파라미터를 구성하는 통합 파라미터 구성 수단과,
    상기 제 1 클래스 분류 수단이 출력하는 클래스마다 소정의 표준 파라미터가 등록되어 있는 테이블을 기억하고 있는 표준 파라미터 기억 수단과,
    상기 제 1 클래스 분류 수단이 출력하는 클래스에 대응하는 테이블에 등록된 표준 파라미터와, 상기 통합 파라미터에 근거하여 상기 인식 대상을 인식하는 인식 수단을 구비하는 것을 특징으로 하는 인식 장치.
  2. 제 1 항에 있어서, 상기 입력 데이터를 분석하고, 그 특징 파라미터를 구하는 분석 수단을 추가로 구비하고,
    상기 제 1 클래스 분류 수단은 상기 특징 파라미터에 근거하여, 상기 클래스 분류를 행하는 것을 특징으로 하는 인식 장치.
  3. 제 1 항에 있어서, 상기 입력 데이터를 상기 제 1 클래스 분류 수단이 출력하는 클래스에 대응하여 분석하고, 그 특징 파라미터를 구하는 분석 수단과,
    상기 복수 종류의 입력 데이터 각각의 상기 특징 파라미터를 사용하여 상기 클래스 분류를 행하는 제 2 클래스 분류 수단을 추가로 구비하며,
    상기 통합 파라미터 구성 수단은 상기 복수 종류의 입력 데이터 각각의 상기 특징 파라미터를 통합하고, 상기 통합 파라미터를 구성하며,
    상기 표준 파라미터 기억 수단은 상기 제 1 클래스 분류 수단이 출력하는 클래스마다, 그리고, 상기 제 2 클래스 분류 수단이 출력하는 클래스마다에 소정의 표준 파라미터가 등록되어 있는 테이블을 기억하고 있고,
    상기 인식 수단은 상기 제 1 및 제 2 클래스 분류 수단이 출력하는 양방의 클래스에 대응하는 테이블에 등록된 표준 파라미터와, 상기 통합 파라미터에 근거하여, 상기 인식 대상을 인식하는 것을 특징으로 하는 인식 장치.
  4. 제 1 항에 있어서, 상기 인식 대상은 소정의 화자가 발성한 음성이며,
    상기 복수 종류의 입력 데이터는 적어도 그 음성 데이터와 화자의 입을 촬영하여 얻어지는 화상 데이터를 포함하는 것을 특징으로 하는 인식 장치.
  5. 소정의 인식 대상을 복수 종류의 입력 데이터로부터 인식하는 인식 방법에 있어서,
    상기 복수 종류의 입력 데이터를 그 성질에 따라서, 소정의 클래스로 분류하는 클래스 분류를 행하는 동시에, 상기 복수 종류의 입력 데이터를 통합한 통합 파라미터를 구성하고,
    상기 클래스 분류의 결과에서 얻어지는 클래스에 대응하는 표준 파라미터가 등록된 테이블과, 상기 통합 파라미터에 근거하여, 상기 인식 대상을 인식하는 것을 특징으로 하는 인식 방법.
  6. 소정의 인식 대상을 복수 종류의 입력 데이터로부터 인식하는 데 사용하는 표준 파라미터를 구하는 학습 장치에 있어서,
    상기 복수 종류의 입력 데이터를 그 성질에 따라서, 소정의 클래스로 분류하는 클래스 분류를 행하는 제 1 클래스 분류 수단과,
    상기 복수 종류의 입력 데이터를 통합한 통합 파라미터를 구성하는 통합 파라미터 구성 수단과,
    상기 통합 파라미터를 상기 제 1 클래스 분류 수단이 출력하는 클래스마다 분류하는 분류 수단을 구비하는 것을 특징으로 하는 학습 장치.
  7. 제 6 항에 있어서, 상기 입력 데이터를 분석하고, 그 특징 파라미터를 구하는 분석 수단을 추가로 구비하며,
    상기 제 1 클래스 분류 수단은 상기 특징 파라미터에 근거하여, 상기 클래스 분류를 행하는 것을 특징으로 하는 학습 장치.
  8. 제 6 항에 있어서, 상기 입력 데이터를 상기 제 1 클래스 분류 수단이 출력하는 클래스에 대응하여 분석하고, 그 특징 파라미터를 구하는 분석 수단과,
    상기 복수 종류의 입력 데이터 각각의 상기 특징 파라미터를 사용하여 상기 클래스 분류를 행하는 제 2 클래스 분류 수단을 추가로 구비하며,
    상기 통합 파라미터 구성 수단은 상기 복수 종류의 입력 데이터 각각의 상기 특징 파라미터를 통합하며, 상기 통합 파라미터를 구성하고,
    상기 분류 수단은 상기 통합 파라미터를 상기 제 1 클래스 분류 수단이 출력하는 클래스마다, 그리고, 상기 제 2 클래스 분류 수단이 출력하는 클래스마다에 분류하는 것을 특징으로 하는 학습 장치.
  9. 소정의 인식 대상을 복수 종류의 입력 데이터로부터 인식하는 데 사용하는 표준 파라미터를 구하는 학습 방법에 있어서,
    상기 복수 종류의 입력 데이터를 그 성질에 따라서, 소정의 클래스로 분류하는 클래스 분류를 행하는 동시에, 상기 복수 종류의 입력 데이터를 통합한 통합 파라미터를 구성하고,
    상기 통합 파라미터를 상기 클래스 분류의 결과에서 얻어지는 클래스마다 분류하는 특징으로 하는 학습 방법.
KR1019980706664A 1996-12-26 1997-12-22 인식장치및인식방법과,학습장치및학습방법 KR100578260B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP34731296A JP3702978B2 (ja) 1996-12-26 1996-12-26 認識装置および認識方法、並びに学習装置および学習方法
JP96-347312 1996-12-26

Publications (2)

Publication Number Publication Date
KR19990087263A true KR19990087263A (ko) 1999-12-15
KR100578260B1 KR100578260B1 (ko) 2006-11-07

Family

ID=18389374

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019980706664A KR100578260B1 (ko) 1996-12-26 1997-12-22 인식장치및인식방법과,학습장치및학습방법

Country Status (7)

Country Link
US (1) US6396954B1 (ko)
EP (1) EP0896319B1 (ko)
JP (1) JP3702978B2 (ko)
KR (1) KR100578260B1 (ko)
CN (1) CN1119795C (ko)
DE (1) DE69730705T2 (ko)
WO (1) WO1998029864A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100447667B1 (ko) * 2000-04-12 2004-09-08 이경목 음성 인식 기능을 갖는 컴퓨터와 학습용 인형들을 이용한 상호 대화 언어 학습 시스템
KR100808775B1 (ko) * 2006-07-26 2008-03-07 한국정보통신대학교 산학협력단 클래스 기반 히스토그램 등화 기법을 이용한 음성인식시스템 및 방법

Families Citing this family (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6688888B1 (en) * 1996-03-19 2004-02-10 Chi Fai Ho Computer-aided learning system and method
US5944530A (en) * 1996-08-13 1999-08-31 Ho; Chi Fai Learning method and system that consider a student's concentration level
GB2330679B (en) * 1997-10-21 2002-04-24 911 Emergency Products Inc Warning signal light
JP3884160B2 (ja) * 1997-11-17 2007-02-21 富士通株式会社 用語付きデータを扱うデータ処理方法,データ処理装置およびプログラム記憶媒体
USRE38432E1 (en) * 1998-01-29 2004-02-24 Ho Chi Fai Computer-aided group-learning methods and systems
US6398556B1 (en) * 1998-07-06 2002-06-04 Chi Fai Ho Inexpensive computer-aided learning methods and apparatus for learners
US9792659B2 (en) * 1999-04-13 2017-10-17 Iplearn, Llc Computer-aided methods and apparatus to access materials in a network environment
JP3893763B2 (ja) * 1998-08-17 2007-03-14 富士ゼロックス株式会社 音声検出装置
KR100729316B1 (ko) * 1998-10-09 2007-06-19 소니 가부시끼 가이샤 학습 장치 및 학습 방법, 인식 장치 및 인식 방법, 및기록 매체
DE19921488A1 (de) * 1999-05-08 2000-11-16 Bosch Gmbh Robert Verfahren und Vorrichtung zur Überwachung des Innenraums und des Umfeldes eines Fahrzeugs
US6547410B1 (en) * 2000-07-28 2003-04-15 911 Emergency Products, Inc. LED alley/take-down light
US7468677B2 (en) * 1999-08-04 2008-12-23 911Ep, Inc. End cap warning signal assembly
JP3895892B2 (ja) * 1999-09-22 2007-03-22 株式会社東芝 マルチメディア情報収集管理装置およびプログラムを格納した記憶媒体
US6754373B1 (en) * 2000-07-14 2004-06-22 International Business Machines Corporation System and method for microphone activation using visual speech cues
JP4645867B2 (ja) * 2000-08-02 2011-03-09 ソニー株式会社 ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
JP2002062894A (ja) * 2000-08-17 2002-02-28 Daiichikosho Co Ltd 音声認識リモコン機能付きワイヤレスマイクロホン
US7439847B2 (en) * 2002-08-23 2008-10-21 John C. Pederson Intelligent observation and identification database system
US8188878B2 (en) 2000-11-15 2012-05-29 Federal Law Enforcement Development Services, Inc. LED light communication system
US7171042B2 (en) * 2000-12-04 2007-01-30 Intel Corporation System and method for classification of images and videos
JP2002182685A (ja) * 2000-12-12 2002-06-26 Sony Corp 認識装置および認識方法、学習装置および学習方法、並びに記録媒体
JP4080843B2 (ja) * 2002-10-30 2008-04-23 株式会社東芝 不揮発性半導体記憶装置
US7272565B2 (en) * 2002-12-17 2007-09-18 Technology Patents Llc. System and method for monitoring individuals
US7634063B2 (en) * 2003-01-02 2009-12-15 Technology Patents, Llc System and method for monitoring individuals
JP4048492B2 (ja) * 2003-07-03 2008-02-20 ソニー株式会社 音声対話装置及び方法並びにロボット装置
US8708702B2 (en) * 2004-09-16 2014-04-29 Lena Foundation Systems and methods for learning using contextual feedback
US9240188B2 (en) 2004-09-16 2016-01-19 Lena Foundation System and method for expressive language, developmental disorder, and emotion assessment
US10223934B2 (en) 2004-09-16 2019-03-05 Lena Foundation Systems and methods for expressive language, developmental disorder, and emotion assessment, and contextual feedback
US7377233B2 (en) * 2005-01-11 2008-05-27 Pariff Llc Method and apparatus for the automatic identification of birds by their vocalizations
JP4847022B2 (ja) * 2005-01-28 2011-12-28 京セラ株式会社 発声内容認識装置
US7860718B2 (en) * 2005-12-08 2010-12-28 Electronics And Telecommunications Research Institute Apparatus and method for speech segment detection and system for speech recognition
US9455783B2 (en) 2013-05-06 2016-09-27 Federal Law Enforcement Development Services, Inc. Network security and variable pulse wave form with continuous communication
US9414458B2 (en) 2007-05-24 2016-08-09 Federal Law Enforcement Development Services, Inc. LED light control assembly and system
US9100124B2 (en) 2007-05-24 2015-08-04 Federal Law Enforcement Development Services, Inc. LED Light Fixture
US9294198B2 (en) 2007-05-24 2016-03-22 Federal Law Enforcement Development Services, Inc. Pulsed light communication key
US11265082B2 (en) 2007-05-24 2022-03-01 Federal Law Enforcement Development Services, Inc. LED light control assembly and system
US9258864B2 (en) 2007-05-24 2016-02-09 Federal Law Enforcement Development Services, Inc. LED light control and management system
WO2008148050A1 (en) 2007-05-24 2008-12-04 Federal Law Enforcement Development Services, Inc. Led light interior room and building communication system
US8077022B2 (en) * 2008-06-11 2011-12-13 Flextronics Automotive Inc. System and method for activating vehicular electromechanical systems using RF communications and voice commands received from a user positioned locally external to a vehicle
AU2009270759B2 (en) * 2008-07-17 2015-10-01 Luminex Corporation Methods, storage mediums, and systems for configuring classification regions within a classification matrix of an analysis system and for classifying particles of an assay
US8890773B1 (en) 2009-04-01 2014-11-18 Federal Law Enforcement Development Services, Inc. Visible light transceiver glasses
JP5911796B2 (ja) * 2009-04-30 2016-04-27 サムスン エレクトロニクス カンパニー リミテッド マルチモーダル情報を用いるユーザ意図推論装置及び方法
CN102063903B (zh) * 2010-09-25 2012-07-04 中国科学院深圳先进技术研究院 言语交互训练系统及方法
EP2663969B1 (en) 2011-01-14 2020-04-15 Federal Law Enforcement Development Services, Inc. Method of providing lumens and tracking of lumen consumption
JP5849761B2 (ja) * 2012-02-22 2016-02-03 日本電気株式会社 音声認識システム、音声認識方法および音声認識プログラム
US9263044B1 (en) * 2012-06-27 2016-02-16 Amazon Technologies, Inc. Noise reduction based on mouth area movement recognition
US9265112B2 (en) 2013-03-13 2016-02-16 Federal Law Enforcement Development Services, Inc. LED light control and management system
JP2013164863A (ja) * 2013-04-24 2013-08-22 Sony Corp 情報処理装置、情報処理方法、およびプログラム
CN104715753B (zh) * 2013-12-12 2018-08-31 联想(北京)有限公司 一种数据处理的方法及电子设备
US20150198941A1 (en) 2014-01-15 2015-07-16 John C. Pederson Cyber Life Electronic Networking and Commerce Operating Exchange
US20170048953A1 (en) 2015-08-11 2017-02-16 Federal Law Enforcement Development Services, Inc. Programmable switch and system
KR102209689B1 (ko) * 2015-09-10 2021-01-28 삼성전자주식회사 음향 모델 생성 장치 및 방법, 음성 인식 장치 및 방법
WO2019113477A1 (en) 2017-12-07 2019-06-13 Lena Foundation Systems and methods for automatic determination of infant cry and discrimination of cry from fussiness
JP7299587B2 (ja) * 2019-02-05 2023-06-28 株式会社リコー 情報処理装置、発話認識システム及び発話認識プログラム
CN111251307B (zh) * 2020-03-24 2021-11-02 北京海益同展信息科技有限公司 应用于机器人的语音采集方法和装置、一种机器人
KR102302029B1 (ko) * 2020-11-23 2021-09-15 (주)펜타유니버스 인공지능 기반 복합 입력 인지 시스템

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4991216A (en) * 1983-09-22 1991-02-05 Matsushita Electric Industrial Co., Ltd. Method for speech recognition
JPS60181798A (ja) * 1984-02-28 1985-09-17 電子計算機基本技術研究組合 音声認識装置
JPS62151903A (ja) * 1985-12-25 1987-07-06 Nippon Denso Co Ltd 車両に搭載される電子制御装置
US4975969A (en) * 1987-10-22 1990-12-04 Peter Tal Method and apparatus for uniquely identifying individuals by particular physical characteristics and security system utilizing the same
US4965725B1 (en) * 1988-04-08 1996-05-07 Neuromedical Systems Inc Neural network based automated cytological specimen classification system and method
JPH02262199A (ja) * 1989-04-03 1990-10-24 Toshiba Corp 環境モニタ付音声認識装置
JPH03129400A (ja) * 1989-10-13 1991-06-03 Seiko Epson Corp 音声認識装置
GB9201006D0 (en) * 1992-01-17 1992-03-11 Philip Electronic And Associat Classifying faces
US5621858A (en) * 1992-05-26 1997-04-15 Ricoh Corporation Neural network acoustic and visual speech recognition system training method and apparatus
JPH06301393A (ja) 1993-04-13 1994-10-28 Matsushita Electric Ind Co Ltd 音声区間検出装置及び音声認識装置
NO941999L (no) * 1993-06-15 1994-12-16 Ontario Hydro Automatisert intelligent overvåkingssystem
JPH0728490A (ja) 1993-06-25 1995-01-31 Canon Inc 情報処理方法及び装置
US5522011A (en) * 1993-09-27 1996-05-28 International Business Machines Corporation Speech coding apparatus and method using classification rules
JPH07306692A (ja) * 1994-05-13 1995-11-21 Matsushita Electric Ind Co Ltd 音声認識装置及び音声入力装置
JPH08187368A (ja) 1994-05-13 1996-07-23 Matsushita Electric Ind Co Ltd ゲーム装置、入力装置、音声選択装置、音声認識装置及び音声反応装置
US5749072A (en) * 1994-06-03 1998-05-05 Motorola Inc. Communications device responsive to spoken commands and methods of using same
IL111039A (en) * 1994-09-22 1998-08-16 Advanced Recognition Tech Handwriting recognition system
JP2690027B2 (ja) * 1994-10-05 1997-12-10 株式会社エイ・ティ・アール音声翻訳通信研究所 パターン認識方法及び装置
US5859925A (en) * 1995-08-08 1999-01-12 Apple Computer, Inc. Classifying system having a single neural network architecture for multiple input representations
JP3674990B2 (ja) * 1995-08-21 2005-07-27 セイコーエプソン株式会社 音声認識対話装置および音声認識対話処理方法
JP2907079B2 (ja) * 1995-10-16 1999-06-21 ソニー株式会社 ナビゲーション装置,ナビゲート方法及び自動車
JPH09134193A (ja) * 1995-11-08 1997-05-20 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置
US5761329A (en) * 1995-12-15 1998-06-02 Chen; Tsuhan Method and apparatus employing audio and video data from an individual for authentication purposes

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100447667B1 (ko) * 2000-04-12 2004-09-08 이경목 음성 인식 기능을 갖는 컴퓨터와 학습용 인형들을 이용한 상호 대화 언어 학습 시스템
KR100808775B1 (ko) * 2006-07-26 2008-03-07 한국정보통신대학교 산학협력단 클래스 기반 히스토그램 등화 기법을 이용한 음성인식시스템 및 방법

Also Published As

Publication number Publication date
KR100578260B1 (ko) 2006-11-07
EP0896319A1 (en) 1999-02-10
JPH10187186A (ja) 1998-07-14
US6396954B1 (en) 2002-05-28
EP0896319A4 (en) 2000-03-08
CN1119795C (zh) 2003-08-27
WO1998029864A1 (fr) 1998-07-09
JP3702978B2 (ja) 2005-10-05
EP0896319B1 (en) 2004-09-15
CN1214141A (zh) 1999-04-14
DE69730705D1 (de) 2004-10-21
DE69730705T2 (de) 2005-09-29

Similar Documents

Publication Publication Date Title
KR100578260B1 (ko) 인식장치및인식방법과,학습장치및학습방법
US5524169A (en) Method and system for location-specific speech recognition
US7272561B2 (en) Speech recognition device and speech recognition method
US10650802B2 (en) Voice recognition method, recording medium, voice recognition device, and robot
JP2692581B2 (ja) 音響カテゴリ平均値計算装置及び適応化装置
EP1355296A2 (en) Keyword detection in a speech signal
JP2006030447A (ja) 音声認識システムと該音声認識システムを備える移動体及び車両
US20080120115A1 (en) Methods and apparatuses for dynamically adjusting an audio signal based on a parameter
US5307442A (en) Method and apparatus for speaker individuality conversion
JP2808906B2 (ja) 音声認識装置
JPH0876785A (ja) 音声認識装置
JPH01296299A (ja) 音声認識装置
WO2011122522A1 (ja) 感性表現語選択システム、感性表現語選択方法及びプログラム
WO2000010160A1 (fr) Dispositif et procede de reconnaissance vocale, dispositif de navigation, telephone portable et processeur d&#39;informations
JP2002236497A (ja) ノイズリダクションシステム
JP3555490B2 (ja) 声質変換システム
US5828998A (en) Identification-function calculator, identification-function calculating method, identification unit, identification method, and speech recognition system
JP2004318026A (ja) セキュリティペットロボット及びその装置に関する信号処理方法
JP3075250B2 (ja) 話者認識方法及び装置
JP2000311077A (ja) 音声情報入力装置
JPWO2005010868A1 (ja) 音声認識システム及びその端末とサーバ
JPH0944183A (ja) レベル表示装置、音声認識装置およびナビゲーション装置
JP2004029299A (ja) 音声認識システム
JP2648014B2 (ja) 音声切り出し装置
JPH11125533A (ja) ナビゲーション装置及びナビゲート方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120423

Year of fee payment: 7

LAPS Lapse due to unpaid annual fee