KR100395713B1 - 음성인식방법및음성인식장치 - Google Patents

음성인식방법및음성인식장치 Download PDF

Info

Publication number
KR100395713B1
KR100395713B1 KR10-1998-0048460A KR19980048460A KR100395713B1 KR 100395713 B1 KR100395713 B1 KR 100395713B1 KR 19980048460 A KR19980048460 A KR 19980048460A KR 100395713 B1 KR100395713 B1 KR 100395713B1
Authority
KR
South Korea
Prior art keywords
voice
unit
speech
speech recognition
feature
Prior art date
Application number
KR10-1998-0048460A
Other languages
English (en)
Other versions
KR19990045241A (ko
Inventor
히로시 시노츠카
노리토시 히노
Original Assignee
오끼 덴끼 고오교 가부시끼가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 오끼 덴끼 고오교 가부시끼가이샤 filed Critical 오끼 덴끼 고오교 가부시끼가이샤
Publication of KR19990045241A publication Critical patent/KR19990045241A/ko
Application granted granted Critical
Publication of KR100395713B1 publication Critical patent/KR100395713B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Air Conditioning Control Device (AREA)
  • Navigation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

본 발명은, 인식하지 않아야 할 단어나 주위환경의 소리에 대한 오류 인식을 억제하여, 인식능력을 향상한 음성 인식방법 및 음성 인식장치를 실현하는 것을 목적으로 한다. 사전부(40)에 인식해야 할 단어의 특징 파라미터와, 인식하지 않아야 할 단어나 주위환경의 소리의 특징 파라미터를 미리 등록해 두고, 음성인식부(30)에서, 입력된 단어(또는 소리)에 대한 특징 파라미터와, 사전부(40)에 등록된 특징 파라미터 모두와의 유사도를 구하여, 사전부(40)에 등록된 특징 파라미터 중에서 입력된 단어(또는 소리)에 대한 특징 파라미터에 근사한 1개를 지시하는 정보를 인식결과로 한다.

Description

음성 인식방법 및 음성 인식장치
본 발명은, 불특정 화자(話者)에 대한 음성 인식방법 및 음성 인식장치에 관한 것으로, 특히 템플릿 매칭방식에 의한 단어음성의 인식에 있어서 인식능력을 향상하도록 한 음성 인식방법 및 음성 인식장치에 관한 것이다.
최근 들어, 음성인식의 기술은 여러가지 분야에서 활용되고 있다. 예컨대, 차의 운전 중에 차내에 정비된 기구의 동작제어를 음성으로써 행하는 것이 있다. 보다 구체적으로는, 오디오 장치나 에어컨의 조작, 윈도우의 개폐조작, 차내등의 소등/점등 등을 음성으로써 행하는 것이다. 이러한 경우, 불특정 화자인 운전자가 낸 음성을 정확하게 인식하여 각 기구의 동작을 확실하게 실행시키는 것이 요구된다.
여기에서, 음성 인식방법으로서는 여러가지 방식이 있는데, 그 1개로서 템플릿 매칭방식이 있다. 템플릿 매칭방식이란 특정한 음성으로서의 인식해야 할 음성, 예컨대 복수의 단어에 대한 특징 파라미터를 미리 등록(기억)한 사전부를 갖게 해 놓은 것이다. 요컨대, 불특정 화자가 낸 음성인 단어로부터 특징 파라미터를 추출하여, 이 추출된 특징 파라미터와 사전부에 등록된 각 단어의 특징 파라미터의 유사도를 비교한다. 이 비교에 의해, 사전부에 등록된 특징 파라미터중에서 불특정 화자가 낸 음성의 특징 파라미터에 가장 근사한 특징 파라미터에 대응하는 단어를, 불특정 화자가 낸 단어로서 인식한다. 또한, 특징 파라미터란 각 단어의 음성파형, 주파수 스펙트럼 등의 것이다.
그렇지만, 전술한 템플릿 매칭방식을 사용한 음성 인식방법에는 다음과 같은 문제점이 있었다.
예컨대, 특정한 음성과는 다른 음성으로서의 인식하지 않아야 할 단어(특징 파라미터가 사전부에 미리 등록되어 있지 않은 단어)를 불특정 화자가 음성으로서 내었을 때, 상기한 음성 인식방법에서는 그 인식하지 않아야 할 단어의 특징 파라미터에 가장 근사한 단어(특징 파라미터가 사전부에 미리 등록된 단어의 1개)를 인식결과로 해버리는 일이 있었다. 이러한 문제점은, 특히 인식해야 할 특정한 음성(단어)에 유사한 단어에서 현저하게 생긴다.
또한, 이러한 잘못된 인식은 음성 뿐만 아니라 돌발적으로 발생하는 주위환경의 소리에서도 생기는 일이 있었다. 돌발적으로 발생하는 주위환경의 소리란, 예컨대, 전술한 차내에서의 음성인식에 대해서는, 도어의 개폐음, 에어컨의 작동음, 주행 중에 창에 스치는 바람소리, 도로의 이음매나 중앙선을 넘을 때의 타이어음 등이다. 요컨대, 이들 소리에 대해서도 음성 인식장치가 작동하면, 특징 파라미터가 사전부에 미리 등록된 단어중에 가장 비슷한 단어를 인식결과로 해 버리는 일이 있었다.
이러한 잘못된 인식에의 대응도, 될 수 있는 한, 음성 인식장치가 대형화하거나 비용이 증대하거나 하는 일 없이 종래의 음성 인식장치를 대폭 변경하지 않고 실현하는 것이 바람직하다.
본 발명은 상기한 과제를 해결하기 위해서 인식해야 할 특정한 음성과는 다른 음성(예컨대, 인식하지 않아야 할 단어나 주위환경의 소리)에 대한 오류 인식을억제하여, 인식능력을 향상한 음성 인식방법의 실현을 목적으로 한다.
또한, 본 발명은, 상기 목적을, 음성 인식장치가 대형화하거나 비용이 증대하지 않고 종래의 음성 인식장치를 대폭 변경하는 일 없이 실현하는 것을 목적으로 한다.
도 1은 본 발명의 실시예를 나타낸 음성 인식장치의 블럭 구성도.
도 2는 본 발명의 실시예에 있어서의 음성분석부의 블럭 구성도.
도 3은 본 발명의 실시예에 있어서의 음성인식부의 블럭 구성도.
도 4는 본 발명의 실시예에 있어서의 사전부의 기억내용을 도시한 도면.
도 5는 본 발명의 실시예에 있어서의 음성인식부의 동작을 나타낸 흐름도.
도 6은 본 발명의 실시예에 있어서의 음성코드 변환부의 블럭 구성도.
도 7은 본 발명의 실시예에 있어서의 테이블부의 기억내용을 도시한 도면.
도 8은 본 발명의 또 다른 실시예에 있어서의 기계적 노이즈와 음성의 고주파 스펙트럼을 나타낸 도면으로, (a)는 기계적 노이즈에 대한 것이고, (b)는 음성에 대한 것.
* 도면의 주요부분에 대한 부호의 설명 *
1 : 음성 인식장치 20 : 음성분석부
30 : 음성인식부 40 : 사전부
50 : 음성코드 변환부 60 : 테이블부
상기 목적을 달성하기 위한 본 발명의 음성 인식방법은, 복수의 음성에 대한 특징 파라미터를 미리 등록한 사전부를 갖고, 입력된 음성에 대하여 사전부를 사용하여 음성의 인식을 행하는 음성 인식방법에 있어서, 사전부에는, 복수개의 인식해야 할 특정한 음성에 대한 특징 파라미터와 특정한 음성과는 다른 음성에 대한 특징 파라미터를 미리 등록해 두는 스텝과, 입력된 음성으로부터 특징 파라미터를 검출하는 스텝과, 검출된 음성의 특징 파라미터와 사전부에 등록된 각 특징 파라미터와의 유사도를 구해, 그 결과로서 사전부에 등록된 특징 파라미터 중에서 추출된 음성에 근사한 1개를 지시하는 정보를 출력하는 스텝을 포함하는 것이다.
또한, 본 발명의 음성 인식방법은 상기 목적을 달성하기 위해서, 유사도를 구한 결과로서, 사전부에 기억된 특정한 음성에 대한 음성 파라미터의 1개가 선택된 경우에는, 음성에 대응하는 음성코드의 출력을 행하고, 사전부에 기억된 특정한 음성에 대한 음성 파라미터와는 다른 음성이 선택된 경우에는, 특정한 처리를 행하는 스텝을 포함하는 것이다.
또한, 본 발명의 음성 인식방법은 상기 목적을 달성하기 위해서, 특정한 처리로서, 특정한 음성과는 다른 음성에 대응하는 음성코드의 출력을 금지하는 것이다.
또한, 본 발명의 음성 인식방법은 상기 목적을 달성하기 위해서, 특정한 처리로서, 특정한 음성과는 다른 음성에 대응하는 특정한 음성코드를 출력하는 것이다.
또한, 본 발명의 음성 인식장치는, 상기 목적을 달성하기 위해서, 미리 등록된 복수개의 음성에 대한 특징 파라미터와 입력된 음성에 대한 특징 파라미터와의 유사도에 따라 음성의 인식을 행하는 음성 인식장치에 있어서, 복수개의 인식해야 할 특정한 음성에 대한 특징 파라미터와 특정한 음성과는 다른 음성에 대한 특징 파라미터를 미리 기억하는 특징 파라미터 기억수단과, 입력된 음성에 대한 특징 파라미터를 추출하는 특징 파라미터 추출수단과, 추출된 음성에 대한 특징 파라미터와 특징 파라미터 기억수단에 기억된 특징 파라미터와의 유사도를 구하는 유사도 비교 수단과, 유사도 비교수단에 의해 구해진 유사도 중에서, 특징 파라미터 기억수단에 기억된 특징 파라미터 중에서 추출된 음성에 근사한 1개를 지시하는 정보를 출력하는 비교결과 출력수단을 구비한 것이다.
또한, 본 발명의 음성 인식장치는, 상기 목적을 달성하기 위해서, 비교결과 출력수단으로부터 출력된 정보에 대응하여 외부장치에서 인식가능한 음성코드로 변환하기 위한 음성코드 테이블과, 비교결과 출력수단으로부터 출력된 정보에 근거하여, 음성코드 테이블로부터 원하는 음성코드를 검출하여 출력하는 음성코드 변환수단을 구비한 것이다.
또한, 본 발명의 음성 인식장치는, 상기 목적을 달성하기 위해, 음성코드 변환수단은, 비교결과 출력수단으로부터 출력된 정보에 의해 상기 음성코드 테이블에서 원하는 음성코드를 검출하는 검출부와, 검출된 원하는 음성코드가 특정한 음성인지 특정한 음성과는 다른 음성인지를 판정하여, 그 결과가 특정한 음성과는 다른 음성인 경우에 그 음성코드의 출력을 금지하는 판정부를 구비한 것이다.
[실시예]
본 발명의 음성 인식방법 및 음성 인식장치에 관해서 도면을 사용하여 이하 상세히 설명한다.
도 1은 본 발명의 실시예의 음성 인식장치(1)의 일 구성예를 나타낸 블럭 구성도이다. 10은 마이크로폰, 20은 음성분석부, 30은 음성인식부, 40은 사전부, 50은 음성코드 변환부, 60은 테이블부이다. 또한, 일반적으로는 음성인식을 행하는 부분으로서는 음성인식부(30) 및 사전부(40)에서 행해지는 처리가 대상이 된다. 따라서, 도 1에 있어서의 마이크로폰(10), 음성분석부(20), 음성코드 변환부(50)및 테이블부(60)는 음성 인식장치(1)의 외부장치로서 배치해도 된다. 본 실시예에서는 도 1에 나타낸 구성을 갖는 것을 음성 인식장치로 하고 있다.
마이크로폰(10)은 불특정 화자가 낸 음성을 받아 아날로그 음성데이터로서 음성분석부(20)에 전송하는 것이다.
음성분석부(20)는, 마이크로폰(10)으로부터 전송되어 온 아날로그 음성데이터를 디지탈 음성데이터로 변환하는 것이다.
사전부(40)는 메모리로 이루어지고, 음성 인식장치(1)에서 인식해야 할 복수의 특정한 음성, 본 실시예에 있어서는 인식해야 할 단어의 특징 파라미터를 미리등록(기억)해 두는 것이다. 또한, 본 발명의 사전부(40)에는 특정한 음성과는 다른 음성으로서 인식하지 않아야 할 단어, 특히, 인식해야 할 단어(특징 파라미터가 사전부(40)에 미리 등록되어 있는 단어)에 유사한 단어의 특징 파라미터나 주위 환경의 소리의 특징 파라미터에 관해서도 사전부(40)에 미리 등록해 둔다. 이와 같이 사전부(40)는, 특징 파라미터 기억수단으로서의 기능을 갖는다.
음성인식부(30)는 음성분석부(20)로부터 전송되어 온 디지탈 음성 데이터로부터 특징 파라미터를 추출하고, 이 추출한 특징 파라미터와 사전부(40)에 미리 등록해둔 복수개의 특징 파라미터의 유사도의 비교를 행하는 것이다. 또한, 음성인식부(30)는 특징 파라미터 유사도의 비교의 결과, 사전부(40)에 등록된 특징 파라미터 중에서 마이크로폰(10)으로부터 입력된 음성에 대한 특징 파라미터에서 추출한 특징 파라미터에 가장 근사한 1개의 특징 파라미터를 지시하는 정보를 출력하는 것이다. 이와 같이 음성인식부(30)는, 특징 파라미터 추출수단, 유사도 비교수단 및 비교결과 출력수단으로서의 기능을 갖는다.
테이블부(60)는 음성인식부(30)로부터 출력되는 정보를 음성코드로 변환하기 위한 테이블이며 메모리로 구성된다. 요컨대, 테이블부(60)는 음성코드 테이블로서의 기능을 갖는다.
음성코드 변환부(50)는 음성인식부(30)로부터 출력되는 정보로부터 테이블부(60)를 참조하여 원하는 음성코드를 출력하는 것이다. 여기서, 음성코드란 음성 인식장치(1)의 출력을 받아들이는 외부장치, 예컨대, 차내에서의 윈도우나 에어컨 등의 기구의 동작을 제어하는 콘트롤러에 대하여, 이 콘트롤러에 의한 내부처리(에어컨의 스위치를 온으로 하는 것이나 윈도우를 닫는 것 등의 동작처리)로써 음성에 대응한 지시를 행하게 하기 위한 디지탈 데이터이다.
여기서, 음성분석부(20)에 관한 것을 도면을 사용하여 이하에 상세히 설명한다.
도 2는 음성분석부(20)의 일 구성예를 나타낸 블럭 구성도이다.
음성분석부(20)는, 도 2에 나타낸 것과 같이, 입력음성 증폭부(21), 필터부(23), 아날로그/디지탈 변환부(25)로 구성되어 있다.
입력음성 증폭부(21)는 마이크로폰(10)으로부터 전송되어 오는 아날로그 음성데이터를 수신하고, 수신한 아날로그 음성 데이터의 신호진폭을 증폭하는 것이다. 이에 따라, 마이크로폰(10)이 받은 음성이 작은 음성이더라도 그 음성의 신호진폭이 증폭되기 때문에, 아날로그/디지탈 변환부(25)에 의한 처리를 보다 정확히 행할 수 있다. 필터부(23)는, 입력음성 증폭부(21)에서 증폭처리된 아날로그 음성데이터에 대하여 소정의 대역, 예컨대 잡음성분에 해당하는 대역을 제거하는 밴드패스 필터이다. 아날로그/디지탈 변환부(25)는, 필터부(23)를 통과한 아날로그 음성데이터를, 후단에 위치하는 음성인식부(30)에서 디지탈 처리가 가능하도록 디지탈 음성데이터로 변환하는 것이다. 이 디지탈 음성데이터가 음성분석부(20)의 출력이 된다.
다음에, 음성인식부(30)에 대해 도면을 사용하여 이하 상세히 설명한다. 도 3은 음성인식부(30)의 일 구성예를 나타낸 블럭 구성도이다.
도 3에 있어서, 음성인식부(30)는, 특징 파라미터 추출부(31),비교연산부(32), 일시기억부(33), 비교결과 기억부(34), 제어부(35) 및 프로그램이 가능한 판독전용 메모리(이하, PROM이라 칭한다)(36)로 구성되어 있다.
특징 파라미터 추출부(31)는, 음성분석부(20)로부터 출력된 디지탈 음성데이터로부터 특징 파라미터를 추출하는 것이다. 이 특징 파라미터로서는 전술한 것과 같이 디지탈 음성데이터에 대응하는 음성의 음성 파형, 주파수 스펙트럼 등이 있다. 이와 같이, 특징 파라미터 추출부(31)는 특징 파라미터 추출수단으로서의 기능을 갖는다. 비교연산부(32)는 특징 파라미터 추출부(31)에서 추출된 특징 파라미터와 사전부(40)에 등록되어 있는 특징 파라미터를 비교하여 유사도를 구하는 것이다.
보다 구체적으로는, 비교연산부(32)는 예컨대, 사전부(40)로부터 우선 처음에 1개의 특징 파라미터를 판독하여, 특징 파라미터 추출부(31)에서 추출된 특징 파라미터와의 유사도를 구한다. 구해진 유사도와 미리 준비해 둔 초기비교용의 유사도 중에서, 특징 파라미터 추출부(31)로부터 출력된 특징 파라미터에 의해 유사하다고 판단된 특징 파라미터의 정보(어떤 단어에 대응하는 것인지 등) 및 유사도를 일시 기억부(33)에 기억하여 둔다. 이때, 미리 준비해 둔 초기비교용의 유사도는 반드시 사전부(40)로부터 판독된 쪽의 특징 파라미터가 일시기억부(33)에 기억되는 것과 같은 값으로 해두면 좋다. 또한, 본 실시예에서는 초기비교용의 유사도를 준비하도록 하였지만, 초기비교용의 유사도를 준비하지 않고 사전부(40)로부터 처음에 판독한 1개의 특징 파라미터의 유사도를 일시기억부(33)에 기억하도록 하여도 좋고, 사전부(40)로부터 2개의 특징 파라미터를 판독하여 그 2개의 특징 파라미터의 유사도를 비교해서, 각각의 유사도 중에서 특징 파라미터 추출부(31)로부터의 출력에 의해 근사하는 쪽을 일시기억부(33)에 기억하도록 해도 좋다.
다음에, 별도의 특징 파라미터를 사전부(40)로부터 판독하여 유사도를 구한다. 이 구해진 유사도와 일시기억부(33)에 기억해 둔 유사도를 비교하여, 특징 파라미터 추출부(31)로부터 출력된 특징 파라미터에 의해 유사하다고 판단된 특징 파라미터의 정보 및 유사도를 일시기억부(33)에 기억해 둔다. 이러한 처리를, 사전부(40)에 등록되어 있는 특징 파라미터 모두에 대하여 행한다. 요컨대, 사전부(40)에 등록된 특징 파라미터 모두에 대하여 유사도를 비교한 뒤에 남은 1개, 예컨대, 마지막으로 일시기억부(33)에 기억되는 특징 파라미터의 정보가 비교연산부(32)의 출력이 된다. 또한, 도 3에서의 일시기억부(33)는 비교연산부(32)의 내부에 설치해도 된다. 비교연산부(32)에 일시기억부(33)의 기능을 설치할 수 있으면, 음성 인식장치(1)의 소형화, 비용의 감소나 처리의 고속화가 기대되기 때문에 보다 바람직하다. 이와 같이, 비교연산부(32)는 유사도 비교수단으로서의 기능을 갖는다.
비교결과 기억부(34)는, 비교연산부(32)로부터 출력된 정보를 일시적으로 기억하여 출력하는 것이다. 이 출력이 음성인식부(30)의 출력이 된다. 즉, 비교결과 기억부(34)는 비교결과 출력수단으로서의 기능을 갖는다. 또한, 본 실시예에 있어서는, 비교연산부(32)가 소정의 입력음성에 대한 특징 파라미터의 유사도의 비교처리를 종료한 뒤, 새로 마이크로폰(10)으로부터 입력되어 오는 음성에 대한 특징 파라미터의 유사도 비교처리를 즉시 행할 수 있도록 하기 위해서, 비교결과기억부(34)를 설치하고 있는 것이다. 요컨대, 비교결과 기억부(34)를 설치함으로써 음성 인식장치(1)로서의 연속적인 단어음성 인식처리가 고속으로 행할 수 있는 효과가 기대된다. 또한, 비교결과 기억부(34)를 설치하지 않더라도, 비교연산부(32)로부터 출력하는 정보를 음성인식부(30)의 출력으로 해도 된다. 이 경우는, 비교결과 기억부(34)의 분량만큼 음성 인식장치(1)의 소형화와 비용의 감소가 기대된다.
제어부(35)는, 특징 파라미터 추출부(31), 비교연산부(32), 비교결과 기억부(34), 사전부(40)의 동작을 제어하는 것으로, 각 부에 대하여 동작을 제어하는 제어신호를 출력하는 것이다. 이 제어부(35)의 제어신호 출력동작은 본 실시예에 있어서는 음성분석부(20)로부터의 출력을 제어부(35)가 받는 것으로 시작된다. 또한, 제어부(35)로부터 출력되는 제어신호는, PROM(36)에 기억된 프로그램에 의거하여 각 부에 대한 상기 처리를 타이밍에 맞게 행하게 하도록 출력되는 것이다.
예컨대, 제어부(35)는, 특징 파라미터 추출부(31)에 대하여는, 음성분석부(20)로부터의 출력에 대한 특징 파라미터 추출처리의 개시 및 종료를 지시하는 제어신호를 출력한다. 또한, 비교연산부(32)에 대하여는 특징 파라미터 추출부(31)로부터의 출력과 사전부(40)로부터의 출력의 유사도를 구하는 처리의 개시 및 종료를 지시하는 제어신호를 출력한다. 또한, 사전부(40)에 대하여는 기억되어 있는 특징 파라미터의 판독을 지시하는 제어신호를 출력한다. 비교결과 기억부(34)에 대하여는 비교연산부(32)로부터의 출력의 기억을 지시하는 제어신호를 출력한다. 또한, 음성 인식장치(1)의 동작전원이 투입되어 있을 때에는, 특징 파라미터 추출부(31)나 비교연산부(32)를 항상 처리가능한 상태로 해놓은 것이면,제어부(35)로부터 출력되는 제어신호 중에서, 특징 파라미터 추출부(31)나 비교연산부(32)에 대한 개시 및 종료를 지시하는 신호는 별로 필요하지 않은 경우도 생각할 수 있다. 그렇지만, 이러한 제어신호에 의해 특징 파라미터 추출부(31)나 비교연산부(32)의 동작을 제어하면, 음성인식부(30)를 구성하는 각 부의 동작을 보다 타이밍에 맞게 행할 수 있고 또한 소비전력을 억제할 수 있기 때문에, 보다 바람직하다.
여기서 사전부(40)의 기억내용에 관해서 도면을 사용하여 설명한다. 도 4는 사전부(40)의 기억내용을 도시한 도면이다.
사전부(40)에는, 어드레스 번호에 대응하여 특징 파라미터가 복수개개 기억되어 있다. 도 4에 있어서는, 어드레스 번호 0000HFFFFH(H는 16진수 표시를 나타낸 것이다)에 각각 특징 파라미터가 기억되어 있다. 예컨대, 어드레스 번호 0000H에는 인식해야 할 단어인 "에어컨"의 특징 파라미터가 기억되어 있다. 어드레스 번호 0001H에는 인식해야 할 단어인 "윈도우"의 특징 파라미터가 기억되어 있다. 어드레스 번호 0002H에는 인식해야 할 단어인 "온"의 특징 파라미터가 기억되어 있다. 어드레스 번호 0003H에는 인식해야 할 단어인 "오픈"의 특징 파라미터가 기억되어 있다. 마찬가지로 필요한 수의 인식해야 할 단어에 대한 특징 파라미터가 각각 소정의 어드레스 번호로써 판독 가능하게 기억되어 있다. 이러한 인식해야 할 음성은 특정한 음성으로서 정의된다.
또한, 사전부(40)에는 인식해야 할 단어의 특징 파라미터 외에 인식하지 않아야 할 것, 예컨대, 인식해야 할 단어의 유사어나 주위환경 소리의 특징 파라미터도 기억하고 있다. 예컨대, 도 4에 있어서는 어드레스 번호 FFFDH에는 원래 인식하지 않아야 할 소리에 해당하는, 인식해야 할 음성 "온"의 유사어로서 "선"의 특징 파라미터가 기억되어 있다. 또한, 어드레스 번호 FFFEH에는, 원래 인식하지 않아야 할 소리에 해당하는, 주위환경의 소리로서 도어의 개폐음의 특징 파라미터가 기억되어 있다. 또한, 어드레스 번호 FFFFH에는 원래 인식하지 않아야 할 소리에 해당하는, 주위환경의 소리로서 에어컨 작동음의 특징 파라미터가 기억되어 있다. 이러한 인식해야 할 음성의 유사어나 주위환경의 소리는 특정한 음성과는 다른 음성으로서 정의된다. 또한, 이 정의에 있어서, 인식해야 할 음성인 특정한 음성과는 다른 음성이면, 유사어나 주위환경의 소리 이외의 소리(음성)를 포함해도 되는 것은 물론이다.
요컨대, 사전부(40)는 인식해야 할 음성인 특정한 음성의 특징 파라미터를 기억하는 영역과, 인식하지 않아야 할 소리인, 인식해야 할 음성의 유사어나 주위환경의 소리 등의 특정한 음성과는 다른 음성의 특징 파라미터를 기억하는 영역을 갖고 있다.
도 4에 있어서는, 인식해야 할 음성의 유사어와 주위환경의 소리인 특징 파라미터의 양쪽을 기억하도록 하고 있지만, 음성 인식장치(1)를 이용하는 상황에 따라서, 인식해야 할 음성의 유사어 또는 주위환경 소리 중의 어느 한 쪽의 특징 파라미터를 기억하는 것으로 해도 좋다. 예컨대, 조용한 장소이기 때문에 주위환경의 소리가 거의 문제가 되지 않을 경우에 음성 인식장치(1)를 사용하는 것이면, 사전부(40)에는, 인식해야 할 음성의 특징 파라미터와 이 인식해야 할 음성의 유사어의 특징 파라미터를 기억해 두면 좋다. 또한, 인식해야 할 음성이 유사어를 거의 갖지 않은 것과 같이, 유사어에 대한 문제가 거의 문제시되지 않을 경우에 음성 인식장치(1)를 사용하는 것이면, 사전부(40)에는, 인식해야 할 음성의 특징 파라미터와 주위환경의 소리의 특징 파라미터를 기억해 두면 좋다.
이와 같이, 음성 인식장치(1)를 사용하는 상황에 따라서, 사전부(40)에 인식해야 할 음성의 유사어 또는 주위환경 소리 중에 어느 한쪽의 특징 파라미터를 기억함으로써, 사전부(40)를 구성하는 메모리의 용량이 적어도 되고, 또한 이에 따라, 사전부(40)의 사이즈를 작게 하는 것이나 음성인식부(30)에 의한 비교처리하는 대상도 필요한 수 만큼만으로 하는 것이 가능하다. 따라서, 음성 인식장치(1)의 소형화, 비용감소, 음성인식 처리의 고속화를 기대할 수 있다.
또한, 사전부(40)에 인식해야 할 음성의 유사어 및 주위환경의 소리의 양쪽의 특징 파라미터를 기억하는 것으로는, 오류 인식을 억제하는 능력을 보다 향상하는 것을 기대할 수 있다.
또한, 도 4에서는, 사전부(40) 내에서 인식해야 할 음성의 특징 파라미터를 기억하는 영역으로서 어드레스 번호가 빠른 쪽으로부터 순차로 기억하여, 인식하지 않아야 할 음성에 해당하는, 인식해야 할 음성의 유사어나 주위환경 소리의 특징 파라미터를 기억하는 영역으로서, 인식해야 할 음성이 기억되어 있는 영역의 마지막 어드레스 번호에 계속되는 어드레스 번호로부터 순차적으로 기억하도록 하고 있다. 사전부(40)에 기억되어 있는 모든 특징 파라미터에 대하여 음성인식부(30)에서의 음성인식 처리를 행하는 것이면, 특히 전술한 바와 같이 어드레스 번호로써 영역을 나누지 않아도 되지만, 영역을 분할하여 놓음으로서 기억된 특징 파라미터의 재기록을 용이하게 행할 수 있기 때문에 보다 바람직하다.
전술한 것과 같이 구성된 음성인식부(30)의 동작에 관해서 도면을 사용하여 설명한다. 도 5는 음성인식부(30)의 동작을 설명하는 흐름도이다.
우선, 도 5에 있어서의 스텝 S1에 있어서는, 음성인식부(30)는 음성분석부(20)의 출력으로서 전송되어 가는 디지탈 음성데이터를 특징 파라미터 추출부(31)에서 받아들인다. 이와 같은 수신은, 음성분석부(20)로부터의 출력이 있었던 것을 제어부(35)가 받아, 제어부(35)로부터 특징 파라미터 추출부(31)에 동작개시를 지시하는 제어신호를 전송함으로써 행해진다. 특징 파라미터 추출부(31)는 받아들인 디지탈 음성데이터로부터 특징 파라미터의 추출처리를 행한다. 특징 파라미터의 추출 처리가 완료되면 특징 파라미터 추출부(31)는 제어부(35)에 추출처리의 완료를 지시하는 신호를 전송한다.
다음에, 도 5에 있어서의 스텝 S2에 있어서, 제어부(35)는 특징 파라미터 추출부(31)에 동작의 종료를 지시하는 제어신호를 보내는 동시에, 비교연산부(32)에 동작의 개시를 지시하는 신호 및 사전부(40)에 특징 파라미터의 판독을 지시하는 제어신호를 전송한다. 이 사전부(40)로부터의 특징 파라미터의 판독에서는, 제어부(35)는 판독 지시를 하는 신호와 동시에 어드레스 번호 0000H의 어드레스 데이터를 보내면 된다.
다음에, 도 5에 있어서의 스텝 S3에 있어서, 비교연산부(32)는 사전부(40)로부터 판독된 어드레스 번호 0000H의 "에어컨"의 특징 파라미터를 받아, 특징 파라미터 추출부(31)로부터 출력되는 특징 파라미터와 "에어컨"의 특징 파라미터와의 유사도를 구한다. 이 구해진 유사도와 초기비교용의 유사도를 비교하여, 특징 파라미터 추출부(31)로부터의 출력에 의해 근사하다고 판단된 쪽의 특징 파라미터에 관한 정보(예컨대, 어드레스 번호)와 구해진 유사도를 적어도 기억해 둔다. 일시기억부(33)로부터의 정보의 판독은, 비교연산부(32)가 제어부(35)로부터 받는 비교처리 개시를 지시하는 제어신호를 다시 일시기억부(33)에 대한 판독 신호로서 적용하는 것으로 하고, 일시기억부(33)에의 정보의 기록은, 제어부(35)에 전송해야 할 비교연산부(32)에 의한 유사도 비교처리의 종료를 지시하는 신호를 다시 일시기억부(33)에 대한 기록신호로서 적용하는 것으로 하면 된다. 1회째의 특징 파라미터의 비교가 종료하면, 비교연산부(32)는 그 취지를 지시하는 신호를 제어부(35)에 전송한다.
다음에, 도 5에서의 스텝 S4에 있어서, 제어부(35)는 사전부(40) 내에 기억된 특징 파라미터 모두에 대하여 비교연산부(32)에서의 비교처리가 종료하였는지 아닌지를 판단한다. 이것은, 제어부(35)에서, 비교연산부(32)에 의한 비교처리 개시와 함께, 사전부(40)로부터의 판독을 행하는데에 1개씩 카운트수를 갱신하는 카운터를 설치해 놓고, 카운트수가 소정의 값(실시예에 있어서는 FFFFH에 해당하는 카운트수)에 도달하는지 아닌지를 판단하도록 하면 된다. 즉, 카운터의 카운트값이 FFFFH에 도달하지 않으면 스텝 S5로 진행한다. 또한, 카운터의 카운트값이 FFFFH에 도달하였으면 스텝 S6로 진행한다.
스텝 S5로 진행하는 경우에는, 제어부(35)는, 사전부(40)로부터 다음 특징 파라미터인 어드레스 번호 0001H의 "윈도우" 특징 파라미터의 판독을 지시함과 동시에, 비교연산부(32)에 다시 비교처리 개시를 지시하는 제어신호를 전송한다. 이에 따라, 스텝 S3의 유사도 비교동작이 일시기억부(33)에 기억된 정보와 사전부(40)로부터 새로 판독된 "윈도우"의 특징 파라미터와의 사이에서 행해진다.
스텝 S6로 진행하는 경우에는, 제어부(35)는 비교연산부(32)에 유사도 비교처리의 종료를 지시하는 제어신호를 전송함과 동시에, 비교결과 기억부(34)에 대하여, 비교연산부(32)로부터의 출력(요컨대, 유사도 비교처리의 결과, 사전부(40)에 기억된 특징 파라미터 중에서, 특징 파라미터 추출부(31)에서 추출된 특징 파라미터에 가장 근사한 특징 파라미터를 갖는 음성의 정보)를 기억한다. 비교연산부(32)로부터 출력되는 정보로서, 예컨대, 본 실시예에서는 어드레스 번호이다. 즉, 유사도 비교처리의 결과 "온"의 특징 파라미터가 선택되었으면 비교연산부(32)로부터의 출력은 어드레스 번호 0000H를 지시하는 데이터가 된다.
또한, 스텝 S4의 처리인 카운터에 의한 처리는 비교연산부(32) 내에서 행하도록 해도 좋다. 이 경우는, 제어부(35)로부터의 유사도 비교처리의 개시를 지시하는 제어신호 및 비교연산부(32)로부터의 유사도 비교처리의 종료를 지시하는 신호가 각각 1회씩이면 된다. 이 경우, 음성 인식장치의 음성인식 처리를 보다 고속으로 하는 것이 바람직하다.
여기에서, 본 발명에 있어서는 전술한 것과 같이, 인식하지 않아야 할 음성으로서 "선" 도어의 개폐음, 에어컨의 작동음 등의 특징 파라미터도 사전부(40)에기억하고 있다. 상기 스텝 S2S5에 있어서, 이들 특징 파라미터에 대해서는 유사도 비교처리가 행해진다. 이 때문에, 예컨대 불특정 화자가 잘못해서 "선"이라고 소리를 낸 것에 대하여 음성 인식장치(1)가 유사도 비교처리를 행한 경우, 사전부(40)에 기억되어 있는 특징 파라미터의 안에서는, 유사한 단어인 "온"의 특징 파라미터와의 유사도보다 "선"의 특징 파라미터와의 유사도 쪽이 보다 근사한 것으로서 선택된다. 이 때문에 "선" 이라고 소리를 낸 음성에 대하여 음성 인식장치(1)가 음성인식 처리를 행했다고 해도, 잘못해서 인식해야 할 음성 "온"이라고 판단하는 일이 없다. 마찬가지로 도어의 개폐음이나 에어컨의 작동음 등에 의해 음성 인식장치(1)가 음성인식 처리를 행하였다고 해도, 각각 잘못해서 인식해야 할 음성의 1개를 인식결과로서 판단하는 일이 없다.
따라서, 본 발명의 음성 인식장치(1)의 음성인식 처리에서의 잘못된 인식을 억제할 수 있어 인식능력을 향상할 수 있다. 또한, 상기 실시예에 있어서는, 사전부(40)에 원래 인식하지 않아야 할 소리(음성)의 특징 파라미터를 추가해서 기억하고, 이들 특징 파라미터에 대하여도 유사도 비교처리를 행하도록 한 것이기 때문에, 음성 인식장치(1)의 구성으로서 전술한 인식능력의 향상을 달성하기 위해서 회로구성을 대폭 변경하는 것이나 특별한 회로구성의 추가 등은 필요로 하고 있지 않다. 따라서, 본 발명의 음성 인식장치(1)를 대형화하거나 비용이 증대하는 일이 없고, 종래의 음성 인식장치를 대폭 변경하는 일 없이 인식능력의 향상을 실현할 수 있다.
또한, 본 발명의 실시예에서의 음성 인식장치(1)의 음성인식부(30)로부터의 출력에 대한 처리를 행하는 음성코드 변환부(50)에 대해서, 도면을 사용하여 이하 설명한다. 도 6은 음성코드 변환부(50)의 구성을 나타낸 블럭 구성도이다.
도 6에 있어서, 음성코드 변환부(50)는 음성코드 대조부(51) 및 출력 판정부(53)로 구성되어 있다. 음성코드 대조부(51)는 음성인식부(30)로부터의 출력인 인식결과의 정보(상기 설명에서는 어드레스 번호)를 받아들여, 이 정보를 음성 인식장치(1)의 후단에 배치되는 외부장치, 예컨대, 콘트롤러같은 것으로, 어떤 단어를 나타낸지를 인식할 수 있는 데이터(콘트롤러의 동작으로써 처리가능한 데이터)인 음성코드로 변환하는 것이다. 요컨대, 음성코드 대조부(51)는, 음성인식부(30)로부터의 출력에 대응하는 음성코드를 출력한다. 이와 같이, 음성코드 대조부(51)는 음성코드를 검출하는 검출부로서의 기능을 갖는다. 또한, 이 변환에는 테이블부(60)가 사용된다.
여기에서, 테이블부(60)의 기억내용을 도 7을 사용하여 설명한다. 도 7에 있어서, 테이블부(60)에는 어드레스 번호에 대응하여 음성코드가 복수개 기억되어 있다. 도 7에 있어서는, 어드레스 번호 0000HFFFFH(H는 16진수 표시를 나타낸 것이다)에 각각 대응하는 음성코드가 기억되어 있다. 예컨대, 어드레스 번호 0000H에는 인식해야 할 단어인 "에어컨"에 대응하는 음성코드가 기억되어 있다. 어드레스 번호 0001H에는 인식해야 할 단어인 "윈도우"에 대응하는 음성코드가 기억되어 있다. 어드레스 번호 0002H에는 인식해야 할 단어인 "온"에 대응하는 음성코드가 기억되어 있다. 어드레스 번호 0003H에는 인식해야 할 단어인 "오픈"에 대응하는 음성코드가 기억되어 있다. 어드레스 FFFDH에는 인식하지 않아야 할 단어인 "선"에 대응하는 음성코드가 기억되어 있다. 어드레스 번호 FFFEH에는 인식하지 않아야 할 소리인 도어의 개폐음에 대응하는 음성코드가 기억되어 있다. 어드레스 번호 FFFFH에는 인식하지 않아야 할 소리인 에어컨의 작동음에 대응하는 음성코드가 기억되어 있다. 마찬가지로 복수의 음성코드가 각각 소정의 어드레스 번호로써 판독이 가능하게 기억되어 있다.
여기서, 테이블부(60)에 기억하여 놓은 음성코드의 어드레스 번호와 사전부(40)에 기억하여 놓은 특징 파라미터의 어드레스 번호는 대응하도록 하고 있다. 요컨대, 단어 "온"에 대한 특징 파라미터의 사전부(40)에서의 어드레스 번호와, 단어 "온"에 대한 음성코드의 테이블부(60)에서의 어드레스 번호와는 같은 어드레스 번호 0003H로 하고 있다. 이와 같이 함으로써, 음성인식부(30)로부터의 출력으로서 어드레스 번호를 음성코드 변환부(50)에서 받는 것에 의해, 용이하게 음성코드로 변환할 수 있다.
또한, 음성코드는 예컨대 디지탈 데이터이고, 실시예에서는 테이블부(60)에 기억된 모든 음성코드가 서로 다른 값을 갖는 것으로 한다.
출력 판정부(53)는 음성코드 대조부(51)의 출력을 받아들인다. 출력 판정부(53)는 비교부(54)와 메모리(55)를 갖는다. 메모리(55)에는 인식하지 않아야 할 음성의 음성코드가 기억되어 있다. 예컨대, 도 7에 있어서는, 인식해야 할 단어의 유사어인 "선"에 대응하는 음성코드나, 주위환경의 소리인 도어의 개폐음과 에어컨의 작동음에 대응하는 음성코드가 기억되어 있다. 비교부(54)는 음성코드 대조부(51)의 출력과 메모리(55)에 기억된 음성코드 모두를 각각 비교한다. 이 비교의 결과 일치하는 것이 없으면, 요컨대 음성코드 대조부(51)로부터 출력된 음성코드가 인식해야 할 음성(단어)이라고 판단된 경우에는, 음성코드 대조부(51)의 출력을 출력 판정부(53)를 통해 그대로 음성코드 변환부(50)의 출력으로 한다. 또한, 이 비교의 결과, 일치하는 것이 있으면, 즉 음성코드 대조부(51)로부터 출력된 음성코드가 인식하지 말아야 할 음성(소리)이다라고 판단된 경우에는, 음성코드 대조부(51)의 출력을 음성코드 변환부(50)의 출력으로 하는 것을 금지한다. 요컨대, 출력 판정부(53)는 음성코드의 판정을 행하는 판정부로서의 기능을 갖는다.
또한, 출력 판정부(53)를 설치하지 않고서 음성코드 대조부(51)의 출력을 음성코드 변환부(50)의 출력으로 해도 되지만, 이 경우, 음성코드 변환부(50)의 출력을 받아들여야 된다. 음성 인식장치(1)의 다음 단의 외부장치는, 오동작을 방지하기 위해서 받아들인 음성코드가 필요한 것인지 아닌지를 판단해야만 한다. 그러나, 출력 판정부(53)를 설치하여 놓으면, 음성 인식장치(1)의 다음 단에 배치되는 외부장치는 종래의 것을 그대로 사용할 수 있다.
또한, 전술한 실시예에 있어서는, 테이블부(60)에 기억해 두는 모든 음성코드는 서로 다른 것으로서 설명하였지만, 인식하지 말아야 할 음성(소리)에 대해서는 공통의 음성코드로 해도 된다. 이와 같이 하면, 출력 판정부(53)내의 메모리(55)는 1개의 음성코드를 기억한 레지스터 정도의 것이면 되고, 또한, 비교부(54)에서의 비교처리도 1회면 된다. 이 때문에, 메모리(55)의 불필요함에 의한음성 인식장치(1)의 소형화, 비용의 감소 및 음성인식 처리의 고속화가 기대된다.
이상에서, 본 발명의 음성 인식장치(1)에 관해서 상세히 설명하였지만, 본 발명의 음성 인식장치(1)는 전술한 실시예에 한정되는 것이 아니다.
예컨대, 상기 실시예에 있어서는, 인식하지 않아야 할 음성으로서 도어의 개폐음이나 에어컨의 작동음 등을 열거하고, 이들 특징 파라미터를 각각 사전부에 준비하도록 하고 있다. 그렇지만, 반드시 이들 모든 특징 파라미터에 대해서 준비하지 않아도 되는 것을 이하에 설명한다.
본 발명자의 연구에 의해, 예컨대, 마이크를 두드리거나, 마이크가 다른 물건에 부딪쳤을 때에 발생하는 소리, 도어를 닫을 때의 소리, 책상을 두드릴 때의 소리, 손을 마주쳤을 때의 소리, 책이나 의자 등 물체가 쓰러졌을 때의 소리 등의 충격음(이하, 이들 소리를 기계적 진동 노이즈라 칭한다)에 대해서는 그 특징 파라미터의 1개인 주파수 스펙트럼의 분포가 동일한 것을 알았다.
도 8은 기계적 진동노이즈와 음성의 주파수 스펙트럼의 시간적 변화를 도시한 도면으로, (a)는 기계적 진동 노이즈, (b)는 음성을 나타내고 있다. 또한, (a), (b) 모두 t로 표시되는 축은 시간축, f로 표시되는 축은 주파수축, e로 표시되는 축은 에너지축이다. 시간축은 화살표 방향으로 시간이 진행함을 나타내고, 주파수축은 화살표 방향으로 진행함에 따라 저주파로부터 고주파가 되는 것을 나타내며, 에너지축은 화살표 방향으로 진행함에 따라 높은 에너지가 되는 것을 나타내고 있다. 도 8a에 나타낸 바와 같이, 기계적 진동 노이즈는 그 소리가 발생된 순간에 고주파 부분에 있어서 특히 높은 에너지의 분포를 나타내지만, 시간 t가 진행(도면의시간축으로 나타낸 화살표 방향)함에 따라, 그 고주파성분의 에너지가 급격히 감쇠하고 있는 것을 알 수 있다. 이에 비해, 도 8b에 나타낸 것 같이, 음성 에너지의 분포는 그 음성을 발생한 순간 뿐만 아니라, 시간 t의 추이에 대하여 고주파성분이나 저주파성분이 모두 랜덤하게 분포하고 있는 것을 알 수 있다 (즉, 고주파성분의 감쇠가 나타나지 않는다).
이와 같이, 기계적인 진동 노이즈는 그 종류(마이크에 부딪쳤을 때에 생기는 소리, 책상을 두드리는 소리나 물체가 쓰러지는 소리 등)에 상관없이 도 8a에 나타낸 것 같은 급속한 고주파성분의 감쇠를 발생시킨다. 따라서, 이 도 8a와 같은 특징 파라미터를 사전부에 미리 기억해 두면, 복수의 소리, 특히 상기한 바와 같은 기계적 노이즈에 대하여는 1개의 특징 파라미터를 기억해 두면 좋다. 따라서, 사전부의 기억되는 특징 파라미터를 적게 할 수 있기 때문에, 사전부를 축소화할 수 있고, 또한, 사전부에 기억되는 특징 파라미터의 수를 적게 할 수 있기 때문에 비교처리하는 대상이 적어도 된다. 따라서, 음성인식 방법으로서는 인식능력을 향상함과 동시에 인식 처리속도를 향상할 수 있다. 또한, 음성 인식장치로서는 소형화하는 것이 가능하다.
예컨대, 도 3에 나타낸 음성인식부(30)에 있어서의 구성에서의 동작이, 예컨대, 1개의 CPU와 같은 것으로 실현이 가능하다면, 반드시 도 3에 나타낸 것 같은 각각의 구성요소가 아니라도 된다. 예컨대, 일시기억부(33)와 비교결과 기억부(34)가 겸용할 수 있는 것이라도 된다. 또한, 비교연산부(32)는 사전부(40)로부터 복수의 특징 파라미터를 받아들여 그것을 병렬처리하도록 해도 된다. 즉, 전술한 것과같이, 음성인식부(30)에서의 동작으로서 음성분석부(20)로부터의 출력에서 특징 파라미터를 추출하여, 사전부(40)에 기억된 특징 파라미터와의 비교처리를 행하는 것이 실현되는 것이면 된다. 이 비교처리를 적은 구성으로 행함으로써, 음성 인식장치의 소형화를 보다 기대할 수 있다.
또한, 사전부(40)에 기억된 복수의 특징 파라미터와 테이블부(60)에 기억된 음성코드를 1개의 메모리에 기억해도 된다. 이 경우, 같은 음성(소리)에 대한 특징 파라미터와 음성코드 기억위치가 각각 대응되도록 해 놓으면, 전술한 실시예의 적용이 가능한 것은 말할 필요도 없다.
또한, 전술한 실시예에 있어서는, 차내에서의 각 기구의 동작을 제어하는데 사용되는 음성 인식장치를 설명하고, 이 경우는 운전의 안전성을 보다 높일 수 있는 효과가 기대되지만, 본 발명의 음성 인식장치의 적용은 이것에 한정되는 것이 아니다. 예컨대, 음성 인식장치를 완구에 적용하면, 그 완구가 사용되는 환경하에서 발생하는 것이 예상되는 소리의 특징 파라미터를 사전부에 미리 등록해 두면, 특정한 음성에 대하여만 동작하도록 할 수 있어 소비전력을 감소할 수 있다. 이와 같이, 음성 인식장치를 적용하는 환경에 따라서, 그 환경에서 발생하는 것이 예상되는 소리의 특징 파라미터를 사전부에 등록해 두면, 여러가지 환경에 본 발명의 음성 인식장치를 적용할 수 있어, 그 인식능력을 향상할 수 있다.
또한, 전술한 실시예에 있어서는, 불특정 화자에 대한 음성 인식방법 및 음성 인식장치에 대해 설명하였지만, 특정 화자에 대하여 본 발명의 음성 인식방법 및 음성 인식장치를 적용해도 된다. 이 경우는, 상기와 마찬가지의 효과를 얻을 수있는 동시에, 사전부에 기억해야 할 특징 파라미터가, 불특정 화자를 고려한 특징 파라미터 만큼 준비할 필요가 없기 때문에, 사전부의 소형화 및 비교처리 대상이 적어도 되므로 음성 인식장치로서 소형화 할 수가 있고, 음성 인식방법으로서 그 처리속도를 고속화하는 것을 기대할 수 있다.
이상과 같이, 본 발명의 음성 인식방법을 적용함으로써 인식하지 않아야 할 단어나 주위환경의 소리에 대한 잘못된 인식을 억제하여 인식능력을 향상시킬 수 있다.
또한, 본 발명의 음성 인식장치를 적용함에 의해, 상기 효과를 음성 인식장치를 대형화하거나 비용을 증대시키지 않고, 또한 종래의 음성 인식장치를 대폭 변경하는 일 없이 실현할 수 있다.

Claims (5)

  1. 복수개의 음성에 대한 특징 파라미터를 미리 등록한 사전부를 갖고, 입력된 음성에 대하여 이 사전부를 사용하여 음성의 인식을 행하는 음성 인식방법에 있어서,
    상기 사전부에는, 복수의 인식해야 할 특정한 음성에 대한 특징 파라미터. 이 특정한 음성과 유사한 음성에 대한 특징 파라미터 및, 주의환경소리에 대한 특징 파라미터 각각을 미리 등록해 두는 제1스텝과,
    입력된 음성으로부터 특징 파라미터를 검출하는 제2스텝과,
    검출된 음성의 특징 파라미터와 상기 사전부에 등록된 각 특징 파라미터와의 유사도를 구해, 그 결과로서 이 사전부에 등록된 특징 파라미터 중에서 이 추출된 음성에 근사한 1개를 지시하는 정보를 출력하는 제3스텝 및,
    상기 사전부에 기억된 상기 특정한 음성에 대한 음성 파라미터의 1개가 선택된 경우에 이 음성에 대응하는 음성코드의 출력을 행하고, 이 사전부에 기억된 이 특정한 음성에 대한 음성 파라미터와는 다른 음성이 선택된 경우에 특정한 처리를 행하는 제4스텝을 포함하는 것을 특징으로 하는 음성 인식방법.
  2. 제 1 항에 있어서,
    상기 제4스텝에서 특정한 처리로서, 상기 특정한 음성과는 다른 음성에 대응하는 음성코드의 출력을 금지하는 것을 특징으로 하는 음성 인식방법.
  3. 제 1 항에 있어서,
    상기 제4스텝에서 특정한 처리로서, 상기 특정한 음성과는 다른 음성에 대하여 노이즈인 것을 지시하는 정보의 출력을 하는 것을 특징으로 하는 음성 인식방법.
  4. 미리 등록된 복수개의 음성에 대한 특징 파라미터와, 입력된 음성에 대한 특징 파라미터의 유사도에 따라 음성의 인식을 행하는 음성 인식장치에 있어서,
    복수개의 인식해야 할 특정한 음성에 대한 특징 파라미터, 이 특정한 음성과는 유사한 음성에 대한 특징 파라미터 및, 주의환경소리에 대한 특징파라미터 각각을 미리 기억하는 특정 파라미터 기억수단과,
    입력된 음성에 대한 특징 파라미터를 추출하는 특징 파라미터 추출수단과,
    상기 추출된 음성에 대한 특징 파라미터와 상기 특징 파라미터 기억수단에 기억된 특징 파라미터와의 유사도를 구하는 유사도 비교수단과,
    상기 유사도 비교수단에 의해 구해진 유사도 중에서, 상기 특징 파라미터 기억수단에 기억된 특징 파라미터 중에서 이 추출된 음성에 근사한 1개를 지시하는 정보를 출력하는 비교결과 출력수단과,
    상기 비교결과 출력수단으로부터 출력된 정보에 대응하여 외부장치에서 인식 가능한 음성코드로 변환하기 위한 음성코드 테이블 및,
    상기 비교결과 출력수단으로부터 출력된 정보에 근거하여, 상기 음성코드 테이블로부터 원하는 음성코드를 검출하여 출력하는 음성코드 변환수단을 포함하는 것을 특징으로 하는 음성 인식장치.
  5. 제 5 항에 있어서,
    상기 음성코드 변환수단은, 상기 비교결과 출력수단으로부터 출력된 정보에 의해 상기 음성코드 테이블에서 원하는 음성코드를 검출하는 검출부와,
    검출된 상기 원하는 음성코드가 상기 특정한 음성인지, 이 특정한 음성과는 다른 음성인지를 판정하여, 그 결과가 이 특정한 음성과는 다른 음성인 경우에 그 음성코드의 출력을 금지하는 판정부를 구비한 것을 특징으로 하는 음성 인식장치.
KR10-1998-0048460A 1997-11-14 1998-11-12 음성인식방법및음성인식장치 KR100395713B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP313673 1997-11-14
JP9313673A JPH11143485A (ja) 1997-11-14 1997-11-14 音声認識方法及び音声認識装置

Publications (2)

Publication Number Publication Date
KR19990045241A KR19990045241A (ko) 1999-06-25
KR100395713B1 true KR100395713B1 (ko) 2004-02-05

Family

ID=18044142

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-1998-0048460A KR100395713B1 (ko) 1997-11-14 1998-11-12 음성인식방법및음성인식장치

Country Status (4)

Country Link
US (1) US6301559B1 (ko)
EP (1) EP0916972A3 (ko)
JP (1) JPH11143485A (ko)
KR (1) KR100395713B1 (ko)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4652504B2 (ja) * 1999-09-09 2011-03-16 クラリオン株式会社 音声認識装置および音声認識ナビゲーション装置
US7283953B2 (en) * 1999-09-20 2007-10-16 International Business Machines Corporation Process for identifying excess noise in a computer system
JP2002225713A (ja) * 2001-02-02 2002-08-14 Funai Electric Co Ltd 自動報知装置および携帯型音響再生装置
JP2002304189A (ja) * 2001-04-05 2002-10-18 Nippon Telegr & Teleph Corp <Ntt> 音声認識利用型文書作成方法、装置、認識辞書作成プログラム、および同プログラムを記録した記録媒体
KR20060060019A (ko) * 2003-08-12 2006-06-02 코닌클리즈케 필립스 일렉트로닉스 엔.브이. 대화 시스템 동작 방법, 스피치 입력 인터페이스 제조방법, 대화 시스템 구성 방법, 대화 시스템 및 스피치 입력인터페이스 제조용 시스템
ATE509332T1 (de) * 2005-03-14 2011-05-15 Harman Becker Automotive Sys Automatische erkennung von fahrzeugbetrieb- geräuschsignalen
KR100737780B1 (ko) * 2006-07-10 2007-07-10 주식회사 대우일렉트로닉스 음성 인식 전자 레인지 및 전자 레인지 제어 방법
WO2008111462A1 (ja) * 2007-03-06 2008-09-18 Nec Corporation 雑音抑圧の方法、装置、及びプログラム
WO2013051072A1 (ja) * 2011-10-07 2013-04-11 三菱電機株式会社 ナビゲーション装置、方法およびプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5218668A (en) * 1984-09-28 1993-06-08 Itt Corporation Keyword recognition system and method using template concantenation model
US5649057A (en) * 1989-05-17 1997-07-15 Lucent Technologies Inc. Speech recognition employing key word modeling and non-key word modeling

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0566790A (ja) 1991-09-10 1993-03-19 Oki Electric Ind Co Ltd 音声認識方法
US5764852A (en) * 1994-08-16 1998-06-09 International Business Machines Corporation Method and apparatus for speech recognition for distinguishing non-speech audio input events from speech audio input events

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5218668A (en) * 1984-09-28 1993-06-08 Itt Corporation Keyword recognition system and method using template concantenation model
US5649057A (en) * 1989-05-17 1997-07-15 Lucent Technologies Inc. Speech recognition employing key word modeling and non-key word modeling

Also Published As

Publication number Publication date
KR19990045241A (ko) 1999-06-25
EP0916972A3 (en) 2000-04-05
JPH11143485A (ja) 1999-05-28
US6301559B1 (en) 2001-10-09
EP0916972A2 (en) 1999-05-19

Similar Documents

Publication Publication Date Title
EP0077194B1 (en) Speech recognition system
US6336091B1 (en) Communication device for screening speech recognizer input
US9601107B2 (en) Speech recognition system, recognition dictionary registration system, and acoustic model identifier series generation apparatus
KR100395713B1 (ko) 음성인식방법및음성인식장치
US6662159B2 (en) Recognizing speech data using a state transition model
US20020091522A1 (en) System and method for hybrid voice recognition
US20070027686A1 (en) Error detection for speech to text transcription systems
JP2004101901A (ja) 音声対話装置及び音声対話プログラム
US6631348B1 (en) Dynamic speech recognition pattern switching for enhanced speech recognition accuracy
JPH08185196A (ja) 音声区間検出装置
US6721702B2 (en) Speech recognition method and device
EP1316944B1 (en) Sound signal recognition system and method, and dialog control system and method using it
KR100366057B1 (ko) 인간 청각 모델을 이용한 효율적인 음성인식 장치
JP3578587B2 (ja) 音声認識装置および音声認識方法
JP2003216179A (ja) 音声認識システム
AU713371B2 (en) Pattern recognition
JP2008136530A (ja) 録音データ自動出力システム
WO2019030810A1 (ja) 音声認識装置および音声認識方法
JP3533773B2 (ja) 時系列パターン認識処理におけるリジェクト方法およびそれを実装した時系列パターン認識装置
JPH03160499A (ja) 音声認識装置
JP3125928B2 (ja) 音声認識装置
JPH0950292A (ja) 音声認識装置
JPH04240899A (ja) 音声認識装置
JPH07210186A (ja) 音声登録装置
JPH04276799A (ja) 音声認識システム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
J201 Request for trial against refusal decision
AMND Amendment
B701 Decision to grant
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee