KR100482477B1 - 음성 인식 장치, 음성 인식 방법 및 음성 인식 프로그램을 기록한 기록 매체 - Google Patents
음성 인식 장치, 음성 인식 방법 및 음성 인식 프로그램을 기록한 기록 매체 Download PDFInfo
- Publication number
- KR100482477B1 KR100482477B1 KR10-2002-7003193A KR20027003193A KR100482477B1 KR 100482477 B1 KR100482477 B1 KR 100482477B1 KR 20027003193 A KR20027003193 A KR 20027003193A KR 100482477 B1 KR100482477 B1 KR 100482477B1
- Authority
- KR
- South Korea
- Prior art keywords
- speech
- level
- digital
- signal
- voice
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 41
- 239000000872 buffer Substances 0.000 claims description 84
- 238000001514 detection method Methods 0.000 claims description 24
- 230000004044 response Effects 0.000 claims description 19
- 230000003321 amplification Effects 0.000 claims description 13
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 13
- 238000009825 accumulation Methods 0.000 claims description 6
- 230000003213 activating effect Effects 0.000 claims description 4
- 230000000717 retained effect Effects 0.000 claims description 2
- 230000002459 sustained effect Effects 0.000 claims 1
- 230000003111 delayed effect Effects 0.000 abstract description 4
- 239000008186 active pharmaceutical agent Substances 0.000 description 71
- 230000005236 sound signal Effects 0.000 description 38
- 238000010586 diagram Methods 0.000 description 21
- 230000006870 function Effects 0.000 description 5
- 230000000630 rising effect Effects 0.000 description 5
- 101150073480 CIS1 gene Proteins 0.000 description 4
- 101100110279 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) ATG31 gene Proteins 0.000 description 4
- 230000007423 decrease Effects 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 101000687808 Homo sapiens Suppressor of cytokine signaling 2 Proteins 0.000 description 3
- 102100024784 Suppressor of cytokine signaling 2 Human genes 0.000 description 3
- BFAKENXZKHGIGE-UHFFFAOYSA-N bis(2,3,5,6-tetrafluoro-4-iodophenyl)diazene Chemical compound FC1=C(C(=C(C(=C1F)I)F)F)N=NC1=C(C(=C(C(=C1F)F)I)F)F BFAKENXZKHGIGE-UHFFFAOYSA-N 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 101100348617 Candida albicans (strain SC5314 / ATCC MYA-2876) NIK1 gene Proteins 0.000 description 2
- 101100007329 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) COS1 gene Proteins 0.000 description 2
- 101100234408 Danio rerio kif7 gene Proteins 0.000 description 1
- 101100221620 Drosophila melanogaster cos gene Proteins 0.000 description 1
- 101100007330 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) COS2 gene Proteins 0.000 description 1
- 101100398237 Xenopus tropicalis kif11 gene Proteins 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Control Of Amplification And Gain Control (AREA)
- Circuit For Audible Band Transducer (AREA)
- Telephone Function (AREA)
- Navigation (AREA)
Abstract
화자에 의해 발성된 음성은 마이크로폰(1)에 의해 집음되어, A/D 컨버터(2)를 거쳐서 신호 지연부(3) 및 음성 레벨 추정부(4)에 인가된다. 음성 레벨 추정부(4)는 인가되는 디지털 음성 신호로부터 음성 레벨의 추정값의 산출을 한다. 신호 지연부(3)는 미리 정해진 음성 레벨 상승 시간만큼을 지연시킨 디지털 음성 신호를 음성 레벨 조정부(5)에 인가하고, 음성 레벨 조정부(5)는, 음성 레벨의 추정값에 근거하여 디지털 음성 신호의 음성 레벨의 조정을 하여, 음성 레벨의 조정후의 출력을 음성 인식부(6)에 인가한다. 음성 인식부(6)는 인가되는 음성 레벨의 조정후의 출력에 따라 음성 인식을 한다.
Description
본 발명은 화자에 의해 발성된 음성을 인식하는 음성 인식 장치, 음성 인식 방법 및 음성 인식 프로그램에 관한 것이다.
최근, 음성 인식에 관한 기술의 발전이 현저하다. 이 음성 인식이란, 컴퓨터 또는 기계 등이 인간의 음성을 자동적으로 이해하는 것이다. 예컨대, 이 음성 인식을 이용함으로써, 컴퓨터 또는 기계 등을 인간의 음성에 따라 동작시키거나, 인간의 음성을 문자로 변환시키거나 할 수 있다.
음성 인식에서는, 발성된 음성이 갖는 주파수 스펙트럼 등의 물리적 특징을 추출하여, 미리 기억되어 있는 모음, 자음 또는 단어의 물리적 특징의 형상과 비교하는 방법이 주로 이용된다. 그러나, 복수의 불특정의 화자의 음성을 인식하는 경우에는, 화자 각각의 개인차에 의한 음성이 갖는 물리적 특징의 차이가 원인이 되어 정확한 음성 인식을 할 수 없다. 또한, 특정한 화자의 음성 인식을 하는 경우에도, 밤낮 등의 주위 환경의 변화에 의한 잡음(노이즈), 또는 화자의 몸 상태 등에 의한 음성이 갖는 물리적 특징의 변화가, 음성을 인식할 때의 인식율을 저하시키는 요인이 되어 정확한 음성 인식을 할 수 없다.
도 13은 음성 인식을 할 때의 음성 레벨과 인식율의 관계의 일례를 나타내는 모식도이다. 도 13에 도시된 모식도는, 종축이 인식율(%)을 나타내고, 횡축이 음성 레벨(㏈)을 나타낸다. 여기서, 음성 레벨이란, 음성 파워의 레벨을 의미하고, 예컨대, 0㏈은, 부하 저항 600Ω, 단자간 전압 0.775V, 소비 전력 1㎽를 말한다.
도 13에 도시하는 바와 같이 종래의 음성 인식으로서는, 음성 레벨이 -19㏈보다도 낮은 경우, 또는 음성 레벨이 -2㏈보다도 높은 경우에 인식율이 저하되는 경향이 있다.
종래의 음성 인식에 있어서는, 모음, 자음 또는 단어의 물리적 특징의 형상인 음성 레벨을 미리 기억할 때의 음성 레벨 근방에서 인식율이 높아지고 있다. 즉, 미리 기억되는 음성 레벨과 입력되는 음성 레벨을 비교하여 음성 인식을 하기 때문에, 음성 레벨이 낮은 경우부터 높은 경우까지 평균적으로 높은 인식율을 얻을 수는 없다.
그래서, 일본국 실용신안 공개 소화 제59-60700호 공보에는, 음성을 입력할 때에 사용하는 마이크로 증폭기에 AGC 회로(Auto Gain Controller : 자동 이득 제어 회로)를 이용하여 항상 입력되는 음성 레벨을 거의 일정하게 하는 음성 인식 장치가 개시되어 있다. 또한, 일본국 실용신안 공개 평성 제01-137497호 공보 및 일본국 특허 공개 평성 제63-014200호 공보에는, 적당한 수단으로 화자에게 음성 레벨을 알려, 알맞은 음성 레벨의 발성을 하도록 재촉하는 음성 인식 장치가 개시되어 있다.
그러나, 일본국 실용신안 공개 소화 제59-60700호 공보에 개시된 음성 인식 장치에서는, AGC 회로에 의해 증폭할 필요가 없는 음성 이외의 잡음(노이즈)도 증폭되어, 증폭된 잡음에 의해서 인식율이 저하되는 경우가 있다. 또한, 입력되는 음성에는, 한 단어마다 말의 억양을 나타내는 액센트가 존재한다. 그 때문에, 입력되는 음성 레벨을 AGC 회로에 의해서 빈번히 증폭하거나 증폭하지 않아, 거의 일정한 레벨로 증폭된 음성의 파형에 왜곡이 발생한다. 이 음성의 파형 왜곡에 의해, 한 단어마다 포함되는 말의 억양을 나타내는 액센트가 왜곡을 발생시켜 인식율이 저하된다.
한편, 일본국 실용신안 공개 평성 제01-137497호 공보 및 일본국 특허 공개 평성 제63-014200호 공보에 개시된 음성 인식 장치에서는, 주위 환경의 변화 또는 화자 자신의 몸 상태 불량 등의 영향에 의해, 화자에 의해서 입력되는 음성 레벨이 미리 정해진 규정값에 도달하지 못하는 경우가 있다. 또한, 화자가 미리 정해진 규정의 음성 레벨을 발성하더라도, 음성 인식 장치가 인식하지 못하는 경우 등이 있다. 예컨대, 화자에 의해 발성되는 음성 레벨은 개인 특유의 물리적 특징이며, 무리하게 발성을 변화시키면 물리적 특징이 이질적인 것이 되어, 오히려 음성 인식의 인식율을 저하시키는 경우 등이 있다
도 1은 본 발명의 실시예 1에 따른 음성 인식 장치의 일 실시예를 나타내는 블록도,
도 2는 음성 인식 프로그램을 실행하기 위한 컴퓨터의 구성을 나타내는 블록도,
도 3은 화자에 의해 발성된 "라 구 비"의 음성 스펙트럼을 나타내는 파형도,
도 4는 본 발명의 실시예 2에 따른 음성 인식 장치를 나타내는 블록도,
도 5는 (a)은 도 4의 마이크로폰의 출력 파형도, (b)는 음성 신호(신호 성분)와 잡음 성분의 비율을 나타내는 도면,
도 6은 도 4의 음성 검출부의 동작을 나타내는 흐름도,
도 7은 두 단어를 화자가 발성한 경우에 있어서의 버퍼의 디지털 음성 신호의 입출력을 나타내는 모식도,
도 8은 본 발명의 실시예 3에 따른 음성 인식 장치의 일례를 나타내는 블록도,
도 9는 도 8에 나타내는 음성 레벨 조정 귀환부에서 음성 레벨을 조정할 때의 동작을 설명하는 흐름도,
도 10은 본 발명의 실시예 4에 따른 음성 인식 장치의 일례를 나타내는 블록도,
도 11은 도 10의 신호 비선형 처리부에 입력되는 음성 레벨의 추정값과 도 10의 음성 인식부에서의 인식율과의 관계를 나타내는 도면,
도 12는 신호 비선형 처리부의 처리 동작을 나타내는 흐름도,
도 13은 음성 인식을 할 때의 음성 레벨과 인식율의 관계의 일예를 나타내는 모식도.
발명을 실시하기 위한 최선의 형태
(실시예 1)
도 1은 본 발명의 실시예 1에 따른 음성 인식 장치의 일 실시예를 나타내는 블럭도이다.
도 1에 도시된 바와 같이 음성 인식 장치는, 마이크로폰(1), A/D(아날로그/디지털) 컨버터(2), 신호 지연부(3), 음성 레벨 추정부(4), 음성 레벨 조정부(5) 및 음성 인식부(6)를 포함한다.
도 1에 도시된 바와 같이 화자에 의해 발성된 음성은 마이크로폰(1)에 의해 집음(集音)된다. 집음된 음성은 마이크로폰(1)의 기능에 의해 아날로그 음성 신호 SA로 변환되어 A/D 컨버터(2)에 출력된다. A/D 컨버터(2)는 출력되는 아날로그 음성 신호 SA를 디지털 음성 신호 DS로 변환하여, 신호 지연부(3) 및 음성 레벨 추정부(4)에 인가한다. 음성 레벨 추정부(4)는 인가되는 디지털 음성 신호 DS로부터 음성 레벨의 추정값 LVL을 산출한다. 여기서, 음성 레벨이란, 음성 파워(음성 에너지)의 레벨을 의미한다. 이 음성 레벨의 추정값 LVL의 산출에 관해서는 후술한다.
신호 지연부(3)는, 후술하는 미리 정해진 음성 레벨 상승 시간 TL에 상당하는 지연량분만큼 지연시킨 디지털 음성 신호 DS를 음성 레벨 조정부(5)에 인가한다. 음성 레벨 조정부(5)는 음성 레벨 추정부(4)로부터 인가되는 음성 레벨의 추정값 LVL에 동기하여 신호 지연부(3)에 의해 인가되는 디지털 음성 신호 DS의 음성 레벨을 조정한다. 음성 레벨 조정부(5)는 음성 레벨의 조정 후의 출력 CTRL_OUT을 음성 인식부(6)에 인가한다. 음성 인식부(6)는 음성 레벨 조정부(5)에 의해 인가되는 음성 레벨의 조정 후의 출력 CTRL_OUT에 근거하여 음성 인식을 한다.
실시예 1에 따른 음성 인식 장치에 있어서는, 마이크로폰(1) 및 A/D(아날로그 대 디지털) 컨버터(2)가 입력 수단에 상당하고, 신호 지연부(3)가 지연 회로에 상당하고, 음성 레벨 추정부(4)가 음성 레벨 추정 수단에 상당하고, 음성 레벨 조정부(5)가 음성 레벨 조정 수단에 상당하며, 음성 인식부(6)가 음성 인식 수단에 상당한다.
또, 신호 지연부(3), 음성 레벨 추정부(4), 음성 레벨 조정부(5) 및 음성 인식부(6)는 각각 신호 지연 회로, 음성 레벨 추정 회로, 음성 레벨 조정 회로 및 음성 인식 회로로 구성할 수 있다. 또한, 신호 지연부(3), 음성 레벨 추정부(4), 음성 레벨 조정부(5) 및 음성 인식부(6)를 컴퓨터 및 음성 인식 프로그램에 의해 표현할 수 있다.
여기서, 음성 인식 프로그램을 실행하기 위한 컴퓨터에 대하여 설명한다. 도 2는 음성 인식 프로그램을 실행하기 위한 컴퓨터의 구성을 나타내는 블럭도이다.
컴퓨터는 CPU(중앙 연산 처리 장치)(500), 입출력 장치(501), ROM(Read Only Memory)(502), RAM(Random Access Memory)(503), 기록 매체(504), 기록 매체 구동 장치(505) 및 외부 기록 장치(506)를 포함한다.
입출력 장치(501)는 다른 장치와의 사이에서 정보를 송수신한다. 본 실시예의 입출력 장치(501)는 도 1의 A/D 컨버터(2)로부터 디지털 음성 신호 DS를 입력한다. ROM(502)에는 시스템 프로그램이 기록된다. 기록 매체 구동 장치(505)는 CD-ROM 드라이브, 플로피 디스크 드라이브 등으로 이루어지며, CD-ROM, 플로피 디스크 등의 기록 매체(504)에 대하여 데이터의 판독/기록을 행한다. 기록 매체(504)에는, 음성 인식 프로그램이 기록되어 있다. 외부 기록 장치(506)는 하드 디스크 장치 등으로 이루어지고, 기록 매체 구동 장치(505)를 거쳐서 기록 매체(504)로부터 읽어들여진 음성 인식 프로그램을 기록한다. CPU(500)는 외부 기록 장치(506)에 기록된 음성 인식 프로그램을 RAM(503) 상에서 실행한다. 이것에 의해, 도 1의 신호 지연부(3), 음성 레벨 추정부(4), 음성 레벨 조정부(5) 및 음성 인식부(6)의 기능이 실행된다.
다음에, 도 1의 음성 레벨 추정부(4)에 의한 음성 레벨의 추정값 LVL의 산출 방법 및 음성 레벨 조정부(5)에 의한 음성 레벨의 조정 방법에 대하여 설명한다.
우선, 음성 레벨 추정부(4)에 의한 음성 레벨의 추정값 LVL의 산출 방법에 대하여 설명한다. 음성 레벨 추정부(4)에 입력되는 디지털 음성 신호 DS를, DS(x)(x=1, 2, …, Q)로 한다. 여기서, x는 미리 정해진 음성 레벨의 상승 시간 TL 내에서의 Q개의 시점을 나타내고, DS(x)는 Q개의 시점에서의 디지털 음성 신호 DS의 값을 나타낸다. 이 경우, 음성 레벨의 추정값 LVL은 다음 수학식 1과 같이 표시된다.
수학식 1에 의하면, 음성 레벨의 추정값 LVL은 미리 정해진 음성 레벨 상승 시간 TL 내의 Q개의 시점에서의 디지털 음성 신호 DS(x)의 절대값의 누적 가산을 Q로부터 제산하여 얻어지는 평균치이다. 이렇게 하여, 음성 레벨 추정부(4)에서 음성 레벨의 추정값 LVL이 산출된다.
다음에, 음성 레벨 조정부(5)에 의한 음성 레벨의 조정 방법에 대하여 설명한다. 음성 레벨 조정부(5)에 있어서, 미리 정해진 음성 레벨의 목표값을 TRG_LVL로 나타낸다. 이 경우, 음성 레벨의 조정값 LVL_CTRL은, 다음 수학식 2와 같이 표시된다.
수학식 2에 의하면, 음성 레벨의 조정값 LVL_CTRL은 미리 정해진 음성 레벨의 목표값 TRG_LVL을 음성 레벨의 추정값 LVL에 의해 제산하여 산출한다.
또한, 음성 레벨의 조정 후의 출력 CTRL_OUT은, 음성 레벨의 조정값 LVL_CTRL을 이용하여 다음 수학식 3과 같이 표시된다.
여기서, X는 시간을 나타낸다. 수학식 3에 의하면, 음성 레벨의 조정 후의 출력 CTRL_OUT(X)은 미리 정해진 음성 레벨 상승 시간 TL에서의 디지털 음성 신호 DS(X)에 음성 레벨의 조정값 LVL_CTRL을 승산한 값이 된다. 이와 같이, 음성 레벨 조정부(5)는 음성 레벨을 조정하여 조정 후의 출력 CTRL_OUT(X)을 음성 인식부(6)에 인가한다.
다음에, 도 1에 나타내는 신호 지연부(3)의 미리 정해진 음성 레벨 상승 시간 TL에 대하여 도면을 이용하여 설명한다.
도 3은 화자에 의해 발성된 "라 구 비"의 음성 스펙트럼을 나타내는 파형도이다. 도 3에 있어서, 종축이 음성 레벨을 나타내고, 횡축이 시간을 나타낸다.
도 3에 도시된 바와 같이 "라 구 비"라는 한 단어의 음성 스펙트럼은, "라"의 부분의 음성 레벨이 높아지고 있다. 즉, 라 구 비 음성 레벨이 높은 부분이, 한 단어마다 말의 억양을 나타내는 액센트의 부분이다. 여기서, 도 3에 도시된 바와 같이 화자에 의해 발성된 음성의 개시 시간 TS에서 발성된 음성 레벨의 값이 피크값 P에 도달하기까지의 시간을 음성 레벨 상승 시간 TL로 한다. 일반적으로, 음성 레벨 상승 시간 TL은 0sec(초)∼100msec(미리초) 이내에 존재하고, 본 발명의 실시예에서는, 음성 레벨 상승 시간 TL은 100msec로 한다.
예컨대, 이 음성 레벨 상승 시간 TL을 단시간으로 설정하면 음성 인식의 인식율의 저하를 초래하게 된다. 도 3에 도시된 바와 같이 "라 구 비"라는 단어를 화자가 발성한 경우, 음성 레벨 상승 시간을 TL'로 도시된 바와 같이 짧게 설정한 경우를 생각한다. 이 경우, 도 1에 나타내는 신호 지연부(3)로부터 입력되는 디지털 음성 신호 DS를 음성 레벨 상승 시간 TL'분만큼 지연시키더라도, 음성 레벨 추정부(4)에 의해 적절한 음성 레벨의 추정값 LVL이 산출되지 않고, 본래 목표로 하는 음성 레벨의 추정값 LVL보다도 낮은 음성 레벨의 추정값이 산출된다. 그 후, 음성 레벨 조정부(5)에 목표보다도 낮은 음성 레벨의 추정값이 인가되어, 음성 레벨 조정부(5)에 의해 디지털 음성 신호 DS의 음성 레벨의 값이 틀리게 조정된다. 이것에 의해, 음성 인식부(6)에 잘못된 디지털 음성 신호 DS가 입력되어 음성 인식의 인식율이 저하된다.
상기한 바와 같이, 신호 지연부(3)에서 음성 구간의 최초의 음성 레벨 상승 시간 TL을 100msec로 설정함으로써, 음성 구간 전체의 음성 레벨을 음성 레벨 추정부(4)에 의해 산출할 수 있다. 이것에 의해, 음성 구간의 디지털 음성 신호 DS의 레벨이 일률적으로 조정되기 때문에, 화자의 음성이 갖는 말의 억양을 나타내는 액센트에 왜곡을 미치지 않고 음성 인식을 할 수 있어 음성 인식의 인식율을 향상시킬 수 있다.
(실시예 2)
다음에, 본 발명의 실시예 2에 따른 음성 인식 장치에 대하여 도면을 이용하여 설명한다.
도 4는 본 발명의 실시예 2에 따른 음성 인식 장치를 나타내는 블럭도이다.
도 4에 도시된 바와 같이 음성 인식 장치는 마이크로폰(1), A/D 컨버터(2), 음성 레벨 추정부(4), 음성 레벨 조정부(5), 음성 인식부(6), 음성 검출부(7), 음성 레벨 유지부(8), 선택부(11, 12), 버퍼(21) 및 버퍼(22)를 포함한다.
도 4에 도시된 바와 같이 화자에 의해 발성된 음성은 마이크로폰(1)에 의해 집음된다. 집음된 음성은 마이크로폰(1)의 기능에 의해 아날로그 음성 신호 SA로 변환되어 A/D 컨버터(2)에 출력된다. A/D 컨버터(2)는 출력되는 아날로그 음성 신호 SA를 디지털 음성 신호 DS로 변환하여, 음성 레벨 추정부(4), 음성 검출부(7) 및 선택부(11)에 인가한다. 음성 레벨 추정부(4)는 인가되는 디지털 음성 신호 DS로부터 음성 레벨의 추정값 LVL을 산출한다. 실시예 2에 따른 음성 레벨 추정부(4)에 의한 음성 레벨의 추정값 LVL의 산출은 실시예 1에 따른 음성 레벨 추정부(4)에 의한 음성 레벨의 추정값 LVL의 산출 방법과 마찬가지이다.
음성 레벨 추정부(4)는, A/D 컨버터(2)로부터 인가되는 디지털 음성 신호 DS에 근거하여, 한 단어마다 음성 레벨의 추정값 LVL을 산출하고, 산출되는 음성 레벨의 추정값 LVL을 순차적으로 음성 레벨 유지부(8)에 인가한다. 여기서, 음성 레벨 유지부(8)는 음성 레벨 유지부(8) 내에 마련되는 유지 레지스터에, 다음 음성 레벨 추정부(4)에 의해 산출되는 음성 레벨의 추정값 LVL이 인가될 때까지 전회의 음성 레벨의 추정값 LVL을 유지하고, 음성 레벨 추정부(4)에 의해서 산출되는 음성 레벨의 추정값 LVL이 인가될 때마다, 전회의 음성 레벨의 추정값 LVL이 유지되어 있는 유지 레지스터에, 새롭게 인가된 음성 레벨의 추정값 LVL을 덮어써 보존한다. 또한, 이 유지 레지스터는 데이터 용량 M을 갖고 있다.
한편, 음성 검출부(7)는 A/D 컨버터(2)에 의해 인가되는 디지털 음성 신호 DS로부터 도 3의 음성의 개시 시간 TS를 검출하여, A/D 컨버터(2)로부터 인가되는 디지털 음성 신호 DS를 버퍼(21)에 인가하도록 선택부(11)에 제어 신호 CIS1을 인가함과 동시에, 선택부(11)에 의해 인가되는 디지털 음성 신호 DS를 축적하도록 버퍼(21)에 제어 신호 CB1을 인가한다. 버퍼(21, 22)는 각각 용량 L을 갖고 있다.
선택부(11)는, 음성 검출부(7)에 의해 인가되는 제어 신호 CIS1에 응답하여, A/D 컨버터(2)로부터 인가되는 디지털 음성 신호 DS를 버퍼(21)에 인가한다. 버퍼(21)는, 음성 검출부(7)로부터 인가되는 제어 신호 CB1에 응답하여, 선택부(11)를 거쳐서 인가되는 디지털 음성 신호 DS를 축적한다. 그리고, 버퍼(21)는, 축적 가능한 용량 L의 디지털 음성 신호 DS를 축적했을 때에, 음성 검출부(7)에 풀(full, 滿杯) 신호 F1을 인가한다. 그것에 의하여, 음성 검출부(7)는 버퍼(21)를 거쳐서, 음성 레벨 유지부(8)에 음성 레벨의 추정값 LVL을 출력시키는 제어 신호 SL1을 인가한다.
또한, 음성 검출부(7)는, 버퍼(21)로부터 인가되는 풀 신호 F1에 응답하여, A/D 컨버터(2)로부터 인가되는 디지털 음성 신호 DS를 버퍼(22)에 인가하도록 선택부(11)에 제어 신호 CIS2를 인가함과 동시에, 선택부(11)로부터 인가되는 디지털 음성 신호 DS를 축적하도록 버퍼(22)에 제어 신호 CB2를 인가한다. 또한, 음성 검출부(7)는, 버퍼(21)에 제어 신호 CBO1을 인가하여, 선택부(12)에 제어 신호 COS1을 인가한다.
선택부(11)는, 음성 검출부(7)에 의해 인가되는 제어 신호 CIS2에 응답하여, A/D 컨버터(2)로부터 인가되는 디지털 음성 신호 DS를 버퍼(22)에 인가한다. 버퍼(22)는, 음성 검출부(7)에 의해 인가되는 제어 신호 CB2에 응답하여, 선택부(11)를 거쳐서 인가되는 디지털 음성 신호 DS를 축적한다.
한편, 버퍼(21)는, 음성 검출부(7)에 의해 인가되는 제어 신호 CBO1에 응답하여, 버퍼(21)에 축적된 디지털 음성 신호 DS를 선택부(12)를 거쳐서 음성 레벨 조정부(5)에 인가한다.
그리고, 버퍼(22)는, 음성 검출부(7)로부터 인가되는 제어 신호 CB2에 응답하여, 선택부(11)를 거쳐서 인가되는 디지털 음성 신호 DS를 축적한다. 버퍼(22)는, 축적 가능한 용량 L의 디지털 음성 신호 DS를 축적했을 때에, 음성 검출부(7)에 풀 신호 F2를 인가한다. 그것에 의하여, 음성 검출부(7)는 버퍼(22)를 거쳐서 음성 레벨 유지부(8)에 음성 레벨의 추정값 LVL을 출력시키는 제어 신호 SL2를 인가한다.
또한, 음성 검출부(7)는, 버퍼(22)로부터 인가되는 풀 신호 F2에 응답하여, A/D 컨버터(2)로부터 인가되는 디지털 음성 신호 DS를 버퍼(21)에 인가하도록 선택부(11)에 제어 신호 CIS1를 인가한다. 또한, 음성 검출부(7)는, 버퍼(22)에 제어 신호 CBO2를 인가하고, 선택부(12)에 제어 신호 COS2를 인가한다.
한편, 버퍼(22)는, 음성 검출부(7)에 의해 인가되는 제어 신호 CBO2에 응답하여, 버퍼(22)에 축적된 디지털 음성 신호 DS를 선택부(12)를 거쳐서 음성 레벨 조정부(5)에 인가한다.
음성 레벨 유지부(8)는 내부의 유지 레지스터에 유지된 음성 레벨의 추정값 LVL을 버퍼(21)로부터 인가되는 제어 신호 SL1 또는 버퍼(22)로부터 인가되는 제어 신호 SL2에 응답하여 음성 레벨 조정부(5)에 인가한다. 여기서, 음성 레벨 유지부(8) 내에 마련되는 유지 레지스터의 용량 M과 버퍼(21, 22)의 용량 L은 거의 용량이 동일하기 때문에, 선택부(12)를 거쳐서 인가되는 디지털 음성 신호 DS에 대응하는 음성 레벨의 추정값 LVL이 음성 레벨 유지부(8)로부터 출력된다.
음성 레벨 조정부(5)는, 음성 레벨 유지부(8)에 의해 인가되는 음성 레벨의 추정값 LVL에 근거하여, 선택부(12)를 거쳐서 얻어지는 디지털 음성 신호 DS의 조정을 한다. 실시예 2에 따른 음성 레벨 조정부(5)에 의한 디지털 음성 신호 DS의 조정 방법은 실시예 1에 따른 음성 레벨 조정부(5)에 의한 디지털 음성 신호 DS의 조정 방법과 마찬가지다. 음성 레벨 조정부(5)는 음성 레벨의 조정 후의 출력 CTRL_OUT을 음성 인식부(6)에 인가한다. 음성 인식부(6)는 음성 레벨 조정부(5)에 의해 인가되는 음성 레벨의 조정후의 출력 CTRL_OUT에 근거하여 음성 인식을 한다.
실시예 2에 따른 음성 인식 장치에 있어서는, 마이크로폰(1) 및 A/D(아날로그 대 디지털) 컨버터(2)가 입력 수단에 상당하고, 음성 레벨 추정부(4)가 음성 레벨 추정 수단에 상당하고, 음성 레벨 조정부(5)가 음성 레벨 조정 수단에 상당하고, 음성 인식부(6)가 음성 인식 수단에 상당하고, 음성 검출부(7)가 음성 검출부에 상당하고, 음성 레벨 유지부(8)가 유지 회로에 상당하며, 버퍼(21, 22)가 축적 회로에 상당한다.
도 5(a)는 도 4의 마이크로폰(1)의 출력 파형도이며, 도 5(b)는 음성 신호(신호 성분)(S)과 잡음 성분(N)의 비율(S/N)을 도시하는 도면이다.
도 5(a)에 도시된 바와 같이 마이크로폰(1)의 출력 파형은 잡음 성분과 음성 신호로 이루어진다. 그리고, 음성 신호를 포함하는 음성 구간에서는, 출력 파형의 음성 레벨의 값이 높아진다.
또한, 도 5(b)에 도시된 바와 같이, 도 4의 음성 검출부(7)는, 음성 신호(음성 성분)와 잡음 성분의 비인 S/N 값이 낮은 경우는 잡음 구간이라고 판정하고, 음성 신호(음성 성분)과 잡음 성분과의 비인 S/N 값이 높은 경우는 음성 구간이라고 판정한다.
도 6은 도 4의 음성 검출부(7)의 동작을 나타내는 흐름도이다.
우선, 도 6에 도시된 바와 같이 음성 검출부(7)는 입력되는 디지털 음성 신호 DS가 음성 신호인지 여부를 판정한다(단계 S61). 입력되는 디지털 음성 신호 DS가 음성 신호가 아닌 경우에는, 다음 번에 입력되는 디지털 음성 신호 DS가 음성 신호라고 판정될 때까지 대기한다. 한편, 입력되는 디지털 음성 신호 DS가 음성 신호라고 판정된 경우, 음성 검출부(7)는 도 4의 선택부(11)에 인가되는 디지털 음성 신호 DS를 버퍼(21)에 인가하도록 선택부(11)에 제어 신호 CIS1를 인가한다(단계 S62). 그리고, 음성 검출부(7)는, 버퍼(21)에 디지털 음성 신호 DS를 축적하도록 제어 신호 CB1을 인가한다(단계 S63).
이어서, 음성 검출부(7)는 버퍼(21)에 의해 축적 가능한 용량 L의 디지털 음성 신호 DS를 축적했을 때에 출력되는 풀 신호 F1을 수신했는지 여부를 판정한다(단계 S64). 음성 검출부(7)는, 버퍼(21)로부터 풀 신호 F1을 수신하지 않고 있는 경우에는, 계속해서 단계 S63을 반복한다. 한편, 음성 검출부(7)는, 버퍼(21)로부터 풀 신호 F1을 수신한 경우에는, 도 4의 선택부(11)에 인가되는 디지털 음성 신호 DS를 버퍼(22)에 인가하도록 선택부(11)에 제어 신호 CIS2를 인가한다(단계 S65). 그리고, 음성 검출부(7)는 또한 버퍼(22)에 디지털 음성 신호 DS를 축적하도록 제어 신호 CB2를 인가한다(단계 S66). 또한, 음성 검출부(7)는, 제어 신호 CIS2 및 제어 신호 CB2를 출력한 후에, 선택부(12)에 버퍼(21)로부터 인가되는 축적된 디지털 음성 신호 DS를 음성 레벨 조정부(5)에 인가하도록 제어 신호 COS1를 인가한다(단계 S67).
이어서, 음성 검출부(7)는 음성 레벨 유지부(8)에 버퍼(21)를 거쳐서 제어 신호 SL1을 인가한다(단계 S68). 음성 레벨 유지부(8)는, 버퍼(21)를 거쳐서 인가되는 제어 신호 SL1에 응답하여, 음성 레벨 유지부(8) 내의 유지 레지스터에 반복하여 기억되어 있는 음성 레벨의 추정값 LVL을 음성 레벨 조정부(5)에 인가한다.
이어서, 음성 검출부(7)는, 버퍼(21)에 제어 신호 CBO1을 인가하여, 축적된 디지털 음성 신호 DS를 음성 레벨 조정부(5)에 출력시킨다(단계 S69). 이어서, 음성 검출부(7)는 버퍼(21)에 축적된 모든 디지털 음성 신호 DS가 음성 레벨 조정부(5)에 출력되는지의 여부를 판정한다(단계 S70). 여기서, 버퍼(21)로부터 모든 디지털 음성 신호 DS가 출력되고 있지 않은 경우에는, 다시, 버퍼(21)에 제어 신호 CBO1를 인가하여 축적된 디지털 음성 신호 DS를 음성 레벨 조정부(5)에 출력시킨다. 한편, 버퍼(21)에 축적된 디지털 음성 신호 DS가 모두 출력된 경우, 음성 검출부(7)는 버퍼(21)에 버퍼 내의 데이터를 소거하도록 제어 신호 CR을 인가한다(단계 S71).
도 7은 두 단어를 화자가 발성한 경우에 있어서의 버퍼(21) 및 버퍼(22)의 디지털 음성 신호 DS의 입출력을 나타내는 모식도이다.
도 7에 도시된 바와 같이 버퍼(21)에는, 음성 구간(S)의 한 단어(W1)의 개시시점에서, 음성 검출부(7)에 의해 제어 신호 CB1가 인가되어, 버퍼(21)로의 디지털 신호 DS의 입력이 시작된다. 여기서, 버퍼(21) 및 버퍼(22)는 FIFO(First In First Out) 타입의 메모리로 구성되어 있고, 또한 버퍼(21) 및 버퍼(22)의 메모리 용량은 거의 동일하다.
버퍼(21)로의 디지털 음성 신호 DS의 입력은 한 단어(W1)의 거의 전체에서 행해지고, 버퍼(21)에 축적 가능한 용량 L의 디지털 음성 신호 DS가 축적되면 버퍼(21)는 음성 검출부(7)에 풀 신호 F1을 출력한다. 버퍼(21)는, 풀 신호 F1을 출력한 후, 버퍼(21) 내에 축적된 디지털 음성 신호 DS를 음성 검출부(7)에 의해 인가되는 제어 신호 CBO1에 응답하여 출력한다. 한편, 버퍼(22)는 음성 검출부(7)에 의해 인가되는 제어 신호 CB2에 응답하여 디지털 음성 신호 DS의 축적을 개시한다.
버퍼(22)는, 축적 가능한 용량 L의 디지털 음성 신호 DS가 축적된 경우에, 음성 검출부(7)에 풀 신호 F2를 출력한다. 한편, 버퍼(22)에 축적되는 동안 버퍼(21)에 축적된 디지털 음성 신호 DS는, 모두 음성 레벨 조정부(5)에 출력된 후, 음성 검출부(7)에 의해 제어 신호 CR이 인가되어 버퍼(21) 내의 데이터가 소거된다. 그것에 의하여, 버퍼(21)에는, 음성 검출부(7)에 의해 재차 디지털 음성 신호 DS를 축적시키는 제어 신호 CB1이 인가된다.
상기한 바와 같이, 음성 구간의 개시 시점으로부터 디지털 음성 신호가 축적되고, 축적된 디지털 음성 신호에 대응하는 음성 레벨의 추정값을 이용하여 음성 레벨을 정확히 조정할 수 있다. 따라서, 음성 인식을 정확한 음성 레벨로 조정함으로써, 음성 인식의 인식율을 향상시킬 수 있다.
또한, 복수의 단어를 포함하는 긴 시간의 디지털 음성 신호 DS가 입력되더라도, 교대로 축적 및 출력을 할 수 있다. 이것에 의해, 작은 용량의 버퍼를 이용하더라도 음성 인식을 할 수 있다.
또, 본 발명의 실시예에 있어서는, 버퍼를 이용하는 것으로 했지만, 이것에 한정하지 않고, 다른 축적 회로를 이용하더라도 좋다. 또한, 버퍼의 내부에 카운터를 마련하고, 음성 검출부(7)에 의해 버퍼의 내부의 카운터를 감시시켜 풀 신호 F1, F2 또는 제어 신호 CR을 출력해도 된다.
(실시예 3)
도 8은 본 발명의 실시예 3에 따른 음성 인식 장치의 일례를 나타내는 블럭도이다.
도 8에 도시된 바와 같이 음성 인식 장치는 마이크로폰(1), A/D(아날로그 대 디지털) 컨버터(2), 신호 지연부(3), 음성 레벨 추정부(4), 음성 레벨 조정 귀환부(9) 및 음성 인식 귀환부(10)를 포함한다.
도 8에 도시된 바와 같이 화자에 의해 발성된 음성은 마이크로폰(1)에 의해 집음된다. 집음된 음성은 마이크로폰(1)의 기능에 의해 아날로그 음성 신호 SA로 변환되어 A/D 컨버터(2)에 출력된다. A/D 컨버터(2)는 출력되는 아날로그 음성 신호 SA를 디지털 음성 신호 DS로 변환하여, 신호 지연부(3) 및 음성 레벨 추정부(4)에 인가한다. 음성 레벨 추정부(4)는 인가되는 디지털 음성 신호 DS로부터 음성 레벨의 추정값 LVL을 산출한다. 여기서, 제 3 발명의 실시예에 따른 음성 레벨 추정부(4)에 의한 음성 레벨의 추정값 LVL의 산출 방법에 관해서는, 실시예 1에 따른 음성 레벨 추정부(4)에 의한 음성 레벨의 추정값 LVL의 산출 방법과 마찬가지이다.
음성 레벨 추정부(4)는 음성 레벨의 추정값 LVL을 산출하여 음성 레벨 조정 귀환부(9)에 인가한다. 음성 레벨 조정 귀환부(9)는, 음성 레벨 추정부(4)에 의해 인가되는 음성 레벨의 추정값 LVL에 근거하여, 음성 레벨의 추정값 LVL에 동기하여 신호 지연부(3)에 의해 인가되는 디지털 음성 신호 DS의 레벨을 조정한다. 음성 레벨 조정 귀환부(9)는 음성 레벨의 조정 후의 출력 CTRL_OUT을 음성 인식 귀환부(10)에 인가한다. 음성 인식 귀환부(10)는, 음성 레벨 조정 귀환부(9)에 의해 인가되는 조정 후의 출력 CTRL_OUT에 근거하여 음성 인식을 하여, 음성 인식이 실패했을 때에 음성 레벨 제어 신호 RC를 음성 레벨 조정 귀환부(9)에 인가한다. 이 음성 레벨 조정 귀환부(9) 및 음성 인식 귀환부(10)의 동작에 관해서는 후술한다.
실시예 3에 따른 음성 인식 장치에 있어서는, 마이크로폰(1) 및 A/D(아날로그/디지털) 컨버터(2)가 입력 수단에 상당하고, 신호 지연부(3)가 지연 회로에 상당하고, 음성 레벨 추정부(4)가 음성 레벨 추정 수단에 상당하고, 음성 레벨 조정 귀환부(9)가 음성 레벨 조정 수단에 상당하고, 음성 인식 귀환부(10)가 음성 인식 수단에 상당한다.
도 9는 도 8에 나타내는 음성 레벨 조정 귀환부(9)에서 음성 레벨을 조정할 때의 동작을 설명하는 흐름도이다.
도 9에 도시된 바와 같이 우선, 음성 레벨 조정 귀환부(9)는 음성 인식 귀환부(10)에 의한 음성 레벨 제어 신호 RC가 입력되는지의 여부를 판정한다(단계 S91). 다음에, 음성 레벨 조정 귀환부(9)는, 음성 인식 귀환부(10)에 의해 음성 레벨 제어 신호 RC가 입력되어 있지 않은 경우에는, 음성 인식 귀환부(10)에 의한 음성 레벨 제어 신호 RC가 입력되었다고 판정될 때까지 대기한다. 한편, 음성 인식 귀환부(10)로부터 음성 레벨 제어 신호 RC가 입력되었다고 판정된 경우에는, 음성 레벨 조정 귀환부(9)는 변수 K에 1를 가산한다(단계 S92).
여기서, 복수 단계의 음성 레벨의 목표값이 미리 설정되어 있고, 변수 K란, 이 복수의 단계를 나타내는 변수이다. 여기서, 본 실시예 3에 있어서는, 변수 K는 1부터 R까지의 값을 갖고, 음성 레벨의 목표값 TRG_LVL(K)가 취하는 값은 TRG_LVL(1), TRG_LVL(2), …, TRG_LVL(R)로 한다.
이어서, 음성 레벨 조정 귀환부(9)는 변수 K가 최대값 R보다도 큰지 여부를 판정한다(단계 S93). 여기서, 음성 레벨 조정 귀환부(9)는, 변수 K가 최대값 R보다도 크다고 판정한 경우에는, 변수 K를 최소값 1로 되돌리고(단계 S94), 음성 레벨의 목표값 TRG_LVL을 TRG_LVL(1)로 설정한다(단계 S95).
한편, 음성 레벨 조정 귀환부(9)는, 변수 K가 최대값 R 이하라고 판정한 경우, 음성 레벨의 목표값 TRG_LVL을 TRG_LVL(K)로 설정한다(단계 S95).
예컨대, 최초, 음성 레벨의 목표값 TRG_LVL이 TRG_LVL(2)로 설정되어 있다고 한다. 그리고, 음성 인식 귀환부(10)가 음성 인식에 실패하여 음성 인식을 할 수 없는 경우에는, 제어 신호 RC가 음성 레벨 조정 귀환부(9)에 출력된다. 음성 레벨 조정 귀환부(9)는, 음성 레벨의 목표값 TRG_LVL(2)을 음성 레벨의 목표값 TRG_LVL(3)로 변경하고, 다시 화자로부터의 음성 입력을 기다린다.
이와 같이, 음성 레벨의 목표값 TRG_LVL을 TRG_LVL(2), TRG_LVL(3), TRG_LVL(4)와 순차적으로 변경하여, 음성 인식이 성공한 시점에서 음성 레벨의 목표값 TRG_LVL이 고정된다. 또한, 음성 레벨의 목표값 TRG_LVL이 최대값인 TRG_LVL(R)로 설정되더라도 음성 인식에 실패한 경우에는, 다음에 음성 레벨의 목표값 TRG_LVL을 최소값인 TRG_LVL(1)로 되돌려, 다시 화자로부터의 음성 입력을 기다린다.
이와 같이 해서, 음성 레벨의 목표값 TRG_LVL이 음성 인식에 적합한 값으로 설정된다.
상기한 바와 같이, 음성 인식 결과가 실패인 경우에, 다시 음성 레벨 조정 귀환부(9)에서, 음성 레벨의 조정 정도를 순차적으로 올려 갈 수 있다. 또한, 음성 레벨의 조정 정도가, 미리 정한 음성 레벨의 최대값에 도달하더라도, 재차 음성 레벨을 최소값으로 되돌려 조정 정도를 순차적으로 올릴 수 있다. 이것에 의해, 음성 레벨의 조정 정도가 적절하지 않아 음성 인식에 실패한 경우에는, 반복하여 음성 레벨의 조정 정도를 순차적으로 변경할 수 있기 때문에 음성 인식의 인식율을 향상시킬 수 있다.
또, 상기 실시예에 있어서는, 음성 인식에 실패한 경우에는, 재차 화자로부터의 음성 입력에 의해 음성 레벨의 목표값 TRG_LVL(K)을 순차적으로 변경하는 것으로 했지만, 이것에 한정하지 않고, 화자의 음성 입력을 유지하는 수단을 마련하여, 음성 인식에 실패한 경우에는, 음성 입력을 유지하는 수단에 의해 유지되어 있는 음성 입력을 이용함으로써, 음성 레벨의 목표값 TRG_LVL(K)을 순차적으로 변경시키더라도 된다.
(실시예 4)
도 10은 본 발명의 실시예 4에 따른 음성 인식 장치의 일례를 나타내는 블럭도이다.
도 10에 도시된 바와 같이, 음성 인식 장치는 마이크로폰(1), A/D(아날로그 대 디지털) 컨버터(2), 신호 지연부(3), 음성 레벨 추정부(4), 음성 레벨 조정부(5), 음성 인식부(6) 및 신호 비선형 처리부(11)를 포함한다.
도 10에 도시된 바와 같이 화자에 의해 발성된 음성은 마이크로폰(1)에 의해 집음된다. 집음된 음성은 마이크로폰(1)의 기능에 의해 아날로그 음성 신호 SA로 변환되어 A/D 컨버터(2)에 출력된다. A/D 컨버터(2)는, 출력되는 아날로그 음성 신호 SA를 디지털 음성 신호 DS로 변환하여, 신호 지연부(3) 및 음성 레벨 추정부(4)에 인가한다. 음성 레벨 추정부(4)는 인가되는 디지털 음성 신호 DS에서 음성 레벨의 추정값 LVL을 산출한다. 여기서, 실시예 4에 따른 음성 레벨 추정부(4)에 의한 음성 레벨의 추정값 LVL의 산출 방법에 관해서는, 실시예 1에 따른 음성 레벨 추정부(4)에 의한 음성 레벨의 추정값 LVL의 산출 방법과 마찬가지이다. 음성 레벨 추정부(4)는 인가되는 디지털 음성 신호 DS및 음성 레벨의 추정값 LVL을 신호 비선형 처리부(11)에 인가한다. 신호 비선형 처리부(11)는, 음성 레벨 추정부(4)에 의해 인가되는 음성 레벨의 추정값 LVL에 따라 후술하는 비선형 처리를 하여, 비선형 처리를 한 음성 레벨의 추정값 LVL을 음성 레벨 조정부(5)에 인가한다.
한편, 신호 지연부(3)는 음성 레벨 상승 시간 TL에 상당하는 지연량분만큼 지연시킨 디지털 음성 신호 DS를 음성 레벨 조정부(5)에 인가한다. 여기서, 실시예 4에 따른 음성 레벨 상승 시간 TL에 상당하는 지연량 분량은 100msec으로 한다. 음성 레벨 조정부(5)는 신호 비선형 처리부(11)로부터 인가되는 음성 레벨의 추정값 LVL에 따라 신호 지연부(3)에 의해 인가되는 디지털 음성 신호 DS의 음성 레벨을 조정한다. 음성 레벨 조정부(5)는 음성 레벨의 조정 후의 출력 CTRL_OUT을 음성 인식부(6)에 인가한다. 음성 인식부(6)는 음성 레벨 조정부(5)에 의해 인가되는 음성 레벨의 조정후의 출력 CTRL_OUT에 따라 음성 인식을 한다.
실시예 4에 따른 음성 인식 장치에 있어서는, 마이크로폰(1) 및 A/D(아날로그 대 디지털) 컨버터(2)가 입력 수단에 상당하고, 신호 지연부(3)가 지연 회로에 상당하고, 음성 레벨 추정부(4)가 음성 레벨 추정 수단에 상당하고, 음성 레벨 조정부(5)가 음성 레벨 조정 수단에 상당하고, 음성 인식부(6)가 음성 인식 수단에 상당하고, 신호 비선형 처리부(11)가 비선형 처리부에 상당한다.
도 11은 도 10의 신호 비선형 처리부(11)에 입력되는 음성 레벨의 추정값 LVL과 도 10의 음성 인식부(6)에서의 인식율의 관계를 도시하는 도면이다.
도 11에 도시된 바와 같이 도 10의 음성 인식부(6)에서의 인식율은 음성 레벨의 추정값 LVL에 의존하고 있다. 음성 레벨의 추정값 LVL이 -19㏈ 이상 12㏈ 이하인 범위에 있는 경우에는, 인식율이 80% 이상을 나타낸다. 그리고, 특히 음성 레벨의 추정값 LVL이 낮은(-19㏈ 이하) 경우, 또는 음성 레벨의 추정값 LVL이 높은(-2㏈ 이상) 경우에는, 음성 인식의 인식율이 급격히 저하된다.
이것으로 인해, 본 발명의 실시예 4에 따른 신호 비선형 처리부(11)에서는, 입력되는 음성 레벨의 추정값 LVL이 -19㏈부터 -2㏈까지의 범위 내에 존재하도록 음성 레벨의 추정값 LVL을 조정한다.
도 12는 신호 비선형 처리부(11)의 처리 동작을 나타내는 흐름도이다.
도 12에 도시된 바와 같이, 신호 비선형 처리부(11)는 음성 레벨 추정부(4)에 의해 입력되는 음성 레벨의 추정값 LVL이 -19㏈ 이상 12㏈ 이하인지 여부를 판정한다(단계 S101).
신호 비선형 처리부(11)는, 입력되는 음성 레벨의 추정값 LVL이 -19㏈ 이상 12㏈ 이하인 값이라고 판정한 경우에는, 음성 레벨 조정부(5)를 능동화시키지 않는다. 즉, 음성 레벨 조정부(5)에서 수학식 2로 나타내는 음성 레벨의 조정값 LVL_CTRL은 1로 된다.
한편, 신호 비선형 처리부(11)는, 입력되는 음성 레벨의 추정값 LVL이 -19㏈ 이상 12㏈ 이하의 값이 아니라고 판정한 경우, 음성 레벨의 추정값 LVL을 -10㏈로 설정한다(단계 S102).
상기한 바와 같이, 신호 비선형 처리부(11)는, 음성 레벨의 추정값 LVL이 인식율 80% 이상을 만족하도록, 음성 레벨의 추정값 LVL을 설정하기 때문에, 음성 인식부(6)에서 입력되는 디지털 음성 신호 DS의 음성 인식의 인식율을 향상시킬 수 있다. 즉, 음성 레벨의 추정값 LVL이 미리 정해진 범위 내에 없는 경우에만, 음성 레벨의 추정값을 미리 정해진 범위 내의 음성 레벨의 추정값으로 변경하여 음성 레벨을 조정하고, 음성 레벨의 추정값이 미리 정해진 범위 내에 있는 경우에는, 음성 레벨 조정부(5)에서의 증폭율을 1로 하여 음성 레벨 조정부(5)를 능동화하지 않음으로써, 음성 레벨의 조정을 하지 않는다. 이것에 의해, 간단하게 화자의 음성이 갖는 말의 억양인 액센트에 필요없는 왜곡이 미치는 것을 방지하여 음성 인식을 할 수 있기 때문에 음성 인식의 인식율을 향상시킬 수 있다.
또, 상기 실시예에서는, 음성 레벨의 추정값을 -19㏈로부터 -2㏈로 조정하는 것으로 했지만, 이것에 한정되지 않고, 음성 인식을 할 때에 미리 설정되는 음성 레벨의 추정값 또는 음성 인식율이 높은 음성 레벨 추정값으로 조정하면 된다.
(발명의 개시)
본 발명의 목적은, 화자의 음성 레벨에 좌우되지 않고서 음성 인식의 인식율을 향상시킬 수 있는 음성 인식 장치, 음성 인식 방법 및 음성 인식 프로그램을 제공하는 것이다.
본 발명의 일 국면에 따른 음성 인식 장치는, 디지털 음성 신호를 입력하는 입력 수단과, 입력 수단에 의해 입력되는 음성 구간 내의 일부 시간 내의 디지털 음성 신호에 근거하여 음성 구간의 음성 레벨을 추정하는 음성 레벨 추정 수단과, 음성 레벨 추정 수단에 의해 추정된 음성 레벨 및 미리 설정된 목표 레벨에 근거하여 입력 수단에 의해 입력되는 음성 구간의 디지털 음성 신호의 레벨을 조정하는 음성 레벨 조정 수단과, 음성 레벨 조정 수단에 의해 조정된 디지털 음성 신호에 근거하여 음성 인식을 하는 음성 인식 수단을 구비한 것이다.
본 발명에 따른 음성 인식 장치에 있어서는, 입력 수단에 의해 디지털 음성 신호가 입력되어, 입력 수단에 의해 입력되는 음성 구간내의 미리 정해진 시간내의 디지털 음성 신호에 근거하여 음성 레벨 추정 수단에 의해 음성 구간의 음성 레벨이 추정된다. 음성 레벨 추정 수단에 의해 추정된 음성 레벨 및 미리 설정된 목표 레벨에 근거하여 입력 수단에 의해 입력되는 음성 구간의 디지털 음성 신호의 레벨이 음성 레벨 조정 수단에 의해 조정되고, 음성 레벨 조정 수단에 의해 조정된 디지털 음성 신호에 근거하여 음성 인식 수단에 의해 음성이 인식된다.
이 경우, 음성 구간 내의 일부 시간 내의 디지털 음성 신호에 근거하여 음성 구간 전체의 음성 레벨이 추정되고, 추정된 음성 레벨 및 미리 설정된 목표 레벨에 근거하여 음성 구간의 디지털 음성 신호의 레벨이 일률적으로 조정된다. 그것에 의하여, 화자의 음성이 갖는 말의 억양을 나타내는 액센트에 왜곡을 발생시키지 않고 음성을 인식할 수 있다. 따라서, 음성 인식의 인식율을 향상시킬 수 있다.
음성 레벨 추정 수단은, 입력 수단에 의해 입력되는 음성 구간 내의 최초의 소정 시간 내의 디지털 음성 신호에 근거하여 음성 구간의 음성 레벨을 추정하는 것이어도 좋다.
이 경우, 통상, 음성 구간 내의 최초의 소정 시간 내의 음성 레벨의 상승 부분에 의해 음성 구간 전체의 음성 레벨을 판단할 수 있다. 따라서, 음성 구간 내의 최초의 소정 시간 내의 디지털 음성 신호에 근거하여 음성 레벨을 추정함으로써, 음성 구간 내의 음성 레벨을 단 시간에 정확히 추정할 수 있다.
음성 레벨 추정 수단은, 입력 수단에 의해 입력되는 음성 구간 내의 최초의 소정 시간 내의 디지털 음성 신호의 평균치를 음성 구간의 음성 레벨로서 추정하는 것이어도 좋다.
이 경우, 음성 구간의 최초의 소정 시간 내의 디지털 음성 신호의 평균치를 산출함으로써, 음성 구간의 음성 레벨을 보다 정확히 추정할 수 있다.
음성 레벨 조정 수단은, 미리 설정된 목표 레벨과 음성 레벨 추정 수단에 의해 추정되는 음성 레벨의 비율에 의해 정해지는 증폭율로 입력 수단에 의해 입력되는 음성 구간의 디지털 음성 신호의 레벨을 증폭 또는 감쇠시키는 것이어도 좋다.
이 경우, 목표 레벨로 추정된 음성 레벨과의 비에 의해 정해지는 증폭율로 음성 구간의 디지탈 신호의 레벨을 증가 또는 감쇠시킴으로써, 음성 구간의 음성 레벨을 목표 레벨로 설정할 수 있다.
음성 인식 장치는, 입력 수단에 의해 입력되는 디지털 음성 신호가 음성 레벨 추정 수단에 의해 추정되는 음성 레벨과 함께 동기하여 음성 레벨 조정 수단에 인가되도록 입력 수단에 의해 입력되는 디지털 음성 신호를 지연시키는 지연 회로를 더 구비한 것이어도 좋다.
이 경우, 디지털 음성 신호에 대응하는 음성 레벨의 추정값을 이용하여 음성 레벨을 조정할 수 있다. 이것에 의해, 음성 구간의 음성 레벨을 정확히 조정할 수 있다.
음성 레벨 추정 수단은, 입력 수단에 의해 입력되는 음성 구간의 개시점을 검출하는 음성 검출부와, 입력 수단에 의해 입력되는 음성 구간 내의 최초의 소정 시간 내의 디지털 음성 신호에 근거하여 음성 구간의 음성 레벨을 추정하는 음성 레벨 추정부와, 음성 레벨 추정부에 의해 추정된 음성 레벨을 유지하는 유지 회로와, 음성 검출부에 의한 검출에 응답하여 입력 수단에 의해 입력되는 음성 구간의 디지털 음성 신호를 축적함과 동시에 축적된 음성 구간의 디지털 음성 신호를 유지 회로에 유지된 음성 레벨과 동기시켜 음성 레벨 조정 수단에 출력하는 축적 회로를 포함하는 것이어도 좋다.
이 경우, 입력 수단에 의해 입력되는 음성 구간의 디지털 음성 신호의 개시점이 음성 검출부에 의해 검출되어, 입력 수단에 의해 입력되는 음성 구간 내의 최초의 소정 시간 내의 디지털 음성 신호에 근거하여 음성 레벨 추정부에 의해 음성 구간의 음성 레벨이 추정된다. 음성 레벨 추정부에 의해 추정된 음성 레벨이 유지 회로에 의해 유지되어, 음성 검출부에 의한 검출에 응답하여 입력 수단에 의해 입력되는 음성 구간의 디지털 음성 신호가 축적 회로에 축적됨과 동시에 축적된 음성 구간의 디지털 음성 신호가 유지 회로에 유지된 음성 레벨과 동기시켜 축적 회로에 의해 음성 레벨 조정 수단에 출력된다.
이 경우, 음성 구간의 개시점으로부터 디지털 음성 신호가 축적 회로에 축적되고, 축적된 디지털 음성 신호에 대응하는 음성 레벨의 추정값을 이용하여 음성 레벨이 조정된다. 이것에 의해, 디지털 음성 신호를 정확한 음성 레벨로 조정할 수 있어, 음성 인식의 인식율을 향상시킬 수 있다.
축적 회로는, 입력 수단에 의해 입력되는 음성 구간의 디지털 음성 신호를 교대로 축적함과 동시에 축적된 음성 구간의 디지털 음성 신호를 교대로 음성 레벨 조정 수단에 출력하는 제 1 및 제 2 버퍼를 포함하더라도 좋다.
이 경우, 복수의 단어를 포함하는 긴 시간의 음성이 입력되더라도, 제 1 및 제 2 버퍼에 음성 구간의 디지털 음성 신호가 교대로 축적됨과 동시에 제 1 또는 제 2 버퍼로부터 음성 구간의 디지털 음성 신호가 출력된다. 이것에 의해, 복수의 단어를 포함하는 긴 시간의 음성의 인식을 작은 용량의 제 1 또는 제 2 버퍼를 이용하여 실행할 수 있다.
음성 인식 수단은, 음성 인식 결과를 음성 레벨 조정 수단으로 귀환시키고, 음성 레벨 조정 수단은, 음성 인식 수단에 의해 귀환된 음성 인식 결과에 근거하여 음성 레벨의 조정 정도를 변경하는 것이라도 좋다.
이 경우, 음성 인식 결과를 다시 음성 레벨의 조정에 이용하여 음성 레벨의 조정 정도를 변경함으로써, 음성 레벨의 조정 정도가 적절하지 않은 경우에 음성 레벨의 조정 정도를 적절한 상태에 가깝게 할 수 있다.
음성 레벨 조정 수단은, 음성 인식 수단에 의한 음성 인식이 불가능한 경우에 음성 레벨의 증폭율을 상승시키는 것이라도 좋다.
이 경우, 음성 인식이 불가능한 경우에 음성 레벨의 증폭율을 상승시켜, 음성 인식이 불가능한 음성 레벨을 음성 인식이 가능한 음성 레벨로 조정할 수 있다.
음성 인식 장치는, 음성 레벨 추정 수단에 의해 추정된 음성 레벨이 미리 정해진 범위 내에 있는 경우에 음성 레벨 조정 수단을 능동화하지 않고, 음성 레벨 추정 수단에 의해 추정된 음성 레벨이 미리 정해진 범위 내에 없는 경우에 음성 레벨 조정 수단을 능동화 함과 동시에 음성 레벨 추정 수단에 의해 추정된 음성 레벨을 미리 정해진 범위 내의 음성 레벨로 변경하여 음성 레벨 조정 수단에 인가하는 비선형 처리부를 더 포함하더라도 좋다.
이 경우, 음성 레벨이 미리 정해진 범위 내에 없는 경우에만, 미리 정해진 범위 내의 음성 레벨로 변경하여 음성 레벨의 조정을 할 수 있다. 이것에 의해, 화자의 음성이 갖는 말의 억양을 나타내는 액센트에 필요없는 왜곡이 가해지는 것을 방지할 수 있다.
다른 국면에 따른 음성 인식 방법은, 디지털 음성 신호를 입력하는 단계와, 음성 구간 내의 일부 시간 내에 입력된 디지털 음성 신호에 근거하여 음성 구간의 음성 레벨을 추정하는 단계와, 추정된 음성 레벨 및 미리 설정된 목표 레벨에 근거하여 음성 구간의 디지털 음성 신호의 레벨을 조정하는 단계와, 조정된 디지털 음성 신호에 근거하여 음성을 인식하는 단계를 구비한 것이다.
본 발명에 따른 음성 인식 방법에 있어서는, 디지털 음성 신호가 입력되어, 음성 구간 내의 일부 시간 내의 디지털 음성 신호에 근거하여 음성 구간의 음성 레벨이 추정된다. 추정된 음성 레벨 및 미고 설정된 목표 레벨에 근거하여 음성 구간의 디지털 음성 신호의 레벨이 조정되고, 조정된 디지털 음성 신호에 근거하여 음성 인식이 행하여진다.
이 경우, 음성 구간 내의 일부 시간 내의 디지털 음성 신호에 근거하여 음성 구간의 전체의 음성 레벨이 추정되고, 추정된 음성 레벨 및 미리 설정된 목표 레벨에 근거하여 음성 구간의 디지털 음성 신호의 레벨이 일률적으로 조정된다. 그것에 의하여, 화자의 음성이 갖는 말의 억양을 나타내는 액센트에 왜곡을 미치지 않고 음성 인식을 할 수 있다. 따라서, 음성 인식의 인식율을 향상시킬 수 있다.
음성 레벨을 추정하는 단계는, 음성 구간 내의 최초의 소정 시간 내의 디지털 음성 신호에 근거하여 음성 구간의 음성 레벨을 추정하는 것을 포함하더라도 좋다.
이 경우, 통상, 음성 구간 내의 최초의 소정 시간 내의 음성 레벨의 상승 부분에 의해 음성 구간 전체의 음성 레벨을 판단할 수 있다. 따라서, 음성 구간 내의 최초의 소정 시간 내의 디지털 음성 신호에 근거하여 음성 레벨을 추정함으로써, 음성 구간 내의 음성 레벨을 단 시간에서 정확히 추정할 수 있다.
음성 레벨을 추정하는 단계는, 음성 구간 내의 최초의 소정 시간 내의 디지털 음성 신호의 평균치를 음성 구간의 음성 레벨로서 추정하는 것을 포함하더라도 좋다.
이 경우, 음성 구간의 최초의 소정 시간 내의 디지털 음성 신호의 평균치를 산출함으로써, 음성 구간의 음성 레벨을 보다 정확히 추정할 수 있다.
디지털 음성 신호의 레벨을 조정하는 단계는, 미리 설정된 목표 레벨로 추정되는 음성 레벨과의 비율에 의해 정해지는 증폭율로 음성 구간의 디지털 음성 신호의 레벨을 증폭 또는 감쇠시키는 것을 포함하더라도 좋다.
이 경우, 목표 레벨로 추정된 음성 레벨과의 비율에 의해 정해지는 증폭율로 음성 구간의 디지털 신호의 레벨을 증가 또는 감쇠시켜, 음성 구간의 음성 레벨을 목표 레벨로 설정할 수 있다.
음성 인식 방법은, 음성 구간의 디지털 음성 신호가 추정되는 음성 레벨과 함께 동기하여 디지털 음성 신호의 레벨을 조정하는 단계에 인가되도록 디지털 음성 신호를 지연시키는 단계를 더 구비한 것이다.
이 경우, 디지털 음성 신호에 대응하는 음성 레벨의 추정값을 이용하여 음성 레벨을 조정할 수 있다. 이것에 의해, 음성 구간의 음성 레벨을 정확히 조정할 수 있다.
음성 레벨을 추정하는 단계는, 음성 구간의 디지털 음성 신호의 개시점을 검출하는 단계와, 음성 구간 내의 최초의 소정 시간 내의 디지털 음성 신호에 근거하여 음성 구간의 음성 레벨을 추정하는 단계와, 추정된 음성 레벨을 유지하는 단계와, 디지털 음성 신호의 개시점의 검출에 응답하여 음성 구간의 디지털 음성 신호를 축적함과 동시에 축적된 음성 구간의 디지털 음성 신호를 유지된 음성 레벨과 동기시켜 출력하는 단계를 포함하더라도 좋다.
이 경우, 음성 구간의 디지털 음성 신호의 개시점이 검출되고, 음성 구간 내의 최초의 소정 시간 내의 디지털 음성 신호에 근거하여 음성 구간의 음성 레벨이 추정된다. 추정된 음성 레벨이 유지되고, 음성 구간의 디지털 음성 신호의 개시점의 검출에 응답하여 음성 구간의 디지털 음성 신호가 축적됨과 동시에 축적된 음성 구간의 디지털 음성 신호가 유지된 음성 레벨과 동기해서 출력된다.
이 경우, 음성 구간의 개시점에서 디지털 음성 신호가 축적 회로에 축적되고, 축적된 디지털 음성 신호에 대응하는 음성 레벨의 추정값을 이용하여 음성 레벨이 조정된다. 이것에 의해, 디지털 음성 신호를 정확한 음성 레벨로 조정할 수 있어, 음성 인식의 인식율을 향상시킬 수 있다.
축적하는 단계는, 음성 구간의 디지털 음성 신호를 제 1 및 제 2 버퍼에 교대로 축적함과 동시에 축적된 음성 구간의 디지털 음성 신호를 제 1 및 제 2 버퍼로부터 교대로 출력하는 단계를 포함하더라도 좋다.
이 경우, 복수의 단어를 포함하는 긴 시간의 음성이 입력되더라도, 제 1 및 제 2 버퍼에 음성 구간의 디지털 음성 신호가 교대로 축적됨과 동시에 제 1 또는 제 2 버퍼로부터 음성 구간의 디지털 음성 신호가 출력된다. 이것에 의해, 복수의 단어를 포함하는 긴 시간의 음성의 인식을 작은 용량의 제 1 또는 제 2버퍼를 이용하여 실행할 수 있다.
음성 인식을 하는 단계는, 음성 인식 결과를 디지털 음성 신호의 레벨을 조정하는 단계로 귀환시키는 것을 포함하고, 디지털 음성 신호의 레벨을 조정하는 단계는, 귀환된 음성 인식 결과에 근거하여 음성 레벨의 조정 정도를 변경하는 것을 포함하더라도 좋다.
이 경우, 음성 인식 결과를 다시 음성 레벨의 조정에 이용하여 음성 레벨의 조정 정도를 변경하는 것에 의해, 음성 레벨의 조정 정도가 적절하지 않은 경우에 반복하여 음성 레벨의 조정 정도를 적절한 레벨에 접근시킬 수 있다.
디지털 음성 신호의 레벨을 조정하는 단계는, 음성 인식이 불가능한 경우에 음성 레벨의 증폭율을 상승시키는 것을 포함하더라도 좋다.
이 경우, 음성 인식이 불가능한 경우에 음성 레벨의 증폭율을 상승시킴으로서, 음성 인식이 불가능한 음성 레벨을 음성 인식이 가능한 음성 레벨로 조정할 수 있다.
음성 인식 방법은, 추정된 음성 레벨이 미리 정해진 범위 내에 있는 경우에 디지털 음성 신호의 레벨을 조정하는 것을 능동화하지 않고, 추정된 음성 레벨이 미리 정해진 범위 내에 없는 경우에 조정하는 단계를 능동화함과 동시에 추정된 음성 레벨을 미리 정해진 범위 내의 음성 레벨로 변경하여 변경된 음성 레벨을 디지털 음성 신호의 레벨을 조정하기 위해서 이용하는 단계를 더 구비한 것이다.
이 경우, 미리 정해진 범위 내에 없는 음성 레벨의 경우에만, 미리 정해진 범위 내의 음성 레벨로 변경하여 음성 레벨을 조정할 수 있다. 이것에 의해, 화자의 음성이 갖는 말의 억양을 나타내는 액센트에 필요없는 왜곡을 인가하는 것을 방지할 수 있다.
또한 다른 국면에 따른 음성 인식 프로그램은, 컴퓨터 판독 가능한 음성 인식 프로그램으로서, 디지털 음성 신호를 입력하는 처리와, 입력되는 음성 구간 내의 일부 시간 내의 디지털 음성 신호에 근거하여 음성 구간의 음성 레벨을 추정하는 처리와, 추정된 음성 레벨 및 미리 설정된 목표 레벨에 근거하여 입력되는 음성 구간의 디지털 음성 신호의 레벨을 조정하는 처리와, 조정된 디지털 음성 신호에 근거하여 음성 인식을 하는 처리를 컴퓨터에 실행시키는 것이다.
본 발명에 따른 음성 인식 프로그램에 있어서는, 디지털 음성 신호가 입력되어, 입력되는 음성 구간 내의 미리 정해진 시간 내의 디지털 음성 신호에 근거하여 음성 구간의 음성 레벨이 추정된다. 추정된 음성 레벨 및 미리 설정된 목표 레벨에 근거하여 입력되는 음성 구간의 디지털 음성 신호의 레벨이 조정되어, 조정된 디지털 음성 신호에 근거하여 음성 인식이 행하여진다.
이 경우, 음성 구간 내의 일부 시간 내의 디지털 음성 신호에 근거하여 음성 구간 전체의 음성 레벨이 추정되어, 추정된 음성 레벨 및 미리 설정된 목표 레벨에 근거하여 음성 구간의 디지털 음성 신호의 레벨이 일률적으로 조정된다. 그것에 의하여, 화자의 음성이 갖는 말의 억양을 나타내는 액센트에 왜곡을 미치지 않고 음성 인식을 할 수 있다. 따라서, 음성 인식의 인식율을 향상시킬 수 있다.
본 발명에 의하면, 음성 구간 내의 일부 시간 내의 디지털 음성 신호에 근거하여 음성 구간 전체의 음성 레벨이 추정되어, 추정된 음성 레벨 및 미리 설정된 목표 레벨에 근거하여 음성 구간의 디지털 음성 신호의 레벨이 일률적으로 조정된다. 그것에 의하여, 화자의 음성이 갖는 말의 억양을 나타내는 액센트에 왜곡을 미치지 않고 음성 인식을 할 수 있다. 따라서, 음성 인식의 인식율을 향상시킬 수 있다.
Claims (22)
- 디지털 음성 신호를 입력하는 입력 수단과,상기 입력 수단에 의해 입력되는 음성 구간 내의 일부 시간 내의 디지털 음성 신호에 근거하여 상기 음성 구간의 음성 레벨을 추정하는 음성 레벨 추정 수단과,상기 음성 레벨 추정 수단에 의해 추정된 음성 레벨 및 미리 설정된 목표 레벨에 근거하여 상기 입력 수단에 의해 입력되는 상기 음성 구간의 디지털 음성 신호의 레벨을 조정하는 음성 레벨 조정 수단과,상기 음성 레벨 조정 수단에 의해 조정된 디지털 음성 신호에 근거하여 음성 인식을 하는 음성 인식 수단을 구비하되,상기 음성 레벨 추정 수단은,상기 입력 수단에 의해 입력되는 상기 음성 구간의 디지털 음성 신호의 개시점을 검출하는 음성 검출부와,상기 입력 수단에 의해 입력되는 상기 음성 구간 내의 최초의 소정 시간 내의 디지털 음성 신호에 근거하여 상기 음성 구간의 음성 레벨을 추정하는 음성 레벨 추정부와,상기 음성 레벨 추정부에 의해 추정된 음성 레벨을 유지하는 유지 회로와,상기 음성 검출부에 의한 검출에 응답하여 상기 입력 수단에 의해 입력되는 상기 음성 구간의 디지털 음성 신호를 축적하고, 또한 축적된 상기 음성 구간의 디지털 음성 신호를 상기 유지 회로에 유지된 음성 레벨과 동기시켜 상기 음성 레벨 조정 수단에 출력하는 축적 회로를 포함하는음성 인식 장치.
- 제 1 항에 있어서,상기 음성 레벨 추정 수단은 상기 입력 수단에 의해 입력되는 상기 음성 구간 내의 최초의 소정 시간 내의 디지털 음성 신호에 근거하여 상기 음성 구간의 음성 레벨을 추정하는 음성 인식 장치.
- 디지털 음성 신호를 입력하는 입력 수단과,상기 입력 수단에 의해 입력되는 음성 구간 내의 일부 시간 내의 디지털 음성 신호에 근거하여 상기 음성 구간의 음성 레벨을 추정하는 음성 레벨 추정 수단과,상기 음성 레벨 추정 수단에 의해 추정된 음성 레벨 및 미리 설정된 목표 레벨에 근거하여 상기 입력 수단에 의해 입력되는 상기 음성 구간의 디지털 음성 신호의 레벨을 조정하는 음성 레벨 조정 수단과,상기 음성 레벨 조정 수단에 의해 조정된 디지털 음성 신호에 근거하여 음성 인식을 하는 음성 인식 수단을 구비하되,상기 음성 레벨 추정 수단은 상기 입력 수단에 의해 입력되는 상기 음성 구간 내의 최초의 소정 시간 내의 디지털 음성 신호의 평균치를 상기 음성 구간의 음성 레벨로서 추정하는음성 인식 장치.
- 제 1 항에 있어서,상기 음성 레벨 조정 수단은 상기 미리 설정된 목표 레벨과 상기 음성 레벨 추정 수단에 의해 추정되는 음성 레벨의 비에 의해 정해지는 증폭율로 상기 입력 수단에 의해 입력되는 상기 음성 구간의 디지털 음성 신호의 레벨을 증폭 또는 감쇠시키는 음성 인식 장치.
- 제 1 항에 있어서,상기 음성 구간의 디지털 음성 신호가 상기 음성 레벨 추정 수단에 의해 추정되는 음성 레벨과 함께 동기하여 상기 음성 레벨 조정 수단에 인가되도록 상기 입력 수단에 의해 입력되는 디지털 음성 신호를 지연시키는 지연 회로를 더 구비한 음성 인식 장치.
- 삭제
- 제 1 항에 있어서,상기 축적 회로는 상기 입력 수단에 의해 입력되는 상기 음성 구간의 디지털 음성 신호를 교대로 축적하고, 또한 축적된 상기 음성 구간의 디지털 음성 신호를 교대로 상기 음성 레벨 조정 수단에 출력하는 제 1 및 제 2 버퍼를 포함하는 음성 인식 장치.
- 디지털 음성 신호를 입력하는 입력 수단과,상기 입력 수단에 의해 입력되는 음성 구간 내의 일부 시간 내의 디지털 음성 신호에 근거하여 상기 음성 구간의 음성 레벨을 추정하는 음성 레벨 추정 수단과,상기 음성 레벨 추정 수단에 의해 추정된 음성 레벨 및 미리 설정된 목표 레벨에 근거하여 상기 입력 수단에 의해 입력되는 상기 음성 구간의 디지털 음성 신호의 레벨을 조정하는 음성 레벨 조정 수단과,상기 음성 레벨 조정 수단에 의해 조정된 디지털 음성 신호에 근거하여 음성 인식을 하는 음성 인식 수단을 구비하되,상기 음성 인식 수단은 음성 인식 결과를 상기 음성 레벨 조정 수단으로 귀환시키고,상기 음성 레벨 조정 수단은 상기 음성 인식 수단에 의해 귀환된 음성 인식 결과에 근거하여 상기 음성 레벨의 조정 정도를 변경하는음성 인식 장치.
- 제 8 항에 있어서,상기 음성 레벨 조정 수단은 상기 음성 인식 수단에 의한 음성 인식이 불가능한 경우에 상기 음성 레벨의 증폭율을 상승시키는 음성 인식 장치.
- 디지털 음성 신호를 입력하는 입력 수단과,상기 입력 수단에 의해 입력되는 음성 구간 내의 일부 시간 내의 디지털 음성 신호에 근거하여 상기 음성 구간의 음성 레벨을 추정하는 음성 레벨 추정 수단과,상기 음성 레벨 추정 수단에 의해 추정된 음성 레벨 및 미리 설정된 목표 레벨에 근거하여 상기 입력 수단에 의해 입력되는 상기 음성 구간의 디지털 음성 신호의 레벨을 조정하는 음성 레벨 조정 수단과,상기 음성 레벨 조정 수단에 의해 조정된 디지털 음성 신호에 근거하여 음성 인식을 하는 음성 인식 수단을 구비하되,상기 음성 레벨 추정 수단에 의해 추정된 음성 레벨이 미리 정해진 범위 내에 있는 경우에 상기 음성 레벨 조정 수단을 능동화시키지 않고, 상기 음성 레벨 추정 수단에 의해 추정된 음성 레벨이 미리 정해진 범위 내에 없는 경우에 상기 음성 레벨 조정 수단을 능동화하고, 또한, 상기 음성 레벨 추정 수단에 의해 추정된 음성 레벨을 상기 미리 정해진 범위 내의 음성 레벨로 변경하여 상기 음성 레벨 조정 수단에 인가하는 비선형 처리부를 더 구비한음성 인식 장치.
- 디지털 음성 신호를 입력하는 단계와,음성 구간 내의 일부 시간 내의 상기 입력된 디지털 음성 신호에 근거하여 상기 음성 구간의 음성 레벨을 추정하는 단계와,상기 추정된 음성 레벨 및 미리 설정된 목표 레벨에 근거하여 상기 음성 구간의 디지털 음성 신호의 레벨을 조정하는 단계와,상기 조정된 디지털 음성 신호에 근거하여 음성 인식을 하는 단계를 포함하되,상기 음성 레벨을 추정하는 단계는,상기 음성 구간의 디지털 음성 신호의 개시점을 검출하는 단계와,상기 음성 구간 내의 최초의 소정 시간 내의 디지털 음성 신호에 근거하여 상기 음성 구간의 음성 레벨을 추정하는 단계와,상기 추정된 음성 레벨을 유지하는 단계와,상기 디지털 음성 신호의 개시점의 검출에 응답하여 상기 음성 구간의 디지털 음성 신호를 축적하고, 또한 축적된 상기 음성 구간의 디지털 음성 신호를 상기유지된 음성 레벨과 동기시켜 출력하는 단계를 포함하는음성 인식 방법.
- 제 11 항에 있어서,상기 음성 레벨을 추정하는 단계는, 상기 음성 구간 내의 최초의 소정 시간 내의 디지털 음성 신호에 근거하여 상기 음성 구간의 음성 레벨을 추정하는 것을 포함하는 음성 인식 방법.
- 디지털 음성 신호를 입력하는 단계와,음성 구간 내의 일부 시간 내의 상기 입력된 디지털 음성 신호에 근거하여 상기 음성 구간의 음성 레벨을 추정하는 단계와,상기 추정된 음성 레벨 및 미리 설정된 목표 레벨에 근거하여 상기 음성 구간의 디지털 음성 신호의 레벨을 조정하는 단계와,상기 조정된 디지털 음성 신호에 근거하여 음성 인식을 하는 단계를 포함하되,상기 음성 레벨을 추정하는 단계는 상기 음성 구간 내의 최초의 소정 시간 내의 디지털 음성 신호의 평균치를 상기 음성 구간의 음성 레벨로서 추정하는 것을 포함하는음성 인식 방법.
- 제 11 항에 있어서,상기 디지털 음성 신호의 레벨을 조정하는 단계는 상기 미리 설정된 목표 레벨과 상기 추정되는 음성 레벨의 비율에 의해 정해지는 증폭율로 상기 음성 구간의 디지털 음성 신호의 레벨을 증폭 또는 감쇠시키는 것을 포함하는 음성 인식 방법.
- 제 11 항에 있어서,상기 음성 구간의 디지털 음성 신호가 상기 추정되는 음성 레벨과 함께 동기하여 상기 디지털 음성 신호의 레벨을 조정하는 단계에 인가되도록 상기 디지털 음성 신호를 지연시키는 단계를 더 구비한 음성 인식 방법.
- 삭제
- 제 11 항에 있어서,상기 축적하는 단계는, 상기 음성 구간의 디지털 음성 신호를 제 1 및 제 2 버퍼에 교대로 축적하고, 또한 축적된 상기 음성 구간의 디지털 음성 신호를 제 1 및 제 2 버퍼로부터 교대로 출력하는 단계를 포함하는 음성 인식 방법.
- 디지털 음성 신호를 입력하는 단계와,음성 구간 내의 일부 시간 내의 상기 입력된 디지털 음성 신호에 근거하여 상기 음성 구간의 음성 레벨을 추정하는 단계와,상기 추정된 음성 레벨 및 미리 설정된 목표 레벨에 근거하여 상기 음성 구간의 디지털 음성 신호의 레벨을 조정하는 단계와,상기 조정된 디지털 음성 신호에 근거하여 음성 인식을 하는 단계를 포함하되,상기 음성 인식을 하는 단계는 음성 인식 결과를 상기 디지털 음성 신호의 레벨을 조정하는 단계로 귀환시키는 것을 포함하고,상기 디지털 음성 신호의 레벨을 조정하는 단계는 상기 귀환된 음성 인식 결과에 근거하여 상기 음성 레벨의 조정 정도를 변경하는 것을 포함하는음성 인식 방법.
- 제 18 항에 있어서,상기 디지털 음성 신호의 레벨을 조정하는 단계는, 상기 음성 인식이 불가능한 경우에 상기 음성 레벨의 증폭율을 상승시키는 것을 포함하는 음성 인식 방법.
- 디지털 음성 신호를 입력하는 단계와,음성 구간 내의 일부 시간 내의 상기 입력된 디지털 음성 신호에 근거하여 상기 음성 구간의 음성 레벨을 추정하는 단계와,상기 추정된 음성 레벨 및 미리 설정된 목표 레벨에 근거하여 상기 음성 구간의 디지털 음성 신호의 레벨을 조정하는 단계와,상기 조정된 디지털 음성 신호에 근거하여 음성 인식을 하는 단계를 포함하되,상기 추정된 음성 레벨이 미리 정해진 범위 내에 있는 경우에 상기 디지털 음성 신호의 레벨을 조정하는 것을 능동화시키지 않고, 상기 추정된 음성 레벨이 미리 정해진 범위 내에 없는 경우에 상기 조정하는 단계를 능동화하고, 또한 상기 추정된 음성 레벨을 상기 미리 정해진 범위 내의 음성 레벨로 변경하여 변경된 음성 레벨을 상기 디지털 음성 신호의 레벨을 조정하기 위해서 이용하는 단계를 더 포함한음성 인식 방법.
- 컴퓨터 판독 가능한 음성 인식 프로그램을 기록한 기록 매체로서,상기 음성 인식 프로그램은,디지털 음성 신호를 입력하는 처리와,상기 음성 구간의 디지털 음선 신호의 개시점을 검출하는 처리와,상기 음성 구간 내의 최초의 소정 시간 내의 디지털 음성 신호에 근거하여 상기 음성 구간의 음성 레벨을 추정하는 처리와,상기 추정된 음성 레벨을 유지하는 처리와,상기 검출에 응답하여 상기 음성 구간의 디지털 음성 신호를 축적하고, 또한, 축적된 상기 음성 구간의 디지털 음성 신호를 상기 유지한 음성 레벨과 동기시켜 출력하는 처리와,상기 출력된 음성 레벨 및 미리 설정된 목표 레벨에 근거하여 상기 음성 구간의 디지털 음성 신호의 레벨을 조정하는 처리와,상기 조정된 디지털 음성 신호에 근거하여 음성 인식을 행하는 처리를상기 컴퓨터에 실행시키는 음성 인식 프로그램을 기록한 기록 매체.
- 디지털 음성 신호를 입력하는 입력 수단과,상기 입력 수단에 의해 입력되는 음성 구간 내의 일부의 시간 내의 디지털 음성 신호에 근거하여 상기 음성 구간의 음성 레벨을 추정하는 음성 레벨 추정 수단과,상기 음성 레벨 추정 수단에 의해 추정된 음성 레벨 및 미리 설정된 목표 레벨에 근거하여 상기 입력 수단에 의해 입력되는 상기 음성 구간의 디지털 음성 신호의 레벨을 조정하는 조정 레벨 추정 수단과,상기 음성 레벨 조정 수단에 의해 조정된 디지털 음성 신호에 근거하여 음성 인식을 행하는 음성 인식 수단을 구비하되,상기 음성 레벨 추정 수단은 상기 입력되는 디지털 음성 신호의 신호와 노이즈의 비율에 근거하여 상기 음성 구간을 판정하는음성 인식 장치.
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000208083 | 2000-07-10 | ||
JPJP-P-2000-00208083 | 2000-07-10 | ||
JPJP-P-2001-00203754 | 2001-07-04 | ||
JP2001203754A JP4880136B2 (ja) | 2000-07-10 | 2001-07-04 | 音声認識装置および音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20020033791A KR20020033791A (ko) | 2002-05-07 |
KR100482477B1 true KR100482477B1 (ko) | 2005-04-14 |
Family
ID=26595685
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR10-2002-7003193A KR100482477B1 (ko) | 2000-07-10 | 2001-07-09 | 음성 인식 장치, 음성 인식 방법 및 음성 인식 프로그램을 기록한 기록 매체 |
Country Status (7)
Country | Link |
---|---|
US (1) | US20020173957A1 (ko) |
EP (1) | EP1300832B1 (ko) |
JP (1) | JP4880136B2 (ko) |
KR (1) | KR100482477B1 (ko) |
CN (1) | CN1227647C (ko) |
DE (1) | DE60122893T2 (ko) |
WO (1) | WO2002005266A1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100742888B1 (ko) | 2005-03-09 | 2007-07-25 | 캐논 가부시끼가이샤 | 음성 인식 방법 |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100406307B1 (ko) * | 2001-08-09 | 2003-11-19 | 삼성전자주식회사 | 음성등록방법 및 음성등록시스템과 이에 기초한음성인식방법 및 음성인식시스템 |
JP3815388B2 (ja) * | 2002-06-25 | 2006-08-30 | 株式会社デンソー | 音声認識システムおよび端末 |
JP4552064B2 (ja) * | 2003-10-15 | 2010-09-29 | 独立行政法人情報通信研究機構 | 音声レベル自動補正装置 |
US7925510B2 (en) * | 2004-04-28 | 2011-04-12 | Nuance Communications, Inc. | Componentized voice server with selectable internal and external speech detectors |
KR100705563B1 (ko) * | 2004-12-07 | 2007-04-10 | 삼성전자주식회사 | 입력 레벨 자동 조절을 위한 음성 인식 시스템 및 이를이용한 음성 인식 방법 |
KR100720337B1 (ko) | 2005-09-06 | 2007-05-22 | 한국과학기술연구원 | 비선형 증폭기를 이용한 음성처리 시스템 |
US20080015104A1 (en) | 2006-07-13 | 2008-01-17 | Unimin Corporation | Ultrafine nepheline syenite |
KR20080078458A (ko) * | 2007-02-23 | 2008-08-27 | 이선일 | 음성 인식 회로 |
US8249269B2 (en) * | 2007-12-10 | 2012-08-21 | Panasonic Corporation | Sound collecting device, sound collecting method, and collecting program, and integrated circuit |
KR20160132574A (ko) | 2015-05-11 | 2016-11-21 | 현대자동차주식회사 | 자동이득제어모듈, 그 제어방법, 이를 포함하는 차량, 및 그 제어방법 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS59223499A (ja) * | 1983-06-02 | 1984-12-15 | 松下電器産業株式会社 | 音素認識装置 |
JPS6016200A (ja) * | 1983-07-08 | 1985-01-26 | 池田 栄子 | 栄養群別カロリ−表示販売システム |
JPS6016200U (ja) * | 1983-07-12 | 1985-02-02 | カシオ計算機株式会社 | 音声認識装置に於けるリミツタアンプ |
JPS6262399A (ja) * | 1985-09-13 | 1987-03-19 | 株式会社日立製作所 | 音声高能率符号化方式 |
JPS63316097A (ja) * | 1987-06-19 | 1988-12-23 | 日本電気株式会社 | 連続音声認識装置 |
JP2969862B2 (ja) * | 1989-10-04 | 1999-11-02 | 松下電器産業株式会社 | 音声認識装置 |
JP2975808B2 (ja) * | 1993-05-31 | 1999-11-10 | 三洋電機株式会社 | 音声認識装置 |
JP2500761Y2 (ja) * | 1994-03-30 | 1996-06-12 | 株式会社アルファ | 音声認識装置 |
JPH08115098A (ja) * | 1994-10-18 | 1996-05-07 | Hitachi Microcomput Syst Ltd | 音声編集方法および装置 |
JPH10198397A (ja) * | 1997-01-08 | 1998-07-31 | Meidensha Corp | 音声認識処理装置および音声認識処理方法 |
JPH11212595A (ja) * | 1998-01-23 | 1999-08-06 | Olympus Optical Co Ltd | 音声処理装置、音声認識プログラムを記録した記録媒体、処理プログラムを記録した記録媒体 |
JPH11126093A (ja) * | 1997-10-24 | 1999-05-11 | Hitachi Eng & Service Co Ltd | 音声入力調整方法および音声入力システム |
US6353671B1 (en) * | 1998-02-05 | 2002-03-05 | Bioinstco Corp. | Signal processing circuit and method for increasing speech intelligibility |
-
2001
- 2001-07-04 JP JP2001203754A patent/JP4880136B2/ja not_active Expired - Fee Related
- 2001-07-09 EP EP01947936A patent/EP1300832B1/en not_active Expired - Lifetime
- 2001-07-09 DE DE60122893T patent/DE60122893T2/de not_active Expired - Lifetime
- 2001-07-09 CN CNB018019633A patent/CN1227647C/zh not_active Expired - Fee Related
- 2001-07-09 US US10/069,530 patent/US20020173957A1/en not_active Abandoned
- 2001-07-09 WO PCT/JP2001/005950 patent/WO2002005266A1/ja active IP Right Grant
- 2001-07-09 KR KR10-2002-7003193A patent/KR100482477B1/ko not_active IP Right Cessation
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100742888B1 (ko) | 2005-03-09 | 2007-07-25 | 캐논 가부시끼가이샤 | 음성 인식 방법 |
Also Published As
Publication number | Publication date |
---|---|
EP1300832A1 (en) | 2003-04-09 |
DE60122893T2 (de) | 2007-03-15 |
DE60122893D1 (de) | 2006-10-19 |
CN1227647C (zh) | 2005-11-16 |
CN1386265A (zh) | 2002-12-18 |
JP2002091487A (ja) | 2002-03-27 |
EP1300832B1 (en) | 2006-09-06 |
KR20020033791A (ko) | 2002-05-07 |
WO2002005266A1 (fr) | 2002-01-17 |
EP1300832A4 (en) | 2005-07-20 |
JP4880136B2 (ja) | 2012-02-22 |
US20020173957A1 (en) | 2002-11-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100482477B1 (ko) | 음성 인식 장치, 음성 인식 방법 및 음성 인식 프로그램을 기록한 기록 매체 | |
WO2010131470A1 (ja) | ゲイン制御装置及びゲイン制御方法、音声出力装置 | |
EP1774516B1 (en) | Normalization of cepstral features for speech recognition | |
KR101986905B1 (ko) | 신호 분석 및 딥 러닝 기반의 오디오 음량 제어 방법 및 시스템 | |
JP2006163392A (ja) | 入力レベルの自動調整のための音声認識システム及びこれを用いた音声認識方法 | |
JP5446874B2 (ja) | 音声検出システム、音声検出方法および音声検出プログラム | |
US11081115B2 (en) | Speaker recognition | |
CN104918181A (zh) | 电平调整装置和方法 | |
GB2347252A (en) | Voice recognition system | |
US20220262392A1 (en) | Information processing device | |
KR101119679B1 (ko) | Agc회로, agc회로의 이득 제어 방법, 및 agc회로의 이득 제어 방법의 프로그램을 기록한 기록 매체 | |
JP4548953B2 (ja) | 音声自動利得制御装置、音声自動利得制御方法、音声自動利得制御用のアルゴリズムを持つコンピュータプログラムを格納する記憶媒体及び音声自動利得制御用のアルゴリズムを持つコンピュータプログラム | |
CN113470691B (zh) | 一种语音信号的自动增益控制方法及其相关装置 | |
CN112669872B (zh) | 一种音频数据的增益方法及装置 | |
JP2002073061A (ja) | 音声認識装置及びその方法 | |
JPS6257040B2 (ko) | ||
JP2005345772A (ja) | 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体 | |
EP2466917B1 (en) | Audio-signal processing apparatus and method, and program | |
JP6790851B2 (ja) | 音声処理プログラム、音声処理方法、及び音声処理装置 | |
EP4024705A1 (en) | Speech sound response device and speech sound response method | |
KR101172640B1 (ko) | 첩 확산 스팩트럼 시스템에서 이용되는 자동 이득 조절 방법 및 장치 | |
KR19980017116A (ko) | 운전자의 음성 신호 구간 검출장치 및 그 방법 | |
KR100298118B1 (ko) | Hmm모델의유사성을이용한음성인식장치및방법 | |
JP2003199185A (ja) | 音響再生装置、音響再生プログラムおよび音響再生方法 | |
JP3096564B2 (ja) | 音声検出装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20130318 Year of fee payment: 9 |
|
FPAY | Annual fee payment |
Payment date: 20140320 Year of fee payment: 10 |
|
FPAY | Annual fee payment |
Payment date: 20160318 Year of fee payment: 12 |
|
FPAY | Annual fee payment |
Payment date: 20170302 Year of fee payment: 13 |
|
LAPS | Lapse due to unpaid annual fee |