KR100504982B1 - 환경 적응형 다중 음성인식 장치 및 음성인식 방법 - Google Patents

환경 적응형 다중 음성인식 장치 및 음성인식 방법 Download PDF

Info

Publication number
KR100504982B1
KR100504982B1 KR10-2002-0043884A KR20020043884A KR100504982B1 KR 100504982 B1 KR100504982 B1 KR 100504982B1 KR 20020043884 A KR20020043884 A KR 20020043884A KR 100504982 B1 KR100504982 B1 KR 100504982B1
Authority
KR
South Korea
Prior art keywords
speech recognition
recognition
voice
speech
results
Prior art date
Application number
KR10-2002-0043884A
Other languages
English (en)
Other versions
KR20040010860A (ko
Inventor
이병옥
강원일
이재경
김상설
홍성용
Original Assignee
(주) 메카트론
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주) 메카트론 filed Critical (주) 메카트론
Priority to KR10-2002-0043884A priority Critical patent/KR100504982B1/ko
Publication of KR20040010860A publication Critical patent/KR20040010860A/ko
Application granted granted Critical
Publication of KR100504982B1 publication Critical patent/KR100504982B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/34Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Navigation (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 환경 적응형 다중 음성인식 장치 및 음성인식 방법에 관한 것으로서, 특히 서로 다른 인식방법을 가진 인식부를 다수 채용함으로써 정확하게 음성을 인식할 수 있는 다수의 음성 인식부로 구성된 음성인식 장치 및 음성인식 방법에 관한 것이다.
상기한 목적을 달성하기 위하여 본 발명은, 음성 신호를 입력받아 아날로그 신호를 디지털 신호로 변환해주는 음성입력 모듈과, 상기 입력된 디지털 음성 신호의 특징을 분석하여 특징벡터를 추출하는 전처리부와, 상기 전처리부로부터 추출된 특징벡터와 미리 저장된 모델을 비교하여 음성인식 결과를 출력하는 다수의 인식부를 포함하는 음성인식 모듈 및 상기 다수의 인식부에서 출력한 다수의 음성인식 결과들 중 최적의 음성인식 결과를 결정하는 판단 모듈로 구성되는 것을 특징으로 하는 다수의 음성 인식부로 구성된다.
상기한 구성의 본 발명에 의하면, 인식부를 다수 채용함으로써 다수개의 인식부가 각각의 음성인식 결과를 추출하고 그 인식 결과를 비교하여 최적의 음성 결과를 추출함으로써 보다 정확하게 음성인식 결과를 판단할 수 있는 잇점이 있다.

Description

환경 적응형 다중 음성인식 장치 및 음성인식 방법{SURROUNDING-CONDITION-ADAPTIVE VOICE RECOGNITION DEVICE INCLUDING MULTIPLE RECOGNITION MODULE AND THE METHOD THEREOF}
본 발명은 환경 적응형 다중 음성인식 장치 및 음성인식 방법에 관한 것으로서, 특히 서로 다른 인식알고리즘을 가진 음성 인식부를 다수 채용함으로써 정확하게 음성을 인식할 수 있는 음성인식 장치 및 음성인식 방법에 관한 것이다.
종래의 음성인식 장치는 음성인식 메모리에 인식대상을 미리 훈련을 통해 얻어진 모델들로 저장한 후, 입력된 음성에서 추출한 특징벡터와 상기 메모리에 저장된 값을 비교하여 그 결과를 인식하는 방식을 사용하였다.
그러나, 상기와 같은 음성인식 방법은 비슷한 음성이 입력될 경우 오인식할 가능성이 높으며, 하나의 인식단만을 구비하고 있어서 음성이 입력될 경우 인식된 결과들이 정확하게 인식된것인지 판단하기가 어려워 오인식할 가능성이 높다는 문제점이 있었다.
또한, 종래의 음성인식 장치는 미리 훈련에 의해 메모리에 저장한 모델과 비슷한 환경에서만 높은 인식률을 보이고 있을 뿐 급격하게 변화하는 주변 환경에서는 음성 인식률이 매우 낮다는 문제점이 있었다.
예를 들면, 조용한 환경에서 수집된 음성으로 훈련된 메모리의 경우 시끄러운 환경에서 사용하면 정확한 음성인식이 어렵다는 문제가 있다.
본 발명은 상기한 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은 서로 다른 거절알고리즘 또는 서로 다른 모델을 가진 인식부를 다수 채용함으로써 보다 정확하게 음성인식 결과를 추출할 수 있는 환경 적응형 다중 음성인식 장치 및 음성인식 방법을 제공하는 것이다.
본 발명의 다른 목적은 외부 환경을 반영하는 외부 제어 신호의 입력값에 따라 동일한 환경에서 추출된 음성인식 결과에 가중치를 부여하며, 동시에 급격한 환경 변화에 적응함으로써 보다 정확하게 음성을 인식할 수 있는 환경 적응형 다중 음성인식 장치 및 음성인식 방법을 제공하는 것이다.
상기한 목적을 달성하기 위하여 본 발명은, 음성 신호를 입력받아 아날로그 신호를 디지털 신호로 변환해주는 음성입력 모듈과, 상기 입력된 디지털 음성 신호의 특징을 분석하여 특징벡터를 추출하는 전처리부와, 상기 전처리부로부터 추출된 특징벡터와 미리 저장된 모델을 비교하여 음성인식 결과를 출력하는 다수의 인식부를 포함하는 음성인식 모듈 및 상기 다수의 인식부에서 출력한 다수의 음성인식 결과들 중 최적의 음성인식 결과를 결정하는 판단 모듈로 구성되는 것을 특징으로 하는 다수의 음성 인식부로 구성된다.
또한, 음성 신호가 입력되면 아날로그/디지털 변환기를 통해 디지털 신호로 변환하는 단계와, 상기 입력된 디지털 음성 신호의 특징을 분석하여 특징벡터를 추출하는 단계와, 상기 특징벡터와 미리 저장된 모델을 비교하여 음성인식 결과를 출력하는 단계 및 상기 다수의 음성인식 결과들 중 최적의 음성인식 결과를 결정하는 단계로 구성되는 것을 특징으로 한다.
이하, 첨부한 도면들을 참조로 하여 본 발명의 바람직한 실시예를 상세히 설명한다.
도 1은 본 발명의 일 실시예로 하나의 전처리부와 다수의 인식부로 구성되는 시스템도로서, 음성을 입력하는 음성입력 모듈(300)과, 음성을 인식하는 음성인식 모듈(100)과, 다수의 음성인식 결과를 판단하는 판단 모듈(200)로 구성된다.
상기 음성입력 모듈(300)은 음성 신호를 입력받는 마이크(310)와 상기 입력받은 아날로그 음성 신호를 디지털 음성 신호로 변환해주는 아날로그/디지탈 변환기(320)로 구성된다.
상기 음성인식 모듈(100)은 상기 입력된 디지털 음성 신호의 특징을 분석하여 특징벡터를 추출하는 전처리부(110)와, 상기 전처리부(110)로부터 추출된 특징벡터와 훈련에 의해 메모리에 미리 저장된 모델을 비교하여 음성인식 결과를 출력하는 다수의 인식부(120)로 구성된다.
여기서, 상기 모델은 음소모델, 단어모델, 부가정보 등을 포함한다.
상기 전처리부(110)는 다수개로 구성될 수 있으며, 상기 전처리부(110)가 다수개로 구성될 경우 전처리부별로 각각의 특징벡터를 추출한다(하기 도 3참조). 여기서, 상기 특징벡터는 MFCC, PLP, LPCC 등의 형식 중 하나의 형식일 수 있다.
상기 인식부(120)는 탐색부 및 후처리부로 구성되며, 인식부들은 메모리에 저장된 동일한 모델을 사용한다. 물론, 처리방법에 따라 인식부별로 다른 모델을 포함할 수도 있다. 여기서, 상기 탐색부는 전처리부(110)에서 추출된 특징벡터와 메모리에 저장된 모델을 비교하여 음성인식 결과들을 후보로 출력하며, 상기 후처리부들은 거절 알고리즘에 따라 상기 다수의 후보들의 출력 여부를 결정한다. 상기 후처리부들은 서로 다른 거절 알고리즘을 가질 수도 있다.
상기 판단 모듈(200)은 다수의 인식부(120)에서 출력한 다수의 음성인식 결과들 중 최적의 음성인식 결과를 결정한다.
여기서, 상기 판단 모듈(200)은 다수의 음성인식 결과들 중 동일한 결과(단어 또는 음소 등)의 출력 개수에 따라 최적의 음성인식 결과를 결정하는 판단 알고리즘을 포함한다.
또한, 상기 판단 모듈(200)은 외부 환경을 반영하는 외부 제어 신호의 입력값에 따라 해당 인식부(120)의 음성인식 결과에 가중치를 부여하여 더욱 정확하게 음성인식 결과를 출력할 수 있게 한다.
도 2는 상기 도 1에 도시된 하나의 전처리부와 다수의 인식부로 구성되는 시스템의 동작 순서도이다.
마이크(310)를 통해 음성 신호가 입력되면, 아날로그/디지털 변환기(320)를 통해 아날로그 음성 신호가 디지털 음성 신호로 변환된다(S100). 전처리부(110)는 상기 입력된 디지털 음성 신호의 특징을 분석하여 특징벡터를 추출하고(S102), 인식부(120)는 상기 추출된 특징벡터와 메모리부에 미리 저장된 모델을 비교하여 음성인식 결과를 출력한다(S104).
상기 인식부(120)는 탐색부 및 후처리부로 구성되는데, 여기서 상기 탐색부는 메모리부에 미리 저장된 모델들과 상기 전처리부(110)에서 추출된 특징벡터를 비교하여 그 중 유사한 후보들을 출력하는 Viterbi 알고리즘으로 구성되어 있으며, 상기 후처리부는 거절 알고리즘에 따라 상기 다수의 후보들의 출력 여부를 결정하여 인식결과를 출력하고, 소정 기준 이하일 경우에는 인식결과를 출력하지 않는다.
상기 메모리부는, 음성인식 모듈(100) 및 음성인식 결정 모듈(200) 내부에 포함되거나, 상기 음성인식 모듈(100) 및 음성인식 결정 모듈(200) 외부에 별도의 하드디스크, ROM 등으로 구현될 수 있다. 여기서, 상기 메모리부는 음향모델, 언어모델, FSN 네트워크 및 사전(단어사전 및 음소사전 등) 등을 포함하고 있다.
또한, 상기 메모리부에 훈련에 의해 저장된 모델은 다양한 주변환경을 고려하여 훈련되어 있다.
상기 전처리부(110)와 인식부(120)의 음성인식처리 과정은 [표 1]과 같다.
전처리부 인식부
특징벡터 탐색부 후처리부
MFCC(PLP,LPCC 등) Viterbi 알고리즘 거절 알고리즘 1의 처리
MFCC(PLP,LPCC 등) Viterbi 알고리즘 거절 알고리즘 2의 처리
MFCC(PLP,LPCC 등) Viterbi 알고리즘 거절 알고리즘 3의 처리
... ... ...
... ... ...
즉, 다수의 탐색부(Viterbi 알고리즘)는 메모리에 미리 저장된 탐색부별로 서로 다른 모델들과 상기 추출된 특징벡터를 비교/탐색하여 유사한 다수의 후보들을 출력하고, 후처리부는 거절 알고리즘에 따라 상기 다수의 후보들의 출력여부를 결정한다.
예를들면, 상기 각각의 거절 알고리즘들 중 거절 알고리즘 1은 다수개의 후보들의 인식결과를 나름대로 정한 신뢰도(confidence measure) 공식을 이용하여 인식된 결과들을 출력할지 여부를 판단하며, 거절 알고리즘 2는 상기 거절 알고리즘 1과는 다른 신뢰도 공식을 이용하여 인식된 결과들을 출력할지 여부를 판단한다.
이 후, 판단 모듈(200)은 상기 인식부(120)에서 추출된 다수의 음성인식 결과들 중 최적의 음성인식 결과를 최종 결정한다(S108). 여기서, 상기 판단 모듈(200)은 판단 알고리즘을 이용하여 상기 추출된 다수의 음성인식 결과들 중 최적의 음성인식 결과를 결정한다.
상기 판단 알고리즘은 [표 2]와 같다.
번호 결과의 출력개수 동일한 결과의 출력개수 판단
N 동일한 음소 개수= N OK
N 동일한 음소 개수> N/2 OK
N 동일한 음소 개수= N/2 OK
N 동일한 음소 개수< N/2 거절
예를 들어, 상기 인식부(120)에서 추출된 음성인식 결과가 4개(N=4)인 경우, 음성인식 결과 출력 음소가 ①, ② 및 ③의 경우에는 정확한 음성인식 결과가 있다고 판단하며, 만일 음성인식 결과 출력이 ④의 경우에는 정확한 음성인식 결과가 없다고 판단한다. 여기서, 음성인식 결과는 a,b,c,d라 가정한다.
① 동일한 결과의 개수 = N인 경우
즉, 음성인식 결과로 동일한 음성인식 결과 a,a,a,a가 출력되면, 판단 모듈(210)은 최적의 음성인식 결과를 a라고 결정한다.
② 동일한 결과의 개수 > N/2인 경우
즉, 음성인식 결과로 동일한 음성인식 결과 a,a,a,b가 출력되면, 판단 모듈(210)은 최적의 음성인식 결과를 a라고 결정한다.
③ 동일한 결과의 개수 = N/2인 경우
즉, 음성인식 결과로 동일한 음성인식 결과 a,a,b,c가 출력되면, 판단 모듈(210)은 최적의 음성인식 결과를 a라고 결정한다.
만약, 음성인식 결과로 동일한 음성인식 결과 a,a,b,b가 출력되면, 판단 모듈(210)은 미리 정해놓은 기준에 따라 다시한번 최적의 음성인식 결과 판단하며, 이 경우에는 a 또는 b 중 어느 하나가 최적의 음성인식 결과로 결정된다.
④ 동일한 결과의 개수 < N/2인 경우
즉, 음성인식 결과로 동일한 음성인식 결과 a,b,c,d가 출력되면, 판단 모듈(210)은 최적의 음성인식 결과를 얻을 수 없다고 판단한다.
상기 판단 모듈(210)의 판단 알고리즘에 의해 최적의 음성인식 결과를 출력한다(S110).
한편, 상기 판단 모듈(210)은 최적의 음성인식 결과를 결정할때 외부 환경을 반영하는 외부 제어 신호의 입력값에 따라 동일한 환경에서 추출된 음성인식 결과에 가중치를 부여할 수 있으며(S106), 이로 인해 더욱 정확한 음성인식 결과를 출력할 수 있다.
예를 들어, 인식기 A, 인식기 B, 및 인식기 C에 있어서, 인식기 A는 시끄러운 환경에서 녹음된 모델을 포함하는 경우이고, 인식기 B는 일상적인 환경에서 녹음된 모델을 포함하는 경우이고, 인식기 C는 조용한 환경에서 녹음된 모델을 포함한 경우라고 가정하면, 가중치 Wa, Wb, 및 Wc 는 [표 3]과 같이 부여된다.
Wa Wb Wc
시끄러운 환경 2/3 1/3 0
일상적인 환경 1/3 1/3 1/3
조용한 환경 0 1/3 2/3
즉, 외부 제어 신호의 입력값이 시끄러운 환경일 경우, 인식기 A, 인식기 B및 인식기 C의 출력 결과값에 가중치 WA, Wb Wc를 부여하는 것이다.
Output = Wa·A + Wb·B + Wc·C ---- (1)
상기 식(1)에 따라 가중치를 계산하면,
Output = ⅔·A + ⅓·B + 0·C
= ⅔·A + ⅓·B
따라서, 환경에 맞는 정확한 음성인식 결과를 출력할 수 있어 최적의 음성인식 결과를 결정할 수 있다.
도 3은 본 발명의 다른 실시예로 다수의 전처리부와 다수의 인식부로 구성되는 시스템도이다.
음성인식 모듈(100)이 다수의 전처리부(110)로 구성된 경우, 상기 다수의 전처리부(110)를 통해 각각의 특징벡터를 추출할 수 있다. 여기서, 상기 다수의 전처리부(110)에서 추출된 특징벡터의 형식, 예를들면 MFCC, PLP, LPCC 등의 형식에 따라 지정된 인식부(120)가 상호 연결된다.
즉, 상기 시끄러운 주변환경을 고려한 전처리부(110a)에서 추출된 특징벡터는 동일한 환경인 시끄러운 주변환경을 고려한 인식부(120a)와 연결되는 방식이다.
도 3은 전처리부(110)의 개수가 다수라는 것 이외에는 상기 도 1과 동일한 음성인식 시스템 구조이므로 자세한 설명은 생략한다.
도 4는 상기 도 3에 도시된 다수의 전처리부와 다수의 인식부로 구성되는 시스템의 동작 순서도이다.
상기 다수의 전처리부(110)는 상기 입력된 디지털 음성 신호의 특징을 분석하여 각각의 특징벡터를 추출하고(S202), 인식부(120)는 상기 추출된 각각의 특징벡터와 메모리부에 미리 저장된 모델을 비교하여 음성인식 결과를 출력한다(S204). 여기서, 상기 다수의 전처리부(110)에서 추출된 특징벡터에 따라 지정된 인식부(120)가 상호 연결되며, 이로 인해 더욱 정확하게 음성인식을 할 수 있어 음성인식률을 극대화 할 수 있다.
도 4는 전처리부(110)가 다수개로 구성된다는 것을 제외하고는 상기 도 2의 음성인식 방법과 동일하므로 S204 내지 S210의 자세한 설명은 생략한다.
도 5는 본 발명의 또 다른 실시예로 하나의 전처리부와 1차 및 2차 인식부로 구성되는 시스템도로서, 음성을 입력하는 음성입력 모듈(300)과, 음성을 인식하는 음성인식 모듈(100)로 구성된다.
상기 음성입력 모듈(300)은 음성 신호를 입력받는 마이크(310)와 상기 입력받은 아날로그 음성 신호를 디지털 음성 신호로 변환해주는 아날로그/디지탈 변환기(320)로 구성된다.
상기 음성인식 모듈(100)은 상기 입력된 디지털 음성 신호의 특징을 분석하여 특징벡터를 추출하는 전처리부(110)와, 상기 전처리부(110)로부터 추출된 특징벡터와 훈련에 의해 메모리에 저장된 모델을 비교하여 주변환경의 특성 및 부가정보(COMPLEMENTARY INFORMATION)를 파악하는 1차 인식부(121)와, 상기 1차 인식부(121)에서 파악한 주변환경 정보에 대응하는 모델을 이용하여 음성 신호를 분석하는 2차 인식부(122)로 구성된다. 여기서 상기 1차 인식부(121)는 주변환경의 특성을 파악하는 것을 목적으로 하며, 상기 2차 인식부(122)는 음향모델, FSN 네트워크, 부가정보 및 사전 등을 이용하여 음성 신호를 분석한다. 여기서 부가정보란 음소나 단어의 지속시간, U/V/S(보이스, 언보이스, SILENCE) 등의 정보를 말한다.
또한, 상기 전처리부(110)에서 주변환경의 특성을 파악할 수도 있다.
도 6은 상기 도 5에 도시된 하나의 전처리부와 1차 및 2차 인식부로 구성되는 시스템의 동작 순서도이다.
마이크(310)를 통해 음성 신호가 입력되면, 아날로그/디지털 변환기(320)를 통해 아날로그 음성 신호가 디지털 음성 신호로 변환된다(S300). 전처리부(110)는 상기 입력된 디지털 음성 신호의 특징을 분석하여 특징벡터를 추출하고(S302), 1차 인식부(121)는 상기 추출된 특징벡터와 메모리에 저장된 모델을 비교하여 주변환경의 특성을 파악한다(S304).
여기서, 상기 모델은 시끄러운 환경, 일상적인 환경 및 아주 조용한 환경 등 세분화된 환경으로 구분되며, 이에 따라 상기 추출된 특징벡터의 주변환경이 어떠한 환경인가를 판단할 수 있다.
상기 판단된 주변환경 정보에 따라 2차 인식부(122)는 해당 주변환경과 유사한 환경의 모델을 이용하여 음성인식 결과를 출력한다(S306).
여기서, 상기 2차 인식부(122)는 음향모델, 언어모델, 부가정보 및 사전 등을 이용하여 음성 신호를 분석할 수도 있다.
예를 들어, 상기 전처리부(110)에서 추출된 특징벡터의 주변환경이 상기 1차 인식부(121)를 통해 일상적인 주변환경이라고 판단되면, 상기 2차 인식부(122)는 미리 저장된 모델들 중 일상적인 주변환경으로 훈련된 모델로만 음성인식을 수행함으로 음성을 인식하는 속도를 향상시킬 수 있다.
한편, 상기 전처리부(110)에서 1차 인식부(121)의 기능을 수행하여 주변환경 정보를 추출할 수도 있다. 여기서, 상기 전처리부(110)는 음성 신호의 에너지 양이나, 영점통과 횟수를 분석하여 상기 음성 신호가 음성 신호 구간인지 비음성 신호 구간인지를 구별한다.
이상에서 본 발명에 대해 상세히 기술하였지만, 본 발명이 속하는 기술분야에 있어서 통상의 지식을 가진 사람이라면, 첨부된 청구범위에 정의된 본 발명의 정신 및 범위를 벗어나지 않으면서 본 발명을 여러 가지로 변형 또는 변경하여 실시할 수 있음은 자명하며, 따라서 본 발명의 실시예에 따른 단순한 변경은 본 발명의 기술을 벗어날 수 없을 것이다.
상기한 구성의 본 발명에 의하면, 인식부를 다수 채용함으로써 다수개의 인식부가 각각의 음성인식 결과를 추출하고 그 인식 결과를 상호 비교하여 최적의 음성 결과를 추출함으로써 보다 정확하게 음성인식 결과를 판단할 수 있는 잇점이 있다.
그리고, 외부 환경을 반영하는 외부 제어 신호의 입력값에 따라 동일한 환경에서 추출된 음성인식 결과에 가중치를 부여하여 최적의 음성인식 결과를 결정함으로 보다 정확하게 음성인식 결과를 결정할 수 있는 잇점이 있다.
또한, 다양한 주변환경에서 훈련된 모델을 이용함으로 어떠한 환경에서 음성이 입력되어도 정확하게 음성을 인식할 수 있는 잇점이 있다.
도 1은 본 발명의 일 실시예로 하나의 전처리부와 다수의 인식부로 구성되는 시스템도.
도 2는 상기 도 1에 도시된 하나의 전처리부와 다수의 인식부로 구성되는 시스템의 동작 순서도.
도 3은 본 발명의 다른 실시예로 다수의 전처리부와 다수의 인식부로 구성되는 시스템도이다.
도 4는 상기 도 3에 도시된 다수의 전처리부와 다수의 인식부로 구성되는 시스템의 동작 순서도.
도 5는 본 발명의 또 다른 실시예로 하나의 전처리부와 1차 및 2차 인식부로 구성되는 시스템도.
도 6은 상기 도 5에 도시된 하나의 전처리부와 1차 및 2차 인식부로 구성되는 시스템의 동작 순서도.
<도면의 주요부분에 대한 부호의 설명>
음성인식 모듈 : 100 판단 모듈 : 200
음성입력 모듈 : 300 전처리부 : 110
인식부 : 120 아날로그/디지탈 변환기 : 320

Claims (14)

  1. 음성 신호를 입력받아 아날로그 신호를 디지털 신호로 변환해주는 음성 입력 모듈;
    상기 입력된 디지털 음성 신호의 특징을 분석하여 특징벡터를 추출하는 전처리부와, 상기 전처리부로부터 추출된 특징벡터와 외부환경 별로 각각 생성된 모델을 비교하여 음성인식 결과를 출력하는 다수의 인식부를 포함하는 음성인식 모듈; 및
    상기 다수의 인식부에서 출력한 다수의 음성인식 결과들 중 최적의 음성인식 결과를 결정하는 판단모듈을 포함하는데,
    상기 인식부는 상기 전처리부에서 추출된 특징벡터와 외부환경 별로 각각 생성된 모델을 비교하여 상기 추출된 특징벡터와 유사한 모델 후보를 출력하는 탐색부와, 상기 유사한 모델 후보의 출력 여부를 결정하는 후처리부를 포함하며,
    상기 판단모듈은 상기 인식부의 모델과 외부 환경을 반영하는 외부 제어 신호의 입력값과 유사한 정도에 따라 상기 각 인식부의 음성인식 결과에 서로 다른 가중치를 부여하고, 상기 가중치가 반영된 다수의 음성인식 결과들 중에서 최적의 음성인식 결과를 결정하는 것을 특징으로 하는 환경 적응형 다중 음성 인식 장치.
  2. 청구항 1항에 있어서, 상기 전처리부는 다수인 것을 특징으로 하는 환경 적응형 다중 음성인식 장치.
  3. 청구항 2항에 있어서, 상기 전처리부별로 서로 다른 특징벡터를 추출하는 것을 특징으로 하는 환경 적응형 다중 음성인식 장치.
  4. 삭제
  5. 삭제
  6. 청구항 1항에 있어서, 상기 판단 모듈은 다수의 음성인식 결과들 중 동일한 결과의 출력개수에 따라 최적의 음성인식 결과를 결정하는 것을 특징으로 하는 환경 적응형 다중 음성인식 장치.
  7. 삭제
  8. 삭제
  9. 삭제
  10. 음성 신호가 입력되면 아날로그 디지털 변환기를 통해 디지털 변환기를 통해 디지털 신호로 변환하는 단계;
    상기 입력된 디지털 음성 신호의 특징을 분석하여 특징벡터를 추출하는 단계;
    상기 추출된 특징벡터와 외부환경 별로 각각 생성된 모델을 비교하여, 상기 추출된 특징벡터와 유사한 다수의 모델 후보들을 출력하는 단계;
    상기 인식부의 모델과 외부 환경을 반영하는 외부 제어 신호의 입력값과 유사한 정도에 따라 상기 각 인식부의 음성인식 결과에 서로 다른 가중치를 부여하는 단계; 및
    상기 가중치가 반영된 다수의 음성인식 결과들 중에서 최적의 음성인식 결과를 결정하는 단계로 구성되는 것을 특징으로 하는 환경 적응형 음성 인식 방법.
  11. 삭제
  12. 청구항 10항에 있어서,
    상기 가중치가 반영된 다수의 음성인식 결과들 중에서 최적의 음성인식 결과를 결정하는 단계는,
    상기 다수의 음성인식 결과들 중 동일한 결과의 출력개수에 따라 음성인식 결과를 판단하는 판단 알고리즘에 적용하여 최적의 음성 결과를 결정하는 것을 특징으로 하는 환경 적응형 음성 인식 방법.
  13. 삭제
  14. 삭제
KR10-2002-0043884A 2002-07-25 2002-07-25 환경 적응형 다중 음성인식 장치 및 음성인식 방법 KR100504982B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR10-2002-0043884A KR100504982B1 (ko) 2002-07-25 2002-07-25 환경 적응형 다중 음성인식 장치 및 음성인식 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2002-0043884A KR100504982B1 (ko) 2002-07-25 2002-07-25 환경 적응형 다중 음성인식 장치 및 음성인식 방법

Publications (2)

Publication Number Publication Date
KR20040010860A KR20040010860A (ko) 2004-02-05
KR100504982B1 true KR100504982B1 (ko) 2005-08-01

Family

ID=37319203

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2002-0043884A KR100504982B1 (ko) 2002-07-25 2002-07-25 환경 적응형 다중 음성인식 장치 및 음성인식 방법

Country Status (1)

Country Link
KR (1) KR100504982B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020096078A1 (ko) * 2018-11-06 2020-05-14 주식회사 시스트란인터내셔널 음성인식 서비스를 제공하기 위한 방법 및 장치

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100738341B1 (ko) * 2005-12-08 2007-07-12 한국전자통신연구원 성대신호를 이용한 음성인식 장치 및 그 방법
KR100776803B1 (ko) * 2006-09-26 2007-11-19 한국전자통신연구원 다채널 퍼지 융합을 통한 지능형 로봇의 화자 인식 장치 및그 방법
US8364481B2 (en) 2008-07-02 2013-01-29 Google Inc. Speech recognition with parallel recognition tasks
KR101012142B1 (ko) * 2010-03-08 2011-02-07 전재성 온라인 기반의 조화 서비스 시스템 및 방법
KR102146524B1 (ko) * 2018-09-19 2020-08-20 주식회사 포티투마루 음성 인식 학습 데이터 생성 시스템, 방법 및 컴퓨터 프로그램
KR102281602B1 (ko) 2019-08-21 2021-07-29 엘지전자 주식회사 사용자의 발화 음성을 인식하는 인공 지능 장치 및 그 방법

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0683388A (ja) * 1992-09-04 1994-03-25 Fujitsu Ten Ltd 音声認識装置
JPH0836480A (ja) * 1994-07-22 1996-02-06 Hitachi Ltd 情報処理装置
JPH08202388A (ja) * 1995-01-24 1996-08-09 Omron Corp 音声認識装置及び音声認識方法
JPH08286695A (ja) * 1995-01-25 1996-11-01 Omron Corp 音声認識装置および音声認識方法
JPH09134193A (ja) * 1995-11-08 1997-05-20 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置
US5754978A (en) * 1995-10-27 1998-05-19 Speech Systems Of Colorado, Inc. Speech recognition system
US6292779B1 (en) * 1998-03-09 2001-09-18 Lernout & Hauspie Speech Products N.V. System and method for modeless large vocabulary speech recognition
US20020091518A1 (en) * 2000-12-07 2002-07-11 Amit Baruch Voice control system with multiple voice recognition engines

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0683388A (ja) * 1992-09-04 1994-03-25 Fujitsu Ten Ltd 音声認識装置
JPH0836480A (ja) * 1994-07-22 1996-02-06 Hitachi Ltd 情報処理装置
JPH08202388A (ja) * 1995-01-24 1996-08-09 Omron Corp 音声認識装置及び音声認識方法
JPH08286695A (ja) * 1995-01-25 1996-11-01 Omron Corp 音声認識装置および音声認識方法
US5754978A (en) * 1995-10-27 1998-05-19 Speech Systems Of Colorado, Inc. Speech recognition system
JPH09134193A (ja) * 1995-11-08 1997-05-20 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置
US6292779B1 (en) * 1998-03-09 2001-09-18 Lernout & Hauspie Speech Products N.V. System and method for modeless large vocabulary speech recognition
US20020091518A1 (en) * 2000-12-07 2002-07-11 Amit Baruch Voice control system with multiple voice recognition engines

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020096078A1 (ko) * 2018-11-06 2020-05-14 주식회사 시스트란인터내셔널 음성인식 서비스를 제공하기 위한 방법 및 장치
CN113016030A (zh) * 2018-11-06 2021-06-22 株式会社赛斯特安国际 提供语音识别服务的方法及装置

Also Published As

Publication number Publication date
KR20040010860A (ko) 2004-02-05

Similar Documents

Publication Publication Date Title
JP2963142B2 (ja) 信号処理方法
US5218668A (en) Keyword recognition system and method using template concantenation model
US7089184B2 (en) Speech recognition for recognizing speaker-independent, continuous speech
US5873061A (en) Method for constructing a model of a new word for addition to a word model database of a speech recognition system
JP2559998B2 (ja) 音声認識装置及びラベル生成方法
US20110054892A1 (en) System for detecting speech interval and recognizing continuous speech in a noisy environment through real-time recognition of call commands
US6553342B1 (en) Tone based speech recognition
WO2021030918A1 (en) User-defined keyword spotting
US5101434A (en) Voice recognition using segmented time encoded speech
KR100504982B1 (ko) 환경 적응형 다중 음성인식 장치 및 음성인식 방법
KR100391123B1 (ko) 피치 단위 데이터 분석을 이용한 음성인식 방법 및 시스템
EP0177854B1 (en) Keyword recognition system using template-concatenation model
KR100480506B1 (ko) 음성 인식 방법
KR20180057315A (ko) 자연어 발화 음성 판별 시스템 및 방법
JPH0997095A (ja) 音声認識装置
KR100677224B1 (ko) 안티워드 모델을 이용한 음성인식 방법
KR100382473B1 (ko) 음성 인식 방법
KR100349341B1 (ko) 유사단어 및 문장 인식시의 인식율 개선 방법
JPS62111295A (ja) 音声認識装置
Fanty et al. Neural networks for alphabet recognition
KR20040100592A (ko) 이동 기기에서의 실시간 화자독립가변어 음성인식 방법
JPH06100920B2 (ja) 音声認識装置
JPH04271397A (ja) 音声認識装置
JPH0449719B2 (ko)
JPH10274994A (ja) 類似単語識別方法およびその装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
N231 Notification of change of applicant
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee