KR100504982B1

KR100504982B1 - 환경 적응형 다중 음성인식 장치 및 음성인식 방법

Info

Publication number: KR100504982B1
Application number: KR10-2002-0043884A
Authority: KR
Inventors: 이병옥; 강원일; 이재경; 김상설; 홍성용
Original assignee: (주) 메카트론
Priority date: 2002-07-25
Filing date: 2002-07-25
Publication date: 2005-08-01
Also published as: KR20040010860A

Abstract

본 발명은 환경 적응형 다중 음성인식 장치 및 음성인식 방법에 관한 것으로서, 특히 서로 다른 인식방법을 가진 인식부를 다수 채용함으로써 정확하게 음성을 인식할 수 있는 다수의 음성 인식부로 구성된 음성인식 장치 및 음성인식 방법에 관한 것이다.

상기한 목적을 달성하기 위하여 본 발명은, 음성 신호를 입력받아 아날로그 신호를 디지털 신호로 변환해주는 음성입력 모듈과, 상기 입력된 디지털 음성 신호의 특징을 분석하여 특징벡터를 추출하는 전처리부와, 상기 전처리부로부터 추출된 특징벡터와 미리 저장된 모델을 비교하여 음성인식 결과를 출력하는 다수의 인식부를 포함하는 음성인식 모듈 및 상기 다수의 인식부에서 출력한 다수의 음성인식 결과들 중 최적의 음성인식 결과를 결정하는 판단 모듈로 구성되는 것을 특징으로 하는 다수의 음성 인식부로 구성된다.

상기한 구성의 본 발명에 의하면, 인식부를 다수 채용함으로써 다수개의 인식부가 각각의 음성인식 결과를 추출하고 그 인식 결과를 비교하여 최적의 음성 결과를 추출함으로써 보다 정확하게 음성인식 결과를 판단할 수 있는 잇점이 있다.

Description

환경 적응형 다중 음성인식 장치 및 음성인식 방법{SURROUNDING-CONDITION-ADAPTIVE VOICE RECOGNITION DEVICE INCLUDING MULTIPLE RECOGNITION MODULE AND THE METHOD THEREOF}

본 발명은 환경 적응형 다중 음성인식 장치 및 음성인식 방법에 관한 것으로서, 특히 서로 다른 인식알고리즘을 가진 음성 인식부를 다수 채용함으로써 정확하게 음성을 인식할 수 있는 음성인식 장치 및 음성인식 방법에 관한 것이다.

종래의 음성인식 장치는 음성인식 메모리에 인식대상을 미리 훈련을 통해 얻어진 모델들로 저장한 후, 입력된 음성에서 추출한 특징벡터와 상기 메모리에 저장된 값을 비교하여 그 결과를 인식하는 방식을 사용하였다.

그러나, 상기와 같은 음성인식 방법은 비슷한 음성이 입력될 경우 오인식할 가능성이 높으며, 하나의 인식단만을 구비하고 있어서 음성이 입력될 경우 인식된 결과들이 정확하게 인식된것인지 판단하기가 어려워 오인식할 가능성이 높다는 문제점이 있었다.

또한, 종래의 음성인식 장치는 미리 훈련에 의해 메모리에 저장한 모델과 비슷한 환경에서만 높은 인식률을 보이고 있을 뿐 급격하게 변화하는 주변 환경에서는 음성 인식률이 매우 낮다는 문제점이 있었다.

예를 들면, 조용한 환경에서 수집된 음성으로 훈련된 메모리의 경우 시끄러운 환경에서 사용하면 정확한 음성인식이 어렵다는 문제가 있다.

본 발명은 상기한 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은 서로 다른 거절알고리즘 또는 서로 다른 모델을 가진 인식부를 다수 채용함으로써 보다 정확하게 음성인식 결과를 추출할 수 있는 환경 적응형 다중 음성인식 장치 및 음성인식 방법을 제공하는 것이다.

본 발명의 다른 목적은 외부 환경을 반영하는 외부 제어 신호의 입력값에 따라 동일한 환경에서 추출된 음성인식 결과에 가중치를 부여하며, 동시에 급격한 환경 변화에 적응함으로써 보다 정확하게 음성을 인식할 수 있는 환경 적응형 다중 음성인식 장치 및 음성인식 방법을 제공하는 것이다.

또한, 음성 신호가 입력되면 아날로그/디지털 변환기를 통해 디지털 신호로 변환하는 단계와, 상기 입력된 디지털 음성 신호의 특징을 분석하여 특징벡터를 추출하는 단계와, 상기 특징벡터와 미리 저장된 모델을 비교하여 음성인식 결과를 출력하는 단계 및 상기 다수의 음성인식 결과들 중 최적의 음성인식 결과를 결정하는 단계로 구성되는 것을 특징으로 한다.

이하, 첨부한 도면들을 참조로 하여 본 발명의 바람직한 실시예를 상세히 설명한다.

도 1은 본 발명의 일 실시예로 하나의 전처리부와 다수의 인식부로 구성되는 시스템도로서, 음성을 입력하는 음성입력 모듈(300)과, 음성을 인식하는 음성인식 모듈(100)과, 다수의 음성인식 결과를 판단하는 판단 모듈(200)로 구성된다.

상기 음성입력 모듈(300)은 음성 신호를 입력받는 마이크(310)와 상기 입력받은 아날로그 음성 신호를 디지털 음성 신호로 변환해주는 아날로그/디지탈 변환기(320)로 구성된다.

상기 음성인식 모듈(100)은 상기 입력된 디지털 음성 신호의 특징을 분석하여 특징벡터를 추출하는 전처리부(110)와, 상기 전처리부(110)로부터 추출된 특징벡터와 훈련에 의해 메모리에 미리 저장된 모델을 비교하여 음성인식 결과를 출력하는 다수의 인식부(120)로 구성된다.

여기서, 상기 모델은 음소모델, 단어모델, 부가정보 등을 포함한다.

상기 전처리부(110)는 다수개로 구성될 수 있으며, 상기 전처리부(110)가 다수개로 구성될 경우 전처리부별로 각각의 특징벡터를 추출한다(하기 도 3참조). 여기서, 상기 특징벡터는 MFCC, PLP, LPCC 등의 형식 중 하나의 형식일 수 있다.

상기 인식부(120)는 탐색부 및 후처리부로 구성되며, 인식부들은 메모리에 저장된 동일한 모델을 사용한다. 물론, 처리방법에 따라 인식부별로 다른 모델을 포함할 수도 있다. 여기서, 상기 탐색부는 전처리부(110)에서 추출된 특징벡터와 메모리에 저장된 모델을 비교하여 음성인식 결과들을 후보로 출력하며, 상기 후처리부들은 거절 알고리즘에 따라 상기 다수의 후보들의 출력 여부를 결정한다. 상기 후처리부들은 서로 다른 거절 알고리즘을 가질 수도 있다.

상기 판단 모듈(200)은 다수의 인식부(120)에서 출력한 다수의 음성인식 결과들 중 최적의 음성인식 결과를 결정한다.

여기서, 상기 판단 모듈(200)은 다수의 음성인식 결과들 중 동일한 결과(단어 또는 음소 등)의 출력 개수에 따라 최적의 음성인식 결과를 결정하는 판단 알고리즘을 포함한다.

또한, 상기 판단 모듈(200)은 외부 환경을 반영하는 외부 제어 신호의 입력값에 따라 해당 인식부(120)의 음성인식 결과에 가중치를 부여하여 더욱 정확하게 음성인식 결과를 출력할 수 있게 한다.

도 2는 상기 도 1에 도시된 하나의 전처리부와 다수의 인식부로 구성되는 시스템의 동작 순서도이다.

마이크(310)를 통해 음성 신호가 입력되면, 아날로그/디지털 변환기(320)를 통해 아날로그 음성 신호가 디지털 음성 신호로 변환된다(S100). 전처리부(110)는 상기 입력된 디지털 음성 신호의 특징을 분석하여 특징벡터를 추출하고(S102), 인식부(120)는 상기 추출된 특징벡터와 메모리부에 미리 저장된 모델을 비교하여 음성인식 결과를 출력한다(S104).

상기 인식부(120)는 탐색부 및 후처리부로 구성되는데, 여기서 상기 탐색부는 메모리부에 미리 저장된 모델들과 상기 전처리부(110)에서 추출된 특징벡터를 비교하여 그 중 유사한 후보들을 출력하는 Viterbi 알고리즘으로 구성되어 있으며, 상기 후처리부는 거절 알고리즘에 따라 상기 다수의 후보들의 출력 여부를 결정하여 인식결과를 출력하고, 소정 기준 이하일 경우에는 인식결과를 출력하지 않는다.

상기 메모리부는, 음성인식 모듈(100) 및 음성인식 결정 모듈(200) 내부에 포함되거나, 상기 음성인식 모듈(100) 및 음성인식 결정 모듈(200) 외부에 별도의 하드디스크, ROM 등으로 구현될 수 있다. 여기서, 상기 메모리부는 음향모델, 언어모델, FSN 네트워크 및 사전(단어사전 및 음소사전 등) 등을 포함하고 있다.

또한, 상기 메모리부에 훈련에 의해 저장된 모델은 다양한 주변환경을 고려하여 훈련되어 있다.

상기 전처리부(110)와 인식부(120)의 음성인식처리 과정은 [표 1]과 같다.

전처리부	인식부
특징벡터	탐색부	후처리부
MFCC(PLP,LPCC 등)	Viterbi 알고리즘	거절 알고리즘 1의 처리
MFCC(PLP,LPCC 등)	Viterbi 알고리즘	거절 알고리즘 2의 처리
MFCC(PLP,LPCC 등)	Viterbi 알고리즘	거절 알고리즘 3의 처리
...	...	...
...	...	...

즉, 다수의 탐색부(Viterbi 알고리즘)는 메모리에 미리 저장된 탐색부별로 서로 다른 모델들과 상기 추출된 특징벡터를 비교/탐색하여 유사한 다수의 후보들을 출력하고, 후처리부는 거절 알고리즘에 따라 상기 다수의 후보들의 출력여부를 결정한다.

예를들면, 상기 각각의 거절 알고리즘들 중 거절 알고리즘 1은 다수개의 후보들의 인식결과를 나름대로 정한 신뢰도(confidence measure) 공식을 이용하여 인식된 결과들을 출력할지 여부를 판단하며, 거절 알고리즘 2는 상기 거절 알고리즘 1과는 다른 신뢰도 공식을 이용하여 인식된 결과들을 출력할지 여부를 판단한다.

이 후, 판단 모듈(200)은 상기 인식부(120)에서 추출된 다수의 음성인식 결과들 중 최적의 음성인식 결과를 최종 결정한다(S108). 여기서, 상기 판단 모듈(200)은 판단 알고리즘을 이용하여 상기 추출된 다수의 음성인식 결과들 중 최적의 음성인식 결과를 결정한다.

상기 판단 알고리즘은 [표 2]와 같다.

번호	결과의 출력개수	동일한 결과의 출력개수	판단
①	N	동일한 음소 개수= N	OK
②	N	동일한 음소 개수> N/2	OK
③	N	동일한 음소 개수= N/2	OK
④	N	동일한 음소 개수< N/2	거절

예를 들어, 상기 인식부(120)에서 추출된 음성인식 결과가 4개(N=4)인 경우, 음성인식 결과 출력 음소가 ①, ② 및 ③의 경우에는 정확한 음성인식 결과가 있다고 판단하며, 만일 음성인식 결과 출력이 ④의 경우에는 정확한 음성인식 결과가 없다고 판단한다. 여기서, 음성인식 결과는 a,b,c,d라 가정한다.

① 동일한 결과의 개수 = N인 경우

즉, 음성인식 결과로 동일한 음성인식 결과 a,a,a,a가 출력되면, 판단 모듈(210)은 최적의 음성인식 결과를 a라고 결정한다.

② 동일한 결과의 개수 > N/2인 경우

즉, 음성인식 결과로 동일한 음성인식 결과 a,a,a,b가 출력되면, 판단 모듈(210)은 최적의 음성인식 결과를 a라고 결정한다.

③ 동일한 결과의 개수 = N/2인 경우

즉, 음성인식 결과로 동일한 음성인식 결과 a,a,b,c가 출력되면, 판단 모듈(210)은 최적의 음성인식 결과를 a라고 결정한다.

만약, 음성인식 결과로 동일한 음성인식 결과 a,a,b,b가 출력되면, 판단 모듈(210)은 미리 정해놓은 기준에 따라 다시한번 최적의 음성인식 결과 판단하며, 이 경우에는 a 또는 b 중 어느 하나가 최적의 음성인식 결과로 결정된다.

④ 동일한 결과의 개수 < N/2인 경우

즉, 음성인식 결과로 동일한 음성인식 결과 a,b,c,d가 출력되면, 판단 모듈(210)은 최적의 음성인식 결과를 얻을 수 없다고 판단한다.

상기 판단 모듈(210)의 판단 알고리즘에 의해 최적의 음성인식 결과를 출력한다(S110).

한편, 상기 판단 모듈(210)은 최적의 음성인식 결과를 결정할때 외부 환경을 반영하는 외부 제어 신호의 입력값에 따라 동일한 환경에서 추출된 음성인식 결과에 가중치를 부여할 수 있으며(S106), 이로 인해 더욱 정확한 음성인식 결과를 출력할 수 있다.

예를 들어, 인식기 A, 인식기 B, 및 인식기 C에 있어서, 인식기 A는 시끄러운 환경에서 녹음된 모델을 포함하는 경우이고, 인식기 B는 일상적인 환경에서 녹음된 모델을 포함하는 경우이고, 인식기 C는 조용한 환경에서 녹음된 모델을 포함한 경우라고 가정하면, 가중치 W_a, W_b, 및 W_c는 [표 3]과 같이 부여된다.

	W_a	W_b	W_c
시끄러운 환경	2/3	1/3	0
일상적인 환경	1/3	1/3	1/3
조용한 환경	0	1/3	2/3

즉, 외부 제어 신호의 입력값이 시끄러운 환경일 경우, 인식기 A, 인식기 B및 인식기 C의 출력 결과값에 가중치 W_A, W_b 및W_c를 부여하는 것이다.

Output = W_a·A + W_b·B + W_c·C ---- (1)

상기 식(1)에 따라 가중치를 계산하면,

Output = ⅔·A + ⅓·B + 0·C

= ⅔·A + ⅓·B

따라서, 환경에 맞는 정확한 음성인식 결과를 출력할 수 있어 최적의 음성인식 결과를 결정할 수 있다.

도 3은 본 발명의 다른 실시예로 다수의 전처리부와 다수의 인식부로 구성되는 시스템도이다.

음성인식 모듈(100)이 다수의 전처리부(110)로 구성된 경우, 상기 다수의 전처리부(110)를 통해 각각의 특징벡터를 추출할 수 있다. 여기서, 상기 다수의 전처리부(110)에서 추출된 특징벡터의 형식, 예를들면 MFCC, PLP, LPCC 등의 형식에 따라 지정된 인식부(120)가 상호 연결된다.

즉, 상기 시끄러운 주변환경을 고려한 전처리부(110a)에서 추출된 특징벡터는 동일한 환경인 시끄러운 주변환경을 고려한 인식부(120a)와 연결되는 방식이다.

도 3은 전처리부(110)의 개수가 다수라는 것 이외에는 상기 도 1과 동일한 음성인식 시스템 구조이므로 자세한 설명은 생략한다.

도 4는 상기 도 3에 도시된 다수의 전처리부와 다수의 인식부로 구성되는 시스템의 동작 순서도이다.

상기 다수의 전처리부(110)는 상기 입력된 디지털 음성 신호의 특징을 분석하여 각각의 특징벡터를 추출하고(S202), 인식부(120)는 상기 추출된 각각의 특징벡터와 메모리부에 미리 저장된 모델을 비교하여 음성인식 결과를 출력한다(S204). 여기서, 상기 다수의 전처리부(110)에서 추출된 특징벡터에 따라 지정된 인식부(120)가 상호 연결되며, 이로 인해 더욱 정확하게 음성인식을 할 수 있어 음성인식률을 극대화 할 수 있다.

도 4는 전처리부(110)가 다수개로 구성된다는 것을 제외하고는 상기 도 2의 음성인식 방법과 동일하므로 S204 내지 S210의 자세한 설명은 생략한다.

도 5는 본 발명의 또 다른 실시예로 하나의 전처리부와 1차 및 2차 인식부로 구성되는 시스템도로서, 음성을 입력하는 음성입력 모듈(300)과, 음성을 인식하는 음성인식 모듈(100)로 구성된다.

상기 음성인식 모듈(100)은 상기 입력된 디지털 음성 신호의 특징을 분석하여 특징벡터를 추출하는 전처리부(110)와, 상기 전처리부(110)로부터 추출된 특징벡터와 훈련에 의해 메모리에 저장된 모델을 비교하여 주변환경의 특성 및 부가정보(COMPLEMENTARY INFORMATION)를 파악하는 1차 인식부(121)와, 상기 1차 인식부(121)에서 파악한 주변환경 정보에 대응하는 모델을 이용하여 음성 신호를 분석하는 2차 인식부(122)로 구성된다. 여기서 상기 1차 인식부(121)는 주변환경의 특성을 파악하는 것을 목적으로 하며, 상기 2차 인식부(122)는 음향모델, FSN 네트워크, 부가정보 및 사전 등을 이용하여 음성 신호를 분석한다. 여기서 부가정보란 음소나 단어의 지속시간, U/V/S(보이스, 언보이스, SILENCE) 등의 정보를 말한다.

또한, 상기 전처리부(110)에서 주변환경의 특성을 파악할 수도 있다.

도 6은 상기 도 5에 도시된 하나의 전처리부와 1차 및 2차 인식부로 구성되는 시스템의 동작 순서도이다.

마이크(310)를 통해 음성 신호가 입력되면, 아날로그/디지털 변환기(320)를 통해 아날로그 음성 신호가 디지털 음성 신호로 변환된다(S300). 전처리부(110)는 상기 입력된 디지털 음성 신호의 특징을 분석하여 특징벡터를 추출하고(S302), 1차 인식부(121)는 상기 추출된 특징벡터와 메모리에 저장된 모델을 비교하여 주변환경의 특성을 파악한다(S304).

여기서, 상기 모델은 시끄러운 환경, 일상적인 환경 및 아주 조용한 환경 등 세분화된 환경으로 구분되며, 이에 따라 상기 추출된 특징벡터의 주변환경이 어떠한 환경인가를 판단할 수 있다.

상기 판단된 주변환경 정보에 따라 2차 인식부(122)는 해당 주변환경과 유사한 환경의 모델을 이용하여 음성인식 결과를 출력한다(S306).

여기서, 상기 2차 인식부(122)는 음향모델, 언어모델, 부가정보 및 사전 등을 이용하여 음성 신호를 분석할 수도 있다.

예를 들어, 상기 전처리부(110)에서 추출된 특징벡터의 주변환경이 상기 1차 인식부(121)를 통해 일상적인 주변환경이라고 판단되면, 상기 2차 인식부(122)는 미리 저장된 모델들 중 일상적인 주변환경으로 훈련된 모델로만 음성인식을 수행함으로 음성을 인식하는 속도를 향상시킬 수 있다.

한편, 상기 전처리부(110)에서 1차 인식부(121)의 기능을 수행하여 주변환경 정보를 추출할 수도 있다. 여기서, 상기 전처리부(110)는 음성 신호의 에너지 양이나, 영점통과 횟수를 분석하여 상기 음성 신호가 음성 신호 구간인지 비음성 신호 구간인지를 구별한다.

이상에서 본 발명에 대해 상세히 기술하였지만, 본 발명이 속하는 기술분야에 있어서 통상의 지식을 가진 사람이라면, 첨부된 청구범위에 정의된 본 발명의 정신 및 범위를 벗어나지 않으면서 본 발명을 여러 가지로 변형 또는 변경하여 실시할 수 있음은 자명하며, 따라서 본 발명의 실시예에 따른 단순한 변경은 본 발명의 기술을 벗어날 수 없을 것이다.

상기한 구성의 본 발명에 의하면, 인식부를 다수 채용함으로써 다수개의 인식부가 각각의 음성인식 결과를 추출하고 그 인식 결과를 상호 비교하여 최적의 음성 결과를 추출함으로써 보다 정확하게 음성인식 결과를 판단할 수 있는 잇점이 있다.

그리고, 외부 환경을 반영하는 외부 제어 신호의 입력값에 따라 동일한 환경에서 추출된 음성인식 결과에 가중치를 부여하여 최적의 음성인식 결과를 결정함으로 보다 정확하게 음성인식 결과를 결정할 수 있는 잇점이 있다.

또한, 다양한 주변환경에서 훈련된 모델을 이용함으로 어떠한 환경에서 음성이 입력되어도 정확하게 음성을 인식할 수 있는 잇점이 있다.

도 1은 본 발명의 일 실시예로 하나의 전처리부와 다수의 인식부로 구성되는 시스템도.

도 2는 상기 도 1에 도시된 하나의 전처리부와 다수의 인식부로 구성되는 시스템의 동작 순서도.

도 4는 상기 도 3에 도시된 다수의 전처리부와 다수의 인식부로 구성되는 시스템의 동작 순서도.

도 5는 본 발명의 또 다른 실시예로 하나의 전처리부와 1차 및 2차 인식부로 구성되는 시스템도.

도 6은 상기 도 5에 도시된 하나의 전처리부와 1차 및 2차 인식부로 구성되는 시스템의 동작 순서도.

<도면의 주요부분에 대한 부호의 설명>

음성인식 모듈 : 100 판단 모듈 : 200

음성입력 모듈 : 300 전처리부 : 110

인식부 : 120 아날로그/디지탈 변환기 : 320

Claims

음성 신호를 입력받아 아날로그 신호를 디지털 신호로 변환해주는 음성 입력 모듈;

상기 입력된 디지털 음성 신호의 특징을 분석하여 특징벡터를 추출하는 전처리부와, 상기 전처리부로부터 추출된 특징벡터와 외부환경 별로 각각 생성된 모델을 비교하여 음성인식 결과를 출력하는 다수의 인식부를 포함하는 음성인식 모듈; 및

상기 다수의 인식부에서 출력한 다수의 음성인식 결과들 중 최적의 음성인식 결과를 결정하는 판단모듈을 포함하는데,

상기 인식부는 상기 전처리부에서 추출된 특징벡터와 외부환경 별로 각각 생성된 모델을 비교하여 상기 추출된 특징벡터와 유사한 모델 후보를 출력하는 탐색부와, 상기 유사한 모델 후보의 출력 여부를 결정하는 후처리부를 포함하며,

상기 판단모듈은 상기 인식부의 모델과 외부 환경을 반영하는 외부 제어 신호의 입력값과 유사한 정도에 따라 상기 각 인식부의 음성인식 결과에 서로 다른 가중치를 부여하고, 상기 가중치가 반영된 다수의 음성인식 결과들 중에서 최적의 음성인식 결과를 결정하는 것을 특징으로 하는 환경 적응형 다중 음성 인식 장치.
청구항 1항에 있어서, 상기 전처리부는 다수인 것을 특징으로 하는 환경 적응형 다중 음성인식 장치.
청구항 2항에 있어서, 상기 전처리부별로 서로 다른 특징벡터를 추출하는 것을 특징으로 하는 환경 적응형 다중 음성인식 장치.
삭제
삭제
청구항 1항에 있어서, 상기 판단 모듈은 다수의 음성인식 결과들 중 동일한 결과의 출력개수에 따라 최적의 음성인식 결과를 결정하는 것을 특징으로 하는 환경 적응형 다중 음성인식 장치.
삭제
삭제
삭제
음성 신호가 입력되면 아날로그 디지털 변환기를 통해 디지털 변환기를 통해 디지털 신호로 변환하는 단계;

상기 입력된 디지털 음성 신호의 특징을 분석하여 특징벡터를 추출하는 단계;

상기 추출된 특징벡터와 외부환경 별로 각각 생성된 모델을 비교하여, 상기 추출된 특징벡터와 유사한 다수의 모델 후보들을 출력하는 단계;

상기 인식부의 모델과 외부 환경을 반영하는 외부 제어 신호의 입력값과 유사한 정도에 따라 상기 각 인식부의 음성인식 결과에 서로 다른 가중치를 부여하는 단계; 및

상기 가중치가 반영된 다수의 음성인식 결과들 중에서 최적의 음성인식 결과를 결정하는 단계로 구성되는 것을 특징으로 하는 환경 적응형 음성 인식 방법.
삭제
청구항 10항에 있어서,

상기 가중치가 반영된 다수의 음성인식 결과들 중에서 최적의 음성인식 결과를 결정하는 단계는,

상기 다수의 음성인식 결과들 중 동일한 결과의 출력개수에 따라 음성인식 결과를 판단하는 판단 알고리즘에 적용하여 최적의 음성 결과를 결정하는 것을 특징으로 하는 환경 적응형 음성 인식 방법.
삭제
삭제