KR20210052564A

KR20210052564A - 빅 데이터를 이용한 최적의 언어 모델 생성 방법 및 이를 위한 장치

Info

Publication number: KR20210052564A
Application number: KR1020217011946A
Authority: KR
Inventors: 황명진; 지창진
Original assignee: 주식회사 엘솔루
Priority date: 2018-11-05
Filing date: 2018-11-05
Publication date: 2021-05-10
Also published as: WO2020096073A1; US20220005462A1; CN112997247A

Abstract

본 발명의 일 양상은, 음성 인식 방법에 있어서, 음성 신호를 입력 받고, 상기 음성 신호를 음성 데이터로 전환하는 단계; 상기 음성 데이터를 초기 음성 인식 모델을 이용해 인식하여 초기 음성 인식 결과를 생성하는 단계; 빅 데이터에서 상기 초기 음성 인식 결과를 검색하여, 상기 초기 음성 인식 결과와 동일한 및/또는 유사한 데이터를 수집하는 단계; 상기 수집한 동일 및/또는 유사한 데이터를 이용해 음성 인식 모델을 생성 또는 업데이트하는 단계; 및 상기 생성 또는 업데이트된 음성 인식 모델을 이용해 상기 음성 데이터를 재인식하고, 최종 음성 인식 결과를 생성하는 단계; 를 포함할 수 있다.

Description

빅 데이터를 이용한 최적의 언어 모델 생성 방법 및 이를 위한 장치

본 발명은 음성 인식 정확도가 향상된 언어 모델 생성 방법 및 이를 위한 장치에 관한 것이다.

자동 음성 인식 기술은 음성을 문자로 변환해주는 기술이다. 이 기술은 최근 들어 급격한 인식율의 향상이 이뤄졌다. 인식율은 향상되었지만 음성 인식기의 어휘 사전에 없는 단어는 음성 인식기가 여전히 인식할 수 없으며, 그 결과 해당 단어는 잘못된 다른 어휘로 오인식된다는 문제점이 발생한다. 현재까지의 기술로 이렇듯 오인식되는 문제의 해결 방안으로는 어휘사전에 해당 어휘를 포함시키는 방법밖에 없는 실정이다.

그러나, 끊임없이 새로운 단어/어휘가 생성되는 현 시점에서 이러한 방식은 결국 음성 인식 정확도의 저하로 이어진다.

본 발명의 목적은, 끊임없이 새로 생성되는 어휘를 언어 모델에 자동으로/실시간으로 반영하기 위한 효율적인 방법을 제안하기 위함이다.

본 발명에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

또한, 상기 동일한 및/또는 유사한 데이터를 수집하는 단계는, 상기 음성 데이터와 관련된 데이터를 수집하는 단계; 를 더 포함할 수 있다.

또한, 상기 관련된 데이터는, 상기 음성 인식 결과의 단어나 문자열 혹은 유사 발음열을 포함하는 문장이나 문서, 및/또는 상기 빅 데이터 내에서 상기 음성 데이터와 동일한 카테고리로 분류된 데이터를 포함할 수 있다.

또한, 상기 음성 인식 모델을 생성 또는 업데이트하는 단계는, 상기 수집한 동일 및/또는 유사한 데이터에 추가로 별도로 정의된 보조 언어 데이터를 이용하여 상기 음성 인식 모델을 생성 또는 업데이트하는 단계일 수 있다.

또한, 본 발명의 다른 양상은, 음성 인식 장치에 있어서, 음성을 입력받는 음성 입력부; 데이터를 저장하는 메모리; 및 음성 신호를 입력 받고, 상기 음성 신호를 음성 데이터로 전환하고, 상기 음성 데이터를 초기 음성 인식 모델을 이용해 인식하여 초기 음성 인식 결과를 생성하고, 빅 데이터에서 상기 초기 음성 인식 결과를 검색하여, 상기 초기 음성 인식 결과와 동일한 및/또는 유사한 데이터를 수집하고, 상기 수집한 동일 및/또는 유사한 데이터를 이용해 음성 인식 모델을 생성 또는 업데이트하고, 상기 생성 또는 업데이트된 음성 인식 모델을 이용해 상기 음성 데이터를 재인식하고, 최종 음성 인식 결과를 생성하는, 프로세서; 를 포함할 수 있다.

또한, 상기 프로세서는, 상기 동일한 및/또는 유사한 데이터를 수집하는 경우, 상기 음성 데이터와 관련된 데이터를 수집할 수 있다.

또한, 상기 프로세서는, 상기 음성 인식 모델을 생성 또는 업데이트하는 경우, 상기 수집한 동일 및/또는 유사한 데이터에 추가로 별도로 정의된 보조 언어 데이터를 이용하여 상기 음성 인식 모델을 생성 또는 업데이트할 수 있다.

본 발명의 실시예에 따르면, 음성 인식 시스템에 등록되어 있지 않은 새로운 단어/어휘 등으로 인해 발생할 수 있는 음성 인식기의 오인식을 방지할 수 있다.

본 발명에 관한 이해를 돕기 위해 상세한 설명의 일부로 포함되는, 첨부 도면은 본 발명에 대한 실시예를 제공하고, 상세한 설명과 함께 본 발명의 기술적 특징을 설명한다.
도 1은 본 발명의 일 실시예에 따른 음성인식장치의 블록도이다.
도 2는 일 실시예에 따른 음성 인식 장치를 예시한 도면이다.
도 3은 본 발명의 일 실시예에 따른 음성인식방법을 예시한 순서도이다.

이하, 본 발명에 따른 바람직한 실시 형태를 첨부된 도면을 참조하여 상세하게 설명한다. 첨부된 도면과 함께 이하에 개시될 상세한 설명은 본 발명의 예시적인 실시형태를 설명하고자 하는 것이며, 본 발명이 실시될 수 있는 유일한 실시 형태를 나타내고자 하는 것이 아니다. 이하의 상세한 설명은 본 발명의 완전한 이해를 제공하기 위해서 구체적 세부사항을 포함한다. 그러나, 당 업자는 본 발명이 이러한 구체적 세부사항 없이도 실시될 수 있음을 안다.

몇몇 경우, 본 발명의 개념이 모호해지는 것을 피하기 위하여 공지의 구조 및 장치는 생략되거나, 각 구조 및 장치의 핵심 기능을 중심으로 한 블록도 형식으로 도시될 수 있다.

도 1은 본 발명의 일 실시예에 따른 음성인식장치의 블록도이다.

도 1을 참조하면, 음성인식장치(100)는 사용자의 음성을 입력받는 음성입력부(110), 인식된 음성관련 다양한 데이터를 저장하는 메모리(120) 및 입력된 사용자의 음성을 처리하는 프로세서(130) 중 적어도 하나를 포함할 수 있다.

음성입력부(110)는 마이크로폰(microphone)을 포함할 수 있고, 사용자의 발화(utterance)된 음성이 입력되면 이를 전기적 신호로 변환하여 프로세서(130)로 출력한다.

프로세서(130)는 음성입력부(110)로부터 수신한 신호에 음성인식(speech recognition) 알고리즘 또는 음성인식 엔진(speech recognition engine)을 적용하여 사용자의 음성데이터를 획득할 수 있다.

이때, 프로세서(130)로 입력되는 신호는 음성인식을 위한 더 유용한 형태로 변환될 수 있으며, 프로세서(130)는 입력된 신호를 아날로그 형태에서 디지털 형태로 변환하고, 음성의 시작과 끝지점을 검출하여 음성데이터에 포함된 실제 음성구간/데이터를 검출할 수 있다. 이를 EPD(End Point Detection)라 한다.

그리고, 프로세서(130)는 검출된 구간 내에서 켑스트럼(Cepstrum), 선형예측코딩(Linear Predictive Coefficient: LPC), 멜 프리퀀시 켑스트럼(Mel Frequency Cepstral Coefficient: MFCC) 또는 필터뱅크 에너지(Filter Bank Energy) 등의 특징벡터 추출 기술을 적용하여 신호의 특징벡터를 추출할 수 있다.

프로세서(130)는 데이터를 저장하는 메모리(120)를 이용하여 음성데이터의 끝지점에 관한 정보 및 특징벡터를 저장할 수 있다.

메모리(120)는 플래시메모리(flash memory), 하드디크스(hard disc), 메모리카드, 롬(ROM:Read-OnlyMemory), 램(RAM:Random Access Memory), 메모리카드, EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기메모리, 자기디스크, 광디스크 중 적어도 하나의 저장매체를 포함할 수 있다.

그리고, 프로세서(130)는 추출된 특징벡터와 훈련된 기준패턴과의 비교를 통하여 인식결과를 얻을 수 있다. 이를 위해, 음성의 신호적인 특성을 모델링하여 비교하는 음성인식모델과 인식어휘에 해당하는 단어나 음절 등의 언어적인 순서관계를 모델링하는 언어모델(Language Model)이 사용될 수 있다.

음성인식모델은 다시 인식대상을 특징벡터 모델로 설정하고 이를 음성데이터의 특징벡터와 비교하는 직접비교방법과 인식대상의 특징벡터를 통계적으로 처리하여 이용하는 통계방법으로 나뉠 수 있다.

직접비교방법은 인식대상이 되는 단어, 음소 등의 단위를 특징벡터모델로 설정하고 입력음성이 이와 얼마나 유사한지를 비교하는 방법으로서, 대표적으로 벡터양자화(Vector Quantization) 방법이 있다. 벡터 양자화 방법에 의하면 입력된 음성데이터의 특징벡터를 기준모델인 코드북(codebook)과 매핑시켜 대표값으로 부호화함으로써 이 부호값들을 서로 비교하는 방법이다.

통계적모델 방법은 인식대상에 대한 단위를 상태열(State Sequence)로 구성하고 상태열간의 관계를 이용하는 방법이다. 상태열은 복수의 노드(node)로 구성될 수 있다. 상태열 간의 관계를 이용하는 방법은 다시 동적시간 와핑(Dynamic Time Warping: DTW), 히든마르코프모델(Hidden Markov Model: HMM), 신경회로망을 이용한 방식 등이 있다.

동적시간 와핑은 같은 사람이 같은 발음을 해도 신호의 길이가 시간에 따라 달라지는 음성의 동적 특성을 고려하여 기준모델과 비교할 때 시간축에서의 차이를 보상하는 방법이고, 히든마르코프모델은 음성을 상태천이확률 및 각 상태에서의 노드(출력심볼)의 관찰확률을 갖는 마르코프프로세스로 가정한 후에 학습데이터를 통해 상태천이확률 및 노드의 관찰확률을 추정하고, 추정된 모델에서 입력된 음성이 발생할 확률을 계산하는 인식기술이다.

한편, 단어나 음절 등의 언어적인 순서관계를 모델링하는 언어모델은 언어를 구성하는 단위들간의 순서관계를 음성인식에서 얻어진 단위들에 적용함으로써 음향적인 모호성을 줄이고 인식의 오류를 줄일 수 있다. 언어모델에는 통계적언어 모델과 유한상태네트워크(Finite State Automata: FSA)에 기반한 모델이 있고, 통계적 언어모델에는 Unigram, Bigram, Trigram 등 단어의 연쇄확률이 이용된다.

프로세서(130)는 음성을 인식함에 있어 상술한 방식 중 어느 방식을 사용해도 무방하다. 예를 들어, 히든마르코프모델이 적용된 음성인식모델을 사용할 수도 있고, 음성인식모델과 언어모델을 통합한 N-best 탐색법을 사용할 수 있다. N-best 탐색법은 음성인식모델과 언어모델을 이용하여 N개까지의 인식결과후보를 선택한 후, 이들 후보의 순위를 재평가함으로써 인식성능을 향상시킬 수 있다.

프로세서(130)는 인식결과의 신뢰성을 확보하기 위해 신뢰도점수(confidence score)(또는'신뢰도'로 약칭될 수 있음)를 계산할 수 있다.

신뢰도점수는 음성인식결과에 대해서 그 결과를 얼마나 믿을 만한 것인가를 나타내는 척도로서, 인식된 결과인 음소나 단어에 대해서, 그외의 다른 음소나 단어로부터 그 말이 발화되었을 확률에 대한 상대값으로 정의할 수 있다. 따라서, 신뢰도점수는 0 에서 1 사이의 값으로 표현할 수도 있고, 0 에서 100 사이의 값으로 표현할 수도 있다. 신뢰도 점수가 미리 설정된 임계값(threshold)보다 큰 경우에는 인식결과를 인정하고, 작은 경우에는 인식결과를 거절(rejection)할 수 있다.

이 외에도, 신뢰도점수는 종래의 다양한 신뢰도점수 획득 알고리즘에 따라 획득될 수 있다.

프로세서(130)는 소프트웨어, 하드웨어 또는 이들의 조합을 이용하여 컴퓨터로 읽을 수 있는 기록매체 내에서 구현될 수 있다. 하드웨어적인 구현에 의하면, ASICs(Application Specific Integrated Circuits),DSPs(Digital Signal Processors), DSPDs(Digital Signal Processing Devices), PLDs(Programmable LogicDevices), FPGAs(Field Programmable Gate Arrays), 프로세서(processor), 마이크로컨트롤러(microcontrollers),마이크로프로세서(micro-processor) 등의 전기적인 유닛 중 적어도 하나를 이용하여 구현될 수 있다.

소프트웨어적인 구현에 의하면, 적어도 하나의 기능 또는 동작을 수행하는 별개의 소프트웨어 모듈과 함께 구현될 수 있고, 소프트웨어코드는 적절한 프로그램언어로 쓰여진 소프트웨어 어플리케이션에 의해 구현될 수 있다.

프로세서(130)는 이하에서 후술할 도 2 및 도 3에서 제안된 기능, 과정 및/또는 방법을 구현하며, 이하에서는 설명의 편의를 위해 프로세서(130)을 음성인식장치(100)와 동일시하여 설명한다.

도 2는 일 실시예에 따른 음성인식장치를 예시한 도면이다.

도 2를 참조하면, 음성인식장치는 음성데이터를 (초기/샘플) 음성인식모델로 인식하여 초기/샘플 음성 인식 결과를 생성할 수 있다. 여기서 (초기/샘플) 음성인식모델은 음성인식장치에 기생성/기저장되어 있는 음성인식모델 또는 초기/샘플 음성을 인식하기 위해 주 음성인식모델과는 별도로 기생성/기저장되어 있는 보조 음성인식모델을 의미할 수 있다.

음성인식장치는 빅 데이터로부터 상기 초기/샘플 음성 인식 결과와 동일/유사 데이터(연관 언어 데이터)를 수집할 수 있다. 이때, 음성인식장치는 동일/유사 데이터 수집/검색 시 상기 초기/샘플 음성 인식 결과뿐 아니라, 이와 관련된 다른 데이터(동일/유사한 카테고리의 다른 데이터)도 수집/검색할 수 있다.

상기의 빅데이터는 형식에 제약이 없으며, 인터넷 데이터일 수도 있고, 데이터 베이스일 수도 있고, 정형화되지 않은 대량의 텍스트일 수도 있다.

또한 상기 빅 데이터의 출처 및 획득 방법도 제약이 없으며, 웹 검색 엔진으로부터 얻을 수도 있고, 직접 웹 크롤을 하여 얻을 수도 있고, 기구축된 로컬이나 원격지의 데이터베이스에서 얻을 수도 있다.

또한, 상기의 유사 데이터는 초기 음성인식 결과와 유사하다고 판단하여 빅 데이터로부터 추출된 문서, 문단, 문장 혹은 부분 문장이 될 수 있다.

또한, 상기 유사 데이터 추출 시에 사용되는 유사도 판단은 상황에 맞는 적절한 방법을 쓰면 된다. 예를 들어 TF-IDF, Information gain, cosine similarity 등을 이용한 유사도 판단 식을 사용할 수도 있고, k-means 등을 이용한 클러스터링 방법을 사용할 수도 있다.

음성인식장치는 이렇게 수집한 언어 데이터와 보조 언어데이터를 이용하여 신규 음성인식모델을 생성(혹은 기생성/기저장되어 있는 음성인식모델을 업데이트)할 수 있다. 이때, 보조 언어데이터는 사용되지 않고 수집된 언어 데이터만 사용될 수도 있다. 이때 사용되는 보조 언어데이터는, 음성인식 훈련에 사용될 텍스트 데이터에 반드시 들어가야 하는 데이터 혹은 부족할 것으로 예상되는 데이터의 모음이다. 예를 들어, 강남구 주소 검색에 사용될 음성인식기면, 수집할 언어 데이터는 강남구의 주소 관련 데이터가 될 것이고, 보조 언어데이터는 '주소', '번지', '말해줘', '알려줘', '바꿔줘' 등이 될 것이다.

음성인식장치는 이렇게 생성/업데이트된 음성인식모델을 통해 입력받았던 음성 데이터를 재인식하여 최종 음성인식결과를 생성할 수 있다.

도 3은 본 발명의 일 실시예에 따른 음성 인식 방법을 예시한 순서도이다. 본 순서도와 관련하여 앞서 상술한 실시예/설명이 동일/유사하게 적용될 수 있으며, 중복되는 설명은 생략한다.

우선, 음성인식장치는 사용자로부터 음성을 입력받을 수 있다(S301). 음성인식장치는 입력된 음성(또는 음성 신호)를 음성 데이터로 변환하고 이를 저장할 수 있다.

다음으로, 음성인식장치는 음성 인식 모델로 음성 데이터를 인식하여 초기 음성 인식 결과를 생성할 수 있다(S302). 여기서 사용되는 음성 인식 모델은 음성인식장치에 기생성/기저장되어 있는 음성 인식 모델이거나, 초기 음성 인식 결과를 생성하기 위해 별도로 정의된/생성된 음성 인식 모델일 수 있다.

다음으로, 음성인식장치는 빅 데이터로부터 초기 음성 인식 결과와 동일 및/또는 유사한 데이터를 수집/검색할 수 있다(S303). 이때, 음성 인식 장치는 동일/유사 데이터 수집/검색 시 초기 음성 인식 결과뿐 아니라, 이와 관련된 다양한 다른 언어 데이터도 수집/검색할 수 있다. 예를 들어, 음성 인식 장치는 상기 관련된 데이터로서, 음성 인식 결과의 단어나 문자열 혹은 유사 발음열을 포함하는 문장이나 문서, 및/또는 빅 데이터 내에서 입력 음성 데이터와 동일한 카테고리로 분류된 데이터를 수집/검색할 수 있다.

다음으로, 음성인식장치는 수집한 데이터를 기반으로 음성 인식 모델을 생성 및/또는 업데이트할 수 있다(S304). 보다 상세하게는, 음성인식장치는 수집한 데이터를 기반으로 새로운 음성 인식 모델을 생성하거나, 기생성/기저장되어 있는 음성 인식 모델을 업데이트할 수 있다. 이를 위해, 보조 언어 데이터가 추가로 사용될 수 있다.

다음으로, 음성인식장치는 생성 및/또는 업데이트된 음성 인식 모델을 이용하여 입력받은 음성 데이터를 재인식할 수 있다(S305).

이렇듯 실시간으로 생성/업데이트된 음성 인식 모델을 기반으로 음성을 인식하기 때문에 음성 오인식 확률이 낮아지며, 음성 인식 정확도가 증가한다는 효과가 발생한다.

본 발명에 따른 실시예는 다양한 수단, 예를 들어, 하드웨어, 펌웨어(firmware), 소프트웨어 또는 그것들의 결합 등에 의해 구현될 수 있다. 하드웨어에 의한 구현의 경우, 본 발명의 일 실시예는 하나 또는 그 이상의 ASICs(application specific integrated circuits), DSPs(digital signal processors), DSPDs(digital signal processing devices), PLDs(programmable logic devices), FPGAs(field programmable gate arrays), 프로세서, 콘트롤러, 마이크로콘트롤러, 마이크로프로세서 등에 의해 구현될 수 있다.

펌웨어나 소프트웨어에 의한 구현의 경우, 본 발명의 일 실시예는 이상에서 설명된 기능 또는 동작들을 수행하는 모듈, 절차, 함수 등의 형태로 구현될 수 있다. 소프트웨어코드는 메모리에 저장되어 프로세서에 의해 구동될 수 있다. 상기 메모리는 상기 프로세서 내부 또는 외부에 위치하여, 이미 공지된 다양한 수단에 의해 상기 프로세서와 데이터를 주고받을 수 있다.

본 발명은 본 발명의 필수적 특징을 벗어나지 않는 범위에서 다른 특정한 형태로 구체화될 수 있음은 당 업자에게 자명하다. 따라서, 상술한 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.

본 발명은 다양한 음성인식 기술 분야에 적용될 수 있다.

본 발명은 미등록 어휘를 자동으로 즉각 반영하는 방법을 제공한다.

본 발명의 상기 특징으로 인해, 미등록 어휘에 대한 오인식을 방지할 수 있다. 미등록어휘로 인한 오인식 문제는 신규어휘가 발생할 수 있는 많은 음성인식 서비스에 적용할 수 있다.

Claims

음성 인식 방법에 있어서,
음성 신호를 입력 받고, 상기 음성 신호를 음성 데이터로 전환하는 단계;
상기 음성 데이터를 초기 음성 인식 모델을 이용해 인식하여 초기 음성 인식 결과를 생성하는 단계;
빅 데이터에서 상기 초기 음성 인식 결과를 검색하여, 상기 초기 음성 인식 결과와 동일한 및/또는 유사한 데이터를 수집하는 단계;
상기 수집한 동일 및/또는 유사한 데이터를 이용해 음성 인식 모델을 생성 또는 업데이트하는 단계; 및
상기 생성 또는 업데이트된 음성 인식 모델을 이용해 상기 음성 데이터를 재인식하고, 최종 음성 인식 결과를 생성하는 단계; 를 포함하는, 음성 인식 방법.
제 1 항에 있어서,
상기 동일한 및/또는 유사한 데이터를 수집하는 단계는, 상기 음성 인식 결과와 관련된 데이터를 수집하는 단계; 를 더 포함하는, 음성 인식 방법.
제 2 항에 있어서,
상기 관련된 데이터는,
상기 음성 인식 결과의 단어나 문자열 혹은 유사 발음열을 포함하는 문장이나 문서, 및/또는
상기 빅 데이터 내에서 상기 음성 데이터와 동일한 카테고리로 분류된 데이터를 포함하는, 음성 인식 방법.
제 1 항에 있어서,
상기 음성 인식 모델을 생성 또는 업데이트하는 단계는, 상기 수집한 동일 및/또는 유사한 데이터에 추가로 별도로 정의된 보조 언어 데이터를 이용하여 상기 음성 인식 모델을 생성 또는 업데이트하는 단계인, 음성 인식 방법.
음성 인식 장치에 있어서,
음성을 입력받는 음성 입력부;
데이터를 저장하는 메모리; 및
음성 신호를 입력 받고, 상기 음성 신호를 음성 데이터로 전환하고,
상기 음성 데이터를 초기 음성 인식 모델을 이용해 인식하여 초기 음성 인식 결과를 생성하고,
빅 데이터에서 상기 초기 음성 인식 결과를 검색하여, 상기 초기 음성 인식 결과와 동일한 및/또는 유사한 데이터를 수집하고,
상기 수집한 동일 및/또는 유사한 데이터를 이용해 음성 인식 모델을 생성 또는 업데이트하고,
상기 생성 또는 업데이트된 음성 인식 모델을 이용해 상기 음성 데이터를 재인식하고, 최종 음성 인식 결과를 생성하는, 프로세서; 를 포함하는, 음성 인식 장치.
제 5 항에 있어서,
상기 프로세서는,
상기 동일한 및/또는 유사한 데이터를 수집하는 경우, 상기 음성 데이터와 관련된 데이터를 수집하는, 음성 인식 장치.
제 6 항에 있어서,
상기 관련된 데이터는,
상기 음성 인식 결과의 단어나 문자열 혹은 유사 발음열을 포함하는 문장이나 문서, 및/또는
상기 빅 데이터 내에서 상기 음성 데이터와 동일한 카테고리로 분류된 데이터를 포함하는, 음성 인식 장치.
제 5 항에 있어서,
상기 프로세서는,
상기 음성 인식 모델을 생성 또는 업데이트하는 경우, 상기 수집한 동일 및/또는 유사한 데이터에 추가로 별도로 정의된 보조 언어 데이터를 이용하여 상기 음성 인식 모델을 생성 또는 업데이트하는, 음성 인식 장치.