KR102637339B1 - 음성 인식 모델을 개인화하는 방법 및 장치 - Google Patents

음성 인식 모델을 개인화하는 방법 및 장치 Download PDF

Info

Publication number
KR102637339B1
KR102637339B1 KR1020180103584A KR20180103584A KR102637339B1 KR 102637339 B1 KR102637339 B1 KR 102637339B1 KR 1020180103584 A KR1020180103584 A KR 1020180103584A KR 20180103584 A KR20180103584 A KR 20180103584A KR 102637339 B1 KR102637339 B1 KR 102637339B1
Authority
KR
South Korea
Prior art keywords
statistical information
recognition model
data
scaling
personalizing
Prior art date
Application number
KR1020180103584A
Other languages
English (en)
Other versions
KR20200025750A (ko
Inventor
권기수
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020180103584A priority Critical patent/KR102637339B1/ko
Priority to US16/351,612 priority patent/US11183174B2/en
Publication of KR20200025750A publication Critical patent/KR20200025750A/ko
Application granted granted Critical
Publication of KR102637339B1 publication Critical patent/KR102637339B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Abstract

일 실시예에 따른 음성 인식 모델을 개인화하는 방법 및 장치는 음성 인식을 위한 기본 모델에 결합된 제1 스케일링 벡터들의 통계 정보를 획득하고, 사용자의 발화 데이터를 획득하며, 사용자의 발화 데이터 및 통계 정보에 기초하여, 기본 모델에 결합된 제2 스케일링 벡터를 개인화함으로써 개인화된 음성 인식 모델을 생성한다.

Description

음성 인식 모델을 개인화하는 방법 및 장치{METHOD AND APPARATUS OF PERSONALIZING VOICE RECOGNITION MODEL}
아래의 실시예들은 음성 인식 모델을 개인화하는 방법 및 장치에 관한 것이다.
음성 인식 모델은 음성 인식을 수행하기 위한 모델로서, 입력된 사용자의 음성 입력을 인식하여 음성 인식 결과를 출력한다. 음성 인식은 음성 입력에 포함된 언어 정보를 음성 입력에 대응되는 텍스트 정보로 변환하는 과정이다. 음성 인식 모델은 음성 입력을 분석하여 음성 입력에 포함된 언어 정보가 어떠한 텍스트 정보를 나타내는지를 추정할 수 있다. 음성 입력은 음성 시퀀스의 형태를 가질 수 있다.
일 측에 따르면, 음성 인식 모델을 개인화하는 방법은 음성 인식을 위한 기본 모델에 결합된 제1 스케일링 벡터들(scaling vectors)의 통계 정보를 획득하는 단계; 사용자의 발화 데이터를 획득하는 단계; 및 상기 사용자의 발화 데이터 및 상기 통계 정보에 기초하여, 상기 기본 모델에 결합된 제2 스케일링 벡터를 개인화함으로써 개인화된 음성 인식 모델을 생성 하는 단계를 포함한다.
상기 제1 스케일링 벡터들은 복수의 화자들에 대응하고, 상기 제2 스케일링 벡터는 상기 사용자에 대응할 수 있다.
상기 개인화된 음성 인식 모델을 생성하는 단계는 상기 제2 스케일링 벡터를 초기화하는 단계; 및 상기 사용자의 발화 데이터 및 상기 통계 정보에 기초하여, 상기 제2 스케일링 벡터를 학습하는 단계를 포함할 수 있다.
상기 제2 스케일링 벡터를 학습하는 단계는 상기 사용자의 발화 데이터에 기초하여 제1 로스(loss)를 결정하는 단계; 상기 제1 로스 및 상기 통계 정보에 기초하여 제2 로스를 결정하는 단계; 및 상기 제2 로스에 기초하여 상기 제2 스케일링 벡터를 학습하는 단계를 포함할 수 있다.
상기 기본 모델은 복수의 레이어들을 포함하고, 상기 복수의 레이어들 중 적어도 일부의 레이어들 간에는 상기 제1 스케일링 벡터들이 결합될 수 있다.
상기 통계 정보는 복수의 화자들에 대응하는 상기 제1 스케일링 벡터들을 가우시안 분포에 의해 근사하여 생성한 평균과 분산을 포함할 수 있다.
상기 개인화된 음성 인식 모델을 생성하는 단계는 상기 발화 데이터에 기초하여, 상기 통계 정보의 반영율을 결정하는 단계; 및 상기 반영율에 따라 상기 기본 모델의 로스 함수에 상기 통계 정보를 반영하여 상기 제2 스케일링 벡터들을 학습함으로써, 상기 개인화된 음성 인식 모델을 생성하는 단계를 포함할 수 있다.
상기 통계 정보의 반영율을 결정하는 단계는 상기 발화 데이터의 양에 기초하여 상기 통계 정보의 반영율을 조절하는 단계를 포함할 수 있다.
상기 개인화된 음성 인식 모델을 생성하는 단계는 상기 발화 데이터가 획득됨에 응답하여, 상기 제2 스케일링 벡터를 상기 발화 데이터에 기초하여 학습시키는 단계; 및 상기 제2 스케일링 벡터를 학습시키는 동안 상기 통계 정보를 고정하는 단계를 포함할 수 있다.
상기 음성 인식 모델을 개인화하는 방법은 상기 학습에 의해 상기 제2 스케일링 벡터가 변경되는 경우에 응답하여, 상기 통계 정보를 업데이트(update)하는 단계를 더 포함할 수 있다.
상기 음성 인식 모델을 개인화하는 방법은 상기 음성 인식 모델을 이용하여 상기 사용자의 음성을 인식하는 단계를 더 포함할 수 있다.
일 측에 따르면, 음성 인식 모델을 개인화하는 방법은 복수의 화자들에 대응하는 음성 데이터들을 이용하여 음성 인식을 위한 기본 모델을 생성하는 단계; 상기 음성 데이터들을 포함하는 데이터 세트들을 상기 기본 모델에 결합된 스케일링 벡터들에 적용하여 상기 스케일링 벡터들의 통계 정보를 생성하는 단계; 및 개인화된 음성 인식 모델을 생성하기 위하여, 상기 통계 정보를 제공하는 단계를 포함한다.
상기 통계 정보를 생성하는 단계는 상기 데이터 세트들을 이용하여 상기 기본 모델의 로스를 최소화하도록 상기 스케일링 벡터들을 학습함으로써 상기 스케일링 벡터들의 통계 정보를 생성하는 단계를 포함할 수 있다.
상기 통계 정보를 생성하는 단계는 상기 음성 데이터들에 기초하여 화자 별 데이터 세트들을 생성하는 단계; 상기 화자 별 데이터 세트들 각각을 이용하여 상기 스케일링 벡터들을 학습하는 단계; 및 상기 스케일링 벡터들의 학습 결과에 기초하여 상기 스케일링 벡터의 통계 정보를 생성하는 단계를 포함할 수 있다.
상기 음성 데이터들의 적어도 일부는 화자 식별자를 포함하고, 상기 화자 별 데이터 세트들을 생성하는 단계는 상기 음성 데이터들에 포함된 화자 식별자를 이용하여 각 화자 별 음성 데이터들을 구분하는 단계; 및 상기 각 화자 별 음성 데이터들을 이용하여 상기 화자 별로 데이터 세트들을 생성하는 단계를 포함할 수 있다.
상기 각 화자 별 음성 데이터들을 이용하여 상기 화자 별로 데이터 세트들을 생성하는 단계는 상기 화자 별 음성 데이터들 전부를 이용하여 하나의 데이터 세트를 생성하는 단계; 및 상기 화자 별 음성 데이터들 중 랜덤하게 선택된 일부 음성 데이터를 이용하여 하나의 데이터 세트를 생성하는 단계 중 적어도 하나를 포함할 수 있다.
상기 스케일링 벡터들을 학습하는 단계는 상기 화자 별 데이터 세트들을 이용하여 상기 기본 모델의 적어도 일부의 레이어에 대응하는 스케일링 벡터들을 학습하는 단계를 포함할 수 있다.
상기 스케일링 벡터들을 학습하는 단계는 상기 화자 별 데이터 세트들마다 독립적으로 상기 스케일링 벡터들을 학습하는 단계를 포함할 수 있다.
상기 통계 정보를 생성하는 단계는 상기 스케일링 벡터들을 가우시안 분포에 의해 근사하여 상기 스케일링 벡터들 각각의 평균과 분산을 생성하는 단계를 포함할 수 있다.
일 측에 따르면, 음성 인식 모델을 개인화하는 장치는 음성 인식을 위한 기본 모델에 결합된 제1 스케일링 벡터들의 통계 정보를 획득하는 통신 인터페이스; 사용자의 발화 데이터를 획득하는 센서; 및 상기 사용자의 발화 데이터 및 상기 통계 정보에 기초하여, 상기 기본 모델에 결합된 제2 스케일링 벡터를 개인화함으로써 개인화된 음성 인식 모델을 생성하는 프로세서를 포함한다.
도 1은 일 실시예에 따른 음성 인식을 위한 기본 모델을 설명하기 위한 도면.
도 2는 일 실시예에 따른 제1 스케일링 벡터들이 결합된 기본 모델을 설명하기 위한 도면.
도 3은 일 실시예에 따른 음성 인식 모델을 개인화하는 방법을 나타낸 흐름도.
도 4는 일 실시예에 따른 개인화된 음성 인식 모델을 생성하기 위하여 통계 정보를 제공하는 과정을 설명하기 위한 도면.
도 5는 일 실시예에 따른 통계 정보가 생성되는 과정을 설명하기 위한 도면.
도 6은 다른 실시예에 따른 음성 인식 모델을 개인화하는 방법을 나타낸 흐름도.
도 7은 일 실시예에 따라 음성 인식을 수행하는 과정을 설명하기 위한 도면.
도 8은 일 실시예에 따라 제2 스케일링 벡터를 학습하는 과정을 설명하기 위한 도면.
도 9는 일 실시예에 따른 음성 인식 모델을 개인화하는 장치의 블록도.
이하에서, 첨부된 도면을 참조하여 실시예들을 상세하게 설명한다. 그러나, 특허출원의 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.
아래 설명하는 실시예들에는 다양한 변경이 가해질 수 있다. 아래 설명하는 실시예들은 실시 형태에 대해 한정하려는 것이 아니며, 이들에 대한 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
실시예에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 실시예를 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.
도 1은 일 실시예에 따른 음성 인식을 위한 기본 모델을 설명하기 위한 도면이다. 음성 인식 장치는 주변의 소리를 수집하고, 수집된 주변의 소리로부터 디지털 전기 신호인 음성 신호를 획득하는 장치를 나타낼 수 있다. 예를 들어, 음성 인식 장치는 사람이 말하는 소리(sound)를 주변의 소리로서 수집할 수 있다. 음성 인식 장치는 주변의 소리로부터 해당 장치를 소유하는 사용자의 음성(voice)을 구별할 수 있다.
음성 인식 장치는 개별 사용자에 의해 소유되는 전자 장치일 수 있고, 예를 들어, 스마트폰, 스마트패드, 스마트밴드 등의 웨어러블 디바이스(wearable device), PDA(Personal Digital Assistance), 랩톱 등을 포함할 수 있다. 다른 예를 들어, 음성 인식 장치는 복수의 사용자들에 의해 공유되는 전자 장치일 수 있고, 예를 들어, 음성 인식 스피커, 음성 인식 TV 등을 포함할 수 있다.
음성 인식 장치는 사용자의 음성을 인식할 수 있다. 본 명세서에서 음성 인식(voice recognition)은 소리 신호에 포함된 사용자의 음성을 구별하는 동작 및/또는 사용자의 음성을 언어(language)로 변환하는 동작을 나타낼 수 있다. 예를 들어, 음성 인식은 사용자의 음성을 문자로 변환하는 동작을 나타낼 수 있다.
음성 인식 장치는 음성 신호를 인식하여, 음성 신호에 대응하는 텍스트 데이터를 생성할 수 있다. 음성 인식 장치는 사용자의 음성 신호를 수신할 수 있고, 수신된 음성 신호에 기초하여 음성 신호에 대응하는 텍스트 데이터를 생성할 수 있다. 음성 인식 장치는 음성 신호로부터 변환된 텍스트 데이터를 외부 장치로 전달할 수 있다. 음성 인식 장치에 의해 생성된 텍스트 데이터는 사용자에게 제공되는 다양한 서비스에 활용될 수 있다.
음성 인식을 위한 기본 모델(이하, '기본 모델')(100)은 음성 신호로부터 텍스트 데이터를 출력하도록 설계된 모델을 나타낼 수 있다. 기본 모델(100)은 음향 모델(acoustic model) 및 언어 모델(language model)을 포함할 수 있다. 본 명세서에서는 음성 인식 장치가 기본 모델(100)을 저장 또는 호출하고, 기본 모델(100)에 기초하여 사용자의 음성을 인식하는 실시예를 설명한다. 예를 들어, 음성 인식 장치는 음성 신호 또는 음성 신호로부터 변환된 특징 데이터를 이용하여 음성 인식을 수행할 수 있다.
음향 모델은 음성 신호로부터 추출된 특징으로부터 음성 신호를 음소(phoneme) 단위로 인식하는 모델을 나타낼 수 있다. 예를 들어, 음성 인식 장치는 음향 모델에 의해 획득된 음성 신호를 음소 단위로 인식한 결과에 기초하여, 음성 신호가 나타내는 단어들을 추정할 수 있다.
언어 모델은 단어들 사이의 연결 관계에 기초한 확률 정보를 획득하도록 설계된 모델을 나타낼 수 있다. 언어 모델은 언어 모델에 입력된 단어에 연결될 다음 단어에 대한 확률 정보를 제공할 수 있다. 예를 들어, 언어 모델에 "this"의 단어가 입력되는 경우, 언어 모델은 "this" 다음에 "is" 또는 "was"가 연결될 확률 정보를 제공할 수 있다. 일 실시예에 따르면, 음성 인식 장치는 언어 모델에 의해 제공된 확률 정보에 기초하여 가장 확률이 높은 단어들 간의 연결 관계를 선택하고, 선택 결과를 음성 인식 결과로서 출력할 수 있다.
아래에서는, 음향 모델과 연관된 기본 모델(100)의 동작을 주로 설명한다. 일 실시예에 따른 음향 모델은 뉴럴 네트워크, 예를 들어, GMM(Gaussian Mixture Model), DNN (Deep Neural Network) 또는 BLSTM (Bidirectional Long Short Term Memory) 등과 같이 다양한 구조로 구현될 수 있다. 음향 모델이 구현될 수 있는 기계 학습 구조를 상술한 바로 한정하는 것은 아니고, 하나 이상의 구조가 결합되는 형태로 구현될 수도 있다. 뉴럴 네트워크는 많은 수의 인공 뉴런(이하, 노드)들을 이용하여 생물학적인 시스템의 계산 능력을 모방하는 소프트웨어나 하드웨어로 구현된 인식 모델을 나타낼 수 있다. 뉴럴 네트워크는 인공 뉴런들을 통해 인간의 인지 작용이나 학습 과정(learning process)을 수행할 수 있다.
일 실시예에 따른 뉴럴 네트워크는 복수의 레이어를 포함할 수 있다. 예를 들어, 뉴럴 네트워크는 입력 레이어(미도시), 하나 이상의 히든 레이어(120) 및 출력 레이어(미도시)를 포함할 수 있다. 입력 레이어는 입력 데이터(예를 들어, 프레임(110))을 수신하여 히든 레이어(120)로 전달할 수 있고, 출력 레이어는 히든 레이어(120)의 노드들로부터 수신된 신호에 기초하여 출력 데이터를 생성할 수 있다.
하나 이상의 히든 레이어(120)가 입력 레이어 및 출력 레이어 사이에 연결될 수 있고, 음성 인식 시스템은 히든 레이어(120)를 통해 입력 데이터를 예측하기 쉬운 값으로 변환할 수 있다. 입력 레이어 및 하나 이상의 히든 레이어(120)에 포함된 노드들은 연결 가중치를 가지는 연결선을 통해 서로 연결될 수 있고, 히든 레이어(120) 및 출력 레이어에 포함된 노드들도 연결 가중치를 가지는 연결선을 통해 서로 연결될 수 있다. 뉴럴 네트워크 중에서 복수의 히든 레이어(120)를 포함하는 뉴럴 네트워크를 딥 뉴럴 네트워크(deep neural network)라 한다. 딥 뉴럴 네트워크를 학습시키는 것을 딥 러닝(deep learning)이라 한다. 뉴럴 네트워크의 노드 중에서, 히든 레이어(120)에 포함된 노드를 가리켜 히든 노드(121)라 한다.
입력 레이어, 하나 이상의 히든 레이어(120) 및 출력 레이어는 복수의 노드들을 포함할 수 있다. 히든 레이어(120)는 CNN(convolutional neural network)에서의 컨볼루션 필터(convolution filter) 또는 완전 연결 레이어(fully connected layer)이거나, 특별한 기능이나 특징을 기준으로 묶인 다양한 종류의 필터 또는 레이어일 수 있다.
음향 모델은, 예를 들어, RNN(recurrent neural network)으로 구현될 수 있다. RNN은 이전 프레임의 히든 레이어(120)의 출력 값이 현재 프레임의 히든 레이어(120)에 다시 입력되는 네트워크를 나타낼 수 있다. RNN은 이전의 출력들이 새로운 출력의 계산 결과에 영향을 줄 수 있다.
음성 인식 장치는 음성 시퀀스(101)를 복수의 프레임들로 분할하고, 분할된 프레임에 대응하는 발음(utterance)을 예측할 수 있다. 음성 인식 장치는 기본 모델(100)을 이용하여 음성 인식을 수행할 수 있다. 기본 모델(100)은 입력 레이어, 히든 레이어(120) 및 출력 레이어를 포함할 수 있다. 출력 레이어는 입력 레이어에 입력된 프레임(110)에 대해 예측된 발음 결과(150)를 출력할 수 있다. 예를 들어, 음성 인식 장치는 각 히든 레이어(120)에 이전 히든 레이어에 포함된 이전 히든 노드(121)의 출력들을 연결 가중치를 가지는 연결선들을 통해 입력할 수 있고, 이전 히든 노드(121)의 출력들에 연결 가중치가 적용된 값들 및 활성화 함수에 기초하여 히든 레이어(120)에 포함된 히든 노드(121)의 출력을 생성할 수 있다. 음성 인식 장치는 다음 히든 노드로 출력을 발화(fire)하기 위하여, 활성화 함수의 결과는 현재 히든 노드의 임계 값을 초과해야 한다. 이 경우, 노드는 입력 벡터들을 통하여 특정 임계 활성화 강도에 도달하기 전에는 다음 노드로 신호를 발화하지 않고, 비활성화 상태를 유지할 수 있다.
출력 레이어는 소프트맥스 레이어(softmax layer)일 수 있다. 일 실시예에 따르면, 출력 레이어는 전체 발음들의 수와 동일한 개수의 노드들을 포함할 수 있다. 출력 레이어의 각 노드는 입력된 프레임(110)이 특정 발음일 확률을 나타낼 수 있다.
아래에서는, 음성 인식 모델을 개인화하는 장치의 동작을 설명한다. 본 명세서에서 음성 인식 모델을 개인화하는 장치(이하, '개인화 장치')는 음성 인식 장치이거나 또는 음성 인식 장치에 포함된 별도의 장치일 수 있다.
도 2는 일 실시예에 따른 제1 스케일링 벡터들이 결합된 기본 모델을 설명하기 위한 도면이다. 도 2를 참조하면, 일 실시예에 따른 기본 모델에 결합된 제1 스케일링 벡터들(210-1, 210-2, .. 210-N)이 도시된다.
일 실시예에 따른 음성 인식을 위한 기본 모델을 생성하는 데에는 복수의 화자들에 대응하는 음성 데이터들이 이용될 수 있다. 제1 스케일링 벡터들(210-1, 210-2, .. 210-N)은 복수의 화자들에 대응될 수도 있고, 또는 각 국가별 또는 각 지역별 발음에 대응될 수도 있다.
전술한 바와 같이, 기본 모델은 복수의 레이어로 이루어져 있고, 각 레이어는 적게는 200개, 많게는 수 천 개의 유닛들(파라미터들)을 포함할 수 있다. 일반적으로 이러한 파라미터들이 하는 역할이 명확하지 않으며 어떠한 입력값으로부터 출력값까지 가는 중간 특징 벡터라고 생각 할 수 있다. 이러한 유닛들의 역할 또는 일반적인 값의 변화를 사전 지식으로 알 수 있다면, 적은 데이터만으로도 안정적으로 개인화를 위한 추가 학습을 진행할 수 있다.
일 실시예에서는 개인화를 위해 기본 모델의 중간에 하나 또는 그 이상의 제1 스케일링 벡터들(210-1, 210-2, .. 210-N)을 추가하고, 추가 데이터에 의해 제1 스케일링 벡터들(210-1, 210-2, .. 210-N)을 학습할 수 있다. 이때, 제1 스케일링 벡터들(210-1, 210-2, .. 210-N)을 대용량 데이터로 학습함으로써 수많은 개인화 벡터들(예를 들어, 스케일링 벡터들)을 구할 수가 있다. 일 실시예에서는 제2 스케일링 벡터들의 통계 특성을 실제 개인화 학습에 일정 가중치로 반영함으로써 적은 수의 추가 데이터로도 음성 인식 모델을 안정적으로 개인화할 수 있다.
일 실시예에서 '개인화'라는 개념은 정의하기에 따라 한 명의 화자의 목소리에 적응하는 것을 의미할 수도 있고, 예를 들어, 영어와 같이 각 국가별 또는 지역별 억양이 상이한 경우에 각 국가별 및/또는 각 지역별 발음에 적응하는 것을 의미할 수도 있다. 본 명세서에서 개인화는 전술한 두 가지를 모두 포함하되, 이하에서는 설명의 편의를 위하여 한 명의 화자에 적응하는 개인화를 주로 설명한다.
도 3은 일 실시예에 따른 음성 인식 모델을 개인화하는 방법을 나타낸 흐름도이다. 도 3을 참조하면, 일 실시예에 따른 개인화 장치는 복수의 화자들에 대응하는 음성 데이터들을 이용하여 음성 인식을 위한 기본 모델을 생성한다(310). 개인화 장치는 모든 화자 또는 모든 음성 특성에 적절한 음향 모델을 만들기 위해 대용량의 음성 데이터들을 이용해서 딥러닝 기반의 기본 모델을 생성할 수 있다. 이때, 음성 데이터들의 적어도 일부에는 화자 식별자가 표시될 수 있다. 또한, 기본 모델의 레이어들 및 활성화 함수 등에는 제한이 없다. 단계(310)에서 획득한 기본 모델은 이하의 모든 과정에서 변경없이 고정된 상태로 이용될 수 있다. 개인화 장치가 기본 모델을 생성하는 방법은 아래의 도 4를 참조하여 구체적으로 설명한다.
개인화 장치는 음성 데이터들을 포함하는 데이터 세트들을 기본 모델에 결합된 스케일링 벡터들(scaling vectors)에 적용하여 스케일링 벡터들의 통계 정보를 생성한다(320). 개인화 장치는 데이터 세트들을 이용하여 기본 모델의 로스(loss)을 최소화하도록 스케일링 벡터들(예를 들어, 제1 스케일링 벡터)을 학습함으로써 스케일링 벡터들의 통계 정보를 생성할 수 있다. 개인화 장치는 화자 별 데이터 세트들을 이용하여 기본 모델의 적어도 일부의 레이어에 대응하는 스케일링 벡터들을 학습할 수 있다. 보다 구체적으로, 개인화 장치가 통계 정보를 생성하는 과정은 다음과 같다.
개인화 장치는 우선, 음성 데이터들에 기초하여 화자 별 데이터 세트들을 생성할 수 있다. 개인화 장치는 예를 들어, 음성 데이터들에 포함된 화자 식별자를 이용하여 각 화자 별 음성 데이터들을 구분하고, 각 화자 별 음성 데이터들을 이용하여 화자 별로 데이터 세트들을 생성할 수 있다. 이때, 개인화 장치는 화자 별 음성 데이터들 전부를 이용하여 하나의 데이터 세트를 생성할 수도 있고, 화자 별 음성 데이터들 중 랜덤하게 선택된 일부 음성 데이터를 이용하여 하나의 데이터 세트를 생성할 수도 있다.
개인화 장치는 화자 별 데이터 세트들 각각을 이용하여 스케일링 벡터들을 학습할 수 있다. 개인화 장치는 예를 들어, 화자 별 데이터 세트들마다 독립적으로 스케일링 벡터들을 학습할 수 있다. 이때, 스케일링 벡터들의 개수는 데이터 세트들의 개수에 해당할 수 있다. 개인화 장치는 스케일링 벡터들의 학습 결과에 기초하여 스케일링 벡터의 통계 정보를 생성할 수 있다. 예를 들어, 한 화자(화자 A)의 음성 데이터가 1000 문장이고, 데이터 세트 하나의 크기를 10 문장이라고 하면, 개인화 장치는 한 화자에 대응하는 다수의 데이터 세트들을 생성할 수 있다. 이때, 한 화자에 대응하는 다수의 데이터 세트들은 음성 인식 모델의 개인화를 위한 데이터 세트들일 수 있다. 일 실시예에 따른 개인화 장치는 다양한 화자들 및 다양한 데이터 세트들 별로 개인화에 이용되는 스케일링 벡터들을 각각 학습함으로써 데이터 세트들의 개수만큼의 스케일링 벡터들을 구할 수 있다.
개인화 장치는 스케일링 벡터들을 다양한 방식으로 통계 처리하여 통계 정보를 생성할 수 있다. 개인화 장치는 예를 들어, 스케일링 벡터들은 가우시안 분포에 의해 근사하여 스케일링 벡터들 각각의 원소들(예를 들어, 도 5의 510 참조)의 평균과 분산을 구할 수 있다. 예를 들어, 통계 정보에서 어떤 원소(또는 유닛(unit))의 분산이 일정 기준보다 크다면, 해당 원소는 개인화 입장에서 변화가 클 수 있는 원소로 판단될 수 있다. 또한, 어떤 원소의 분산이 일정 기준보다 작다면, 해당 원소는 발음의 개인 차이와는 거의 무관한 특징을 표현하는 것으로 판단될 수 있다. 이러한 통계 정보의 특징은 한 명의 사람에 적응할 때와 한 지역 발음에 적응할 때가 다를 수 있다. 또한, 음성 인식을 위한 기본 모델에서 지역 특성에 따라 변화가 큰 원소들과 남, 여 간의 목소리 차이로 인해 변화가 큰 원소들 또한 통계 정보의 특징이 서로 다를 수 있다.
실시예에 따라서, 통계 정보는 데이터 세트들의 음성 특성에 기초한 음성 통계 정보 및/또는 데이터 세트들에서 노이즈 및 방향 정보를 변경시킨 데이터 세트에 기초한 환경 통계 정보를 포함할 수 있다. 실시예에 따라서, 개인화 장치는 데이터 세트들에 랜덤하게 노이즈(noise)를 추가하여 스케일링 벡터들이 최대한 음성 통계 정보(음성 특성)을 학습하도록 할 수 있다.
개인화 장치는 개인화된 음성 인식 모델을 생성하기 위하여, 통계 정보를 제공한다(330). 개인화 장치는 통계 정보를 개인화 장치의 메모리에 저장하거나, 또는 별도의 저장 장치 또는 별도의 서버에게 제공할 수 있다.
도 4는 일 실시예에 따른 개인화된 음성 인식 모델을 생성하기 위하여 통계 정보를 제공하는 과정을 설명하기 위한 도면이다. 도 4를 참조하면, 음성 인식 기본 모델(410), 데이터 세트들(420), 및 스케일링 벡터들(440)과 스케일링 벡터 학습 과정(430) 및 스케일링 벡터의 통계 정보를 생성하는 과정(450)이 도시된다.
음성 인식 기본 모델(410)은 일반적인 음성 인식 모델의 학습에 사용되는 전체 음성 DB를 이용하여 학습시킨 기본 모델(413) 및 기본 모델(413)에 결합된 스케일링 벡터(들)(416)를 포함할 수 있다. 전체 음성 DB는 다수의 남녀노소의 발화 데이터(음성 데이터)를 포함할 수 있다.
음성 인식 기본 모델(410)은 기본 모델(413)의 레이어들에, 예를 들어, 신경망 음향 모델을 사용자에 특화해 훈련시키는 LHUC(Linear Hidden Unit Contributor)와 같이 한 개 또는 레이어들의 숫자만큼의 스케일링 벡터를 추가한 모델일 수 있다. 여기서 기본 모델(413)에 추가된 스케일링 벡터(416)의 원소 값은 예를 들어, 모두 '1'로 초기화될 수 있다. 여기서, 기본 모델(413)은 전술한 기본 모델(100)일 수 있다.
음성 인식 기본 모델(410)은 전반적인 사람들이 목소리에 평균적인 성능을 내는 음향 모델일 수 있다. 이때, 전체 음성 DB에 포함된 발화 데이터들에는 화자 ID가 전체 발화 데이터마다 표시되어 있을 수도 있고, 일부 발화 데이터에만 표시되어 있을 수도 있다. 음성 인식 기본 모델(410)은 추후 생성하는 개인화된 음성 인식 모델의 기본 모델(base model)이 될 수 있다.
데이터 세트들(420)은 특정 기준에 따른 데이터들로써, 하나의 데이터 세트는 동일 화자의 발화 데이터들로 구성될 수 있다. 하나의 데이터 세트는 목적에 따라서, 5 개의 발화 데이터 또는 그 이상의 발화 데이터들로 구성될 수 있다. 개인화 장치는 전체 음성 DB에 포함된 발화 데이터들에 랜덤하게 여러 노이즈들을 섞어 줌으로써 환경 정보가 어느 한 쪽으로 치우치지 않게 할 수 있다. 일 실시예에서는 여러 노이즈들이 섞인 발화 데이터들을 이용함으로써 스케일링 벡터들이 다양한 사람들의 목소리 특징의 차이를 학습하기 용이하도록 할 수 있다.
개인화 장치는 음성 인식 기본 모델(410)을 복수의 화자들에 대응하는 데이터 세트들(420)로 학습할 수 있다. 개인화 장치는 데이터 세트들(420)을 이용하여 기본 모델(413)의 로스를 최소화하도록 스케일링 벡터들(440)을 학습할 수 있다(430). 이때, 음성 인식 기본 모델(410)에 포함된 기본 모델(413)의 파라미터들은 모두 고정되고, 추가된 스케일링 벡터(416)만이 학습되어 업데이트될 수 있다. 개인화 장치는 서로 독립된 데이터 세트마다(다시 말해, 화자 별 데이터 세트들마다) 독립적으로 스케일링 벡터들(440)을 학습할 수 있다. 여기서, 스케일링 벡터들(440)은 제1 스케일링 벡터들일 수 있으며, 기본 모델(413)에 결합된 초기화된 스케일링 벡터(들)(416)이 학습 과정을 거친 결과물에 해당할 수 있다.
430의 학습 과정을 거치고 나면, 개인화 장치는 데이터 세트들의 개수에 대응하는 개수의 스케일링 벡터들(440)을 얻을 수 있다. 예를 들어, 데이터 세트의 개수가 N 개이고, 스케일링 벡터들의 차수가 K차수라고 하면, 개인화 장치는 (N, K) 크기의 행렬을 얻을 수 있다.
개인화 장치는 데이터 세트들의 개수만큼의 스케일링 벡터들(440)을 통계 처리하여 스케일링 벡터의 통계 정보를 생성할 수 있다(450). 개인화 장치가 스케일링 벡터들(440)을 통계 처리하여 스케일링 벡터의 통계 정보를 생성하는 과정은 아래의 도 5를 참조하여 구체적으로 설명한다.
도 5는 일 실시예에 따른 통계 정보가 생성되는 과정을 설명하기 위한 도면이다. 도 5를 참조하면, 데이터 세트들에 대응하는 스케일링 벡터들(440)이 도시된다.
스케일링 벡터들(440)은 예를 들어, 제1 스케일링 벡터들(210-1, 210-2, .. 210-N)을 포함할 수 있다.
스케일링 벡터들(440) 각각은 동일 화자의 데이터 세트에 대응될 수 있다. 예를 들어, 제1 스케일링 벡터(210-1)은 (제1 화자의) 데이터 세트 1에 대응되고, 스케일링 벡터(210-2)는 (제1 화자의) 데이터 세트 2에 대응될 수 있다. 또한, 스케일링 벡터(210-N)는 (제5 화자의) 데이터 세트 N에 대응될 수 있다.
개인화 장치는 화자 별 데이터 세트들마다 독립적으로 스케일링 벡터들을 학습할 수 있다. 개인화 장치는 화자 별 데이터 세트들마다 기본 모델의 로스를 최소화하도록 스케일링 벡터들을 학습함으로써 스케일링 벡터들의 통계 정보를 생성할 수 있다.
개인화 장치는 스케일링 벡터(210-1)의 첫번째 원소(510), 스케일링 벡터(210-2)의 첫번째 원소, .. , 및 스케일링 벡터(210-N)의 첫번째 원소를 통계 처리(예를 들어, 가우시안 분포에 의해 근사)하여 스케일링 벡터들의 각 원소 별로 평균 및 분산을 산출할 수 있다.
도 6은 다른 실시예에 따른 음성 인식 모델을 개인화하는 방법을 나타낸 흐름도이다. 도 6을 참조하면, 일 실시예에 따른 개인화 장치는 음성 인식을 위한 기본 모델에 결합된 제1 스케일링 벡터들의 통계 정보를 획득한다(610). 이때, 기본 모델은 복수의 레이어들을 포함하고, 복수의 레이어들 중 적어도 일부의 레이어들 간에는 제1 스케일링 벡터들이 결합될 수 있다. 제1 스케일링 벡터들은 복수의 화자들 및/또는 복수의 화자들의 데이터 세트들에 대응할 수 있다. 통계 정보는 복수의 화자들에 대응하는 제1 스케일링 벡터들을 가우시안 분포에 의해 근사하여 생성한 평균과 분산을 포함할 수 있다. 개인화 장치는 제1 스케일링 벡터들의 통계 정보를 통해 각 스케일링 벡터가 해당 음성 인식 모델에서 가지는 의미(예를 들어, 영향력)를 파악할 수 있다.
개인화 장치는 사용자의 발화 데이터를 획득한다(620).
개인화 장치는 사용자의 발화 데이터 및 통계 정보에 기초하여, 기본 모델에 결합된 제2 스케일링 벡터를 개인화 함으로써 개인화된 음성 인식 모델을 생성한다(630). 개인화 장치는 우선, 제2 스케일링 벡터를 초기화할 수 있다. 개인화 장치는 사용자의 발화 데이터 및 통계 정보에 기초하여, 제2 스케일링 벡터를 학습할 수 있다. 개인화 장치는 예를 들어, 사용자의 발화 데이터에 기초하여 제1 로스를 결정할 수 있다. 제1 로스는 발화 데이터와 정답 텍스트(기준 텍스트) 간의 차이(손실)에 해당할 수 있다. 개인화 장치는 제1 로스 및 통계 정보에 기초하여 제2 로스를 결정할 수 있다. 제2 로스는 평균 사용자들과 해당 사용자 간의 차이, 다시 말해, 개인화 로스(손실)에 해당할 수 있다. 개인화 장치는 제2 로스에 기초하여 제2 스케일링 벡터를 학습할 수 있다. 개인화 장치는 제2 로스를 최소화 하도록 제2 스케일링 벡터를 학습할 수 있다. 이때, 제2 스케일링 벡터는 제1 스케일링 벡터들 중 음성 인식을 수행하고자 하는 해당 사용자에 대응하는 하나의 스케일링 벡터일 수 있다. 개인화 장치는 단계(630)에서 생성한 개인화된 음성 인식 모델을 이용하여 사용자의 음성을 인식할 수 있다.
실시예에 따라서, 개인화 장치는 단계(630)의 개인화 과정에서 단계(610)에서 획득한 통계 정보를 원래의 목적 함수(예를 들어, 기본 모델의 로스 함수)에 별도의 함수 형태로 추가할 수 있다. 개인화 장치는 통계 정보를 트레이트-오프 파라미터(trade-off parameter)로 활용하여 목적 함수의 가중치 정도(다시 말해, 통계 정보의 반영률)을 조절할 수 있다.
보다 구체적으로, 개인화 장치는 발화 데이터에 기초하여, 통계 정보의 반영율을 결정할 수 있다. 개인화 장치는 예를 들어, 발화 데이터의 양(개수)에 반비례하여 통계 정보의 반영율을 조절할 수 있다. 발화 데이터의 양이 많은 경우, 통계 정보를 반영하지 않더라도 개인화 학습을 위한 데이터가 충분히 확보되므로 개인화 장치는 통계 정보의 반영율을 낮출 수 있다. 이와 달리, 발화 데이터의 양이 작은 경우, 개인화 장치는 통계 정보의 반영율을 높임으로써 적은 수의 데이터로도 개인화 학습을 안정적으로 수행할 수 있다. 다시 말해, 개인화 장치는 발화 데이터의 양이 많을 때에는 통계 정보의 반영율을 줄임으로써 사용자의 실제 발화 데이터의 특성이 적게 반영되는 위험을 줄일 수 있다. 또한, 개인화 장치는 발화 데이터의 양이 적을 때에는 통계 정보의 반영율을 높여 발화 데이터의 양이 적은 경우에 발생하는 (음성 인식의) 급격한 성능 저하를 방지할 수 있다.
개인화 장치는 통계 정보의 반영율에 따라 기본 모델의 로스 함수에 통계 정보를 반영하여 제2 스케일링 벡터들을 학습함으로써, 개인화된 음성 인식 모델을 생성할 수 있다.
개인화 장치는 예를 들어, 아래의 [수학식 1]과 같이 통계 정보를 원래의 목적 함수에 반영할 수 있다.
여기서, L은 개인화된 음성 인식 모델의 로스 함수를 나타내고, Lce는 기본 모델의 로스 함수를 나타낸다. λ는 통계 정보의 반영율을 나타내며, 일 수 있다. 은 스케일링 벡터를 나타낸다. 이고, 은 분산을, 는 표준 편차를 나타낸다.
예를 들어, 통계 정보의 반영율(λ) = 0 이라면, 개인화 장치는 기본 모델의 로스 함수를 이용하여 개인화된 음성 인식 모델의 개인화를 수행할 수 있다. 개인화 장치는 통계 정보의 반영율(λ)의 값이 클수록 통계 정보의 특성을 크게 반영하여 개인화됨 음성 인식 모델을 생성할 수 있다.
이때, 통계 정보의 반영율(λ)은 개인화 데이터의 크기, 다시 말해, 사용자의 발화 데이터의 개수(양)에 따라 결정될 수 있다. 예를 들어, 사용자의 발화 데이터의 개수가 100 문장과 같이 매우 많다면, 개인화 장치는 통계 정보의 반영율(λ)이 0에 가까워도 안정적으로 사용자의 음성을 인식할 수 있다. 반대로, 사용자의 발화 데이터의 개수가 5문장 또는 10문장과 같이 적다면, 개인화 장치는 통계 정보의 반영율(λ)을 1에 가깝게 결정함으로써 안정적으로 사용자의 음성을 인식할 수 있다.
예를 들어, 발화 데이터 3문장을 데이터 세트의 최소값으로 하고, 발화 데이터 100 문장을 데이터 세트의 최대값이라고 하자. 이때, 통계 정보의 반영율(λ)은 발화 데이터 3문장에서 최대값(λmax)을 가질 수 있다. 발화 데이터 100 문장에서 최소값 0을 가질 수 있다. 개인화 장치는 발화 데이터의 양에 따라 통계 정보의 반영율(λ)을 γmax ~ 0 으로 조절할 수 있다.
일 실시예에 따르면, 개인화를 위한 발화 데이터의 양이 적은 경우에도 스케일링 벡터의 통계 정보를 이용함으로써 개인화를 위한 스케일링 벡터(제2 스케일링 벡터)의 값을 안정적으로 개인화 방향으로 업데이트함으로써 급격한 성능 저하를 방지할 수 있다. 또한, 일 실시예에 따르면, 개인화를 위한 발화 데이터의 양이 적은 경우에도 스케일링 벡터의 통계 정보를 이용하여 음성 인식 모델의 개인화 방향을 부스트(boost) 함으로써 적은 학습 에포크(epoch)로도 우수한 음성 인식 효과를 얻을 수 있다.
실시예에 따라서, 개인화 장치는 단계(620)에서 발화 데이터가 획득됨에 응답하여, 제2 스케일링 벡터를 발화 데이터에 기초하여 학습시키고, 제2 스케일링 벡터를 학습시키는 동안 단계(610)에서 획득한 통계 정보(의 값)를 고정할 수 있다. 개인화 장치는 학습에 의해 제2 스케일링 벡터가 변경된 경우에 응답하여, 통계 정보를 업데이트(update)할 수 있다.
도 7은 일 실시예에 따라 음성 인식을 수행하는 과정을 설명하기 위한 도면이다. 도 7을 참조하면, 음성 인식 기본 모델(710), 스케일링 벡터의 통계 정보(720), 사용자의 발화 데이터(730), 및 사용자 개인화된 음성 인식 모델(750)과 스케일링 벡터의 학습 과정(740) 및 음성 인식 수행 과정(760)이 도시된다.
음성 인식 기본 모델(710)은 실제 음성 인식 모델을 개인화 할 때 사용되는 초기 모델로써, 예를 들어, 음성 인식 기본 모델(410)일 수 있다.
스케일링 벡터의 통계 정보(720)는 도 4의 단계(450)에서 획득한 스케일링 벡터(제1 스케일링 벡터)의 통계 정보일 수 있다. 스케일링 벡터의 통계 정보(720)는 이후 스케일링 벡터의 학습 과정(740)에서 제2 스케일링 벡터의 학습 시에 기본 함수의 목적 함수에 추가될 수 있다. 개인화 장치는 통계 정보의 반영율에 따라 스케일링 벡터의 통계 정보(720)를 일정 부분 반영하여 제2 스케일링 벡터를 학습할 수 있다. 스케일링 벡터의 통계 정보(720)는 음성 인식 모델의 개인화 과정 이전에 미리 개인화 장치에 저장될 수도 있고, 별도의 저장 장치로부터 통신 인터페이스를 통해 개인화 장치로 전달될 수도 있다.
사용자의 발화 데이터(730)는 실제 사용자의 발화 데이터로서, 작게는 1~3개일 수 있고, 크게는 10개 이상일 수도 있다.
개인화 장치는 스케일링 벡터의 통계 정보(720) 및 사용자의 발화 데이터(730)에 기초하여 기본 모델에 결합된 제2 스케일링 벡터를 학습(740)함으로써 사용자 개인화된 음성 인식 모델(750)을 생성할 수 있다.
이때, 스케일링 벡터를 학습하는 과정(740)은 도 4의 스케일링 벡터를 학습하는 과정(430)과는 상이하다. 개인화 장치는 기본 모델의 로스 함수에 스케일링 벡터의 통계 정보(720)가 예를 들어, 전술한 수학식 1과 같은 형태로 더해질 수 있다. 이때, 발화 데이터의 양에 기초한 스케일링 벡터의 통계 정보(720)의 반영률에 따라 사용자 개인화된 음성 인식 모델(750)에 사전 통계 정보(스케일링 벡터의 통계 정보(720))가 관여하는 정도가 달라지게 된다.
예를 들어, 사용자의 발화 데이터(730)의 양이 적을 때에는 학습하고자 하는 스케일링 벡터의 원소들이 잘 학습되지 않거나, 또는 스케일링 벡터의 원소들의 값이 매우 큰 값 또는 매우 작은 값으로 튈 수 있다. 하지만, 일 실시예에서는 사전에 획득한 스케일링 벡터의 통계 정보를 이용하여 스케일링 벡터의 학습이 일정 범위 내에서 수행될 수도 있도록 강제함으로써 전술한 위험없이 빠른 시간 내에 음성 인식 모델의 개인화를 수행하여 사용자 개인화된 음성 인식 모델(750)을 생성할 수 있다. 개인화 장치는 개인화된 음성 인식 모델을 이용하여 사용자의 음성 인식을 수행할 수 있다(760).
일 실시예에 따르면, 개인화를 위한 스케일링 벡터를 적용할 때 각 스케일링 벡터가 해당 모델에서 가지는 의미를 사전 통계 정보(예를 들어, 스케일링 벡터의 통계 정보(720))를 통해 파악하고, 이를 실제 개인화 과정에 사용함으로써 개인화를 위한 음성 인식 모델의 학습을 올바른 방향으로, 빠르게 유도할 수 있다.
일 실시예에 따르면, 사용자 개인화를 위한 발화 데이터의 양에 따라 스케일링 벡터의 통계 정보의 활용 정도를 조절하는 방식으로 적응적(adaptive)으로 음성 인식 모델을 개인화할 수 있다.
또한, 일 실시예에 따르면, 스케일링 벡터의 통계 정보를 획득하기 위한 데이터 세트의 형성 시에 다양한 노이즈를 섞어 주어 스케일링 벡터의 통계 정보가 최대한 환경 정보 보다는 음성 정보를 학습하도록 함으로써 사용자의 음성 특징 변화를 인식하도록 할 수 있다.
도 8은 일 실시예에 따라 제2 스케일링 벡터를 학습하는 과정을 설명하기 위한 도면이다. 도 8을 참조하면, 학습 데이터(810), 개인화된 음성 인식 모델(870)의 출력값(830), 학습 데이터(810)와 개인화된 음성 인식 모델(870)의 출력값(830) 간의 오차(로스)(850), 및 개인화된 음성 인식 모델(870)이 도시된다.
일 실시예에 따른 개인화 장치는 개별 사용자 단말에 의해 요구되는 스케일링 벡터(제2 스케일링 벡터)의 통계 정보를 미리 로딩하여 메모리에 저장할 수 있다. 개인화 장치는 사용자로부터의 음성 인식 요청을 획득하기 전에, 제1 스케일링 벡터들을 미리(in advance) 학습시켜 놓을 수 있다.
일 실시예에 따르면, 개인화 장치는 학습 데이터(810)에 기초하여 임의의 사용자에 대해 기본 모델을 생성할 수 있다. 기본 모델에 결합되는 제1 스케일링 벡터들은 학습되기 전의 초기화된 값을 가질 수 있다. 제1 스케일링 벡터들의 초기 값은, 예를 들어, '1'일 수 있다.
개인화 장치는 사용자로부터 음성 신호(또는 발화 데이터)가 획득되는 경우에 응답하여, 개인화된 음성 인식 모델(870)의 로스를 최소화하도록, 획득된 음성 신호에 기초하여 제2 스케일링 벡터를 학습시킬 수 있다. 예를 들어, 개인화 장치는 제2 스케일링 벡터의 학습 동안 개인화된 음성 인식 모델(870)의 나머지 파라미터들(예를 들어, 가중치 벡터 및 바이어스 등)을 고정할 수 있다.
개인화 장치는 사용자로부터 새로 획득된 음성 신호에 기초하여, 새로운 학습 데이터(810)를 생성할 수 있다. 새로운 학습 데이터(810)는 기준 텍스트(811), 그룹 레이블(813) 및 트레이닝 입력(815) 등을 포함할 수 있다. 기준 텍스트(811)는 해당 트레이닝 입력(815)이 지시하는 실제(true) 텍스트 데이터를 나타낼 수 있다. 그룹 레이블(813)은 해당 트레이닝 입력(815)이 나타내는 언어 특성에 따른 그룹을 지시하는 데이터를 나타낼 수 있다. 학습 입력(815)은 음성 신호 또는 발화 데이터로부터 추출된 특징 데이터(또는 특징 벡터)를 나타낼 수 있다.
일 실시예에 따른 개인화 장치는 예를 들어, 감독 학습(supervised learning)을 통해 음성 인식 모델(870)(뉴럴 네트워크)의 제2 스케일링 벡터를 학습시킬 수 있다. 감독 학습은 학습 데이터(810)의 트레이닝 입력(815) 및 트레이닝 입력(815)에 대응하는 학습 출력(예를 들어, 기준 텍스트(811))을 함께 개인화된 음성 인식 모델(870)에 입력하고, 학습 데이터(810)의 학습 출력에 대응하는 출력 값(830)이 출력되도록 제2 스케일링 벡터를 업데이트하는 기법이다.
일 실시예에 따르면, 개인화 장치는 뉴럴 네트워크에 역전파되는 로스 및 뉴럴 네트워크에 포함된 노드들의 출력 값(830)에 기초한 기울기 하강(gradient descent) 기법을 통하여, 개인화된 음성 인식 모델(870)의 제2 스케일링 벡터를 개인화할 수 있다. 예를 들어, 개인화 장치는 로스 역 전파 학습(back-propagation learning)을 통해 제2 스케일링 벡터를 업데이트할 수 있다. 로스 역 전파 학습은, 주어진 학습 데이터(810)에 대해 포워드 계산(forward computation)을 통하여 로스를 추정(예를 들어, 오차(850)를 산출)한 후, 출력 레이어에서 시작하여 히든 레이어 및 입력 레이어를 향하는 역 방향으로 추정한 로스를 전파하면서, 로스를 줄이는 방향으로 스케일링 벡터를 업데이트하는 방법이다.
개인화 장치는 현재 설정된 제2 스케일링 벡터가 얼마나 최적에 가까운 지를 측정하기 위한 목적 함수(objective function)를 정의하고, 목적 함수의 결과에 기초하여 제2 스케일링 벡터를 업데이트함으로써 학습을 반복적으로 수행할 수 있다. 예를 들어, 목적 함수는 뉴럴 네트워크가 학습 데이터(810)의 트레이닝 입력(815)에 기초하여 실제 출력한 출력 값(830)과 출력되기로 원하는 기대 값(예를 들어, 기준 텍스트(811)) 사이의 로스를 계산하기 위한 로스 함수일 수 있다. 개인화 장치는 로스 함수의 값을 줄이는 방향으로 제2 스케일링 벡터를 업데이트할 수 있다.
개인화 장치는, 사용자의 개인화 및 사용자의 최신 음성 특성을 반영하기 위해, 제2 스케일링 벡터를 학습시킬 수 있다. 특정 사용자의 음성 신호가 개인화 목적으로 해당 사용자의 음성 인식 모델(870)에 입력이 되면, 개인화 장치는 해당 사용자에 대응하는 제2 스케일링 벡터를 업데이트할 수 있다.
일 실시예에 따른 음성 인식 모델을 개인화하는 장치는, 개별 사용자가 개인화된 음성 인식 모델(870)을 이용할 때마다, 해당 사용자의 음성 특징에 보다 최적화되도록 개인화된 음성 인식 모델(870)을 업데이트할 수 있다.
도 9는 일 실시예에 따른 음성 인식 모델을 개인화하는 장치의 블록도이다. 도 9를 참조하면, 일 실시예에 따른 개인화 장치(900)는 센서(910), 프로세서(930), 메모리(950) 및 통신 인터페이스(970)를 포함할 수 있다. 센서(910), 프로세서(930), 메모리(950) 및 통신 인터페이스(970)는 통신 버스(905)를 통해 서로 연결될 수 있다.
센서(910)는 사용자의 음성 및/또는 사용자의 발화 데이터를 획득(감지)한다.
프로세서(930)는 사용자의 발화 데이터 및 통계 정보에 기초하여, 기본 모델에 결합된 제2 스케일링 벡터를 개인화함으로써 개인화된 음성 인식 모델을 생성한다. 다만, 프로세서(930)의 동작을 이로 한정하는 것은 아니고, 프로세서(930)는 도 1 내지 도 8에서 설명한 동작들을 수행할 수 있다.
프로세서(930)는 목적하는 동작들(desired operations)을 실행시키기 위한 물리적인 구조를 갖는 회로를 가지는 하드웨어로 구현된 데이터 처리 장치일 수 있다. 예를 들어, 목적하는 동작들은 프로그램에 포함된 코드(code) 또는 인스트럭션들(instructions)을 포함할 수 있다. 예를 들어, 하드웨어로 구현된 데이터 처리 장치는 마이크로프로세서(microprocessor), 중앙 처리 장치(central processing unit), 프로세서 코어(processor core), 멀티-코어 프로세서(multi-core processor), 멀티프로세서(multiprocessor), ASIC(Application-Specific Integrated Circuit), FPGA(Field Programmable Gate Array)를 포함할 수 있다.
프로세서(930)는 프로그램을 실행하고, 개인화 장치(900)를 제어할 수 있다. 프로세서(930)에 의하여 실행되는 프로그램 코드는 메모리(950)에 저장될 수 있다.
메모리(950)는 프로세서(930)에 의해 실행될 인스트럭션들(instructions), 음성 인식을 위한 기본 모델 및/또는 개인화된 음성 인식 모델을 저장할 수 있다. 개인화된 음성 인식 모델은 통계적 음성 인식 모델 또는 뉴럴 네트워크 기반의 음성 인식 모델일 수 있다. 개인화된 음성 인식 모델이 뉴럴 네트워크인 경우, 메모리(950)는 뉴럴 네트워크의 각 레이어의 가중치 등과 같은 파라미터를 저장할 수 있다. 또한, 메모리(950)는 제2 스케일링 벡터를 저장할 수 있다. 메모리(950)는 휘발성 메모리 또는 비휘발성 메모리를 포함할 수 있다. 메모리(950)는 하드 디스크 등과 같은 대용량 저장 매체를 구비하여 각종 데이터를 저장할 수 있다.
통신 인터페이스(970)는 음성 인식을 위한 기본 모델에 결합된 제1 스케일링 벡터들의 통계 정보를 획득한다. 또한, 통신 인터페이스(970)는 사용자의 음성 또는 정답 텍스트 등을 입력 받거나 사용자에게 인식 결과 또는 가이드 텍스트를 제시하는 구성을 의미할 수 있다. 예를 들어, 통신 인터페이스(970)는 사용자의 음성을 입력 받는 마이크로폰을 포함할 수 있다. 실시예에 따라서, 개인화 장치는 사용자로부터 정답 텍스트를 입력 받는 키보드, 터치 스크린 또는 터치 패드 등을 포함하는 입출력 인터페이스(미도시)를 더 포함할 수도 있다. 입출력 인터페이스는 인식 결과 또는 가이드 텍스트를 제시하는 디스플레이를 포함할 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 청구범위의 범위에 속한다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
 이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

Claims (21)

  1. 음성 인식 모델을 개인화하는 장치가 음성 인식 모델을 개인화하는 방법에 있어서,
    음성 인식을 위한 기본 모델에 결합된 제1 스케일링 벡터들(scaling vectors)의 통계 정보를 획득하는 단계;
    사용자의 발화 데이터를 획득하는 단계; 및
    상기 사용자의 발화 데이터 및 상기 통계 정보에 기초하여, 상기 기본 모델에 결합된 제2 스케일링 벡터를 개인화함으로써 개인화된 음성 인식 모델을 생성하는 단계
    를 포함하고,
    상기 개인화된 음성 인식 모델을 생성하는 단계는
    상기 발화 데이터에 기초하여, 상기 통계 정보의 반영율을 결정하는 단계; 및
    상기 반영율에 따라 상기 기본 모델의 로스(loss) 함수에 상기 통계 정보를 반영하여 상기 제2 스케일링 벡터들을 학습함으로써, 상기 개인화된 음성 인식 모델을 생성하는 단계
    를 포함하는, 음성 인식 모델을 개인화하는 방법.
  2. 제1항에 있어서,
    상기 제1 스케일링 벡터들은 복수의 화자들에 대응하고,
    상기 제2 스케일링 벡터는 상기 사용자에 대응하는, 음성 인식 모델을 개인화하는 방법.
  3. 제1항에 있어서,
    상기 개인화된 음성 인식 모델을 생성하는 단계는
    상기 제2 스케일링 벡터를 초기화하는 단계; 및
    상기 사용자의 발화 데이터 및 상기 통계 정보에 기초하여, 상기 제2 스케일링 벡터를 학습하는 단계
    를 포함하는, 음성 인식 모델을 개인화하는 방법.
  4. 제3항에 있어서,
    상기 제2 스케일링 벡터를 학습하는 단계는
    상기 사용자의 발화 데이터에 기초하여 제1 로스를 결정하는 단계;
    상기 제1 로스 및 상기 통계 정보에 기초하여 제2 로스를 결정하는 단계; 및
    상기 제2 로스에 기초하여 상기 제2 스케일링 벡터를 학습하는 단계
    를 포함하는, 음성 인식 모델을 개인화하는 방법.
  5. 제1항에 있어서,
    상기 기본 모델은
    복수의 레이어들을 포함하고, 상기 복수의 레이어들 중 적어도 일부의 레이어들 간에는 상기 제1 스케일링 벡터들이 결합되는, 음성 인식 모델을 개인화하는 방법.
  6. 제1항에 있어서,
    상기 통계 정보는
    복수의 화자들에 대응하는 상기 제1 스케일링 벡터들을 가우시안 분포에 의해 근사하여 생성한 평균과 분산을 포함하는, 음성 인식 모델을 개인화하는 방법.
  7. 삭제
  8. 제1항에 있어서,
    상기 통계 정보의 반영율을 결정하는 단계는
    상기 발화 데이터의 양에 기초하여 상기 통계 정보의 반영율을 조절하는 단계
    를 포함하는, 음성 인식 모델을 개인화하는 방법.
  9. 제1항에 있어서,
    상기 개인화된 음성 인식 모델을 생성하는 단계는
    상기 발화 데이터가 획득됨에 응답하여, 상기 제2 스케일링 벡터를 상기 발화 데이터에 기초하여 학습시키는 단계; 및
    상기 제2 스케일링 벡터를 학습시키는 동안 상기 통계 정보를 고정하는 단계
    를 포함하는, 음성 인식 모델을 개인화하는 방법.
  10. 제8항에 있어서,
    상기 학습에 의해 상기 제2 스케일링 벡터가 변경되는 경우에 응답하여, 상기 통계 정보를 업데이트(update)하는 단계
    를 더 포함하는, 음성 인식 모델을 개인화하는 방법.
  11. 제1항에 있어서,
    상기 음성 인식 모델을 이용하여 상기 사용자의 음성을 인식하는 단계
    를 더 포함하는, 음성 인식 모델을 개인화하는 방법.
  12. 음성 인식 모델을 개인화하는 장치가 음성 인식 모델을 개인화하는 방법에 있어서,
    복수의 화자들에 대응하는 음성 데이터들을 이용하여 음성 인식을 위한 기본 모델을 생성하는 단계;
    상기 음성 데이터들을 포함하는 데이터 세트들을 상기 기본 모델에 결합된 스케일링 벡터들에 적용하여 상기 스케일링 벡터들의 통계 정보를 생성하는 단계; 및
    개인화된 음성 인식 모델을 생성하기 위하여, 상기 통계 정보를 제공하는 단계
    를 포함하고,
    상기 개인화된 음성 인식 모델은
    발화 데이터에 기초하여 결정된 상기 통계 정보의 반영율에 따라 상기 기본 모델의 로스(loss) 함수에 상기 통계 정보를 반영하여 상기 기본 모델에 결합된 제2 스케일링 벡터들을 학습함으로써 생성된 것인, 음성 인식 모델을 개인화 하는 방법.
  13. 제12항에 있어서,
    상기 통계 정보를 생성하는 단계는
    상기 데이터 세트들을 이용하여 상기 기본 모델의 로스를 최소화하도록 상기 스케일링 벡터들을 학습함으로써 상기 스케일링 벡터들의 통계 정보를 생성하는 단계
    를 포함하는, 음성 인식 모델을 개인화하는 방법.
  14. 제12항에 있어서,
    상기 통계 정보를 생성하는 단계는
    상기 음성 데이터들에 기초하여 화자 별 데이터 세트들을 생성하는 단계;
    상기 화자 별 데이터 세트들 각각을 이용하여 상기 스케일링 벡터들을 학습하는 단계; 및
    상기 스케일링 벡터들의 학습 결과에 기초하여 상기 스케일링 벡터의 통계 정보를 생성하는 단계
    를 포함하는, 음성 인식 모델을 개인화하는 방법.
  15. 제14항에 있어서,
    상기 음성 데이터들의 적어도 일부는 화자 식별자를 포함하고,
    상기 화자 별 데이터 세트들을 생성하는 단계는
    상기 음성 데이터들에 포함된 화자 식별자를 이용하여 각 화자 별 음성 데이터들을 구분하는 단계; 및
    상기 각 화자 별 음성 데이터들을 이용하여 상기 화자 별로 데이터 세트들을 생성하는 단계
    를 포함하는, 음성 인식 모델을 개인화하는 방법.
  16. 제15항에 있어서,
    상기 각 화자 별 음성 데이터들을 이용하여 상기 화자 별로 데이터 세트들을 생성하는 단계는
    상기 화자 별 음성 데이터들 전부를 이용하여 하나의 데이터 세트를 생성하는 단계; 및
    상기 화자 별 음성 데이터들 중 랜덤하게 선택된 일부 음성 데이터를 이용하여 하나의 데이터 세트를 생성하는 단계
    중 적어도 하나를 포함하는, 음성 인식 모델을 개인화하는 방법.
  17. 제14항에 있어서,
    상기 스케일링 벡터들을 학습하는 단계는
    상기 화자 별 데이터 세트들을 이용하여 상기 기본 모델의 적어도 일부의 레이어에 대응하는 스케일링 벡터들을 학습하는 단계
    를 포함하는, 음성 인식 모델을 개인화하는 방법.
  18. 제14항에 있어서,
    상기 스케일링 벡터들을 학습하는 단계는
    상기 화자 별 데이터 세트들마다 독립적으로 상기 스케일링 벡터들을 학습하는 단계
    를 포함하는, 음성 인식 모델을 개인화하는 방법.
  19. 제12항에 있어서,
    상기 통계 정보를 생성하는 단계는
    상기 스케일링 벡터들을 가우시안 분포에 의해 근사하여 상기 스케일링 벡터들 각각의 평균과 분산을 생성하는 단계
    를 포함하는, 음성 인식 모델을 개인화하는 방법.
  20. 하드웨어와 결합되어 제1항 내지 제6항, 제8항 내지 제19항 중 어느 하나의 항의 방법을 실행시키기 위하여 컴퓨터로 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램.
  21. 음성 인식을 위한 기본 모델에 결합된 제1 스케일링 벡터들의 통계 정보를 획득하는 통신 인터페이스;
    사용자의 발화 데이터를 획득하는 센서; 및
    상기 사용자의 발화 데이터 및 상기 통계 정보에 기초하여, 상기 기본 모델에 결합된 제2 스케일링 벡터를 개인화함으로써 개인화된 음성 인식 모델을 생성하는 프로세서
    를 포함하고,
    상기 프로세서는
    상기 발화 데이터에 기초하여, 상기 통계 정보의 반영율을 결정하고,
    상기 반영율에 따라 상기 기본 모델의 로스(loss) 함수에 상기 통계 정보를 반영하여 상기 제2 스케일링 벡터들을 학습함으로써, 상기 개인화된 음성 인식 모델을 생성하는, 음성 인식 모델을 개인화하는 장치.
KR1020180103584A 2018-08-31 2018-08-31 음성 인식 모델을 개인화하는 방법 및 장치 KR102637339B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020180103584A KR102637339B1 (ko) 2018-08-31 2018-08-31 음성 인식 모델을 개인화하는 방법 및 장치
US16/351,612 US11183174B2 (en) 2018-08-31 2019-03-13 Speech recognition apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180103584A KR102637339B1 (ko) 2018-08-31 2018-08-31 음성 인식 모델을 개인화하는 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20200025750A KR20200025750A (ko) 2020-03-10
KR102637339B1 true KR102637339B1 (ko) 2024-02-16

Family

ID=69640680

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180103584A KR102637339B1 (ko) 2018-08-31 2018-08-31 음성 인식 모델을 개인화하는 방법 및 장치

Country Status (2)

Country Link
US (1) US11183174B2 (ko)
KR (1) KR102637339B1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101987868B1 (ko) * 2018-11-29 2019-06-11 주식회사 트위니 시간상태 영역에서의 장애물 회피 방법, 이를 구현하기 위한 프로그램이 저장된 기록매체 및 이를 구현하기 위해 매체에 저장된 컴퓨터프로그램
KR20210010133A (ko) 2019-07-19 2021-01-27 삼성전자주식회사 음성 인식 방법, 음성 인식을 위한 학습 방법 및 그 장치들
KR20210053020A (ko) 2019-11-01 2021-05-11 삼성전자주식회사 전자 장치 및 그 동작 방법
US20210158803A1 (en) * 2019-11-21 2021-05-27 Lenovo (Singapore) Pte. Ltd. Determining wake word strength
WO2023205103A1 (en) * 2022-04-18 2023-10-26 Celligence International Llc Method and computing apparatus for operating a form-based interface

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101610151B1 (ko) * 2014-10-17 2016-04-08 현대자동차 주식회사 개인음향모델을 이용한 음성 인식장치 및 방법

Family Cites Families (68)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5793891A (en) * 1994-07-07 1998-08-11 Nippon Telegraph And Telephone Corporation Adaptive training method for pattern recognition
JPH08110792A (ja) 1994-10-12 1996-04-30 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 話者適応化装置及び音声認識装置
US6539351B1 (en) * 2000-02-04 2003-03-25 International Business Machines Corporation High dimensional acoustic modeling via mixtures of compound gaussians with linear transforms
EP1187096A1 (en) * 2000-09-06 2002-03-13 Sony International (Europe) GmbH Speaker adaptation with speech model pruning
JP4169921B2 (ja) 2000-09-29 2008-10-22 パイオニア株式会社 音声認識システム
US7209881B2 (en) * 2001-12-20 2007-04-24 Matsushita Electric Industrial Co., Ltd. Preparing acoustic models by sufficient statistics and noise-superimposed speech data
CN1453767A (zh) * 2002-04-26 2003-11-05 日本先锋公司 语音识别装置以及语音识别方法
US7379868B2 (en) * 2002-07-18 2008-05-27 Massachusetts Institute Of Technology Method and apparatus for differential compression of speaker models
US20060064177A1 (en) * 2004-09-17 2006-03-23 Nokia Corporation System and method for measuring confusion among words in an adaptive speech recognition system
US20060122834A1 (en) * 2004-12-03 2006-06-08 Bennett Ian M Emotion detection device & method for use in distributed systems
US7949529B2 (en) * 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
JP2006163440A (ja) 2006-02-08 2006-06-22 Matsushita Electric Ind Co Ltd 音声認識方法及び音声認識装置及びその記憶媒体
JP5326892B2 (ja) * 2008-12-26 2013-10-30 富士通株式会社 情報処理装置、プログラム、および音響モデルを生成する方法
US8180635B2 (en) * 2008-12-31 2012-05-15 Texas Instruments Incorporated Weighted sequential variance adaptation with prior knowledge for noise robust speech recognition
US8548807B2 (en) * 2009-06-09 2013-10-01 At&T Intellectual Property I, L.P. System and method for adapting automatic speech recognition pronunciation by acoustic model restructuring
US20160372116A1 (en) * 2012-01-24 2016-12-22 Auraya Pty Ltd Voice authentication and speech recognition system and method
US9042867B2 (en) * 2012-02-24 2015-05-26 Agnitio S.L. System and method for speaker recognition on mobile devices
DK2713367T3 (en) * 2012-09-28 2017-02-20 Agnitio S L Speech Recognition
US9633652B2 (en) * 2012-11-30 2017-04-25 Stmicroelectronics Asia Pacific Pte Ltd. Methods, systems, and circuits for speaker dependent voice recognition with a single lexicon
US9406298B2 (en) * 2013-02-07 2016-08-02 Nuance Communications, Inc. Method and apparatus for efficient i-vector extraction
US9865266B2 (en) * 2013-02-25 2018-01-09 Nuance Communications, Inc. Method and apparatus for automated speaker parameters adaptation in a deployed speaker verification system
US9190055B1 (en) * 2013-03-14 2015-11-17 Amazon Technologies, Inc. Named entity recognition with personalized models
US9305554B2 (en) * 2013-07-17 2016-04-05 Samsung Electronics Co., Ltd. Multi-level speech recognition
US10438581B2 (en) * 2013-07-31 2019-10-08 Google Llc Speech recognition using neural networks
US9311915B2 (en) * 2013-07-31 2016-04-12 Google Inc. Context-based speech recognition
US20160293167A1 (en) * 2013-10-10 2016-10-06 Google Inc. Speaker recognition using neural networks
US9514753B2 (en) * 2013-11-04 2016-12-06 Google Inc. Speaker identification using hash-based indexing
US9318112B2 (en) * 2014-02-14 2016-04-19 Google Inc. Recognizing speech in the presence of additional audio
US9240183B2 (en) * 2014-02-14 2016-01-19 Google Inc. Reference signal suppression in speech recognition
US9412358B2 (en) * 2014-05-13 2016-08-09 At&T Intellectual Property I, L.P. System and method for data-driven socially customized models for language generation
KR20150145024A (ko) * 2014-06-18 2015-12-29 한국전자통신연구원 화자적응 음성인식 시스템의 단말 및 서버와 그 운용 방법
US9373330B2 (en) * 2014-08-07 2016-06-21 Nuance Communications, Inc. Fast speaker recognition scoring using I-vector posteriors and probabilistic linear discriminant analysis
JP6303971B2 (ja) * 2014-10-17 2018-04-04 富士通株式会社 話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラム
WO2016092837A1 (ja) * 2014-12-10 2016-06-16 日本電気株式会社 音声処理装置、雑音抑圧装置、音声処理方法および記録媒体
CN104821934B (zh) * 2015-03-20 2018-11-20 百度在线网络技术(北京)有限公司 基于人工智能的声纹登录方法和装置
US9786270B2 (en) * 2015-07-09 2017-10-10 Google Inc. Generating acoustic models
KR102410914B1 (ko) 2015-07-16 2022-06-17 삼성전자주식회사 음성 인식을 위한 모델 구축 장치 및 음성 인식 장치 및 방법
KR102413692B1 (ko) * 2015-07-24 2022-06-27 삼성전자주식회사 음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치
CN105206258B (zh) * 2015-10-19 2018-05-04 百度在线网络技术(北京)有限公司 声学模型的生成方法和装置及语音合成方法和装置
US10366687B2 (en) * 2015-12-10 2019-07-30 Nuance Communications, Inc. System and methods for adapting neural network acoustic models
US10013973B2 (en) * 2016-01-18 2018-07-03 Kabushiki Kaisha Toshiba Speaker-adaptive speech recognition
US9972304B2 (en) * 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
CN107564513B (zh) 2016-06-30 2020-09-08 阿里巴巴集团控股有限公司 语音识别方法及装置
CN106169295B (zh) * 2016-07-15 2019-03-01 腾讯科技(深圳)有限公司 身份向量生成方法和装置
CN107785015A (zh) * 2016-08-26 2018-03-09 阿里巴巴集团控股有限公司 一种语音识别方法及装置
US10832684B2 (en) * 2016-08-31 2020-11-10 Microsoft Technology Licensing, Llc Personalization of experiences with digital assistants in communal settings through voice and query processing
WO2018053531A1 (en) * 2016-09-19 2018-03-22 Pindrop Security, Inc. Dimensionality reduction of baum-welch statistics for speaker recognition
US11308391B2 (en) * 2017-03-06 2022-04-19 Baidu Usa Llc Offline combination of convolutional/deconvolutional and batch-norm layers of convolutional neural network models for autonomous driving vehicles
US10102855B1 (en) * 2017-03-30 2018-10-16 Amazon Technologies, Inc. Embedded instructions for voice user interface
CN106971709B (zh) * 2017-04-19 2021-10-15 腾讯科技(上海)有限公司 统计参数模型建立方法和装置、语音合成方法和装置
US10347244B2 (en) * 2017-04-21 2019-07-09 Go-Vivace Inc. Dialogue system incorporating unique speech to text conversion method for meaningful dialogue response
US11645508B2 (en) * 2017-06-09 2023-05-09 Korea Advanced Institute Of Science And Technology Electronic apparatus and method for generating trained model
US10417349B2 (en) * 2017-06-14 2019-09-17 Microsoft Technology Licensing, Llc Customized multi-device translated and transcribed conversations
CN107451407A (zh) * 2017-07-31 2017-12-08 广东工业大学 一种中医智能诊断方法、系统及中医医疗系统
US10586529B2 (en) * 2017-09-14 2020-03-10 International Business Machines Corporation Processing of speech signal
JP6962105B2 (ja) * 2017-09-27 2021-11-05 カシオ計算機株式会社 対話装置、サーバ装置、対話方法及びプログラム
CN107464554B (zh) * 2017-09-28 2020-08-25 百度在线网络技术(北京)有限公司 语音合成模型生成方法和装置
CN107978311B (zh) * 2017-11-24 2020-08-25 腾讯科技(深圳)有限公司 一种语音数据处理方法、装置以及语音交互设备
US11321612B2 (en) * 2018-01-30 2022-05-03 D5Ai Llc Self-organizing partially ordered networks and soft-tying learned parameters, such as connection weights
CN108447490B (zh) * 2018-02-12 2020-08-18 阿里巴巴集团控股有限公司 基于记忆性瓶颈特征的声纹识别的方法及装置
GB201804073D0 (en) * 2018-03-14 2018-04-25 Papercup Tech Limited A speech processing system and a method of processing a speech signal
US20190295087A1 (en) * 2018-03-23 2019-09-26 Microsoft Technology Licensing, Llc System and method for detecting fraud in online transactions by tracking online account usage characteristics indicative of user behavior over time
EP3723082B1 (en) * 2018-04-16 2023-09-06 Google LLC Automatically determining language for speech recognition of spoken utterance received via an automated assistant interface
EP3619708B1 (en) * 2018-04-23 2022-06-08 Google LLC Speaker diarization using an end-to-end model
US11094316B2 (en) * 2018-05-04 2021-08-17 Qualcomm Incorporated Audio analytics for natural language processing
US10872602B2 (en) * 2018-05-24 2020-12-22 Dolby Laboratories Licensing Corporation Training of acoustic models for far-field vocalization processing systems
JP6980603B2 (ja) * 2018-06-21 2021-12-15 株式会社東芝 話者モデル作成システム、認識システム、プログラムおよび制御装置
US10210860B1 (en) * 2018-07-27 2019-02-19 Deepgram, Inc. Augmented generalized deep learning with special vocabulary

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101610151B1 (ko) * 2014-10-17 2016-04-08 현대자동차 주식회사 개인음향모델을 이용한 음성 인식장치 및 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Ian McGraw et al., Personalized Speech recognition on mobile devices, https://arxiv.org/abs/1603.03185 (2016.03)*

Also Published As

Publication number Publication date
KR20200025750A (ko) 2020-03-10
US11183174B2 (en) 2021-11-23
US20200074986A1 (en) 2020-03-05

Similar Documents

Publication Publication Date Title
KR102637339B1 (ko) 음성 인식 모델을 개인화하는 방법 및 장치
CN107680597B (zh) 语音识别方法、装置、设备以及计算机可读存储介质
US20220172707A1 (en) Speech recognition method and apparatus, device, and storage medium
KR102550932B1 (ko) 음성 인식 모델의 개인화 방법 및 장치
JP5777178B2 (ja) 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム
KR20220072811A (ko) 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체
JP5229219B2 (ja) 話者選択装置、話者適応モデル作成装置、話者選択方法、話者選択用プログラムおよび話者適応モデル作成プログラム
US8996366B2 (en) Multi-stage speaker adaptation
CN108615525B (zh) 一种语音识别方法及装置
CN109313892B (zh) 稳健的语言识别方法和系统
JP7171532B2 (ja) 音声を認識する装置及び方法、音声認識モデルをトレーニングする装置及び方法
KR102577589B1 (ko) 음성 인식 방법 및 음성 인식 장치
CN112735373A (zh) 语音合成方法、装置、设备及存储介质
KR20190129580A (ko) 음성 인식 모델을 개인화하는 방법 및 장치
KR20180107940A (ko) 음성 인식을 위한 학습 방법 및 장치
EP3910625A2 (en) Method and apparatus for utterance time estimation
Liu et al. Maximizing mutual information for tacotron
CN116090474A (zh) 对话情绪分析方法、装置和计算机可读存储介质
CN112216270B (zh) 语音音素的识别方法及系统、电子设备及存储介质
JP6786065B2 (ja) 音声評定装置、音声評定方法、教師変化情報の生産方法、およびプログラム
JP7420211B2 (ja) 感情認識装置、感情認識モデル学習装置、それらの方法、およびプログラム
KR20210081166A (ko) 다국어 음성 환경에서의 언어 식별 장치 및 방법
CN116168687B (zh) 一种语音数据处理方法、装置、计算机设备及存储介质
KR102617914B1 (ko) 음성 인식 방법 및 그 시스템
KR20200017160A (ko) 음성을 인식하는 장치, 방법 및 컴퓨터 판독 가능 매체

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant