KR102599480B1 - 키워드 음성인식을 위한 자동 학습 시스템 및 방법 - Google Patents

키워드 음성인식을 위한 자동 학습 시스템 및 방법 Download PDF

Info

Publication number
KR102599480B1
KR102599480B1 KR1020210064257A KR20210064257A KR102599480B1 KR 102599480 B1 KR102599480 B1 KR 102599480B1 KR 1020210064257 A KR1020210064257 A KR 1020210064257A KR 20210064257 A KR20210064257 A KR 20210064257A KR 102599480 B1 KR102599480 B1 KR 102599480B1
Authority
KR
South Korea
Prior art keywords
data
generated data
keyword
quality
voice
Prior art date
Application number
KR1020210064257A
Other languages
English (en)
Other versions
KR20220156344A (ko
Inventor
백윤주
임재봉
이종수
Original Assignee
부산대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 부산대학교 산학협력단 filed Critical 부산대학교 산학협력단
Priority to KR1020210064257A priority Critical patent/KR102599480B1/ko
Publication of KR20220156344A publication Critical patent/KR20220156344A/ko
Application granted granted Critical
Publication of KR102599480B1 publication Critical patent/KR102599480B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 생성데이터의 품질과 다양성을 고려한 키워드 음성인식의 자동 학습으로 음성인식 정확도를 높일 수 있도록 한 키워드 음성인식을 위한 자동 학습 시스템 및 방법에 관한 것으로, 음성인식 할 지정된 키워드를 입력받는 키워드 지정부;음성데이터 생성을 위해 생성 방법 시퀀스들을 만들고 키워드와 네거티브 워드에 대해 생성 방법 시퀀스 별로 생성데이터를 만드는 음성데이터 합성 및 증대부;음성데이터 합성 및 증대를 진행하고 필터링까지 수행한 생성데이터를 활용하여 키워드 음성인식 모델을 학습하는 생성 데이터 학습부;네거티브 워드의 수집데이터에 대한 피처와 생성데이터의 피처의 차이를 분석하는 피처 분석부;품질 기준으로 생성데이터를 필터링하는 생성 데이터 필터링부;피처 분석부의 피처 분석의 결과를 활용하여 품질 계수를 조절하여 생성데이터의 품질과 다양성을 조절하는 품질 및 다양성 조절부;를 포함하는 것이다.

Description

키워드 음성인식을 위한 자동 학습 시스템 및 방법{System and Method for automated training keyword spotter}
본 발명은 음성 인식 기술에 관한 것으로, 구체적으로 생성데이터의 품질과 다양성을 고려한 키워드 음성인식의 자동 학습으로 음성인식 정확도를 높일 수 있도록 한 키워드 음성인식을 위한 자동 학습 시스템 및 방법에 관한 것이다.
음성인식 기술은 마이크로 입력된 음성을 텍스트로 변환하여 출력하는 기술로 스마트 스피커, 스마트 가전, 차량 내비게이션 등 다양한 응용에서 활용되고 있다.
최근 심층신경망 기반의 음성인식 기술의 발전으로 인식 정확도가 비약적으로 향상되고 있다. 심층신경망 기반 음성인식 기술은 음성을 음소 또는 문자와 같은 단위 텍스트로 변환하는 음향 모델과, 단위 텍스트를 언어 정보와 결합하여 문장으로 변환하는 언어 모델로 구성된다.
음향 모델과 언어 모델을 활용함으로써 단어나 문장 구조와 무관하게 높은 정확도를 보이는 장점이 있다.
그러나 모델의 크기와 복잡성으로 인해 고성능의 장치가 필요한 한계점이 있다.
한편, 키워드 음성인식 기술은 입력된 음성 중 학습한 키워드만을 인식하는 기술로 모델의 크기와 복잡성이 낮아 성능이 제약적인 장치에서 활용 가능하다. 이러한 특성으로 가전, 완구, 키오스크 등 단순한 명령어 인식이 필요한 응용에서 널리 활용 가능하다. 예를 들어 키워드 음성인식 기술을 활용하여 '켜줘', '꺼줘'를 학습하고 이를 가전제품에 탑재하여 음성 인터페이스로 활용할 수 있다.
그리고 완구 응용에서는 '안녕', '놀아줘' 등의 키워드를 학습하여 활용할 수 있다. 그러나 가전 및 완구 각각의 예시와 같이 키워드 음성인식 기술은 제품에 따라 필요한 키워드가 다르므로, 제품 별로 키워드에 대한 음성데이터 수집과 음성인식 모델 학습을 다시 수행해야하는 단점이 있다.
키워드 음성인식 기술은 음성을 텍스트로 변환하기 위해 음향 모델과 언어 모델을 활용하는 대신, 미리 지정한 특정 개수의 키워드만을 인식하는 단순한 음성인식 모델을 활용한다.
도 1은 종래 기술의 키워드 음성인식 기술의 파이프라인 구성도이다.
도 1에서와 같이, 같이 키워드 음성인식 기술은 일정 길이의 음성을 입력 받아 학습한 심층신경망 모델을 통해 지정한 키워드 중 하나로 분류하여 출력한다.
키워드 음성인식에 활용되는 심층신경망 모델은 N개 키워드에 대한 음성데이터를 활용하여 N개 키워드 중 하나로 분류하도록 학습한다.
예를 들어, 도 1에서와 같이 'Yes', 'No', 'On', 'Off' 등 N개 중 하나로 분류되는 키워드 음성인식 모델을 학습하기 위해서는, N개 키워드를 녹음한 대량의 음성데이터를 학습해야 한다.
따라서, 제품 별로 음성데이터 수집과 음성인식 모델 학습을 다시 진행해야 하므로 큰 비용이 발생하는 문제가 있다.
그리고 심층신경망 기반 음성인식 모델을 학습하기 위해서는 많은 양의 음성데이터가 필요하다. 음성데이터 합성 기술은 입력한 텍스트를 음성데이터로 변환하는 기술로 TTS (Text-To-Speech)로도 불린다.
최근 심층신경망 기반 음성합성 기술의 발전으로 음성을 다양한 목소리로 자연스럽게 생성 가능하여 오디오 북 서비스, 자동 더빙 서비스, 스마트 스피커 등 다양한 응용에서 활용되고 있다.
음성데이터 합성 기술은 한 텍스트에 대하여 성별, 특질, 운율, 감정 등의 합성 방법을 통해 다양한 음성데이터를 생성할 수 있다.
음성데이터 증대 기술은 하나의 음성데이터를 변형하여 다양한 음성데이터를 추가로 생성할 수 있는 기술이다. 피치, 템포, 볼륨, 리버브, 에코, 시프트, 마스킹, 노이즈 등의 증대 방법을 통해 다양한 음성데이터를 생성할 수 있다.
도 2는 심층신경망의 일 예를 나타낸 구성도이다.
심층신경망 모델은 기계학습 모델의 하나로서 도 2에서와 같이 입력과 출력 사이에 여러 개의 층(Layer) 들로 구성되어 있다.
심층신경망은 음성 입력에 대해 N개 키워드 중 하나로 출력하는 분류 모델로서 활용할 수 있다. 입력과 출력의 쌍으로 구성된 데이터세트에 대한 심층신경망의 학습 과정에서 각 층의 피처(Feature)는 입력과 출력의 관계를 잘 표현하도록 학습된다.
즉 키워드 음성인식을 위한 심층신경망의 학습 과정은 음성 입력 별로 키워드 분류에 최적화되도록 각 층의 피처가 조정되는 과정이다. 심층신경망 모델을 통해서 입력 별로 출력을 얻을 수 있을 뿐만 아니라 입력 별로 서로 다른 피처를 얻을 수 있다. 이러한 입력 별 각 층의 피처는 심층신경망 모델의 특성을 분석하는데 활용할 수 있다.
도 3은 학습 과정 별 피처 분석의 일 예를 나타낸 구성도이다.
특히 입력 별 각 층의 피처들을 거리 혹은 인접도 등 공간적으로 분석할 수 있다. 도 3에서와 같이 다수 키워드 음성에 대한 피처들을 하나의 공간으로 분석해 볼 수 있다. 피처 분석을 통해 키워드 음성인식 학습 과정을 살펴보면 동일한 키워드 음성의 피처들은 점점 가깝도록 유도되고 서로 다른 키워드 음성의 피처들은 점점 멀어지도록 유도된다.
그러므로 N개의 키워드에 대해 서로 같은 키워드에 대한 두 피처는 공간적으로 더 인접하게, 서로 다른 키워드에 대한 두 피처는 공간적으로 더 멀게 학습된다. 그리고 동일한 키워드에 대한 음성들도 데이터의 유사성에 따라 인접도가 달라진다.
도 4a와 도 4b는 일반적인 자동 학습 장치 및 방법을 나타낸 구성도이다.
일반적인 자동 학습 장치는 도 4a에서와 같이, 키워드 지정부(40), 음성데이터 합성 및 증대부(41), 생성 데이터 학습부(42)를 포함한다.
키워드 음성인식 모델은 제품 별로 필요한 키워드가 다르고 음성데이터 수집과 음성인식 모델 학습을 다시 진행해야 하는 단점을 해결하기 위해서, 도 4a에서와 같이 음성데이터 합성 및 증대 기술을 활용하여 지정한 키워드에 대해 음성데이터를 생성하고, 생성데이터를 활용하여 키워드 음성인식 모델을 자동으로 학습할 수 있다.
그러나 이러한 단순한 자동 학습 장치는 생성한 음성데이터만을 활용하여 음성인식 모델을 학습할 경우 수집한 음성데이터를 활용하여 학습하였을 때보다 정확도가 떨어지는 문제가 있다.
일반적인 자동 학습 방법은 도 4b에서와 같이, 키워드 지정 단계(S401), 음성데이터 합성 및 증대 단계(S402), 생성 데이터 학습 단계(S403), 장치에 모델을 탑재하는 단계(S404)를 포함한다.
키워드 음성인식은 제품 별로 인식이 필요한 키워드가 다르므로 제품 별로 다른 키워드 음성인식 모델이 필요하다. 그러므로 키워드 음성인식 모델은 제품 별로 음성데이터 수집과 음성인식 모델 학습을 다시 진행해야 하는 어려움이 있다.
이를 해결하기 위하여 도 4b에서와 같이 음성데이터 합성 및 증대 기술을 활용하여 지정한 키워드에 대해 음성데이터를 생성하고, 생성데이터를 활용하여 키워드 음성인식 모델을 자동으로 학습할 수 있다. 즉 변경된 키워드에 대해 음성데이터 수집 없이 생성한 음성데이터만을 활용하여 키워드 음성인식 모델을 사람의 개입 없이 자동으로 학습시킬 수 있다.
그러나 생성한 음성데이터만을 활용하여 음성인식 모델을 학습할 경우 수집한 음성데이터를 활용하여 학습하였을 때보다 정확도가 떨어지는 문제가 있다.
따라서, 키워드의 생성데이터만을 활용하여 키워드 음성인식 모델을 학습하였을 때 발생하는 정확도 하락 문제를 개선하기 위한 새로운 기술의 개발이 요구되고 있다.
대한민국 공개특허번호 제10-2013-0125064호 대한민국 공개특허번호 제10-2017-0032114호 대한민국 공개특허번호 제10-2020-0063984호
본 발명은 종래 기술의 음성 인식 기술의 문제점을 해결하기 위한 것으로, 생성데이터의 품질과 다양성을 고려한 키워드 음성인식의 자동 학습으로 음성인식 정확도를 높일 수 있도록 한 키워드 음성인식을 위한 자동 학습 시스템 및 방법을 제공하는데 그 목적이 있다.
본 발명은 네거티브 워드에 대한 생성데이터와 수집데이터의 피처 분석을 통해 키워드에 대한 생성데이터의 품질과 다양성을 조절하고 필터링하여 음성인식 정확도를 개선할 수 있도록 한 키워드 음성인식을 위한 자동 학습 시스템 및 방법을 제공하는데 그 목적이 있다.
본 발명은 생성데이터의 품질과 다양성을 조절을 위해 네거티브 워드의 수집데이터에 대한 피처와 생성데이터의 피처의 차이를 분석하여 음성인식 정확도를 높일 수 있도록 한 키워드 음성인식을 위한 자동 학습 시스템 및 방법을 제공하는데 그 목적이 있다.
본 발명은 키워드에 대한 생성데이터 필터링을 위해 네거티브 워드의 수집데이터에 대한 피처와 생성데이터에 대한 피처 간 차이를 크게 하는 음성데이터 합성 및 증대 방법을 찾고, 이러한 합성 및 증대 방법으로 생성된 키워드의 생성데이터를 필터링하는 것에 의해 음성인식 정확도를 높일 수 있도록 한 키워드 음성인식을 위한 자동 학습 시스템 및 방법을 제공하는데 그 목적이 있다.
본 발명은 다수의 생성 방법 시퀀스들을 만들고 이를 활용하여 키워드와 네거티브 워드의 음성데이터를 생성하고 네거티브 워드의 생성데이터 중 낮은 품질의 생성데이터를 찾고, 이러한 생성데이터를 위해 활용된 생성 방법 시퀀스를 찾는 것에 의해 효율적인 음성인식이 가능하도록 한 키워드 음성인식을 위한 자동 학습 시스템 및 방법을 제공하는데 그 목적이 있다.
본 발명은 네거티브 워드에 대한 수집데이터와 생성데이터의 피처 분석을 통해 생성 방법 시퀀스의 품질을 평가하고, 생성 방법 시퀀스의 품질에 따라 키워드와 네거티브 워드의 생성데이터를 동시에 필터링하는 것에 의해 효율적인 음성인식이 가능하도록 한 키워드 음성인식을 위한 자동 학습 시스템 및 방법을 제공하는데 그 목적이 있다.
본 발명의 다른 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상기와 같은 목적을 달성하기 위한 본 발명에 따른 키워드 음성인식을 위한 자동 학습 시스템은 음성인식 할 지정된 키워드를 입력받는 키워드 지정부;음성데이터 생성을 위해 생성 방법 시퀀스들을 만들고 키워드와 네거티브 워드에 대해 생성 방법 시퀀스 별로 생성데이터를 만드는 음성데이터 합성 및 증대부;음성데이터 합성 및 증대를 진행하고 필터링까지 수행한 생성데이터를 활용하여 키워드 음성인식 모델을 학습하는 생성 데이터 학습부;네거티브 워드의 수집데이터에 대한 피처와 생성데이터의 피처의 차이를 분석하는 피처 분석부;품질 기준으로 생성데이터를 필터링하는 생성 데이터 필터링부;피처 분석부의 피처 분석의 결과를 활용하여 품질 계수를 조절하여 생성데이터의 품질과 다양성을 조절하는 품질 및 다양성 조절부;를 포함하는 것을 특징으로 한다.
여기서, 생성 데이터 학습부는, 키워드 음성인식을 위해 학습된 심층신경망 모델이 음성 입력에 대해 지정한 키워드 중 하나로 분류하여 출력하도록 하는 것을 특징으로 한다.
그리고 네거티브 워드의 수집데이터에 대한 피처와 생성데이터에 대한 피처 간 차이를 크게 하는 음성데이터 합성 및 증대 방법으로 생성된 키워드의 생성 데이터를 생성 데이터 필터링부에서 필터링 하는 것을 특징으로 한다.
그리고 생성 방법 시퀀스는 품질 계수에 따라 합성 및 증대 방법 조합 및 강도 선택에 제약을 두고, 품질 계수가 높을수록 시퀀스 길이는 짧아지고 강도는 낮아져 인공적인 변형을 최소화하여 생성데이터의 품질을 높이고, 품질 계수가 낮을수록 시퀀스는 길어지고 강도는 높아져 다양한 변형을 적용하여 생성데이터의 다양성을 높이는 것을 특징으로 한다.
그리고 피처 분석부는, 네거티브 워드에 대한 수집데이터와 생성데이터의 피처 분석을 통해 생성 방법 시퀀스의 품질을 평가하여, 생성 방법 시퀀스의 품질에 따라 키워드와 네거티브 워드의 생성데이터를 동시에 필터링할 수 있도록 하는 것을 특징으로 한다.
그리고 키워드 음성인식을 위한 자동 학습 시스템의 서버에는 키워드 지정, 자동 모델 학습, 디바이스에 모델 탑재를 위한 프로그램이 제공되고, 키워드 음성인식 모델이 탑재된 디바이스와 서버 간의 연결에 의해 키워드 음성인식 모델의 업데이트가 이루어지는 것을 특징으로 한다.
다른 목적을 달성하기 위한 본 발명에 따른 키워드 음성인식을 위한 자동 학습 방법은 음성인식 할 지정된 키워드를 입력받는 키워드 지정 단계;네거티브 워드의 수집데이터에 대한 피처와 생성데이터의 피처의 차이를 분석하는 피처 분석의 결과를 활용하여 품질 계수를 조절하여 생성데이터의 품질과 다양성을 조절하는 품질 및 다양성 조절 단계;음성데이터 생성을 위해 다수의 생성 방법 시퀀스들을 만들고 키워드와 네거티브 워드에 대해 생성 방법 시퀀스 별로 생성데이터를 만드는 음성데이터 합성 및 증대 단계;품질 기준으로 생성데이터를 필터링하는 생성 데이터 필터링 단계;음성데이터 합성 및 증대를 진행하고 필터링까지 수행한 생성데이터를 활용하여 키워드 음성인식 모델을 학습하는 생성 데이터 학습 단계;를 포함하는 것을 특징으로 한다.
여기서, 생성 데이터 필터링 단계에서, 네거티브 워드의 수집데이터에 대한 피처와 생성데이터에 대한 피처 간 차이를 크게 하는 음성데이터 합성 및 증대 방법으로 생성된 키워드의 생성 데이터를 필터링 하는 것을 특징으로 한다.
그리고 생성 방법 시퀀스는 품질 계수에 따라 합성 및 증대 방법 조합 및 강도 선택에 제약을 두고, 품질 계수가 높을수록 시퀀스 길이는 짧아지고 강도는 낮아져 인공적인 변형을 최소화하여 생성데이터의 품질을 높이고, 품질 계수가 낮을수록 시퀀스는 길어지고 강도는 높아져 다양한 변형을 적용하여 생성데이터의 다양성을 높이는 것을 특징으로 한다.
그리고 피처의 차이를 분석하는 피처 분석 과정에서, 네거티브 워드에 대한 수집데이터와 생성데이터의 피처 분석을 통해 생성 방법 시퀀스의 품질을 평가하여, 생성 방법 시퀀스의 품질에 따라 키워드와 네거티브 워드의 생성데이터를 동시에 필터링할 수 있도록 하는 것을 특징으로 한다.
그리고 네거티브 워드에 대한 수집데이터의 피처와 생성데이터의 피처를 분석하였을 때 피처 차이가 클수록 품질 계수를 높이고 피처 차이가 작을수록 품질 계수를 낮추고, 최초에는 품질 계수를 최대로 하고 학습이 K회 반복될 때까지 품질 계수를 조절하지 않는 것을 특징으로 한다.
그리고 음성데이터 합성 및 증대 단계에서, 음성데이터 합성 모델을 활용하여 지정한 키워드 텍스트에 대해 음성데이터를 생성하고, 한 텍스트에 대하여 성별, 특질 및 강도 조절을 하는 운율, 감정의 합성 방법을 통해 음성데이터들을 생성하는 것을 특징으로 한다.
그리고 음성데이터들을 생성하고, 합성한 음성데이터를 다시 증대시켜 생성데이터들을 다량 확보하기 위하여, 피치, 템포, 볼륨, 리버브, 에코, 시프트, 마스킹, 노이즈의 강도 조절 증대 방법을 통하여 하나의 음성데이터를 변형하여 음성데이터들을 추가로 생성하는 것을 특징으로 한다.
그리고 음성데이터 합성 및 증대 단계에서 합성 방법과 증대 방법을 랜덤하게 조합하고 강도를 랜덤하게 선택하여 다수 생성 방법 시퀀스를 만들어 음성데이터 생성을 하는 것을 특징으로 한다.
그리고 생성 데이터 필터링 단계에서, 네거티브 워드의 수집데이터에 대한 피처와 생성데이터의 피처의 차이를 분석하여, 피처 차이가 큰 생성데이터를 찾고, 피처 차이가 매우 큰 생성데이터를 만드는데 활용된 생성 방법 시퀀스는 키워드 음성인식 모델 학습에 해가 되는 시퀀스로 판단하고, 해당 생성 방법 시퀀스로 생성된 네거티브 워드 음성뿐만 아니라 키워드 음성도 동시에 필터링하는 것을 특징으로 한다.
그리고 필터링 여부를 결정하는 피처 차이의 임계값은 품질 계수에 따라 조절되는 것을 특징으로 한다.
그리고 생성 데이터 학습 단계에서, 키워드의 생성데이터의 집합인 , 네거티브 워드의 생성데이터의 집합인 , 네거티브 워드의 수집데이터의 집합인 만을 활용하여 학습을 진행하는 것을 특징으로 한다.
그리고 1단계 학습에서 피처 분석이 가능하도록 키워드 음성인식 모델을 학습하고, 2단계 학습에서 피처 분석을 통해 생성데이터의 품질과 다양성을 고려하여 키워드 음성인식 모델을 학습하고, 1단계 학습에서는 품질 계수를 최대로 하여 높은 품질의 생성데이터를 활용하여 학습을 진행하고, 2단계 학습에서는 피처 분석을 통해 품질 계수를 조절하고 생성데이터를 필터링하여 품질과 다양성을 고려하여 생성데이터에 대해 학습을 진행하는 것을 특징으로 한다.
그리고 1단계 학습에서는 품질 계수를 최대치로 설정하고 이를 음성데이터 합성 및 증대에서 활용하고, 음성데이터 합성 및 증대에서는 품질 계수에 따라 다수의 생성 방법 시퀀스의 집합인 를 만들고, 이를 기반으로 음성데이터를 생성하는 것을 특징으로 한다.
그리고 음성데이터 합성 및 증대에서는 를 통해 키워드의 생성데이터의 집합인 , 네거티브 워드의 생성데이터의 집합인 를 확보하고, 를 활용하여 키워드 음성인식 모델을 학습시키고, 키워드 음성인식 모델에 대한 1단계 학습 과정은 k회 만큼 반복하고, 2단계 학습에서는 네거티브 워드의 생성데이터의 집합인 , 네거티브 워드의 수집데이터의 집합인 를 활용한 피처 분석을 통해 품질 계수를 조절하여 음성데이터를 생성하고, 피처 분석을 통해 생성데이터를 필터링하여 학습에 활용하는 것을 특징으로 한다.
이상에서 설명한 바와 같은 본 발명에 따른 키워드 음성인식을 위한 자동 학습 시스템 및 방법은 다음과 같은 효과가 있다.
첫째, 생성데이터의 품질과 다양성을 고려한 키워드 음성인식의 자동 학습으로 음성인식 정확도를 높일 수 있도록 한다.
둘째, 네거티브 워드에 대한 생성데이터와 수집데이터의 피처 분석을 통해 키워드에 대한 생성데이터의 품질과 다양성을 조절하고 필터링하여 음성인식 정확도를 개선할 수 있도록 한다.
셋째, 생성데이터의 품질과 다양성을 조절을 위해 네거티브 워드의 수집데이터에 대한 피처와 생성데이터의 피처의 차이를 분석하여 음성인식 정확도를 높일 수 있도록 한다.
넷째, 키워드에 대한 생성데이터 필터링을 위해 네거티브 워드의 수집데이터에 대한 피처와 생성데이터에 대한 피처 간 차이를 크게 하는 음성데이터 합성 및 증대 방법을 찾고, 이러한 합성 및 증대 방법으로 생성된 키워드의 생성데이터를 필터링하는 것에 의해 음성인식 정확도를 높일 수 있도록 한다.
다섯째, 다수의 생성 방법 시퀀스들을 만들고 이를 활용하여 키워드와 네거티브 워드의 음성데이터를 생성하고 네거티브 워드의 생성데이터 중 낮은 품질의 생성데이터를 찾고, 이러한 생성데이터를 위해 활용된 생성 방법 시퀀스를 찾는 것에 의해 효율적인 음성인식이 가능하도록 한다.
여섯째, 네거티브 워드에 대한 수집데이터와 생성데이터의 피처 분석을 통해 생성 방법 시퀀스의 품질을 평가하고, 생성 방법 시퀀스의 품질에 따라 키워드와 네거티브 워드의 생성데이터를 동시에 필터링하는 것에 의해 효율적인 음성인식이 가능하도록 한다.
도 1은 종래 기술의 키워드 음성인식 기술의 파이프라인 구성도
도 2는 심층신경망의 일 예를 나타낸 구성도
도 3은 학습 과정 별 피처 분석의 일 예를 나타낸 구성도
도 4a와 도 4b는 일반적인 자동 학습 장치 및 방법을 나타낸 구성도
도 5는 본 발명에 따른 키워드 음성인식을 위한 자동 학습 시스템의 구성도
도 6은 본 발명에 따른 키워드 음성인식을 위한 자동 학습 방법을 나타낸 플로우 차트
도 7은 본 발명에 따른 키워드 음성인식을 위한 자동 학습 시스템의 전체 구성도
도 8은 키워드 음성인식을 위한 자동 학습 프로그램의 일 예를 나타낸 구성도
도 9는 음성인식 모델 업데이트 기능이 있는 키워드 음성인식을 위한 자동 학습 시스템의 구성도
도 10은 본 발명에 따른 키워드 음성인식을 위한 자동 학습 방법의 상세 구성을 나타낸 플로우 차트
도 11a와 도 11b는 피처 분석의 예시 및 피처 분석을 통한 생성데이터의 필터링 예시를 나타낸 구성도
이하, 본 발명에 따른 키워드 음성인식을 위한 자동 학습 시스템 및 방법의 바람직한 실시 예에 관하여 상세히 설명하면 다음과 같다.
본 발명에 따른 키워드 음성인식을 위한 자동 학습 시스템 및 방법의 특징 및 이점들은 이하에서의 각 실시 예에 대한 상세한 설명을 통해 명백해질 것이다.
도 5는 본 발명에 따른 키워드 음성인식을 위한 자동 학습 시스템의 구성도이다.
본 발명은 생성데이터의 품질과 다양성을 고려한 키워드 음성인식의 자동 학습 방법, 장치, 시스템을 제공하여 음성인식 정확도를 높일 수 있도록 한 것이다.
이를 위하여, 본 발명은 네거티브 워드에 대한 생성데이터와 수집데이터의 피처 분석을 통해 키워드에 대한 생성데이터의 품질과 다양성을 조절하고 필터링하여 음성인식 정확도를 개선하는 구성을 포함할 수 있다.
본 발명은 생성데이터의 품질과 다양성을 조절을 위해 네거티브 워드의 수집데이터에 대한 피처와 생성데이터의 피처의 차이를 분석하여 음성인식 정확도를 높이기 위한 구성을 포함할 수 있다.
본 발명은 키워드에 대한 생성데이터 필터링을 위해 네거티브 워드의 수집데이터에 대한 피처와 생성데이터에 대한 피처 간 차이를 크게 하는 음성데이터 합성 및 증대 방법을 찾고, 이러한 합성 및 증대 방법으로 생성된 키워드의 생성데이터를 필터링하는 구성을 포함할 수 있다.
본 발명은 다수의 생성 방법 시퀀스들을 만들고 이를 활용하여 키워드와 네거티브 워드의 음성데이터를 생성하고 네거티브 워드의 생성데이터 중 낮은 품질의 생성데이터를 찾고, 이러한 생성데이터를 위해 활용된 생성 방법 시퀀스를 찾는 구성을 포함할 수 있다.
본 발명은 네거티브 워드에 대한 수집데이터와 생성데이터의 피처 분석을 통해 생성 방법 시퀀스의 품질을 평가하고, 생성 방법 시퀀스의 품질에 따라 키워드와 네거티브 워드의 생성데이터를 동시에 필터링하는 구성을 포함할 수 있다.
키워드 음성인식 모델은 '틀어줘', '꺼줘', '크게' 등 N개 키워드 음성을 학습하여, 학습한 N가지 키워드를 인식할 수 있다. 따라서 키워드 음성인식 모델을 학습하기 위해서는 인식하고자 하는 N개의 키워드에 대한 음성데이터가 필요하다.
또한, 오인식을 방지하기 위하여 키워드 외 다른 임의의 워드(Word)인 네거티브 워드에 대한 음성데이터가 필요하다.
예를 들어 키워드 음성이 '틀어줘', '꺼줘'일 때 '틀렸어', '꺼내줘' 등 임의의 네거티브 워드 음성이 필요하고 이를 함께 학습함으로써 오인식을 줄일 수 있다.
따라서, 키워드 음성인식 모델은 학습을 위해서 키워드 음성데이터와 네거티브 음성데이터가 필요하다.
키워드 음성인식 학습에서 키워드를 변경하고자 하더라도 네거티브 워드 음성은 그대로 활용 가능하다. 따라서 네거티브 워드에 대해서는 미리 수집한 음성데이터를 그대로 학습에 활용하여도 키워드 음성인식의 자동 학습이 가능하다.
반면에 키워드 음성은 수집데이터를 활용할 경우 키워드 자동 학습이 불가능하다. 즉, 키워드 변경에도 자동 학습이 가능하기 위해서 키워드 음성은 생성데이터만을 활용해야만 한다.
따라서 자동 학습을 위해서는 네거티브 워드 음성은 수집데이터와 생성데이터 모두 활용 가능하고 키워드 음성은 생성데이터만 활용 가능하다.
본 발명에서는 키워드의 생성데이터만을 활용하여 키워드 음성인식 모델을 학습할 경우 수집데이터를 활용하여 학습하였을 때보다 정확도가 떨어지는 문제를 해결하기 위한 것이다.
본 발명에 따른 키워드 음성인식을 위한 자동 학습 시스템은 도 5에서와 같이, 응용이나 요구사항에 따라 음성인식 할 지정된 키워드를 입력 받는 키워드 지정부(51)와, 음성데이터 생성을 위해 다수의 생성 방법 시퀀스들을 만들고 키워드와 네거티브 워드에 대해 생성 방법 시퀀스 별로 생성데이터를 만드는 음성데이터 합성 및 증대부(52)와, 음성데이터 합성 및 증대를 진행하고 필터링까지 수행한 생성데이터를 활용하여 키워드 음성인식 모델을 학습하고, 키워드 음성인식을 위해 학습된 심층신경망 모델이 음성 입력에 대해 지정한 키워드 중 하나로 분류하여 출력하도록 하는 생성 데이터 학습부(53)와, 네거티브 워드의 수집데이터에 대한 피처와 생성데이터의 피처의 차이를 분석하는 피처 분석부(54)와, 품질이 낮은 생성데이터를 필터링하는 생성 데이터 필터링부(55)와, 피처 분석부(54)의 피처 분석의 결과를 활용하여 품질 계수를 조절하여 생성데이터의 품질과 다양성을 조절하는 품질 및 다양성 조절부(56)를 포함한다.
이와 같이, 본 발명에 따른 키워드 음성인식을 위한 자동 학습 시스템은 키워드 음성에 대해 생성데이터만을 학습함에 따라 발생하는 키워드 음성인식의 정확도 하락 문제를 개선하기 위하여, 네거티브 워드에 대한 생성데이터와 수집데이터의 피처 분석을 통해 키워드에 대한 생성데이터의 품질과 다양성을 조절하고 필터링하는 구성을 포함한다.
특히 생성데이터의 품질과 다양성을 조절을 위해 네거티브 워드의 수집데이터에 대한 피처와 생성데이터의 피처의 차이를 분석한다.
그리고 키워드에 대한 생성데이터 필터링을 위해 네거티브 워드의 수집데이터에 대한 피처와 생성데이터에 대한 피처 간 차이를 크게 하는 음성데이터 합성 및 증대 방법을 찾고, 이러한 합성 및 증대 방법으로 생성된 키워드의 생성데이터를 필터링하는 것이다.
피처 분석부(54)는 네거티브 워드의 수집데이터에 대한 피처와 생성데이터의 피처의 차이를 분석한다.
키워드에 대해서는 수집데이터를 활용할 수 없으므로 키워드에 대한 생성데이터의 품질을 평가하는 것은 어렵다. 이에 비해 네거티브 워드에 대해서는 수집데이터와 생성데이터를 모두 활용할 수 있으므로 피처 분석 및 비교를 통해 생성데이터의 품질을 평가할 수 있다. 동일한 네거티브 워드에 대해 수집데이터 피처 대비 생성데이터 피처가 매우 상이할 경우 생성데이터의 품질이 낮을 가능성이 매우 높다.
따라서, 피처 분석부(54)에서 수집데이터 피처와 생성데이터 피처 간의 차이를 분석한 결과를 품질 및 다양성 조절부(56)와 생성데이터 필터링부(55)에서 활용할 수 있다.
품질 및 다양성 조절부(56)는 피처 분석 결과를 활용하여 음성데이터 합성 및 증대부를 위한 품질 계수를 조절한다. 이를 통해 생성데이터에 대해 품질 및 다양성의 Tradeoff를 조절할 수 있다.
그리고 음성데이터 합성 및 증대부(52)에서는 음성데이터 생성을 위해 다수의 생성 방법 시퀀스들을 만든다. 즉 키워드와 네거티브 워드에 대해 생성 방법 시퀀스 별로 생성데이터를 만든다.
그리고 생성 방법 시퀀스는 품질 계수에 따라 합성 및 증대 방법 조합 및 강도 선택에 제약을 둔다. 품질 계수가 높을수록 시퀀스 길이는 짧아지고 강도는 낮아진다. 이를 통해 인공적인 변형을 최소화하여 생성데이터의 품질을 높인다.
품질 계수가 낮을수록 시퀀스는 길어지고 강도는 높아진다. 이를 통해 다양한 변형을 적용하여 생성데이터의 다양성을 높인다.
따라서, 피처 분석부(54)에서 수집데이터 피처와 생성데이터 피처 간의 차이를 분석한 결과에 따라 품질 계수를 조정하고 이를 통해 생성 방법 시퀀스의 품질 및 다양성을 조절한다.
그리고 생성 데이터 필터링부(55)는 생성데이터 필터링을 위해 네거티브 워드의 수집데이터에 대한 피처와 생성데이터에 대한 피처 간 차이를 크게 하는 음성데이터 합성 및 증대 방법을 찾고, 이러한 합성 및 증대 방법으로 생성된 키워드의 생성데이터를 필터링한다.
즉, 네거티브 워드의 생성데이터 중 낮은 품질의 생성데이터를 찾고, 이러한 생성데이터를 위해 활용된 생성 방법 시퀀스를 찾는다. 해당 동일한 생성 방법 시퀀스로 생성된 키워드 음성 역시 품질이 낮을 가능성이 매우 높다. 그러므로 네거티브 워드에 대한 수집데이터와 생성데이터의 피처 분석을 통해 생성 방법 시퀀스의 품질을 평가하고, 생성 방법 시퀀스의 품질에 따라 키워드와 네거티브 워드의 생성데이터를 동시에 필터링한다.
본 발명에 따른 키워드 음성인식을 위한 자동 학습 방법을 구체적으로 설명하면 다음과 같다.
도 6은 본 발명에 따른 키워드 음성인식을 위한 자동 학습 방법을 나타낸 플로우 차트이다.
본 발명에서는 키워드의 생성데이터만을 활용하여 키워드 음성인식 모델을 학습하였을 때 발생하는 정확도 하락 문제를 개선하기 위하여, 생성데이터의 품질과 다양성을 고려한 키워드 음성인식의 자동 학습 방법을 제안한다.
본 발명에 따른 키워드 음성인식을 위한 자동 학습 방법은 도 6에서와 같이, 응용이나 요구사항에 따라 음성인식 할 지정된 키워드를 입력 받는 키워드 지정 단계(S601)와, 네거티브 워드의 수집데이터에 대한 피처와 생성데이터의 피처의 차이를 분석하는 피처 분석의 결과를 활용하여 품질 계수를 조절하여 생성데이터의 품질과 다양성을 조절하는 품질 및 다양성 조절 단계(S602)와, 음성데이터 생성을 위해 다수의 생성 방법 시퀀스들을 만들고 키워드와 네거티브 워드에 대해 생성 방법 시퀀스 별로 생성데이터를 만드는 음성데이터 합성 및 증대 단계(S603)와, 품질이 낮은 생성데이터를 필터링하는 생성 데이터 필터링 단계(S604)와, 음성데이터 합성 및 증대를 진행하고 필터링까지 수행한 생성데이터를 활용하여 키워드 음성인식 모델을 학습하는 생성 데이터 학습 단계(S605) 및 음성인식 장치에 학습된 모델을 탑재하여 활용하는 모델 탑재 단계(S606)를 포함한다.
이와 같은 구성을 포함하는 본 발명에 따른 키워드 음성인식을 위한 자동 학습 방법은 네거티브 워드에 대한 생성데이터와 수집데이터의 피처 분석을 통해 키워드에 대한 생성데이터의 품질과 다양성을 조절하고 필터링하는 구성을 포함한다.
그리고 생성데이터의 품질과 다양성을 조절을 위해 네거티브 워드의 수집데이터에 대한 피처와 생성데이터의 피처의 차이를 분석한다.
그리고 키워드에 대한 생성데이터 필터링을 위해 네거티브 워드의 수집데이터에 대한 피처와 생성데이터에 대한 피처 간 차이를 크게 하는 음성데이터 합성 및 증대 방법을 찾고, 이러한 합성 및 증대 방법으로 생성된 키워드의 생성데이터를 필터링한다.
키워드에 대해서는 수집데이터를 활용할 수 없으므로 키워드에 대한 생성데이터의 품질을 평가하는 것은 어렵다. 이에 비해 네거티브 워드에 대해서는 수집데이터와 생성데이터를 모두 활용할 수 있으므로 피처 분석 및 비교를 통해 생성데이터의 품질을 평가할 수 있다.
본 발명에서는 다수의 생성 방법 시퀀스들을 만들고 이를 활용하여 키워드와 네거티브 워드의 음성데이터를 생성한다. 본 발명에서는 네거티브 워드의 생성데이터 중 낮은 품질의 생성데이터를 찾고, 이러한 생성데이터를 위해 활용된 생성 방법 시퀀스를 찾는다. 해당 동일한 생성 방법 시퀀스로 생성된 키워드 음성 역시 품질이 낮을 가능성이 매우 높다.
그러므로 네거티브 워드에 대한 수집데이터와 생성데이터의 피처 분석을 통해 생성 방법 시퀀스의 품질을 평가하고, 생성 방법 시퀀스의 품질에 따라 키워드와 네거티브 워드의 생성데이터를 동시에 필터링한다.
본 발명에 따른 키워드 음성인식을 위한 자동 학습 방법의 첫 번째 단계인 키워드 지정 단계에서는 응용이나 요구사항에 따라 음성인식 할 키워드를 지정한다. 가전제품을 위해서는 '켜줘', '꺼줘' 등의 키워드를 지정할 수 있고, 완구를 위해서는 '안녕', '놀아줘' 등의 키워드를 지정할 수 있다.
최종적으로 자동 학습된 음성인식 모델은 현 단계에서 지정한 키워드만을 인식한다.
두 번째 단계인 품질 및 다양성 조절 단계에서는 피처 분석을 통해 생성데이터의 품질과 다양성을 조절한다. 현 단계에서 피처 분석을 통해 품질 계수를 조절하고 다음 단계인 합성 및 증대 단계에서 품질 계수에 따라 음성데이터를 생성함으로써 생성데이터의 품질과 다양성을 조절한다.
생성데이터의 품질과 다양성을 조절을 위해 네거티브 워드의 수집데이터에 대한 피처와 생성데이터의 피처 차이를 분석한다. 네거티브 워드에 대한 수집데이터의 피처와 생성데이터의 피처를 분석하였을 때 피처 차이가 클수록 품질 계수를 높이고 피처 차이가 작을수록 품질 계수를 낮춘다.
최초에는 품질 계수를 최대로 하고 학습이 K회 반복될 때까지 품질 계수를 조절하지 않는다.
세 번째 단계인 음성데이터 합성 및 증대 단계에서는 지정한 키워드와 음성데이터를 합성하고 증대한다.
먼저, 음성데이터 합성 모델을 활용하여 지정한 키워드 텍스트에 대해 다양한 목소리의 음성데이터를 생성한다. 한 텍스트에 대하여 성별, 특질, 운율, 감정 등의 합성 방법을 통해 다양한 음성데이터를 생성할 수 있으며 운율, 감정 등은 강도를 조절할 수 있다.
다음으로 합성한 음성데이터를 다시 증대시켜 생성데이터를 다량 확보한다.
즉, 하나의 음성데이터를 변형하여 다양한 음성데이터를 추가로 생성함으로써 다양한 음성데이터를 다량 확보한다. 피치, 템포, 볼륨, 리버브, 에코, 시프트, 마스킹, 노이즈 등의 증대 방법을 통해 다양한 음성데이터를 생성할 수 있고 각 증대 방법들은 강도를 조절할 수 있다.
음성데이터 합성 및 증대 단계에서는 합성 방법과 증대 방법을 랜덤하게 조합하고 강도를 랜덤하게 선택하여 다수 생성 방법 시퀀스를 만든다. 이렇게 만든 생성 방법 시퀀스를 활용하여 음성데이터 생성한다.
즉, 키워드와 네거티브 워드에 대해 생성 방법 시퀀스 별로 생성데이터를 만든다.
생성 방법 시퀀스의 예시는 [성별 남, 특징 1번, 감정 기쁨 2강도, 피치 높음 2강도, 볼륨 낮춤 1강도] 와 같다.
그리고 생성 방법 시퀀스는 품질 계수에 따라 방법 조합 및 강도 선택에 제약을 둔다. 품질 계수가 높을수록 시퀀스 길이는 짧아지고 강도는 낮아진다.
이를 통해 인공적인 변형을 최소화하여 생성데이터의 품질을 높인다. 품질 계수가 낮을수록 시퀀스는 길어지고 강도는 높아진다. 이를 통해 다양한 변형을 적용하여 생성데이터의 다양성을 높인다.
네 번째 단계인 생성데이터 필터링 단계에서는 피처 분석을 통해 생성데이터 중 품질이 떨어지는 생성데이터를 필터링한다.
네거티브 워드의 수집데이터에 대한 피처와 생성데이터의 피처의 차이를 분석하여, 피처 차이가 큰 생성데이터를 찾는다. 피처 차이가 매우 큰 생성데이터를 만드는데 활용된 생성 방법 시퀀스는 키워드 음성인식 모델 학습에 해가 되는 시퀀스이다.
그러므로 해당 생성 방법 시퀀스로 생성된 네거티브 워드 음성뿐만 아니라 키워드 음성도 동시에 필터링한다. 따라서 생성 방법 시퀀스를 활용함으로써 네거티브 워드에 대한 수집데이터의 피처와 생성데이터의 피처 분석을 통해 네거티브 워드의 생성데이터 필터링뿐만 아니라 키워드의 생성데이터 필터링도 가능하다.
필터링 여부를 결정하는 피처 차이의 임계값은 품질 계수에 따라 조절된다.
이를 통해 생성데이터의 품질과 다양성을 모두 고려한 생성데이터 필터링이 가능해진다.
다섯 번째 단계는 음성데이터 합성 및 증대를 진행하고 필터링까지 수행한 생성데이터를 활용하여 키워드 음성인식 모델을 학습한다.
키워드 음성인식을 위해 학습된 심층신경망 모델은 음성 입력에 대해 지정한 키워드 중 하나로 분류하여 출력한다. 이 때 키워드 음성인식 모델의 학습은 일반적은 심층신경망 학습을 그대로 활용할 수 있고, 선택적으로 피처 분석에 용이하게 하는 학습 기법을 적용할 수 있다.
여섯 번째 단계에서는 준비가 완료된 키워드 음성인식 모델을 장치에 탑재시킨다. 키워드 음성인식 모델을 탑재한 장치를 통해 타겟한 제품 및 응용에 활용할 수 있다.
키워드 음성인식을 위한 자동 학습 시스템의 구성에 관하여 구체적으로 설명하면 다음과 같다.
도 7은 본 발명에 따른 키워드 음성인식을 위한 자동 학습 시스템의 전체 구성도이다.
키워드 음성인식을 위한 자동 학습 시스템은 도 7에서와 같이 서버에서 키워드 음성인식을 위한 자동 학습 방법을 통해 키워드 음성인식 모델을 생성하고 이를 디바이스에 탑재시킨다.
도 8은 키워드 음성인식을 위한 자동 학습 프로그램의 일 예를 나타낸 구성도이다.
키워드 음성인식을 위한 자동 학습 시스템의 서버에는 도 8에서와 같이 키워드 지정, 자동 모델 학습, 디바이스에 모델 탑재를 위한 프로그램을 제공한다.
도 9는 음성인식 모델 업데이트 기능이 있는 키워드 음성인식을 위한 자동 학습 시스템의 구성도이다.
디바이스와 서버 간의 연결이 지속적으로 가능하여 키워드 음성인식 모델의 업데이트가 가능하다.
도 10은 본 발명에 따른 키워드 음성인식을 위한 자동 학습 방법의 상세 구성을 나타낸 플로우 차트이다.
키워드 음성인식의 자동 학습 방법은 키워드의 생성데이터의 집합인 , 네거티브 워드의 생성데이터의 집합인 , 네거티브 워드의 수집데이터의 집합인 만을 활용하여 학습을 진행한다.
도 10은 본 발명에서 제안하는 생성데이터의 품질과 다양성을 고려한 키워드 음성인식의 자동 학습 방법의 상세 예시이다.
1단계 학습에서 피처 분석이 가능하도록 키워드 음성인식 모델을 학습하고 2단계 학습에서 피처 분석을 통해 생성데이터의 품질과 다양성을 고려하여 키워드 음성인식 모델을 학습한다.
1단계 학습에서는 품질 계수를 최대로 하여 높은 품질의 생성데이터를 활용하여 학습을 진행하고, 2단계 학습에서는 피처 분석을 통해 품질 계수를 조절하고 생성데이터를 필터링하여 품질과 다양성을 고려하여 생성데이터에 대해 학습을 진행한다.
높은 정확도의 키워드 음성인식 모델을 학습하기 위해서는 음성데이터의 품질이 높고 다양성이 커야 한다.
1단계 학습에서는 생성데이터의 품질을 평가할 수 없으므로 품질 계수를 최대로 하여 생성데이터를 학습하고, 2단계 학습에서는 생성데이터의 품질을 평가할 수 있으므로 품질 계수를 조절하고 생성데이터를 필터링하며 품질이 너무 떨어지지 않는 범위에서 생성데이터의 다양성을 확보할 수 있다.
1단계 학습에서는 품질 계수를 최대치로 설정하고 이를 음성데이터 합성 및 증대에서 활용한다. 음성데이터 합성 및 증대에서는 품질 계수에 따라 다수의 생성 방법 시퀀스의 집합인 를 만들고, 이를 기반으로 음성데이터를 생성한다.
따라서 음성데이터 합성 및 증대에서는 를 통해 키워드의 생성데이터의 집합인 , 네거티브 워드의 생성데이터의 집합인 를 확보한다.
그리고 를 활용하여 키워드 음성인식 모델을 학습시킨다. 키워드 음성인식 모델에 대한 1단계 학습 과정은 k회 만큼 반복하고, 이러한 과정을 통해 모델의 피처 분석이 가능한 상태가 된다.
2단계 학습에서는 피처 분석을 통해 품질 계수를 조절하여 음성데이터를 생성하고, 피처 분석을 통해 생성데이터를 필터링하여 학습에 활용한다. 피처 분석에는 네거티브 워드의 생성데이터의 집합인 , 네거티브 워드의 수집데이터의 집합인 를 활용한다.
키워드에 대해서는 수집데이터를 활용할 수 없으므로 의 품질을 평가하는 것은 어려우나, 를 활용한 피처 분석 및 비교를 통해 품질을 평가할 수 있다.
동일한 네거티브 워드에 대해 의 피처 대비 피처가 매우 상이할 경우 생성데이터의 품질이 낮을 가능성이 매우 높다.
따라서, 피처와 피처 간의 차이를 분석한 결과를 품질 및 다양성 조절과 생성데이터 필터링에 활용할 수 있다.
수집데이터 피처와 생성데이터 피처 간 차이가 충분히 낮고, 품질 계수를 충분히 낮추어 다양성이 충분히 확보되었을 경우 자동 학습을 종료하고 장치에 학습된 모델을 탑재한다.
도 11a와 도 11b는 피처 분석의 예시 및 피처 분석을 통한 생성데이터의 필터링 예시를 나타낸 구성도이다.
피처 분석을 공간적으로 표현한 예시는 도 11a에서와 같다.
원은 에 포한된 음성데이터의 피처들이고, 세모는 에 포함된 음성데이터의 피처들이고, 네모는 에 포함된 음성데이터들의 피처들이다. 서로 다른 색의 원은 서로 다른 키워드에 대한 음성데이터의 피처를 의미하고, 서로 다른 색의 세모와 네모는 서로 다른 네거티브 워드에 대한 음성데이터의 피처를 의미한다. 원과 세모에 적힌 숫자는 해당 음성데이터 생성에 활용된 생성 방법 시퀀스의 번호이다.
품질 및 다양성 조절을 위한 품질 계수 조절은 도 11a에서와 같이 피처 분석을 통해 이루어진다.
에 포함된 음성데이터의 피처와 에 포함된 음성데이터들의 피처의 차이를 분석하고, 피처 차이가 클수록 다음 생성데이터가 품질이 높아질 수 있도록 품질 계수를 높이고, 피처 차이가 작을수록 다음 생성데이터의 다양성이 높아질 수 있도록 품질 계수를 낮춘다.
피처 차이를 계산하기 위해서는 피처 대비 피처들이 편향을 활용하거나, 피처의 분산과 피처의 분산을 활용하는 등 피처에 대한 다양한 공간적인 분석을 활용할 수 있다.
품질 계수는 0과 1 사이의 실수 값이며 이를 통해 생성 방법 시퀀스에 대해 합성 및 증대 방법 조합 및 강도 선택에 제약을 가한다. 품질 계수가 1일 때 방법 조합의 길이는 최대가 될 확률이 높아지고 0일 때 방법 조합의 길이는 최소가 될 확률이 높아진다. 그리고 품질 계수가 1일 때 강도는 최대가 될 확률이 높아지고, 0일 때 강도는 최소가 될 확률이 높아진다.
이와 같이 생성데이터에 대해 품질 및 다양성의 Tradeoff를 조절할 수 있다.
생성데이터 필터링도 동일하게 도 11b에서와 같이 피처 분석을 통해 이루어진다.
피처 대비 피처의 유사도가 떨어질 경우 해당 음성데이터를 학습에서 제외시킨다.
예를 들어, 도 11b에서와 같이 피처들의 중심부에서 거리가 먼 피처들인 3번 피처와 4번 피처에 대한 음성데이터를 필터링한다. 특히 3번과 4번의 생성데이터를 만드는데 활용된 생성 방법 시퀀스는 키워드 음성인식 모델 학습에 해가 되는 시퀀스이다.
그러므로 해당 생성 방법 시퀀스로 생성된 네거티브 워드 음성뿐만 아니라 키워드 음성도 동시에 필터링하여 한다. 따라서 생성 방법 시퀀스를 활용함으로써 네거티브 워드에 대한 수집데이터의 피처와 생성데이터의 피처 분석을 통해 네거티브 워드의 생성데이터 필터링뿐만 아니라 키워드의 생성데이터 필터링도 가능하다.
필터링 여부를 결정 짖는 피처 차이의 임계값은 품질 계수에 따라 조절된다.
이를 통해 생성데이터의 품질과 다양성을 모두 고려한 생성데이터 필터링이 가능해진다.
이러한 학습 방식은 로 학습되는 모델이 로 학습된 모델과 유사하도록 유도되는 효과가 있다.
생성데이터 기반으로 자동 학습한 음성인식 모델은 수집데이터로 학습한 음성인식 모델에 비해 일반적으로 정확도가 떨어진다.
즉, 생성데이터 기반으로 학습한 음성인식 모델의 정확도 는 수집데이터로 학습한 음성인식 모델의 정확도 보다 낮다.
,,로 구성된 음성데이터세트를 활용하여 학습한 키워드 음성인식 모델의 정확도이고, , , , 로 구성된 음성데이터세트를 활용하여 학습한 키워드 음성인식 모델의 정확도이다.
따라서, 본 발명의 자동 학습 방법은 정확도 차이 를 최소화하는 것을 목적한다. 그러므로 로 학습되는 모델이 로 학습된 모델과 유사하도록 유도될 경우 정확도 차이 를 최소화할 수 있다.
자동 학습의 종료 시점은 피처 파이와 품질 계수를 통해 판단할 수 있다.
수집데이터 피처와 생성데이터 피처 간 차이가 충분히 낮고, 품질 계수를 충분히 낮추어 다양성이 충분히 확보되었을 경우 자동 학습을 종료하고 장치에 학습된 모델을 탑재한다.
특히 미리 지정한 상수 a,b,c를 활용하여 와 같은 식으로 피처 차이와 품질 계수가 충분히 낮은지 판단하여 종료 시점을 결정할 수 있다.
이상에서 설명한 본 발명에 따른 키워드 음성인식을 위한 자동 학습 시스템 및 방법은 네거티브 워드에 대한 생성데이터와 수집데이터의 피처 분석을 통해 키워드에 대한 생성데이터의 품질과 다양성을 조절하고 필터링하여 음성인식 정확도를 개선할 수 있도록 하고, 생성데이터의 품질과 다양성을 조절을 위해 네거티브 워드의 수집데이터에 대한 피처와 생성데이터의 피처의 차이를 분석하여 음성인식 정확도를 높일 수 있도록 한 것이다.
이상에서의 설명에서와 같이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 본 발명이 구현되어 있음을 이해할 수 있을 것이다.
그러므로 명시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 하고, 본 발명의 범위는 전술한 설명이 아니라 특허청구 범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
51. 키워드 지정부
52. 음성데이터 합성 및 증대부
53. 생성 데이터 학습부
54. 피처 분석부
55. 생성 데이터 필터링부
56. 품질 및 다양성 조절부

Claims (20)

  1. 음성인식 할 지정된 키워드를 입력 받는 키워드 지정부;
    음성데이터 생성을 위해 생성 방법 시퀀스들을 만들고 키워드와 네거티브 워드에 대해 생성 방법 시퀀스 별로 생성데이터를 만드는 음성데이터 합성 및 증대부;
    음성데이터 합성 및 증대를 진행하고 필터링까지 수행한 생성데이터를 활용하여 키워드 음성인식 모델을 학습하는 생성 데이터 학습부;
    네거티브 워드의 수집데이터에 대한 피처와 생성데이터의 피처의 차이를 분석하는 피처 분석부;
    품질 기준으로 생성데이터를 필터링하는 생성 데이터 필터링부;
    피처 분석부의 피처 분석의 결과를 활용하여 품질 계수를 조절하여 생성데이터의 품질과 다양성을 조절하는 품질 및 다양성 조절부;를 포함하고,
    상기 피처 분석부는 네거티브 워드에 대한 수집데이터와 생성데이터의 피처 분석을 통해 생성 방법 시퀀스의 품질을 평가하여, 생성 방법 시퀀스의 품질에 따라 키워드와 네거티브 워드의 생성데이터를 동시에 필터링할 수 있도록 하는 것을 특징으로 하는 키워드 음성인식을 위한 자동 학습 시스템.
  2. 제 1 항에 있어서, 생성 데이터 학습부는,
    키워드 음성인식을 위해 학습된 심층신경망 모델이 음성 입력에 대해 지정한 키워드 중 하나로 분류하여 출력하도록 하는 것을 특징으로 하는 키워드 음성인식을 위한 자동 학습 시스템.
  3. 제 1 항에 있어서, 네거티브 워드의 수집데이터에 대한 피처와 생성데이터에 대한 피처 간 차이를 크게 하는 음성데이터 합성 및 증대 방법으로 생성된 키워드의 생성 데이터를 생성 데이터 필터링부에서 필터링 하는 것을 특징으로 하는 키워드 음성인식을 위한 자동 학습 시스템.
  4. 제 1 항에 있어서, 생성 방법 시퀀스는 품질 계수에 따라 합성 및 증대 방법 조합 및 강도 선택에 제약을 두고,
    품질 계수가 높을수록 시퀀스 길이는 짧아지고 강도는 낮아져 인공적인 변형을 최소화하여 생성데이터의 품질을 높이고,
    품질 계수가 낮을수록 시퀀스는 길어지고 강도는 높아져 다양한 변형을 적용하여 생성데이터의 다양성을 높이는 것을 특징으로 하는 키워드 음성인식을 위한 자동 학습 시스템.
  5. 삭제
  6. 제 1 항에 있어서, 키워드 음성인식을 위한 자동 학습 시스템의 서버에는 키워드 지정, 자동 모델 학습, 디바이스에 모델 탑재를 위한 프로그램이 제공되고,
    키워드 음성인식 모델이 탑재된 디바이스와 서버 간의 연결에 의해 키워드 음성인식 모델의 업데이트가 이루어지는 것을 특징으로 하는 키워드 음성인식을 위한 자동 학습 시스템.
  7. 음성인식 할 지정된 키워드를 입력 받는 키워드 지정 단계;
    네거티브 워드의 수집데이터에 대한 피처와 생성데이터의 피처의 차이를 분석하는 피처 분석의 결과를 활용하여 품질 계수를 조절하여 생성데이터의 품질과 다양성을 조절하는 품질 및 다양성 조절 단계;
    음성데이터 생성을 위해 다수의 생성 방법 시퀀스들을 만들고 키워드와 네거티브 워드에 대해 생성 방법 시퀀스 별로 생성데이터를 만드는 음성데이터 합성 및 증대 단계;
    품질 기준으로 생성데이터를 필터링하는 생성 데이터 필터링 단계;
    음성데이터 합성 및 증대를 진행하고 필터링까지 수행한 생성데이터를 활용하여 키워드 음성인식 모델을 학습하는 생성 데이터 학습 단계;를 포함하고,
    피처의 차이를 분석하는 피처 분석 과정에서, 네거티브 워드에 대한 수집데이터와 생성데이터의 피처 분석을 통해 생성 방법 시퀀스의 품질을 평가하여, 생성 방법 시퀀스의 품질에 따라 키워드와 네거티브 워드의 생성데이터를 동시에 필터링할 수 있도록 하는 것을 특징으로 하는 키워드 음성인식을 위한 자동 학습 방법.
  8. 제 7 항에 있어서, 생성 데이터 필터링 단계에서,
    네거티브 워드의 수집데이터에 대한 피처와 생성데이터에 대한 피처 간 차이를 크게 하는 음성데이터 합성 및 증대 방법으로 생성된 키워드의 생성 데이터를 필터링 하는 것을 특징으로 하는 키워드 음성인식을 위한 자동 학습 방법.
  9. 제 7 항에 있어서, 생성 방법 시퀀스는 품질 계수에 따라 합성 및 증대 방법 조합 및 강도 선택에 제약을 두고,
    품질 계수가 높을수록 시퀀스 길이는 짧아지고 강도는 낮아져 인공적인 변형을 최소화하여 생성데이터의 품질을 높이고,
    품질 계수가 낮을수록 시퀀스는 길어지고 강도는 높아져 다양한 변형을 적용하여 생성데이터의 다양성을 높이는 것을 특징으로 하는 키워드 음성인식을 위한 자동 학습 방법.
  10. 삭제
  11. 제 7 항에 있어서, 네거티브 워드에 대한 수집데이터의 피처와 생성데이터의 피처를 분석하였을 때 피처 차이가 클수록 품질 계수를 높이고 피처 차이가 작을수록 품질 계수를 낮추고,
    최초에는 품질 계수를 최대로 하고 학습이 K회 반복될 때까지 품질 계수를 조절하지 않는 것을 특징으로 하는 키워드 음성인식을 위한 자동 학습 방법.
  12. 제 7 항에 있어서, 음성데이터 합성 및 증대 단계에서,
    음성데이터 합성 모델을 활용하여 지정한 키워드 텍스트에 대해 음성데이터를 생성하고,
    한 텍스트에 대하여 성별, 특질 및 강도 조절을 하는 운율, 감정의 합성 방법을 통해 음성데이터들을 생성하는 것을 특징으로 하는 키워드 음성인식을 위한 자동 학습 방법.
  13. 제 12 항에 있어서, 음성데이터들을 생성하고, 합성한 음성데이터를 다시 증대시켜 생성데이터들을 다량 확보하기 위하여,
    피치, 템포, 볼륨, 리버브, 에코, 시프트, 마스킹, 노이즈의 강도 조절 증대 방법을 통하여 하나의 음성데이터를 변형하여 음성데이터들을 추가로 생성하는 것을 특징으로 하는 키워드 음성인식을 위한 자동 학습 방법.
  14. 제 13 항에 있어서, 음성데이터 합성 및 증대 단계에서 합성 방법과 증대 방법을 랜덤하게 조합하고 강도를 랜덤하게 선택하여 다수 생성 방법 시퀀스를 만들어 음성데이터 생성을 하는 것을 특징으로 하는 키워드 음성인식을 위한 자동 학습 방법.
  15. 제 7 항에 있어서, 생성 데이터 필터링 단계에서,
    네거티브 워드의 수집데이터에 대한 피처와 생성데이터의 피처의 차이를 분석하여, 피처 차이가 큰 생성데이터를 찾고, 피처 차이가 매우 큰 생성데이터를 만드는데 활용된 생성 방법 시퀀스는 키워드 음성인식 모델 학습에 해가 되는 시퀀스로 판단하고,
    해당 생성 방법 시퀀스로 생성된 네거티브 워드 음성뿐만 아니라 키워드 음성도 동시에 필터링하는 것을 특징으로 하는 키워드 음성인식을 위한 자동 학습 방법.
  16. 제 15 항에 있어서, 필터링 여부를 결정하는 피처 차이의 임계값은 품질 계수에 따라 조절되는 것을 특징으로 하는 키워드 음성인식을 위한 자동 학습 방법.
  17. 제 7 항에 있어서, 생성 데이터 학습 단계에서,
    키워드의 생성데이터의 집합인 , 네거티브 워드의 생성데이터의 집합인 , 네거티브 워드의 수집데이터의 집합인 만을 활용하여 학습을 진행하는 것을 특징으로 하는 키워드 음성인식을 위한 자동 학습 방법.
  18. 제 17 항에 있어서, 1단계 학습에서 피처 분석이 가능하도록 키워드 음성인식 모델을 학습하고,
    2단계 학습에서 피처 분석을 통해 생성데이터의 품질과 다양성을 고려하여 키워드 음성인식 모델을 학습하고,
    1단계 학습에서는 품질 계수를 최대로 하여 높은 품질의 생성데이터를 활용하여 학습을 진행하고, 2단계 학습에서는 피처 분석을 통해 품질 계수를 조절하고 생성데이터를 필터링하여 품질과 다양성을 고려하여 생성데이터에 대해 학습을 진행하는 것을 특징으로 하는 키워드 음성인식을 위한 자동 학습 방법.
  19. 제 18 항에 있어서, 1단계 학습에서는 품질 계수를 최대치로 설정하고 이를 음성데이터 합성 및 증대에서 활용하고,
    음성데이터 합성 및 증대에서는 품질 계수에 따라 다수의 생성 방법 시퀀스의 집합인 를 만들고, 이를 기반으로 음성데이터를 생성하는 것을 특징으로 하는 키워드 음성인식을 위한 자동 학습 방법.
  20. 제 19 항에 있어서, 음성데이터 합성 및 증대에서는 를 통해 키워드의 생성데이터의 집합인 , 네거티브 워드의 생성데이터의 집합인 를 확보하고,
    를 활용하여 키워드 음성인식 모델을 학습시키고, 키워드 음성인식 모델에 대한 1단계 학습 과정은 k회 만큼 반복하고,
    2단계 학습에서는 네거티브 워드의 생성데이터의 집합인 , 네거티브 워드의 수집데이터의 집합인 를 활용한 피처 분석을 통해 품질 계수를 조절하여 음성데이터를 생성하고, 피처 분석을 통해 생성데이터를 필터링하여 학습에 활용하는 것을 특징으로 하는 키워드 음성인식을 위한 자동 학습 방법.

KR1020210064257A 2021-05-18 2021-05-18 키워드 음성인식을 위한 자동 학습 시스템 및 방법 KR102599480B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210064257A KR102599480B1 (ko) 2021-05-18 2021-05-18 키워드 음성인식을 위한 자동 학습 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210064257A KR102599480B1 (ko) 2021-05-18 2021-05-18 키워드 음성인식을 위한 자동 학습 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20220156344A KR20220156344A (ko) 2022-11-25
KR102599480B1 true KR102599480B1 (ko) 2023-11-08

Family

ID=84237108

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210064257A KR102599480B1 (ko) 2021-05-18 2021-05-18 키워드 음성인식을 위한 자동 학습 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR102599480B1 (ko)

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9992745B2 (en) * 2011-11-01 2018-06-05 Qualcomm Incorporated Extraction and analysis of buffered audio data using multiple codec rates each greater than a low-power processor rate
KR101379405B1 (ko) 2012-05-08 2014-03-28 김경서 키워드 음성 인식을 통해 관련 어플리케이션을 실행시키는 음성 통화 처리 방법 및 이를 실행하는 모바일 단말
KR20170032114A (ko) 2015-09-14 2017-03-22 삼성전자주식회사 음성 인식 장치 및 그의 제어방법
CN107358951A (zh) * 2017-06-29 2017-11-17 阿里巴巴集团控股有限公司 一种语音唤醒方法、装置以及电子设备
KR102083938B1 (ko) * 2017-12-08 2020-04-29 주식회사 엘솔루 음성인식 시스템 및 이의 전사데이터 생성 방법
KR20200063984A (ko) 2018-11-28 2020-06-05 삼성전자주식회사 음성 인식 장치 및 방법
KR20190096856A (ko) * 2019-07-30 2019-08-20 엘지전자 주식회사 음성 인식 방법 및 음성 인식 장치
KR102281590B1 (ko) * 2019-07-31 2021-07-29 엘지전자 주식회사 음성인식 성능 향상을 위한 비 지도 가중치 적용 학습 시스템 및 방법, 그리고 기록 매체
KR102243325B1 (ko) * 2019-09-11 2021-04-22 넷마블 주식회사 시동어 인식 기술을 제공하기 위한 컴퓨터 프로그램

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Bonet, David, et al. "Speech enhancement for wake-up-word detection in voice assistants." IberSPEECH (2021.March)*

Also Published As

Publication number Publication date
KR20220156344A (ko) 2022-11-25

Similar Documents

Publication Publication Date Title
Casale et al. Speech emotion classification using machine learning algorithms
JP4458321B2 (ja) 感情認識方法および感情認識装置
CN106688034A (zh) 具有情感内容的文字至语音转换
KR102311922B1 (ko) 사용자의 음성 특성을 이용한 대상 정보 음성 출력 제어 장치 및 방법
WO2019161011A1 (en) Speech style transfer
Vrysis et al. 1D/2D deep CNNs vs. temporal feature integration for general audio classification
Lee et al. A study on speech emotion recognition using a deep neural network
Kundu et al. Joint acoustic factor learning for robust deep neural network based automatic speech recognition
CN116783647A (zh) 生成多样且自然的文本到语音样本
El-Moneim et al. Text-dependent and text-independent speaker recognition of reverberant speech based on CNN
Gudmalwar et al. Improving the performance of the speaker emotion recognition based on low dimension prosody features vector
Woszczyk et al. Domain adversarial neural networks for dysarthric speech recognition
KR102599480B1 (ko) 키워드 음성인식을 위한 자동 학습 시스템 및 방법
Gade et al. A comprehensive study on automatic speaker recognition by using deep learning techniques
CN117219046A (zh) 一种交互语音情感控制方法及系统
JP6594251B2 (ja) 音響モデル学習装置、音声合成装置、これらの方法及びプログラム
KR102113879B1 (ko) 참조 데이터베이스를 활용한 화자 음성 인식 방법 및 그 장치
KR20220070979A (ko) 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 장치 및 음성 합성 방법
Baird et al. A Prototypical Network Approach for Evaluating Generated Emotional Speech}}
CN112863476A (zh) 个性化语音合成模型构建、语音合成和测试方法及装置
CN110910904A (zh) 一种建立语音情感识别模型的方法及语音情感识别方法
Abd El-Moneim et al. Effect of reverberation phenomena on text-independent speaker recognition based deep learning
CN113223503B (zh) 一种基于测试反馈的核心训练语音选择方法
CN117854478B (zh) 基于可控文本的语音合成方法、装置和系统
Shah et al. Speech Emotion Recognition using a Novel Feature Vector based on Voiced Probability and Speech Characteristics

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right