WO2022086274A1

WO2022086274A1 - 전자 장치 및 이의 제어 방법

Info

Publication number: WO2022086274A1
Application number: PCT/KR2021/014918
Authority: WO
Inventors: 김찬우; 가르그아비나브; 고다다난자야나가라자; 문성규; 한창우
Original assignee: 삼성전자 주식회사
Priority date: 2020-10-22
Filing date: 2021-10-22
Publication date: 2022-04-28

Abstract

본 발명은 인코더(Encoder), 어텐션 모델(Attention model) 및 디코더(Decoder)를 포함하는 음성 인식 모델을 저장하는 메모리 및 프로세서를 포함하고, 프로세서는, 사용자 음성과 노이즈(Noise)를 포함하는 제1 오디오 데이터를 획득하고, 제1 오디오 데이터를 음향 증강(Acoustic augmentation)시켜 제2 오디오 데이터를 획득하고, 제2 오디오 데이터를 노이즈를 감소시키는 음향 개선 레이어(Enhancement layer)에 입력하여 제3 오디오 데이터를 획득하고, 오디오 데이터를 표준화하기 위한 시간지연-에너지 표준화 모듈에 제1 오디오 데이터와 제2 오디오 데이터를 입력하여 제4 오디오 데이터를 획득하고, 제3 오디오 데이터 및 제4 오디오 데이터를 이용하여 획득된 음성 인식을 위한 입력 데이터를 인코더에 입력하여 음성 인식 모델을 학습시키는 전자 장치에 관한 것이다.

Description

전자 장치 및 이의 제어 방법

본 개시는 인공지능 학습 알고리즘에 관한 전자 장치 및 이의 제어 방법에 관한 것으로, 더욱 상세하게는, 효율적으로 음성 인식 모델을 학습시키는 전자 장치 및 이의 제어 방법에 관한 것이다.

인공지능(Artificial Intelligence, AI) 시스템은 인간 수준의 지능을 구현하는 컴퓨터 시스템이며, 기존 규칙 기반 스마트 시스템과 달리 기계가 스스로 학습하고 판단하며 발전하는 시스템이다. 인공 지능 시스템은 사용할수록 인식률이 향상되고 사용자의 의도를 보다 정확하게 이해할 수 있게 되어, 기존 규칙 기반 스마트 시스템은 점차 기계 학습(Machine learning)/딥 러닝(Deep learning) 기반 인공지능 시스템으로 대체되고 있다.

인공지능 기술은 기계 학습(Machine learning)/딥 러닝(Deep learning) 및 기계 학습을 활용한 요소 기술들로 구성된다.

기계 학습(Machine learning)/딥 러닝(Deep learning)은 입력 데이터들의 특징을 스스로 분류/학습하는 알고리즘 기술이며, 요소 기술은 기계 학습(Machine learning)/딥 러닝(Deep learning) 등의 학습 알고리즘을 활용하는 기술로서, 언어적 이해, 시각적 이해, 추론/예측, 지식 표현, 동작 제어 등의 기술 분야로 구성된다.

인공지능 기술이 응용되는 다양한 분야는 다음과 같다. 언어적 이해는 인간의 언어/문자를 인식하고 응용/처리하는 기술로서, 자연어 처리, 기계 번역, 대화 시스템, 질의 응답, 음성 인식/합성 등을 포함한다. 시각적 이해는 사물을 인간의 시각처럼 인식하여 처리하는 기술로서, 객체 인식, 객체 추적, 영상 검색, 사람 인식, 장면 이해, 공간 이해, 영상 개선 등을 포함한다. 추론 예측은 정보를 판단하여 논리적으로 추론하고 예측하는 기술로서, 지식/확률 기반 추론, 최적화 예측, 선호 기반 계획, 추천 등을 포함한다. 지식 표현은 인간의 경험 정보를 지식데이터로 자동화 처리하는 기술로서, 지식 구축(데이터 획득/분류), 지식 관리(데이터 활용) 등을 포함한다. 동작 제어는 차량의 자율 주행, 로봇의 움직임을 제어하는 기술로서, 움직임 제어(항법, 충돌, 주행), 조작 제어(행동 제어) 등을 포함한다.

한편, 음성 인식 모델과 관련하여, 전통적인 확률 모델 기반의 음성 인식 시스템은 음성/언어 정보를 개별 확률 모델로 표현하여 시스템 복잡도가 증가하고 음성/언어 간 결합 지식을 표현하는 데 어려움이 있었다.

반면, 종단형 음성 인식 모델(End to end speech recognition model)은 단일 심층 신경망을 사용함으로써 시스템 복잡도를 낮추면서도 음성/언어 간의 결합 정보를 표현할 수 있다는 장점이 있다.

종단형 음성 인식 모델은 일반적으로 음성-문자 쌍의 전사 데이터로부터 음성 인식에 필요한 음향, 음성 및 언어적 변이를 학습하게 되므로 견고한 모델링을 위해서는 다양한 변이를 포함한 대량의 전사 데이터가 필요하다. 그러나, 대량의 전사 데이터 수집은 많은 비용과 시간이 소요되므로 전사 데이터 부족 문제는 종단형 음성 인식 연구에서 가장 큰 문제점 중의 하나로 여겨지고 있다.

최근 들어, 이러한 전사 데이터 부족 문제를 해결하기 위한 연구가 활발히 진행되고 있으며 대표적인 방법으로는 전처리를 통해 음향 개선(Enhancement) 과정을 거치거나 음성 데이터 증강(Data Augmentation)을 이용하는 방법이 있다.

하지만, 전처리를 통한 음향 개선은 잡음이 없는 음성이 입력되면 성능이 저하되거나, 음성을 왜곡시키면 성능이 저하되는 문제점이 발생하였다. 이러한 문제를 해결하기 위해 전처리의 파라미터(parameter)를 조절하거나 전처리를 거친 음성 데이터 베이스로부터 음성 인식 모델을 다시 학습시키는 방법이 있으나, 많은 시간과 비용이 발생하는 문제점이 있다.

또한, 음성 데이터 증강을 이용하는 방법은 잡음이 없는 음성이 입력되면 성능이 저하되거나 다양한 음성 데이터 증강을 거치게 되면 학습이 어려워지는 문제점이 발생하였다. 따라서, 각 상황에 맞는 음성 인식 모델 학습에 적절한 음성 데이터 증강을 도입하기 위해선 많은 시간과 비용을 투자해야 되는 문제점이 있다.

따라서, 보다 용이하게 다양한 음성 데이터를 학습하여 음성 인식 모델의 성능을 향상시킬 수 있는 새로운 학습 모델을 고안할 필요성이 있다.

본 개시는 상술한 문제를 해결하기 위해 고안된 것으로, 본 개시의 목적은 신경망 개선 자동 음성 인식 모델(Neural Enhancement Automatic Speech Recognition)에 있어, 음향 개선 레이어(Enhancement layer)와 표준화(Normalization) 과정을 도입하여 점진적으로 음성 인식 모델의 학습이 이루어지도록 하는 전자 장치 및 이의 제어 방법을 제공함에 있다.

상술한 목적을 달성하기 위한 본 실시 예에 따른 전자 장치는, 인코더(Encoder), 어텐션 모델(Attention model) 및 디코더(Decoder)를 포함하는 음성 인식 모델을 저장하는 메모리 및 프로세서를 포함하고, 상기 프로세서는, 사용자 음성과 노이즈(Noise)를 포함하는 제1 오디오 데이터를 획득하고, 상기 제1 오디오 데이터를 음향 증강(Acoustic augmentation)시켜 제2 오디오 데이터를 획득하고, 상기 제2 오디오 데이터를 노이즈를 감소시키는 음향 개선 레이어(Enhancement layer)에 입력하여 제3 오디오 데이터를 획득하고, 오디오 데이터를 표준화하기 위한 시간지연-에너지 표준화 모듈에 상기 제1 오디오 데이터와 상기 제2 오디오 데이터를 입력하여 제4 오디오 데이터를 획득하고, 상기 제3 오디오 데이터 및 상기 제4 오디오 데이터를 이용하여 획득된 음성 인식을 위한 입력 데이터를 상기 인코더에 입력하여 상기 음성 인식 모델을 학습시킬 수 있다.

한편, 상기 프로세서는, 상기 제2 오디오 데이터의 제1 음성 특징을 추출하고, 상기 제1 음성 특징을 음향 개선 레이어에 입력하여 제2 음성 특징을 포함하는 제3 오디오 데이터를 획득하고, 획득된 제4 오디오 데이터의 제3 음성 특징을 추출하고, 상기 제2 음성 특징 및 상기 제3 음성 특징에 기초하여 상기 음성 인식을 위한 입력 데이터를 획득할 수 있다.

한편, 상기 프로세서는, 상기 제2 음성 특징에 제1 가중치를 곱한 값과 상기 제3 음성 특징에 제2 가중치를 곱한 값을 더하여 상기 음성 인식을 위한 입력 데이터를 획득하고, 상기 제1 가중치와 제2 가중치의 합은 기 설정된 값인 것을 특징으로 할 수 있다.

한편, 상기 음성 인식 모델의 학습 횟수가 증가할수록, 상기 제1 가중치의 값은 증가하고 상기 제2 가중치의 값은 감소할 수 있다.

한편, 상기 음성 인식 모델의 학습 횟수가 임계 학습 횟수를 초과하면, 상기 제2 가중치의 값이 0이 될 수 있다.

한편, 상기 프로세서는, 상기 음성 인식을 위한 입력 데이터를 어텐션 모델(Attention model)에 입력하여 어텐션 정보를 획득하고, 상기 어텐션 정보에 기초하여, 상기 음성 인식을 위한 입력 데이터를 디코딩(Decoding)하여 문자 데이터를 획득하고, 상기 문자 데이터에 기초하여 상기 음성 인식 모델을 학습시킬 수 있다.

한편, 상기 프로세서는, 상기 제3 오디오 데이터를 획득하는 단계에서의 제1 손실, 상기 음성 인식을 위한 입력 데이터를 획득하는 단계에서의 제2 손실 및 상기 문자 데이터를 획득하는 단계에서의 제3 손실로 이루어진 손실 함수(Loss function)를 포함하고, 상기 음성 인식 모델의 학습 횟수가 많을수록 상기 제1 손실의 가중치가 감소하는 것을 특징으로 할 수 있다.

한편, 상기 음성 인식 모델의 학습 횟수가 임계 학습 횟수를 초과하면, 상기 제1 손실의 가중치가 0이 될 수 있다.

한편, 상기 음향 증강은, 피치 증강(Pitch augmentation), 템포 증강(Tempo augmentation), 억양 증강(Tone augmentation), 울림 증강(Reverb augmentation), 리듬 증강(Rhythm augmentation), 진폭 증강(Amplitude augmentation) 중 적어도 하나일 수 있다.

본 개시의 일 실시 예에 따른 전자 장치의 제어 방법은, 사용자 음성과 노이즈(Noise)를 포함하는 제1 오디오 데이터를 획득하는 단계, 상기 제1 오디오 데이터를 음향 증강(Acoustic augmentation)시켜 제2 오디오 데이터를 획득하는 단계, 상기 제2 오디오 데이터를 노이즈를 감소시키는 음향 개선 레이어(Enhancement layer)에 입력하여 제3 오디오 데이터를 획득하는 단계, 오디오 데이터를 표준화하기 위한 시간지연-에너지 표준화 모듈에 상기 제1 오디오 데이터와 상기 제2 오디오 데이터를 입력하여 제4 오디오 데이터를 획득하는 단계 및 상기 제3 오디오 데이터 및 상기 제4 오디오 데이터를 이용하여 획득된 음성 인식을 위한 입력 데이터를 상기 인코더에 입력하여 상기 음성 인식 모델을 학습시키는 단계를 포함한다.

한편, 상기 제3 오디오 데이터를 획득하는 단계는, 상기 제2 오디오 데이터의 제1 음성 특징을 추출하는 단계 및 상기 제1 음성 특징을 음향 개선 레이어에 입력하여 제2 음성 특징을 포함하는 제3 오디오 데이터를 획득하는 단계를 포함하고, 상기 제4 오디오 데이터를 획득하는 단계는, 획득된 제4 오디오 데이터의 제3 음성 특징을 추출하는 단계를 더 포함하고, 상기 음성 인식 모델을 학습시키는 단계는, 상기 제2 음성 특징 및 상기 제3 음성 특징에 기초하여 상기 음성 인식을 위한 입력 데이터를 획득하는 단계를 포함한다.

한편, 상기 음성 인식 모델을 학습시키는 단계는, 상기 제2 음성 특징에 제1 가중치를 곱한 값과 상기 제3 음성 특징에 제2 가중치를 곱한 값을 더하여 상기 음성 인식을 위한 입력 데이터를 획득하고, 상기 제1 가중치와 제2 가중치의 합은 기 설정된 값인 것을 특징으로 할 수 있다.

한편, 상기 제어 방법은, 상기 음성 인식을 위한 입력 데이터를 어텐션 모델(Attention model)에 입력하여 어텐션 정보를 획득하는 단계, 상기 어텐션 정보에 기초하여, 상기 음성 인식을 위한 입력 데이터를 디코딩(Decoding)하여 문자 데이터를 획득하는 단계 및 상기 문자 데이터에 기초하여 상기 음성 인식 모델을 학습시키는 단계를 포함한다.

한편, 상기 제어 방법은, 상기 제3 오디오 데이터를 획득하는 단계에서의 제1 손실, 상기 음성 인식을 위한 입력 데이터를 획득하는 단계에서의 제2 손실 및 상기 문자 데이터를 획득하는 단계에서의 제3 손실로 이루어진 손실 함수(Loss function)를 포함하고, 상기 음성 인식 모델의 학습 횟수가 많을수록 상기 제1 손실의 가중치가 감소하는 것을 특징으로 할 수 있다.

본 발명은, 음향 개선 레이어와 시간지연-에너지 표준화 과정을 종단현 음성인식 모델에 도입하여 용이하게 다양한 음성 데이터를 학습하여 음성 인식 모델의 성능을 향상시킬 수 있다.

또한, 점진적으로 음향 개선 레이어로부터 출력되는 데이터의 비중을 높이고, 시간지연-에너지 표준화 과정에 따라 얻어지는 데이터의 비중을 낮춘 입력 데이터를 획득하여, 이를 인코더에 입력함으로써, 학습 난이도가 낮은 음성 데이터부터 학습 난이도가 높은 음성 데이터로 점진적 학습이 이루어질 수 있도록 한다.

또한, 음성 인식 모델의 전체 손실 함수에서 음향 개선 레이어로부터 입력 데이터를 획득하는 과정에서 발생하는 손실의 가중치를 낮춤으로써 학습 난이도가 낮은 음성 데이터부터 학습 난이도가 높은 음성 데이터로 점진적 학습이 이루어질 수 있도록 한다.

도 1은 본 개시의 일 실시 예에 따른, 전자 장치의 구성을 도시한 블록도이다.

도 2는 본 개시의 일 실시 예에 따른, 음향 개선 레이어와 시간지연-에너지 표준화 과정이 도입된 음성 인식 모델을 설명하기 위한 블록도이다.

도 3a는 본 개시의 다양한 실시 예에 따른, 시간지연-에너지 표준화 모델을 설명하기 위한 원본 음성 데이터의 스펙트럼을 나타낸 도면이다.

도 3b는 본 개시의 다양한 실시 예에 따른, 시간지연-에너지 표준화 모델을 설명하기 위한 음원이 마이크로부터 0.5m 떨어져 있을 때의 음성 데이터의 스펙트럼을 나타낸 도면이다.

도 3c는 본 개시의 다양한 실시 예에 따른, 시간지연-에너지 표준화 모델을 설명하기 위한 음원이 마이크로부터 10m 떨어져 있을 때의 오디오 데이터의 스펙트럼을 나타낸 도면이다.

도 3d는 본 개시의 다양한 실시 예에 따른, 시간지연-에너지 표준화 모델을 설명하기 위한 음원이 마이크로부터 0.5m 떨어져 있을 때, 시간지연-에너지 표준화 과정을 거친 오디오 데이터의 스펙트럼을 나타낸 도면이다.

도 3e는 본 개시의 다양한 실시 예에 따른, 시간지연-에너지 표준화 모델을 설명하기 위한 음원이 마이크로부터 10m 떨어져 있을 때, 시간지연-에너지 표준화 과정을 거친 오디오 데이터의 스펙트럼을 나타낸 도면이다.

도 4는 본 개시의 일 실시 예에 따른, 음성 인식 모델의 학습 횟수가 임계 학습 횟수를 초과하였을 때, 음성 인식 모델을 설명하기 위한 블록도이다.

도 5는 본 개시의 일 실시 예에 따른, 음성 인식 모델의 학습 횟수가 많아져 임계 학습 횟수를 초과하게 되는 경우, 음성 인식 모델의 변화를 설명하기 위한 블록도이다.

도 6은 본 개시의 다양한 실시 예에 따른 전자 장치의 동작을 설명하기 위한 흐름도이다.

-

본 실시 예들은 다양한 변환을 가할 수 있고 여러 가지 실시 예를 가질 수 있는바, 특정 실시 예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나 이는 특정한 실시 형태에 대해 범위를 한정하려는 것이 아니며, 본 개시의 실시 예의 다양한 변경(modifications), 균등물(equivalents), 및/또는 대체물(alternatives)을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다.

본 개시를 설명함에 있어서, 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 개시의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그에 대한 상세한 설명은 생략한다.

덧붙여, 하기 실시 예는 여러 가지 다른 형태로 변형될 수 있으며, 본 개시의 기술적 사상의 범위가 하기 실시 예에 한정되는 것은 아니다. 오히려, 이들 실시 예는 본 개시를 더욱 충실하고 완전하게 하고, 당업자에게 본 개시의 기술적 사상을 완전하게 전달하기 위하여 제공되는 것이다.

본 개시에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 권리범위를 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.

본 개시에서, "가진다," "가질 수 있다," "포함한다," 또는 "포함할 수 있다" 등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.

본 개시에서, "A 또는 B," "A 또는/및 B 중 적어도 하나," 또는 "A 또는/및 B 중 하나 또는 그 이상"등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. 예를 들면, "A 또는 B," "A 및 B 중 적어도 하나," 또는 "A 또는 B 중 적어도 하나"는, (1) 적어도 하나의 A를 포함, (2) 적어도 하나의 B를 포함, 또는 (3) 적어도 하나의 A 및 적어도 하나의 B 모두를 포함하는 경우를 모두 지칭할 수 있다.

본 개시에서 사용된 "제1," "제2," "첫째," 또는 "둘째,"등의 표현들은 다양한 구성요소들을, 순서 및/또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다.

어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "(기능적으로 또는 통신적으로) 연결되어((operatively or communicatively) coupled with/to)" 있다거나 "접속되어(connected to)" 있다고 언급된 때에는, 어떤 구성요소가 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제3 구성요소)를 통하여 연결될 수 있다고 이해되어야 할 것이다.

반면에, 어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 어떤 구성요소와 다른 구성요소 사이에 다른 구성요소(예: 제3 구성요소)가 존재하지 않는 것으로 이해될 수 있다.

본 개시에서 사용된 표현 "~하도록 구성된(또는 설정된)(configured to)"은 상황에 따라, 예를 들면, "~에 적합한(suitable for)," "~하는 능력을 가지는(having the capacity to)," "~하도록 설계된(designed to)," "~하도록 변경된(adapted to)," "~하도록 만들어진(made to)," 또는 "~를 할 수 있는(capable of)"과 바꾸어 사용될 수 있다. 용어 "~하도록 구성된(또는 설정된)"은 하드웨어적으로 "특별히 설계된(specifically designed to)" 것만을 반드시 의미하지 않을 수 있다.

대신, 어떤 상황에서는, "~하도록 구성된 장치"라는 표현은, 그 장치가 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다. 예를 들면, 문구 "A, B, 및 C를 수행하도록 구성된(또는 설정된) 프로세서"는 해당 동작을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리 장치에 저장된 하나 이상의 소프트웨어 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(generic-purpose processor)(예: CPU 또는 application processor)를 의미할 수 있다.

실시 예에 있어서 '모듈' 혹은 '부'는 적어도 하나의 기능이나 동작을 수행하며, 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다. 또한, 복수의 '모듈' 혹은 복수의 '부'는 특정한 하드웨어로 구현될 필요가 있는 '모듈' 혹은 '부'를 제외하고는 적어도 하나의 모듈로 일체화되어 적어도 하나의 프로세서로 구현될 수 있다.

한편, 도면에서의 다양한 요소와 영역은 개략적으로 그려진 것이다. 따라서, 본 발명의 기술적 사상은 첨부한 도면에 그려진 상대적인 크기나 간격에 의해 제한되지 않는다.

이하에서는 첨부한 도면을 참고하여 본 개시에 따른 실시 예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다.

전자 장치(100)는 예를 들어, 스마트 TV(Smart TV), 태블릿 PC(Tablet PC), 모니터(Monitor), 스마트 폰(Smart Phone), 데스크톱 컴퓨터(Desktop Computer), 랩톱 컴퓨터(Laptop Computer), 모바일 기기(Mobile Device), 웨어러블 기기(Wearable Device) 등의 컴퓨터 또는 사용자 단말 장치를 포함할 수 있다.

전자 장치(100)는, 에어컨, 세탁기, 냉장고, 스피커, 다리미, 커피 포트, 청소기, 식기세척기, 전기레인지, 가스레인지, 인덕션(Induction), 선풍기, 청소로봇, 서빙로봇, 의료로봇 등 가전 기기를 포함할 수 있다.

본 개시의 다양한 실시 예에 따른 전자 장치(100)는 메모리(110), 프로세서(120)를 포함할 수 있고, 메모리(110)와 프로세서(120)의 상호 작용에 의하여 음성 인식 모델을 학습시키고, 음성 인식 모델을 통해 음성 인식 기능을 수행할 수 있다.

본 개시의 다양한 실시 예에 따른 전자 장치(100)는, 이외에도 콘덴서 마이크, 리본 마이크, 무빙코일 마이크, 압전소자 마이크, 카본 마이크, MEMS(Micro Electro Mechanical System) 등과 같이 실시간으로 음성을 획득하여 프로세서(120)가 오디오 데이터를 획득할 수 있는 마이크(미도시)를 포함할 수 있다.

본 개시의 다양한 실시 예에 따른 전자 장치(100)는, 이외에도 스피커, 디스플레이, 진동발생부 등과 같이 사용자에게 오디오 데이터에 대응하는 정보를 시각적, 청각적, 촉각적 형태로 제공하는 출력부(미도시)를 더 포함할 수 있다.

메모리(110)는 각종 프로그램이나 데이터를 일시적 또는 비일시적으로 저장하고, 프로세서(120)의 호출에 따라서 저장된 정보를 프로세서(120)에 전달한다. 또한, 메모리(110)는, 프로세서(120)의 연산, 처리 또는 제어 동작 등에 필요한 각종 정보를 전자적 포맷으로 저장할 수 있다

메모리(110)는, 예를 들어, 주기억장치 및 보조기억장치 중 적어도 하나를 포함할 수 있다. 주기억장치는 롬(ROM) 및/또는 램(RAM)과 같은 반도체 저장 매체를 이용하여 구현된 것일 수 있다. 롬은, 예를 들어, 통상적인 롬, 이피롬(EPROM), 이이피롬(EEPROM) 및/또는 마스크롬(MASK-ROM) 등을 포함할 수 있다. 램은 예를 들어, 디램(DRAM) 및/또는 에스램(SRAM) 등을 포함할 수 있다. 보조기억장치는, 플래시 메모리 장치, SD(Secure Digital) 카드, 솔리드 스테이트 드라이브(SSD, Solid State Drive), 하드 디스크 드라이브(HDD, Hard Disc Drive), 자기 드럼, 컴팩트 디스크(CD), 디브이디(DVD) 또는 레이저 디스크 등과 같은 광 기록 매체(optical media), 자기테이프, 광자기 디스크 및/또는 플로피 디스크 등과 같이 데이터를 영구적 또는 반영구적으로 저장 가능한 적어도 하나의 저장 매체를 이용하여 구현될 수 있다.

본 개시의 다양한 실시 예에 따른 메모리(110)는, 인코더(Encoder), 어텐션 모델(Attention model) 및 디코더(Decoder)를 포함하는 음성 인식 모델을 저장할 수 있으며, 데이터 증강 모듈, 음향 개선 레이어(Enhancement layer), 시간지연-에너지 표준화 모듈을 저장할 수 있다. 또한, 음성 인식 모델의 학습 과정에 필요한 수학식, 가중치, 입력 데이터, 출력 데이터, 학습 횟수에 대한 정보 등을 저장할 수 있다.

프로세서(120)는 전자 장치(100)의 전반적인 동작을 제어한다. 구체적으로, 프로세서(120)는 상술한 바와 메모리(110)를 포함하는 전자 장치(100)의 구성과 연결되며, 상술한 바와 같은 메모리(110)에 저장된 적어도 하나의 인스트럭션을 실행함으로써, 전자 장치(100)의 동작을 전반적으로 제어할 수 있다. 특히, 프로세서(120)는 하나의 프로세서(120)로 구현될 수 있을 뿐만 아니라 복수의 프로세서(120)로 구현될 수 있다.

프로세서(120)는 다양한 방식으로 구현될 수 있다. 예를 들어, 프로세서(120)는 주문형 집적 회로(Application Specific Integrated Circuit, ASIC), 임베디드 프로세서, 마이크로 프로세서, 하드웨어 컨트롤 로직, 하드웨어 유한 상태 기계(hardware Finite State Machine, FSM), 디지털 신호 프로세서(Digital Signal Processor, DSP) 중 적어도 하나로 구현될 수 있다.

한편, 본 개시에서 프로세서(120)는 디지털 신호를 처리하는 중앙처리장치(central processing unit(CPU)), MCU(Micro Controller Unit), MPU(micro processing unit), 컨트롤러(controller), 어플리케이션 프로세서(application processor(AP)), 또는 커뮤니케이션 프로세서(communication processor(CP)), ARM 프로세서 중 하나 또는 그 이상을 포함하거나, 해당 용어로 정의될 수 있다. 또한, 프로세서(120)는 프로세싱 알고리즘이 내장된 SoC(System on Chip), LSI(large scale integration)로 구현될 수도 있고, FPGA(Field Programmable gate array) 형 태로 구현될 수도 있다. 프로세서(120)는 메모리(110)에 저장된 컴퓨터 실행가능 명령어(computer executable instructions)를 실행함으로써 다양한 기능을 수행할 수 있다. 뿐만 아니라, 프로세서(120)는 인공지능 기능을 수행하기 위하여, 별도의 AI 전용 프로세서인 GPU(graphics-processing unit), NPU(Neural Processing Unit), VPU(Visual Processing UniT) 중 적어도 하나를 포함할 수 있다.

본 개시의 다양한 실시 예에 따른 프로세서(120)는, 사용자 음성과 노이즈(Noise)를 포함하는 제1 오디오 데이터를 획득하고, 제1 오디오 데이터를 음향 증강(Acoustic augmentation)시켜 제2 오디오 데이터를 획득하고, 제2 오디오 데이터를 노이즈를 감소시키는 음향 개선 레이어(Enhancement layer)에 입력하여 제3 오디오 데이터를 획득하고, 오디오 데이터를 표준화하기 위한 시간지연-에너지 표준화 모듈에 제1 오디오 데이터와 제2 오디오 데이터를 입력하여 제4 오디오 데이터를 획득하고, 제3 오디오 데이터 및 제4 오디오 데이터를 이용하여 획득된 음성 인식을 위한 입력 데이터를 인코더에 입력하여 음성 인식 모델을 학습시킬 수 있다.

또한, 본 개시의 다양한 실시 예에 따른 프로세서(120)는, 음성 인식 모델을 학습시키면서 음성 인식 기능을 수행할 수 있다.

본 개시의 다양한 실시 예에 따른 프로세서(120)의 음성 인식 모델 학습 및 음성 인식 기능은 전자 장치(100)에 설치되는 어플리케이션 실행을 통해 수행되는 것일 수 있다. 여기서, 어플리케이션은 외부 서버에서 전자 장치(100)로 다운로드 된 것일 수 있다.

구체적인 프로세서(120)의 전자 장치(100)의 제어 방법은 도 2 내지 5와 함께 구체적으로 설명한다.

도 2를 참조하면, 프로세서(120)는 음향 증강 모듈(220-1)을 통해 제1 오디오 데이터를 음향 증강시켜 제2 오디오 데이터를 획득할 수 있다.

제1 오디오 데이터(210)는 아날로그 형태의 오디오 데이터를 획득하여 푸리에 변환(Fourier transform)을 통해 특정 시간 길이의 음성 조각이 각 주파수 성분을 얼만큼 갖는지를 스펙트럼 형태로 나타낸 디지털 형태의 오디오 데이터일 수 있다.

따라서, 제1 오디오 데이터(210)는 시간 변화에 따른 주파수를 나타낸 스펙트로그램(Spectogram)에 대한 정보를 포함할 수 있다.

또한, 제1 오디오 데이터(210)는 사용자의 음성뿐만 아니라 다양한 생활 환경에서 발생할 수 있는 노이즈를 포함할 수 있다.

제2 오디오 데이터는 제1 오디오 데이터를 음향 증강 시킨 것으로, 제1 오디오 데이터의 시간, 주파수, 혹은 잠재 공간 내의 변이를 통해 왜곡된 신호를 생성함으로써 데이터 양을 증가시킨 데이터일 수 있다.

여기서, 음향 증강은 피치 증강(Pitch augmentation), 템포 증강(Tempo augmentation), 억양 증강(Tone augmentation), 울림 증강(Reverb augmentation), 리듬 증강(Rhythm augmentation), 진폭 증강(Amplitude augmentation) 등으로 이루어질 수 있으며, 이에 국한되지 않고, 다양한 방식의 음향 증강 방법이 활용될 수 있다.

프로세서(120)는 특징 추출 모듈(220-2)를 통해 획득된 제2 오디오 데이터의 제1 음성 특징에 대한 정보를 획득할 수 있다. 또한, 프로세서(120)는 제1 음성 특징을 음향 개선 레이어(Enhancement layer)(240)에 입력하여 노이즈가 감소된 제2 음성 특징을 포함하는 제3 오디오 데이터를 획득할 수 있다.

프로세서(120)는 오디오 데이터를 표준화하기 위한 시간지연-에너지 표준화 모듈(230-1)에 제1 오디오 데이터 또는 제2 오디오 데이터를 입력하여 제4 오디오 데이터를 획득할 수 있다.

프로세서(120)는 이와 같은 시간지연-에너지 표준화 과정을 통해 음향 증강에 따라 발생할 수 있는 오디오 데이터의 시간 지연에 및 에너지 변화를 표준화하여 학습하기 쉬운 노이즈가 거의 포함되지 않은 오디오 데이터를 획득할 수 있다.

이하에서는 도 3a 내지 3e를 통해 시간지연-에너지 표준화 과정을 음성 데이터의 스펙트럼을 통해 설명하기로 한다.

도 3a를 참조하면, 원본 음성 데이터는 0.3s, 0.6s, 0.9s 부근에서 강한 주파수 신호 세기를 나타내는 것을 볼 수 있다.

도 3b를 참조하면 도 3a의 원본 음성 데이터와 유사하게 0.3s, 0.6s, 0.9s 부근에서 강한 주파수 신호 세기를 나타내며, 신호가 다른 시간대에서도 미세하게 주파수 신호가 관측되는 것을 볼 수 있다. 마이크로부터 0.5m 정도의 거리는 비교적 먼 거리가 아니기 때문에 원본 데이터와 유사한 주파수 신호 분포가 관측되는 것을 볼 수 있다.

도 3c를 참조하면, 0.3s, 0.6s, 0.9s 부근에서 주파수 신호 세기가 약하게 관측되며, 주파수가 신호가 관측되는 되는 시간대가 0.35s, 0.65s, 0.95s로 미세하게 달라진 것을 볼 수 있다. 따라서, 음향 증강을 거친 데이터는 시간지연이 발생하고, 신호의 세기를 결정하는 진폭의 변화가 나타나는 것을 알 수 있다.

도 3d를 참조하면, 시간지연-에너지 표준화 과정을 거친 음성 데이터는 노이즈가 거의 포함되지 않은 원본 음성 데이터의 스펙트럼과 거의 흡사하게 0.3s, 0.6s, 0.9s 부근에서 주파수 신호 세기가 강하게 관측되는 것을 볼 수 있다.

도 3e를 참조하면, 마이크로부터 10m 떨어진 거리에서 발생한 음성을 획득한 것이라도 해당 음성 데이터가 시간지연-에너지 표준화 과정을 거치게 되면, 원본 음성 데이터의 스펙트럼과 거의 흡사하게 0.3s, 0.6s, 0.9s 부근에서 주파수 신호 세기가 강하게 관측되는 것을 볼 수 있다.

이와 같이, 마이크로부터 어느 정도 거리가 떨어진 곳에서 발생한 소리에 대응되는 오디오 데이터 또는 노이즈가 포함된 오디오 데이터가 시간지연-에너지 표준화 과정을 거치게 되면, 노이즈가 거의 포함되지 않은 원본 오디오 데이터와 흡사한 음성 특징을 가지는 것을 볼 수 있다.

따라서, 프로세서(120)는 시간지연-에너지 표준화 과정을 거쳐 학습하기 쉬운 노이즈가 거의 포함되지 않은 오디오 데이터에 기초하여 음성 인식 모델을 학습시킬 수 있다.

다시, 도 2를 참조하면, 프로세서(120)는 특징 추출 모듈(230-2)을 통해 획득된 제4 오디오 데이터의 제3 음성 특징에 대한 정보를 획득할 수 있다.

프로세서(120)는 음향 개선 레이어(240)를 통해 획득된 제3 오디오 데이터의 제2 음성 특징과 시간지연-에너지 표준화 과정을 통해 획득된 제4 오디오 데이터의 제3 음성 특징에 기초하여 음성 인식을 위한 입력 데이터를 획득할 수 있다.

여기서, 제2 음성 특징과 제3 음성 특징에 기초하여 획득된 음성 인식을 위한 입력 데이터는 아래의 수학식 1과 같이 표현될 수 있다.

[수학식 1]

여기서,

는 음향 개선 레이어로부터 획득된 어느 정도 노이즈가 포함된 제3 오디오 데이터의 제2 음성 특징을 나타내고,

은 시간지연-에너지 표준화 과정을 통해 획득된 노이즈가 거의 포함되어 있지 않은 제4 오디오 데이터의 제3 음성 특징을 나타낸다. ω는 가중치를 나타내며, 0과 1 사이의 값을 가질 수 있으나, 이에 국한되지 않고 다른 기 설정된 값일 수 있다.

프로세서(120)는 제2 음성 특징에 제1 가중치(예: 1-ω)를 곱한 값과 제3 음성 특징에 제2 가중치(예: ω)를 곱한 값을 더하여 음성 인식을 위한 입력 데이터를 획득할 수 있다.

또한, 음성 인식 모델의 학습 횟수가 증가할수록, 제1 가중치의 값은 증가하고 제2 가중치의 값은 감소할 수 있으며, 음성 인식 모델의 학습 횟수가 임계 학습 횟수를 초과하면, 제2 가중치의 값이 0이 될 수 있다.

따라서, 음성 인식 모델의 학습 초기에는 제1 가중치의 크기가 제2 가중치의 크기보다 상대적으로 작아, 시간지연-표준화 과정을 통해 획득된 제4 오디오 데이터에 기초한 학습이 이루어질 수 있다. 제4 오디오 데이터는 노이즈를 거의 포함하고 있지 않으므로 학습 난이도가 낮아 학습 초기에도 원활한 학습이 이루어질 수 있고, 음성 인식 기능이 제공될 수 있다.

이후, 학습이 거듭될수록 제1 가중치의 크기가 제2 가중치의 크기보다 상대적으로 커지게 되고, 음향 개선 레이어를 통해 획득된 제3 오디오 데이터에 기초한 학습이 이루어질 수 있다. 제3 오디오 데이터는 어느 정도 노이즈를 포함하고 있지만, 음향 개선 레이어를 통해 노이즈가 어느 정도 감소된 상태이며, 학습 난이도가 낮은 데이터에 대해 음성 인식 모델의 학습이 이루어진 뒤이므로, 무리 없이 학습이 이루어질 수 있고, 음성 인식 기능이 제공될 수 있다.

프로세서(120)는 상술한 바와 같은 점진적 학습 과정을 통해 노이즈를 포함하거나, 마이크로부터 어느 정도 거리가 떨어진 곳에서 발생한 소리에 대응되는 오디오 데이터에 대한 학습과 높은 정확도를 갖는 음성 인식 기능을 수행할 수 있다.

프로세서(120)는 음성 인식을 위한 입력 데이터를 인코더(250)에 입력한 다음, 어텐션 모델(260)에 입력하여 어텐션 정보를 획득할 수 있다. 프로세서(120)는 어텐션 정보에 기초하여, 음성 인식을 위한 입력 데이터를 디코딩하여 문자 데이터를 획득할 수 있다. 프로세서(120)는 획득한 문자 데이터에 기초하여 음성 인식 모델을 학습시킬 수 있다.

프로세서(120)는 인코더(250)를 통해 음성 인식을 위한 입력 데이터에 포함된 음성 특징이 음성 인식에 적합한 잠재 공간 상의 벡터로 변환된 정보를 획득할 수 있다.

프로세서(120)는 어텐션 모델(260)을 통해 디코더(270)가 다음에 출력할 데이터와 가장 연관이 높은 인코더(250)의 출력 데이터가 어디인지를 식별하고, 그 부분에 대응되는 데이터를 디코더(270)에 입력하여 문자 데이터를 획득할 수 있다. 또한 프로세서(120)는 소프트 맥스(280)를 통해 문자 데이터를 학습하여 문자열을 출력할 수 있다.

프로세서(120)는 디코더(270)를 통해 잠재 공간 상의 벡터로 변환된 정보를 디코딩하여 문자 데이터를 획득할 수 있다.

프로세서(120)는 손실 함수에 기초하여 음성 인식 모델을 학습시킬 수 있다. 구체적으로, 프로세서(120)는 손실 함수에 기초하여 음성 인식 모델을 학습시킴으로써, 음성 인식 모델이 적절한 가중치를 가질 수 있도록 할 수 있다.

따라서, 음성 인식 모델은 노이즈가 포함된 오디오 데이터 또는 마이크로부터 어느 정도 거리가 있는 위치에서 발생하는 소리에 대한 오디오 데이터로부터 사용자 음성이 포함하는 정보를 보다 정확하게 획득할 수 있다.

본 개시의 다양한 실시 예에 따른 음성 인식 모델의 손실 함수는 다음과 같은 수학식 2로 표현될 수 있다.

[수학식 2]

L은 손실 함수를 의미한다. L_MSE는 평균제곱오차(Mean Square Error)를 나타내며, 이는 음향 개선 과정을 거쳐 제3 오디오 데이터를 획득하는 단계에서의 제1 손실을 의미할 수 있다. λ는 손실 함수를 구하는 과정에서 제1 손실의 가중치를 나타낸다. L_CTC는 Connectionist Temporal Classification(CTC) 손실로, 음성 인식을 위한 입력 데이터를 인코더(250)에 입력하여 벡터 값을 획득하는 과정에서의 제2 손실을 의미할 수 있다. L_CE은 크로스-엔트로피(Cross-Entropy) 손실로, 음성 인식 모델의 디코더(270)로부터 문자 데이터를 획득하는 단계에서의 제3 손실을 의미할 수 있다.

음성 인식 모델의 학습 횟수가 많을수록 제1 손실의 가중치가 감소할 수 있고, 음성 인식 모델의 학습 횟수가 임계 학습 횟수를 초과하면 제1 손실의 가중치는 0이 될 수 있다.

이와 같이 제1 손실의 가중치가 감소하면서, 손실 함수를 구함에 있어, 음향 개선 과정을 거쳐 제2 음성 특징을 포함하는 제3 오디오 데이터를 획득하는 과정에서의 손실을 고려하는 비중이 점진적으로 감소하게 된다.

제1 손실의 가중치가 0이되면 손실 함수를 구함에 있어, 음향 개선 과정을 거쳐 제2 음성 특징을 포함하는 제3 오디오 데이터를 획득하는 과정에서의 손실을 고려하지 않게 된다.

따라서, 학습이 거듭될수록, 음향 개선 레이어를 거친 어느 정도의 노이즈를 포함하는 제3 오디오 데이터의 제2 음성 특징을 통한 학습의 비중이 높아지고, 노이즈를 포함하거나, 마이크로부터 어느 정도 거리가 떨어진 위치에서 발생하는 소리에 대응되는 오디오 데이터에 대한 음성 인식 정확도가 높은 음성 인식 모델을 획득할 수 있다.

도 4는 본 개시의 일 실시 예에 따른, 음성 인식 모델의 학습 횟수가 임계 학습 횟수를 초과하였을 때, 음성 인식 모델을 설명하기 위한 블록도이며, 도 5는 본 개시의 일 실시 예에 따른, 음성 인식 모델의 학습 횟수가 많아져 임계 학습 횟수를 초과하게 되는 경우, 음성 인식 모델의 변화를 설명하기 위한 블록도이다.

상술한 바와 같이, 음성 인식 모델의 학습 횟수가 증가할수록, 제1 가중치의 값은 증가하고 제2 가중치의 값은 감소할 수 있으며, 음성 인식 모델의 학습 횟수가 임계 학습 횟수를 초과하면, 제2 가중치의 값이 0이 될 수 있다.

또한, 음성 인식 모델의 학습 횟수가 많을수록 제1 손실의 가중치가 감소할 수 있고, 음성 인식 모델의 학습 횟수가 임계 학습 횟수를 초과하면 제1 손실의 가중치는 0이 될 수 있다.

따라서, 도 4를 참조하면, 프로세서(120)는 음성 인식 모델의 학습 횟수가 임계 학습 횟수를 초과하면, 인코더(250)에 입력되는 음성 인식을 위한 입력 데이터는 오로지 음향 개선 레이어(240)로부터 획득된 제3 오디오 데이터의 제2 음성 특징을 기초로 획득하게 되며, 음향 개선 레이어(240)와 인코더(250)가 통합 인코더(410)의 역할을 수행하게 된다.

여기서, 시간지연-에너지 표준화 과정을 거쳐 획득된 제4 오디오 데이터의 제3 음성 특징에 대응되는 가중치가 0이 되고, 음향 개선 레이어(240)를 거쳐 제3 오디오 데이터가 획득되는 과정에서의 제1 손실의 가중치가 0이 되기 때문에 프로세서(120)는 음성 인식을 위한 입력 데이터를 획득함에 있어 제4 오디오 데이터는 고려 대상이 되지 않는다.

도 5를 참조하면, 프로세서(120)는 학습 초기에는 시간지연-에너지 표준화 과정을 거친 노이즈가 거의 포함되지 않아 학습 난이도가 낮은 제4 오디오 데이터의 제3 음성 특징을 기초로 음성 인식을 위한 입력 데이터를 획득할 수 있다.

이후, 학습이 거듭되면, 프로세서(120)는 점진적으로 음향 개선 레이어(240)를 통해 획득한 노이즈가 어느 정도 포함되어 학습 난이도가 비교적 높은 제3 오디오 데이터의 제2 음성 특징을 기초로 음성 인식을 위한 입력 데이터를 획득할 수 있다.

따라서, 프로세서(120)는 학습 난이도가 낮은 데이터부터 학습 난이도가 높은 데이터로 점진적인 음성 인식 모델 학습이 가능하다.

전자 장치(100)는, 사용자 음성과 노이즈(Noise)를 포함하는 제1 오디오 데이터를 획득할 수 있다(S610). 제1 오디오 데이터는 시간 변화에 따른 주파수 신호 세기를 나타낸 스펙트럼에 대한 정보를 포함할 수 있다.

전자 장치(100)는 제1 오디오 데이터를 음향 증강(Acoustic augmentation)시켜 제2 오디오 데이터를 획득할 수 있다(S620). 여기서, 음향 증강은 피치 증강(Pitch augmentation), 템포 증강(Tempo augmentation), 억양 증강(Tone augmentation), 울림 증강(Reverb augmentation), 리듬 증강(Rhythm augmentation), 진폭 증강(Amplitude augmentation) 중 적어도 하나일 수 있다. 또한, 전자 장치(100)는 제2 오디오 데이터의 제1 음성 특징을 추출할 수 있다.

전자 장치(100)는 제2 오디오 데이터를 노이즈를 감소시키는 음향 개선 레이어(Enhancement layer)에 입력하여 제3 오디오 데이터를 획득할 수 있다(S630). 전자 장치(100)는 제2 오디오 데이터의 제1 음성 특징을 음향 개선 레이어에 입력하여 제2 음성 특징을 갖는 제3 오디오 데이터를 획득할 수 있다.

전자 장치(100)는 오디오 데이터를 표준화하기 위한 시간지연-에너지 표준화 모듈에 제1 오디오 데이터와 제2 오디오 데이터를 입력하여 제4 오디오 데이터를 획득할 수 있다(S640). 전자 장치(100)는 획득된 제4 오디오 데이터의 제3 음성 특징을 추출할 수 있다.

전자 장치(100)는 인코더(250)를 통해 음성 인식을 위한 입력 데이터에 포함된 음성 특징이 음성 인식에 적합한 잠재 공간 상의 벡터로 변환된 정보를 획득할 수 있다.

전자 장치(100)는 어텐션 모델(260)을 통해 디코더(270)가 다음에 출력할 데이터와 가장 연관이 높은 인코더(250)의 출력 데이터가 어디인지를 식별하고, 그 부분에 대응되는 데이터를 디코더(270)에 입력하여 문자 데이터를 획득할 수 있다. 또한 전자 장치(100)는 소프트 맥스(280)를 통해 문자 데이터를 학습하여 문자열을 출력할 수 있다.

전자 장치(100)는 제3 오디오 데이터 및 제4 오디오 데이터를 이용하여 획득된 음성 인식을 위한 입력 데이터를 인코더(250)에 입력하여 음성 인식 모델을 학습시킬 수 있다(S650). 또한, 전자 장치(100)는 제3 오디오 데이터의 제2 음성 특징 및 제4 오디오 데이터의 제3 음성 특징에 기초하여 음성 인식을 위한 입력 데이터를 획득할 수 있고, 이를 인코더(250)에 입력하여 음성 인식 모델을 학습시킬 수 있다.

일 실시 예에 따르면, 본 문서에 개시된 다양한 실시 예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 또는 두개의 사용자 장치들(예: 스마트폰들) 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품(예: 다운로더블 앱(downloadable app))의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.

이상에서는 본 개시의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 개시는 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 개시의 요지를 벗어남이 없이 당해 개시에 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형 실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 개시의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

Claims

전자 장치에 있어서,

인코더(Encoder), 어텐션 모델(Attention model) 및 디코더(Decoder)를 포함하는 음성 인식 모델을 저장하는 메모리; 및

프로세서;를 포함하고,

상기 프로세서는,

사용자 음성과 노이즈(Noise)를 포함하는 제1 오디오 데이터를 획득하고,

상기 제1 오디오 데이터를 음향 증강(Acoustic augmentation)시켜 제2 오디오 데이터를 획득하고,

상기 제2 오디오 데이터를 노이즈를 감소시키는 음향 개선 레이어(Enhancement layer)에 입력하여 제3 오디오 데이터를 획득하고,

오디오 데이터를 표준화하기 위한 시간지연-에너지 표준화 모듈에 상기 제1 오디오 데이터와 상기 제2 오디오 데이터를 입력하여 제4 오디오 데이터를 획득하고,

상기 제3 오디오 데이터 및 상기 제4 오디오 데이터를 이용하여 획득된 음성 인식을 위한 입력 데이터를 상기 인코더에 입력하여 상기 음성 인식 모델을 학습시키는, 전자 장치.
제1항에 있어서,

상기 프로세서는,

상기 제2 오디오 데이터의 제1 음성 특징을 추출하고,

상기 제1 음성 특징을 음향 개선 레이어에 입력하여 제2 음성 특징을 포함하는 제3 오디오 데이터를 획득하고,

획득된 제4 오디오 데이터의 제3 음성 특징을 추출하고,

상기 제2 음성 특징 및 상기 제3 음성 특징에 기초하여 상기 음성 인식을 위한 입력 데이터를 획득하는, 전자 장치.
제2항에 있어서,

상기 프로세서는,

상기 제2 음성 특징에 제1 가중치를 곱한 값과 상기 제3 음성 특징에 제2 가중치를 곱한 값을 더하여 상기 음성 인식을 위한 입력 데이터를 획득하고,

상기 제1 가중치와 제2 가중치의 합은 기 설정된 값인 것을 특징으로 하는, 전자 장치.
제3항에 있어서,

상기 음성 인식 모델의 학습 횟수가 증가할수록, 상기 제1 가중치의 값은 증가하고 상기 제2 가중치의 값은 감소하는, 전자 장치.
제4항에 있어서,

상기 음성 인식 모델의 학습 횟수가 임계 학습 횟수를 초과하면, 상기 제2 가중치의 값이 0이 되는, 전자 장치.
제1항에 있어서,

상기 프로세서는,

상기 음성 인식을 위한 입력 데이터를 어텐션 모델(Attention model)에 입력하여 어텐션 정보를 획득하고,

상기 어텐션 정보에 기초하여, 상기 음성 인식을 위한 입력 데이터를 디코딩(Decoding)하여 문자 데이터를 획득하고,

상기 문자 데이터에 기초하여 상기 음성 인식 모델을 학습시키는, 전자 장치.
제6항에 있어서,

상기 프로세서는,

상기 제3 오디오 데이터를 획득하는 단계에서의 제1 손실, 상기 음성 인식을 위한 입력 데이터를 인코더에 입력하여 벡터 값을 획득하는 과정에서의 제2 손실 및 상기 문자 데이터를 획득하는 단계에서의 제3 손실로 이루어진 손실 함수(Loss function)를 포함하고,

상기 음성 인식 모델의 학습 횟수가 많을수록 상기 제1 손실의 가중치가 감소하는 것을 특징으로 하는, 전자 장치.
제7항에 있어서,

상기 음성 인식 모델의 학습 횟수가 임계 학습 횟수를 초과하면, 상기 제1 손실의 가중치가 0이 되는, 전자 장치.
제1항에 있어서,

상기 음향 증강은,

피치 증강(Pitch augmentation), 템포 증강(Tempo augmentation), 억양 증강(Tone augmentation), 울림 증강(Reverb augmentation), 리듬 증강(Rhythm augmentation), 진폭 증강(Amplitude augmentation) 중 적어도 하나인, 전자 장치.
전자 장치의 제어 방법에 있어서,

사용자 음성과 노이즈(Noise)를 포함하는 제1 오디오 데이터를 획득하는 단계;

상기 제1 오디오 데이터를 음향 증강(Acoustic augmentation)시켜 제2 오디오 데이터를 획득하는 단계;

상기 제2 오디오 데이터를 노이즈를 감소시키는 음향 개선 레이어(Enhancement layer)에 입력하여 제3 오디오 데이터를 획득하는 단계;

오디오 데이터를 표준화하기 위한 시간지연-에너지 표준화 모듈에 상기 제1 오디오 데이터와 상기 제2 오디오 데이터를 입력하여 제4 오디오 데이터를 획득하는 단계; 및

상기 제3 오디오 데이터 및 상기 제4 오디오 데이터를 이용하여 획득된 음성 인식을 위한 입력 데이터를 상기 인코더에 입력하여 상기 음성 인식 모델을 학습시키는 단계;를 포함하는 제어 방법.
제10항에 있어서,

상기 제3 오디오 데이터를 획득하는 단계는,

상기 제2 오디오 데이터의 제1 음성 특징을 추출하는 단계; 및

상기 제1 음성 특징을 음향 개선 레이어에 입력하여 제2 음성 특징을 포함하는 제3 오디오 데이터를 획득하는 단계;를 포함하고,

상기 제4 오디오 데이터를 획득하는 단계는,

획득된 제4 오디오 데이터의 제3 음성 특징을 추출하는 단계;를 더 포함하고,

상기 음성 인식 모델을 학습시키는 단계는,

상기 제2 음성 특징 및 상기 제3 음성 특징에 기초하여 상기 음성 인식을 위한 입력 데이터를 획득하는 단계;를 포함하는 제어 방법.
제11항에 있어서,

상기 음성 인식 모델을 학습시키는 단계는,

상기 제2 음성 특징에 제1 가중치를 곱한 값과 상기 제3 음성 특징에 제2 가중치를 곱한 값을 더하여 상기 음성 인식을 위한 입력 데이터를 획득하고,

상기 제1 가중치와 제2 가중치의 합은 기 설정된 값인 것을 특징으로 하는, 제어 방법.
제12항에 있어서,

상기 음성 인식 모델의 학습 횟수가 증가할수록, 상기 제1 가중치의 값은 증가하고 상기 제2 가중치의 값은 감소하는, 제어 방법.
제13항에 있어서,

상기 음성 인식 모델의 학습 횟수가 임계 학습 횟수를 초과하면, 상기 제2 가중치의 값이 0이 되는, 제어 방법.
제10항에 있어서,

상기 제어 방법은,

상기 음성 인식을 위한 입력 데이터를 어텐션 모델(Attention model)에 입력하여 어텐션 정보를 획득하는 단계;

상기 어텐션 정보에 기초하여, 상기 음성 인식을 위한 입력 데이터를 디코딩(Decoding)하여 문자 데이터를 획득하는 단계; 및

상기 문자 데이터에 기초하여 상기 음성 인식 모델을 학습시키는 단계;를 포함하는, 제어 방법.