KR102158743B1 - 자연어 음성인식의 성능향상을 위한 데이터 증강장치 및 방법 - Google Patents

자연어 음성인식의 성능향상을 위한 데이터 증강장치 및 방법 Download PDF

Info

Publication number
KR102158743B1
KR102158743B1 KR1020160031050A KR20160031050A KR102158743B1 KR 102158743 B1 KR102158743 B1 KR 102158743B1 KR 1020160031050 A KR1020160031050 A KR 1020160031050A KR 20160031050 A KR20160031050 A KR 20160031050A KR 102158743 B1 KR102158743 B1 KR 102158743B1
Authority
KR
South Korea
Prior art keywords
unit
signal
frame
speech
voice
Prior art date
Application number
KR1020160031050A
Other languages
English (en)
Other versions
KR20170107283A (ko
Inventor
이성주
강병옥
송화전
정호영
정훈
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020160031050A priority Critical patent/KR102158743B1/ko
Publication of KR20170107283A publication Critical patent/KR20170107283A/ko
Application granted granted Critical
Publication of KR102158743B1 publication Critical patent/KR102158743B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Abstract

심층신경망 기반의 음성인식 시스템에서 자연어 음성인식의 성능향상을 위한 데이터 증강방법이 개시된다. 심층신경망 기반의 음성인식 시스템에서 자연어 음성인식의 성능향상을 위한 데이터 증강방법은, 자연어 발화변이 특성 중 발화속도 변이에 대한 음성 데이터를 증강시키는 단계와, 상기 자연어 발화변이 특성 중 부정확한 발음에 대한 음성 데이터를 증강시키는 단계 및 상기 발화속도 변이와 부정확한 발음에 대하여 증강된 음성 데이터를 이용하여 심층신경망 기반의 음성인식 시스템을 학습하는 단계를 포함한다. 따라서, 음성인식 시스템의 성능을 향상시킬 수 있다.

Description

자연어 음성인식의 성능향상을 위한 데이터 증강장치 및 방법{DATA AUGMENTATION METHOD FOR SPONTANEOUS SPEECH RECOGNITION}
본 발명은 자연어 음성인식의 성능향상을 위한 데이터 증강방법에 관한 것으로, 더욱 상세하게는 심층신경망을 이용한 자연어 음성인식의 성능향상을 위한 데이터 증강(Data Augmentation) 방법에 관한 것이다.
심층신경망 기반의 음성인식 시스템의 학습을 위해서는 많은 데이터들이 필수적이며 학습에 필요한 음성데이터들은 자연어 조음시 발생되는 발화변이 특성을 충분히 반영하고 있어야 한다.
하지만 현재 음성인식 시스템의 음향모델학습을 위한 음성데이터들은 제한된 환경에서 인위적인 방법으로 수집되는데 이러한 음성데이터들은 인간이 자연어를 말할 때 발생하는 발화변이 특성들을 충분히 반영하지 못하는 단점을 가지고 있다.
심층신경망을 이용한 음성인식 시스템은 수많은 데이터들을 활용하여 심층신경망을 학습하는 과정이 필수적이며 이 과정을 통하여 전체 시스템의 성능이 거의 결정되는 특성을 가지고 있다.
즉, 훈련에 참여한 음성데이터들이 실제 사용자가 응용시스템을 사용하게 될 때 나타나는 다양한 사용자들의 발음변이 특성들을 잘 포함하고 있어야 하는데 이러한 데이터들을 제한된 음성녹음 환경하에서 수집하는 것은 사실상 불가능한 문제점을 가지고 있다. 실제로 제한된 녹음환경에서는 인간의 자연스러운 발성을 기대하기 어렵다.
상기한 바와 같은 문제점을 극복하기 위한 본 발명의 목적은 인간의 자연어 발화변이 특성 중 발화속도변이, 부정확한 발음에 대하여 이들 변이특성을 보완할 수 있도록 한 자연어 음성인식 성능향상을 위한 데이터 증강장치 및 방법을 제공하는 것이다.
본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 자연어 음성인식의 성능향상을 위한 데이터 증강장치는 입력 시간축 신호에 포함되어 있는 DC 성분을 제거하는 DC 오프셋 제거 필터링부(DC offset removal filter); 입력신호 분석을 위하여 DC 성분이 제거된 입력 시간축 신호의 백색화(pre-whitening) 필터링을 수행하는 백색화 필터부(Pre-emphasis); 입력신호를 프레임 단위로 분할하는 시그널 프레임부(Signal Framing); 분석 프레임에 윈도우 함수를 곱해하는 시그널 윈도우부(Signal Windowing); 해당 분석 프레임 신호가 음성인지 아닌지를 판별하는 음성 판별부(Voice Activity Detection); 해당 프레임과 이웃한 주변(left and right) 프레임의 신호 혹은 켑스트럼 정보를 이용하여 해당 프레임이 천이구간인지 아니면 안정된 구간인지를 판별하는 천이구간 판별부(Transient Portion Detection); LPC 계수들로부터 켑스트럼을 추정하는 켑스트럼 추정부(Cepstrum estimation); 입력된 음성 판별(voice activity detection) 정보와 천이구간 판별(transient portion detection) 정보를 이용하여 해당 음성이 음성구간인지 아닌지를 판별하고 일단 음성구간으로 판별되면 그 구간이 천이구간인지 안정된 구간인지를 판별하는 안정구간 판별부(Non-speech, transient and steady portion detection); 입력신호를 성도(vocal tract) 성분과 여기신호(excitation) 성분으로 분할하는 입력신호 분할부(Linear Predictive Analysis); 여기신호로부터 Fourier 변환 과정을 이용하여 파워 스펙트럼(power spectrum)을 추정하는 파워 스펙트럼 추정부(power spectrum estimation); 추정된 파워 스펙트럼 정보와 안정구간 판별(non-speech, transient and steady portion detection) 정보를 이용하여 음성과 배경 잡음의 power spectral density(PSD)를 추정하는 PSD 추정부(speech and noise PSD estimation); 추정된 음성과 배경잡음의 PSD 정보를 이용하여 시간축 위너 필터(Wiener filter) 계수들을 추정하는 위너 필터 추정부(Wiener filter estimation); 추정된 시간축 위너 필터(Wiener filter) 계수를 이용하여 여기신호에 포함되어 있는 배경잡음 성분을 제거하는 위너 필터링부(Wiener filtering); 및 LPC 계수와 열화된 여기신호를 합성하여 부정확한 발음을 합성하는 성도 필터링부(Vocal Tract Filtering);를 포함한다.
본 발명의 일 실시예에 따른 자연어 음성인식의 성능향상을 위한 데이터 증강방법은 DC 오프셋 제거 필터링부(DC offset removal filtering)에서 시간축 입력신호의 DC 성분을 제거하는 단계; 백색화(pre-whitening) 필터를 이용하여 백색화 필터부(Pre-emphasis)에서 입력신호를 분석하는 단계; 시그널 프레임부(Signal Framing)에서 입력신호를 프레임 단위(30ms)로 나눠주는 단계; 시그널 윈도우부(Signal Windowing)에서 분석 프레임에 윈도우 함수를 곱해주는 단계; 음성 판별부(Voice Activity Detection)에서 해당 분석 프레임 신호가 음성인지 아닌지를 판별하는 단계; 천이구간 판별부(Transient Portion Detection)에서 해당 프레임과 이웃한 주변(left and right) 프레임의 신호 혹은 켑스트럼 정보를 이용하여 해당 프레임이 천이구간인지 아니면 안정된 구간인지를 판별하는 단계; 켑스트럼 추정부(Cepstrum estimation)에서 LPC 계수들로부터 켑스트럼을 추정하는 단계; 안정구간 판별부(Non-speech, transient and steady portion detection)에서 입력된 음성 판별(voice activity detection) 정보와 천이구간 판별(transient portion detection) 정보를 이용하여 해당 음성이 음성구간인지 아닌지를 판별하고 일단 음성구간으로 판별되면 그 구간이 천이구간인지 안정된 구간인지를 판별하는 단계; 입력신호 분할부(Linear Predictive Analysis)에서 입력신호를 성도(vocal tract) 성분과 여기 신호(excitation) 성분으로 나누어 주는 단계; 시간축 변환부(Variable Rate TSM(time scale modification))에서 여기신호를 대상으로 시간축 변환을 수행하는 단계; LPC 변환부(LPC to LSF conversion)에서 LPC 계수를 LSF(line spectral frequencies or LSP(line spectral pairs))로 변환하는 단계; LSF 추정부(LSF estimation)에서 주변 프레임들의 LSF 값과 시간축 변환비율 상관관계를 이용하여 해당 프레임의 LSF 값을 추정하는 단계; LSF 변환부(LSF to LPC conversion)에서 LSF 값을 성도모델계수로 변환하는 단계; 및 성도 필터링부(Vocal Tract Filtering)에서 시간축 변환된 여기신호와 추정된 성도모델계수를 이용하여 발화속도 변이현상이 반영된 음성신호를 구하는 단계;를 포함한다.
삭제
상술한 바와 같은 자연어 음성인식의 성능향상을 위한 데이터 증강방법에 따르면, 자연어 음성인식에 있어서 컴퓨터가 인간의 음성을 인식하는데 어려움을 겪는 인간의 발화변이 현상중 발화속도변이와 부정확한 발음에 대한 훈련데이터를 증강시킴으로써 음성인식 시스템의 성능을 보다 효율적으로 향상시킬 수 있는 효과가 있다.
도 1은 본 발명의 일 실시예에 따른 발화속도 변환장치의 구성을 도시한 블록도이다.
도 2는 본 발명의 일 실시예에 따른 협대역 노이즈 인젝션(narrow-band noise injection) 접근방법과 위너 필터(Wiener filter)를 이용한 부정확한 발음의 합성장치의 구성을 도시한 블록도이다.
도 3은 본 발명의 일 실시예에 따른 저해상도 양자화(low resolution quantization) 방법을 이용하여 여기신호를 열화시켜 부정확한 발성을 합성하는 장치의 구성을 도시한 블록도이다.
도 4는 본 발명의 일 실시예에 따른 발화속도 변환방법의 흐름도이다.
도 5는 본 발명의 일 실시예에 따른 협대역 노이즈 인젝션(narrow-band noise injection) 접근방법과 위너 필터(Wiener filter)를 이용한 부정확한 발음의 합성방법의 흐름도이다.
도 6은 본 발명의 일 실시예에 따른 저해상도 양자화(low resolution quantization) 방법을 이용하여 여기신호를 열화시켜 부정확한 발성을 합성하는 방법의 흐름도이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 한편, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성소자, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성소자, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.
이하, 본 발명의 바람직한 실시예에 대하여 첨부한 도면을 참조하여 상세히 설명하기로 한다.
인간의 발화속도 변이현상을 나타내는 음성합성방법에서 인간의 자연어 발성시 발화속도 변이현상을 쉽게 관측할 수 있다. 즉, 발화속도가 일정하지 않고 경우에 따라 빨라지거나 느려지는 현상을 말한다.
현재 음성인식 시스템은 이러한 발화속도 변이현상을 잘 모델링하지 못하는 문제점이 있다. 왜냐하면 음성인식 시스템 학습에 사용되는 훈련 데이터들은 일반적으로 제한된 문장을 인간이 낭독하고 이를 녹음하는 과정을 거쳐 수집되기 때문에 이러한 발화속도 변이현상을 효과적으로 반영하기 어렵기 때문이다.
이러한 음성인식 시스템은 빠른 발화속도에 대해서는 그 성능이 크게 저하되는 문제가 있으나 반대로 발화속도가 느려지는 경우에는 상대적으로 그 성능이 강인한 특성을 가진다.
이러한 성능 저하원인은 발화속도가 빨라지는 경우 인간의 조음기관이 어떤 음소를 조음하기 위하여 안정된 상태에 도달하기 전에 이어지는 음소를 조음하기 위해 천이하는 현상으로 인하여 나타나는 발음 변이현상 때문이다. 하기에서는 이러한 발음변이현상을 표현할 수 있는 인위적인 음성합성방법에 대해 설명한다.
도 1은 본 발명의 일 실시예에 따른 발화속도 변환장치의 구성을 도시한 블록도이다.
도 1을 참조하면, 본 발명의 조음 변이를 표현할 수 있는 발화속도 변환장치는 DC 오프셋 제거 필터링부(DC offset removal filtering)(101)와, 백색화 필터부(Pre-emphasis)(102)와, 시그널 프레임부(Signal Framing)(103)와, 시그널 윈도우부(Signal Windowing)(104)와, 음성 판별부(Voice Activity Detection)(105)와, 천이구간 판별부(Transient Portion Detection)(106)와, 켑스트럼 추정부(Cepstrum estimation)(107)와, 안정구간 판별부(Non-speech, transient and steady portion detection)(108)와, 입력신호 분할부(Linear Predictive Analysis)(109)와, 시간축 변환부(Variable Rate TSM(time scale modification))(110)와, LPC 변환부(LPC to LSF conversion)(111)와, LSF 추정부(LSF estimation)(112)와, LSF 변환부(LSF to LPC conversion)(113)와, 성도 필터링부(Vocal Tract Filtering)(114)를 포함한다.
DC 오프셋 제거 필터링부(DC offset removal filtering)(101)는 시간축 입력신호의 DC 성분을 제거할 수 있다.
백색화 필터부(Pre-emphasis)(102)는 입력신호분석을 위하여 사용되는 백색화(pre-whitening) 필터이다.
시그널 프레임부(Signal Framing)(103)는 입력신호를 프레임 단위(30ms)로 나눠주는 역할을 수행할 수 있다.
시그널 윈도우부(Signal Windowing)(104)는 분석 프레임에 윈도우 함수를 곱해준다. 여기서, 음성신호분석을 위해서는 주로 해밍 윈도우(Hamming window)를 사용할 수 있다.
음성 판별부(Voice Activity Detection)(105)는 해당 분석 프레임 신호가 음성인지 아닌지를 판별할 수 있다.
천이구간 판별부(Transient Portion Detection)(106)는 해당 프레임과 이웃한 주변(left and right) 프레임의 신호 혹은 켑스트럼 정보를 이용하여 해당 프레임이 천이구간인지 아니면 안정된 구간인지를 판별할 수 있다.
켑스트럼 추정부(Cepstrum estimation)(107)는 LPC 계수들로부터 켑스트럼을 추정할 수 있다. 이렇게 추정된 켑스트럼 정보는 해당 프레임이 천이구간이지 아닌지를 판별하는 중요한 정보로 사용될 수 있다.
안정구간 판별부(Non-speech, transient and steady portion detection)(108)는 입력된 음성 판별(voice activity detection) 정보와 천이구간 판별(transient portion detection) 정보를 이용하여 해당 음성이 음성구간인지 아닌지를 판별하고 일단 음성구간으로 판별되면 그 구간이 천이구간인지 안정된 구간인지를 판별할 수 있다.
입력신호 분할부(Linear Predictive Analysis)(109)는 입력신호를 성도(vocal tract) 성분과 여기 신호(excitation) 성분으로 나누어 줄 수 있다.
시간축 변환부(Variable Rate TSM(time scale modification))(110)는 여기신호를 대상으로 시간축 변환을 수행한다. 여기서, 시간축 변환방법으로 가장 대표적인 것으로 synchronized overlap and add(SOLA) 방법이 있으며, 이를 이용하면 가변적 비율의 발화속도 변환을 용이하게 구성할 수 있다. 즉, 시간축 변환비율(time scale modification rate)을 가변적으로 적용하는 것으로 쉽게 구현할 수 있다. 이때, 천이구간에 대해서는 시간축 변환비율을 1로 두어 천이구간의 정보를 보존한다. 시간축 변환비율이 1보다 작으면 시간축으로 입력신호가 압축되는 것을 의미한다. 예를 들어, 시간축 변환비율이 0.5인 경우 시간축 신호를 두배로 압축하는 의미를 가지며 발화속도 측면에서는 두배 빠르게 발성하는 것을 의미한다. 시간축 변환비율이 1보다 큰 경우는 반대로 발화속도가 느려지는 것을 의미한다.
LPC 변환부(LPC to LSF conversion)(111)는 LPC 계수를 LSF(line spectral frequencies or LSP(line spectral pairs))로 변환한다. 이는 시간축 변환비율에 따른 decimation 혹은 interpolation을 이용한 조음기관 모델의 제어를 위한 것이다. 성도모델 필터계수의 시간적 변화를 LSF를 이용하여 제어함으로써 조음기관의 변이를 표현해줄 수 있게 된다.
LSF 추정부(LSF estimation)(112)는 주변 프레임들의 LSF 값과 시간축 변환비율 상관관계를 이용하여 해당 프레임의 LSF 값을 추정할 수 있다. 이를 통해 인간의 조음기관의 변이를 표현할 수 있게 된다.
LSF 변환부(LSF to LPC conversion)(113)는 LSF 값을 성도모델계수로 변환할 수 있다.
성도 필터링부(Vocal Tract Filtering)(114)는 시간축 변환된 여기신호와 추정된 성도모델계수를 이용하여 발화속도 변이현상이 반영된 음성신호를 구할 수 있다.
LSF 추정과정(시간축 변환비율 < 1.0 경우)
1. 첫번째 프레임
LSFest=LSF1st
2. 두번째 프레임부터
LSFest=(1-∝)×LSFprv + ∝×LSFcur
여기서, '∝'는 시간축 변환 비율이다.
3. 마지막 프레임
LSFest=LSFlast
삭제
LSF 추정과정(2.0 > 시간축변환비율 > 1.0 경우)
1. 첫번째 프레임부터
LSFest1=LSFcur(합성프레임 첫번째 절반까지)
LSFest2=(2-∝)×LSFcur +(∝-1)×LSFlookahead(합성프레임 나머지 절반)
여기서, '∝'는 시간축 변환 비율이다.
2. 마지막 프레임
삭제
LSFest=LSFlast
본 발명에서 제안된 방법은 성도모델을 기반한 음성분석방법에 그 기반을 두고 있으며 부정확한 발음을 표현하기 위하여 여기신호를 열화시키는 방법을 취하고 있다.
도 2는 본 발명의 일 실시예에 따른 협대역 노이즈 인젝션(narrow-band noise injection) 접근방법과 위너 필터(Wiener filter)를 이용한 부정확한 발음의 합성장치의 구성을 도시한 블록도이다. 여기서는 여기신호를 열화시키기 위하여 부가잡음을 삽입하여 음질을 향상시킬 수 있다.
도 2를 참조하면, 본 발명의 부정확한 발음의 합성장치는 DC 오프셋 제거 필터링부(DC offset removal filter)(201)와, 백색화 필터부(Pre-emphasis)(202)와, 시그널 프레임부(Signal Framing)(203)와, 시그널 윈도우부(Signal Windowing)(204)와, 음성 판별부(Voice Activity Detection)(205)와, 천이구간 판별부(Transient Portion Detection)(206)와, 켑스트럼 추정부(Cepstrum estimation)(207)와, 안정구간 판별부(Non-speech, transient and steady portion detection)(208)와, 입력신호 분할부(Linear Predictive Analysis)(209)와, 파워 스펙트럼 추정부(power spectrum estimation)(210)와, PSD 추정부(speech and noise PSD estimation)(211)와, 위너 필터 추정부(Wiener filter estimation)(212)와, 위너 필터링부(Wiener filtering)(213)와, 성도 필터링부(Vocal Tract Filtering)(214)를 포함한다.
DC 오프셋 제거 필터링부(DC offset removal filter)(201)는 입력 시간축 신호에 포함되어 있는 DC 성분을 제거한다.
백색화 필터부(Pre-emphasis)(202)는 입력신호 분석을 위하여 사용되는 백색화(pre-whitening) 필터이다.
시그널 프레임부(Signal Framing)(203)는 입력신호를 프레임 단위(30ms)로 나눠주는 역할을 수행할 수 있다.
시그널 윈도우부(Signal Windowing)(204)는 분석 프레임에 윈도우 함수를 곱해준다. 여기서, 음성신호 분석을 위해서는 주로 해밍 윈도우(Hamming window)를 사용할 수 있다.
음성 판별부(Voice Activity Detection)(205)는 해당 분석 프레임 신호가 음성인지 아닌지를 판별할 수 있다.
천이구간 판별부(Transient Portion Detection)(206)는 해당 프레임과 이웃한 주변(left and right) 프레임의 신호 혹은 켑스트럼 정보를 이용하여 해당 프레임이 천이구간인지 아니면 안정된 구간인지를 판별할 수 있다.
켑스트럼 추정부(Cepstrum estimation)(207)는 LPC 계수들로부터 켑스트럼을 추정할 수 있다. 이렇게 추정된 켑스트럼 정보는 해당 프레임이 천이구간인지 아닌지를 판별하는 중요한 정보로 사용될 수 있다.
안정구간 판별부(Non-speech, transient and steady portion detection)(208)는 입력된 음성 판별(voice activity detection) 정보와 천이구간 판별(transient portion detection) 정보를 이용하여 해당 음성이 음성구간인지 아닌지를 판별하고 일단 음성구간으로 판별되면 그 구간이 천이구간인지 안정된 구간인지를 판별할 수 있다.
입력신호 분할부(Linear Predictive Analysis)(209)는 입력신호를 성도(vocal tract) 성분과 여기신호(excitation) 성분으로 나누어 줄 수 있다.
파워 스펙트럼 추정부(power spectrum estimation)(210)는 여기신호로부터 Fourier 변환 과정을 이용하여 파워 스펙트럼(power spectrum)을 추정할 수 있다.
PSD 추정부(speech and noise PSD estimation)(211)는 추정된 파워 스펙트럼 정보와 안정구간 판별(non-speech, transient and steady portion detection) 정보를 이용하여 음성과 배경 잡음의 power spectral density(PSD)를 추정할 수 있다.
위너 필터 추정부(Wiener filter estimation)(212)는 추정된 음성과 배경잡음의 PSD 정보를 이용하여 시간축 위너 필터(Wiener filter) 계수들을 추정할 수 있다.
위너 필터링부(Wiener filtering)(213)는 추정된 시간축 위너 필터(Wiener filter) 계수를 이용하여 여기신호에 포함되어 있는 배경잡음 성분을 제거할 수 있다. 이를 통해 열화된 여기신호를 얻을 수 있다.
성도 필터링부(Vocal Tract Filtering)(214)는 LPC 계수와 열화된 여기신호를 합성하여 부정확한 발음을 합성해 낼 수 있다.
도 3은 본 발명의 일 실시예에 따른 저해상도 양자화(low resolution quantization) 방법을 이용하여 여기신호를 열화시켜 부정확한 발성을 합성하는 장치의 구성을 도시한 블록도이다.
도 3을 참조하면, 본 발명의 부정확한 발성을 합성하는 장치는 DC 오프셋 제거 필터링부(DC offset removal filter)(301)와, 백색화 필터부(Pre-emphasis)(302)와, 시그널 프레임부(Signal Framing)(303)와, 시그널 윈도우부(Signal Windowing)(304)와, 음성 판별부(Voice Activity Detection)(305)와, 천이구간 판별부(Transient Portion Detection)(306)와, 켑스트럼 추정부(Cepstrum estimation)(307)와, 안정구간 판별부(Non-speech, transient and steady portion detection)(308)와, 입력신호 분할부(Linear Predictive Analysis)(309)와, 저해상도 양자화부(Low resolution quantization)(310)와, 성도 필터링부(Vocal Tract Filtering)(311)를 포함한다.
DC 오프셋 제거 필터링부(DC offset removal filter)(301)는 입력 시간축 신호에 포함되어 있는 DC 성분을 제거한다.
백색화 필터부(Pre-emphasis)(302)는 입력신호 분석을 위하여 사용되는 백색화(pre-whitening) 필터이다.
시그널 프레임부(Signal Framing)(303)는 입력신호를 프레임단위(30ms)로 나눠주는 역할을 수행할 수 있다.
시그널 윈도우부(Signal Windowing)(304)는 분석 프레임에 윈도우 함수를 곱해준다. 여기서, 음성신호 분석을 위해서는 주로 해밍 윈도우(Hamming window)를 사용할 수 있다.
음성 판별부(Voice Activity Detection)(305)는 해당 분석 프레임 신호가 음성인지 아닌지를 판별할 수 있다.
천이구간 판별부(Transient Portion Detection)(306)는 해당 프레임과 이웃한 주변(left and right) 프레임의 신호 혹은 켑스트럼 정보를 이용하여 해당 프레임이 천이구간인지 아니면 안정된 구간인지를 판별할 수 있다.
켑스트럼 추정부(Cepstrum estimation)(307)는 LPC 계수들로부터 켑스트럼을 추정할 수 있다. 이렇게 추정된 켑스트럼 정보는 해당 프레임이 천이구간인지 아닌지를 판별하는 중요한 정보로 사용될 수 있다.
안정구간 판별부(Non-speech, transient and steady portion detection)(308)는 입력된 음성 판별(voice activity detection) 정보와 천이구간 판별(transient portion detection) 정보를 이용하여 해당 음성이 음성구간인지 아닌지를 판별하고 일단 음성구간으로 판별되면 그 구간이 천이구간인지 안정된 구간인지를 판별할 수 있다.
입력신호 분할부(Linear Predictive Analysis)(309)는 입력신호를 성도(vocal tract) 성분과 여기신호(excitation) 성분으로 나누어 줄 수 있다.
저해상도 양자화부(Low resolution quantization)(310)는 안정구간 판별(Non-speech, transient and steady portion detection) 정보를 이용하여 저해상도의 여기신호를 얻을 수 있다. 우선 음성구간에 대하여 저해상도 여기신호를 합성해 내며 비음성구간에 대해서는 원래 해상도의 여기신호를 그대로 이용할 수 있다. 이때 천이구간과 정적인 음성구간에 대해 다른 해상도를 적용할 수 있다. 즉, 정적인 음성구간에 대해서는 좀 더 많은 저해상도를 적용하고 천이구간에 대해서는 약간의 저해상도를 적용하여 여기신호를 열화시킬 수 있다.
성도 필터링부(Vocal Tract Filtering)(311)는 LPC 계수와 열화된 여기신호를 합성하여 부정확한 발음을 합성할 수 있다.
앞에서 설명한 발화속도변이를 표현할 수 있는 음성합성방법과 부정확한 발음을 표현할 수 있는 음성합성방법을 이용하여 이미 수집된 음성데이터를 증강할 수 있으며, 증강된 음성데이터를 이용하여 심층신경망 기반의 음성인식 시스템을 학습하게 되면 심층신경망의 일반화(generalization) 특성이 향상되어 음성인식 시스템의 성능을 향상시킬 수 있게 된다.
도 4는 본 발명의 일 실시예에 따른 발화속도 변환방법의 흐름도이다.
도 4를 참조하면, DC 오프셋 제거 필터링부(DC offset removal filtering)에서 시간축 입력신호의 DC 성분을 제거한다(S401).
이어서, 백색화 필터부(Pre-emphasis)에서 입력신호를 분석한다. 이때 백색화(pre-whitening) 필터가 사용될 수 있다(S402).
이어서, 시그널 프레임부(Signal Framing)에서 입력신호를 프레임 단위(30ms)로 나눠준다(S403).
이어서, 시그널 윈도우부(Signal Windowing)에서 분석 프레임에 윈도우 함수를 곱해준다(S404). 이때, 음성신호분석을 위해서는 주로 해밍 윈도우(Hamming window)를 사용할 수 있다.
이어서, 음성 판별부(Voice Activity Detection)에서 해당 분석 프레임 신호가 음성인지 아닌지를 판별한다(S405).
이어서, 천이구간 판별부(Transient Portion Detection)에서 해당 프레임과 이웃한 주변(left and right) 프레임의 신호 혹은 켑스트럼 정보를 이용하여 해당 프레임이 천이구간인지 아니면 안정된 구간인지를 판별한다(S406).
이어서, 켑스트럼 추정부(Cepstrum estimation)에서 LPC 계수들로부터 켑스트럼을 추정한다(S407). 이때, 추정된 켑스트럼 정보는 해당 프레임이 천이구간이지 아닌지를 판별하는 중요한 정보로 사용될 수 있다.
이어서, 안정구간 판별부(Non-speech, transient and steady portion detection)에서 입력된 음성 판별(voice activity detection) 정보와 천이구간 판별(transient portion detection) 정보를 이용하여 해당 음성이 음성구간인지 아닌지를 판별하고 일단 음성구간으로 판별되면 그 구간이 천이구간인지 안정된 구간인지를 판별한다(S408).
이어서, 입력신호 분할부(Linear Predictive Analysis)에서 입력신호를 성도(vocal tract) 성분과 여기 신호(excitation) 성분으로 나누어 준다(S409).
이어서, 시간축 변환부(Variable Rate TSM(time scale modification))에서 여기신호를 대상으로 시간축 변환을 수행한다(S410). 여기서, 시간축 변환방법으로 가장 대표적인 것으로 synchronized overlap and add(SOLA) 방법이 있으며, 이를 이용하면 가변적 비율의 발화속도 변환을 용이하게 구성할 수 있다. 즉, 시간축 변환비율(time scale modification rate)을 가변적으로 적용하는 것으로 쉽게 구현할 수 있다. 이때, 천이구간에 대해서는 시간축 변환비율을 1로 두어 천이구간의 정보를 보존한다. 시간축 변환비율이 1보다 작으면 시간축으로 입력신호가 압축되는 것을 의미한다. 예를 들어, 시간축 변환비율이 0.5인 경우 시간축 신호를 두배로 압축하는 의미를 가지며 발화속도 측면에서는 두배 빠르게 발성하는 것을 의미한다. 시간축 변환비율이 1보다 큰 경우는 반대로 발화속도가 느려지는 것을 의미한다.
이어서, LPC 변환부(LPC to LSF conversion)에서 LPC 계수를 LSF(line spectral frequencies or LSP(line spectral pairs))로 변환한다(S411). 이는 시간축 변환비율에 따른 decimation 혹은 interpolation을 이용한 조음기관 모델의 제어를 위한 것이다. 성도모델 필터계수의 시간적 변화를 LSF를 이용하여 제어함으로써 조음기관의 변이를 표현해줄 수 있게 된다.
이어서, LSF 추정부(LSF estimation)에서 주변 프레임들의 LSF 값과 시간축 변환비율 상관관계를 이용하여 해당 프레임의 LSF 값을 추정한다(S412). 이를 통해 인간의 조음기관의 변이를 표현할 수 있게 된다.
이어서, LSF 변환부(LSF to LPC conversion)에서 LSF 값을 성도모델계수로 변환한다(S413).
이어서, 성도 필터링부(Vocal Tract Filtering)에서 시간축 변환된 여기신호와 추정된 성도모델계수를 이용하여 발화속도 변이현상이 반영된 음성신호를 구한다(S414).
도 5는 본 발명의 일 실시예에 따른 협대역 노이즈 인젝션(narrow-band noise injection) 접근방법과 위너 필터(Wiener filter)를 이용한 부정확한 발음의 합성방법의 흐름도이다. 여기서는 여기신호를 열화시키기 위하여 부가잡음을 삽입하여 음질을 향상시킬 수 있다.
도 5를 참조하면, DC 오프셋 제거 필터링부(DC offset removal filter)에서 입력 시간축 신호에 포함되어 있는 DC 성분을 제거한다(S501).
이어서, 백색화 필터부(Pre-emphasis)에서 입력신호를 분석한다(S502). 이때, 백색화(pre-whitening) 필터를 사용할 수 있다.
이어서, 시그널 프레임부(Signal Framing)에서 입력신호를 프레임 단위(30ms)로 나눠준다(S503).
이어서, 시그널 윈도우부(Signal Windowing)에서 분석 프레임에 윈도우 함수를 곱해준다(S504). 이때, 음성신호 분석을 위해서는 주로 해밍 윈도우(Hamming window)를 사용할 수 있다.
이어서, 음성 판별부(Voice Activity Detection)에서 해당 분석 프레임 신호가 음성인지 아닌지를 판별한다(S505).
이어서, 천이구간 판별부(Transient Portion Detection)에서 해당 프레임과 이웃한 주변(left and right) 프레임의 신호 혹은 켑스트럼 정보를 이용하여 해당 프레임이 천이구간인지 아니면 안정된 구간인지를 판별한다(S506).
이어서, 켑스트럼 추정부(Cepstrum estimation)에서 LPC 계수들로부터 켑스트럼을 추정한다(S507). 이때 추정된 켑스트럼 정보는 해당 프레임이 천이구간인지 아닌지를 판별하는 중요한 정보로 사용될 수 있다.
이어서, 안정구간 판별부(Non-speech, transient and steady portion detection)에서 입력된 음성 판별(voice activity detection) 정보와 천이구간 판별(transient portion detection) 정보를 이용하여 해당 음성이 음성구간인지 아닌지를 판별하고 일단 음성구간으로 판별되면 그 구간이 천이구간인지 안정된 구간인지를 판별한다(S508).
이어서, 입력신호 분할부(Linear Predictive Analysis)에서 입력신호를 성도(vocal tract) 성분과 여기신호(excitation) 성분으로 나누어 준다(S509).
이어서, 파워 스펙트럼 추정부(power spectrum estimation)에서 여기신호로부터 Fourier 변환 과정을 이용하여 파워 스펙트럼(power spectrum)을 추정한다(S510).
이어서, PSD 추정부(speech and noise PSD estimation)에서 추정된 파워 스펙트럼 정보와 안정구간 판별(non-speech, transient and steady portion detection) 정보를 이용하여 음성과 배경 잡음의 power spectral density(PSD)를 추정한다(S511).
이어서, 위너 필터 추정부(Wiener filter estimation)에서 추정된 음성과 배경잡음의 PSD 정보를 이용하여 시간축 위너 필터(Wiener filter) 계수들을 추정한다(S512).
이어서, 위너 필터링부(Wiener filtering)에서 추정된 시간축 위너 필터(Wiener filter) 계수를 이용하여 여기신호에 포함되어 있는 배경잡음 성분을 제거한다(S513). 이를 통해 열화된 여기신호를 얻을 수 있다.
이어서, 성도 필터링부(Vocal Tract Filtering)에서 LPC 계수와 열화된 여기신호를 합성하여 부정확한 발음을 합성해 낼 수 있다(S514).
도 6은 본 발명의 일 실시예에 따른 저해상도 양자화(low resolution quantization) 방법을 이용하여 여기신호를 열화시켜 부정확한 발성을 합성하는 방법의 흐름도이다.
도 6을 참조하면, DC 오프셋 제거 필터링부(DC offset removal filter)에서 입력 시간축 신호에 포함되어 있는 DC 성분을 제거한다(S601).
이어서, 백색화 필터부(Pre-emphasis)에서 입력신호를 분석한다(S602). 이때, 백색화(pre-whitening) 필터를 사용할 수 있다.
이어서, 시그널 프레임부(Signal Framing)에서 입력신호를 프레임 단위(30ms)로 나눠준다(S603).
이어서, 시그널 윈도우부(Signal Windowing)에서 분석 프레임에 윈도우 함수를 곱해준다(S604). 이때, 음성신호 분석을 위해서는 주로 해밍 윈도우(Hamming window)를 사용할 수 있다.
이어서, 음성 판별부(Voice Activity Detection)에서 해당 분석 프레임 신호가 음성인지 아닌지를 판별한다(S605).
이어서, 천이구간 판별부(Transient Portion Detection)에서 해당 프레임과 이웃한 주변(left and right) 프레임의 신호 혹은 켑스트럼 정보를 이용하여 해당 프레임이 천이구간인지 아니면 안정된 구간인지를 판별한다(S606).
이어서, 켑스트럼 추정부(Cepstrum estimation)에서 LPC 계수들로부터 켑스트럼을 추정한다(S607). 이때 추정된 켑스트럼 정보는 해당 프레임이 천이구간인지 아닌지를 판별하는 중요한 정보로 사용될 수 있다.
이어서, 안정구간 판별부(Non-speech, transient and steady portion detection)에서 입력된 음성 판별(voice activity detection) 정보와 천이구간 판별(transient portion detection) 정보를 이용하여 해당 음성이 음성구간인지 아닌지를 판별하고 일단 음성구간으로 판별되면 그 구간이 천이구간인지 안정된 구간인지를 판별한다(S608).
이어서, 입력신호 분할부(Linear Predictive Analysis)에서 입력신호를 성도(vocal tract) 성분과 여기신호(excitation) 성분으로 나누어 준다(S609).
이어서, 저해상도 양자화부(Low resolution quantization)에서 안정구간 판별(Non-speech, transient and steady portion detection) 정보를 이용하여 저해상도의 여기신호를 얻을 수 있다(S610). 우선 음성구간에 대하여 저해상도 여기신호를 합성해내며 비음성구간에 대해서는 원래 해상도의 여기신호를 그대로 이용할 수 있다. 이때 천이구간과 정적인 음성구간에 대해 다른 해상도를 적용할 수 있다. 즉, 정적인 음성구간에 대해서는 좀 더 많은 저해상도를 적용하고 천이구간에 대해서는 약간의 저해상도를 적용하여 여기신호를 열화시킬 수 있다.
이어서, 성도 필터링부(Vocal Tract Filtering)에서 LPC 계수와 열화된 여기신호를 합성하여 부정확한 발음을 합성할 수 있다(S611).
이상, 본 발명의 구성에 대하여 첨부 도면을 참조하여 상세히 설명하였으나, 이는 예시에 불과한 것으로서, 본 발명이 속하는 기술분야에 통상의 지식을 가진자라면 본 발명의 기술적 사상의 범위 내에서 다양한 변형과 변경이가능함은 물론이다. 따라서 본 발명의 보호 범위는 전술한 실시예에 국한되어서는 아니되며 이하의 특허청구범위의 기재에 의하여 정해져야 할 것이다.
101 : DC 오프셋 제거 필터링부
102 : 백색화 필터부
103 : 시그널 프레임부
104 : 시그널 윈도우부
105 : 음성 판별부
106 : 천이구간 판별부
107 : 켑스트럼 추정부
108 : 안정구간 판별부
109 : 입력신호 분할부
110 : 시간축 변환부
111 : LPC 변환부
112 : LSF 추정부
113 : LSF 변환부
114 : 성도 필터링부

Claims (6)

  1. 입력 시간축 신호에 포함되어 있는 DC 성분을 제거하는 DC 오프셋 제거 필터링부(DC offset removal filter);
    입력신호 분석을 위하여 DC 성분이 제거된 입력 시간축 신호의 백색화(pre-whitening) 필터링을 수행하는 백색화 필터부(Pre-emphasis);
    입력신호를 프레임 단위로 분할하는 시그널 프레임부(Signal Framing);
    분석 프레임에 윈도우 함수를 곱하는 시그널 윈도우부(Signal Windowing);
    상기 윈도우 함수가 곱해진 해당 분석 프레임 신호가 음성인지 아닌지를 판별하는 음성 판별부(Voice Activity Detection);
    LPC(Linear Predictive Coding) 계수들로부터 켑스트럼을 추정하는 켑스트럼 추정부(Cepstrum estimation);
    상기 윈도우 함수가 곱해진 해당 프레임과 이웃한 주변(left and right) 프레임의 신호 혹은 켑스트럼 정보를 이용하여 상기 윈도우 함수가 곱해진 해당 프레임이 천이구간인지 아니면 안정된 구간인지를 판별하는 천이구간 판별부(Transient Portion Detection);
    상기 음성 판별부로부터 입력된 음성 판별(voice activity detection) 정보와 상기 천이구간 판별부로부터 입력된 천이구간 판별(transient portion detection) 정보를 이용하여 해당 음성이 음성구간인지 아닌지를 판별하고 일단 음성구간으로 판별되면 그 구간이 천이구간인지 안정된 구간인지를 판별하는 안정구간 판별부(Non-speech, transient and steady portion detection);
    상기 윈도우 함수가 곱해진 입력신호를 성도(vocal tract) 성분과 여기신호(excitation) 성분으로 분할하는 입력신호 분할부(Linear Predictive Analysis);
    상기 분할된 여기신호로부터 Fourier 변환 과정을 이용하여 파워 스펙트럼(power spectrum)을 추정하는 파워 스펙트럼 추정부(power spectrum estimation);
    상기 추정된 파워 스펙트럼 정보와 상기 안정구간 판별(non-speech, transient and steady portion detection) 정보를 이용하여 음성과 배경 잡음의 power spectral density(PSD)를 추정하는 PSD 추정부(speech and noise PSD estimation);
    상기 추정된 음성과 배경잡음의 PSD 정보를 이용하여 시간축 위너 필터(Wiener filter) 계수들을 추정하는 위너 필터 추정부(Wiener filter estimation);
    상기 추정된 시간축 위너 필터(Wiener filter) 계수를 이용하여 상기 입력신호 분할부로부터 입력되는 여기신호에 포함되어 있는 배경잡음 성분을 제거하는 위너 필터링부(Wiener filtering); 및
    LPC 계수와 상기 위너 필터링부로부터 배경잡음 성분이 제거된 여기신호를 합성하여 부정확한 발음을 합성하는 성도 필터링부(Vocal Tract Filtering);를 포함하는 자연어 음성인식의 성능향상을 위한 데이터 증강장치.
  2. 제 1항에 있어서, 상기 시그널 윈도우부는,
    음성신호 분석을 위해서 해밍 윈도우(Hamming window)를 사용하는 것인 자연어 음성인식의 성능향상을 위한 데이터 증강장치.
  3. 제 1항에 있어서, 상기 켑스트럼 추정부를 통해 추정된 켑스트럼 정보는 해당 프레임이 천이구간인지 아닌지를 판별하는 정보인 것인 자연어 음성인식의 성능향상을 위한 데이터 증강장치.
  4. 제 1항에 있어서,
    상기 위너 필터링부는 열화된 여기신호를 획득하는 것인 자연어 음성인식의 성능향상을 위한 데이터 증강장치.
  5. DC 오프셋 제거 필터링부(DC offset removal filtering)에서 시간축 입력신호의 DC 성분을 제거하는 단계;
    백색화(pre-whitening) 필터를 이용하여 백색화 필터부(Pre-emphasis)에서 입력신호를 분석하는 단계;
    시그널 프레임부(Signal Framing)에서 입력신호를 프레임 단위로 나눠주는 단계;
    시그널 윈도우부(Signal Windowing)에서 분석 프레임에 윈도우 함수를 곱해주는 단계;
    음성 판별부(Voice Activity Detection)에서 해당 분석 프레임 신호가 음성인지 아닌지를 판별하는 단계;
    켑스트럼 추정부(Cepstrum estimation)에서 LPC 계수들로부터 켑스트럼을 추정하는 단계;
    천이구간 판별부(Transient Portion Detection)에서 해당 프레임과 이웃한 주변(left and right) 프레임의 신호 혹은 켑스트럼 정보를 이용하여 해당 프레임이 천이구간인지 아니면 안정된 구간인지를 판별하는 단계;
    안정구간 판별부(Non-speech, transient and steady portion detection)에서 입력된 음성 판별(voice activity detection) 정보와 천이구간 판별(transient portion detection) 정보를 이용하여 해당 음성이 음성구간인지 아닌지를 판별하고 일단 음성구간으로 판별되면 그 구간이 천이구간인지 안정된 구간인지를 판별하는 단계;
    입력신호 분할부(Linear Predictive Analysis)에서 입력신호를 성도(vocal tract) 성분과 여기 신호(excitation) 성분으로 나누어 주는 단계;
    시간축 변환부(Variable Rate TSM(time scale modification))에서 synchronized overlap and add(SOLA) 방법을 이용하여 상기 분할된 여기신호를 대상으로 시간축 변환을 수행하는 단계;
    LPC 변환부(LPC to LSF conversion)에서 LPC 계수를 LSF(line spectral frequencies or LSP(line spectral pairs))로 변환하는 단계;
    LSF 추정부(LSF estimation)에서 주변 프레임들의 LSF 값과 시간축 변환비율 상관관계를 이용하여 해당 프레임의 LSF 값을 추정하는 단계;
    LSF 변환부(LSF to LPC conversion)에서 LSF 값을 성도모델계수로 변환하는 단계; 및
    성도 필터링부(Vocal Tract Filtering)에서 시간축 변환된 여기신호와 추정된 성도모델계수를 이용하여 발화속도 변이현상이 반영된 음성신호를 구하는 단계;를 포함하되,
    상기 해당 프레임의 LSF 값을 추정하는 단계는,
    LSF 추정과정(시간축 변환비율 < 1.0 경우)
    1. 첫번째 프레임
    LSFest=LSF1st
    2. 두번째 프레임부터
    LSFest=(1-∝)×LSFprv + ∝×LSFcur
    여기서, '∝'는 시간축 변환 비율이다.
    3. 마지막 프레임
    LSFest=LSFlast

    LSF 추정과정(2.0 > 시간축변환비율 > 1.0 경우)
    1. 첫번째 프레임부터
    LSFest1=LSFcur(합성프레임 첫번째 절반까지)
    LSFest2=(2-∝)×LSFcur +(∝-1)×LSFlookahead(합성프레임 나머지 절반)
    여기서, '∝'는 시간축 변환 비율이다.
    2. 마지막 프레임
    LSFest=LSFlast
    을 추정하는 것인 자연어 음성인식의 성능향상을 위한 데이터 증강방법.
  6. 제 5항에 있어서, 상기 윈도우 함수를 곱해주는 단계는, 음성신호분석을 위해서 해밍 윈도우(Hamming window)를 사용하는 것인 자연어 음성인식의 성능향상을 위한 데이터 증강방법.
KR1020160031050A 2016-03-15 2016-03-15 자연어 음성인식의 성능향상을 위한 데이터 증강장치 및 방법 KR102158743B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160031050A KR102158743B1 (ko) 2016-03-15 2016-03-15 자연어 음성인식의 성능향상을 위한 데이터 증강장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160031050A KR102158743B1 (ko) 2016-03-15 2016-03-15 자연어 음성인식의 성능향상을 위한 데이터 증강장치 및 방법

Publications (2)

Publication Number Publication Date
KR20170107283A KR20170107283A (ko) 2017-09-25
KR102158743B1 true KR102158743B1 (ko) 2020-09-22

Family

ID=60035110

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160031050A KR102158743B1 (ko) 2016-03-15 2016-03-15 자연어 음성인식의 성능향상을 위한 데이터 증강장치 및 방법

Country Status (1)

Country Link
KR (1) KR102158743B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230044574A (ko) 2021-09-27 2023-04-04 브레인소프트주식회사 디제이변환을 통해 획득한 기본주파수를 이용한 데이터 증강법

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10042422B2 (en) 2013-11-12 2018-08-07 Thalmic Labs Inc. Systems, articles, and methods for capacitive electromyography sensors
US11921471B2 (en) 2013-08-16 2024-03-05 Meta Platforms Technologies, Llc Systems, articles, and methods for wearable devices having secondary power sources in links of a band for providing secondary power in addition to a primary power source
US20150124566A1 (en) 2013-10-04 2015-05-07 Thalmic Labs Inc. Systems, articles and methods for wearable electronic devices employing contact sensors
WO2015081113A1 (en) 2013-11-27 2015-06-04 Cezar Morun Systems, articles, and methods for electromyography sensors
US10990174B2 (en) 2016-07-25 2021-04-27 Facebook Technologies, Llc Methods and apparatus for predicting musculo-skeletal position information using wearable autonomous sensors
US11635736B2 (en) 2017-10-19 2023-04-25 Meta Platforms Technologies, Llc Systems and methods for identifying biological structures associated with neuromuscular source signals
US11216069B2 (en) 2018-05-08 2022-01-04 Facebook Technologies, Llc Systems and methods for improved speech recognition using neuromuscular information
US20200073483A1 (en) 2018-08-31 2020-03-05 Ctrl-Labs Corporation Camera-guided interpretation of neuromuscular signals
US11961494B1 (en) 2019-03-29 2024-04-16 Meta Platforms Technologies, Llc Electromagnetic interference reduction in extended reality environments
US11493993B2 (en) 2019-09-04 2022-11-08 Meta Platforms Technologies, Llc Systems, methods, and interfaces for performing inputs based on neuromuscular control
US11907423B2 (en) 2019-11-25 2024-02-20 Meta Platforms Technologies, Llc Systems and methods for contextualized interactions with an environment
US11481030B2 (en) 2019-03-29 2022-10-25 Meta Platforms Technologies, Llc Methods and apparatus for gesture detection and classification
US11150730B1 (en) 2019-04-30 2021-10-19 Facebook Technologies, Llc Devices, systems, and methods for controlling computing devices via neuromuscular signals of users
US10937414B2 (en) 2018-05-08 2021-03-02 Facebook Technologies, Llc Systems and methods for text input using neuromuscular information
KR20190104773A (ko) 2018-03-02 2019-09-11 삼성전자주식회사 전자 장치, 제어 방법 및 컴퓨터 판독 가능 매체
CN112424859A (zh) * 2018-05-08 2021-02-26 脸谱科技有限责任公司 使用神经肌肉信息改善语音识别的系统和方法
US10592001B2 (en) 2018-05-08 2020-03-17 Facebook Technologies, Llc Systems and methods for improved speech recognition using neuromuscular information
US10210860B1 (en) 2018-07-27 2019-02-19 Deepgram, Inc. Augmented generalized deep learning with special vocabulary
EP3853698A4 (en) 2018-09-20 2021-11-17 Facebook Technologies, LLC NEUROMUSCULAR TEXT ENTRY, WRITING AND DRAWING IN SYSTEMS WITH EXTENDED REALITY
US11797087B2 (en) 2018-11-27 2023-10-24 Meta Platforms Technologies, Llc Methods and apparatus for autocalibration of a wearable electrode sensor system
US10997967B2 (en) 2019-04-18 2021-05-04 Honeywell International Inc. Methods and systems for cockpit speech recognition acoustic model training with multi-level corpus data augmentation
KR20210073168A (ko) 2019-12-10 2021-06-18 한국전자통신연구원 노치 필터를 이용한 학습 데이터 증강 장치 및 방법
KR102409873B1 (ko) * 2020-09-02 2022-06-16 네이버 주식회사 증강된 일관성 정규화를 이용한 음성 인식 모델 학습 방법 및 시스템
KR20220132950A (ko) 2021-03-24 2022-10-04 한국전자통신연구원 혼합 샘플링 기반 학습 데이터 유형 분류 성능 개선 방법 및 장치
US11868531B1 (en) 2021-04-08 2024-01-09 Meta Platforms Technologies, Llc Wearable device providing for thumb-to-finger-based input gestures detected based on neuromuscular signals, and systems and methods of use thereof

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050065784A1 (en) 2003-07-31 2005-03-24 Mcaulay Robert J. Modification of acoustic signals using sinusoidal analysis and synthesis
JP2007199654A (ja) 2005-12-26 2007-08-09 Advanced Telecommunication Research Institute International 音声処理装置、およびプログラム
US20150255083A1 (en) 2012-10-30 2015-09-10 Naunce Communication ,Inc. Speech enhancement

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6487531B1 (en) * 1999-07-06 2002-11-26 Carol A. Tosaya Signal injection coupling into the human vocal tract for robust audible and inaudible voice recognition
BR112015031180B1 (pt) * 2013-06-21 2022-04-05 Fraunhofer- Gesellschaft Zur Förderung Der Angewandten Forschung E.V Aparelho e método para gerar um formato espectral adaptativo de ruído de conforto

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050065784A1 (en) 2003-07-31 2005-03-24 Mcaulay Robert J. Modification of acoustic signals using sinusoidal analysis and synthesis
JP2007199654A (ja) 2005-12-26 2007-08-09 Advanced Telecommunication Research Institute International 音声処理装置、およびプログラム
US20150255083A1 (en) 2012-10-30 2015-09-10 Naunce Communication ,Inc. Speech enhancement

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230044574A (ko) 2021-09-27 2023-04-04 브레인소프트주식회사 디제이변환을 통해 획득한 기본주파수를 이용한 데이터 증강법

Also Published As

Publication number Publication date
KR20170107283A (ko) 2017-09-25

Similar Documents

Publication Publication Date Title
KR102158743B1 (ko) 자연어 음성인식의 성능향상을 위한 데이터 증강장치 및 방법
RU2257556C2 (ru) Квантование коэффициентов усиления для речевого кодера линейного прогнозирования с кодовым возбуждением
JP5717097B2 (ja) 音声合成用の隠れマルコフモデル学習装置及び音声合成装置
CN108108357B (zh) 口音转换方法及装置、电子设备
JP6573178B2 (ja) 復号方法および復号装置
CN110648684A (zh) 一种基于WaveNet的骨导语音增强波形生成方法
Tanaka et al. A hybrid approach to electrolaryngeal speech enhancement based on spectral subtraction and statistical voice conversion.
JPH02249000A (ja) 音声符号化方式
JPH08305396A (ja) 音声帯域拡大装置および音声帯域拡大方法
Tanaka et al. An evaluation of excitation feature prediction in a hybrid approach to electrolaryngeal speech enhancement
JP2829978B2 (ja) 音声符号化復号化方法及び音声符号化装置並びに音声復号化装置
Hirsch et al. A new HMM adaptation approach for the case of a hands-free speech input in reverberant rooms
JP4447546B2 (ja) 広帯域音声復元方法及び広帯域音声復元装置
JP3748081B2 (ja) 広帯域音声復元方法及び広帯域音声復元装置
JP3770901B2 (ja) 広帯域音声復元方法及び広帯域音声復元装置
JP3055901B2 (ja) 音声信号符号化復号化方法及び音声信号符号化装置
JP3676801B2 (ja) 広帯域音声復元方法及び広帯域音声復元装置
JP3773509B2 (ja) 広帯域音声復元装置及び広帯域音声復元方法
JP4087823B2 (ja) 広帯域音声復元方法及び広帯域音声復元装置
JP3748082B2 (ja) 広帯域音声復元方法及び広帯域音声復元装置
JP3636327B2 (ja) 広帯域音声復元方法及び広帯域音声復元装置
JP3748083B2 (ja) 広帯域音声復元方法及び広帯域音声復元装置
JP3748080B2 (ja) 広帯域音声復元方法及び広帯域音声復元装置
JP3770899B2 (ja) 広帯域音声復元方法及び広帯域音声復元装置
JP3770900B2 (ja) 広帯域音声復元方法及び広帯域音声復元装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant