KR20220036237A

KR20220036237A - 딥러닝을 기반으로 하는 가이드 음성 제공 시스템

Info

Publication number: KR20220036237A
Application number: KR1020200118566A
Authority: KR
Inventors: 장현석
Original assignee: 주식회사 퀄슨
Priority date: 2020-09-15
Filing date: 2020-09-15
Publication date: 2022-03-22

Abstract

본 발명은 딥러닝을 기반으로 하는 가이드 음성 제공 시스템에 대한 것이다.
본 발명에 따른 딥러닝을 기반으로 하는 가이드 음성 제공 시스템에 있어서, 학습자에 의해 발화된 음성을 수신하는 음성수신부, 상기 수신된 음성을 라벨링된 음성데이터와 라벨링되지 않은 음성데이터로 분류한 다음, 분류된 라벨링된 음성데이터와 라벨링되지 않은 음성데이터를 전처리하여 오디오 신호만을 추출하는 전처리부, 상기 추출된 오디오 신호를 기 구축된 심층 신경망(Deep Neural Network) 모델에 입력하여 학습자의 음성을 MFCC(Mel-Frequency Cepstral Coefficient)스펙토그램으로 변환하도록 학습시키는 학습부, 학습하고자 하는 학습자의 음성으로부터 추출된 오디오 신호를 학습이 완료된 심층 신경망 모델에 입력하여 MFCC 스펙토그램으로 변환하고, 변환된 MFCC 스펙토그램에 정답문을 합성하여 가이드 음성을 생성하는 음성 합성부, 그리고 상기 가이드 음성을 출력하는 출력부를 포함한다.

Description

딥러닝을 기반으로 하는 가이드 음성 제공 시스템{Guide voice system based on deep learning}

본 발명은 딥러닝을 기반으로 하는 가이드 음성 제공 시스템에 관한 것으로, 보다 상세하게는 학습자의 음성데이터를 수집하고, 수집된 학습자의 음성데이터와 정답 데이터를 매칭하여 학습자의 언어적 특성이 고려된 가이드 음성을 제공하는 가이드 음성 제공 시스템에 관한 것이다.

최근 컴퓨터를 이용하여 영어와 같은 외국어 학습을 하는 사용자가 증가되고 있다. 특히 영어 발음의 학습을 위한 프로그램이 증가하고 있는데 사용자가 마이크를 통해 특정 단어 또는 문장을 발화하면 그 발화를 분석하여 사용자의 발음에 대한 평가를 수행하여 제공한다. 이때, 사용자의 발화 내용을 알아내기 위해 음성 인식 기술이 응용되며, 평가 결과로 점수 또는 평가 수준에 맞는 피드백을 사용자에게 제공한다.

사용자에게 제공되는 발음 학습 결과의 내용으로는 문장 발음 학습의 경우 발화 내용 전체에 대한 전반적인 발음의 정확도(overall score)만을 표시하고 있는 경우가 많으며, 단어 발음 학습의 경우 해당 단어의 발음이 제대로 발음되었는지 아닌 지만을 표시하고 있는 경우가 많다. 이때, 문장과 같이 여러 단어를 발화하는 경우에는 일부 문제 있는 발음의 단어에 대한 지적이 없어 정확한 발음 학습 결과를 제공받지 못하는 문제점이 있다.

한편, 음성 인식 결과를 더욱 활용하여 사용자가 잘못 발음한 부분을 지적하여 알려주는 경우도 있으나, 이 경우 한국인의 영어 발음에 있어서 틀리기 쉬운 부분을 미리 지식화하여 구축하고 음성 인식을 통해 잘못된 발음이 인식되면 이를 사용자에게 알려주는 것으로 추가로 정확한 발음에 대한 정보를 구축하여야 발음의 교정이 가능한 문제점이 있다.

발음 자체의 정확도 이외에도, 특히 문장 발화에 있어 발화의 자연스러움을 측정하기 위해 초분절적인(suprasegmental) 평가요소를 포함하여 제공하는 경우도 있으나, 초분절적인 요소도 문장단위로 평가되고 있어 문장내의 잘못된 부분을 지적하고 어떻게 잘못된 것인지에 대한 세부적인 내용을 제공하기에는 어려움이 따른다. 여기서, 초분절적인 평가요소로는 문장의 억양, 강세, 말의 빠르기 등과 같이 분절되지 않는 항목이며, 분절적인 요소는 문장, 구절, 음절, 단어 및 음소와 같이 분리 가능한 항목이다.

따라서, 문장에 대한 발음학습 결과를 소정의 마디 단위 별로 초분절적인 요소까지 평가하여 제공할 수 있는 외국어 발음 평가 기술이 요구된다.

본 발명의 배경이 되는 기술은 대한민국 공개특허공보 제10-2019-0068841호(2019.06.19. 공개)에 개시되어 있다.

본 발명이 이루고자 하는 기술적 과제는 학습자의 음성데이터를 수집하고, 수집된 학습자의 음성데이터와 정답 데이터를 매칭하여 학습자의 언어적 특성이 고려된 가이드 음성을 제공하는 발음 평가 시스템을 제공하기 위한 것이다.

이러한 기술적 과제를 이루기 위한 본 발명의 실시 예에 따른 딥러닝을 기반으로 하는 가이드 음성 제공 시스템에 있어서, 학습자에 의해 발화된 음성을 수신하는 음성수신부, 상기 수신된 음성을 라벨링된 음성데이터와 라벨링되지 않은 음성데이터로 분류한 다음, 분류된 라벨링된 음성데이터와 라벨링되지 않은 음성데이터를 전처리하여 오디오 신호만을 추출하는 전처리부, 상기 추출된 오디오 신호를 기 구축된 심층 신경망(Deep Neural Network) 모델에 입력하여 학습자의 음성을 MFCC(Mel-Frequency Cepstral Coefficient)스펙토그램으로 변환하여 학습자의 음성을 하도록 학습시키는 학습부, 학습하고자 하는 학습자의 음성으로부터 추출된 오디오 신호를 학습이 완료된 심층 신경망 모델에 입력하여 MFCC 스펙토그램으로 변환하고, 변환된 MFCC 스펙토그램에 정답문을 합성하여 가이드 음성을 생성하는 음성 합성부, 그리고 상기 가이드 음성을 출력하는 출력부를 포함한다.

상기 음성 데이터의 신호 크기를 분석하여 강세를 추출하고, 상기 추출된 강세를 이용하여 발음을 평가하는 평가부를 더 포함할 수 있다.

상기 전처리부는, 특정 테스트 문장에 대해 발화 요청 신호를 송신하고, 송신된 발화 요청 신호에 대응하여 학습자로부터 발화된 음성을 수신하면, 수신된 학습자의 음성과 특정 테스트 문장을 매칭하여 라벨링된 음성데이터로 분류하고, 음성 요청 신호에 따라 학습자로부터 발화된 음성을 라벨링되지 않은 음성 데이터로 분류하며, 상기 학습자로부터 발화된 음성을 음성 인식기에 입력하여 오디오 신호만을 추출할 수 있다.

상기 음성 합성부는, STFT(Short-Time-Fourier-Transform) 및 Mel-Filtering을 통해 학습자의 음성으로부터 주파수의 파형을 추출할 수 있다.

상기 평가부는, 학습자에 의해 발화된 음성의 신호 크기를 분석하여 강세가 포함된 부분을 추출하고, 정답문으로부터 변환된 표준 음성의 신호 크기를 분석하여 강세가 포함된 부분을 추출한 다음, 각각의 강세를 상호 비교하여 학습자의 발음을 평가할 수 있다.

이와 같이 본 발명에 따르면, 학습자 개개인의 음성데이터에 기반한 음성 모델 및 합성 기술을 통해 학습자의 언어적 특성이 고려된 개인화된 발음 개선 가이드 음성을 제공할 수 있다. 또한, 본 발명에 따르면, 기존의 어학 앱과 달리 학습자 개인의 음성으로 정확한 발음을 다시 들려주어 보다 효과적으로 발음을 향상시킬 수 있는 효과를 지닌다.

도 1은 본 발명의 실시예에 따른 가이드 음성 제공 시스템을 설명하기 위한 구성도이다.
도 2는 본 발명의 실시예에 따른 가이드 음성 제공시스템을 이용한 가이드 음성을 제공하는 방법을 설명하기 위한 순서도이다.
도 3은 도 2에 도시된 S270을 이용하여 강세를 평가하는 방법에 대해 설명한다.

이하 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시 예를 상세히 설명하기로 한다. 이 과정에서 도면에 도시된 선들의 두께나 구성요소의 크기 등은 설명의 명료성과 편의상 과장되게 도시되어 있을 수 있다.

또한 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서, 이는 사용자, 운용자의 의도 또는 관례에 따라 달라질 수 있다. 그러므로 이러한 용어들에 대한 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

이하에서는 본 발명의 실시예에 따른 가이드 음성 제공 시스템에 대해 더욱 구체적으로 설명한다.

도 1은 본 발명의 실시예에 따른 가이드 음성 제공 시스템을 설명하기 위한 구성도이다.

도 1에 도시된 바와 같이, 본 발명의 실시예에 따른 가이드 음성 제공 시스템(100)은 음성수신부(110), 전처리부(120), 학습부(130), 음성합성부(140), 평가부(150) 및 출력부(160)를 포함한다.

음성수신부(110)는 학습자에 의해 발화된 음성을 수신한다. 이때, 수신된 음성은 특정 테스트 문장에 의해 발화된 음성일 수도 있고, 학습자의 언어적 특성을 획득하기 위한 음성일 수도 있다.

전처리부(120)는 수신된 학습자에 의한 발화된 음성을 전처리한다. 부연하자면, 전처리부(120)는 수신된 학습자에 의한 발화된 음성을 라벨화된 음성 데이터와 라벨화되지 않은 음성데이터로 분류한다. 여기서 라벨화된 음성 데이터는 특정 테스트 문장에 의해 발화된 음성을 나타내고, 라벨화되지 않은 음성 데이터는 학습자의 언어적 특성을 획득하기 위해 발화된 음성을 나타낸다.

그 다음, 전처리부(120)는 라벨화된 음성데이터와 라벨화되지 않은 음성데이터를 음성인식기를 통해 전처리하여 오디오 데이터만을 추출한다.

학습부(130)는 추출된 오디오 데이터를 기 구축된 심층 신경망 모델에 입력하여 심층 신경망 모델로 하여금 학습자의 음성을 MFCC(Mel-Frequency Cepstral Coefficient)스펙토그램으로 변환하도록 학습시킨다.

음성합성부(140)는 학습이 완료된 심층 신경망 모델에 학습하고자 하는 학습자의 음성으로부터 추출된 오디오 신호를 입력하여 MFCC 스펙토그램으로 변환한다. 그 다음, 음성합성부(140)는 변환된 MFCC 스펙토그램에 가이드 음성을 합성한다.

평가부(150)는 학습자로부터 획득한 음성데이터의 강세와 정답문으로부터 변환된 음성데이터의 강세를 상호 비교하여 학습자에 대한 발음을 평가한다.

마지막으로 출력부(160)는 가이드 음성 및 평과 결과를 출력한다.

이하에서는 도 2 및 도 3을 이용하여 본 발명의 실시예에 따른 가이드 음성 제공시스템을 이용하여 가이드 음성을 제공하는 방법에 대해 더욱 상세하게 설명한다.

도 2는 본 발명의 실시예에 따른 가이드 음성 제공시스템을 이용한 가이드 음성을 제공하는 방법을 설명하기 위한 순서도이고, 도 3은 도 2에 도시된 S270을 이용하여 강세를 평가하는 방법에 대해 설명한다.

도 2에 도시된 바와 같이, 본 발명의 실시예에 따른 음성수신부(110)는 학습자에 의해 발화된 음성을 수신한다(S210).

부연하자면, 가이드 음성 제공시스템(100)은 학습자 단말기에 특정 테스트 문장을 제공한다. 학습자가 학습자 단말기에 포함된 마이크 기능을 이용하여 특정 테스트 문장을 읽게 되면, 학습자 단말기는 획득한 음성데이터를 가이드 음성 제공시스템(100)에 송신한다.

한편, 가이드 음성 제공시스템(100)은 필요에 따라 추가 음성 요청 신호를 송신한다. 이는 학습자마다 문장을 발화할 때 경향성이 있기 때문이다.

그 다음, 전처리부(120)는 학습자 단말기로부터 수신된 음성 데이터를 음성 인식기에 입력하여 오디오 신호를 추출한다(S220).

오디오 신호는 대략 20~20,000 Hz 오디오 주파수 범위의 주파수를 이용하여 나타난다. 상기의 주파수 범위는 인간이 들을 수 있는 가청 범위이다.

따라서, 전처리부(120)는 수신된 음성데이터를 라벨화된 음성데이터와 라벨화되지 않은 음성데이터로 분류한다. 라벨화된 음성데이터는 제공된 특정 테스트 문장에 대응하여 획득한 음성데이터이고, 라벨화되지 않은 음성데이터는 추가 음성 요청 신호에 따라 획득한 음성데이터이다.

전처리부(120)는 라벨화된 음성데이터 또는 라벨화되지 않음 음성데이터를 음성인식기에 입력하여 오디오 신호를 추출한다.

추출된 오디오 신호는 학습부(130)에 전달된다.

학습부(130)는 오디오 신호를 STFT(Short-Time-Fourier-Transform) 및 Mel-Filtering을 통해, MFCC(Mel-Frequency Cepstral Coefficient) 스펙토그램으로 변환하고, 이를 통해 학습자 개개인의 음성 모델을 학습한다(S230).

이를 다시 설명하면, 학습부(130)는 학습자 개개인의 음성을 합성하기 위한 심층 신경망 모델을 구축하고, 구축된 심층 신경망 모델에 학습자의 음성데이터로부터 추출된 오디오 신호를 입력하여 학습시킨다.

이때, 심층 신경망 모델은 STFT(Short-Time-Fourier-Transform) 및 Mel-Filtering을 이용하여 오디오신호에 포함된 주파수 특성을 이용하여 MFCC 스펙토그램을 획득한다.

상기와 같이, 주파수 특성을 이용하여 학습자 개개인의 특징을 추출한다.

S230단계가 완료된 상태에서, 음성합성부(140)는 학습하고자 하는 학습자의 음성을 수신한다(S240).

그 다음 음성합성부(140)는 수신된 음성데이터를 전처리하여 오디오 신호를 획득하고, 획득한 오디오 신호를 학습이 완료된 심층 신경망 모델에 입력하여 주파수 특성을 획득한다(S250).

그 다음, 음성합성부(140)는 획득한 주파수 특성과 가이드 음성을 합성한다(S260).

여기서 가이드 음성은 TTS(text-to-speech) 알고리즘을 이용하여 특정 테스트 문장을 음성으로 변환된 것을 나타낸다. 따라서, 음성합성부(140)는 특정 테스트 문장과 학습자의 음성을 합성한다. 그 다음, 후술되는 평가부(150)에 의해 획득한 문장의 강세를 적용하여 가이드 음성을 생성한다.

그 다음, 평가부(150)는 학습자에 의해 발화된 음성의 신호 크기를 분석하여 강세가 포함된 부분을 추출하고, 정답문으로부터 변환된 표준 음성의 신호 크기를 분석하여 강세가 포함된 부분을 추출한 다음, 각각의 강세를 상호 비교하여 학습자의 발음을 평가한다(S270).

부연하자면, 평가부(150)는 구글에서 제공하는 텍스트에서 음성으로 변환하는 기능을 이용하여, 정답문을 미국식/영국식 표준 음성으로 변환한 후 워드타임스탬프 등 오디오 시간 측정 프로그램으로 분석하여 정답문의 표준 발화속도를 확인한다.

그 다음, 평가부(150)는 변환된 표준 음성의 신호 크기를 분석하여 강세가 들어가는 부분을 분석한다. 예를 들어, 주변 단어(앞/뒤) 보다 발화된 단어의 신호 크기가 클 경우, 평가부(150)는 해당 단어를 강세로 인지한다.

다만, 조사와 같이 강세가 들어가지 않는 부분에 강세가 들어간 경우에는 강세로 고려하지 않고 앞뒤의 단어 중 차순위로 신호 크기가 큰 단어에 강세가 들어간 것으로 변환하여 인지한다.

따라서, 평가부(150)는 학습자가 발음한 발화문의 신호 크기를 분석하여 강세가 들어가는 부분을 분석한다. 그러면, 도 3에 도시된 바와 같이, 평가부(150)는 위 변환된 표준 음성에서 강세가 들어간 부분과 발화문의 강세가 들어간 부분을 비교하여, 강세를 평가한다.

다만, 신호 크기(시간 영역)만으로 강세를 평가하는 것은 다소 정확도가 떨어질 수 있으므로, 평가부(150)는 주파수 변환을 통하여 주파수 영역에서 강세가 들어가는 부분을 분석한다. 즉, 평가부(150)는 신호 크기를 이용한 강세 분석 및 주파수 영역 강세 분석을 함께 이용하여 강세를 분석하고 비교한다.

마지막으로 출력부(160)는 생성된 가이드 음성과 평가 결과를 학습자 단말기에 제공한다(S280)

본 발명은 도면에 도시된 실시 예를 참고로 하여 설명되었으나 이는 예시적인 것에 불과하며, 당해 기술이 속하는 분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시 예가 가능하다는 점을 이해할 것이다. 따라서 본 발명의 진정한 기술적 보호범위는 아래의 특허청구범위의 기술적 사상에 의하여 정해져야 할 것이다.

100 : 가이드 음성 제공시스템
110 : 음성수신부
120 : 전처리부
130 : 학습부
140 : 음성합성부
150 : 평가부
160 : 출력부

Claims

딥러닝을 기반으로 하는 가이드 음성 제공 시스템에 있어서,
학습자에 의해 발화된 음성을 수신하는 음성수신부,
상기 수신된 음성을 라벨링된 음성데이터와 라벨링되지 않은 음성데이터로 분류한 다음, 분류된 라벨링된 음성데이터와 라벨링되지 않은 음성데이터를 전처리하여 오디오 신호만을 추출하는 전처리부,
상기 추출된 오디오 신호를 기 구축된 심층 신경망(Deep Neural Network) 모델에 입력하여 학습자의 음성을 MFCC(Mel-Frequency Cepstral Coefficient)스펙토그램으로 변환하도록 학습시키는 학습부,
학습하고자 하는 학습자의 음성으로부터 추출된 오디오 신호를 학습이 완료된 심층 신경망 모델에 입력하여 MFCC 스펙토그램으로 변환하고, 변환된 MFCC 스펙토그램에 정답문을 합성하여 가이드 음성을 생성하는 음성 합성부, 그리고
상기 가이드 음성을 출력하는 출력부를 포함하는 가이드 음성 제공 시스템.
제 1항에 있어서,
상기 음성 데이터의 신호 크기를 분석하여 강세를 추출하고, 상기 추출된 강세를 이용하여 발음을 평가하는 평가부를 더 포함하는 가이드 음성 제공 시스템.
제 1항에 있어서,
상기 전처리부는,
특정 테스트 문장에 대해 발화 요청 신호를 송신하고, 송신된 발화 요청 신호에 대응하여 학습자로부터 발화된 음성을 수신하면, 수신된 학습자의 음성과 특정 테스트 문장을 매칭하여 라벨링된 음성데이터로 분류하고,
음성 요청 신호에 따라 학습자로부터 발화된 음성을 라벨링되지 않은 음성 데이터로 분류하며,
상기 학습자로부터 발화된 음성을 음성 인식기에 입력하여 오디오 신호만을 추출하는 가이드 음성 제공 시스템.
제 1항에 있어서,
상기 음성 합성부는,
STFT(Short-Time-Fourier-Transform) 및 Mel-Filtering을 통해 학습자의 음성으로부터 주파수의 파형을 추출하는 가이드 음성 제공 시스템.
제4항에 있어서,
상기 평가부는,
학습자에 의해 발화된 음성의 신호 크기를 분석하여 강세가 포함된 부분을 추출하고, 정답문으로부터 변환된 표준 음성의 신호 크기를 분석하여 강세가 포함된 부분을 추출한 다음, 각각의 강세를 상호 비교하여 학습자의 발음을 평가하는 가이드 음성 제공 시스템.