KR20240033425A

KR20240033425A - 외국어 발화 훈련을 위한 원어민 음성 매칭 시스템 및 방법

Info

Publication number: KR20240033425A
Application number: KR1020220112065A
Authority: KR
Inventors: 천혜진
Original assignee: 천혜진
Priority date: 2022-09-05
Filing date: 2022-09-05
Publication date: 2024-03-12

Abstract

본 발명은 원어민의 음성 샘플 데이터에서 음성 주파수(pitch)값, 음성 크기(volume)값, 음성 강도(pressure)값, 음색(tone) 및 어속(tempo)에 대한 음성 요소를 추출하여 학습자 음성과 음성 매칭율이 높은 원어민 교수자를 추천해주는 외국어 발화 훈련을 위한 원어민 음성 매칭 시스템 및 방법에 관한 것으로, 원어민 강사의 학습 콘텐츠 영상을 녹취하여 생성된 원어민 음성 데이터를 저장하고, 학습자의 발화 데이터를 녹취하여 생성된 학습자 음성 데이터를 수신하고, 학습자의 음성 데이터를 분석하여 획득한 학습자의 음성 요소 및 남/여 각 100명의 원어민 강사의 영상 데이터 대조군 음성요소를 비교하여 학습자 음성 요소값에 가장 근접하는 원어민 영상 추천군을 출력해주는 외국어 발화 훈련을 위한 원어민 음성 매칭 시스템에 의해 학습자의 음성적 조건과 유사한 음성값의 원어민 멘토를 추천하고, 훈련함으로써 학습자와 원어민 영상 데이터간 음성적 차이를 최소화하고 동기화율을 극대화하여 원어민에 근접하는 유창한 발음, 억양, 발성으로 영어를 구사할 수 있는 수준에 이르도록 할 수 있다.

Description

외국어 발화 훈련을 위한 원어민 음성 매칭 시스템 및 방법{System and Method for matching of voice for speaking practice of foreign language}

본 발명은 외국어 발화 훈련을 위한 원어민 음성 매칭 시스템 및 방법에 관한 것으로 보다 상세하게는 원어민의 음성 샘플 데이터에서 음성 주파수(pitch)값, 음성 크기(volume)값, 음성 강도(pressure)값, 음색(tone) 및 어속(tempo)에 대한 음성 요소를 추출하여 학습자 음성과 음성 매칭율이 높은 원어민 교수자를 추천해주는 외국어 발화 훈련을 위한 원어민 음성 매칭 시스템 및 방법에 관한 것이다.

일반적으로 외국어 학습에 대한 중요성이 높아지고있고, 이러한 중요성에 따라 많은 사람들이 외국어 학습에 많은 시간과 노력을 할애하고 있다. 이에 따라 다양한 온/오프라인 외국어 강좌들이 개설되고 있다.

외국어 학습의 다양한 영역 중에 문법 및 어휘학습의 경우는 모국어와 외국어에 정확한 의미 및 구조상의 차이를 문서화된 서적 등을 통해서 이해하기가 용이하지만 의사소통의 가장 기본적인 수단 중 하나인 발음 학습의 경우에는 학습하는 외국어의 특정 발음들이 모국어에 존재 하지 않으면 정확하게 모방하여 말하기가 어렵다. 또한 영어의 경우에는 영어를 모국어로 하는 각 국가 마다 특정 음소들은 발음하는 방식에 차이가 있고 철자를 소리내는 규칙(phonics)에도 차이가 존재하기 때문에 문서화된 학습 자료가 어떠한 국가의 영어 발음으로 표기가 되었고 기술되었느냐에 따라서 내용이 상이할 수가 있다.

영어가 모국어라고 하더라도 각 국가별 발음 차이 및 출신지 역 특유의 방언(dilect) 및 액센트(accent)의 차이를 정확하게 이해하지 못하고 학습하게 되면 대화 시에 정확한 정보를 전달하고 이해하는데 어려움이 있을 수 있다. 이러한 이유로 인하여 영어 발음 학습의 경우는 초기 학습 때부터 전세계적으로 사용빈도가 가장 높은 북미식 또는 영국식 발음 등을 정확한 표준 영어 발음으로 학습하는 것이 학습 효율성을 배가시키는데 중요시되고 있으며 그러한 이유로 학령 전 유아기때부터 이러한 정확한 외국어의 input과 output 능력을 형성하기 위하여 영어 유치원, 영어 학원 및 재택 방문 1:1 파닉스(Phonics) 학습 등을 통해서 막대한 지출이 소요되고 있는 실정이다.

또한 일반적으로 발음이나 발음에 대한 교정은 외국인 강사와의 1:1 지도방식에 의해 이루어지고 있는데, 이 경우 영어 학습에 많은 비용이 소요된다는 문제점이 있으며, 특별히 정해진 시간에 교육이 이루어지기 때문에 직장인 등과 같은 바쁜 일상생활을 영위하는 사람들에게는 그 학습에의 참여가 극히 제한적이라는 한계가 있다.

이러한 요구에 부응하기 위하여 현재에는 음성 인식 또는 음성 파형분석을 이용한 다양한 어학용 프로그램들을 탑재한 어학용 학습기가 개발되어 보급되고 있다. 상기와 같은 어학용 학습기의 영어 발음 평가방법은 음성 신호 처리기술을 이용한 발음 비교방법에 의하며, 여기에는 은닉 마코브 모델(Hidden Markov Model, 이하 HMM 이라 함)을 이용하여 학습자의 발음을 인식한 후, 이를 원어민의 음성과 비교하여 그 결과를 알려주는 프로그램들을 이용하여 실시하고 있다.

그러나 PC 및 스마트 기기를 통해 실행되는 기존의 영어 말하기학습 서비스들은 학습자의 언어적 특성을 전혀 고려하지 않은 채 애니메이션이나 부자연스러운 AI 음성, 더빙 음성 등 일방적이고 무작위적인 영상을 제공하기 때문에 학습자의 영어구사력 모방학습을 통한 원어민 동기화에 어려움을 겪고 있다. 국내에서 가장 효율적인 영어구사력 체득 방법은 원어민 영상을 시청하며 실시간으로 따라하는 모방방식(쉐도잉)인데 학습자 자신의 음성학적 요소의 특징과 상이한 소리를 모방학습할 경우 동기화율이 매우 낮아지는 결과를 보인다. 즉, 정확한 세부발음이나 발성, 억양과 강세 등의 요소를 정확히 모방하여 체화하기가 어렵고 그 정확도와 효율성이 떨어진다고 할 수 있다.

국내공개특허공보 제10-2012-0040174

본 발명은 이 같은 기술적 배경에서 도출된 것으로, 원어민 영상을 통한 모방 훈련을 함에 있어 학습자의 음성적 조건과 유사한 음성값의 원어민 멘토를 추천하고, 훈련함으로써 학습자와 원어민 영상 데이터간 음성적 차이를 최소화하고 동기화율을 극대화하여 원어민에 근접하는 유창한 발음, 억양, 발성으로 영어를 구사할 수 있는 수준에 이르도록 하는 외국어 발화 훈련 솔루션 제공 시스템 및 그 구동방법을 제공함에 그 목적이 있다.

상기의 과제를 달성하기 위한 본 발명은 다음과 같은 구성을 포함한다.

즉 본 발명의 일 실시예에 따른 외국어 발화 훈련을 위한 원어민 음성 매칭 시스템은 적어도 한 명 이상의 원어민의 음성 샘플 데이터를 입력받고, 원어민마다 음성 샘플 데이터에서 음성 주파수(pitch)값, 음성 크기(volume)값, 음성 강도(pressure)값, 음색(tone) 및 어속(tempo)에 대한 음성 요소를 추출하거나, 학습자 단말로부터 학습자 음성을 수신하고 수신된 음성 데이터에서 음성 주파수(pitch)값, 음성 크기(volume)값, 음성 강도(pressure)값, 음색(tone) 및 어속(tempo)에 대한 음성 요소를 추출하는 추출부, 상기 추출부에서 추출된 음성 요소를 음성 주파수(pitch)값, 음성 크기(volume)값, 음성 강도(pressure)값, 음색(tone) 및 어속(tempo) 지표를 동심원 위에 표시한 오각형의 레이더 차트상에 적용하여 원어민의 음성 샘플 데이터 또는 학습자의 음성 데이터에 대한 음성 스펙트럼을 도출하는 스펙트럼 도출부, 상기 스펙트럼 도출부에서 도출된 적어도 하나 이상의 원어민 음성 샘플 데이터에 대한 음성 스펙트럼을 데이터베이스화하여 저장하는 원어민 스펙트럼 저장부, 상기 스펙트럼 도출부에서 도출된 학습자의 음성 데이터에 대한 음성 스펙트럼과 상기 원어민 스펙트럼 저장부에 저장된 원어민 음성 샘플 데이터에 대한 음성 스펙트럼을 비교하여, 학습자의 음성 데이터에 대한 음성 스펙트럼과 일치도가 높은 순서로 적어도 하나 이상의 원어민 음성 샘플 데이터에 대한 음성 스펙트럼을 추출하는 비교부 및 상기 비교부에서 비교결과에 따라 일치도가 높은 순서대로 원어민 음성 샘플 데이터에 해당하는 원어민을 교수자로 매칭시켜 추천해주는 교수자 추천부를 포함한다.

한편, 일 실시예에 따른 외국어 발화 훈련을 위한 원어민 음성 매칭 방법은 적어도 한 명 이상의 원어민의 음성 샘플 데이터를 입력받고, 원어민마다 음성 샘플 데이터에서 음성 주파수(pitch)값, 음성 크기(volume)값, 음성 강도(pressure)값, 음색(tone) 및 어속(tempo)에 대한 음성 요소를 추출하는 단계, 상기 추출된 음성 요소를 음성 주파수(pitch)값, 음성 크기(volume)값, 음성 강도(pressure)값, 음색(tone) 및 어속(tempo) 지표를 동심원 위에 표시한 오각형의 레이더 차트상에 적용하여 원어민의 음성 샘플 데이터에 대한 음성 스펙트럼을 도출하는 단계, 상기 도출된 적어도 하나 이상의 원어민 음성 샘플 데이터에 대한 음성 스펙트럼을 데이터베이스화하여 저장하는 단계, 학습자 단말로부터 학습자 음성을 수신하고 수신된 음성 데이터에서 음성 주파수(pitch)값, 음성 크기(volume)값, 음성 강도(pressure)값, 음색(tone) 및 어속(tempo)에 대한 음성 요소를 추출하는 단계, 상기 추출된 음성 요소를 음성 주파수(pitch)값, 음성 크기(volume)값, 음성 강도(pressure)값, 음색(tone) 및 어속(tempo) 지표를 동심원 위에 표시한 오각형의 레이더 차트상에 적용하여 학습자의 음성 데이터에 대한 음성 스펙트럼을 도출하는 단계, 상기 도출된 학습자의 음성 데이터에 대한 음성 스펙트럼과 상기 저장된 원어민 음성 샘플 데이터에 대한 음성 스펙트럼을 비교하여, 학습자의 음성 데이터에 대한 음성 스펙트럼과 일치도가 높은 순서로 적어도 하나 이상의 원어민 음성 샘플 데이터에 대한 음성 스펙트럼을 추출하는 비교 단계, 상기 비교결과에 따라 일치도가 높은 순서대로 원어민 음성 샘플 데이터에 해당하는 원어민을 교수자로 매칭시켜 추천해주는 단계를 포함한다.

본 발명에 의하면 원어민 영상을 통한 모방 훈련을 함에 있어 학습자의 음성적 조건과 유사한 음성값의 원어민 멘토를 추천하고, 훈련함으로써 학습자와 원어민 영상 데이터간 음성적 차이를 최소화하고 동기화율을 극대화하여 원어민에 근접하는 유창한 발음, 억양, 발성으로 영어를 구사할 수 있는 수준에 이르도록 하는 외국어 발화 훈련 솔루션 제공 시스템 및 그 구동방법을 제공하는 효과가 도출된다.

도 1 은 본 발명의 일 실시예에 따른 외국어 발화 훈련 솔루션 제공 시스템의 구성을 도시한 블록도이다.
도 2 는 일 실시예에 따른 외국어 발화 훈련 서비스 제공 웹페이지 또는 어플리케이션에서 원어민 그룹의 성별 및 나이 입력 화면의 예시도이다.
도 3 은 일 실시예에 따른 외국어 발화 훈련 서비스 제공 웹페이지 또는 어플리케이션에서 학습자의 성별 및 나이 입력 화면의 예시도이다.
도 4 는 본 발명의 일 실시예에 따른 스펙트럼 도출부에서 도출된 레이더 차트 예시도이다.
도 5 는 본 발명의 일 실시예에 따른 외국어 발화 훈련 서비스 제공 웹페이지 또는 어플리케이션에서 원어민 매칭 결과 화면의 예시도이다.
도 6은 본 발명의 일 양상에 따른 외국어 발화 훈련을 위한 원어민 음성 매칭 방법의 흐름도이다.

본 발명에서 사용되는 기술적 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아님을 유의해야 한다. 또한, 본 발명에서 사용되는 기술적 용어는 본 발명에서 특별히 다른 의미로 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 의미로 해석되어야 하며, 과도하게 포괄적인 의미로 해석되거나, 과도하게 축소된 의미로 해석되지 않아야 한다.

이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명한다.

도 1 은 본 발명의 일 실시예에 따른 외국어 발화 훈련을 위한 원어민 음성 매칭 시스템의 구성을 도시한 블록도이다.

본 발명의 일 실시예에 따른 외국어 발화 훈련을 위한 원어민 음성 매칭 시스템은 원어민 교수자의 영상 데이터를 기반으로 특화된 말하기 훈련 전용 컨텐츠를 제공하는 발화 전용 시뮬레이터를 제공한다. 또한 학습자의 표정과 제스처에 대한 실물 영상 쉐도잉을 통해 멘토의 언어적 특질을 학습하도록 하는 학습자 맞춤형 맨토링 기능, 상호 간 연령대와 성별에 따른 멘토 매칭 기능, 음성/발음/어속/표정/동작에 다른 원어민의 언어적 특질을 학습하고, 청취 동시 발화(오버래핑)를 통한 음성 정보 손실 최소화 기능을 구비한 음성 인식 모듈을 포함한다.

특히 운동성 언어 영역으로 알려진 뇌의 브로카 영역의 강화 학습 훈련 콘텐츠를 제공하고, 영어 발성과 발음에 관여하는 주변 근육 및 구강 근육의 직접 강화 훈련을 통한 운동 영역 집중 강화 훈련 등의 학습 서비스를 제공할 수 있다.

즉, 일 실시예에 따른 외국어 발화 훈련을 위한 원어민 음성 매칭 시스템(10)은 원어민 강사 그룹의 성별/나이를 입력받고, 학습자의 성별/나이를 입력받는다.

그리고 원어민 강사의 학습 콘텐츠 영상을 녹취하여 생성된 원어민 음성 데이터를 저장하고, 학습자의 발화 데이터를 녹취하여 생성된 학습자 음성 데이터를 수신한다.

그리고 원어민의 음성 데이터와 학습자의 음성 데이터를 분석하여 획득한 학습자의 음성 요소 및 남/여 각 100명의 원어민 강사의 영상 데이터 대조군 음성요소를 비교하여 학습자 음성 요소값에 가장 근접하는 원어민의 영상 추천군을 출력해줄 수 있다.

도 1 과 같이 일 실시예에 따른 외국어 발화 훈련을 위한 원어민 음성 매칭 시스템(10)은 통신부(110), 추출부(120), 스펙트럼 도출부(130), 원어민 스펙트럼 저장부(140), 비교부(150), 교수자 추천부(160), 콘텐츠 제공부(170) 및 평가부(180)를 포함한다.

통신부(110)는 유/무선 통신망을 통해 내부의 임의의 구성 요소 또는 외부의 임의의 적어도 하나의 단말기와 통신 연결한다. 여기서, 무선 인터넷 기술로는 무선랜(Wireless LAN: WLAN), DLNA(Digital Living Network Alliance), 와이브로(Wireless Broadband: Wibro), 와이맥스(World Interoperability for Microwave Access: Wimax), HSDPA(High Speed Downlink Packet Access), HSUPA(High Speed Uplink Packet Access), IEEE 802.16, 롱 텀 에볼루션(Long Term Evolution: LTE), LTE-A(Long Term Evolution-Advanced), 광대역 무선 이동 통신 서비스(Wireless Mobile Broadband Service: WMBS) 등이 있으며, 상기 통신부(110)는 상기에서 나열되지 않은 인터넷 기술까지 포함한 범위에서 적어도 하나의 무선 인터넷 기술에 따라 데이터를 송수신하게 된다.

또한, 근거리 통신 기술로는 블루투스(Bluetooth), RFID(Radio Frequency Identification), 적외선 통신(Infrared Data Association: IrDA), UWB(Ultra Wideband), 지그비(ZigBee), 인접 자장 통신(Near Field Communication: NFC), 초음파 통신(Ultra Sound Communication: USC), 가시광 통신(Visible Light Communication: VLC), 와이 파이(Wi-Fi), 와이 파이 다이렉트(Wi-Fi Direct) 등이 포함될 수 있다. 또한, 유선통신 기술로는 전력선 통신(Power Line Communication: PLC), USB 통신, 이더넷(Ethernet), 시리얼 통신(serial communication), 광/동축 케이블 등이 포함될 수 있다.

외부의 임의의 적어도 하나의 단말기는 원어민 단말(20) 또는 학습자 단말(30)일 수 있다.

원어민 단말(20)과 학습자 단말(30)은 네트워크를 통해 원격지의 서버나 단말에 접속할 수 있는 단말로 휴대성과 이동성이 보장되는 무선 통신 장치일 수 있다. 또는, 네트워크를 통하여 원격지의 서버나 단말에 접속할 수 있는 컴퓨터로 구현될 수도 있다. 여기서, 컴퓨터는 예를 들어, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(Desktop), 랩톱(Laptop) 등을 포함할 수 있다.

원어민 단말(20)과 학습자 단말(30)은 스마트 폰(Smart Phone), 휴대 단말기(Portable Terminal), 이동 단말기(Mobile Terminal), 폴더블 단말기(Foldable Terminal), 개인 정보 단말기(Personal Digital Assistant: PDA), PMP(Portable Multimedia Player) 단말기, 텔레매틱스(Telematics) 단말기, 내비게이션(Navigation) 단말기, 개인용 컴퓨터(Personal Computer), 노트북 컴퓨터, 슬레이트 PC(Slate PC), 태블릿 PC(Tablet PC), 울트라북(ultrabook), 웨어러블 디바이스(Wearable Device, 예를 들어, 워치형 단말기(Smartwatch), 글래스형 단말기(Smart Glass), HMD(Head Mounted Display) 등 포함), 와이브로(Wibro) 단말기, IPTV(Internet Protocol Television) 단말기, 스마트 TV, 디지털방송용 단말기, AVN(Audio Video Navigation) 단말기, A/V(Audio/Video) 시스템, 플렉시블 단말기(Flexible Terminal), 디지털 사이니지 장치 등과 같은 다양한 단말기에 적용될 수 있다.

일 실시예에 있어서 원어민 단말(20)은 일 실시예에 따른 외국어 발화 훈련 솔루션 제공 시스템이 제공하는 외국어 발화 훈련 프로그램이나 앱, 웹페이지를 통해 교수자 역할을 할 수 있는 원어민이 소지하는 단말이고, 학습자 단말(30)은 일 실시예에 따른 외국어 발화 훈련 솔루션 제공 시스템이 제공하는 외국어 발화 훈련 프로그램이나 앱, 웹페이지를 통해 외국어 학습을 하고자하는 학습자가 소지하는 단말로 기술적 구성은 동일하지만, 발명의 이해를 돕기위해 구분하여 설명한다.

원어민 단말(20) 및 학습자 단말(30) 각각은 다른 단말들과의 통신 기능을 수행하기 위한 통신부(미도시), 다양한 정보 및 프로그램(또는 애플리케이션)을 저장하기 위한 저장부(미도시), 다양한 정보 및 프로그램 실행 결과를 표시하기 위한 표시부(미도시), 상기 다양한 정보 및 프로그램 실행 결과에 대응하는 음성 정보를 출력하기 위한 음성 출력부(미도시), 각 단말의 다양한 구성 요소 및 기능을 제어하기 위한 제어부(미도시) 등을 포함할 수 있다.

정보 입력부(115)는 적어도 하나 이상의 원어민 단말(20)로부터 원어민의 연령, 성별, 음성 샘플 데이터를 입력받아 원어민 데이터베이스를 구축한다. 일 실시예에 있어서 정보 입력부(115)는 원어민 단말(20)로부터 원어민 각각에 대해 성별, 나이 정보를 입력받는다. 그리고 원어민 단말(20)로부터 원어민 영상을 녹취한 학습 콘텐츠를 더 수신할 수 있다.

또한 정보 입력부(115)는 관리자 웹페이지에서 원어민이 멘토 회원으로 등록시에 원어민 데이터베이스 구축을 위한 정보들을 입력받을 수 있다.

도 2 는 일 실시예에 따른 외국어 발화 훈련 서비스 제공 웹페이지 또는 어플리케이션에서 원어민 그룹의 성별 및 나이 입력 화면의 예시도이다.

원어민 정보 수정은 관리자가 하거나 원어민이 원어민 단말(20)에서 직접 수행할 수 있다.

또한 정보 입력부(115)는 학습자 단말(30)로부터 외국어 학습자의 연령, 성별, 음성 샘플 데이터를 더 입력받는다. 일 실시예에 있어서, 정보 입력부(115)는 관리자 웹페이지에서 학습자 단말(30)로부터 학습자의 성별, 나이 정보를 입력받고 회원 가입요청에 따라 ID를 생성할 수 있다. 그리고 정보 입력부(115)는 학습자 ID와 함께 학습자의 성별 및 나이 정보를 함께 매칭시켜 저장한다.

또한 정보 입력부(115)는 학습자의 음성 샘플 데이터를 입력받는다. 학습자의 음성 샘플 데이터는 회원 가입시에 소정의 텍스트 문장을 제공하여 해당 문장을 말하도록 함으로써 입력받을 수 있다.

도 3 은 일 실시예에 따른 외국어 발화 훈련 서비스 제공 웹페이지 또는 어플리케이션에서 학습자의 성별 및 나이 입력 화면의 예시도이다.

학습자는 일 실시예에 따른 외국어 발화 훈련 서비스 제공 웹페이지 또는 어플리케이션에 회원 가입시에 또는 회원가입시에 정보 수정 메뉴를 통해 학습자 개인 정보를 생성하거나 편집할 수 있다. 이때 외국어 발화 훈련 서비스를 제공하는 학습자가 속한 학원이나 단체 정보를 함께 입력할 수 있다.

추출부(120)는 적어도 하나 이상의 원어민 단말(20)로부터 원어민의 음성 샘플 데이터를 입력받고, 원어민마다 음성 샘플 데이터에서 음성 주파수(pitch)값, 음성 크기(volume)값, 음성 강도(pressure)값, 음색(tone) 및 어속(tempo)에 대한 음성 요소를 추출하거나, 학습자 단말로부터 학습자 음성을 수신하고 수신된 음성 데이터에서 음성 주파수(pitch)값, 음성 크기(volume)값, 음성 강도(pressure)값, 음색(tone) 및 어속(tempo)에 대한 음성 요소를 추출한다.

스펙트럼 도출부(130)는 추출부(120)에서 추출된 음성 요소를 음성 주파수(pitch)값, 음성 크기(volume)값, 음성 강도(pressure)값, 음색(tone) 및 어속(tempo) 지표를 동심원 위에 표시한 오각형의 레이더 차트상에 적용하여 원어민의 음성 샘플 데이터 또는 학습자의 음성 데이터에 대한 음성 스펙트럼을 도출한다.

도 4 는 본 발명의 일 실시예에 따른 스펙트럼 도출부에서 도출된 레이더 차트 예시도이다.

도 4 에서와 같이 일 실시예에 따른 스펙트럼 도출부(130)는 원어민과 학습자의 음성 샘플 데이터로부터 음성 주파수(pitch)값, 음성 크기(volume)값, 음성 강도(pressure)값, 음색(tone) 및 어속(tempo)에 대한 음성 요소를 추출하여 음성 스펙트럼을 도출한다.

일 양상에 있어서 스펙트럼 도출부(130)는 동일한 원어민의 적어도 하나 이상의 음성 샘플 데이터 또는 동일한 학습자의 적어도 하나 이상의 음성 데이터에 대한 음성 스펙트럼을 도출하되, 각 음성 샘플 데이터 또는 음성 데이터에 대한 지표별 평균값으로 음성 스펙트럼을 도출한다.

일정 시간동안 원어민의 음성 샘플 데이터 또는 학습자의 음성 데이터를 입력받아 그에 대해 지표별 평균을 산출하거나, 적어도 둘 이상의 문장을 입력받아 각 문장들에 대해 파악되는 지표별 평균을 산출할 수 있다.

음성 주파수(pitch)값은 음의 높낮이로 주파수나 성대 진동에 연관된 값이다. 평균적으로 남자는 100~150Hz, 여자는 200~250Hz의 값을 갖는다.

그리고 음성 크기(volume)값은 소리의 크기값으로 보통 20~120dB(데시벨) 사이이다. 소리의 음성 강도(pressure)값은 소리의 세기 즉 음압에 관한 값으로 일반적으로는 1/1,000Pa~1Pa(파스칼)사이이다.

음색(tone)은 성대접지 유무에 따른 질감을 나타낼 수 있는 값으로 기준음과 배음(기준음의 n배)의 합 또는 dB와 Hz의 함수로 나타낼 수 있다. 어속(tempo)은 말의 빠르기를 나타는 값으로 1초당 발화되는 단어 또는 음소의 개수이다. 일반적으로 1 내지 6개 사이일 수 있다.

스펙트럼 도출부(130)는 원어민의 음성 샘플 데이터 및 학습자의 음성 데이터를 도 4 와 같이 각 요소들의 값으로 레이더 차트 위에 도형화하여 음성 스펙트럼을 도출한다.

원어민 스펙트럼 저장부(140)는 외부 장치로부터 수신/입력되는 데이터, 원어민 음성 매칭 시스템(10)이 생성한 데이터 등 각종 데이터 및 컴퓨터 프로그램을 저장할 수 있다. 상기 메모리(130)는 휘발성 메모리 및 비휘발성 메모리를 포함할 수 있다. 상기 메모리(270)는 예를 들어, 플래시 메모리, ROM, RAM, EEROM, EPROM, EEPROM, 하드 디스크, 레지스터를 포함할 수 있다. 또는 원어민 스펙트럼 저장부(140)는 파일 시스템, 데이터베이스, 임베디드 데이터베이스를 포함할 수도 있다.

일 실시예에 있어서, 원어민 스펙트럼 저장부(140)는 스펙트럼 도출부(130)에서 도출된 적어도 하나 이상의 원어민 음성 샘플 데이터에 대한 음성 스펙트럼을 데이터베이스화하여 저장한다.

비교부(150)는 스펙트럼 도출부(130)에서 도출된 학습자의 음성 데이터에 대한 음성 스펙트럼과 상기 원어민 스펙트럼 저장부에 저장된 원어민 음성 샘플 데이터에 대한 음성 스펙트럼을 비교하여, 학습자의 음성 데이터에 대한 음성 스펙트럼과 일치도가 높은 순서로 적어도 하나 이상의 원어민 음성 샘플 데이터에 대한 음성 스펙트럼을 추출한다.

본 발명의 일 양상에 있어서, 비교부(150)는 서비스 관리자 또는 학습자로부터 설정받은 음성 주파수(pitch)값, 음성 크기(volume)값, 음성 강도(pressure)값, 음색(tone) 및 어속(tempo)에 대한 음성 요소들 각각에 대한 가중치 정보를 반영하여 학습자의 음성 데이터에 대한 음성 스펙트럼과 일치도가 높은 순서로 적어도 하나 이상의 원어민 음성 샘플 데이터에 대한 음성 스펙트럼을 추출한다.

또한, 일 양상에 있어서 비교부(150)는 학습자의 음성 데이터에 대한 음성 스펙트럼에서 도출되는 도형 형태와 원어민 음성 샘플 데이터에 대한 음성 스펙트럼에서 도출되는 도형 형태 간 일치도를 비교한다.

이때 비교부(150)는 학습자의 음성 데이터에 대한 음성 스펙트럼에서 도출되는 도형 형태와 원어민 음성 샘플 데이터에 대한 음성 스펙트럼에서 도출되는 도형 면적간 일치도를 더 비교한다.

비교부(150)는 학습자 또는 서비스 관리자 설정에 의해 사이즈가 적거나 크더라도 학습자의 음성 데이터에 대한 음성 스펙트럼과 그 형태의 일치도가 높은 원어민 음성 샘플 데이터를 도출하거나, 형태에 차이가 있더라도 그 면적을 비교하여 면적의 일치도가 높은 원어민 음성 샘플 데이터를 도출할 수 있다.

형태가 유사한 것은 각 음성 요소에 대한 비율의 유사도가 높은것이고, 면적이 유사한 것은 각 요소에 대한 크기값이 유사한 것이어서 학습자 또는 서비스 관리자 설정에 따라 비교에 따른 도출 기준을 조절할 수 있다.

그리고 교수자 추천부(160)는 비교부(150)에서 비교결과에 따라 일치도가 높은 순서대로 원어민 음성 샘플 데이터에 해당하는 원어민을 교수자로 매칭시켜서 추천해준다.

본 발명의 일 양상에 있어서, 교수자 추천부(160)는 정보 입력부(115)가 학습자 단말(30)로부터 입력받은 원어민의 연령 및 성별 정보를 더 반영하여 추천해준다.

예를들어 음성 샘플 데이터에 대한 음성 스펙트럼의 유사도가 높아서 선별된 원언민들 중에서 학습자가 설정한 연령 및 성별에 해당하는 원어민을 선별하여 추천해줄 수 있다.

또는 비교부(150)가 우선적으로 학습자가 설정한 연령 및 성별에 해당하는 원어민의 음성 샘플 데이터를 선별하고, 설정한 연령 및 성별에 해당하는 원어민의 음성 샘플 데이터에 한정적으로 음성 스펙트럼 비교를 수행하도록 구현되는 것도 가능하다.

이때 학습자마다 성별이나 연령과 같은 기준에 우선권을 둘지, 발음 유사도에 우선권을 둘지를 학습자가 직접 설정하여 입력할 수 있다. 발음 유사도 중에서도 특히 음성 주파수(pitch)값, 음성 크기(volume)값, 음성 강도(pressure)값, 음색(tone) 및 어속(tempo) 항목들 중 어느 요소에 비중을 두고 유사도가 높은 원어민을 선정할지를 학습자가 직접 설정할 수 있다.

콘텐츠 제공부(170)는 학습자 단말(30)로부터 교수자 추천부(160)에서 추천한 원어민들 중 하나에 대한 선택 신호가 입력되면, 선택받은 원어민과의 발화 훈련 학습 콘텐츠를 제공한다.

콘텐츠 제공부(170)는 학습자의 음색에 맞는 특정인의 음색으로 학습이 가능한 콘텐츠를 제공함으로써 영어 모방도 정확도를 향상시킬 수 있다. 콘텐츠 제공부(170)는 특정 원어민이 발음한 문장에 대해 학습자의 동시 발화 학습 횟수가 설정된 값에 도달하면 다음 문장으로 넘어가는 식의 콘텐츠를 제공할 수 있다. 즉 학습자와 음색이 유사한 원어민이 외국어 문장을 출력하면 학습자가 따라서 또는 원어민과 동시에 발화하는 유형의 콘텐츠를 제공한다.

도 5 는 본 발명의 일 실시예에 따른 외국어 발화 훈련 서비스 제공 웹페이지 또는 어플리케이션에서 원어민 매칭 결과 화면의 예시도이다.

도 5 와 같이 비교부(150)는 전체 원어민 그룹에서 학습자의 음성 데이터와 매칭결과, 일치도가 높은 적어도 하나 이상의 원어민을 선별하여 추천해줄 수 있다. 그리고 선별된 적어도 하나 이상의 원어민들 중 하나에 대한 선택신호를 입력받는다.

즉 학습자와 상호 간 연령대와 성별이 유사한 원어민 멘토와의 매칭을 통해 음성/발음/어속/표정/동작에 다른 원어민의 언어적 특질을 학습할 수 있다.

평가부(180)는 콘텐츠 제공부(170)가 제공한 선택 받은 원어민과의 발화 훈련 학습 콘텐츠를 제공하고, 학습자로부터 발화 데이터를 수신하여 원어민의 발화데이터와 비교하여 일치도 정도를 평가하여 평가 결과를 제공해준다. 구체적으로 발화시 유사도(%), 반복횟수, 평가 포인트를 산출하여 결과를 제공해줄 수 있다.

이에 따라 보기, 듣기, 발화, 판정, 모니터링을 동시에 수행하여 오버랩핑 훈련이 가능하여 학습 효율을 높일 수 있다.

즉, 학습자가 원어민의 학습 콘텐츠를 통해 청취와 동시에 발화(오버래핑)를 수행함으로써, 음성 정보 손실 최소화 기능을 구비한 음성 인식 모듈을 포함하여 학습자의 발화 능력을 효율적으로 평가할 수 있다.

도 6은 본 발명의 일 양상에 따른 외국어 발화 훈련을 위한 원어민 음성 매칭 방법의 흐름도이다.

일 실시예에 따른 외국어 발화 훈련을 위한 원어민 음성 매칭 방법은 적어도 한 명 이상의 원어민의 음성 샘플 데이터를 입력받고, 원어민마다 음성 샘플 데이터에서 음성 주파수(pitch)값, 음성 크기(volume)값, 음성 강도(pressure)값, 음색(tone) 및 어속(tempo)에 대한 음성 요소를 추출한다(S600).

그리고 추출된 음성 요소를 음성 주파수(pitch)값, 음성 크기(volume)값, 음성 강도(pressure)값, 음색(tone) 및 어속(tempo) 지표를 동심원 위에 표시한 오각형의 레이더 차트상에 적용하여 원어민의 음성 샘플 데이터에 대한 음성 스펙트럼을 도출한다(S610).

이때 원어민의 음성 샘플 데이터에 대한 음성 스펙트럼을 도출하는 단계는, 원어민의 적어도 하나 이상의 음성 샘플 데이터의 적어도 하나 이상의 음성 데이터에 대한 음성 스펙트럼을 도출하되, 각 음성 샘플 데이터에 대한 지표별 평균값으로 음성 스펙트럼을 도출할 수 있다.

그리고 도출된 적어도 하나 이상의 원어민 음성 샘플 데이터에 대한 음성 스펙트럼을 데이터베이스화하여 저장한다(S620).

이후에 학습자 단말로부터 학습을 위한 원어민 교수자의 매칭 요청과 함께 학습자 음성을 수신하면(S630), 수신된 음성 데이터에서 음성 주파수(pitch)값, 음성 크기(volume)값, 음성 강도(pressure)값, 음색(tone) 및 어속(tempo)에 대한 음성 요소를 추출한다(S640).

그리고 추출된 음성 요소를 음성 주파수(pitch)값, 음성 크기(volume)값, 음성 강도(pressure)값, 음색(tone) 및 어속(tempo) 지표를 동심원 위에 표시한 오각형의 레이더 차트상에 적용하여 학습자의 음성 데이터에 대한 음성 스펙트럼을 도출한다(S650).

이때 학습자의 음성 데이터에 대한 음성 스펙트럼을 도출하는 단계는 학습자의 적어도 하나 이상의 음성 샘플 데이터의 적어도 하나 이상의 음성 데이터에 대한 음성 스펙트럼을 도출하되, 음성 데이터에 대한 지표별 평균값으로 음성 스펙트럼을 도출한다.

이후에 도출된 학습자의 음성 데이터에 대한 음성 스펙트럼과 상기 저장된 원어민 음성 샘플 데이터에 대한 음성 스펙트럼을 비교하여, 학습자의 음성 데이터에 대한 음성 스펙트럼과 일치도가 높은 순서로 적어도 하나 이상의 원어민 음성 샘플 데이터에 대한 음성 스펙트럼을 추출한다(S660).

일 양상에 있어서, 서비스 관리자 또는 학습자로부터 설정받은 상기 음성 주파수(pitch)값, 음성 크기(volume)값, 음성 강도(pressure)값, 음색(tone) 및 어속(tempo)에 대한 음성 요소들 각각에 대한 가중치 정보를 반영하여 학습자의 음성 데이터에 대한 음성 스펙트럼과 일치도가 높은 순서로 적어도 하나 이상의 원어민 음성 샘플 데이터에 대한 음성 스펙트럼을 추출한다.

그리고 학습자의 음성 데이터에 대한 음성 스펙트럼에서 도출되는 도형 형태와 원어민 음성 샘플 데이터에 대한 음성 스펙트럼에서 도출되는 도형 형태 간 일치도를 비교할 수 있다.

또한 학습자의 음성 데이터에 대한 음성 스펙트럼에서 도출되는 도형 형태와 원어민 음성 샘플 데이터에 대한 음성 스펙트럼에서 도출되는 도형 면적간 일치도를 더 비교할 수도 있다.

그리고 비교결과에 따라 일치도가 높은 순서대로 원어민 음성 샘플 데이터에 해당하는 원어민을 교수자로 매칭시켜서 추천해준다(S670).

전술한 방법은 애플리케이션으로 구현되거나 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.

상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거니와 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다.

컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD 와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.

프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상에서는 실시예들을 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

10 : 원어민 음성 매칭 시스템 20 : 원어민 단말
30 : 학습자 단말 110 : 통신부
115 : 정보 입력부 120 : 추출부
130 : 스펙트럼 도출부 140 : 원어민 스펙트럼 저장부
150 : 비교부 160 : 교수자 추천부
170 : 콘텐츠 제공부 180 : 평가부

Claims

적어도 한 명 이상의 원어민의 음성 샘플 데이터를 입력받고, 원어민마다 음성 샘플 데이터에서 음성 주파수(pitch)값, 음성 크기(volume)값, 음성 강도(pressure)값, 음색(tone) 및 어속(tempo)에 대한 음성 요소를 추출하거나, 학습자 단말로부터 학습자 음성을 수신하고 수신된 음성 데이터에서 음성 주파수(pitch)값, 음성 크기(volume)값, 음성 강도(pressure)값, 음색(tone) 및 어속(tempo)에 대한 음성 요소를 추출하는 추출부;
상기 추출부에서 추출된 음성 요소를 음성 주파수(pitch)값, 음성 크기(volume)값, 음성 강도(pressure)값, 음색(tone) 및 어속(tempo) 지표를 동심원 위에 표시한 오각형의 레이더 차트상에 적용하여 원어민의 음성 샘플 데이터 또는 학습자의 음성 데이터에 대한 음성 스펙트럼을 도출하는 스펙트럼 도출부;
상기 스펙트럼 도출부에서 도출된 적어도 하나 이상의 원어민 음성 샘플 데이터에 대한 음성 스펙트럼을 데이터베이스화하여 저장하는 원어민 스펙트럼 저장부;
상기 스펙트럼 도출부에서 도출된 학습자의 음성 데이터에 대한 음성 스펙트럼과 상기 원어민 스펙트럼 저장부에 저장된 원어민 음성 샘플 데이터에 대한 음성 스펙트럼을 비교하여, 학습자의 음성 데이터에 대한 음성 스펙트럼과 일치도가 높은 순서로 적어도 하나 이상의 원어민 음성 샘플 데이터에 대한 음성 스펙트럼을 추출하는 비교부; 및
상기 비교부에서 비교결과에 따라 일치도가 높은 순서대로 원어민 음성 샘플 데이터에 해당하는 원어민을 교수자로 매칭시켜 추천해주는 교수자 추천부;를 포함하는, 외국어 발화 훈련을 위한 원어민 음성 매칭 시스템.
제 1 항에 있어서,
상기 비교부는,
서비스 관리자 또는 학습자로부터 설정받은 상기 음성 주파수(pitch)값, 음성 크기(volume)값, 음성 강도(pressure)값, 음색(tone) 및 어속(tempo)에 대한 음성 요소들 각각에 대한 가중치 정보를 반영하여 학습자의 음성 데이터에 대한 음성 스펙트럼과 일치도가 높은 순서로 적어도 하나 이상의 원어민 음성 샘플 데이터에 대한 음성 스펙트럼을 추출하는, 외국어 발화 훈련을 위한 원어민 음성 매칭 시스템.
제 1 항에 있어서,
상기 비교부는,
학습자의 음성 데이터에 대한 음성 스펙트럼에서 도출되는 도형 형태와 원어민 음성 샘플 데이터에 대한 음성 스펙트럼에서 도출되는 도형 형태 간 일치도를 비교하는, 외국어 발화 훈련을 위한 원어민 음성 매칭 시스템.
제 3 항에 있어서,
상기 비교부는,
학습자의 음성 데이터에 대한 음성 스펙트럼에서 도출되는 도형 형태와 원어민 음성 샘플 데이터에 대한 음성 스펙트럼에서 도출되는 도형 면적간 일치도를 더 비교하는, 외국어 발화 훈련을 위한 원어민 음성 매칭 시스템.
제 1 항에 있어서,
상기 스펙트럼 도출부는,
동일한 원어민의 적어도 하나 이상의 음성 샘플 데이터 또는 동일한 학습자의 적어도 하나이상의 음성 데이터에 대한 음성 스펙트럼을 도출하되, 각 음성 샘플 데이터 또는 음성 데이터에 대한 지표별 평균값으로 음성 스펙트럼을 도출하는, 외국어 발화 훈련을 위한 원어민 음성 매칭 시스템.
적어도 한 명 이상의 원어민의 음성 샘플 데이터를 입력받고, 원어민마다 음성 샘플 데이터에서 음성 주파수(pitch)값, 음성 크기(volume)값, 음성 강도(pressure)값, 음색(tone) 및 어속(tempo)에 대한 음성 요소를 추출하는 단계;
상기 추출된 음성 요소를 음성 주파수(pitch)값, 음성 크기(volume)값, 음성 강도(pressure)값, 음색(tone) 및 어속(tempo) 지표를 동심원 위에 표시한 오각형의 레이더 차트상에 적용하여 원어민의 음성 샘플 데이터에 대한 음성 스펙트럼을 도출하는 단계;
상기 도출된 적어도 하나 이상의 원어민 음성 샘플 데이터에 대한 음성 스펙트럼을 데이터베이스화하여 저장하는 단계;
학습자 단말로부터 학습자 음성을 수신하고 수신된 음성 데이터에서 음성 주파수(pitch)값, 음성 크기(volume)값, 음성 강도(pressure)값, 음색(tone) 및 어속(tempo)에 대한 음성 요소를 추출하는 단계;
상기 추출된 음성 요소를 음성 주파수(pitch)값, 음성 크기(volume)값, 음성 강도(pressure)값, 음색(tone) 및 어속(tempo) 지표를 동심원 위에 표시한 오각형의 레이더 차트상에 적용하여 학습자의 음성 데이터에 대한 음성 스펙트럼을 도출하는 단계;
상기 도출된 학습자의 음성 데이터에 대한 음성 스펙트럼과 상기 저장된 원어민 음성 샘플 데이터에 대한 음성 스펙트럼을 비교하여, 학습자의 음성 데이터에 대한 음성 스펙트럼과 일치도가 높은 순서로 적어도 하나 이상의 원어민 음성 샘플 데이터에 대한 음성 스펙트럼을 추출하는 비교 단계;
상기 비교결과에 따라 일치도가 높은 순서대로 원어민 음성 샘플 데이터에 해당하는 원어민을 교수자로 매칭시켜 추천해주는 단계;를 포함하는, 외국어 발화 훈련을 위한 원어민 음성 매칭 방법.
제 6 항에 있어서,
상기 비교 단계는,
서비스 관리자 또는 학습자로부터 설정받은 상기 음성 주파수(pitch)값, 음성 크기(volume)값, 음성 강도(pressure)값, 음색(tone) 및 어속(tempo)에 대한 음성 요소들 각각에 대한 가중치 정보를 반영하여 학습자의 음성 데이터에 대한 음성 스펙트럼과 일치도가 높은 순서로 적어도 하나 이상의 원어민 음성 샘플 데이터에 대한 음성 스펙트럼을 추출하는, 외국어 발화 훈련을 위한 원어민 음성 매칭 방법.
제 6 항에 있어서,
상기 비교 단계는,
학습자의 음성 데이터에 대한 음성 스펙트럼에서 도출되는 도형 형태와 원어민 음성 샘플 데이터에 대한 음성 스펙트럼에서 도출되는 도형 형태 간 일치도를 비교하는, 외국어 발화 훈련을 위한 원어민 음성 매칭 방법.
제 8 항에 있어서,
상기 비교 단계는,
학습자의 음성 데이터에 대한 음성 스펙트럼에서 도출되는 도형 형태와 원어민 음성 샘플 데이터에 대한 음성 스펙트럼에서 도출되는 도형 면적간 일치도를 더 비교하는, 외국어 발화 훈련을 위한 원어민 음성 매칭 방법.
제 6 항에 있어서,
상기 원어민의 음성 샘플 데이터에 대한 음성 스펙트럼을 도출하는 단계는,
원어민의 적어도 하나 이상의 음성 샘플 데이터의 적어도 하나 이상의 음성 데이터에 대한 음성 스펙트럼을 도출하되, 각 음성 샘플 데이터에 대한 지표별 평균값으로 음성 스펙트럼을 도출하고,
상기 학습자의 음성 데이터에 대한 음성 스펙트럼을 도출하는 단계는,
학습자의 적어도 하나 이상의 음성 샘플 데이터의 적어도 하나 이상의 음성 데이터에 대한 음성 스펙트럼을 도출하되, 음성 데이터에 대한 지표별 평균값으로 음성 스펙트럼을 도출하는, 외국어 발화 훈련을 위한 원어민 음성 매칭 방법.