KR100701338B1 - 음성합성 기술을 이용한 원어민 운율 학습 방법 - Google Patents
음성합성 기술을 이용한 원어민 운율 학습 방법 Download PDFInfo
- Publication number
- KR100701338B1 KR100701338B1 KR1020060040848A KR20060040848A KR100701338B1 KR 100701338 B1 KR100701338 B1 KR 100701338B1 KR 1020060040848 A KR1020060040848 A KR 1020060040848A KR 20060040848 A KR20060040848 A KR 20060040848A KR 100701338 B1 KR100701338 B1 KR 100701338B1
- Authority
- KR
- South Korea
- Prior art keywords
- native
- phoneme
- native speaker
- learner
- speaker
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 18
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 18
- 238000006243 chemical reaction Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 11
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 4
- 230000008859 change Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000003252 repetitive effect Effects 0.000 description 2
- 230000003362 replicative effect Effects 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000001944 accentuation Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B5/00—Electrically-operated educational appliances
- G09B5/04—Electrically-operated educational appliances with audible presentation of the material to be studied
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B19/00—Teaching not covered by other main groups of this subclass
- G09B19/06—Foreign languages
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Educational Technology (AREA)
- Educational Administration (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Entrepreneurship & Innovation (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
본 발명은 음성합성 기술을 이용한 원어민 운율 학습 방법에 관한 것으로
원어민과 비원어민(학습자)의 소리를 휴지기를 포함하여 소리파일을 만드는 소리파일 생성단계와, 상기 소리파일 생성단계에서 생성된 소리파일을 일대일 대응을 시켜 수작업 또는 음소별 자동음성인식 기능을 이용하여 레이블을 만드는 레이블 생성과정과, 음성합성 및 변환 프로그램을 이용하여 음소별로 음소길이를 변환시켜 원어민 혹은 학습자의 음소길이에 맞추어 변환시키는 음소길이 변환과정과, 음성합성 및 변환 프로그램을 이용하여, 음소길이가 변환되어 음소별 길이가 동일하게 된 두 소리파일에 인토네이션(기본주파수 패턴) 패턴을 원어민의 것과 동일하게 변환시키는 인토네이션 변환과정과, 음소길이가 변환되어 음소별 길이가 동일하게 된 두 소리파일에 강세곡선을 원어민의 것과 동일하게 변환시키는 강세변환과정으로 이루어지게 하여 비원어민의 발음을 원어민의 발음과 같은 음소길이, 인토네이션, 강세곡선 등으로 변환시킨 소리파일을 제공하여 학습시 반복학습을 통해 원어민과 같은 발음을 구현할 수 있게 한 것이다.
피솔라 (PSOLA), 운율, 인토네이션, 강세, 음소길이, 음성합성, 외국어 교육
Description
도 1는 본 발명의 원어민 운율 학습 방법을 나타낸 플로우 챠트,
도 2는 원어민과 비원어민의 소리파일에 음소별로 레이블을 달아 놓은 상태를 나타낸 비교도,
도 3는 원어민과 비원어민의 각 음소별 길이, 인토네이션 패턴과 강세곡선을 일치시킨 소리파일을 나타낸 비교도,
도 4는 학습자의 문장에 대하여 원어민과 비원어민의 음소를 구성 성분으로 각각 대응시킨 실시예,
도 5는 학습자의 문장에 대하여 비원어민의 음소길이를 원어민의 음소길이로 일치시킨후 인터네이션을 변화시킨 실시예,
도 6는 학습자의 문장에 대하여 비원어민의 음소길이를 원어민의 음소길이로 일치시킨후 강세곡선을 변화시킨 실시예,
도 7는 학습자의 문장에 대하여 원어민의 음소길이를 비원어민의 음소길이로 일치시킨후 인터네이션 및 강세곡선을 변화시킨 실시예이다.
본 발명은 음성합성 기술을 이용한 원어민 운율 학습 방법에 관한 것으로
비원어민의 발음을 원어민의 발음과 같은 음소길이, 인토네이션, 강세곡선 등으로 변환시킨 소리파일을 제공하여 학습시 반복학습을 통해 원어민과 같은 발음을 구현할 수 있게 한 것이다.
외국어 발음 공부, 특히 원어민의 인토네이션이나 자모음의 길이, 구 단위로 끊어 읽기, 강세의 흐름(즉, 원어민의 운율 요소의 운율특징 (prosodic features))등을 익히려고 할 경우에, 대부분 외국어 공부시 사용되는 테이프나 씨디 롬 (CD-ROM) 교재들은 원어민의 문장을 단순 반복적으로 들려주거나 원어민의 문장과 학습자가 따라 읽은 문장의 인토네이션 패턴을 시각적으로 그림으로 비교하여 점수를 부여하는 방식을 취하고 있다.
그러나 이와같은 반복학습 후에도 자기의 발음이 원어민과 유사한지를 스스로 판단하여야 하며, 상술한 운율특징을 정확히 숙지하고 학습하기가 어려운 것이었다.
이와같이 원어민의 말을 계속적으로 반복 청취하게 하는 방식이 지난 몇십년 동안 지속되어 온 학습방식으로 학습자에게 새로운 동기부여를 하지 못하고 있고, 또 시각적으로 인토네이션 패턴을 비교하여 점수를 부여하는 경우, 새로운 방식으로 학습자의 흥미를 유발시킬 수는 있으나, 어학공부는 듣고 말하기를 위주로 하는 공부라는 점에서 기존의 방식보다 뛰어난 학습방법이라고는 말하기 어렵다.
본 발명은 이와같은 문제점을 해결하기 위한 것으로,
본 발명의 목적은 원어민 문장이 지니고 있는 인토네이션과 각 자음 및 모음의 길이 등의 운율 요소들을 비원어민인 학습자의 문장에 그대로 입혀서 학습자에게 외국어를 습득할수 있게한 음성합성 기술을 이용한 원어민 운율 학습 방법을 제공하고자 하는 것이다.
이와같은 학습방법에 의하면, 학습자의 문장에 원어민의 운율요소를 그대로 입혀서 학습자에게 들려주기 때문에 ( 학습자 자신의 목소리이지만 원어민의 인토네이션, 자모 길이 등이 그대로 복제가 된) 학습자 자신이 "아, 나도 인토네이션을 비롯한 운율요소를 제대로 발음하면 이렇게 발음이 되겠구나" 하는 학습 동기부여를 할 수가 있다.
다른 목적은 성대 손상 등을 입어 정상적인 사람의 목소리를 낼 수 없는 환자들에게 정상인의 운율 학습을 위한 치료 교재로도 응용이 가능하도록 한것이다.
상기한 목적을 달성하기 위한 음성합성 기술을 이용한 원어민 운율 학습 방법은 원어민과 비원어민(학습자)의 소리를 휴지기를 포함하여 소리파일을 만드는 소리파일 생성단계와, 상기 소리파일 생성단계에서 생성된 소리파일을 일대일 대응을 시켜 음소별로 수작업 또는 자동음성인식 기능을 이용하여 레이블을 만드는 레이블 생성과정과, 음성합성 및 변환 프로그램을 이용하여 음소별로 음소길이를 변환시켜 원어민 혹은 학습자의 음소길이에 맞추어 변환시키는 음소길이 변환과정과, 음성합성 및 변환 프로그램을 이용하여, 음소길이가 변환되어 음소별 길이가 동일하게 된 두 소리파일에 인토네이션(기본주파수 패턴) 패턴을 원어민의 것과 동일하게 변환시키는 인토네이션 변환과정과, 음소길이가 변환되어 음소별 길이가 동일하게 된 두 소리파일에 강세곡선을 원어민의 것과 동일하게 변환시키는 강세변환과정으로 이루어지며,
상기 음성합성 및 변환 프로그램은 피솔라 (PSOLA) 알고리즘이 탑재된 프로그램을 사용하는 것을 특징으로 하고 있다.
외국어의 습득시 외국어 운율을 제대로 학습하기 위해서는 원어민의 말을 반복적으로 듣는 것이 물론 중요하지만, 자신의 목소리가 아닌 남의 목소리를 반복적으로 듣는 것은 학습의 흥미 유발이라는 관점에서는 이상적인 방법이 되지 못하며,
본 발명에서와 같이 학습자가 따라 읽은 문장, 즉 해당 외국어의 운율적인 측면에서 완전하지는 못한 문장에, 원어민의 운율 요소를 합성변환하여 그대로 복제함으로써 학습자에게 학습자 자신의 목소리 형태로 다시 들려줌으로써, 학습효과를 배가할 수가 있다.
이하 본 발명의 실시예를 첨부된 도면에 의하여 상세히 설명하면 다음과 같다.
도 1는 본 발명의 원어민 운율 학습 방법을 나타낸 플로우 챠트이다.
학습을 하기 위하여 스텝 (S2)에서 원어민과 학습자의 소리파일을 각각 생성하고, 이 생성된 소리파일에서 음소별로 수동 또는 자동으로 레이블 파일을 스텝 (S3)에서 만들게 된다.
이와같이 작성된 레이블 파일을 가지고, 순차적으로 음소길이, 인토네이션, 강세곡선 변화를 순차적으로 선택할때에 스텝 (S7)에서 음소길이 비교 및 변환을 수행하며, 스텝 (S11)에서 인토네이션 변환을 하고, 스텝 (S15)에서 강세곡선 변환을 하여 음소길이/ 안토네이션/ 강세곡선이 변환된 학습자 파일 (S16)을 생성하고, 이 학습자 파일로 비언어민이 학습을 하도록 되어 있다.
상기 원어민/ 학습자 소리파일과, 이 소리파일에 의하여 생성되는 레이블 파일은 다음과 같은 파일이 존재한다.
(1) 원어민이 말한 문장(.wav 파일 형태)과 음소별 레이블 파일(.TextGrid).
(2) 학습자가 말한 문장(.wav 파일 형태)과 음소별 레이블 파일(.TextGrid).
로서 위의 두 문장은 같은 문장이어야 한다.
예를 들어 What did you say before that? 이라는 영어 문장을
원어민/비원어민이 말한 두 개의 소리파일과 그에 해당하는
음소별 레이블 파일이 있어야 합니다.
(3) 다음에 음성합성 및 변환 프로그램의 존재.
본 발명에서는 음성합성 및 변환 프로그램으로서 피솔라 (PSOLA) 알고리즘으로 구현된 프랏 (Praat)프로그램을 사용하고 있으나, 음소별로 음성을 합성 및 변환시키는 프그램이면 다른 프로그램의 사용도 가능하다.
상기한 음소별 레이블 파일은 원어민과 학습자의 자음/모음 각각을 일대일 대응시키도록 라벨을 붙인 파일로서, 수작업으로도 이를 음소별 레이블 파일을 생 성할 수가 있으나, 음소별 자동음성인식 기능이 있는 프로그램을 사용하여 자동으로 레이블 파일을 생성할 수도 있다.
이상적인 경우라면 음소별로 레이블이 붙어 있겠지만 상황에 따라서 한두개의 모음이 함께 레이블화 될 수 있으며, 반모음의 경우도 인접한 모음에 붙어서 같이 레이블이 되어도 큰 문제를 일으키지는 않는다.
도 2는 원어민과 비원어민인 학습자의 소리 파일을 음소별로 레이블을 달아 놓은 것이다. 원어민의 파일 중 윗부분은 소리파일에 인토네이션(푸른 선)과 강세(노란선)를 표시해 놓은 것이며, 아래 부분이 바로 음소별로 레이블을 붙여 놓은 것이다. 보다시피 학습자 문장(non-native utternace)은 원어민의 것과는 각 음소들의 길이에 있어서 많은 차이를 보이고 있고, 인토네이션의 높낮이 패턴도 상당이 상이한 것을 알 수 있다.
이에 대한 샘플 발음은 다음의 인터넷 주소에서 확인할 수가 있습니다.
원어민 문장: http://www.ling.ohio-state.edu/~kyoon/wespac9/native.wav
학습자 문장: http://www.ling.ohio-state.edu/~kyoon/wespac9/nonnative.wav
그리고 스텝 (S4)에서 레이블 파일의 이상여부를 확인하고 이상이 없는 정상상태에서 음소별 레이블 파일을 프랏에서 작성할때에 다음과 같은 파일들이 생성되는 것을 다음의 인터넷 주소에서 확인할 수가 있다.
원어민: http://www.ling.ohio-state.edu/~kyoon/wespac9/native.TextGrid
학습자: http://www.ling.ohio-state.edu/~kyoon/wespac9/nonnative.TextGrid
다음에 학습자가 스텝 (S5), (S8)을 수행하여 음소 길이 비교 및 변환 (S7) 을 하고, 인토네이션 (S11)의 변화가 되게 선택하면, 상기의 파일들을 기초로 하여 프랏 스크립트를 작성하는 경우 다음과 같은 파일이 생성하게 된다.
http://www.ling.ohio-state.edu/~kyoon/wespac9/prosody-swapping-all-DF.praat
그리고 이파일을 실행을 시키고 나면 다음의 두 개의 출력 파일들이 생성된다.
먼저 음소길이 비교 및 변환 스텝 (S7)을 수행후 인토네이션 변환스텝 (S8)d을 수행하여 인터네이션만 변환시킨 경우에는 스텝 (S13)과 같이 음소길이/인토네이션 변환된 학습자 파일이 다음과 같이 생성되고,
음소길이와 인토네이션을 입힌 학습자 소리파일:
http://www.ling.ohio-state.edu/~kyoon/wespac9/DF-nonnative.wav
이 상태에서 강세곡선 변환 스텝 (S12)에서 강세곡선 변환을 선택하는 경우에는 스텝 (S15)에서 강세곡선 변환을 수행하여 이와같이 수행된 파일이 스텝 (S16)과 같이 음소길이/ 인토네이션/강세곡선 변환된 학습자 파일이 생성된다.
이 생성파일은 다음에 인터넷 주소에서 확인할 수가 있다.
음소길이와 인토네이션, 강세 곡선을 입힌 학습자 소리파일:
http://www.ling.ohio-state.edu/~kyoon/wespac9/DFI-nonnative.wav
상기 소리파일을 실행 후 원어민과 학습자의 파일을 시각적으로 비교해 보면 도 2와 같다.
도 2가 도 1과 크게 달라진 점은 우선 두 소리파일의 길이가 같아졌다는 것이고, 각 음소별로 길이를 원어민의 음소에 맞게 조정하였으므로 전체 문장의 길이 는 당연히 같아지게 된다.
이 도면에서 푸른선으로 나타난 인토네이션의 패턴도 거의 같아짐을 볼 수 있으며, 각 음소들 자체가 완벽하게 같지는 않기 때문에 인토네이션도 완벽하게 100% 똑같다고 할 수는 없으나 거의 같은 양상을 보이게 된다.
또한 강세곡선도 역시 거의 같은 패턴을 보이고 있습니다. 실제로 음성파일을 확인하면 알 수 있듯이 두 문장이 음소자체를 제외한 운율 요소의 측면에서 거의 같게 변환된 것을 확인할 수 있다.
이를 보다 상세히 설명하면, 사람의 말소리는 자음/모음과 같은 음소(phoneme) 단위의 구성성분들로 이루어져 있고, 이러한 음소 못지 않게 중요한 것들은 바로 이 음소들의 음가를 실제로 부여하게 되는 각 음소의 길이(duration)와, 어디에서 붙여 읽고 어디에서 끊어 읽는가를 결정하게 되는 구휴지기(phrase break)와, 각 음소들을 나열하여 연속으로 읽을 경우 음의 높낮이의 흐름은 어떻게 할 것인가를 결정하는 인토네이션 패턴(intonation contour)과, 각 음소의 세기는 어떤 흐름을 탈것 인가를 결정하는 음의 강세 패턴(intensity contour) 등이 존재한다.
이러한 운율 요소(prosodic feature)가 바로 자,모음 음소들의 생명력을 부여하는 초분절 요소(suprasegmental feature)가 되며, 우리가 외국어의 운율 요소 중 한가지 요소에 불과한 인토네이션을 너무 강조하는 교육환경에서 자라난 나머지 다른 운율 요소들에 무심한 경향이 있다.
그러나 아무리 인토네이션이 완벽해도 각 자음 및 모음 음소들의 길이나 어 디에서 끊어 읽어야 하는지, 또 어디에서 강세를 주고 해야 하는지를 무시한다면 절대로 외국어 운율을 완벽하게 학습할 수 없다.
본 발명은 이와같은 기존의 음소 학습을 도와주는 프로그램들과 연계하여 음소들의 초분절적 요소인 운율학습을 배가시키는 음성합성 기술을 이용한 원어민 운율 학습 방법을 제공하고 있다.
설명의 편의를 위하여 한 문장이 아닌 “came in" 이라는 문장의 일부를 가지고 도 4 내지 도 7에 의하여 설명하면 다음과 같다.
도 4와 같이 원어민(native)와 비원어민(non-native)인 학습자의 문장이 있을 경우 각각의 음소의 구성성분들을 수작업으로 혹은 음소단위의 음성인식(speech recognition)기술을 이용하여 일대일 대응이 되도록 하는 것으로, 이 상태에서는 원어민과 학습자의 음소별 길이가 상이하고, 인토네이션 및 상세패턴도 상이하게 된다.
본 발명은 상기와 같은 음소자체의 품질은 개선하고자 하는 것이 아니며, 음소 이외에 "입을 수 있는" 운율 요소들을 변환시켜 학습지의 발음이 원어민의 발음과 유시하게 만들도록 하고 있다.
즉, 일단 일대일 음소배열이 이루어지고 난 후에 피솔라 (PSOLA) 알고리듬을 구현한 음성변환 프로그램(예, Praat)을 이용하여 학습자의 음소들의 길이를 원어민의 것에 맞추어 늘이거나(stretch) 줄인다(shrink).
이와같이 음소길이가 조절되어 도 5와 같이 두 파일이 음소 길이가 서로 일치하게 되면, 그 후속 작업으로 음소별로 인토네이션(음향학적 용어로 기본 주파수 fundamental frequency, 약자로 F0)을 변화시키게 된다.
즉, 도 5와 같이 원어민의 인토네이션(기본주파수 F0)을 학습자의 인토네이션(기본 주파수 F0)으로 가져오게 되는데, 이 작업은 피솔라 (PSOLA) 알고리듬이 구현되어 있는 어떠한 음성합성 및 변환 프로그램을 사용하여도 가능하다.
본 발명에서는 프랏(Praat) 프로그램을 사용하여 스크립트(실행명령어들을 순서로 배열한 프로그램류의 일종)를 짠 후, 음소를 수작업으로 일대일 대응을 시킨 다음 모든 작업을 일괄적으로 자동으로 진행을 한 것이다.
이 과정을 거치게 되면, 원어민과 학습자의 두 문장은 운율의 네가지 요소 중, 음소길이, 인토네이션, 구휴지기 위치, 이렇게 세 가지의 요소를 거의 완벽하게 일치하고 있는 상태가 되고, 구휴지기, 즉 두 구 사이를 끊어읽기 한 부분은 침묵(silent)한 음소로 간주하고 그 부분끼리 일대일 대응을 시키면 자동으로 동일하게 일치 된다.
마지막으로 도 6과 같이 원어민의 강세곡선(native intensity)을 학습자의 문장으로 옮겨오게 되면, 학습자의 문장은 원어민의 모든 운율 요소를 모두 지니게 되어 음소들만 학습자의 것이고, 나머지 모든 초분절적 요소들이 원어민의 것이 되므로 목소리는 학습자인데 운율은 모두 원어민의 성질을 띄게 된다.
지금까지 설명한 것은 원어민의 모든 운율 요소를 학습자의 문장으로 합성변환하여 옮기는 절차에 대한 것이고, 아래의 설명은 운율 요소 중, 원어민의 인토네이션만을 혹은 원어민의 음소길이만을 아니면 원어민의 강세곡선만을 옮기는 것에 대한 설명이다.
기본적으로 위에 설명한 절차를 바탕으로 하고 있으며, 약간의 변형을 주면 도 7과 같이 운율을 선택적으로 적용할 수 있다.
(가) 원어민의 인토네이션만을 (혹은 강세곡선만을) 복제하는 경우
도 7의 경우는 도 4와 비슷하지만 음소들간을 연결하는 화살표의 방향이 반대로 되어 있다.
즉, 도4에서는 학습자의 음소길이를 원어민의 것으로 일치시켰지만 (원어민의 음소길이를 따오기 위해서), 여기서는 학습자의 음소길이는 변환시키지 않으므로, 다시말해 원어민의 인토네이션만을 따오려고 하기 때문에, 역으로 원어민의 음소길이를 학습자의 것과 일치시키고 있다.
그렇게 되면 원어민의 모든 음소길이들이 학습자의 것과 동일해지며, 이 상태에서 원어민의 인토네이션(natrive F0) 혹은 강세곡선(native intensity)을 복제해오게 되는 것으로 여기서 원어민의 음소길이가 학습자의 것으로 바뀌는 과정에서 원어민 본래의 인토네이션도 조금 늘어나거나 줄어들 수 있다.
따라서 엄밀히 말해서 원어민 본래의 인토네이션으로 볼 수는 없으나, 학습자에게 “당신이 음소길이는 많이 틀렸지만, 인토네이션만이라도 정확히 따라한다면 이런 목소리로 들리게 될 것입니다”라고 단계적인 학습을 하고자 할 때 유용한 기능이 된다. 다시 말해, 원어민의 모든 운율 요소를 한꺼번에 다 가져와서 학습자 목소리에 입혀서 들려주게 되면 실제 자신의 목소리와는 너무 괴리감이 클 수 있으므로 한 단계씩 학습을 하고자 할 때 학습자에게 도움이 될 수 있다.
(나) 원어민의 음소길이 만을 복제하는 경우
이 경우도 도 4에서 설명한 것과 동일한 과정이며, 더 이상의 운율을 입히지 않고 이 과정에서 멈추게 되면 학습자의 음소길이는 원어민의 음소길이와 같게되므로 학습자에게 “당신의 인토네이션은 많이 틀렸지만, 적어도 음소길이 만이라도 정확하게 따라한다면, 이런 목소리로 들리게 될 것입니다.”라고 단계적인 동기부여를 할 수 있다.
지금까지 설명한 본 기술에 대해서 유의할 점은 다음과 같다. 본 발명은 피솔라 (PSOLA) 알고리즘의 특성상 유성음에 잘 적용을 할 수가 있으나, 원어민 문장에 무성음이 지나치게 많이 들어가 있다면 합성 음질이 저하될 수 있다.
또한 원어민과 학습자의 성별과 연령대가 비슷해야 제대로 된 결과가 나오는 것으로 원어민이 여성이고 학습자가 남성이거나, 원어민이 어린이이고 학습자가 성인일 경우, 목소리의 기본주파수 대역이 너무 차이가 나서 합성변환시 음질의 저하가 심해질 수 있다. 따라서 원어민과 학습자가 연령대가 비슷한 동성이면 가장 좋은 결과를 얻을 수 있다.
즉 교육용 프로그램 내에 샘플 문장들을 원어민 성별로, 또 연령대별로 저장해 놓고 학습자의 성별, 연령에 따라서 적절한 샘플을 선택하여 합성변환에 이용하면 큰 문제가 없을 것이다.
또한 음소별 자동 인식 프로그램을 이용하여 레이블 파일을 만드는 경우, 교육용 프로그램 내에 저장된 샘플 문장에 최적화 되도록 음성인식 엔진을 훈련시켜 놓는다면 학습자의 파일을 자동 레이블링 하는데 있어서 큰 성능의 향상을 꾀할 수 있을 것이다.
이상에서와 같이 본 발명은 외국어 발음 공부, 특히 원어민의 인토네이션이나 자모음의 길이, 구 단위로 끊어 읽기, 강세의 흐름(즉, 원어민의 운율 요소 prosodic features)를 익히려고 할 경우에, 원어민이 가지고 있는 운율요소들을 비원어민인 학습자의 문장에 그대로 입혀서 학습자에게 들려줌으로써, 원어민의 운율을 모두 가진 자신의 목소리 형태로 들려주어 학습효과를 배가할 수가 있는 효과가 있으며,
또한 성대 손상 등을 입어 정상적인 사람의 목소리를 낼 수 없는 경우에, 같은 연습 문장을 정상인과 환자가 읽게 한 다음 정상인의 운율을 환자의 파일에 합성변환하여 들려주는 치료 교재에도 응용이 될 수가 있어 치료재활에 의지를 높혀 줄 수 있는 효과가 있다.
Claims (2)
- 원어민과 비원어민(학습자)의 소리를 휴지기를 포함하여 소리파일을 만드는 소리파일 생성단계와,상기 소리파일 생성단계에서 생성된 소리파일을 음소별로 일대일 대응을 시켜 수작업 또는 음소별 자동음성인식 기능을 이용하여 레이블을 만드는 레이블 생성과정과,음성합성 및 변환 프로그램을 이용하여 음소별로 음소길이를 변환시켜 원어민 혹은 학습자의 음소길이에 맞추어 변환시키는 음소길이 변환과정과,음성합성 및 변환 프로그램을 이용하여, 음소길이가 변환되어 음소별 길이가 동일하게 된 두 소리파일에 인토네이션(기본주파수 패턴) 패턴을 원어민의 것과 동일하게 변환시키는 인토네이션 변환과정과,음소길이가 변환되어 음소별 길이가 동일하게 된 두 소리파일에 강세곡선을 원어민의 것과 동일하게 변환시키는 강세변환과정으로 이루어진 것을 특징으로 하는 음성합성 기술을 이용한 원어민 운율 학습 방법
- 제 1항에 있어서, 음성합성 및 변환 프로그램은 피솔라 (PSOLA) 알고리즘이 탑재된 프로그램을 사용하는 것을 특징으로 하는 음성합성 기술을 이용한 원어민 운율 학습 방법
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020060040848A KR100701338B1 (ko) | 2006-05-08 | 2006-05-08 | 음성합성 기술을 이용한 원어민 운율 학습 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020060040848A KR100701338B1 (ko) | 2006-05-08 | 2006-05-08 | 음성합성 기술을 이용한 원어민 운율 학습 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR100701338B1 true KR100701338B1 (ko) | 2007-03-29 |
Family
ID=41565162
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020060040848A KR100701338B1 (ko) | 2006-05-08 | 2006-05-08 | 음성합성 기술을 이용한 원어민 운율 학습 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100701338B1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101992370B1 (ko) * | 2018-04-20 | 2019-06-24 | 주식회사 스터디맥스 | 말하기 학습방법 및 학습시스템 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20030046532A (ko) * | 2001-11-14 | 2003-06-18 | 인벤텍 베스타 컴파니 리미티드 | 영어 발음 기호의 분해 및 합성 방법 |
KR20040073291A (ko) * | 2004-01-08 | 2004-08-19 | 정보통신연구진흥원 | 외국어 발음 평가 시스템 및 그 평가 방법 |
-
2006
- 2006-05-08 KR KR1020060040848A patent/KR100701338B1/ko not_active IP Right Cessation
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20030046532A (ko) * | 2001-11-14 | 2003-06-18 | 인벤텍 베스타 컴파니 리미티드 | 영어 발음 기호의 분해 및 합성 방법 |
KR20040073291A (ko) * | 2004-01-08 | 2004-08-19 | 정보통신연구진흥원 | 외국어 발음 평가 시스템 및 그 평가 방법 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101992370B1 (ko) * | 2018-04-20 | 2019-06-24 | 주식회사 스터디맥스 | 말하기 학습방법 및 학습시스템 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7877259B2 (en) | Prosodic speech text codes and their use in computerized speech systems | |
US6865533B2 (en) | Text to speech | |
Kim et al. | The use of prosodic cues in learning new words in an unfamiliar language | |
Grant | Prologue to the myths: What teachers need to know | |
Michaud et al. | Tone and intonation: Introductory notes and practical recommendations | |
JP2007525702A (ja) | 音声学と音韻論の学習と理解による,言語習得を容易にするための方法,システム,プログラム,データの集合 | |
Yoon | Imposing native speakers’ prosody on non-native speakers’ utterances | |
Odé | Transcription of Russian intonation, ToRI, an interactive research tool and learning module on the internet | |
Utami et al. | Improving students’ English pronunciation competence by using shadowing technique | |
Kommissarchik et al. | Better Accent Tutor–Analysis and visualization of speech prosody | |
Peabody et al. | Towards automatic tone correction in non-native mandarin | |
JPS6032195B2 (ja) | 語学練習機 | |
Cleghorn et al. | Comprehensive articulatory phonetics: a tool for mastering the world's languages | |
KR100701338B1 (ko) | 음성합성 기술을 이용한 원어민 운율 학습 방법 | |
Kolesnikova | Comparative analysis of American English and Mexican Spanish consonants for computer assisted pronunciation training | |
Nunes | European Portuguese Phonetics: Difficulties for Chinese Speakers–Considerations | |
Price | How can speech technology replicate and complement good language teachers to help people learn language | |
Watson et al. | Resources created for building New Zealand English voices | |
Johnson et al. | Automatic detection of Brazil’s prosodic tone unit | |
Martin | The prosodic components of speech melody | |
Kusz | Effects of imitation and self-imitation practice on L2 pronunciation progress | |
Bonneau et al. | A computer-assisted learning of English prosody for French students | |
Kim et al. | What makes a non-native accent?: a study of Korean English. | |
KavithaPriya | Role of singing in strengthening pronunciation | |
Dao et al. | The Perception and Production of Vietnamese Tones by Japanese, Lao and Taiwanese Second Language Speakers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20130322 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20140305 Year of fee payment: 8 |
|
LAPS | Lapse due to unpaid annual fee |