KR102274766B1 - Pronunciation prediction and evaluation system for beginner foreign language learners - Google Patents

Pronunciation prediction and evaluation system for beginner foreign language learners Download PDF

Info

Publication number
KR102274766B1
KR102274766B1 KR1020210016884A KR20210016884A KR102274766B1 KR 102274766 B1 KR102274766 B1 KR 102274766B1 KR 1020210016884 A KR1020210016884 A KR 1020210016884A KR 20210016884 A KR20210016884 A KR 20210016884A KR 102274766 B1 KR102274766 B1 KR 102274766B1
Authority
KR
South Korea
Prior art keywords
pronunciation
foreign language
learner
evaluation
speech synthesis
Prior art date
Application number
KR1020210016884A
Other languages
Korean (ko)
Inventor
홍연정
송민규
Original Assignee
미디어젠(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 미디어젠(주) filed Critical 미디어젠(주)
Priority to KR1020210016884A priority Critical patent/KR102274766B1/en
Application granted granted Critical
Publication of KR102274766B1 publication Critical patent/KR102274766B1/en

Links

Images

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/06Foreign languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search

Abstract

The present invention relates to a pronunciation prediction and evaluation system for a beginner in learning a foreign language, and more specifically, to a pronunciation prediction and evaluation system for a beginner in learning a foreign language, which comprises: a pronunciation evaluation means (300) and a speech synthesis means (200). When a small amount of beginning learner voice data read and pronounced by a beginning learner in a foreign language and a long foreign language text for pronunciation evaluation are input into the speech synthesis means (200), the speech synthesis means (200) learns the small amount of beginning learner voice data to create a speech synthesis model of the learner, creates result data in which a voice of the learner is synthesized to the inputted long foreign language text using the speech synthesis model, and provides the generated result data to the pronunciation evaluation means (300). Accordingly, evaluation of pronunciation of a beginner in learning a foreign language can be carried out. According to the present invention, the pronunciation prediction and evaluation system for a beginner in learning a foreign language is capable of enabling a beginning learner to evaluation his or her pronunciation skills of a foreign language.

Description

외국어 초보 학습자를 위한 발음 예측 및 평가시스템{Pronunciation prediction and evaluation system for beginner foreign language learners}Pronunciation prediction and evaluation system for beginner foreign language learners

본 발명은 외국어 초보 학습자를 위한 발음 예측 및 평가시스템에 관한 것으로서, 더욱 상세하게는 발음 평가 수단(300)과 음성 합성 수단(200)을 구성하고, 음성 합성 수단(200)에 평가받을 외국어로 학습자가 낭독 발음한 소량의 학습자의 외국어 기초 음성 데이터와 장문의 발음평가용 외국어 텍스트를 입력하면, 음성 합성 수단(200)이 입력된 소량의 학습자의 외국어 기초 음성 데이터를 학습해 해당 학습자의 음성 합성 모델을 만들고, 이를 이용해 입력된 장문의 발음평가용 외국어 텍스트를 학습자 음성으로 음성 합성한 결과 데이터를 생성해 학습자에게 제공해 장문의 발음평가용 외국어 텍스트에 대한 초보 학습자의 발음을 학습자 자신이 예측해 볼 수 있도록 하고, 음성 합성한 결과 데이터와 발음평가용 외국어 텍스트를 발음 평가 수단(300)에 제공해 외국어 초보자의 발음 평가가 가능하도록 하는 외국어 초보 학습자를 위한 발음 예측 및 평가시스템에 관한 것이다.The present invention relates to a pronunciation prediction and evaluation system for novice foreign language learners. More specifically, the pronunciation evaluation means 300 and the speech synthesis means 200 are configured, and the learner in a foreign language to be evaluated by the speech synthesis means 200 When a small amount of the learner's basic foreign language voice data and long sentence pronunciation evaluation are input, the speech synthesis means 200 learns the inputted small amount of the learner's foreign language basic voice data, and the learner's speech synthesis model , and using it, the inputted long foreign language text for pronunciation evaluation is synthesized into the learner’s voice, and the result data is generated and provided to the learner so that the learner can predict the pronunciation of the foreign language text for the long pronunciation evaluation by the learner himself. And, it relates to a pronunciation prediction and evaluation system for novice foreign language learners, which provides voice synthesis result data and foreign language text for pronunciation evaluation to the pronunciation evaluation means 300 so that the pronunciation evaluation of the foreign language beginner is possible.

정보의 교류가 많아짐에 따라 현대 사회는 사람과 사람 사이의 커뮤니케이션이 이전보다 더욱 중요해졌다.As the exchange of information increases, communication between people is more important than before in modern society.

정보 통신 기술의 발전으로 인해 커뮤니케이션의 수단이 다양화되었으나, 사람의 음성을 전달하는 대화는 여전히 가장 중요한 커뮤니케이션 방법중 하나이다. Although the means of communication have been diversified due to the development of information and communication technology, conversation through human voice is still one of the most important communication methods.

음성을 이용하여 커뮤니케이션을 하는 경우에도 고려되어야 할 여러 가지 항목이 있으며, 이러한 고려 대상 항목 중 중요한 하나는 발음이다.There are several items to be considered even in the case of communication using voice, and one of the important items to be considered is pronunciation.

발음은 언어를 음성으로 표현한 것으로서, 언어의 종류 및 개인에 따라 발음의 특성에도 차이가 있다. Pronunciation is a voice expression of a language, and there are differences in the characteristics of pronunciation according to the type of language and the individual.

기본적으로 동일한 언어에 대한 발음 특성은 개인차를 고려하더라도 서로가 정확한 의사 전달이 가능하도록 표현되어야 한다. Basically, the pronunciation characteristics of the same language should be expressed so that accurate communication is possible even if individual differences are taken into account.

그러나 모든 사람이 언어 특성에 따른 정확한 발음을 구사하지는 못하며, 이러한 문제로 인하여 동일한 말을 여 러번 반복해야 하거나, 잘못된 의사 전달이 되는 경우가 종종 발생한다. However, not everyone can use the correct pronunciation according to the characteristics of the language, and due to these problems, the same words have to be repeated several times or miscommunication often occurs.

이에 정확한 발음을 구사할 수 있도록 발음을 교정하는 다양한 방법이 제시되었으나, 대부분의 발음 교정 방법은 다수의 사람들로부터 발음이 정확하다고 평가받은 다른 사람의 발음을 따라하거나, 발음이 어려운 특정 단어나 문장을 반복하여 말하는 것과 같이 정량적으로 분석되지 않는 감각적인 방법이 대부분이었다. Various methods for correcting pronunciation have been suggested so that correct pronunciation can be used, but most pronunciation correction methods imitate another person's pronunciation evaluated as correct by a large number of people, or repeat specific words or sentences that are difficult to pronounce As mentioned above, most of the sensory methods were not quantitatively analyzed.

즉, 발음이 정확하다고 평가받는 사람의 발음 특성을 단순히 반복적으로 따라하는 방법이 주로 발음 교정에 이용되었다. That is, a method of simply repeating the pronunciation characteristics of a person who is evaluated as having accurate pronunciation was mainly used for pronunciation correction.

이러한 발음 교정 방법은 개인의 청취 능력이 선행되어야 할 뿐만 아니라, 다양한 발음에 대해 공통적으로 적용하기 어렵다는 문제가 있다.Such a pronunciation correction method has a problem in that individual listening ability must be preceded, and it is difficult to apply commonly to various pronunciations.

한편, 최근 들어 인터넷의 발달과 교역량의 확대로 세계의 여러 나라 사람들을 만날 기회가 확대되었고, 특히 기업에서 외국인 바이어 등을 업무상으로 만날 일이 많아지면서 외국어에 대한 수요가 끊임없이 늘고 있다. On the other hand, with the recent development of the Internet and the expansion of trade volume, opportunities to meet people from various countries around the world have expanded. In particular, the demand for foreign languages is constantly increasing as companies meet more foreign buyers for business.

이와 같이, 외국인과 만날 일이 늘어나면서 종래 독해 위주의 외국어 교육과 달리 회화 중심의 외국어 교육이 각광받고 있다. As such, as the number of encounters with foreigners increases, foreign language education centered on conversation is in the spotlight unlike the conventional foreign language education centered on reading.

일반적으로 외국어 말하기 및 회화 학습 방법은 주로 어학 학원에 가서 외국인 강사에게 직접 배우는 것이다. In general, the method of learning foreign language speaking and conversation is to go to a language school and learn directly from a foreign instructor.

그러나, 학원에 가는 방법은 시간 제약과 비용에 관한 문제가 있고, 외국인 강사에게 직접 배우는 경우에도 피드백을 구하기가 쉽지 않다. However, the method of going to a hagwon has problems with time constraints and costs, and it is not easy to get feedback even when learning directly from a foreign instructor.

따라서, 시간과 비용 문제를 해결하고 적절한 피드백을 얻을 수 있는 외국어학습 방법이 있다면, 시간과 비용적인 측면에서 효율적일 것이다.Therefore, if there is a foreign language learning method that can solve the time and cost problem and obtain appropriate feedback, it will be effective in terms of time and cost.

최근 들어 음성인식 기술의 발달과 더불어 이를 외국어 교육에 적용하려는 시도가 많이 이루어지고 있다. Recently, with the development of speech recognition technology, many attempts have been made to apply it to foreign language education.

이 중에서도 근래에 많이 시도되고 있는 방법은, 은닉 마르코프 모델(Hidden Markov Model, 이하 ‘HMM’이라 함)을 이용하는 방법이다. Among these, a method that has been tried a lot in recent years is a method using a Hidden Markov Model (hereinafter referred to as 'HMM').

이때, 음성인식 시스템에서는 주파수 차감법, 음원 분리 기술, 잡음 필터링 기술 등의 전처리 과정을 거친 음성 신호에 대하여 시스템에서 정의한 프레임 단위로 특징 벡터를 추출하고, 추출된 특징벡터를 이용하여 이후의 신호 처리를 하게 된다. At this time, in the voice recognition system, a feature vector is extracted in units of frames defined by the system for a voice signal that has undergone pre-processing such as frequency subtraction method, sound source separation technology, and noise filtering technology, and then signal processing is performed using the extracted feature vector. will do

기존의 외국어 말하기 평가 방법 및 시스템은, HMM 인식기를 이용하여 평가하고자 하는 단위에 대한 정확도를 측정하는 것이 전부였다. Existing foreign language speaking evaluation methods and systems only measure the accuracy of the units to be evaluated using the HMM recognizer.

왜냐하면, 화자의 발음의 다른 요소(길이, 에너지, 억양, 강세 등)를 특징벡터에 반영하지 못하였기 때문이다. This is because other elements of the speaker's pronunciation (length, energy, intonation, stress, etc.) could not be reflected in the feature vector.

즉, 단지 단순하게 문장을 따라 읽고 이에 대한 평가를 HMM 인식기를 통하여 얻은 결과를 토대로 평가하는 수준이었다. That is, it was a level of simply reading along the sentence and evaluating it based on the results obtained through the HMM recognizer.

그러나, 실질적으로 한국어와 달리 외국어에서 의미 전달의 중요한 축을 담당하는 것이 길이, 에너지, 억양, 강세 등의 요소이다. However, in reality, unlike Korean, factors such as length, energy, intonation, and stress play an important role in conveying meaning in a foreign language.

예를 들어, 중국어에서는 억양과 관계있는 성조에 의해 그 의미가 완전히 바뀌기도 하고, 영어권 언어에서는 강세가 의미 전달에 있어서 중요한 부분을 담당한다. For example, in Chinese, the meaning is completely changed by tones related to intonation, and in English-speaking languages, stress plays an important part in conveying meaning.

현재 보편적으로 보급되고 있는 외국어 자동 발음 평가장치들의 경우에는 입력된 음성 신호에 대하여 전체 발음 평가점수만 제공하고 있었으며, 의미 차이를 가져다주는 최소 소리 단위인 음소 단위의 발음 학습 방식은 아닌 것이다.In the case of automatic foreign language pronunciation evaluation devices, which are currently widely distributed, only the overall pronunciation evaluation score is provided for the input voice signal, and it is not a phoneme unit pronunciation learning method, which is the smallest sound unit that brings about a difference in meaning.

따라서, 사용자에게는 제한적인 피드백 정보를 제공함으로써, 학습 효과를 증진시키는 데에는 한계가 있었다.Therefore, there is a limit in enhancing the learning effect by providing limited feedback information to the user.

또한, 외국어 발음평가시스템은 2가지 데이터 즉, 외국어 텍스트와 외국어 텍스트를 학습자가 낭독한 음성 데이터를 평가시스템에 입력해야 하는데, 종래의 외국어 발음평가시스템은 학습자의 정확한 외국어 발음 평가를 위해, 충분한 양의 데이터, 예를 들어, 연설문 같은 장문의 외국어 텍스트와 장문의 외국어 텍스트를 학습자가 낭독 발음한 음성 데이터가 필요하게 되었다.In addition, the foreign language pronunciation evaluation system needs to input two types of data, namely, the foreign language text and the voice data read by the learner of the foreign language text, into the evaluation system. data, for example, a long foreign language text such as a speech, and audio data obtained by a learner reading and pronouncing a long foreign language text.

그러나, 학습자가 외국어 초보자(수 개에서 수십 개의 단어밖에 모르는 학습자)여서 장문의 외국어 텍스트, 예를 들어, 초보자가 유창하게 발음할 수 없는 200 ~ 300 개의 단어들이 포함된 장문 텍스트를 낭독할 실력이 되지 않아 발음평가시스템으로 충분한 데이터, 예를 들어, 장문의 외국어 텍스트를 낭독 발음한 음성 데이터를 입력할 수 없는 경우, 해당 학습자의 정확한 외국어 발음 평가가 곤란한 문제점이 발생하게 된다. However, because the learner is a beginner in a foreign language (a learner who knows only a few to several dozen words), he/she may not have the ability to read a long foreign language text, for example, a long text containing 200 to 300 words that the beginner cannot pronounce fluently. If the pronunciation evaluation system cannot input sufficient data, for example, voice data obtained by reading and pronouncing a long foreign language text, it is difficult to accurately evaluate the foreign language pronunciation of the learner.

즉, 종래의 발음평가시스템을 통해 발음 평가를 받기 위해서는 학습자는 수백개의 단어들이 포함된 장문의 텍스트를 낭독할 수 있는 정도(발음의 정확성 여부와는 상관없이)의 외국어 실력이 있어야 가능하였다.That is, in order to receive pronunciation evaluation through the conventional pronunciation evaluation system, the learner had to have foreign language proficiency enough to read a long text containing hundreds of words (regardless of whether the pronunciation was accurate).

그러나, 초보 학습자의 경우, 겨우 몇 단어 또는 수십 개 정도만을 더듬더듬 발음하는 수준의 실력으로는 정확한 발음 평가를 받지 못하였다.However, in the case of novice learners, accurate pronunciation evaluation was not achieved with the level of stuttering pronunciation of only a few words or dozens.

외국어 실력은 발음이 매우 중요하며, 발음은 외국어 학습 초기에 형성되는 것으로 어느 정도 외국어를 학습한 경우에는 발음 교정이 힘들어 외국어 학습 초기에 자신의 발음 교정을 위해서 발음평가시스템을 활용해 자신의 발음을 교정하는 외국어 학습이 필요하다.Pronunciation is very important for foreign language skills. Pronunciation is formed in the early stages of learning a foreign language. If you have learned a foreign language to some extent, it is difficult to correct your pronunciation, so you can use the pronunciation evaluation system to correct your pronunciation at the beginning of foreign language learning. Corrective foreign language learning is necessary.

그러나, 외국어 학습 초기에는 겨우 몇 단어 또는 수십 개 정도만을 더듬더듬 발음하는 수준이어서 장문의 평가용 외국어 텍스트를 낭독하는 것이 곤란하고, 이로 인해 충분한 양의 음성 데이터가 필요한 종래의 발음평가시스템은 초보 단계에 있는 외국어 학습자가 활용하는 데 한계가 있었다.However, in the initial stage of foreign language learning, it is difficult to read a long foreign language text for evaluation because only a few words or tens of words are stuttered. Therefore, the conventional pronunciation evaluation system, which requires a sufficient amount of voice data, is at a rudimentary stage. There was a limit to the use of foreign language learners in

따라서, 본 발명에서는 발음 평가 수단(300)과 음성 합성 수단(200)을 구성하고, 음성 합성 수단(200)에 평가받을 외국어로 학습자가 낭독 발음한 소량의 학습자의 외국어 기초 음성 데이터와 장문의 발음평가용 외국어 텍스트를 입력하면, 음성 합성 수단(200)이 입력된 소량의 학습자의 외국어 기초 음성 데이터를 학습해 해당 학습자의 음성 합성 모델을 만들고, 이를 이용해 입력된 장문의 발음평가용 외국어 텍스트를 학습자 음성으로 음성 합성한 결과 데이터를 생성해 학습자에게 제공해 장문의 발음평가용 외국어 텍스트에 대한 초보 학습자의 발음을 학습자 자신이 예측해 볼 수 있도록 하고, 음성 합성한 결과 데이터와 발음평가용 외국어 텍스트를 발음 평가 수단(300)에 제공해 외국어 초보자의 발음 평가가 가능하도록 하는 외국어 초보 학습자를 위한 발음 예측 및 평가시스템에을 제안하게 된 것이다.Therefore, in the present invention, the pronunciation evaluation means 300 and the speech synthesis means 200 are constituted, and a small amount of basic foreign language voice data of the learner and the pronunciation of long sentences read and pronounced by the learner in the foreign language to be evaluated by the speech synthesis means 200 When a foreign language text for evaluation is input, the speech synthesis means 200 learns a small amount of the input foreign language basic voice data of the learner to create a speech synthesis model of the learner, and uses this to learn the foreign language text for pronunciation evaluation of long sentences input by the learner The result data of speech synthesis is generated and provided to the learner so that the learner can predict the pronunciation of a novice learner for a long foreign language text for pronunciation evaluation, and the pronunciation evaluation of the result data and the foreign language text for pronunciation evaluation A pronunciation prediction and evaluation system for a beginner foreign language learner that provides the means 300 to evaluate the pronunciation of a foreign language beginner is proposed.

(선행문헌1) 대한민국등록특허번호 제10-0733469호(Prior Document 1) Republic of Korea Patent No. 10-0733469

따라서 본 발명은 상기와 같은 종래 기술의 문제점을 감안하여 제안된 것으로서, 본 발명의 제1 목적은 발음 평가 수단(300)과 음성 합성 수단(200)을 구성하고, 음성 합성 수단(200)에 평가받을 외국어로 학습자가 낭독 발음한 소량의 학습자의 외국어 기초 음성 데이터와 장문의 발음평가용 외국어 텍스트를 입력하면, 음성 합성 수단(200)이 입력된 소량의 학습자의 외국어 기초 음성 데이터를 학습해 해당 학습자의 음성 합성 모델을 만들고, 이를 이용해 입력된 장문의 발음평가용 외국어 텍스트를 학습자 음성으로 음성 합성한 결과 데이터를 생성해 학습자에게 제공해 장문의 발음평가용 외국어 텍스트에 대한 초보 학습자의 발음을 학습자 자신이 예측해 볼 수 있도록 하는데 있다.Therefore, the present invention has been proposed in consideration of the problems of the prior art as described above, and a first object of the present invention is to configure the pronunciation evaluation means 300 and the speech synthesis means 200 , and evaluate the speech synthesis means 200 . When a small amount of the learner's basic foreign language voice data read and pronounced by the learner in the foreign language to be received and the long foreign language text for pronunciation evaluation are input, the speech synthesis means 200 learns the inputted small amount of the foreign language basic voice data of the learner and the learner Creates a speech synthesis model of , and uses it to synthesize the inputted foreign language text for pronunciation evaluation of long sentences into the learner’s voice and provides the result data to the learner so that the learner himself/herself learns the pronunciation of the foreign language text for the long sentence pronunciation evaluation It's meant to be predictable.

본 발명의 제2 목적은 발음 평가 수단(300)과 음성 합성 수단(200)을 구성하고, 음성 합성 수단(200)에 평가받을 외국어로 학습자가 낭독 발음한 소량의 학습자의 외국어 기초 음성 데이터와 장문의 발음평가용 외국어 텍스트를 입력하면, 음성 합성 수단(200)이 입력된 소량의 학습자의 외국어 기초 음성 데이터를 학습해 해당 학습자의 음성 합성 모델을 만들고, 이를 이용해 입력된 장문의 발음평가용 외국어 텍스트를 학습자 음성으로 음성 합성한 결과 데이터를 생성하고, 생성된 음성 합성한 결과 데이터와 발음평가용 외국어 텍스트를 발음 평가 수단(300)에 제공해 외국어 초보자의 발음 평가가 가능하도록 하는데 있다.A second object of the present invention is to configure the pronunciation evaluation means 300 and the speech synthesis means 200, and a small amount of basic foreign language voice data and long sentences of the learner that the learner reads and pronounces in the foreign language to be evaluated by the speech synthesis means 200 When a foreign language text for pronunciation evaluation is input, the speech synthesis means 200 learns a small amount of input foreign language basic voice data to create a speech synthesis model for the learner, and uses this to learn a small amount of input foreign language text for pronunciation evaluation of long sentences. to generate the result data of speech synthesis with the learner's voice, and provide the generated speech synthesis result data and the foreign language text for pronunciation evaluation to the pronunciation evaluation means 300 to enable the pronunciation evaluation of foreign language beginners.

본 발명이 해결하고자 하는 과제를 달성하기 위하여, 외국어 초보 학습자를 위한 발음 예측 및 평가시스템은,In order to achieve the problem to be solved by the present invention, the pronunciation prediction and evaluation system for foreign language novice learners,

음성 합성 수단(200)으로 학습자의 외국어 기초 음성 데이터와 발음평가용 외국어 텍스트 정보를 제공하고, 발음 평가 수단(300)으로부터 발음 평가 결과정보를 제공받는 학습자 단말기(100)와:A learner terminal 100 that provides the learner's basic foreign language voice data and foreign language text information for pronunciation evaluation to the voice synthesis means 200 and receives pronunciation evaluation result information from the pronunciation evaluation means 300;

제공된 학습자의 외국어 기초 음성 데이터와 발음평가용 외국어 텍스트 정보를 이용하여 발음평가용 외국어 텍스트에 대한 학습자의 외국어 합성음성 데이터를 생성하고, 생성된 학습자의 외국어 합성음성 데이터와 발음평가용 외국어 텍스트 정보를 발음 평가용으로 발음 평가 수단(300)으로 제공하는 음성 합성 수단(200)과;Using the provided learner's foreign language basic voice data and foreign language text information for pronunciation evaluation, the learner's foreign language synthesized voice data for the foreign language text for pronunciation evaluation is generated, and the generated learner's foreign language synthesized voice data and foreign language text information for pronunciation evaluation are generated. a speech synthesis means 200 for providing pronunciation evaluation means 300 for pronunciation evaluation;

제공된 발음평가용 외국어 텍스트 정보와 발음평가용 외국어 텍스트에 대한 학습자의 외국어 합성음성 데이터를 이용해 학습자의 외국어 발음 평가를 수행하고, 발음 평가 결과정보를 학습자 단말기(100)로 제공하는 발음 평가 수단(300)을 포함한다.Pronunciation evaluation means (300) that evaluates the learner's foreign language pronunciation using the provided foreign language text information for pronunciation evaluation and the learner's foreign language synthesized speech data for the foreign language text for pronunciation evaluation, and provides pronunciation evaluation result information to the learner terminal 100 ) is included.

이상의 구성 및 작용을 지니는 본 발명에 따른 외국어 초보 학습자를 위한 발음 예측 및 평가시스템은, 몇개의 단어만을 발음할 수 있는 외국어 학습 초보자에게 해당 학습자의 발음으로 음성 합성된 수백개의 단어가 포함된 장문의 외국에 텍스트에 대한 음성 합성 테이터를 제공하여, 해당 외국어 초보 학습자가 자신이 발음할 수 없는 외국어 단어들에 대한 자신의 예측 발음을 확인해 볼수 있는 효과를 제공한다.Pronunciation prediction and evaluation system for novice foreign language learners according to the present invention having the above configuration and action is a long sentence containing hundreds of words synthesized by the learner's pronunciation to a foreign language learning beginner who can pronounce only a few words. By providing speech synthesis data for texts to foreign countries, it provides the effect that the novice learners of the foreign language can check their predicted pronunciation of foreign words that they cannot pronounce.

또한, 몇개의 단어만을 발음할 수 있는 외국어 학습 초보자의 기초 음성 데이터를 이용해 해당 학습자의 음성 합성 모델을 만들고, 이를 이용해 수백개의 단어가 포함된 장문의 외국에 텍스트에 대한 음성 합성 테이터를 생성해 발음 평가 수단(300)에 제공하여 몇개의 단어만을 발음할 수 있는 외국어 학습 초보자도 자신의 현재 외국어 발음 실력을 평가 받을 수 있도록 하는 효과를 제공한다.In addition, using the basic voice data of a foreign language learning beginner who can pronounce only a few words, the learner's speech synthesis model is created, and using this, a speech synthesis data for a long foreign text containing hundreds of words is generated and pronounced. It is provided to the evaluation means 300 to provide an effect that allows even a beginner in foreign language learning who can pronounce only a few words to be evaluated for their current foreign language pronunciation skills.

도 1은 본 발명의 실시예에 따른 외국어 초보 학습자를 위한 발음 예측 및 평가시스템을 개략적으로 나타낸 전체 구성도.
도 2는 본 발명의 실시예에 따른 외국어 초보 학습자를 위한 발음 예측 및 평가시스템의 음성 합성 수단(200) 구성 블록도.
도 3은 본 발명의 실시예에 따른 외국어 초보 학습자를 위한 발음 예측 및 평가시스템의 학습자 음성모델 생성부(220) 구성 블록도.
도 4는 본 발명의 실시예에 따른 외국어 초보 학습자를 위한 발음 예측 및 평가시스템의 발음 평가 수단(300) 구성 블록도.
도 5는 본 발명의 실시예에 따른 외국어 초보 학습자를 위한 발음 예측 및 평가시스템에 의해 시간 구간별 특징 벡터, 강제 정렬, 로그 우도, 조정 점수, 음소별, 음절별, 단어별 정확성 평균 점수 예시도.
도 6은 본 발명의 실시예에 따른 외국어 초보 학습자를 위한 발음 예측 및 평가시스템에 의해 사용자 발음 신호로부터 로그 우도를 산출하는 예시도.
1 is an overall configuration diagram schematically showing a pronunciation prediction and evaluation system for a beginner foreign language learner according to an embodiment of the present invention.
2 is a block diagram of a speech synthesis means 200 of a pronunciation prediction and evaluation system for a beginner foreign language learner according to an embodiment of the present invention.
3 is a block diagram of a learner voice model generator 220 of a pronunciation prediction and evaluation system for novice foreign language learners according to an embodiment of the present invention.
4 is a block diagram of a pronunciation evaluation means 300 of a pronunciation prediction and evaluation system for a novice foreign language learner according to an embodiment of the present invention.
5 is an exemplary view of an average score of accuracy for each time section, forced alignment, log likelihood, adjustment score, phoneme, syllable, and word by the pronunciation prediction and evaluation system for beginners of foreign languages according to an embodiment of the present invention; .
6 is an exemplary diagram of calculating a log likelihood from a user pronunciation signal by a pronunciation prediction and evaluation system for a novice foreign language learner according to an embodiment of the present invention;

이하의 내용은 단지 본 발명의 원리를 예시한다. 그러므로 당업자는 비록 본 명세서에 명확히 설명되거나 도시되지 않았지만, 본 발명의 원리를 구현하고 본 발명의 개념과 범위에 포함된 다양한 장치를 발명할 수 있는 것이다. The following is merely illustrative of the principles of the invention. Therefore, those skilled in the art will be able to devise various devices which, although not explicitly described or shown herein, embody the principles of the present invention and are included within the spirit and scope of the present invention.

또한, 본 명세서에 열거된 모든 조건부 용어 및 실시 예들은 원칙적으로, 본 발명의 개념이 이해되도록 하기 위한 목적으로만 명백히 의도되고, 이와 같이 특별히 열거된 실시 예들 및 상태들에 제한적이지 않는 것으로 이해되어야 한다.In addition, it should be understood that all conditional terms and examples listed herein are, in principle, expressly intended only for the purpose of understanding the inventive concept and are not limited to the specifically enumerated embodiments and states as such. do.

본 발명을 설명함에 있어서 제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들은 용어들에 의해 한정되지 않을 수 있다.In describing the present invention, terms such as first, second, etc. may be used to describe various components, but the components may not be limited by the terms.

예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.For example, without departing from the scope of the present invention, a first component may be referred to as a second component, and similarly, a second component may also be referred to as a first component.

어떤 구성요소가 다른 구성요소에 연결되어 있다거나 접속되어 있다고 언급되는 경우는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해될 수 있다.When a component is referred to as being connected or connected to another component, it may be directly connected or connected to the other component, but it can be understood that other components may exist in between. .

본 명세서에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니며, 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다.The terms used herein are used only to describe specific embodiments, and are not intended to limit the present invention, and the singular expression may include a plural expression unless the context clearly dictates otherwise.

본 명세서에서, 포함하다 또는 구비하다 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것으로서, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해될 수 있다.In this specification, the terms include or include are intended to designate that a feature, number, step, operation, component, part, or combination thereof described in the specification exists, and includes one or more other features or numbers, It may be understood that the existence or addition of steps, operations, components, parts or combinations thereof is not precluded in advance.

이하에서는, 본 발명에 의한 외국어 초보 학습자를 위한 발음 예측 및 평가시스템의 실시예를 통해 상세히 설명하도록 한다.Hereinafter, an embodiment of the pronunciation prediction and evaluation system for beginners of foreign language according to the present invention will be described in detail.

도 1은 본 발명의 실시예에 따른 외국어 초보 학습자를 위한 발음 예측 및 평가시스템을 개략적으로 나타낸 전체 구성도이다.1 is an overall configuration diagram schematically illustrating a pronunciation prediction and evaluation system for a beginner foreign language learner according to an embodiment of the present invention.

도 1에 도시한 바와 같이, 본 발명인 외국어 초보 학습자를 위한 발음 예측 및 평가시스템은 발음 평가 수단(300)과 음성 합성 수단(200)을 구성하고, 음성 합성 수단(200)에 평가받을 외국어로 학습자가 낭독 발음한 소량의 학습자의 외국어 기초 음성 데이터와 장문의 발음평가용 외국어 텍스트를 입력하면, 음성 합성 수단(200)이 입력된 소량의 학습자의 외국어 기초 음성 데이터를 학습해 해당 학습자의 음성 합성 모델을 만들고, 이를 이용해 입력된 장문의 발음평가용 외국어 텍스트를 학습자 음성으로 음성 합성한 결과 데이터를 생성해 학습자에게 제공해 장문의 발음평가용 외국어 텍스트에 대한 초보 학습자의 발음을 학습자 자신이 예측해 볼 수 있도록 하고, 음성 합성한 결과 데이터와 발음평가용 외국어 텍스트를 발음 평가 수단(300)에 제공해 외국어 초보자의 발음 평가가 가능하도록 하는 발명이다.As shown in Fig. 1, the present invention, a pronunciation prediction and evaluation system for a beginner foreign language learner, comprises a pronunciation evaluation unit 300 and a voice synthesis unit 200, and a learner in a foreign language to be evaluated by the voice synthesis unit 200. When a small amount of the learner's basic foreign language voice data and long sentence pronunciation evaluation are input, the speech synthesis means 200 learns the inputted small amount of the learner's foreign language basic voice data, and the learner's speech synthesis model , and using it, the inputted long foreign language text for pronunciation evaluation is synthesized into the learner’s voice, and the result data is generated and provided to the learner so that the learner can predict the pronunciation of the foreign language text for the long pronunciation evaluation by the learner himself. It is an invention that provides the result data of speech synthesis and the foreign language text for pronunciation evaluation to the pronunciation evaluation means 300 so that the pronunciation evaluation of the foreign language beginner is possible.

다음은 본 발명인 외국어 초보 학습자를 위한 발음 예측 및 평가시스템에 대하여 구체적으로 설명하도록 한다.Next, the pronunciation prediction and evaluation system for foreign language beginners according to the present invention will be described in detail.

도 1에 도시한 바와 같이, 외국어 초보 학습자를 위한 발음 예측 및 평가시스템(1000)은 크게, 학습자 단말기(100), 음성 합성 수단(200), 발음 평가 수단(300)을 포함하여 구성되게 된다.As shown in FIG. 1 , the pronunciation prediction and evaluation system 1000 for a novice foreign language learner is largely configured to include a learner terminal 100 , a voice synthesis unit 200 , and a pronunciation evaluation unit 300 .

구체적으로 설명하면, 상기 학습자 단말기(100)는 음성 합성 수단(200)으로 학습자의 외국어 기초 음성 데이터와 발음평가용 외국어 텍스트 정보를 제공하고, 발음 평가 수단(300)으로부터 발음 평가 결과정보를 제공받게 되는 것이다.Specifically, the learner terminal 100 provides the learner's foreign language basic voice data and foreign language text information for pronunciation evaluation to the voice synthesis means 200, and the pronunciation evaluation means 300 provides pronunciation evaluation result information. will become

이때, 상기 학습자 단말기(100)가 음성 합성 수단(200)으로 제공하는 학습자의 외국어 기초 음성 데이터는 음성 합성 수단(200)이 해당 학습자의 음성 합성 모델을 생성하기 위한 기초 자료로서, 음성 합성 수단(200)이 제공한 단문 스크립트를 학습자가 낭독 발음한 데이터인 것을 특징으로 한다.At this time, the learner's foreign language basic speech data provided by the learner terminal 100 to the speech synthesis means 200 is the basic data for the speech synthesis means 200 to generate the learner's speech synthesis model, and the speech synthesis means ( 200) is characterized in that it is the data that the learner reads and pronounces the short script provided.

예를 들어, 'i am sure that it will work'이라는 몇개의 단어로만 된 단문 스크립트를 음성 합성 수단(200)이 사용자에게 제공하게 되면 사용자는 이에 대하여 낭독하게 된다.For example, when the voice synthesis means 200 provides a short script composed of only a few words 'i am sure that it will work' to the user, the user reads it.

따라서, 학습자 단말기(100)는 단문 스크립트에 대하여 낭독 발음한 외국어 기초 음성 데이터를 음성 합성 수단(200)으로 제공하게 되는 것이다.Accordingly, the learner terminal 100 provides the foreign language basic voice data that is read and pronounced with respect to the short script to the voice synthesis means 200 .

이때, 상기에서 정의한 단문 스트립트는 몇개 또는 십여개의 단어를 포함하는 단문 텍스트로서, 예를 들어, 'I LOVE YOU' 정도나 더 많은 단어들을 포함하는 'i am sure that it will work' 등의 단문 텍스트를 의미하게 된다.In this case, the short script defined above is a short text including several or a dozen words, for example, a short text such as 'I am sure that it will work' including about 'I LOVE YOU' or more words. will mean

그리고, 음성 합성 수단(200)으로 제공되는 발음평가용 외국어 텍스트 정보는 학습자의 외국어 발음을 평가하기 위한 평가 대상 텍스트 자료로서, 학습자가 외국어로 낭독이 어려운 많은 단어들이 포함된 장문의 외국어 텍스트인 것을 특징으로 한다. In addition, the foreign language text information for pronunciation evaluation provided by the speech synthesis means 200 is an evaluation target text material for evaluating the learner's foreign language pronunciation, and it is a long foreign language text containing many words that are difficult for the learner to read in a foreign language. characterized.

정확한 발음 평가를 위해서는 장문의 평가 대상 텍스트와 이를 낭독한 발음 데이터가 필요하다.For accurate pronunciation evaluation, a long text to be evaluated and pronunciation data read out are required.

예를 들어, 외국어 발음을 평가하기 위한 평가 대상 텍스트 자료는 장문의 연설문이나 프리젠테이션 원고 등일 수 있는데, 외국어 발음을 평가하기 위한 장문의 평가 대상 텍스트는 몇개의 단어만을 알고 있는 초보 학습자들에게는 낭독하기 어려운 단어들이 무수히 존재하고 있기 때문에 몇개의 단어만을 알고 있는 초보 학습자는 발음할 수 없어 외국어 발음 평가가 제대로 이루어질 수 없는 문제가 있다.For example, the text material to be evaluated for evaluating foreign language pronunciation may be a long speech or presentation manuscript, and the long text to be evaluated for evaluating foreign language pronunciation is read to novice learners who only know a few words. Since there are countless difficult words, a beginner learner who knows only a few words cannot pronounce it, so there is a problem that the pronunciation evaluation of a foreign language cannot be properly performed.

따라서, 이러한 문제를 해결하기 위한 본 발명은 장문의 외국어 텍스트를 학습자가 낭독할 필요없이, 학습자는 음성 합성 수단(200)이 제공하는 단문의 외국어 텍스트만을 낭독 발음한 외국어 기초 음성 데이터와 발음 평가를 위해 자신이 준비한 장문의 발음평가용 외국어 텍스트 자료를 음성 합성 수단(200)에 제공하는 것을 통해 발음 평가를 받을 수 있게 된다. Therefore, the present invention for solving this problem does not require the learner to read a long foreign language text, but the learner reads and pronounces only the short foreign language text provided by the speech synthesis means 200. For this purpose, it is possible to receive a pronunciation evaluation by providing the foreign language text material for pronunciation evaluation of a long sentence prepared by the person to the speech synthesis means 200 .

발음 평가를 위한 장문의 발음평가용 외국어 텍스트 자료는 상술한 바와 같이 학습자가 준비해 음성 합성 수단(200)으로 제공할수도 있지만, 후술하는 바와 같이, 발음 평가 수단(300)이 음성 합성 수단(200)으로 제공할수도 있다.Long foreign language text materials for pronunciation evaluation for pronunciation evaluation may be prepared by the learner as described above and provided to the speech synthesis means 200, but as will be described later, the pronunciation evaluation means 300 is provided by the speech synthesis means 200. may be provided as

또한, 학습자 단말기(100)는 상기 음성 합성 수단(200)으로부터 장문의 발음평가용 외국어 텍스트에 대한 학습자의 외국어 합성음성 데이터를 제공받을 수 있는데, 몇개의 단어만을 발음할 수 있는 외국어 학습 초보자는 수백개의 단어가 포함된 장문의 발음평가용 외국에 텍스트에 포함된 자신이 발음할 수 없는 외국어 단어들에 대한 자신의 예측 발음을 음성 합성 수단(200)이 제공하는 학습자의 외국어 합성음성 데이터를 통해 확인해 볼수 있게 된다.In addition, the learner terminal 100 may receive the learner's foreign language synthesized speech data for the foreign language text for pronunciation evaluation of long sentences from the speech synthesis means 200 . There are hundreds of foreign language learners who can pronounce only a few words. For pronunciation evaluation of long sentences including 5 words, check the predicted pronunciation of foreign words that one cannot pronounce included in the foreign text through the learner's foreign language synthesized speech data provided by the speech synthesis means 200 be able to see

상기 음성 합성 수단(200)은 제공된 학습자의 외국어 기초 음성 데이터와 발음평가용 외국어 텍스트 정보를 이용하여 발음평가용 외국어 텍스트에 대한 학습자의 외국어 합성음성 데이터를 생성하고, 생성된 학습자의 외국어 합성음성 데이터와 발음평가용 외국어 텍스트 정보를 발음 평가용으로 발음 평가 수단(300)으로 제공하는 기능을 수행하게 된다.The speech synthesis means 200 generates the learner's foreign language synthesized speech data for the foreign language text for pronunciation evaluation by using the provided learner's foreign language basic voice data and foreign language text information for pronunciation evaluation, and the generated learner's foreign language synthesized voice data and foreign language text information for pronunciation evaluation to the pronunciation evaluation means 300 for pronunciation evaluation.

즉, 학습자단말기에서 제공된 학습자의 외국어 기초 음성 데이터와 발음평가용 외국어 텍스트 정보를 이용하여 발음평가용 외국어 텍스트에 대한 학습자의 외국어 합성음성 데이터를 생성하게 되는 것이다.That is, the learner's foreign language synthesized speech data for the foreign language text for pronunciation evaluation is generated by using the learner's basic foreign language voice data and the foreign language text information for pronunciation evaluation provided from the learner's terminal.

이후, 생성된 학습자의 외국어 합성음성 데이터와 발음평가용 외국어 텍스트 정보를 발음 평가용으로 발음 평가 수단(300)으로 제공하여 발음 평가를 실시할 수 있도록 하는 것이다.Thereafter, the generated foreign language synthesized speech data and foreign language text information for pronunciation evaluation are provided to the pronunciation evaluation means 300 for pronunciation evaluation so that pronunciation evaluation can be performed.

또한, 상기 음성 합성 수단(200)은 생성된 학습자의 외국어 합성음성 데이터를 학습자 단말기(100)로 제공하여, 학습자가 장문의 발음평가용 외국어 텍스트에 대한 자신의 예측 발음을 확인할 수 있도록 한다.In addition, the speech synthesis means 200 provides the generated foreign language synthesized speech data of the learner to the learner terminal 100 so that the learner can check his/her predicted pronunciation of the foreign language text for pronunciation evaluation of long sentences.

즉, 몇개의 단어밖에 모르는 외국어 학습 초보자(어려운 단어들을 발음할 수 없는 초보자)가 수백개의 단어가 포함된 장문의 발음평가용 외국에 텍스트에 포함된 자신이 발음할 수 없는 외국어 단어들에 대한 자신의 예측 발음을 확인할 수 있도록 생성된 학습자의 외국어 합성음성 데이터를 학습자 단말기(100)로 제공하는 것이다.That is, a foreign language learning beginner who knows only a few words (a beginner who cannot pronounce difficult words) has confidence in foreign language words that he cannot pronounce in foreign texts for pronunciation evaluation of long sentences containing hundreds of words. To provide the learner's foreign language synthesized speech data generated so as to check the predicted pronunciation of , to the learner terminal 100 .

본 발명의 핵심적 특징을 제공하는 상기 음성 합성 수단(200)과 발음 평가 수단(300)에 대한 구체적인 설명은 하기에서 도면을 참조하여 설명하도록 한다.A detailed description of the speech synthesis means 200 and the pronunciation evaluation means 300, which provide key features of the present invention, will be described below with reference to the drawings.

도 2는 본 발명의 실시예에 따른 외국어 초보 학습자를 위한 발음 예측 및 평가시스템의 음성 합성 수단(200) 구성 블록도이다.2 is a block diagram of a speech synthesis means 200 of a pronunciation prediction and evaluation system for a novice foreign language learner according to an embodiment of the present invention.

도 2에 도시한 바와 같이, 음성 합성 수단(200)은 정보 수집부(210), 학습자 음성모델 생성부(220), 음성 합성부(230), 평가정보 제공부(240)를 포함하여 구성되게 된다.As shown in FIG. 2 , the voice synthesis means 200 includes an information collection unit 210 , a learner voice model generation unit 220 , a voice synthesis unit 230 , and an evaluation information providing unit 240 . do.

구체적으로 설명하면, 상기 정보 수집부(210)는 학습자 단말기(100)로 단문 스크립트를 제공하고, 학습자 단말기(100)로부터 학습자의 외국어 기초 음성 데이터와 발음평가용 외국어 텍스트 정보를 입력받는 기능을 수행하게 된다.Specifically, the information collection unit 210 provides a short script to the learner terminal 100, and performs a function of receiving the learner's basic foreign language voice data and foreign language text information for pronunciation evaluation from the learner terminal 100. will do

예를 들어, 'I LOVE YOU', 'i am sure that it will work' 등과 같은 단문 스크립트를 학습자 단말기(100)로 제공한 후, 제공한 단문 스크립트를 초보 학습자가 낭독 발음한 학습자의 외국어 기초 음성 데이터를 입력받는다. For example, after providing a short script such as 'I LOVE YOU' and 'i am sure that it will work' to the learner terminal 100, the beginner learner reads and pronounces the provided short script, the learner's basic foreign language voice receive data.

이때, 장문의 발음평가용 외국어 텍스트 정보도 함께 제공받게 되며, 학습자 단말기(100)가 발음평가용 외국어 텍스트 정보를 제공하지 않는 경우, 발음 평가 수단(300)에서 발음평가용 외국어 텍스트 정보를 제공받을 수 있다.At this time, foreign language text information for pronunciation evaluation of a long sentence is also provided, and when the learner terminal 100 does not provide foreign language text information for pronunciation evaluation, the pronunciation evaluation means 300 receives foreign language text information for pronunciation evaluation. can

상기 학습자 음성모델 생성부(220)는 학습자 단말기(100)로 제공한 단문 스크립트와 학습자 단말기(100)가 제공한 학습자의 외국어 기초 음성 데이터를 이용해 학습자의 외국어 음성 합성 모델을 생성하고, 생성된 학습자의 외국어 음성 합성 모델을 음성합성부(230)로 제공하게 된다.The learner voice model generation unit 220 generates a foreign language speech synthesis model of the learner using the short script provided to the learner terminal 100 and the learner's foreign language basic speech data provided by the learner terminal 100, and the generated learner A foreign language speech synthesis model of , is provided to the speech synthesis unit 230 .

도 3을 참조하여 구체적으로 설명하면, 상기 학습자 음성모델 생성부(220)는,3, the learner voice model generation unit 220 is described in detail with reference to FIG.

각종 외국어별 표준 원어민 음성 합성 모델들이 저장된 음성 합성 모델 DB(221)와,A voice synthesis model DB 221 in which standard native speaker voice synthesis models for each foreign language are stored;

학습자 단말기(100)로 제공한 단문 스크립트를 이용해 외국어의 종류를 파악하고, 파악된 외국어 종류에 해당하는 표준 원어민 음성 합성 모델을 음성 합성 모델 DB(221)로부터 추출하는 표준 음성 합성 모델 추출부(222)와,The standard speech synthesis model extraction unit 222 that identifies the type of foreign language using the short script provided to the learner terminal 100 and extracts the standard native speaker speech synthesis model corresponding to the identified foreign language type from the speech synthesis model DB 221 . )Wow,

표준 음성 합성 모델 추출부(222)가 추출한 표준 원어민 음성 합성 모델에 상기 단문 스크립트와 학습자의 외국어 기초 음성 데이터를 입력값으로 입력하여 추출한 표준 원어민 음성 합성 모델이 학습자의 발음에 적응 학습하도록 하고, 적응 학습의 결과로 학습자의 발음 특성(억양 등)에 적응 학습된 표준 원어민 음성 합성 모델인 학습자 음성 합성 모델을 생성하고, 생성된 학습자 음성 합성 모델을 음성 합성부(230)로 제공하는 학습자 음성 적응 학습부(223)를 포함하여 구성되게 된다.The standard native speaker speech synthesis model extracted by the standard speech synthesis model extraction unit 222 inputs the short script and the learner's foreign language basic speech data as input values to the standard native speaker's speech synthesis model, so that the extracted standard native speaker's speech synthesis model adapts to the learner's pronunciation, and adapts As a result of learning, a learner voice adaptive learning that generates a learner's speech synthesis model, which is a standard native speaker's speech synthesis model adaptively learned to the learner's pronunciation characteristics (accent, etc.), and provides the generated learner's speech synthesis model to the speech synthesis unit 230 It is configured to include a unit 223 .

구체적으로 설명하면, 상기 음성 합성 모델 DB(221)는 각종 외국어별 표준 원어민 음성 합성 모델들이 저장된 데이터 저장수단이다. 즉, 외국어별(예: 영어, 프랑스어, 중국어, 러시아어 등) 표준 원어민 음성 합성 모델들을 저장하고 있어, 표준 음성 합성 모델 추출부(222)가 이중 하나의 모델을 추출할 수 있도록 한다.Specifically, the speech synthesis model DB 221 is a data storage means in which standard native speaker speech synthesis models for each foreign language are stored. That is, since standard native speaker speech synthesis models for each foreign language (eg, English, French, Chinese, Russian, etc.) are stored, the standard speech synthesis model extraction unit 222 can extract one of them.

상기 표준 음성 합성 모델 추출부(222)는 학습자 단말기(100)로 제공한 단문 스크립트를 이용해 외국어의 종류를 파악하고, 파악된 외국어 종류에 해당하는 표준 원어민 음성 합성 모델을 음성 합성 모델 DB(221)로부터 추출하게 된다. 예를 들어, 학습자 단말기(100)로 제공한 단문 스크립트가 'I LOVE YOU'인 경우 외국어의 종류가 영어라는 것을 파악하고, 파악된 외국어 종류인 영어에 해당하는 표준 원어민 음성 합성 모델을 음성 합성 모델 DB로부터 추출하게 되는 것이다.The standard speech synthesis model extraction unit 222 uses the short script provided to the learner terminal 100 to determine the type of foreign language, and converts the standard native speaker speech synthesis model corresponding to the identified foreign language to the speech synthesis model DB 221 . will be extracted from For example, when the short script provided to the learner terminal 100 is 'I LOVE YOU', it is determined that the foreign language is English, and the standard native speaker's speech synthesis model corresponding to the identified foreign language type, English, is used as a speech synthesis model. It will be extracted from DB.

이후, 상기 학습자 음성 적응 학습부(223)는 상기 표준 음성 합성 모델 추출부(222)가 추출한 표준 원어민 음성 합성 모델에 학습자 단말기(100)에 제공한 단문 스크립트와 학습자 단말기(100)가 제공한 학습자의 외국어 기초 음성 데이터(단문 스크립트를 학습자가 낭독 발음한 음성 데이터)를 입력값으로 입력하여, 추출된 표준 원어민 음성 합성 모델이 학습자의 발음에 적응 학습할 수 있도록 한다.Then, the learner's voice adaptation learning unit 223 is the standard native speaker's speech synthesis model extracted by the standard speech synthesis model extraction unit 222, a short script provided to the learner terminal 100, and the learner provided by the learner terminal 100 By inputting the basic foreign language voice data (voice data that the learner reads and pronounces a short script) as an input value, the extracted standard native speaker's speech synthesis model can learn adaptively according to the learner's pronunciation.

한편, 상기 실시예에서는 음성 합성 수단(200)이 학습자 단말기(100)로 1 개의 단문 스크립트를 제공하는 것을 예를 들어 설명하고 있으나, 필요에 따라 다양한 복수개의 단문 스크립트를 제공하고, 이를 초보 학습자가 낭독 발음한 복수개의 기초 음성 데이터를 학습자 단말기(100)로부터 입력 받을 수 있도록 할 수 있다.On the other hand, in the above embodiment, the voice synthesis means 200 provides one short script to the learner terminal 100 as an example, but a plurality of various short scripts are provided as needed, and the novice learner It is possible to receive a plurality of basic voice data read and pronounced from the learner terminal 100 .

이는 1개 보다는 여러개의 단문 스크립트를 낭독 발음한 학습자 기초 음성 데이터가 있으면 학습자의 발음에 상기 표준 원어민 음성 합성 모델이 보다 효과적으로 적응 학습할수 있도록 하기 위함이다.This is to enable the standard native speaker's speech synthesis model to more effectively adapt and learn the learner's pronunciation when there is the learner's basic voice data who read and pronounce several short scripts rather than one.

이때, 적응 학습의 결과로 학습자 음성 적응 학습부(223)는 학습자의 발음 특성(말투, 억양, 높낮이 등)에 적응 학습된 표준 원어민 음성 합성 모델인 학습자 음성 합성 모델을 생성하고, 생성된 학습자 음성 합성 모델을 음성 합성부(230)로 제공하는 것이다.At this time, as a result of the adaptive learning, the learner's voice adaptive learning unit 223 generates a learner's voice synthesis model, which is a standard native speaker's voice synthesis model that is adaptively learned to the learner's pronunciation characteristics (speech, intonation, pitch, etc.) The synthesized model is provided to the voice synthesizer 230 .

본 발명에서 설명하고 있는 표준 원어민 음성 합성 모델의 특성과 음성 합성 모들의 적응 학습 방법은 일반적으로 당업자들에게 알려진 기술로서, 구체적 설명은 생략하고, 본 발명의 특징점은 추출된 표준 원어민 음성 합성 모델에 학습자 단말기(100)에 제공한 단문 스크립트와 학습자 단말기(100)가 제공한 학습자의 외국어 기초 음성 데이터(단문 스크립트를 학습자가 낭독 발음한 음성 데이터)를 입력값으로 입력하여, 추출된 표준 원어민 음성 합성 모델이 학습자의 발음에 적응 학습을 한다는 것임을 알아야 한다.The characteristics of the standard native speaker speech synthesis model described in the present invention and the adaptive learning method of speech synthesis models are generally known to those skilled in the art, and detailed descriptions are omitted, and the features of the present invention are based on the extracted standard native speaker speech synthesis model. Standard native speaker voice synthesis extracted by inputting the short script provided to the learner terminal 100 and the learner's basic foreign language voice data (voice data that the learner reads and pronounces the short script) provided by the learner terminal 100 as input values It should be noted that the model is adaptive learning to the learner's pronunciation.

상기 음성 합성부(230)는 상기 학습자 음성모델 생성부(220)가 제공한 학습자의 외국어 음성 합성 모델(구체적으로는 학습자 음성 적응 학습부(223)가 제공한 외국어 음성 합성 모델)과 제공된 발음평가용 외국어 텍스트 정보(학습자 단말기나 발음 평가 수단이 제공한 발음평가용 외국어 텍스트 정보)를 이용해 발음평가용 외국어 텍스트에 대한 학습자의 외국어 합성음성 데이터를 생성하게 되는 것이며, 생성된 학습자의 외국어 합성음성 데이터를 평가정보 제공부(240)로 제공하는 것이다.The speech synthesis unit 230 includes the learner's foreign language speech synthesis model provided by the learner's speech model generator 220 (specifically, the foreign language speech synthesis model provided by the learner's voice adaptation learning unit 223) and the provided pronunciation evaluation. Foreign language text information for pronunciation evaluation (foreign language text information for pronunciation evaluation provided by the learner terminal or pronunciation evaluation means) is used to generate the learner's foreign language synthesized speech data for the foreign language text for pronunciation evaluation, and the generated learner's foreign language synthesized speech data is provided to the evaluation information providing unit 240 .

예를 들어, 음성 합성 모델 DB(221)로부터 추출된 영어 원어민 음성 합성 모델에 학습자에게 제공한 영어 단문 스크립트와 학습자가 영어 단문 스크립트를 낭독 발음한 학습자의 영어 기초 음성 데이터를 입력시켜 적응 학습 시킨 결과물인 'AA'라는 학습자 음성 합성 모델에 '오바마 대통령 연설문'이라는 발음평가용 영어 텍스트 정보를 입력시켜 '오바마 대통령 연설문'에 대한 학습자의 영어 합성음성 데이터를 생성하게 되는 것이며, 생성된 '오바마 대통령 연설문'에 대한 영어 합성음성 데이터를 평가정보 제공부(240)로 제공하게 되는 것이다.For example, the result of adaptive learning by inputting the English short script provided to the learner and the learner's basic English voice data for the learner to read and pronounce the English short script to the English native speaker's speech synthesis model extracted from the speech synthesis model DB 221 By inputting English text information for pronunciation evaluation called 'President Obama speech' into the learner's speech synthesis model called 'AA', the learner's English synthesized speech data for the 'President Obama speech' is generated, and the generated 'President Obama speech' English synthesized speech data for ' is provided to the evaluation information providing unit 240 .

이후, 상기 평가정보 제공부(240)는 음성 합성부(230)가 제공한 학습자의 외국어 합성음성 데이터와 제공된 발음평가용 외국어 텍스트 정보를 학습자의 발음 평가를 위해, 발음 평가 수단(300)으로 제공하게 된다.Thereafter, the evaluation information providing unit 240 provides the learner's foreign language synthesized speech data provided by the speech synthesis unit 230 and the provided foreign language text information for pronunciation evaluation to the pronunciation evaluation means 300 for the learner's pronunciation evaluation. will do

정리하면, 상술한 특징을 갖는 음성 합성 수단(200)은 몇개의 단어밖에 몰라 외국어 발음이 서툰 초보 학습자에게 단문 스크립트를 제공하고, 단문 스크립트에 대한 학습자 기초 음성 데이터(단문 스크립트를 학습자가 낭독 발음한 음성 데이터)를 추출된 표준 원어민 음성 합성모델에 입력 값으로 제공하여 학습자의 발음에 적응 학습된 표준 원어민 음성 합성모델인 학습자 음성 합성 모델을 생성하고, 이를 이용하여 장문의 발음평가용 외국어 텍스트를 학습자 음성으로 음성 합성한 결과 데이터인 외국어 합성음성 데이터를 생성하여 발음 평가 수단(300)으로 제공함으로써, 몇단어밖에 모르는 외국어 초보자도 자신이 발음할 수 없는 장문의 발음평가용 외국어 텍스트에 포함된 단어들에 대한 예측 발음을 통해 발음 평가를 받을 수 있도록 하는 것이다.In summary, the speech synthesis means 200 having the above-described characteristics provides a short script to a beginner learner who knows only a few words and is not good at pronouncing a foreign language, and learner's basic voice data for the short script (short script is read and pronounced by the learner). Speech data) is provided as an input value to the extracted standard native speaker speech synthesis model to create a learner speech synthesis model, which is a standard native speaker speech synthesis model that has been adaptively learned to the learner's pronunciation, and uses it to learn foreign language text for long pronunciation evaluation Words included in a long foreign language text for pronunciation evaluation that even a foreign language beginner who knows only a few words cannot pronounce by themselves by generating foreign language synthesized speech data, which is the result data of speech synthesis, and providing it to the pronunciation evaluation means 300 It is to be able to receive pronunciation evaluation through predictive pronunciation for

도 4는 본 발명의 실시예에 따른 외국어 초보 학습자를 위한 발음 예측 및 평가시스템의 발음 평가 수단(300) 구성 블록도이다.4 is a block diagram of a pronunciation evaluation means 300 of a pronunciation prediction and evaluation system for a novice foreign language learner according to an embodiment of the present invention.

도 4에 도시한 바와 같이, 상기 발음 평가 수단(300)은,As shown in Figure 4, the pronunciation evaluation means 300,

음성 합성 수단(200)으로부터 발음평가용 외국어 텍스트 정보와 발음평가용 외국어 텍스트에 대한 학습자의 외국어 합성음성 데이터를 입력받는 평가정보 수집부(310)와,an evaluation information collecting unit 310 that receives foreign language text information for pronunciation evaluation and foreign language synthesized speech data of the learner for the foreign language text for pronunciation evaluation from the speech synthesis means 200;

입력된 발음평가용 외국어 텍스트 정보와 학습자의 외국어 합성음성 데이터를 이용해 발음평가용 외국어 텍스트에 포함된 단어들에 대한 학습자 발음의 정확성 평가를 수행하는 발음 평가부(320)와,A pronunciation evaluation unit 320 that evaluates the accuracy of a learner's pronunciation for words included in the foreign language text for pronunciation evaluation by using the input foreign language text information for pronunciation evaluation and the learner's foreign language synthesized speech data;

발음 평가 결과정보를 생성하여 학습자 단말기(100)로 제공하는 평가정보 제공부(330)를 포함하여 구성되게 된다.It is configured to include an evaluation information providing unit 330 that generates pronunciation evaluation result information and provides it to the learner terminal 100 .

구체적으로 설명하면, 평가정보 수집부(310)는 음성 합성 수단(200)으로부터 발음평가용 외국어 텍스트 정보와 발음평가용 외국어 텍스트에 대한 학습자의 외국어 합성음성 데이터를 입력받게 된다.More specifically, the evaluation information collecting unit 310 receives foreign language text information for pronunciation evaluation and foreign language synthesized speech data of the learner for the foreign language text for pronunciation evaluation from the speech synthesis means 200 .

예를 들어, 'A 대통령 연설문'이라는 발음평가용 외국어 텍스트 정보와 'A 대통령 연설문'에 대한 학습자의 외국어 합성음성 데이터를 입력받게 되고, 해당 발음평가용 외국어 텍스트 정보와 외국어 합성음성 데이터를 발음 평가부(320)로 제공하게 되는 것이다.For example, foreign language text information for pronunciation evaluation of 'President A speech' and the learner's foreign language synthesized speech data for 'President A speech' are input, and the foreign language text information for pronunciation evaluation and foreign language synthesized speech data are evaluated for pronunciation. It will be provided to the unit 320 .

상기 발음 평가부(320)는 평가정보 수집부(310)가 제공한 발음평가용 외국어 텍스트 정보와 학습자의 외국어 합성음성 데이터를 이용해 발음평가용 외국어 텍스트에 포함된 단어들에 대한 학습자 발음의 정확성 평가를 수행하게 되는 것이다.The pronunciation evaluation unit 320 evaluates the accuracy of the learner's pronunciation of words included in the foreign language text for pronunciation evaluation using the foreign language text information for pronunciation evaluation provided by the evaluation information collecting unit 310 and the learner's foreign language synthesized speech data. will be performing

이때, 상기와 같은 학습자 발음의 정확성 평가를 수행하기 위하여 발음 평가부(320)는,At this time, in order to evaluate the accuracy of the learner's pronunciation as described above, the pronunciation evaluation unit 320,

단어에 대한 학습자 발음의 음성신호를 일정 시간 구간으로 나누고, 시간 구간별 특징 벡터를 추출하고,Divide the voice signal of the learner's pronunciation of a word into a certain time section, extract a feature vector for each time section,

단어에 대한 학습자 발음의 음소들을 상기 일정 시간 구간별로 강제 정렬하고,Forcibly sorting the phonemes of the learner's pronunciation of the word by the predetermined time interval,

상기 시간 구간별 특징 벡터와 시간 구간별로 강제 정렬된 음소들을 이용하여 시간 구간별 로그 우도를 계산하고,Calculate the log likelihood for each time section using the feature vector for each time section and the phonemes forcibly sorted for each time section,

시간 구간별 로그 우도를 시간 구간별 조정점수로 변환하고,Convert the log likelihood for each time section into an adjustment score for each time section,

시간 구간별 조정점수를 평균 처리하여 음소별 정확성 평가 점수를 산출하고,Calculate the accuracy evaluation score for each phoneme by averaging the adjustment score for each time section,

산출된 음소별 정확성 평가 점수를 평균 처리하여 음절별 정확성 평가 점수를 산출하고,Calculate the accuracy evaluation score for each syllable by averaging the calculated accuracy evaluation score for each phoneme,

산출된 음절별 정확성 평가 점수를 평균 처리하여 단어에 대한 정확성 평가 점수를 산출하고,Calculate the accuracy evaluation score for the word by averaging the calculated accuracy evaluation score for each syllable,

정확성 평가 점수가 설정치 이하인 음절에 특정 색을 매칭 처리하여,By matching a specific color to a syllable whose accuracy evaluation score is below the set value,

단어마다 평가 점수(음소, 음절, 단어 평가 점수)와 특정 색이 매칭된 단어별 평가결과 정보를 생성하는 것을 특징으로 한다.It is characterized in that the evaluation score (phoneme, syllable, word evaluation score) for each word and evaluation result information for each word matched with a specific color are generated.

도 5에 도시한 바와 같이, 예를 들어 'happy'라는 단어에 대한 사용자 발음의 음성신호를 일정 시간 구간으로 나누고, 시간 구간별 특징벡터를 추출하게 된다. 즉, 사용자 발음의 음성신호에 대하여 예를 들어, 10ms 단위별로 시간 구간을 나누며, 각 시간 구간마다 음성신호에 대한 특징 벡터(MFCC)를 추출하는 것이다.As shown in FIG. 5 , for example, a voice signal of a user's pronunciation of the word 'happy' is divided into predetermined time sections, and feature vectors for each time section are extracted. That is, for the voice signal of the user's pronunciation, a time section is divided, for example, in units of 10 ms, and a feature vector (MFCC) for the voice signal is extracted for each time section.

상기한 특징벡터를 추출하는 기법으로는 예를 들어, MFCC(Mel Frequency Cepstrum Coefficient) 파라미터가 많이 사용되고 있으며, 음성 인식 기술에서 널리 이용되고 있는 알고리즘이므로 구체적인 설명은 생략하도록 한다.As a technique for extracting the feature vector, for example, a Mel Frequency Cepstrum Coefficient (MFCC) parameter is widely used, and since it is an algorithm widely used in speech recognition technology, a detailed description thereof will be omitted.

이때, 음성 특징 벡터를 추출하기 위한 시간 구간 단위는 10msec ~ 30msec 범위의 시간 단위인 것을 특징으로 하는데, 동질의 발음신호가 존재하는 시간 구간이 대략 25msec이고 발음 연쇄 정보가 음성 신호에 중첩적으로 드러난다는 점을 고려할 때 25msec의 시간 구간 단위마다 10msec 단위로 전진하면서 음성 특징 벡터를 추출하는 것이 바람직하다.In this case, the time interval unit for extracting the speech feature vector is characterized in that it is a time unit in the range of 10 msec to 30 msec. The time interval in which the homogeneous pronunciation signal is present is approximately 25 msec, and the pronunciation chain information is superimposed on the speech signal. Considering that , it is preferable to extract the speech feature vector while advancing in units of 10 msec for every 25 msec time interval.

이후, 단어에 대한 사용자 발음의 음소들을 상기 일정 시간 구간별로 강제 정렬하게 된다.Thereafter, the phonemes of the user's pronunciation of the word are forcibly arranged for each predetermined time interval.

예를 들어, 'happy'라는 단어를 사용자가 발음한 경우,도 5에 도시된 바와 같이, 0 ~ 10ms(1구간)에 h 음소 발음, 10 ~ 20ms(2구간)에 h 음소 발음, 20 ~ 30ms(3구간)에 æ 음소 발음, 30 ~ 40ms(4구간)에 æ 음소 발음, 40 ~ 50ms(5구간)에 p 음소 발음, 50 ~ 60ms(6구간)에 p 음소 발음, 60 ~ 70ms(7구간)에 iy 음소 발음, 70 ~ 80ms(8구간)에 iy 음소 발음, 80 ~ 90ms(9구간)에 iy 음소 발음이 배열되게 된다.For example, when the user pronounces the word 'happy', as shown in FIG. 5, the h phoneme is pronounced at 0 ~ 10ms (1 section), the h phoneme is pronounced at 10 ~ 20ms (2 sections), and 20 ~ æ phoneme pronunciation in 30ms (3 sections), æ phoneme pronunciation in 30 ~ 40ms (4 divisions), p phoneme pronunciation in 40 ~ 50ms (5 divisions), p phoneme pronunciation in 50 ~ 60ms (6 divisions), 60 ~ 70ms ( The pronunciation of the iy phoneme is arranged in the 7th section), the iy phoneme is pronounced at 70 to 80ms (8 sections), and the iy phoneme pronunciation is arranged at 80 to 90ms (9 sections).

이후, 도 6에 도시한 바와 같이, 상기 시간 구간별 특징벡터와 시간 구간별로 강제 정렬된 음소들을 이용하여 시간 구간별 로그 우도를 계산하고, 계산된 시간 구간별 로그 우도를 시간 구간별 조정점수로 변환하게 된다.Thereafter, as shown in FIG. 6 , the log likelihood for each time section is calculated using the feature vector for each time section and the phonemes forcibly sorted for each time section, and the calculated log likelihood for each time section is used as an adjustment score for each time section. will convert

이때, 상기 시간 구간별 로그 우도는 하기 수학식 1에 의해 계산되고, 상기 시간 구간별 조정점수는 하기 수학식 2에 의해 계산되되, 계산된 조정점수가 0 미만인 경우는 조정점수를 0으로, 계산된 조정점수가 100을 초과하는 경우는 조정점수를 100으로 하는 것을 특징으로 한다.At this time, the log likelihood for each time section is calculated by Equation 1 below, and the adjustment score for each time section is calculated by Equation 2 below, and when the calculated adjustment point is less than 0, the adjustment point is calculated as 0, When the adjusted adjustment points exceed 100, it is characterized in that the adjustment points are set to 100.

수학식 1 :

Figure 112021015272813-pat00001
,Equation 1:
Figure 112021015272813-pat00001
,

수학식 2 :

Figure 112021015272813-pat00002
,Equation 2:
Figure 112021015272813-pat00002
,

Figure 112021015272813-pat00003
Figure 112021015272813-pat00003

(oi 는 i번째 시간구간의 특징 벡터, qi는 강제 정렬된 i번째 시간구간의 음소,

Figure 112021015272813-pat00004
는 i번째 시간구간에서 oi 가 qi 에서 나올 확률,
Figure 112021015272813-pat00005
은 i번째 시간구간의 음소의 원어민 로그우도 분포 중 하위로부터 25%에 위치한 로그 우도 값,
Figure 112021015272813-pat00006
는 i번째 시간구간의 음소의 원어민 로그우도 분포 중 하위로부터 75%에 위치한 로그 우도 값,
Figure 112021015272813-pat00007
은 i번째 시간구간의 음소의 원어민 로그우도 분포 중 최하위에 위치한 로그 우도 값, C 는 임의 조절 파라미터 값)(o i is the feature vector of the i-th time interval, q i is the phoneme of the i-th time interval that is forcedly ordered,
Figure 112021015272813-pat00004
is the probability that o i comes from q i in the i-th time interval,
Figure 112021015272813-pat00005
is the log-likelihood value located at 25% from the bottom of the native-speaker log-likelihood distribution of the phoneme in the i-th time interval,
Figure 112021015272813-pat00006
is the log-likelihood value located at 75% from the bottom of the native-speaker log-likelihood distribution of the phoneme in the i-th time interval,
Figure 112021015272813-pat00007
is the lowest log-likelihood value of the native speaker log-likelihood distribution of the phoneme in the i-th time interval, and C is the value of the arbitrary adjustment parameter)

구체적으로 설명하면, 도 6에 도시한 바와 같이, 사용자 발화음성의 음성신호로부터 시간 구간별 로그 우도를 수학식 1에 의거하여 산출하게 된다.More specifically, as shown in FIG. 6 , the log likelihood for each time section is calculated based on Equation 1 from the voice signal of the user's uttered voice.

로그 우도란 특정 시간구간에 있는 발화자의 특징 벡터가 해당 시간구간의 음소에서 나올 확률의 로그 값이다.The log likelihood is a logarithmic value of the probability that a feature vector of a speaker in a specific time interval appears from a phoneme in the corresponding time interval.

이때, 시간 구간별 조정 점수는 수학식 2에 의거하여 산출하게 되는데, 이는 원어민 로그 우도를 반영하여 조정한 점수인 것을 특징으로 한다.At this time, the adjusted score for each time section is calculated based on Equation 2, which is a score adjusted by reflecting the log likelihood of a native speaker.

조정 점수를 산출하는 이유는 수학식 1에 의해 산출된 로그 우도값은 0보다 적은 음의 값을 갖는다. 평가정보를 생성하기 위해서는 음의 값을 갖는 로그 우도값은 평가 점수 산출에 적절치 않다. The reason for calculating the adjustment score is that the log likelihood value calculated by Equation 1 has a negative value less than 0. In order to generate evaluation information, a log-likelihood value having a negative value is not suitable for calculating an evaluation score.

따라서, 음의 값이 아닌 조정 점수를 산출할 필요가 있다.Therefore, it is necessary to calculate a non-negative adjustment score.

특히, 조정 점수 산출 시, 원어민의 로그 우도가 반영되어야 정확한 발화자의 음성 평가가 이루어 질 수 있으며, 본 발명에서는 상기 수학식 2를 통해 원어민의 로그 우도가 반영된 조정 점수를 산출하게 된다. In particular, when calculating the adjustment score, the native speaker's log likelihood must be reflected in order to accurately evaluate the speaker's voice, and in the present invention, the adjustment score reflecting the native speaker's log likelihood is calculated through Equation 2 above.

조정 점수 산출 시, 원어민의 로그 우도를 반영하기 위해, 본 발명인 외국어 초보 학습자를 위한 발음 예측 및 평가시스템은 사전에 음소별 원어민 로그 우도 분포에 대한 통계 정보를 생성하여 관리하게 된다.In order to reflect the log likelihood of a native speaker when calculating an adjustment score, the pronunciation prediction and evaluation system for novice foreign language learners of the present invention creates and manages statistical information on the log likelihood distribution of a native speaker for each phoneme in advance.

구체적으로 설명하면, 다양한 단어, 문장, 문단에 대한 원어민 음성 정보를 수집 저장하고, 수집 저장된 다양한 단어, 문장, 문단에 대한 원어민 음성 정보들 각각을 시간 구간별로 강제 정렬 후 시간 구간별 특징 벡터를 추출하고, 음소별 원어민 로그 우도(특정 시간 구간에 있는 특징 벡터가 해당 특정 시간 구간의 음소에서 나타날 확률에 대한 로그값) 분포에 대한 통계정보를 생성하여 저장 관리하는 것이다. More specifically, after collecting and storing native speaker voice information for various words, sentences, and paragraphs, and forcibly sorting each of the collected and stored native speaker voice information for various words, sentences, and paragraphs by time section, feature vectors for each time section are extracted In addition, statistical information on the distribution of native speaker log likelihood (a log value of the probability that a feature vector in a specific time section appears in a phoneme in a specific time section) distribution for each phoneme is created, stored and managed.

상기 수학식 2에 대해 도 5를 예를 들어 상세히 설명한다.FIG. 5 will be described in detail with reference to Equation 2 above.

'happy'라는 단어를 사용자가 발음한 경우, 도 5에 도시된 바와 같이, 0 ~ 10ms(1구간)에 h 음소, 10 ~ 20ms(2구간)에 h 음소, 20 ~ 30ms(3구간)에 æ 음소, 30 ~ 40ms(4구간)에 æ 음소, 40 ~ 50ms(5구간)에 p 음소, 50 ~ 60ms(6구간)에 p 음소, 60 ~ 70ms(7구간)에 iy 음소, 70 ~ 80ms(8구간)에 iy 음소, 80 ~ 90ms(9구간)에 iy 음소가 시간 구간별로 정렬되며, 각 시간 구간별 음소들의 로그 우도값이 계산된다. When the user pronounces the word 'happy', as shown in FIG. 5, the h phoneme in 0 ~ 10ms (1 section), the h phoneme in 10 ~ 20ms (2 sections), and 20 ~ 30ms (3 sections) æ phoneme, æ phoneme in 30 ~ 40ms (4 divisions), p phoneme in 40 ~ 50ms (5 divisions), p phoneme in 50 ~ 60ms (6 divisions), iy phoneme in 60 ~ 70ms (7 divisions), 70 ~ 80ms The iy phoneme at (8 sections) and the iy phonemes at 80 ~ 90 ms (9 sections) are sorted by time section, and the log likelihood value of the phonemes for each time section is calculated.

예를 들어 30 ~ 40ms(4구간)의 음소 æ에 대해 수학식 1에 의해 로그 우도값 -20.1이 계산된다.For example, for a phoneme æ of 30 to 40 ms (4 sections), a log likelihood value of -20.1 is calculated by Equation 1.

다음으로 동일 시간 구간인 30 ~ 40ms(4구간)의 음소 æ에 대해 수학식 2에 의해 조정점수 41이 계산되는데 아래와 같은 과정을 통해 계산된다.Next, the adjustment score 41 is calculated by Equation 2 for the phoneme æ of 30 to 40 ms (4 sections), which is the same time section, and is calculated through the following process.

'happy'라는 단어에 대한 외국인들의 로그우도 분포에 대한 통계 정보는 상술한 바와 같이 사전에 시스템에 저장되어 있다. Statistical information on the log-likelihood distribution of foreigners for the word 'happy' is stored in the system in advance as described above.

'happy'라는 단어에 대한 외국인들의 로그우도 분포에 대한 통계 정보란 'happy'라는 단어를 다수의 외국인들이 발음하는 경우 각 음소별 로그 우도값에 대한 분포 정보이다.Statistical information on the log-likelihood distribution of foreigners for the word 'happy' is distribution information on the log-likelihood value for each phoneme when a large number of foreigners pronounce the word 'happy'.

즉, 상기 'happy'라는 단어를 다수의 외국인이 발음하는 경우 각 음소별 로그 우도값에 대한 분포 정보는 'happy'라는 단어를 다수의 외국인들이 발음하는 경우, 0 ~ 10ms(1구간)에 h 음소에 대한 로그 우도 분포, 10 ~ 20ms(2구간)에 h 음소에 대한 로그 우도 분포, 20 ~ 30ms(3구간)에 æ 음소에 대한 로그 우도 분포, 30 ~ 40ms(4구간)에 æ 음소에 대한 로그 우도 분포, 40 ~ 50ms(5구간)에 p 음소에 대한 로그 우도 분포, 50 ~ 60ms(6구간)에 p 음소에 대한 로그 우도 분포, 60 ~ 70ms(7구간)에 iy 음소에 대한 로그 우도 분포, 70 ~ 80ms(8구간)에 iy 음소에 대한 로그 우도 분포, 80 ~ 90ms(9구간)에 iy 음소에 대한 로그 우도 분포를 포함하는 정보이다.That is, when the word 'happy' is pronounced by a large number of foreigners, distribution information on the log likelihood value for each phoneme is 0 to 10 ms (1 section) when the word 'happy' is pronounced by a large number of foreigners. Log-likelihood distribution for phonemes, log-likelihood distribution for phonemes h from 10 to 20 ms (2 divisions), log-likelihood distribution for phonemes from 20 to 30 ms (3 divisions), æ phonemes from 30 to 40 ms (4 divisions) log-likelihood distribution for the p-phone at 40-50 ms (5 divisions), log-likelihood distribution for the p-phone at 50-60 ms (6 divisions), and log-likelihood distribution for the i-phoneme at 60 to 70 ms (7 divisions) This is information including the likelihood distribution, the log likelihood distribution for the iy phoneme in 70 to 80 ms (8 sections), and the log likelihood distribution for the iy phoneme in 80 to 90 ms (9 sections).

따라서, 시간 구간 30 ~ 40ms(4구간)의 음소 æ에 대해 외국인 로그 우도 분포를 이용해

Figure 112021015272813-pat00008
,
Figure 112021015272813-pat00009
,
Figure 112021015272813-pat00010
구하고,
Figure 112021015272813-pat00011
,
Figure 112021015272813-pat00012
,
Figure 112021015272813-pat00013
를 상기 수학식 2에 대입해 시간 구간 30 ~ 40ms(4구간)의 음소 æ의 조정점수 41을 산출하게 되는 것이다.Therefore, using the foreign log-likelihood distribution for the phoneme æ of the time interval 30 ~ 40ms (4 divisions),
Figure 112021015272813-pat00008
,
Figure 112021015272813-pat00009
,
Figure 112021015272813-pat00010
save,
Figure 112021015272813-pat00011
,
Figure 112021015272813-pat00012
,
Figure 112021015272813-pat00013
By substituting Equation 2 into Equation 2 above, an adjustment score 41 of the phoneme æ in the time interval of 30 to 40 ms (4 sections) is calculated.

상기

Figure 112021015272813-pat00014
은 시간 구간 30 ~ 40ms(4구간)의 음소 æ의 외국인 로그 우도 분포 중 하위로부터 25%에 위치한 로그 우도 값이고,
Figure 112021015272813-pat00015
는 30 ~ 40ms(4구간)의 음소 æ의 외국인 로그 우도 분포 중 하위로부터 75%에 위치한 로그 우도 값이고,
Figure 112021015272813-pat00016
은 30 ~ 40ms(4구간)의 음소 æ의 외국인 로그 우도 분포 중 최하위에 위치한 로그 우도 값이다.remind
Figure 112021015272813-pat00014
is the log-likelihood value located at 25% from the lower part of the foreign log-likelihood distribution of the phoneme æ in the time interval of 30 to 40 ms (4 divisions),
Figure 112021015272813-pat00015
is a log-likelihood value located at 75% from the lower part of the foreign log-likelihood distribution of the phoneme æ of 30 to 40 ms (4 sections),
Figure 112021015272813-pat00016
is the lowest log-likelihood value among the foreign log-likelihood distributions of the phoneme æ of 30 to 40 ms (4 sections).

상술한 바와 같이, 원어민의 로그 우도가 반영된 조정 점수를 산출하는 상기 수학식 2가 본 발명의 핵심적 특징 중 하나이다.As described above, Equation 2, which calculates an adjustment score reflecting the log likelihood of a native speaker, is one of the key features of the present invention.

이때, 계산된 조정점수가 0 미만인 경우는 조정점수를 0으로, 계산된 조정점수가 100을 초과하는 경우는 조정점수를 100으로 하는 것을 특징으로 한다.In this case, when the calculated adjustment point is less than 0, the adjustment point is set to 0, and when the calculated adjustment point exceeds 100, the adjustment point is set to 100.

이는 0점 ~ 100점 점수로 환산되는 방식이기 때문에 조정점수가 0 미만일 경우에 0으로 조정해야 하는 것이고, 100을 초과할 경우에는 100으로 조정해야 하는 것이다.Since this is a method that is converted into scores from 0 to 100, when the adjusted score is less than 0, it must be adjusted to 0, and when it exceeds 100, it must be adjusted to 100.

예를 들어, 도 5에서 5구간 내지 8구간의 경우가 100을 초과하는 구간이기 때문에 100으로 조정점수를 반영한 것이다.For example, in the case of sections 5 to 8 in FIG. 5, since the section exceeds 100, the adjustment score is reflected as 100.

이후, 도 5에 도시한 바와 같이, 산출된 시간 구간별 조정점수를 평균 처리하여 음소별 정확성 평가 점수를 산출하게 된다.Thereafter, as shown in FIG. 5 , the accuracy evaluation score for each phoneme is calculated by averaging the calculated adjustment points for each time section.

예를 들어, 1구간 조정점수 - 96점, 2구간 조정점수 - 86점, 3구간 조정점수 - 100점, 4구간 조정점수 - 41점, 5구간 조정점수 - 100점, 6구간 조정점수 - 100점, 7구간 조정점수 - 100점, 8구간 조정점수 - 100점, 9구간 조정점수 - 79점으로 산출되었다면, h 음소의 정확성 평균 점수 - 91점, æ 음소의 정확성 평균 점수 - 71점, p 음소의 정확성 평균 점수 - 100점, iy 음소의 정확성 평균 점수 - 93점으로 산출하게 된다.For example, adjustment point for 1 section - 96 points, 2 section adjustment point - 86 points, 3 section adjustment point - 100 points, 4 section adjustment point - 41 points, 5 section adjustment point - 100 points, 6 section adjustment point - 100 If it is calculated as points, 7-section adjustment score - 100 points, 8-section adjustment point - 100 points, 9 division adjustment points - 79 points, then the average accuracy score of h phoneme - 91 points, æ phoneme accuracy average score - 71 points, p The average score for phoneme accuracy - 100 points, and the average accuracy score for iy phonemes - 93 points.

그리고, 산출된 음소별 정확성 평가 점수를 평균 처리하여 음절별 정확성 평가 점수를 산출하게 된다.Then, the accuracy evaluation score for each syllable is calculated by averaging the calculated accuracy evaluation score for each phoneme.

예를 들어, 도 5에 도시된 바와 같이, 'happy'라는 단어의 'ha' 음절의 정확성 평균 점수는 81점, 'ppy' 음절의 정확성 평균 점수는 96.5점로 산출하게 된다.For example, as shown in FIG. 5 , the average accuracy score of the syllable 'ha' of the word 'happy' is 81 points, and the average accuracy score of the syllable 'ppy' is 96.5 points.

그리고 산출된 음절별 정확성 평가 점수를 평균 처리하여 단어에 대한 정확성 평가 점수를 산출하게 된다. Then, the accuracy evaluation score for the word is calculated by averaging the calculated accuracy evaluation score for each syllable.

예를 들어, 도 5에 도시된 바와 같이, 'happy'라는 단어의 정확성 평균 점수는 88.75점가 되는 것이다.For example, as shown in FIG. 5 , the average accuracy score of the word 'happy' is 88.75 points.

또한, 정확성 평가 점수가 설정치 이하인 음절에 특정 색을 매핑 처리한다. In addition, a specific color is mapped to a syllable whose accuracy evaluation score is less than or equal to a set value.

예를 들어, 'happy'라는 단어의 음절 중 'ha'라 음절의 평가점수가 설정치 이하인 경우 도 5와 같이, 'happy'라는 단어의 'ha' 부분에 특정 색(예시에서는 노란색으로 표시함)을 매핑 처리하는 것이다.For example, when the evaluation score of the syllable 'ha' among the syllables of the word 'happy' is less than or equal to the set value, as shown in FIG. 5, the 'ha' part of the word 'happy' has a specific color (in this example, it is displayed in yellow) is to process the mapping.

그리고, 단어에 대한 평가 점수(음소, 음절, 단어 평가 점수)와 특정 색이 매핑된 음절 정보를 포함하는 단어별 평가결과 정보를 생성한다.Then, evaluation result information for each word including evaluation score (phoneme, syllable, word evaluation score) for the word and syllable information to which a specific color is mapped is generated.

이후, 상기 단어별 평가결과 정보는 평가정보 제공부(330)로 제공되어 발음 평가 결과정보 생성의 기초 자료로 활용되는데, 후술하겠지만 평가정보 제공부(330)가 생성하는 발음 평가 결과정보는 외국어 초보 학습자가 현재 자신이 발음할 수 없는 단어에 대해 현재 자신의 발음 실력으로 해당 단어를 발음하는 경우 발음되는 예측 발음을 확인하고, 예측 발음에 대한 평가 점수(해당 단어의 음소, 음절, 단어에 대한 평가 점수)를 확인할 수 있도록 하는 것이다.Thereafter, the evaluation result information for each word is provided to the evaluation information providing unit 330 and used as basic data for generating pronunciation evaluation result information. As will be described later, the pronunciation evaluation result information generated by the evaluation information providing unit 330 is used for beginners in foreign languages. When a learner pronounces a word with his or her current pronunciation skills for a word that he or she cannot pronounce at present, the predicted pronunciation is checked, and the evaluation score for the predicted pronunciation (evaluation of the phoneme, syllable, and word of the word) score) to check.

상기 평가정보 제공부(330)는 발음 평가부(320)가 제공하는 단어별 평가결과 정보(단어마다 평가 점수(음소, 음절, 단어 평가 점수)와 특정 색이 매칭된 정보)를 이용해 학습자의 외국어 합성음성 데이터에 대한 텍스트 기반의 발음 평가 결과정보를 생성한다.The evaluation information providing unit 330 uses the evaluation result information for each word provided by the pronunciation evaluation unit 320 (information in which evaluation scores (phonemes, syllables, word evaluation scores) and specific colors are matched for each word) of the learner’s foreign language Generates text-based pronunciation evaluation result information for synthesized speech data.

상기 텍스트 기반의 발음 평가 결과정보는,The text-based pronunciation evaluation result information,

단어별로 음소 평가 점수, 음절 평가 점수, 단어 평가 점수가 표시되고,Phoneme evaluation score, syllable evaluation score, and word evaluation score are displayed for each word,

정확성 평가 점수가 설정치 이하인 음절이 특정 색으로 표시되고,Syllables whose accuracy evaluation score is less than or equal to the set value are displayed in a specific color,

학습자가 특정 단어 선택 시, 선택된 단어에 대한 학습자 음성의 발음과 원어민 음성의 표준 발음이 순차적으로 출력되도록 하는 정보인 것을 특징으로 한다.When the learner selects a specific word, it is characterized in that it is information that sequentially outputs the pronunciation of the learner's voice for the selected word and the standard pronunciation of the native speaker's voice.

즉, 평가정보 제공부(330)는 상기 발음 평가부(320)가 생성한 단어별 평가결과 정보(단어마다 평가 점수(음소, 음절, 단어 평가 점수)와 특정 색이 매칭된 정보)를 이용해 학습자의 외국어 합성음성 데이터에 대한 텍스트 기반의 발음 평가 결과정보를 생성하게 되는 것이며, 생성된 텍스트 기반의 발음 평가 결과정보를 학습자 단말기(100)로 제공하게 되는 것이다.That is, the evaluation information providing unit 330 uses the evaluation result information for each word generated by the pronunciation evaluation unit 320 (information in which evaluation scores (phonemes, syllables, and word evaluation scores) for each word are matched with a specific color). Text-based pronunciation evaluation result information for foreign language synthesized speech data is generated, and the generated text-based pronunciation evaluation result information is provided to the learner terminal 100 .

이때, 상기 텍스트 기반의 발음 평가 결과정보는,In this case, the text-based pronunciation evaluation result information is

단어별로 음소 평가 점수, 음절 평가 점수, 단어 평가 점수가 표시되고,Phoneme evaluation score, syllable evaluation score, and word evaluation score are displayed for each word,

정확성 평가 점수가 설정치 이하인 음절이 특정 색으로 표시되고,Syllables whose accuracy evaluation score is less than or equal to the set value are displayed in a specific color,

학습자가 특정 단어 선택 시, 선택된 단어에 대한 학습자 음성의 발음과 원어민 음성의 표준 발음이 순차적으로 출력되도록 하는 정보인 것을 특징으로 한다.When the learner selects a specific word, it is characterized in that it is information that sequentially outputs the pronunciation of the learner's voice for the selected word and the standard pronunciation of the native speaker's voice.

발음평가용 외국어 텍스트는 장문의 텍스트로서 수 많은(많게는 수백개) 단어들을 포함하고 있는데, 평가정보 제공부(330)는 발음 평가부(320)가 제공하는 단어별 평가결과 정보(단어마다 평가 점수(음소, 음절, 단어 평가 점수)와 특정 색이 매칭된 정보)를 이용해 장문의 발음평가용 외국어 텍스트에 포함된 단어마다 발음 정확성 평가 결과를 매칭시킨 텍스트 기반의 발음 평가 결과정보를 생성하여 학습자 단말기(100)로 제공하게 된다.The foreign language text for pronunciation evaluation is a long text and contains many (at most hundreds) words. The evaluation information providing unit 330 provides evaluation result information for each word (evaluation score for each word) provided by the pronunciation evaluation unit 320 . Using (phoneme, syllable, word evaluation score) and specific color matching information), it creates text-based pronunciation evaluation result information that matches the pronunciation accuracy evaluation result for each word included in the foreign language text for pronunciation evaluation of long sentences. (100) will be provided.

예를 들어, 장문의 발음평가용 외국어 텍스트에 포함된 수 많은 단어 중 하나가 'hayyp' 인 경우, 텍스트 기반의 발음 평가 결과정보에는 'hayyp'를 구성하는 음소들의 평가 점수인 91, 71, 100, 93 이 음소별로 표시되고, 'hayyp'를 구성하는 음절들의 평가 점수인 81, 96.5가 음절별로 표시되고, 'hayyp'란 단어의 단어 평가 점수 88.75가 표시된다.For example, if one of a number of words included in a long foreign language text for pronunciation evaluation is 'hayyp', the text-based pronunciation evaluation result information includes evaluation scores of phonemes constituting 'hayyp' of 91, 71, and 100. , 93 are displayed for each phoneme, 81 and 96.5, which are evaluation scores of syllables constituting 'hayyp', are displayed for each syllable, and a word evaluation score of 88.75 for the word 'hayyp' is displayed.

특히, 텍스트 기반의 발음 평가 결과정보에는 정확성 평가 점수가 설정치 이하인 음절에는 특정 색이 매칭 표시된다. 예를 들어, 'happy'라는 단어의 음절 중 'ha'라는 음절의 평가점수가 설정치 이하인 경우, 도 5와 같이 'happy'라는 단어의 'ha' 부분에 특정 색(노란색)이 매칭 표시되는 것이다.In particular, in the text-based pronunciation evaluation result information, a specific color is matched and displayed for syllables whose accuracy evaluation score is less than or equal to a set value. For example, if the evaluation score of the syllable 'ha' among the syllables of the word 'happy' is less than or equal to the set value, a specific color (yellow) is displayed matching the 'ha' part of the word 'happy' as shown in FIG. .

따라서, 초보 학습자가 'happy'라는 단어에 대한 자신의 발음에 대한 평가 점수와 특정 색이 매칭된 음절 정보를 확인할 수 있기 때문에 추후 상기 'happy'라는 단어를 발음하게 될 경우 'ha' 부분에 신경써서 발음할 수 있도록 학습하게 되는 것이다.Therefore, since the novice learner can check the evaluation score for their pronunciation of the word 'happy' and the syllable information that is matched with a specific color, if the word 'happy' is pronounced later, care about the 'ha' part You will learn to write and pronounce.

또한, 텍스트 기반의 발음 평가 결과정보는 학습자가 텍스트 기반의 발음 평가 결과정보의 특정 단어 선택 시, 선택된 단어에 대한 학습자 음성의 발음과 원어민 음성의 표준 발음이 순차적으로 출력되도록 한다.In addition, the text-based pronunciation evaluation result information allows the learner to sequentially output the pronunciation of the learner's voice for the selected word and the standard pronunciation of the native speaker's voice when the learner selects a specific word in the text-based pronunciation evaluation result information.

즉, 텍스트 기반의 발음 평가 결과정보속 'happy'라는 단어를 초보 학습자가 선택하는 경우, 'happy'라는 단어에 대한 학습자 자신의 발음과 원어민 음성의 표준 발음을 순차적으로 출력되도록 하여 초보 학습자가 해당 단어에 대한 자신의 발음과 표준 원어민 발음을 비교 학습 할 수 있도록 하는 것이다.That is, when a novice learner selects the word 'happy' in the text-based pronunciation evaluation result information, the learner's own pronunciation for the word 'happy' and the standard pronunciation of the native speaker's voice are sequentially output, so that the novice learner can respond accordingly. It is to allow students to compare their pronunciation of words with the pronunciation of standard native speakers.

이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형 실시가 가능한 것은 물론이고, 이러한 변형 실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.In the above, preferred embodiments of the present invention have been illustrated and described, but the present invention is not limited to the specific embodiments described above, and it is common in the technical field to which the present invention pertains without departing from the gist of the present invention as claimed in the claims. Various modifications may be made by those having the knowledge of, of course, and these modifications should not be individually understood from the technical spirit or perspective of the present invention.

100 : 학습자 단말기
200 : 음성 합성 수단
300 : 발음 평가 수단
100: learner terminal
200: speech synthesis means
300: pronunciation evaluation means

Claims (10)

외국어 초보 학습자를 위한 발음 예측 및 평가시스템에 있어서,

음성 합성 수단(200)으로 학습자의 외국어 기초 음성 데이터와 발음평가용 외국어 텍스트 정보를 제공하고, 발음 평가 수단(300)으로부터 발음 평가 결과정보를 제공받는 학습자 단말기(100)와:
제공된 학습자의 외국어 기초 음성 데이터와 발음평가용 외국어 텍스트 정보를 이용하여 발음평가용 외국어 텍스트에 대한 학습자의 외국어 합성음성 데이터를 생성하고, 생성된 학습자의 외국어 합성음성 데이터와 발음평가용 외국어 텍스트 정보를 발음 평가용으로 발음 평가 수단(300)으로 제공하는 음성 합성 수단(200)과;
제공된 발음평가용 외국어 텍스트 정보와 발음평가용 외국어 텍스트에 대한 학습자의 외국어 합성음성 데이터를 이용해 학습자의 외국어 발음 평가를 수행하고, 발음 평가 결과정보를 학습자 단말기(100)로 제공하는 발음 평가 수단(300)을 포함하도록 구성되되,

상기 발음 평가 수단(300)은,
음성 합성 수단(200)으로부터 발음평가용 외국어 텍스트 정보와 발음평가용 외국어 텍스트에 대한 학습자의 외국어 합성음성 데이터를 입력받는 평가정보 수집부(310)와,
입력된 발음평가용 외국어 텍스트 정보와 학습자의 외국어 합성음성 데이터를 이용해 발음평가용 외국어 텍스트에 포함된 단어들에 대한 학습자 발음의 정확성 평가를 수행하는 발음 평가부(320)와;
발음 평가 결과정보를 생성하여 학습자 단말기(100)로 제공하는 평가정보 제공부(330)를 포함하고,

상기 발음 평가부(320)는,
단어에 대한 학습자 발음의 음성신호를 일정 시간 구간으로 나누고, 시간 구간별 특징 벡터를 추출하고,
단어에 대한 학습자 발음의 음소들을 상기 일정 시간 구간별로 강제 정렬하고,
상기 시간 구간별 특징 벡터와 시간 구간별로 강제 정렬된 음소들을 이용하여 시간 구간별 로그 우도를 계산하고,
시간 구간별 로그 우도를 시간 구간별 조정점수로 변환하고,
시간 구간별 조정점수를 평균 처리하여 음소별 정확성 평가 점수를 산출하고,
산출된 음소별 정확성 평가 점수를 평균 처리하여 음절별 정확성 평가 점수를 산출하고,
산출된 음절별 정확성 평가 점수를 평균 처리하여 단어에 대한 정확성 평가 점수를 산출하고,
정확성 평가 점수가 설정치 이하인 음절에 특정 색을 매칭 처리하여,
단어마다 평가 점수(음소, 음절, 단어 평가 점수)와 특정 색이 매칭된 단어별 평가결과 정보를 생성하는 것을 특징으로 하는 외국어 초보 학습자를 위한 발음 예측 및 평가시스템.
In the pronunciation prediction and evaluation system for beginner foreign language learners,

A learner terminal 100 that provides the learner's basic foreign language voice data and foreign language text information for pronunciation evaluation to the voice synthesis means 200 and receives pronunciation evaluation result information from the pronunciation evaluation means 300;
Using the provided learner's foreign language basic voice data and foreign language text information for pronunciation evaluation, the learner's foreign language synthesized voice data for the foreign language text for pronunciation evaluation is generated, and the generated learner's foreign language synthesized voice data and foreign language text information for pronunciation evaluation are generated. a speech synthesis means 200 for providing pronunciation evaluation means 300 for pronunciation evaluation;
Pronunciation evaluation means (300) that evaluates the learner's foreign language pronunciation using the provided foreign language text information for pronunciation evaluation and the learner's foreign language synthesized speech data for the foreign language text for pronunciation evaluation, and provides pronunciation evaluation result information to the learner terminal 100 ) is configured to include,

The pronunciation evaluation means 300,
an evaluation information collecting unit 310 that receives foreign language text information for pronunciation evaluation and foreign language synthesized speech data of the learner for the foreign language text for pronunciation evaluation from the speech synthesis means 200;
a pronunciation evaluation unit 320 that evaluates the accuracy of the learner's pronunciation of words included in the foreign language text for pronunciation evaluation by using the input foreign language text information for pronunciation evaluation and the learner's foreign language synthesized speech data;
and an evaluation information providing unit 330 that generates pronunciation evaluation result information and provides it to the learner terminal 100,

The pronunciation evaluation unit 320,
Divide the voice signal of the learner's pronunciation for a word into a certain time section, extract a feature vector for each time section,
Forcibly sorting the phonemes of the learner's pronunciation of the word by the predetermined time interval,
Calculate the log likelihood for each time section using the feature vector for each time section and the phonemes forcibly sorted for each time section,
Convert the log likelihood for each time section into an adjustment score for each time section,
Calculate the accuracy evaluation score for each phoneme by averaging the adjustment score for each time section,
Calculate the accuracy evaluation score for each syllable by averaging the calculated accuracy evaluation score for each phoneme,
Calculate the accuracy evaluation score for the word by averaging the calculated accuracy evaluation score for each syllable,
By matching a specific color to a syllable whose accuracy evaluation score is below the set value,
Pronunciation prediction and evaluation system for novice foreign language learners, characterized in that the evaluation score (phoneme, syllable, word evaluation score) for each word and evaluation result information for each word matched with a specific color are generated.
제 1항에 있어서,
음성 합성 수단(200)으로 제공되는 발음평가용 외국어 텍스트 정보는 학습자 단말기(100) 대신, 발음 평가 수단(300)이 제공할 수 있는 것을 특징으로 하는 외국어 초보 학습자를 위한 발음 예측 및 평가시스템.
The method of claim 1,
The foreign language text information for pronunciation evaluation provided by the speech synthesis means 200 may be provided by the pronunciation evaluation means 300 instead of the learner terminal 100. Pronunciation prediction and evaluation system for a beginner foreign language learner.
제 1항에 있어서,
상기 학습자 단말기(100)가 음성 합성 수단(200)으로 제공하는 학습자의 외국어 기초 음성 데이터는 음성 합성 수단(200)이 해당 학습자의 음성 합성 모델을 생성하기 위한 기초 자료로서, 음성 합성 수단(200)이 제공한 단문 스크립트를 학습자가 낭독 발음한 데이터이고,
음성 합성 수단(200)으로 제공되는 발음평가용 외국어 텍스트 정보는 학습자의 외국어 발음을 평가하기 위한 평가 대상 텍스트 자료로서, 학습자가 외국어로 낭독이 어려운 단어들이 포함된 장문의 외국어 텍스트인 것을 특징으로 하는 외국어 초보 학습자를 위한 발음 예측 및 평가시스템.
The method of claim 1,
The learner's foreign language basic speech data provided by the learner terminal 100 to the speech synthesis means 200 is the basic data for the speech synthesis means 200 to generate the learner's speech synthesis model, and the speech synthesis means 200 This is the data that the learner reads and pronounces the provided short script,
The foreign language text information for pronunciation evaluation provided by the speech synthesis means 200 is an evaluation target text material for evaluating the learner's foreign language pronunciation, characterized in that it is a long foreign language text containing words that are difficult for the learner to read in a foreign language. Pronunciation prediction and evaluation system for beginner foreign language learners.
제 1항에 있어서,
상기 음성 합성 수단(200)은,
생성된 학습자의 외국어 합성음성 데이터를 학습자 단말기(100)로 제공하여, 학습자가 발음평가용 외국어 텍스트에 대한 자신의 예측 발음을 확인할 수 있도록 하는 것을 특징으로 하는 외국어 초보 학습자를 위한 발음 예측 및 평가시스템.
The method of claim 1,
The speech synthesis means 200,
Pronunciation prediction and evaluation system for novice foreign language learners, characterized in that the generated learner's foreign language synthesized speech data is provided to the learner terminal 100 so that the learner can check their predicted pronunciation for the foreign language text for pronunciation evaluation .
제 1항에 있어서,
상기 음성 합성 수단(200)은,
학습자 단말기(100)로 단문 스크립트를 제공하고, 학습자 단말기(100)로부터 학습자의 외국어 기초 음성 데이터와 발음평가용 외국어 텍스트 정보를 입력받는 정보 수집부(210)와,
학습자 단말기(100)로 제공한 단문 스크립트와 학습자 단말기(100)가 제공한 학습자의 외국어 기초 음성 데이터를 이용해 학습자의 외국어 음성 합성 모델을 생성하고, 생성된 학습자의 외국어 음성 합성 모델을 음성합성부(230)로 제공하는 학습자 음성모델 생성부(220)와,
학습자 음성모델 생성부(220)가 제공한 학습자의 외국어 음성 합성 모델과 제공된 발음평가용 외국어 텍스트 정보를 이용해 발음평가용 외국어 텍스트에 대한 학습자의 외국어 합성음성 데이터를 생성하는 음성 합성부(230)와,
음성 합성부(230)가 생성한 학습자의 외국어 합성음성 데이터와 제공된 발음평가용 외국어 텍스트 정보를 학습자의 발음 평가를 위해, 발음 평가 수단(300)으로 제공하는 평가정보 제공부(240)를 포함하는 것을 특징으로 하는 외국어 초보 학습자를 위한 발음 예측 및 평가시스템.
The method of claim 1,
The speech synthesis means 200,
An information collecting unit 210 that provides a short script to the learner terminal 100 and receives the learner's basic foreign language voice data and foreign language text information for pronunciation evaluation from the learner terminal 100;
The learner's foreign language speech synthesis model is generated using the short script provided by the learner terminal 100 and the learner's foreign language basic speech data provided by the learner terminal 100, and the created learner's foreign language speech synthesis model is converted into a speech synthesis unit ( 230) and the learner voice model generation unit 220 provided by;
A speech synthesis unit 230 for generating the learner's foreign language synthesized speech data for the foreign language text for pronunciation evaluation by using the learner's foreign language speech synthesis model provided by the learner's speech model generating unit 220 and the provided foreign language text information for pronunciation evaluation; ,
and an evaluation information providing unit 240 that provides the learner's foreign language synthesized speech data generated by the speech synthesis unit 230 and the provided foreign language text information for pronunciation evaluation to the pronunciation evaluation means 300 for the pronunciation evaluation of the learner Pronunciation prediction and evaluation system for foreign language beginners, characterized in that.
제 5항에 있어서,
상기 학습자 음성모델 생성부(220)는,
각종 외국어별 표준 원어민 음성 합성 모델들이 저장된 음성 합성 모델 DB(221)와,
학습자 단말기(100)로 제공한 단문 스크립트를 이용해 외국어의 종류를 파악하고, 파악된 외국어 종류에 해당하는 표준 원어민 음성 합성 모델을 음성 합성 모델 DB(221)로부터 추출하는 표준 음성 합성 모델 추출부(222)와,
표준 음성 합성 모델 추출부(222)가 추출한 표준 원어민 음성 합성 모델에 상기 단문 스크립트와 학습자의 외국어 기초 음성 데이터를 입력값으로 입력하여 추출한 표준 원어민 음성 합성 모델이 학습자의 발음에 적응 학습하도록 하고, 적응 학습의 결과로 학습자의 발음 특성에 적응 학습된 표준 원어민 음성 합성 모델인 학습자 음성 합성 모델을 생성하고, 생성된 학습자 음성 합성 모델을 음성 합성부(230)로 제공하는 학습자 음성 적응 학습부(223)를 포함하는 것을 특징으로 하는 외국어 초보 학습자를 위한 발음 예측 및 평가시스템.
6. The method of claim 5,
The learner voice model generation unit 220,
A speech synthesis model DB 221 in which standard native speaker speech synthesis models for each foreign language are stored;
The standard speech synthesis model extraction unit 222 that identifies the type of foreign language using the short script provided to the learner terminal 100 and extracts the standard native speaker speech synthesis model corresponding to the identified foreign language type from the speech synthesis model DB 221 . )Wow,
The standard native speaker's speech synthesis model extracted by the standard speech synthesis model extraction unit 222 inputs the short script and the learner's foreign language basic speech data as input values, and the extracted standard native speaker's speech synthesis model adapts to the learner's pronunciation and learns to adapt. As a result of learning, the learner's voice adaptation learning unit 223 generates a learner's speech synthesis model, which is a standard native speaker's speech synthesis model adaptively learned to the learner's pronunciation characteristics, and provides the created learner's speech synthesis model to the speech synthesis unit 230 . Pronunciation prediction and evaluation system for beginner foreign language learners, characterized in that it comprises a.
삭제delete 삭제delete 제 1항에 있어서,
상기 시간 구간별 로그 우도는 하기 수학식 1에 의해 계산되고, 상기 시간 구간별 조정점수는 하기 수학식 2에 의해 계산되되,
계산된 조정점수가 0 미만인 경우는 조정점수를 0으로, 계산된 조정점수가 100을 초과하는 경우는 조정점수를 100으로 하는 것을 특징으로 하는 외국어 초보 학습자를 위한 발음 예측 및 평가시스템.
수학식 1 :
Figure 112021048052264-pat00017
,
수학식 2 :
Figure 112021048052264-pat00018
,
Figure 112021048052264-pat00019

(oi 는 i번째 시간구간의 특징 벡터, qi는 강제 정렬된 i번째 시간구간의 음소,
Figure 112021048052264-pat00020
는 i번째 시간구간에서 oi 가 qi 에서 나올 확률,
Figure 112021048052264-pat00021
은 i번째 시간구간의 음소의 원어민 로그우도 분포 중 하위로부터 25%에 위치한 로그 우도 값,
Figure 112021048052264-pat00022
는 i번째 시간구간의 음소의 원어민 로그우도 분포 중 하위로부터 75%에 위치한 로그 우도 값,
Figure 112021048052264-pat00023
은 i번째 시간구간의 음소의 원어민 로그우도 분포 중 최하위에 위치한 로그 우도 값, C 는 임의 조절 파라미터 값)
The method of claim 1,
The log likelihood for each time section is calculated by Equation 1 below, and the adjustment score for each time section is calculated by Equation 2 below,
Pronunciation prediction and evaluation system for beginner foreign language learners, characterized in that when the calculated adjustment point is less than 0, the adjustment point is 0, and when the calculated adjustment point exceeds 100, the adjustment point is 100.
Equation 1:
Figure 112021048052264-pat00017
,
Equation 2:
Figure 112021048052264-pat00018
,
Figure 112021048052264-pat00019

(o i is the feature vector of the i-th time interval, q i is the phoneme of the i-th time interval that is forcedly ordered,
Figure 112021048052264-pat00020
is the probability that o i comes from q i in the i-th time interval,
Figure 112021048052264-pat00021
is the log-likelihood value located at 25% from the bottom of the native-speaker log-likelihood distribution of the phoneme in the i-th time interval,
Figure 112021048052264-pat00022
is the log-likelihood value located at 75% from the bottom of the native-speaker log-likelihood distribution of the phoneme in the i-th time interval,
Figure 112021048052264-pat00023
is the lowest log-likelihood value of the native speaker log-likelihood distribution of the phoneme in the i-th time interval, and C is the value of the arbitrary adjustment parameter)
제 1항에 있어서,
상기 평가정보 제공부(330)는,
발음 평가부(320)가 생성한 단어별 평가결과 정보(단어마다 평가 점수(음소, 음절, 단어 평가 점수)와 특정 색이 매칭된 정보)를 이용해 학습자의 외국어 합성음성 데이터에 대한 텍스트 기반의 발음 평가 결과정보를 생성하되,

상기 텍스트 기반의 발음 평가 결과정보는,
단어별로 음소 평가 점수, 음절 평가 점수, 단어 평가 점수가 표시되고,
정확성 평가 점수가 설정치 이하인 음절이 특정 색으로 표시되고,
학습자가 특정 단어 선택 시, 선택된 단어에 대한 학습자 음성의 발음과 원어민 음성의 표준 발음이 순차적으로 출력되도록 하는 정보인 것을 특징으로 하는 외국어 초보 학습자를 위한 발음 예측 및 평가시스템.

The method of claim 1,
The evaluation information providing unit 330,
Text-based pronunciation of the learner's foreign language synthesized speech data using the evaluation result information for each word generated by the pronunciation evaluation unit 320 (information that the evaluation score (phoneme, syllable, word evaluation score) for each word is matched with a specific color) Create evaluation result information,

The text-based pronunciation evaluation result information,
Phoneme evaluation score, syllable evaluation score, and word evaluation score are displayed for each word,
Syllables whose accuracy evaluation score is less than or equal to the set value are displayed in a specific color,
Pronunciation prediction and evaluation system for novice foreign language learners, characterized in that when the learner selects a specific word, the pronunciation of the learner's voice for the selected word and the standard pronunciation of the native speaker's voice are sequentially output.

KR1020210016884A 2021-02-05 2021-02-05 Pronunciation prediction and evaluation system for beginner foreign language learners KR102274766B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210016884A KR102274766B1 (en) 2021-02-05 2021-02-05 Pronunciation prediction and evaluation system for beginner foreign language learners

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210016884A KR102274766B1 (en) 2021-02-05 2021-02-05 Pronunciation prediction and evaluation system for beginner foreign language learners

Publications (1)

Publication Number Publication Date
KR102274766B1 true KR102274766B1 (en) 2021-07-08

Family

ID=76893218

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210016884A KR102274766B1 (en) 2021-02-05 2021-02-05 Pronunciation prediction and evaluation system for beginner foreign language learners

Country Status (1)

Country Link
KR (1) KR102274766B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230024089A (en) * 2021-08-11 2023-02-20 한국과학기술원 Method and system for English conversation skill analysis using dialogue transcript

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100733469B1 (en) 2004-01-08 2007-06-29 정보통신연구진흥원 Pronunciation Test System and Method of Foreign Language
KR20190085882A (en) * 2018-01-11 2019-07-19 네오사피엔스 주식회사 Method and computer readable storage medium for performing text-to-speech synthesis using machine learning

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100733469B1 (en) 2004-01-08 2007-06-29 정보통신연구진흥원 Pronunciation Test System and Method of Foreign Language
KR20190085882A (en) * 2018-01-11 2019-07-19 네오사피엔스 주식회사 Method and computer readable storage medium for performing text-to-speech synthesis using machine learning

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230024089A (en) * 2021-08-11 2023-02-20 한국과학기술원 Method and system for English conversation skill analysis using dialogue transcript
KR102622067B1 (en) * 2021-08-11 2024-01-09 한국과학기술원 Method and system for English conversation skill analysis using dialogue transcript

Similar Documents

Publication Publication Date Title
US10319250B2 (en) Pronunciation guided by automatic speech recognition
US5857173A (en) Pronunciation measurement device and method
KR100733469B1 (en) Pronunciation Test System and Method of Foreign Language
US6366883B1 (en) Concatenation of speech segments by use of a speech synthesizer
Franco et al. The SRI EduSpeakTM system: Recognition and pronunciation scoring for language learning
Franco et al. EduSpeak®: A speech recognition and pronunciation scoring toolkit for computer-aided language learning applications
KR101609473B1 (en) System and method for automatic fluency evaluation of english speaking tests
Wang et al. Towards automatic assessment of spontaneous spoken English
KR20070098094A (en) An acoustic model adaptation method based on pronunciation variability analysis for foreign speech recognition and apparatus thereof
Tsubota et al. Practical use of English pronunciation system for Japanese students in the CALL classroom
KR101487005B1 (en) Learning method and learning apparatus of correction of pronunciation by input sentence
Qian et al. Bidirectional LSTM-RNN for Improving Automated Assessment of Non-Native Children's Speech.
US11935523B2 (en) Detection of correctness of pronunciation
Hirabayashi et al. Automatic evaluation of English pronunciation by Japanese speakers using various acoustic features and pattern recognition techniques.
Srikanth et al. Automatic pronunciation scoring and mispronunciation detection using CMUSphinx
KR102274766B1 (en) Pronunciation prediction and evaluation system for beginner foreign language learners
Kabashima et al. Dnn-based scoring of language learners’ proficiency using learners’ shadowings and native listeners’ responsive shadowings
KR101145440B1 (en) A method and system for estimating foreign language speaking using speech recognition technique
Al-Bakeri et al. ASR for Tajweed rules: integrated with self-learning environments
Nakagawa et al. A statistical method of evaluating pronunciation proficiency for English words spoken by Japanese
KR101487006B1 (en) Learning method and learning apparatus of correction of pronunciation for pronenciaion using linking
KR102274764B1 (en) User-defined pronunciation evaluation system for providing statistics information
KR101487007B1 (en) Learning method and learning apparatus of correction of pronunciation by pronunciation analysis
KR102274751B1 (en) User-defined pronunciation evaluation system for providing evaluation information
KR20090109501A (en) System and Method for Rhythm Training in Language Learning

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant