KR20190012419A - System and method for evaluating speech fluency automatically - Google Patents

System and method for evaluating speech fluency automatically Download PDF

Info

Publication number
KR20190012419A
KR20190012419A KR1020170095336A KR20170095336A KR20190012419A KR 20190012419 A KR20190012419 A KR 20190012419A KR 1020170095336 A KR1020170095336 A KR 1020170095336A KR 20170095336 A KR20170095336 A KR 20170095336A KR 20190012419 A KR20190012419 A KR 20190012419A
Authority
KR
South Korea
Prior art keywords
learner
utterance
signal
utterance signal
phoneme
Prior art date
Application number
KR1020170095336A
Other languages
Korean (ko)
Inventor
이윤경
박전규
이윤근
정호영
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020170095336A priority Critical patent/KR20190012419A/en
Publication of KR20190012419A publication Critical patent/KR20190012419A/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/06Foreign languages
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams

Abstract

According to the present invention, a system for automatically evaluating speech fluency includes: an utterance receiving module for receiving an utterance signal of a learner; a memory for storing a program for automatically evaluating the utterance fluency based on the learner′s utterance signal; and a processor for executing the program stored in the memory. The processor is configured to extract the learner′s utterance signal for a target sentence and a phoneme string of a reference utterance signal corresponding to the sentence when the learner′s utterance signal for the target sentence to be evaluated is received by executing the program, and extract loudness information for each vowel from the learner′s utterance signal and the reference utterance signal to calculate a loudness score for the learner′s utterance signal from the loudness information based on an automatic evaluation model learned in advance. The automatic evaluation model aligns the phoneme string of the learner′s utterance signal with the phoneme string of the reference utterance signal based on a dynamic time wrapping (DTW) technique, and detects a phoneme judged to be different from the reference speech signal, extracts the aligned phoneme string and the accent pattern reflecting the detected phoneme, and calculates the accent score thereof.

Description

발화 유창성 자동 평가 시스템 및 방법{SYSTEM AND METHOD FOR EVALUATING SPEECH FLUENCY AUTOMATICALLY}FIELD OF THE INVENTION [0001] The present invention relates to a system and method for automatically evaluating spoken fluency,

본 발명은 학습자의 발화의 유창성을 자동으로 평가하는 시스템 및 방법에 관한 것이다.The present invention relates to a system and method for automatically assessing the fluency of a learner's utterance.

제 2 외국어의 학습을 위해 많이 사용되는 방법 중 하나인 역할극(role-play) 학습이나 대화(dialog) 학습의 경우, 제시된 문장을 듣고 따라하는 방식으로 학습이 진행된다. In the case of role-play learning or dialog learning, which is one of the most used methods for learning a second foreign language, learning proceeds by listening and following the presented sentences.

그리고 각 문장에 대한 학습자의 발화가 끝난 후에는 발화한 문장의 인식 결과와 함께 발화 문장에 대한 강세, 억양, 발음 등과 같은 정보를 원어민의 발화와 비교하여 학습자에게 피드백으로 제공한다.Then, after the learner's utterance of each sentence is completed, the information such as the accent, intonation, and pronunciation of the utterance sentence, as well as the recognition result of the uttered sentence, are provided as feedback to the learner in comparison with the utterance of the native speaker.

그러나 학습자의 발음에 따라 원어민의 발화 음소와 다르게 인식된 음소가 존재할 수 있고, 이와 같은 경우에는 패턴 비교를 통한 강세 점수를 산출할 수 없다는 문제가 있다.However, there may be phonemes different from the spoken phonemes of the native speaker according to the pronunciation of the learner, and in such a case, there is a problem that the stress score can not be calculated through the pattern comparison.

또한, 리듬 정보 역시 학습자의 유창성 정도를 평가하는데 중요한 특징 중 하나임에도 불구하고, 이러한 리듬 정보가 활용되고 있지 않다는 문제가 있다.In addition, although the rhythm information is one of the important features for evaluating the degree of fluency of learners, there is a problem that such rhythm information is not utilized.

이와 관련하여, 한국공개특허공보 제10-2015-0015126호(발명의 명칭: 외국어 유창성 평가 시스템 및 방법)는 사용자에게 발음, 강세, 끊어 읽기 중 하나를 포함하는 단어 수준의 피드백을 제공하고, 이를 기반으로 유창성을 평가하여 제공함으로써 외국어 학습을 수행할 수 있도록 하는 기술을 개시하고 있다.In this regard, Korean Patent Laid-Open Publication No. 10-2015-0015126 (titled " foreign language fluency evaluation system and method ") provides word level feedback including one of pronunciation, Discloses a technology for allowing foreign language learning to be performed by evaluating and providing fluency based on the above-described information.

본 발명의 실시예는 제 2 외국어의 학습을 위해 사용되는 방법 중 하나인 역할극(role-play) 학습이나 대화(dialog) 학습을 통한 제 2 외국어의 말하기 학습을 진행함에 있어, 강세 점수와 리듬 점수를 DTW(Dynamic Time Wrapping)에 기초하여 산출함으로써 학습자가 발화한 문장의 음소열이 정답으로 제시된 문장의 음소열과 상이한 경우에도 말하기의 유창성을 자동으로 평가할 수 있는 시스템 및 방법을 제공한다.In the embodiment of the present invention, in performing speaking learning of a second foreign language through role-play learning or dialog learning, which is one method used for learning a second foreign language, Is calculated based on DTW (Dynamic Time Wrapping), thereby providing a system and a method that can automatically evaluate the fluency of speech even when the phoneme string of the sentence uttered by the learner is different from the phoneme string of the presented sentence correctly.

다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.It should be understood, however, that the technical scope of the present invention is not limited to the above-described technical problems, and other technical problems may exist.

상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 제 1 측면에 따른 발화의 유창성을 자동으로 평가하는 시스템은 학습자의 발화 신호를 수신하는 발화 수신 모듈, 상기 학습자의 발화 신호에 기초하여 발화의 유창성을 자동으로 평가하기 위한 프로그램이 저장된 메모리 및 상기 메모리에 저장된 프로그램을 실행시키는 프로세서를 포함하되, 상기 프로세서는 상기 프로그램을 실행시킴에 따라, 평가 대상인 문장에 대한 학습자의 발화 신호를 수신하면, 상기 학습자의 발화 신호 및 상기 문장에 대응하는 기준 발화 신호의 음소열을 추출하고, 상기 학습자의 발화 신호 및 기준 발화 신호로부터 각 모음에 대한 강세 정보를 추출한 뒤, 미리 학습된 자동 평가 모델에 기초하여 상기 강세 정보로부터 상기 학습자의 발화 신호에 대한 강세 점수를 산출한다. 이때, 상기 자동 평가 모델은 DTW(Dynamic Time Wrapping) 기법에 기초하여 상기 문장에 대한 학습자의 발화 신호의 음소열와 상기 기준 발화 신호의 음소열을 정렬하고, 상기 기준 발화 신호와 상이한 것으로 판단된 음소를 검출한 후, 상기 정렬된 음소열 및 검출된 음소를 반영한 강세 패턴을 추출하고, 이의 강세 점수를 산출한다.According to a first aspect of the present invention, there is provided a system for automatically evaluating fluency of utterance, comprising a utterance receiving module for receiving a utterance signal of a learner, And a processor for executing a program stored in the memory, wherein the processor, when receiving the learner's utterance signal for the sentence to be evaluated as the program is executed, Extracting the learner's utterance signal and the phoneme string of the reference utterance signal corresponding to the sentence, extracting the lecture information for each vowel from the learner's utterance signal and the reference utterance signal, From the loudness information, And calculates the score. In this case, the automatic evaluation model aligns the phoneme string of the learner's utterance signal with respect to the sentence and the phoneme string of the reference utterance signal based on a DTW (Dynamic Time Wrapping) technique, and generates a phoneme determined to be different from the reference utterance signal Extracts an accent pattern reflecting the aligned phonemes and the detected phonemes, and calculates the accent score thereof.

상기 프로세서는 상기 학습자의 발화 신호 및 기준 발화 신호로부터 에너지 크기, 음 높이, 음소 길이의 정보에 기초하여 상기 각 모음에 대한 강세 정보를 추출할 수 있다.The processor can extract the emphasis information for each vowel based on information of energy level, pitch height, and phoneme length from the learner's utterance signal and reference utterance signal.

상기 프로세서는 상기 정렬된 음소열 중 변경된 음소의 경우 기준 강세값 이외의 값을 부여하고, 상기 기준 강세값을 가지는 음소 및 상기 기준 강세값 이외의 값을 가지는 음소에 기초하여 상기 기준 발화 신호와 상이한 것으로 판단된 음소를 검출하며, 상기 검출된 음소에 대하여 음의 강세 점수를 부여하여 상기 강세 패턴에 대응하는 강세 점수를 산출할 수 있다.Wherein the processor assigns a value other than the reference stress value in the case of the phonemes that have been changed among the aligned phoneme strings and a value of the reference stress value that is different from the reference utterance value on the basis of the phoneme having the reference stress value and the phoneme having a value other than the reference stress value And a negative stress score is assigned to the detected phoneme to calculate a stress score corresponding to the stress pattern.

상기 강세 점수는 상기 문장을 단위로 하는 강세 점수 및 상기 문장에 포함된 단어를 단위로 하는 강세 점수를 포함할 수 있다.The accent score may include an accent score in units of the sentence and an accent score in units of words included in the sentence.

상기 프로세서는 상기 단어를 단위로 하는 강세 점수의 경우 내용어(content word)에 대한 패턴을 산출하고 이를 비교함에 따라 상기 강세 점수를 산출하고, 상기 문장을 단위로 하는 강세 점수의 경우 문장 전체의 강세 패턴 및 이의 강세 점수를 산출할 수 있다.The processor calculates the stress score by calculating a pattern for a content word in the case of an accent score in units of the word and comparing the patterns with each other and, in the case of the accent score using the sentence as a unit, Pattern and its accent score can be calculated.

상기 프로세서는 상기 문장의 시작 부분에 위치한 음소의 앞과 상기 문장의 끝 부분에 위치한 음소의 뒤에 각각 음소 기호를 추가하여 상기 문장의 시작과 끝을 확인할 수 있다.The processor can identify the beginning and end of the sentence by adding a phoneme symbol to each of the phonemes located at the beginning of the sentence and the phoneme located at the end of the sentence.

상기 프로세서는 상기 정렬된 음소열 중 강세를 받는 하나 이상의 음소 및 상기 강세를 받는 하나 이상의 음소에 대한 시간 정보를 이용하여 리듬 정보를 추출하고, 상기 리듬 정보를 모델링하여 리듬 점수를 산출할 수 있다.The processor may extract rhythm information using one or more phonemes that are emphasized in the aligned phonemes and time information of one or more phonemes receiving the accent, and may calculate the rhythm score by modeling the rhythm information.

상기 프로세서는 상기 시간 정보로 상기 강세를 받는 음소들 사이의 평균 시간 간격 및 시간 간격의 표준 편차를 산출하여 상기 리듬 정보를 추출할 수 있다.The processor may extract the rhythm information by calculating a standard deviation of an average time interval and a time interval between phonemes receiving the stress with the time information.

상기 프로세서는 상기 자동 평가 모델에 대하여, 훈련용 발화 신호에 대한 음소열을 추출하고, 특징 정보로 상기 훈련용 발화 신호에 대한 각 모음에 대한 강세 정보를 추출한 뒤, 미리 설정된 평가용 강세 점수에 상기 강세 정보를 매칭시켜 훈련시킬 수 있다.Wherein the processor extracts phoneme strings corresponding to the training utterance signal for the automatic evaluation model, extracts the stress information for each vowel for the training utterance signal with the feature information, Matching information can be trained.

또한, 본 발명의 제 2 측면에 따른 발화 유창성 자동 평가 시스템에서의 발화의 유창성을 자동으로 평가하는 방법은 평가 대상인 문장에 대한 학습자의 발화 신호를 수신하는 단계; 상기 학습자의 발화 신호 및 상기 문장에 대응하는 기준 발화 신호의 음소열을 추출하는 단계; 상기 학습자의 발화 신호 및 기준 발화 신호로부터 각 모음에 대한 강세 정보를 추출하는 단계; 및 미리 학습된 자동 평가 모델에 기초하여 상기 강세 정보로부터 상기 학습자의 발화 신호에 대한 강세 점수를 산출하는 단계를 포함하되, 상기 자동 평가 모델은 DTW(Dynamic Time Wrapping) 기법에 기초하여 상기 문장에 대한 학습자의 발화 신호의 음소열와 상기 기준 발화 신호의 음소열을 정렬하고, 상기 기준 발화 신호와 상이한 것으로 판단된 음소를 검출한 후, 상기 정렬된 음소열 및 검출된 음소를 반영한 강세 패턴을 추출하고, 이의 강세 점수를 산출한다.A method for automatically evaluating the fluency of utterance in the automatic utterance evaluation system of speech utterance according to the second aspect of the present invention includes: receiving a utterance signal of a learner on a sentence to be evaluated; Extracting a speech signal of the learner and a phoneme string of a reference speech signal corresponding to the sentence; Extracting the loudspeaker information for each vowel from the learner's utterance signal and the reference utterance signal; And a step of calculating an accent score for the learner's utterance signal from the lecture information based on the automatically learned evaluation model, wherein the automatic evaluation model is based on a DTW (Dynamic Time Wrapping) A phoneme string of the learner's utterance signal and a phoneme string of the reference utterance signal are aligned and a phoneme judged to be different from the reference utterance signal is detected and an accent pattern reflecting the aligned phoneme string and the detected phoneme is extracted, And calculates its accent score.

전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 학습자의 발화 음소열이 원어민의 발화 음소열과 상이한 경우에도, 발화에 대한 강세 점수와 리듬 점수를 산출함으로써 학습자의 말하기 유창성을 평가할 수 있다.According to any one of the above-mentioned tasks of the present invention, even when the learner's utterance phoneme string is different from the spoken phoneme string of the native speaker, the learner's speaking fluency can be evaluated by calculating the stress score and the rhythm score for the utterance.

도 1은 본 발명의 일 실시예에 따른 발화 유창성 자동 평가 시스템의 블록도이다.
도 2는 본 발명의 일 실시예에 따른 발화 유창성 자동 평가 방법의 순서도이다.
도 3은 자동 평가 모델을 훈련하는 방법의 순서도이다.
1 is a block diagram of a spontaneous fluency automatic evaluation system according to an embodiment of the present invention.
2 is a flowchart of a method for automatically evaluating a speaking fluency according to an embodiment of the present invention.
3 is a flowchart of a method of training an automatic evaluation model.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings, which will be readily apparent to those skilled in the art. The present invention may, however, be embodied in many different forms and should not be construed as limited to the embodiments set forth herein. In order to clearly explain the present invention in the drawings, parts not related to the description are omitted.

명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.Whenever a component is referred to as "including" an element throughout the specification, it is to be understood that the element may include other elements, not the exclusion of any other element, unless the context clearly dictates otherwise.

도 1은 본 발명의 일 실시예에 따른 발화 유창성 자동 평가 시스템(100)의 블록도이다.1 is a block diagram of a spoken fluency automatic assessment system 100 in accordance with an embodiment of the present invention.

본 발명의 일 실시예에 따른 학습자의 발화의 유창성을 자동으로 평가하는 시스템(100)은 발화 수신 모듈(110), 메모리(120), 프로세서(130) 및 통신모듈(140)을 포함한다.The system 100 for automatically evaluating fluency of a learner's utterance according to an embodiment of the present invention includes an utterance reception module 110, a memory 120, a processor 130, and a communication module 140. [

발화 수신 모듈(110)은 학습자의 발화 신호를 수신하는 구성으로서 예를 들어 마이크가 이에 해당된다.The speech receiving module 110 is configured to receive a learner's utterance signal, for example, a microphone.

메모리(120)에는 학습자의 발화 신호에 기초하여 발화의 유창성을 자동으로 평가하기 위한 프로그램이 저장된다.The memory 120 stores a program for automatically evaluating the fluency of the utterance based on the learner's utterance signal.

이때, 메모리(120)는 전원이 공급되지 않아도 저장된 정보를 계속 유지하는 비휘발성 저장장치 및 휘발성 저장장치를 통칭하는 것이다. At this time, the memory 120 is collectively referred to as a non-volatile storage device and a volatile storage device which keep the stored information even when power is not supplied.

예를 들어, 메모리(120)는 콤팩트 플래시(compact flash; CF) 카드, SD(secure digital) 카드, 메모리 스틱(memory stick), 솔리드 스테이트 드라이브(solid-state drive; SSD) 및 마이크로(micro) SD 카드 등과 같은 낸드 플래시 메모리(NAND flash memory), 하드 디스크 드라이브(hard disk drive; HDD) 등과 같은 마그네틱 컴퓨터 기억 장치 및 CD-ROM, DVD-ROM 등과 같은 광학 디스크 드라이브(optical disc drive) 등을 포함할 수 있다.For example, the memory 120 may be a compact flash (CF) card, a secure digital (SD) card, a memory stick, a solid-state drive (SSD) A magnetic computer storage device such as a NAND flash memory, a hard disk drive (HDD) and the like, and an optical disc drive such as a CD-ROM, a DVD-ROM, etc. .

프로세서(130)는 메모리(120)에 저장된 프로그램을 실행시킨다.The processor 130 executes the program stored in the memory 120. [

구체적으로, 프로세서(130)는 발화 수신 모듈(110)로부터 학습자의 발화 신호를 전달받으면, 기준 발화 신호와의 비교 분석을 통해 학습자의 발화 신호에 대한 발화의 유창성 정도를 평가할 수 있다.Specifically, when the learner's utterance signal is received from the utterance reception module 110, the processor 130 can evaluate the degree of fluency of utterance with respect to the utterance signal of the learner through comparison analysis with the reference utterance signal.

이때, 본 발명의 일 실시예는 학습자의 모국어가 아닌 제 2 외국어에 대한 발화의 유창성을 평가하기 위한 것으로서, 기준 발화 신호는 학습자의 발화 신호에 해당하는 문장에 대한 원어민의 제 2 외국어 발화에 해당한다. 그러나 본 발명의 일 실시예는 반드시 제 2 외국어만을 대상으로 하는 것은 아니며, 모국어에도 적용이 가능함은 물론이다.In this case, an embodiment of the present invention is for evaluating fluency of utterance to a second foreign language other than the learner's native language, and the reference utterance signal corresponds to a second foreign language utterance of the native speaker on the sentence corresponding to the utterance signal of the learner do. However, an embodiment of the present invention is not necessarily limited to a second foreign language, and may be applied to a native language.

한편, 본 발명의 일 실시예에 따른 발화 유창성 자동 평가 시스템(100)은 하나의 서버로 구현되어 서버 컴퓨터에 서버 프로그램(server program)으로 탑재되어 서비스될 수 있으며, 또는 일반 PC나 스마트 단말 등의 어플리케이션의 형태로 설치되어 서비스될 수도 있다.Meanwhile, the automatic utterability evaluation system 100 according to an exemplary embodiment of the present invention may be implemented as a single server and loaded into a server program as a server program, or may be provided as a general PC or a smart terminal It may be installed and serviced in the form of an application.

이때, 어플리케이션의 형태로 서비스되는 경우, 통신모듈(140)은 관리 서버(미도시)로부터 기준 발화 신호, 학습된 자동 평가 모델 및 평가용 발화 신호를 제공받아 이용할 수 있다.At this time, when the service is provided in the form of an application, the communication module 140 can receive and use the reference ignition signal, the learned automatic evaluation model, and the evaluation ignition signal from the management server (not shown).

이러한, 통신 모듈은 유선 통신 모듈 및 무선 통신 모듈을 모두 포함할 수 있다. 유선 통신 모듈은 전력선 통신 장치, 전화선 통신 장치, 케이블 홈(MoCA), 이더넷(Ethernet), IEEE1294, 통합 유선 홈 네트워크 및 RS-485 제어 장치로 구현될 수 있다. 또한, 무선 통신 모듈은 WLAN(wireless LAN), Bluetooth, HDR WPAN, UWB, ZigBee, Impulse Radio, 60GHz WPAN, Binary-CDMA, 무선 USB 기술 및 무선 HDMI 기술 등으로 구현될 수 있다.Such a communication module may include both a wired communication module and a wireless communication module. The wired communication module may be implemented by a power line communication device, a telephone line communication device, a cable home (MoCA), an Ethernet, an IEEE1294, an integrated wired home network, and an RS-485 control device. In addition, the wireless communication module can be implemented with a wireless LAN (WLAN), Bluetooth, HDR WPAN, UWB, ZigBee, Impulse Radio, 60 GHz WPAN, Binary-CDMA, wireless USB technology and wireless HDMI technology.

참고로, 본 발명의 실시예에 따른 도 1에 도시된 구성 요소들은 소프트웨어 또는 FPGA(Field Programmable Gate Array) 또는 ASIC(Application Specific Integrated Circuit)와 같은 하드웨어 형태로 구현될 수 있으며, 소정의 역할들을 수행할 수 있다.1 may be implemented in hardware such as software or an FPGA (Field Programmable Gate Array) or ASIC (Application Specific Integrated Circuit), and may perform predetermined roles can do.

그렇지만 '구성 요소들'은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니며, 각 구성 요소는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다.However, 'components' are not meant to be limited to software or hardware, and each component may be configured to reside on an addressable storage medium and configured to play one or more processors.

따라서, 일 예로서 구성 요소는 소프트웨어 구성 요소들, 객체지향 소프트웨어 구성 요소들, 클래스 구성 요소들 및 태스크 구성 요소들과 같은 구성 요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다.Thus, by way of example, an element may comprise components such as software components, object-oriented software components, class components and task components, processes, functions, attributes, procedures, Routines, segments of program code, drivers, firmware, microcode, circuitry, data, databases, data structures, tables, arrays, and variables.

구성 요소들과 해당 구성 요소들 안에서 제공되는 기능은 더 작은 수의 구성 요소들로 결합되거나 추가적인 구성 요소들로 더 분리될 수 있다.The components and functions provided within those components may be combined into a smaller number of components or further separated into additional components.

이하에서는 도 2 및 도 3을 참조하여 본 발명의 일 실시예에 따른 발화 유창성 자동 평가 시스템(100)에서 학습자의 발화의 유창성을 자동으로 평가하는 방법에 대해 설명하도록 한다.Hereinafter, a method for automatically evaluating the fluency of a learner's utterance in a spoken fluency automatic assessment system 100 according to an embodiment of the present invention will be described with reference to FIGS. 2 and 3. FIG.

도 2는 본 발명의 일 실시예에 따른 발화 유창성 자동 평가 방법의 순서도이다. 도 3은 자동 평가 모델을 훈련하는 방법의 순서도이다.2 is a flowchart of a method for automatically evaluating a speaking fluency according to an embodiment of the present invention. 3 is a flowchart of a method of training an automatic evaluation model.

먼저 도 2를 참조하면, 프로세서(130)는 메모리(120)에 저장된 프로그램을 실행시킴에 따라, 평가 대상인 하나 이상의 문장에 대한 학습자의 발화신호를 발화 수신 모듈(110)로부터 수신한다(S110).Referring to FIG. 2, the processor 130 executes a program stored in the memory 120, and receives a learner's utterance signal for one or more sentences to be evaluated from the utterance reception module 110 (S110).

다음으로, 프로세서(130)는 학습자의 발화 신호 및 상기 문장에 대응하는 기준 발화 신호의 음소열 및 시간 정렬 정보를 추출하고(S120), 학습자의 발화 신호 및 기준 발화 신호로부터 각 모음에 대한 강세 정보를 추출한다(S130). Next, the processor 130 extracts the learner's utterance signal, the phoneme string and the time alignment information of the reference utterance signal corresponding to the sentence (S120), and extracts the accent information for each vowel from the learner's utterance signal and the reference utterance signal (S130).

이때, 프로세서(130)는 학습자의 발화 신호 및 기준 발화 신호에 대한 에너지의 크기, 음 높이(pitch) 및 음소 길이(duration) 중 하나 이상의 정보에 기초하여 학습자의 발화 신호 및 기준 발화 신호의 각 모음에 대한 강세 정보로 추출할 수 있다.At this time, the processor 130 calculates the learner's utterance signal and the reference utterance signal based on at least one of the learner's utterance signal and the reference utterance signal energy, the pitch, and the phoneme duration, Can be extracted as the bullish information for.

그 다음 프로세서(130)는 미리 학습된 자동 평가 모델에 기초하여 강세 정보로부터 학습자의 발화 신호에 대한 강세 점수를 산출한다(S140).Then, the processor 130 calculates a stress score for the learner's utterance signal from the stress information based on the previously-learned automatic evaluation model (S140).

이때, 프로세서(130)는 미리 학습된 자동 평가 모델을 이용함에 따라, DTW(Dynamic Time Wrapping) 기법에 기초하여 상기 문장에 대한 학습자의 발화 신호의 음소열과 기준 발화 신호의 음소열을 정렬시킨다. DTW 기법의 수행함에 있어 시작 지점과 끝 지점을 설정하기 위해, 프로세서(130)는 상기 문장의 시작 부분에 위치한 음소의 앞과 상기 문장의 끝 부분에 위치한 음소의 뒤에 각각 음소 기호를 추가하여 상기 문장의 시작과 끝을 설정할 수 있다. At this time, the processor 130 aligns the phoneme string of the learner's utterance signal with the phoneme string of the reference utterance signal based on the DTW (Dynamic Time Wrapping) technique by using the previously learned automatic evaluation model. In order to set the start point and the end point in performing the DTW technique, the processor 130 adds a phoneme symbol to the front of the phoneme located at the beginning of the sentence and the phoneme located at the end of the sentence, You can set the beginning and end of the file.

예를 들어, 프로세서(130)는 상기 문장 시작 음소의 앞에 ‘sS’와 문장 시작 끝 음소의 뒤에 ‘sE’라는 음소 기호를 추가하여 문장의 시작과 끝을 표시할 수 있다.For example, processor 130 may mark the beginning and end of a sentence by adding 'sS' at the beginning of the sentence start phoneme and a phoneme 'sE' at the end of the sentence start end phoneme.

그 다음 프로세서(130)는 원어민의 발화와 다르게 발음하여 인식된 음소를 검출한다. 이를 위해 프로세서(130)는 정렬된 학습자의 발화 신호 및 기준 발화 신호의 음소열 중 기준 발화 신호와 상이한 음소, 즉 오류 음소로 판단된 음소를 검출한다. The processor 130 then detects the recognized phoneme by pronouncing it differently from the native speaker's utterance. For this, the processor 130 detects phonemes of the aligned learner and phonemes of the reference speech signal that are different from the reference speech signal, that is, phonemes determined to be erroneous phonemes.

그 다음, 프로세서(130)는 정렬된 음소열 및 상기 검출된 음소를 반영하여 강세 패턴을 추출하고, 강세 패턴에 해당하는 강세 점수를 산출한다.Then, the processor 130 extracts the accent pattern by reflecting the aligned phoneme string and the detected phoneme, and calculates the accent score corresponding to the accent pattern.

이를 위해 프로세서(130)는 정렬된 학습자의 발화 신호 및 기준 발화 신호의 음소열 중 변경된 음소의 경우 예를 들어, 0, 1, 2로 표시되는 기준 강세값 이외의 값을 부여한다. 그리고 기준 강세값을 가지는 음소 및 기준 강세값 이외의 값을 가지는 음소에 기초하여 기준 발화 신호와 상이한 것으로 판단된 음소를 검출하고, 검출된 음소에 대해 음(-)의 강세 점수를 부여하여 강세 패턴에 대한 강세 점수를 산출할 수 있다.For this purpose, the processor 130 assigns values other than the reference accent values, for example, 0, 1, and 2, to the phoneme of the aligned learner and the phoneme string of the reference utterance signal. A phoneme judged to be different from the reference speech signal is detected based on the phoneme having the reference stress value and the phoneme having the value other than the reference stress value, and a positive (-) stress score is given to the detected phoneme, Can be calculated.

이때, 강세 점수는 문장을 단위로 하는 강세 점수와 문장에 포함된 단어를 단위로 하는 강세 점수를 포함할 수 있다.In this case, the accent score may include an accent score in units of sentences and an accent score in units of words included in the sentence.

단어를 단위로 하는 강세 점수의 경우 내용어(content word)에 대한 패턴을 산출하고 이를 비교하여 산출할 수 있다. 문장을 단위로 하는 강세 점수의 경우 문장 전체의 강세 패턴을 추출하여 이의 강세 점수를 산출할 수 있다.In the case of an accent score based on a word, a pattern for the content word can be calculated and compared with the calculated score. In the case of the accent score in units of sentences, the accent pattern of the whole sentence can be extracted and the accent score thereof can be calculated.

한편, 자동 평가 모델은 도 3에 도시된 바와 같이, 훈련용 발화 신호를 수신하면(S210), 훈련용 발화 신호에 대한 음소열을 추출하고(S220), 특징 정보로 훈련용 발화 신호에 대한 각 모음에 대한 강세 정보를 추출한 다음(S230), 미리 설정된 평가용 강세 점수(D1)에 강세 정보를 매칭시켜 훈련될 수 있다(S240).On the other hand, as shown in FIG. 3, the automatic evaluation model extracts a training sound spoken signal (S210), extracts a training sound spoken signal (S220), and outputs the training sound spoken signal The vowel information for the vowel may be extracted (S230), and then the vowel information may be matched to the predetermined evaluation vowel score D1 (S240).

다시 도 2를 참조하면, 본 발명의 일 실시예에 따른 발화 유창성 자동 평가 시스템(100)은 학습자의 발화에 대한 리듬 정보를 이용하여 발화의 유창성 정도를 평가할 수 있다.Referring again to FIG. 2, the automatic utterability evaluation system 100 according to an exemplary embodiment of the present invention can evaluate the degree of fluency of utterance using rhythm information about a learner's utterance.

구체적으로, 프로세서(130)는 정렬된 학습자의 발화 신호 및 기준 발화 신호의 음소열 중 강세를 받는 하나 이상의 음소 및 강세를 받는 하나 이상의 음소에 대한 시간 정보를 이용하여 리듬 정보를 추출하고(S150), 리듬 정보를 모델링하여 리듬 점수를 산출할 수 있다(S160).Specifically, the processor 130 extracts rhythm information using one or more phonemes and one or more phonemes that are emphasized in the phoneme string of the aligned learner and the phoneme string of the reference utterance, , And the rhythm score can be calculated by modeling the rhythm information (S160).

이때, 리듬 정보는 강세를 받는 음소들 사이의 평균 시간 간격(리듬 평균)과, 시간 간격의 표준 편차(리듬 표준 편차)를 산출한 것으로서, 프로세서(130)는 이들을 모델링하여 학습자의 발화 신호에 대한 리듬 점수를 산출할 수 있다.Here, the rhythm information is obtained by calculating the average time interval (rhythm average) and the standard deviation (rhythm standard deviation) of the time intervals between the phonemes that are accentuated, and the processor 130 models them, Rhythm score can be calculated.

한편, 상술한 설명에서, 단계 S110 내지 S240은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다. 아울러, 기타 생략된 내용이라 하더라도 도 1에서의 발화 유창성 자동 평가 시스템(100)에서 기술된 내용은 도 2 및 도 3의 발화 유창성 자동 평가 방법에도 적용될 수 있다.Meanwhile, in the above description, steps S110 to S240 may be further divided into additional steps or combined into fewer steps, according to an embodiment of the present invention. Also, some of the steps may be omitted as necessary, and the order between the steps may be changed. In addition, even if other contents are omitted, the contents described in the automatic utterance evaluation system 100 of FIG. 1 can also be applied to the automatic utterance evaluation method of FIG. 2 and FIG.

이와 같은 본 발명의 일 실시예에 의하면, 학습자의 발화 음소열이 원어민의 발화 음소열과 상이한 경우에도, 발화에 대한 강세 점수와 리듬 점수를 산출함으로써 학습자의 말하기 유창성을 평가할 수 있다.According to the embodiment of the present invention, even when the learner's utterance phoneme string is different from the spoken phoneme string of the native speaker, the learner's speaking fluency can be evaluated by calculating the stress score and the rhythm score for the utterance.

한편, 본 발명의 일 실시예는 컴퓨터에 의해 실행되는 매체에 저장된 컴퓨터 프로그램 또는 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다. On the other hand, an embodiment of the present invention may also be embodied in the form of a computer program stored in a medium executed by a computer or a recording medium including instructions executable by the computer. Computer readable media can be any available media that can be accessed by a computer and includes both volatile and nonvolatile media, removable and non-removable media. In addition, the computer-readable medium may include both computer storage media and communication media. Computer storage media includes both volatile and nonvolatile, removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data. Communication media typically includes any information delivery media, including computer readable instructions, data structures, program modules, or other data in a modulated data signal such as a carrier wave, or other transport mechanism.

본 발명의 방법 및 시스템은 특정 실시예와 관련하여 설명되었지만, 그것들의 구성 요소 또는 동작의 일부 또는 전부는 범용 하드웨어 아키텍쳐를 갖는 컴퓨터 시스템을 사용하여 구현될 수 있다.While the methods and systems of the present invention have been described in connection with specific embodiments, some or all of those elements or operations may be implemented using a computer system having a general purpose hardware architecture.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.It will be understood by those skilled in the art that the foregoing description of the present invention is for illustrative purposes only and that those of ordinary skill in the art can readily understand that various changes and modifications may be made without departing from the spirit or essential characteristics of the present invention. will be. It is therefore to be understood that the above-described embodiments are illustrative in all aspects and not restrictive. For example, each component described as a single entity may be distributed and implemented, and components described as being distributed may also be implemented in a combined form.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.The scope of the present invention is defined by the appended claims rather than the detailed description and all changes or modifications derived from the meaning and scope of the claims and their equivalents are to be construed as being included within the scope of the present invention do.

100: 발화 유창성 자동 평가 시스템
110: 발화 수신 모듈
120: 메모리
130: 프로세서
140: 통신모듈
100: Speech Fluency Automatic Evaluation System
110: ignition reception module
120: Memory
130: Processor
140: Communication module

Claims (1)

발화의 유창성을 자동으로 평가하는 시스템에 있어서,
학습자의 발화 신호를 수신하는 발화 수신 모듈,
상기 학습자의 발화 신호에 기초하여 발화의 유창성을 자동으로 평가하기 위한 프로그램이 저장된 메모리 및
상기 메모리에 저장된 프로그램을 실행시키는 프로세서를 포함하되,
상기 프로세서는 상기 프로그램을 실행시킴에 따라, 평가 대상인 문장에 대한 학습자의 발화 신호를 수신하면, 상기 학습자의 발화 신호 및 상기 문장에 대응하는 기준 발화 신호의 음소열을 추출하고, 상기 학습자의 발화 신호 및 기준 발화 신호로부터 각 모음에 대한 강세 정보를 추출한 뒤, 미리 학습된 자동 평가 모델에 기초하여 상기 강세 정보로부터 상기 학습자의 발화 신호에 대한 강세 점수를 산출하되,
상기 자동 평가 모델은 DTW(Dynamic Time Wrapping) 기법에 기초하여 상기 문장에 대한 학습자의 발화 신호의 음소열와 상기 기준 발화 신호의 음소열을 정렬하고, 상기 기준 발화 신호와 상이한 것으로 판단된 음소를 검출한 후, 상기 정렬된 음소열 및 검출된 음소를 반영한 강세 패턴을 추출하고, 이의 강세 점수를 산출하는 것인 발화 유창성 자동 평가 시스템.
A system for automatically evaluating fluency of speech,
An ignition reception module for receiving a learner's ignition signal,
A memory for storing a program for automatically evaluating the fluency of speech based on the learner's utterance signal;
And a processor for executing a program stored in the memory,
Wherein the processor extracts a learner's utterance signal and a phoneme string of a reference utterance signal corresponding to the sentence when a learner's utterance signal for a sentence to be evaluated is received as the program is executed, And extracting the stress information for each vowel from the reference spoken signal, and calculating a stress score for the spoken signal of the learner from the stress information based on a previously learned automatic evaluation model,
Wherein the automatic evaluation model includes a phoneme string of the learner's utterance signal and a phoneme string of the reference utterance signal with respect to the sentence based on a DTW (Dynamic Time Wrapping) technique, and detects a phoneme determined to be different from the reference utterance signal Extracting an accent pattern reflecting the aligned phoneme string and the detected phoneme, and calculating the accent score thereof.
KR1020170095336A 2017-07-27 2017-07-27 System and method for evaluating speech fluency automatically KR20190012419A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170095336A KR20190012419A (en) 2017-07-27 2017-07-27 System and method for evaluating speech fluency automatically

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170095336A KR20190012419A (en) 2017-07-27 2017-07-27 System and method for evaluating speech fluency automatically

Publications (1)

Publication Number Publication Date
KR20190012419A true KR20190012419A (en) 2019-02-11

Family

ID=65369698

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170095336A KR20190012419A (en) 2017-07-27 2017-07-27 System and method for evaluating speech fluency automatically

Country Status (1)

Country Link
KR (1) KR20190012419A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109741734A (en) * 2019-03-08 2019-05-10 北京猎户星空科技有限公司 A kind of speech evaluating method, device and readable medium
CN111312231A (en) * 2020-05-14 2020-06-19 腾讯科技(深圳)有限公司 Audio detection method and device, electronic equipment and readable storage medium
CN112397059A (en) * 2020-11-10 2021-02-23 武汉天有科技有限公司 Voice fluency detection method and device
KR102388948B1 (en) * 2021-08-17 2022-04-21 이경순 Language fluency evaluation method and system using speech visualization technology

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109741734A (en) * 2019-03-08 2019-05-10 北京猎户星空科技有限公司 A kind of speech evaluating method, device and readable medium
CN111312231A (en) * 2020-05-14 2020-06-19 腾讯科技(深圳)有限公司 Audio detection method and device, electronic equipment and readable storage medium
CN111312231B (en) * 2020-05-14 2020-09-04 腾讯科技(深圳)有限公司 Audio detection method and device, electronic equipment and readable storage medium
CN112397059A (en) * 2020-11-10 2021-02-23 武汉天有科技有限公司 Voice fluency detection method and device
CN112397059B (en) * 2020-11-10 2024-02-06 武汉天有科技有限公司 Voice fluency detection method and device
KR102388948B1 (en) * 2021-08-17 2022-04-21 이경순 Language fluency evaluation method and system using speech visualization technology

Similar Documents

Publication Publication Date Title
US20200211529A1 (en) Systems and methods for multi-style speech synthesis
KR102550932B1 (en) Method and apparatus for personalizing speech recognition model
KR102494139B1 (en) Apparatus and method for training neural network, apparatus and method for speech recognition
CN106688034B (en) Text-to-speech conversion with emotional content
US9195656B2 (en) Multilingual prosody generation
US7996209B2 (en) Method and system of generating and detecting confusing phones of pronunciation
US20170323644A1 (en) Speaker identification device and method for registering features of registered speech for identifying speaker
US20150356967A1 (en) Generating Narrative Audio Works Using Differentiable Text-to-Speech Voices
US20170076715A1 (en) Training apparatus for speech synthesis, speech synthesis apparatus and training method for training apparatus
US11043213B2 (en) System and method for detection and correction of incorrectly pronounced words
KR20190012419A (en) System and method for evaluating speech fluency automatically
US20130191126A1 (en) Subword-Based Multi-Level Pronunciation Adaptation for Recognizing Accented Speech
JP2005208643A (en) System and method for automatic speech recognition learning using user correction
CN110600013B (en) Training method and device for non-parallel corpus voice conversion data enhancement model
JP2016075740A (en) Voice processing device, voice processing method, and program
JP2006113570A (en) Hidden conditional random field model for phonetic classification and speech recognition
US9437195B2 (en) Biometric password security
US11151996B2 (en) Vocal recognition using generally available speech-to-text systems and user-defined vocal training
CN110349569B (en) Method and device for training and identifying customized product language model
CN104765996A (en) Voiceprint authentication method and system
CN109791616A (en) Automatic speech recognition
CN112700778A (en) Speech recognition method and speech recognition apparatus
KR102199246B1 (en) Method And Apparatus for Learning Acoustic Model Considering Reliability Score
Van Dalen et al. Improving multiple-crowd-sourced transcriptions using a speech recogniser
CN112542158A (en) Voice analysis method, system, electronic device and storage medium