KR20190041772A - Apparatus and method for evaluating linguistic performance based on silence interval using comparison with other users - Google Patents

Apparatus and method for evaluating linguistic performance based on silence interval using comparison with other users Download PDF

Info

Publication number
KR20190041772A
KR20190041772A KR1020170133424A KR20170133424A KR20190041772A KR 20190041772 A KR20190041772 A KR 20190041772A KR 1020170133424 A KR1020170133424 A KR 1020170133424A KR 20170133424 A KR20170133424 A KR 20170133424A KR 20190041772 A KR20190041772 A KR 20190041772A
Authority
KR
South Korea
Prior art keywords
silence interval
user
silence
similarity
information
Prior art date
Application number
KR1020170133424A
Other languages
Korean (ko)
Inventor
오정민
김대훈
Original Assignee
주식회사 하얀마인드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 하얀마인드 filed Critical 주식회사 하얀마인드
Priority to KR1020170133424A priority Critical patent/KR20190041772A/en
Publication of KR20190041772A publication Critical patent/KR20190041772A/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/04Speaking
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Educational Administration (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Tourism & Hospitality (AREA)
  • Computational Linguistics (AREA)
  • Educational Technology (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)

Abstract

The present invention relates to an apparatus and method for evaluating linguistic performance based on a silence interval. The method may comprise: a user silence interval step that a user silence interval extracting module generates or receives a user silence interval, which is a silence interval of user voice data, based on user voice data; and a silence interval similarity calculation step that a silence interval similarity calculation module receives information for the user silence interval and calculates silence interval similarity, which is similarity between a reference silence interval, which is a silence interval of reference voice data, and the user silence interval. Accordingly, the apparatus and method may evaluate performance of language shadowing in real time (for example, within 100ms) and provide feedback.

Description

다른 사용자와의 비교를 이용한 묵음구간 기반의 어학 퍼포먼스 평가 장치 및 방법{Apparatus and method for evaluating linguistic performance based on silence interval using comparison with other users}[0001] Apparatus and method for evaluating linguistic performance based on silence intervals using comparison with other users [

본 발명은 다른 사용자와의 비교를 이용한 묵음구간 기반의 어학 퍼포먼스 평가 장치 및 방법에 관한 것이다. The present invention relates to an apparatus and method for evaluating a linguistic performance based on silence intervals using comparison with other users.

어학 교육 서비스는 모바일 디바이스의 높은 점유율 및 디바이스의 컴퓨팅 파워 향상에 힘입어 새로운 패러다임으로 진화하고 있다. 기존의 어학 교육 서비스는 일방적인 교육 콘텐츠의 전달이었다면, 최근의 어학 교육 서비스는 STT(Speech to text), NLP(Natural Language Processing), webRTC 등 기술의 발달로 실시간 피드백을 동반한 양방향 교육의 패러다임으로 전환되고 있다. 이러한 양방향 교육의 일환으로 최근 Speak, 뇌새김, 차이나탄 등의 다양한 어학 서비스에서 말하기에 대한 자동 평가를 수행해주는 것으로 사용자들의 어학 서비스 경험을 향상시키고 있다. Language education services are evolving into a new paradigm, driven by the high share of mobile devices and the enhanced computing power of devices. If the existing language education service was one-sided education contents delivery, recent language education service is a paradigm of interactive education with real-time feedback due to the development of technologies such as STT (Speech to text), NLP (Natural Language Processing) and webRTC . As a part of this interactive education, we are now improving the users' linguistic service experience by performing automatic evaluation of speaking in various language services such as Speak, Brain, and Chinatan.

위와 같은 어학 교육 서비스에서 사용자의 말하기 실력을 평가하는 방법으로 기존에는 주파수 분석을 이용하여 특정 문장과 사용자의 입력 음성이 유사한지 여부를 판정하는 방법, STT(Speech to text)를 이용하여 텍스트로 변환된 사용자의 입력 음성이 특정 문장과 얼마나 유사한지 여부를 판정하는 방법 등이 있었다. 이러한 방법들은 해당 사용자의 어학 말하기 실력을 웹 또는 앱에서 정교하게 평가하는데 많은 도움을 주었다. As a method for evaluating user's speaking ability in the above-mentioned language education service, there is a method of judging whether a specific sentence and a user's input voice are similar using frequency analysis, a method of converting to text using STT (Speech to text) And how to determine whether the input voice of the user is similar to a specific sentence. These methods have been very helpful in elaborately assessing the user's speaking skills in the web or app.

기존의 많은 어학 교육 서비스 중 뇌신경과학적으로 유의미한 학습 방법 중 하나로 "따라말하기"가 있다. 특정 언어의 암묵기억을 빠르게 형성하기 위한 방법인 따라말하기 방법은 특정 문장에 대한 기준 음성(일반적으로 외국인)을 들으면서 동시에 따라말하는 방법을 의미하고, 입에 익을 때까지 반복적으로 말하는 방법이다.Among the many existing language education services, there is "talking along" as one of brain training scientific meaningful learning methods. The follow-up method, which is a method for quickly forming an implicit memory of a specific language, is a method of simultaneously speaking while listening to a reference voice (usually a foreigner) for a specific sentence.

하지만, 기존의 어학 말하기 실력 평가 방법(어학 퍼포먼스 평가)은 컴퓨팅 리소스가 지나치게 커서 사용자의 입력 음성이 종료된 뒤에 어학 퍼포먼스의 평가 결과가 도출될 수밖에 없었고, 어학 따라말하기의 퍼포먼스를 실시간으로 평가하기에는 무리가 있었다. However, the existing language speech evaluation method (language performance evaluation) has a problem that the evaluation result of the language performance can not be obtained after the input voice of the user is terminated because the computing resource is too large, .

이동 단말기를 이용한 말하기 평가 시스템 및 그 평가 방법, 대한민국 공개특허 10-2016-0123872, 배재대학교 산학협력단Speech evaluation system using mobile terminal and evaluation method thereof, Korean Patent Laid-open Publication No. 10-2016-0123872, Paichai University Industry-Academic Cooperation Foundation 말하기 능력 공증 시스템 및 그 방법, 등록특허 10-0943477, 한국방송공사Speaking ability notarization system and method thereof, registered patent 10-0943477, Korean Broadcasting Corporation

따라서, 본 발명의 목적은 기존의 어학 퍼포먼스 평가와 달리 높은 컴퓨팅 리소스를 요구하지 않으면서도 유의미한 어학 퍼포먼스 평가 결과가 도출될 수 있어서 특히 어학 따라말하기의 퍼포먼스를 실시간으로 평가하여 피드백하는 것이 가능하도록 구성되는 묵음구간 기반의 어학 퍼포먼스 평가 장치 및 방법을 제공하는 데에 있다. Therefore, it is an object of the present invention to provide a speech recognition apparatus and a speech recognition method, which are capable of evaluating the performance of speaking based on language in real time, And to provide a device and a method for evaluating a linguistic performance based on a silent section.

이하 본 발명의 목적을 달성하기 위한 구체적 수단에 대하여 설명한다.Hereinafter, specific means for achieving the object of the present invention will be described.

본 발명의 목적은, 액티베이션 모듈이 참조 음성 데이터의 발화 시작 시의 시그널을 사용자 음성 데이터에서 감지하여 어학 퍼포먼스 평가의 수행을 시작하도록 하는 액티베이션 단계; 사용자 묵음구간 추출 모듈이 상기 사용자 음성 데이터를 토대로 상기 사용자 음성 데이터의 묵음구간인 사용자 묵음구간을 추출하고, 상기 사용자 묵음구간에 대한 정보인 사용자 묵음구간 정보를 생성하는 사용자 묵음구간 추출 단계; 및 묵음구간 유사도 계산 모듈이 상기 사용자 묵음구간 정보를 수신하고, 상기 참조 음성 데이터의 묵음구간에 대한 정보인 참조 묵음구간 정보와 상기 사용자 묵음구간 정보의 유사도인 묵음구간 유사도를 계산하는 묵음구간 유사도 계산 단계;를 포함하고, 상기 묵음구간 유사도를 토대로 상기 사용자 음성 데이터의 어학 퍼포먼스를 평가하는 것을 특징으로 하는, 액티베이션 모듈을 이용한 묵음구간 기반의 어학 퍼포먼스 평가 방법을 제공하여 달성될 수 있다.An object of the present invention is to provide an activation step of allowing an activation module to sense a signal at the start of utterance of reference speech data in user speech data to start performing language performance evaluation; A user silence interval extraction module extracting a user silence interval that is a silence interval of the user voice data based on the user voice data and generating user silence interval information that is information on the user silence interval; And a silence interval similarity calculation module that receives the user silence interval information and calculates silence interval similarity, which is the similarity between the reference silence interval information, which is information on the silence interval of the reference speech data, and the user silence interval information, And evaluating the language performance of the user voice data based on the silence interval similarity. The method of evaluating the silence interval based language performance using the activation module may be provided.

본 발명의 다른 목적은, 참조 음성 데이터의 발화 시작 시의 시그널을 사용자 음성 데이터에서 감지하여 어학 퍼포먼스 평가의 수행을 시작하도록 하는 액티베이션 모듈; 사용자 음성 데이터를 토대로 상기 사용자 음성 데이터의 묵음구간인 사용자 묵음구간을 추출하고, 상기 사용자 묵음구간에 대한 정보인 사용자 묵음구간 정보를 생성하는 사용자 묵음구간 추출 모듈; 및 상기 사용자 묵음구간 정보를 수신하고, 참조 음성 데이터의 묵음구간에 대한 정보인 참조 묵음구간 정보와 상기 사용자 묵음구간 정보의 유사도인 묵음구간 유사도를 계산하는 묵음구간 유사도 계산 모듈;를 포함하고, 상기 묵음구간 유사도를 토대로 상기 사용자 음성 데이터의 어학 퍼포먼스를 평가하는 것을 특징으로 하는, 액티베이션 모듈을 이용한 묵음구간 기반의 어학 퍼포먼스 평가 장치를 제공하여 달성될 수 있다.Another object of the present invention is to provide a speech recognition apparatus and a speech recognition method, which can be realized by an activation module for detecting a signal at the start of utterance of reference speech data in user speech data and starting performance of language performance evaluation. A user silence interval extracting module for extracting a user silence interval that is a silence interval of the user voice data based on the user voice data and generating user silence interval information about the user silence interval; And a silence interval similarity calculation module that receives the user silence interval information and calculates silence interval similarity, which is the similarity between the reference silence interval information and the silence interval information, which is information on the silence interval of the reference voice data, And the linguistic performance of the user voice data is evaluated on the basis of the similarity degree of the silence section. The present invention can be achieved by providing a silence interval-based language performance evaluation apparatus using the activation module.

상기한 바와 같이, 본 발명에 의하면 이하와 같은 효과가 있다.As described above, the present invention has the following effects.

첫째, 본 발명의 일실시예에 따르면, 어학 퍼포먼스 평가에 높은 컴퓨팅 파워가 요구되지 않는 효과가 발생된다. First, according to one embodiment of the present invention, an effect that a high computing power is not required for language performance evaluation occurs.

둘째, 본 발명의 일실시에에 따르면, 어학 따라말하기의 퍼포먼스를 실시간으로(예를 들면, 100ms 이내) 평가하여 피드백하는 것이 가능하게 되는 효과가 발생된다. Second, according to one embodiment of the present invention, it is possible to evaluate the performance of language-following speech in real time (for example, within 100 ms) and to feedback it.

셋째, 본 발명의 일실시예에 따르면, 사용자의 음성 녹음 거리나 녹음 퀄리티의 수준에 관계 없이 어학 퍼포먼스를 평가할 수 있게 되는 효과가 발생된다. Third, according to an embodiment of the present invention, language performance can be evaluated regardless of the user's voice recording distance or the level of the recording quality.

본 명세서에 첨부되는 다음의 도면들은 본 발명의 바람직한 실시예를 예시하는 것이며, 발명의 상세한 설명과 함께 본 발명의 기술사상을 더욱 이해시키는 역할을 하는 것이므로, 본 발명은 그러한 도면에 기재된 사항에만 한정되어 해석되어서는 아니 된다.
도 1은 본 발명의 일실시예에 따른 묵음구간 기반의 어학 퍼포먼스 평가 장치를 도시한 모식도,
도 2는 사용자의 음성파형의 예시를 도시한 것,
도 3은 본 발명의 일실시예에 따른 묵음구간 기반의 어학 퍼포먼스 평가 방법을 도시한 흐름도이다.
BRIEF DESCRIPTION OF THE DRAWINGS The accompanying drawings, which are included to provide a further understanding of the invention and are incorporated in and constitute a part of this application, illustrate preferred embodiments of the invention and, together with the description, And shall not be interpreted.
BRIEF DESCRIPTION OF THE DRAWINGS FIG. 1 is a schematic diagram showing a linguistic performance evaluation apparatus based on a silence period according to an embodiment of the present invention;
2 shows an example of a user's speech waveform,
FIG. 3 is a flowchart illustrating a silent interval-based language performance evaluation method according to an embodiment of the present invention.

이하 첨부된 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 본 발명을 쉽게 실시할 수 있는 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예에 대한 동작원리를 상세하게 설명함에 있어서 관련된 공지기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다.DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings. In the following detailed description of the operation principle of the preferred embodiment of the present invention, a detailed description of known functions and configurations incorporated herein will be omitted when it may unnecessarily obscure the subject matter of the present invention.

또한, 도면 전체에 걸쳐 유사한 기능 및 작용을 하는 부분에 대해서는 동일한 도면 부호를 사용한다. 명세서 전체에서, 특정 부분이 다른 부분과 연결되어 있다고 할 때, 이는 직접적으로 연결되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고, 간접적으로 연결되어 있는 경우도 포함한다. 또한, 특정 구성요소를 포함한다는 것은 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라, 다른 구성요소를 더 포함할 수 있는 것을 의미한다.The same reference numerals are used for portions having similar functions and functions throughout the drawings. In the specification, when a specific portion is connected to another portion, it includes not only a direct connection but also a case where the other portion is indirectly connected with another element in between. In addition, the inclusion of a specific constituent element does not exclude other constituent elements unless specifically stated otherwise, but may include other constituent elements.

묵음구간 기반의 어학 퍼포먼스 평가 장치A linguistic performance evaluation device based on silence interval

도 1은 본 발명의 일실시예에 따른 묵음구간 기반의 어학 퍼포먼스 평가 장치를 도시한 모식도이다. 도 1에 도시된 바와 같이, 본 발명의 일실시예에 따른 묵음구간 기반의 어학 퍼포먼스 평가 장치(1)는, 사용자 묵음구간 추출 모듈(10), 묵음구간 유사도 계산 모듈(11), 어학 퍼포먼스 평가 모듈(20), 참조 묵음구간 추출 모듈(30)을 포함할 수 있다. 사용자는 어학 퍼포먼스 평가 장치(1)에 사용자 음성 데이터(100)를 입력하게 되는데, 사용자 클라이언트에서 참조 음성이 출력되어 참조 음성을 따라말하는 방식으로 사용자 음성 데이터(100)가 입력되거나, 사용자 클라이언트에서 참조 음성 및 이에 대응되는 참조 어학 콘텐츠(예를 들어, 텍스트)가 출력되어 이를 따라말하는 방식으로 사용자 음성 데이터(100)가 입력될 수 있다.1 is a schematic diagram showing a silence interval-based language performance evaluation apparatus according to an embodiment of the present invention. 1, the silence interval-based language performance evaluation apparatus 1 according to the embodiment of the present invention includes a user silence interval extraction module 10, a silence interval similarity calculation module 11, a language performance evaluation Module 20, and a reference silence interval extraction module 30. The user inputs the user voice data 100 to the linguistic performance evaluation device 1. The user voice data 100 is input in such a manner that the user client outputs the reference voice and speaks along with the reference voice, The user voice data 100 may be input in such a manner that the voice and the corresponding reference language content (e.g., text) are output and talked with it.

사용자 묵음구간 추출 모듈(10)은 사용자 음성 데이터(100)를 토대로 상기 사용자 음성 데이터의 묵음구간인 사용자 묵음구간에 대한 정보를 생성하는 모듈이다. 본 발명의 일실시예에 따른 사용자 묵음구간 추출 모듈(10)은 사용자 클라이언트에 구비되어 서버에 사용자 묵음구간에 대한 정보를 송신하거나, 서버에 구비되어 서버에서 직접 사용자 묵음구간에 대한 정보를 생성하도록 구성될 수 있다. 본 발명의 일실시에에 따른 사용자 묵음구간 추출 모듈(10)이 클라이언트에 구성되고 묵음구간 유사도 계산 모듈(11)이 서버에 구성되는 경우 사용자 음성 데이터(100) 자체(PCM raw data)를 서버에 전송하지 않고 단순히 묵음구간 정보만 서버에 전송되게 되므로 송수신 데이터의 경량화가 가능해지는 효과가 발생된다. 본 발명의 일실시예에 따른 사용자 묵음구간 추출 모듈(10)이 서버에 구비되는 경우, 사용자 클라이언트에서 수신된 사용자 음성 데이터(100)가 그대로 전송되거나 적절히 인코딩되어 서버에 스트리밍 될 수 있다. The user silence interval extraction module 10 is a module for generating information on a user silence interval which is a silence period of the user's voice data based on the user's voice data 100. The user silence interval extraction module 10 according to an embodiment of the present invention is provided in a user client and transmits information on a user silence interval to a server or generates information on a user silence interval directly in a server Lt; / RTI > When the user silence interval extraction module 10 is configured in the client and the silence interval similarity calculation module 11 is configured in the server, the user voice data 100 itself (PCM raw data) Only the silence section information is transmitted to the server without transmitting the data, so that the transmission / reception data can be lightened. When the user silent interval extraction module 10 according to the embodiment of the present invention is provided in the server, the user voice data 100 received from the user client may be transmitted as is or may be properly encoded and streamed to the server.

사용자 묵음구간 추출 모듈(10)의 사용자 묵음구간 추출 방법과 관련하여, 사용자 묵음구간 추출 모듈(10)은 사용자 음성 데이터(100)의 음성 파형에서 특정 dB 이하의 구간(또는 특정 진폭 이하)을 사용자 묵음구간으로 추출할 수 있다. 도 2는 사용자의 음성파형의 예시를 도시한 것이고, 도 2에 도시된 바와 같이, 사용자 묵음구간 추출 모듈(10)은 특정 dB 이하의 구간을 사용자 묵음구간(2)으로 정의하여 사용자 묵음구간에 대한 정보를 추출하도록 구성될 수 있다. 본 발명의 일실시예에 따른 사용자 묵음구간에 대한 정보(사용자 묵음구간 정보)에는 묵음구간의 길이(a), 발화시작에서의 시간적 위치(b), 발화시작부터 몇 번째 묵음구간인지, 발화시작부터 묵음구간의 총 길이, 이전 묵음구간 종료 이후의 시간 등을 포함할 수 있다. 추출하는 묵음구간에 대한 정보를 위와 같이 구성하는 것에 의해 빠르면서도 정교한 어학 퍼포먼스 평가가 가능하게 되는 효과가 발생되게 된다.The user silence section extraction module 10 extracts a section of a user's voice data 100 having a specific dB or less (or a specific amplitude or less) from a voice waveform of the user's voice data 100 as a user's silence section extraction method of the user silence section extraction module 10, It can be extracted as silence section. 2 shows an example of a user's voice waveform. As shown in FIG. 2, a user silence interval extraction module 10 defines a section of a certain dB or less as a user silence interval 2, And the like. The information (user silence period information) about the user silence period according to the embodiment of the present invention includes the length (a) of the silent section, the temporal position (b) at the start of utterance, the number of silence periods from the start of utterance, The total length of the silent section, the time after the end of the previous silent section, and the like. By constructing the information on the silent section to be extracted as described above, a quick and precise evaluation of the language performance becomes possible.

묵음구간 유사도 계산 모듈(11)의 묵음구간 유사도 계산 시 정확도를 더 향상시키기 위해 본 발명의 일실시예에 따른 사용자 묵음구간 추출 모듈(10) 및 참조 묵음구간 추출 모듈(30)은 사용자 묵음구간 정보 및 참조 묵음구간 정보에 묵음구간 직전의 시그널 정보 및 직후의 시그널 정보 중 적어도 하나를 더 포함할 수 있다. 이러한 시그널 정보는, 예를 들어, 음소 정보 또는 주파수 정보를 포함할 수 있다. 본 발명의 일실시예에 따라 사용자 묵음구간 추출 모듈(10) 및 참조 묵음구간 추출 모듈(30)에서 추출되는 묵음구간 정보에 묵음구간 직전 및 직후의 시그널 정보 중 적어도 하나가 더 포함되는 경우, 사용자 묵음구간과 참조 묵음구간의 매칭이 정교해지는 효과가 발생되고, 묵음구간 유사도 판단이 정교해지므로 어학 퍼포먼스 평가의 정확도가 향상되며, 묵음구간 싱크만 맞추는 어뷰징을 방지할 수 있게 되는 효과가 발생된다.The user silence interval extraction module 10 and the reference silence interval extraction module 30 according to an embodiment of the present invention may further include a silence interval extraction module 30 for calculating the silence interval similarity of the silence interval similarity calculation module 11, And the reference silence section information may further include at least one of signal information immediately before the silence section and signal information immediately after the silence section. Such signal information may include, for example, phoneme information or frequency information. If at least one of the silence interval information immediately before and after the silence interval is further included in the silence interval information extracted from the user silence interval extraction module 10 and the reference silence interval extraction module 30 according to an embodiment of the present invention, The matching between the silent section and the reference silent section is elaborated, and the determination of the similarity degree of the silent section is elaborated, so that the accuracy of the language performance evaluation is improved and the effect of enabling the observer to avoid only the silent section sink can be avoided.

묵음구간 유사도 계산 모듈(11)은 사용자 묵음구간 추출 모듈(10)에서 상기 사용자 묵음구간에 대한 정보를 수신하고, 참조 묵음구간 추출 모듈(30)에서 참조 묵음구간에 대한 정보를 수신하며, 참조 묵음구간과 상기 사용자 묵음구간의 유사도인 묵음구간 유사도를 계산하는 모듈이다. 본 발명의 일실시예에 따른 묵음구간 유사도 계산 모듈(11)은 복수의 사용자의 클라이언트의 애플리케이션에 각각 구비되어 각 클라이언트가 자체적으로 참조 묵음구간과 사용자 묵음구간의 유사도인 묵음구간 유사도를 계산하도록 구성될 수 있다. 또한, 본 발명의 일실시예에 따른 묵음구간 유사도 계산 모듈(11)은 서버에 구비되어 서버가 묵음구간 유사도를 계산하여 그에 맞는 피드백을 결정한 뒤 각 클라이언트에 출력하도록 구성 될수도 있다. The silence period similarity calculation module 11 receives information on the user silence period in the user silence period extraction module 10, receives information on the reference silence period in the reference silence period extraction module 30, Which is a similarity between the user silence interval and the user silence interval. The silence period similarity calculation module 11 according to an exemplary embodiment of the present invention is provided in each application of a plurality of users' clients to configure each client to calculate the silence interval similarity, which is the similarity between the reference silence period and the user silence period . In addition, the silence period similarity calculation module 11 according to an exemplary embodiment of the present invention may be provided in the server, and the server may calculate the silence interval similarity, determine the feedback according to the calculated silence interval similarity, and output the result to each client.

묵음구간 유사도 계산 모듈(11)의 묵음구간 유사도 계산 방법과 관련하여, 본 발명의 일실시예에 따른 묵음구간 유사도 계산 모듈(11)은 사용자 묵음구간 정보에 포함되는 발화시작에서의 시간적 위치, 발화시작부터 몇 번째 묵음구간인지 등을 토대로 유사도를 계산하고자 하는 사용자 묵음구간에 대응되는 참조 묵음구간을 매칭하고, 사용자 묵음구간 정보와 해당 참조 묵음구간에 대응되는 참조 묵음구간 정보를 토대로 해당 참조 묵음구간과의 유사도를 계산할 수 있다.The silence period similarity calculation module 11 according to the embodiment of the present invention calculates the silence period similarity calculation method of the silence period similarity calculation module 11 based on the temporal position at the start of the speech included in the user silence period information, A reference silence period corresponding to a user silence period for which the similarity degree is to be calculated based on whether the reference silence period is from the start to the reference silence period and based on the user silence period information and the reference silence period information corresponding to the reference silence period, Can be calculated.

특히, 유사도 계산의 정확도를 향상시키기 위해 이전 무음구간이 종료된 시점을 기준으로 시간을 alignment하는 등의 방법으로 참조 음성 데이터(300)와 사용자 음성 데이터(100)의 시간 갭(Gap)을 보정할 수 있다.Particularly, in order to improve the accuracy of the similarity calculation, the time gap (Gap) between the reference speech data 300 and the user speech data 100 is corrected by aligning the time based on the end of the previous silence interval .

묵음구간 유사도 계산 모듈(11)의 묵음구간 유사도 계산 빈도와 관련하여, 본 발명의 일실시예에 따른 묵음구간 유사도 계산 모듈(11)은 사용자 음성 데이터(100)에서 특정 개수의 사용자 묵음구간이 검출될 때마다 사용자 묵음구간과 이에 대응되는 참조 묵음구간과의 묵음구간 유사도를 계산하도록 구성될 수 있다. 이에 따르면, 100ms 내지 500ms 내에 어학 퍼포먼스의 평가가 가능해지므로, 어학 따라말하기에 대한 실시간 피드백이 가능해지는 효과가 발생된다. The silence period similarity calculation module 11 according to an exemplary embodiment of the present invention detects a specific number of user silence periods in the user's voice data 100 with respect to the silence period similarity calculation frequency of the silence period similarity calculation module 11, The silent interval similarity between the user silence interval and the corresponding reference silence interval may be calculated. According to this, evaluation of language performance can be performed within 100 ms to 500 ms, and real-time feedback on speaking based on language is enabled.

어학 퍼포먼스 평가 모듈(20)은 묵음구간 유사도 계산 모듈(11)에서 수신된 상기 묵음구간 유사도를 토대로 상기 사용자 음성 데이터의 어학 퍼포먼스를 평가하여 어학 퍼포먼스 데이터(200)를 생성하는 모듈이다. 어학 퍼포먼스 평가 모듈(20)의 사용자에 대한 어학 퍼포먼스 평가 결과는 다음 어학 콘텐츠의 난이도 결정에 이용될 수 있고, 다음 어학 콘텐츠의 난이도는 참조 음성 데이터(300)의 속도, 어휘, 문법, 발음 등의 요소로 결정될 수 있다.The language performance evaluation module 20 is a module for evaluating the language performance of the user speech data based on the silence interval similarity received by the silence interval similarity calculation module 11 to generate the language performance data 200. The result of the language performance evaluation for the user of the language performance evaluation module 20 can be used for determining the degree of difficulty of the next language content and the difficulty level of the next language content can be determined based on the speed of the reference speech data 300, Element. ≪ / RTI >

어학 퍼포먼스 평가 모듈(20)의 평가 방법과 관련하여, 본 발명의 일실시예에 따른 어학 퍼포먼스 평가 모듈(20)은 묵음구간 유사도 계산 모듈(11)에서 생성된 묵음구간 유사도 정보를 토대로 사용자 묵음구간 정보와 참조 묵음구간 정보가 유사할수록 참조 음성 데이터(300)에 대한 어학 따라말하기를 성공적으로 실시하였다고 평가할 수 있다.The language performance evaluation module 20 according to the embodiment of the present invention compares the silence section similarity degree information generated by the silence section degree similarity degree calculation module 11 with the user silence section The similarity of the reference silence interval information with the reference silence interval information can be evaluated to be successfully performed according to the language of the reference speech data 300.

또는, 어학 퍼포먼스 평가 모듈(20)은 묵음구간 유사도 계산 모듈(11)에서 상기 사용자 묵음구간 및 상기 참조 묵음구간 중 적어도 하나의 길이에 대한 가중치인 구간길이 가중치를 반영하여, 묵음구간의 길이가 길수록 해당 묵음구간의 유사도가 어학 퍼포먼스의 평가 결과에 더 많은 영향을 미치도록 구성될 수 있다. 이와 같이 어학 퍼포먼스 평가 모듈(20)이 구성되는 경우, 참조 음성에서 어떤 묵음 구간을 평가 알고리즘에 반영할지 안할지를 고려하지 않아도 되는 효과가 발생될 수 있다. 따라서, 참조 음성의 말하기 속도로 인한 묵음 구간 패턴의 변화 등에 영향을 거의 받지 않은 평가가 가능하게 되는 효과가 발생된다. 만일 위와 달리 고정된 길이로 평가할 묵음 구간을 취사선택하게 되면, 말이 빠른 사람과 말이 느린 사람의 음성에서 성능차이가 나는 문제가 발생된다.Alternatively, the linguistic performance evaluation module 20 may reflect the interval length weight, which is a weight for at least one of the user silence interval and the reference silence interval, in the silence interval similarity calculation module 11 so that the longer the length of the silence interval The degree of similarity of the silent section may be configured to have a greater effect on the evaluation result of the language performance. When the language performance evaluation module 20 is configured as described above, there is an effect that it is not necessary to consider which silence section should or should not be reflected in the evaluation algorithm in the reference speech. Therefore, there is an effect that it is possible to perform an evaluation which is hardly affected by a change in the silent section pattern due to the speech speed of the reference voice. If we select the silent section to be evaluated with a fixed length, there is a problem that performance difference occurs in the voice of a person having a fast speech and the voice of a person having a slow speech.

참조 묵음구간 추출 모듈(30)은 참조 음성 데이터(300)를 토대로 상기 참조 데이터의 묵음구간인 참조 묵음구간에 대한 정보(참조 묵음구간 정보)를 생성하는 모듈이다. 본 발명의 일실시예에 따른 참조 묵음구간 추출 모듈(30)은 사용자 클라이언트에 구비되어 서버에서 참조 음성 데이터(300)에 대한 정보를 수신하거나, 서버에 구비되어 서버에서 직접 참조 묵음구간에 대한 정보를 생성하도록 구성될 수 있다. The reference silence section extraction module 30 is a module for generating information about a reference silence section (reference silence section information), which is a silence section of the reference data, based on the reference speech data 300. The reference silence interval extraction module 30 according to an embodiment of the present invention is provided in a user client and receives information on the reference speech data 300 from a server or is provided in a server and is provided with information about a reference silence interval . ≪ / RTI >

참조 묵음구간 추출 모듈(30)의 참조 묵음구간 추출 방법과 관련하여, 참조 묵음구간 추출 모듈(30)은 참조 음성 데이터(300)의 음성 파형에서 특정 dB 이하의 구간(또는 특정 진폭 이하)을 참조 묵음구간으로 추출할 수 있다. 본 발명의 일실시예에 따른 참조 묵음구간에 대한 정보(참조 묵음구간 정보)에는 묵음구간의 길이, 발화시작에서의 시간적 위치, 발화시작부터 몇 번째 묵음구간인지, 발화시작부터 묵음구간의 총 길이, 이전 묵음구간 종료 이후의 시간 등을 포함할 수 있다. 본 발명의 일실시예에 따른 참조 묵음구간 추출 모듈(30)은 참조 묵음구간 정보를 실시간으로 추출하지 않고, 미리 추출하여 서버나 클라이언트에 저장하도록 구성될 수 있다. The reference silent section extraction module 30 refers to the reference silent section extraction method of the reference silent section extraction module 30 by referring to the section of the speech sound waveform of the reference speech data 300 It can be extracted as silence section. The information about the reference silence section (reference silence section information) according to the embodiment of the present invention includes the length of the silence section, the temporal position at the start of the utterance, the number of silence sections from the start of utterance, the total length of the silence section , The time after the end of the previous silence period, and the like. The reference silence interval extraction module 30 according to an embodiment of the present invention may extract the reference silence interval information in real time, and extract the reference silence interval information in advance and store the information in the server or the client.

위와 같이, 사용자 음성 데이터(100)와 참조 음성 데이터(300)의 비교를 통해 어학 퍼포먼스를 평가할 때 묵음구간 정보(묵음구간의 길이, 발화시작에서의 시간적 위치, 발화시작부터 몇 번째 묵음구간인지, 발화시작부터 묵음구간의 총 길이, 이전 묵음구간 종료 이후의 시간, 묵음구간 직전의 시그널 정보, 직후의 시그널 정보)의 유사도를 이용하는 경우 매우 빠르게(100ms 내지 500ms 이내에) 사용자의 어학 퍼포먼스를 평가할 수 있게 되며, 어학 따라말하기와 같이 빠르게 난이도 피드백이 필요한 상황에 적용될 수 있는 효과가 발생된다.When the language performance is evaluated through comparison between the user voice data 100 and the reference voice data 300, the silence interval information (the length of the silence section, the temporal position at the start of the utterance, the number of silence periods from the start of utterance, It is possible to evaluate the user's language performance very quickly (within 100 ms to 500 ms) when the similarity of the silence interval from the start of speech to the silence interval, the time after the end of the previous silence interval, the signal information immediately before the silence interval, And there is an effect that can be applied to situations where fast difficulty feedback is required, such as speaking language.

묵음구간 기반의 어학 퍼포먼스 평가 방법Evaluation method of linguistic performance based on silence interval

도 3은 본 발명의 일실시예에 따른 묵음구간 기반의 어학 퍼포먼스 평가 방법을 도시한 흐름도이다. 도 3에 도시된 바와 같이, 본 발명의 일실시예에 따른 묵음구간 기반의 어학 퍼포먼스 평가 방법은, 사용자 묵음구간 추출 단계(S10), 유사도 판단 단계(S20), 어학 퍼포먼스 평가 단계(S30)를 포함할 수 있다.FIG. 3 is a flowchart illustrating a silent interval-based language performance evaluation method according to an embodiment of the present invention. As shown in FIG. 3, the silent interval-based language performance evaluation method according to an embodiment of the present invention includes a user silence interval extraction step S10, a similarity degree determination step S20, and a language performance evaluation step S30 .

사용자 묵음구간 추출 단계(S10)는 사용자 묵음구간 추출 모듈(10)이 사용자 음성 데이터(100)에서 상기 사용자 음성 데이터의 묵음구간인 사용자 묵음구간을 추출하고, 사용자 묵음구간에 대한 정보인 사용자 묵음구간 정보를 생성하는 단계이다. 본 발명의 일실시예에 따른 사용자 묵음구간에 대한 정보(사용자 묵음구간 정보)에는 묵음구간의 길이, 발화시작에서의 시간적 위치, 발화시작부터 몇 번째 묵음구간인지, 발화시작부터 묵음구간의 총 길이, 이전 묵음구간 종료 이후의 시간 등을 포함할 수 있다.In the user silence interval extraction step S10, the user silence interval extraction module 10 extracts a user silence interval, which is a silence interval of the user's voice data, from the user's voice data 100, and a user silence interval Information generating step. The information on the user silence section (user silence section information) according to the embodiment of the present invention includes the length of the silence section, the temporal position at the start of the utterance, the number of silence periods from the start of utterance, , The time after the end of the previous silence period, and the like.

유사도 판단 단계(S20)는 묵음구간 유사도 계산 모듈(11)이 사용자 묵음구간 추출 모듈(10)에서 상기 사용자 묵음구간에 대한 정보를 수신하고, 참조 묵음구간 추출 모듈(30)에서 참조 묵음구간에 대한 정보를 수신하며, 참조 묵음구간과 상기 사용자 묵음구간의 유사도인 묵음구간 유사도를 계산하는 단계이다.In the similarity determination step S20, the silence period similarity calculation module 11 receives the information on the user silence period from the user silence period extraction module 10, and the reference silence period extraction module 30 extracts the reference silence period And calculates the silence interval similarity, which is the similarity between the reference silence period and the user silence period.

어학 퍼포먼스 평가 단계(S30)는 어학 퍼포먼스 평가 모듈(20)이 묵음구간 유사도 계산 모듈(11)에서 수신된 상기 묵음구간 유사도를 토대로 상기 사용자 음성 데이터의 어학 퍼포먼스를 평가하는 단계이다.The language performance evaluation step S30 is a step in which the language performance evaluation module 20 evaluates the language performance of the user speech data based on the silence interval similarity received by the silence period similarity degree calculation module 11. [

변형예Variation example

[[ 제1변형예First Modification -발화시점의 시그널을 - The signal at the firing point. 액티베이션Activation 트리거로As a trigger ]]

본 발명의 제1변형예에 따르면, 본 발명의 일실시예에 따른 묵음구간 기반의 어학 퍼포먼스 평가 장치(1)에 액티베이션 모듈이 더 포함될 수 있다. 본 발명의 제1변형예에 따른 액티베이션 모듈은 참조 음성 데이터(300)의 발화 시작 시 시그널만을 사용자 음성 데이터(100)에서 감지하여 어학 퍼포먼스 평가의 수행을 시작하도록 구성될 수 있다. 본 발명의 제1변형예에 따라 액티베이션 모듈이 더 포함되는 경우, 어학 퍼포먼스 평가 장치(1)가 클라이언트에 구성될 때는 전력 사용량을 저감시켜주고, 묵음구간 유사도 계산 모듈(11)이 서버에 구성될 때는 통신 사용량을 저감시켜주는 효과가 발생된다. According to the first modification of the present invention, the silence interval-based language performance evaluating apparatus 1 according to the embodiment of the present invention may further include an activation module. The activation module according to the first modification of the present invention can be configured to detect only the signal at the start of speech of the reference speech data 300 in the user speech data 100 and to start performing the language performance evaluation. In the case where the activation performance module is further included according to the first modification of the present invention, when the language performance evaluating apparatus 1 is configured in the client, the power consumption is reduced, and the silence period similarity degree calculating module 11 is configured in the server The effect of reducing the communication use amount is generated.

[[ 제2변형예Second Modification -특정 수준까지 올라오는데 걸리는 시간으로 난이도 태깅]- Difficulty tagging time to get to a certain level]

본 발명의 제2변형예에 따르면, 본 발명의 일실시예에 따른 묵음구간 기반의 어학 퍼포먼스 평가 장치(1)에 난이도 태깅 모듈이 더 포함될 수 있다. 본 발명의 제2변형예에 따른 난이도 태깅 모듈은, 사용자가 특정 참조 음성에 대한 어학 따라말하기를 수행할 때, 사용자가 몇 회 반복을 수행하여야 특정 유사도 이상의 결과에 수렴하는지를 트래킹하고 이에 따라 해당 참조 음성의 어학적인 난이도를 결정하여 태깅할 수 있다. 예를 들어, 사용자가 2번 따라말하기로 특정 유사도 이상의 결과에 수렴하게 된 경우에 해당 참조 음성에 난이도 태깅 모듈이 '난이도 낮음'으로 태깅한다면, 사용자가 10번 따라말하기로 특정 유사도 이상의 결과에 수렴하게 된 경우에는 난이도 태깅 모듈이 '난이도 높음'으로 해당 참조 음성에 태깅할 수 있다. 이에 따르면, 사용자의 어학 따라말하기 수행에 따라 자동으로 복수의 참조 음성에 대해 난이도 태깅이 가능해지는 효과가 발생된다.According to the second modification of the present invention, the difficulty tagging module may be further included in the silence interval-based language performance evaluating apparatus 1 according to an embodiment of the present invention. The difficulty tagging module according to the second modification of the present invention tracks how many times the user must perform repetition to converge to a result of a certain degree of similarity or more when the user performs linguistic speaking on a specific reference speech, The linguistic difficulty of the voice can be determined and tagged. For example, if the user converges to a result of more than a certain degree of similarity by saying two times, if the difficulty tagging module tags the reference voice with 'difficulty low', the user converges to a result more than a certain degree of similarity The difficulty tagging module can be tagged with the reference voice as 'difficulty high'. According to this, there is an effect that the difficulty tagging can be automatically performed for a plurality of reference voices according to the performance of speech by the user.

[[ 제3변형예Third Modification -다음 어학 콘텐츠 결정]- Determine next language content]

본 발명의 제3변형예에 따르면, 본 발명의 일실시예에 따른 묵음구간 기반의 어학 퍼포먼스 평가 장치(1)에 어학 콘텐츠 출력 모듈이 더 포함될 수 있다. 본 발명의 제3변형예에 따른 어학 콘텐츠 출력 모듈은, 사용자가 특정 참조 음성에 대한 어학 따라말하기를 수행할 때, 사용자가 몇 회 반복을 수행하여야 특정 유사도 이상의 결과에 수렴하는지를 트래킹하고 이에 따라 다음에 출력할 어학 콘텐츠를 난이도에 알맞게 결정하는 모듈이다. 예를 들어, 사용자가 2번 따라말하기로 특정 유사도 이상의 결과에 수렴하게 된 경우에 어학 콘텐츠 출력 모듈이 해당 참조 음성보다 난이도가 높은 어학 콘텐츠를 출력하고, 사용자가 10번 따라말하기로 특정 유사도 이상의 결과에 수렴하게 된 경우에는 어학 콘텐츠 출력 모듈이 해당 참조 음성보다 난이도가 낮은 어학 콘텐츠를 출력하게 된다. 이에 따르면, 사용자의 어학 따라말하기 수행에 따라 자동으로 난이도가 조절된 어학 콘텐츠가 출력되는 효과가 발생된다.According to the third modified example of the present invention, the linguistic performance output apparatus based on the silence interval-based language performance according to the embodiment of the present invention may further include a language content output module. The language content output module according to the third modified example of the present invention tracks when the user performs speech according to the language of a specific reference speech to see how many times the user has to repeat to converge to a result of more than a certain degree of similarity, And determines the language content to be output to the degree of difficulty according to the degree of difficulty. For example, when the user converges to a result of more than a certain degree of similarity by saying two times, the language content output module outputs linguistic content having a higher level of difficulty than the reference voice. When the user speaks 10 times, The linguistic content output module outputs linguistic content having a lower degree of difficulty than the reference voice. According to this, the effect of outputting the linguistic content in which the degree of difficulty is automatically adjusted according to the linguistic follow-up performance of the user is generated.

[[ 제4변형예Fourth Modification -묵음구간 사이에서는 음 높낮이 정보를 추가 비교]- In the silence section, the sound height information is further compared]

본 발명의 제4변형예에 따르면, 본 발명의 일실시예에 따른 묵음구간 기반의 어학 퍼포먼스 평가 장치(1)에서 분석하는 묵음구간 정보에 묵음구간 사이의 음 높낮이 정보(Pitch)를 더 포함할 수 있다. 본 발명의 제4변형예에 따라 묵음구간 정보에 묵음구간 사이의 음 높낮이 정보가 더 포함되게 되면, 보다 정교한 어학 퍼포먼스 평가가 가능해지는 효과가 발생된다.According to the fourth modification of the present invention, the silence interval information analyzed by the silence interval-based language performance evaluating apparatus 1 according to the embodiment of the present invention further includes the pitch height information (Pitch) between the silence intervals . According to the fourth modification of the present invention, when the silence interval information further includes the sound level information between the silence periods, an effect of enabling a more elaborate language performance evaluation is obtained.

[[ 제5변형예Fifth Modification -이전 차수 대비 유사도의 - Similarity to previous order 변화도가The degree of change 낮을 때 특정 수준에 도달한 것으로 판정] It is judged that the specific level is reached when the temperature is low]

본 발명의 제5변형예에 따르면, 본 발명의 일실시예에 따른 묵음구간 기반의 어학 퍼포먼스 평가 장치(1)의 어학 퍼포먼스 평가 모듈(20)에서는 특정 유사도 이상에서 사용자의 어학 따라말하기 반복에 따라 유사도의 변화가 특정 값 이하일 경우 해당 참조 음성에 대해 성공으로 간주하고 다음 어학 콘텐츠를 출력하도록 구성될 수 있다. 본 발명의 제5변형예에 따라 유사도의 변화에 대한 정보를 추가하여 어학 퍼포먼스 평가를 수행하게 되면, 사용자 맞춤형의 어학 퍼포먼스 평가가 가능해지는 효과가 발생된다. According to the fifth modified example of the present invention, in the language performance evaluation module 20 of the silence interval-based language performance evaluation apparatus 1 according to the embodiment of the present invention, If the change in the degree of similarity is less than or equal to a certain value, it can be regarded as success for the reference speech and the next language content can be output. According to the fifth modification of the present invention, when the information about the change in the degree of similarity is added to perform the language performance evaluation, there is an effect that the user-customized language performance evaluation becomes possible.

[[ 제6변형예Sixth Modification -특정 수준에 도달했을 때, 특정 어구의 발음에 대해 해당 어구를 태깅]- When a certain level is reached, tag the phrase for the pronunciation of a specific phrase.

본 발명의 제6변형예에 따르면, 본 발명의 일실시예에 따른 묵음구간 기반의 어학 퍼포먼스 평가 장치(1)는 발음 태깅 모듈을 더 포함할 수 있고, 본 발명의 제6변형예에 따른 발음 태깅 모듈은 특정 유사도 이상에서 사용자 음성 데이터에 대해 해당 어구를 태깅하도록 구성될 수 있다. 본 발명의 제6변형예에 따라 발음 태깅 모듈이 사용자 음성 데이터에 대해 해당 어구를 태깅하게 되면, 사용자의 어학 따라말하기 수행에 따라 자동으로 어구에 대해 발음이 태깅되는 효과가 발생된다. According to a sixth modification of the present invention, the silence interval-based language performance evaluating apparatus 1 according to an embodiment of the present invention may further include an pronunciation tagging module, The tagging module can be configured to tag the corresponding phrase for user voice data at a certain degree of similarity or higher. According to the sixth variation of the present invention, when the pronunciation tagging module tags the corresponding phrase for the user voice data, the pronunciation is tagged automatically for the phrase according to the user's linguistic follow-up performance.

[[ 제7변형예Seventh Modification -상이한 묵음구간의 이전 어구에서만 - Only in previous phrases of different silence periods STTSTT 비교] compare]

본 발명의 제7변형예에 따르면, 본 발명의 일실시예에 따른 묵음구간 기반의 어학 퍼포먼스 평가 장치(1)는 주요 주의 어구 출력 모듈을 더 포함할 수 있다. 본 발명의 제7변형예의 주요 주의 어구 출력 모듈에 따르면, 묵음구간의 유사도가 낮게 나오는 묵음구간의 이전 어구에 대해서 참조 어학 콘텐츠의 텍스트 데이터와 사용자 음성 데이터의 텍스트 데이터를 STT(Speech to text)를 이용해 비교하여, 참조 어학 콘텐츠 중 구체적으로 어떤 부분을 더 주의하여 어학 따라말하기를 수행해야 하는지 정보를 출력할 수 있다. 본 발명의 제7변형예에 따라 주요 주의 어구 출력 모듈이 이용되면, 적은 계산량으로 사용자에게 향상된 피드백을 줄 수 있는 효과가 발생된다. According to the seventh modification of the present invention, the silence interval-based language performance evaluating apparatus 1 according to an embodiment of the present invention may further include a main attention word output module. According to the seventh variant of the seventh variant of the present invention, the text data of the reference language content and the text data of the user voice data are converted into STT (Speech to text) for the previous phrase of the silence section in which the similarity degree of the silence section is low , It is possible to output information indicating which part of the reference language content should be more carefully cared for by the language. According to the seventh modification of the present invention, when the main attention word output module is used, an effect of giving improved feedback to the user with a small calculation amount is generated.

[[ 제8변형예Eighth Modified Example -참조 음성 데이터의 출력 속도로 난이도 조절]- Adjustment of difficulty by output speed of reference voice data]

본 발명의 제8변형예에 따르면, 본 발명의 일실시예에 따른 묵음구간 기반의 어학 퍼포먼스 평가 장치(1)는 난이도 조절 모듈을 더 포함할 수 있다. 본 발명의 제8변형예의 난이도 조절 모듈은 어학 퍼포먼스 평가 모듈(20)에 의해 평가된 사용자의 어학 퍼포먼스에 따라 다음에 출력될 어학 콘텐츠인 참조 음성과 참조 텍스트 중 특히 참조 음성의 출력 속도를 조절하도록 구성될 수 있다. 예를 들어, 어학 퍼포먼스가 '높음'으로 평가된 경우, 이번에 출력된 참조 음성의 출력 속도가 100단어/분이었다면 다음에 출력될 참조 음성의 출력 속도를 150단어/분으로 빠르게 조정하는 것이다. 본 발명의 제8변형예에 따라 사용자의 어학 퍼포먼스에 따라 다음에 출력될 참조 음성의 출력 속도를 조절하게 되면 사용자가 적절한 난이도를 경험할 수 있게 되는 효과가 발생된다.According to the eighth modification of the present invention, the silence interval-based language performance evaluating apparatus 1 according to an embodiment of the present invention may further include a difficulty level adjusting module. The difficulty level adjustment module of the eighth modification of the present invention adjusts the output speed of the reference voice, in particular, the reference voice, which is the language content to be outputted next, according to the language performance of the user evaluated by the language performance evaluation module Lt; / RTI > For example, when the language performance is evaluated as 'high', if the output speed of the reference voice outputted this time is 100 words / minute, the output speed of the reference voice to be outputted next is adjusted to 150 words / minute. According to the eighth modification of the present invention, when the output speed of the reference voice to be output next is adjusted according to the language performance of the user, the user experiences an appropriate degree of difficulty.

[[ 제9변형예Ninth Modification -사용자가 참조 음성을 제공]- the user provides a reference voice]

본 발명의 제9변형예에 따르면, 본 발명의 일실시예에 따른 묵음구간 기반의 어학 퍼포먼스 평가 장치(1)는 참조 음성 수신 모듈을 더 포함할 수 있다. 본 발명의 제9변형예의 참조 음성 수신 모듈은 사용자에게 참조 음성을 수신하고 STT를 이용하여 참조 어학 콘텐츠화한 뒤, 다른 사용자에게 참조 음성 및 참조 어학 콘텐츠로 제공할 수 있다. 이에 따르면, 사용자의 활동에 따라 참조 음성 데이터의 양이 많아지는 효과가 발생된다. According to the ninth modification of the present invention, the silence interval-based language performance evaluating apparatus 1 according to an embodiment of the present invention may further include a reference speech receiving module. The reference voice receiving module of the ninth modification of the present invention can receive the reference voice to the user and convert it into a reference language content using the STT and then provide the reference voice and the reference language content to other users. According to this, the effect of increasing the amount of the reference voice data in accordance with the user's activity occurs.

[[ 제10변형예Tenth modification -사용자가 참조 어학 콘텐츠를 제공]- users provide reference language content]

본 발명의 제10변형예에 따르면, 본 발명의 일실시예에 따른 묵음구간 기반의 어학 퍼포먼스 평가 장치(1)는 참조 어학 콘텐츠 수신 모듈을 더 포함할 수 있다. 본 발명의 제10변형예의 참조 어학 콘텐츠 수신 모듈은 사용자에게 텍스트 기반의 참조 어학 콘텐츠를 수신하고 TTS(Text to speech)를 이용하여 참조 음성 데이터화한 뒤, 다른 사용자에게 참조 음성 및 참조 어학 콘텐츠로 제공할 수 있다. 이에 따르면, 사용자의 활동에 따라 참조 어학 콘텐츠의 양이 많아지는 효과가 발생된다. According to a tenth modification of the present invention, the silence interval-based language performance evaluating apparatus 1 according to an embodiment of the present invention may further include a reference language content receiving module. The reference language content receiving module of the tenth modification of the present invention receives a text-based reference language content from a user and converts it into reference voice data using TTS (Text to Speech), and provides the reference speech and the reference language content to other users can do. According to this, the effect of increasing the amount of the reference language content depends on the activity of the user.

[[ 제11변형예Eleventh Modification -어학 퍼포먼스 평가에 다른 사용자들의 묵음구간 유사도를 이용]- Using other users' silence interval similarity in language performance evaluation]

본 발명의 제11변형예에 따르면, 본 발명의 일실시예에 따른 묵음구간 기반의 어학 퍼포먼스 평가 장치(1)의 어학 퍼포먼스 평가 모듈(20)은 해당 참조 음성에 관한 묵음구간 유사도를 통해 해당 사용자의 어학 퍼포먼스 평가를 수행할 때, 다른 사용자들의 묵음구간 유사도를 이용할 수 있다. 이에 따르면, 별도의 Threshold를 정하지 않고도 통계적으로 사용자들의 어학 성취를 평가할 수 있게 되는 효과가 발생된다. According to the eleventh modification of the present invention, the language performance evaluation module 20 of the silence interval-based language performance evaluating apparatus 1 according to the embodiment of the present invention calculates the silence interval When performing the linguistic performance evaluation of the user, the silence interval similarity of other users can be used. According to this, the effect of statistically evaluating users' language achievement can be obtained without setting a separate threshold.

[[ 제12변형예Twelfth Modification Example -묵음구간 추출 시 - When extracting silence section 퓨리에Fury 변환 이용] Conversion use]

본 발명의 제12변형예에 따르면, 본 발명의 일실시예에 따른 묵음구간 기반의 어학 퍼포먼스 평가 장치(1)의 사용자 묵음구간 추출 모듈(10) 및 참조 묵음구간 추출 모듈(30)은 음성 데이터에서 묵음구간 추출 시 퓨리에 변환을 하여 주파수를 분리하고, 분리된 주파수들 중 dB의 변화가 작은 주파수들을 배경음으로 간주하고, 음성 데이터에서 배경음만이 남은 구간을 묵음구간으로 추출할 수 있다. 이에 따르면, 사용자와 마이크 사이의 거리, 배경의 소음 등에도 불구하고 균일한 어학 퍼포먼스의 평가가 이루어질 수 있는 효과가 있다.According to a twelfth modified example of the present invention, the user silence interval extraction module 10 and the reference silence interval extraction module 30 of the silence interval-based language performance evaluation apparatus 1 according to the embodiment of the present invention are configured to extract, The frequency is separated by the Fourier transform when extracting the silence period, the frequencies with the small changes in dB among the separated frequencies are regarded as background sounds, and the interval in which only the background sound is remaining in the voice data is extracted as the silence period. According to this, there is an effect that a uniform language performance can be evaluated despite the distance between the user and the microphone, the background noise, and the like.

[[ 제13변형예Modification 13 -성공까지 걸리는 시간을 - Time to success. 리워드로With a reward 하는 강화학습으로 개인화] Personalized by reinforcement learning]

이상에서 설명한 바와 같이, 본 발명이 속하는 기술 분야의 통상의 기술자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 상술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다. 본 발명의 범위는 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 등가 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함하는 것으로 해석되어야 한다.As described above, those skilled in the art will appreciate that the present invention may be embodied in other specific forms without departing from the spirit or essential characteristics thereof. It is therefore to be understood that the above-described embodiments are to be considered in all respects only as illustrative and not restrictive. The scope of the present invention is defined by the appended claims rather than the detailed description, and all changes or modifications derived from the meaning and scope of the claims and their equivalents should be construed as being included in the scope of the present invention.

본 명세서 내에 기술된 특징들 및 장점들은 모두를 포함하지 않으며, 특히 많은 추가적인 특징들 및 장점들이 도면들, 명세서, 및 청구항들을 고려하여 당업자에게 명백해질 것이다. 더욱이, 본 명세서에 사용된 언어는 주로 읽기 쉽도록 그리고 교시의 목적으로 선택되었고, 본 발명의 주제를 묘사하거나 제한하기 위해 선택되지 않을 수도 있다는 것을 주의해야 한다.The features and advantages described herein are not all inclusive, and in particular, many additional features and advantages will be apparent to those skilled in the art in view of the drawings, specification, and claims. Moreover, it should be noted that the language used herein is primarily chosen for readability and for purposes of teaching, and may not be selected to delineate or limit the subject matter of the invention.

본 발명의 실시예들의 상기한 설명은 예시의 목적으로 제시되었다. 이는 개시된 정확한 형태로 본 발명을 제한하거나, 빠뜨리는 것 없이 만들려고 의도한 것이 아니다. 당업자는 상기한 개시에 비추어 많은 수정 및 변형이 가능하다는 것을 이해할 수 있다.The foregoing description of embodiments of the invention has been presented for purposes of illustration. It is not intended to be exhaustive or to limit the invention to the precise form disclosed. Those skilled in the art will appreciate that many modifications and variations are possible in light of the above teachings.

그러므로 본 발명의 범위는 상세한 설명에 의해 한정되지 않고, 이를 기반으로 하는 출원의 임의의 청구항들에 의해 한정된다. 따라서, 본 발명의 실시예들의 개시는 예시적인 것이며, 이하의 청구항에 기재된 본 발명의 범위를 제한하는 것은 아니다.The scope of the invention is, therefore, not to be limited by the Detailed Description, but is to be defined by the claims of any application based thereon. Accordingly, the disclosure of embodiments of the invention is illustrative and not restrictive of the scope of the invention, which is set forth in the following claims.

1: 묵음구간 기반의 어학 퍼포먼스 평가 장치
2: 묵음구간
10: 사용자 묵음구간 추출 모듈
11: 묵음구간 유사도 계산 모듈
20: 어학 퍼포먼스 평가 모듈
30: 참조 묵음구간 추출 모듈
100: 사용자 음성 데이터
200: 어학 퍼포먼스 데이터
300: 참조 음성 데이터
a: 묵음구간의 길이
b: 발화시작에서의 시간적 위치
1: Language performance evaluation device based on silence interval
2: Silent section
10: user silence interval extraction module
11: Silence interval similarity calculation module
20: Language Performance Evaluation Module
30: Reference silent section extraction module
100: User voice data
200: Language performance data
300: reference voice data
a: length of the silence section
b: temporal position at the start of speech

Claims (2)

사용자 묵음구간 추출 모듈이 사용자 음성 데이터를 토대로 상기 사용자 음성 데이터의 묵음구간인 사용자 묵음구간을 추출하고, 상기 사용자 묵음구간에 대한 정보인 사용자 묵음구간 정보를 생성하는 사용자 묵음구간 추출 단계;
묵음구간 유사도 계산 모듈이 상기 사용자 묵음구간 정보를 수신하고, 참조 음성 데이터의 묵음구간에 대한 정보인 참조 묵음구간 정보와 상기 사용자 묵음구간 정보의 유사도인 묵음구간 유사도를 계산하는 묵음구간 유사도 계산 단계; 및
어학 퍼포먼스 평가 모듈이 상기 묵음구간 유사도와 다른 사용자의 묵음구간 유사도의 비교를 토대로 상기 사용자 음성 데이터의 어학 퍼포먼스를 평가하는 어학 퍼포먼스 평가 단계;
를 포함하는,
다른 사용자와의 비교를 이용한 묵음구간 기반의 어학 퍼포먼스 평가 방법.
A user silence interval extraction module extracting a user silence interval that is a silence interval of the user voice data based on user voice data and generating user silence interval information that is information on the user silence interval;
A silence interval similarity calculation step of calculating a silence interval similarity between the reference silence interval information and the user silence interval information, the silence interval similarity calculating module receiving the user silence interval information and the silence interval information of the reference speech data; And
A language performance evaluation step in which the language performance evaluation module evaluates the language performance of the user speech data based on the comparison between the silence interval similarity and the silence interval similarity of the other users;
/ RTI >
A method of evaluating linguistic performance based on silence interval using comparison with other users.
사용자 음성 데이터를 토대로 상기 사용자 음성 데이터의 묵음구간인 사용자 묵음구간을 추출하고, 상기 사용자 묵음구간에 대한 정보인 사용자 묵음구간 정보를 생성하는 사용자 묵음구간 추출 모듈;
상기 사용자 묵음구간 정보를 수신하고, 참조 음성 데이터의 묵음구간에 대한 정보인 참조 묵음구간 정보와 상기 사용자 묵음구간 정보의 유사도인 묵음구간 유사도를 계산하는 묵음구간 유사도 계산 모듈; 및
상기 묵음구간 유사도와 다른 사용자의 묵음구간 유사도의 비교를 토대로 상기 사용자의 음성 데이터의 어학 퍼포먼스를 평가하는 어학 퍼포먼스 평가 모듈;
를 포함하는,
다른 사용자와의 비교를 이용한 묵음구간 기반의 어학 퍼포먼스 평가 장치.
A user silence interval extracting module for extracting a user silence interval that is a silence interval of the user voice data based on the user voice data and generating user silence interval information about the user silence interval;
A silence interval similarity calculation module that receives the user silence interval information and calculates a silence interval similarity that is a similarity between the reference silence interval information and the silence interval information of the reference speech data; And
A language performance evaluation module for evaluating the language performance of the user's speech data based on the comparison between the silence interval similarity and the silence interval similarity of the other users;
/ RTI >
A linguistic performance evaluation device based on silence interval using comparison with other users.
KR1020170133424A 2017-10-13 2017-10-13 Apparatus and method for evaluating linguistic performance based on silence interval using comparison with other users KR20190041772A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170133424A KR20190041772A (en) 2017-10-13 2017-10-13 Apparatus and method for evaluating linguistic performance based on silence interval using comparison with other users

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170133424A KR20190041772A (en) 2017-10-13 2017-10-13 Apparatus and method for evaluating linguistic performance based on silence interval using comparison with other users

Publications (1)

Publication Number Publication Date
KR20190041772A true KR20190041772A (en) 2019-04-23

Family

ID=66285347

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170133424A KR20190041772A (en) 2017-10-13 2017-10-13 Apparatus and method for evaluating linguistic performance based on silence interval using comparison with other users

Country Status (1)

Country Link
KR (1) KR20190041772A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210086182A (en) * 2019-12-31 2021-07-08 (주)헤이스타즈 System and method for studying korean pronunciation using voice analysis

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100943477B1 (en) 2007-07-10 2010-02-22 한국방송공사 Method System of Speaking Ability test
KR20160123872A (en) 2015-04-17 2016-10-26 배재대학교 산학협력단 System for evaluating language speaking using mobile terminal and method thereof

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100943477B1 (en) 2007-07-10 2010-02-22 한국방송공사 Method System of Speaking Ability test
KR20160123872A (en) 2015-04-17 2016-10-26 배재대학교 산학협력단 System for evaluating language speaking using mobile terminal and method thereof

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210086182A (en) * 2019-12-31 2021-07-08 (주)헤이스타즈 System and method for studying korean pronunciation using voice analysis
KR20220039679A (en) * 2019-12-31 2022-03-29 (주)헤이스타즈 Method for providing personalized problems for pronunciation evaluation

Similar Documents

Publication Publication Date Title
JP6945695B2 (en) Utterance classifier
US10074371B1 (en) Voice control of remote device by disabling wakeword detection
US10593328B1 (en) Voice control of remote device
US10580405B1 (en) Voice control of remote device
US8849664B1 (en) Realtime acoustic adaptation using stability measures
KR20190109532A (en) Server-side hot warming
US9424837B2 (en) Voice authentication and speech recognition system and method
KR20210009596A (en) Intelligent voice recognizing method, apparatus, and intelligent computing device
JP6078964B2 (en) Spoken dialogue system and program
CN110047481B (en) Method and apparatus for speech recognition
US9940926B2 (en) Rapid speech recognition adaptation using acoustic input
US20070011010A1 (en) Distributed voice recognition system and method
US8996373B2 (en) State detection device and state detecting method
JP2018523156A (en) Language model speech end pointing
US10929754B2 (en) Unified endpointer using multitask and multidomain learning
JP2015004928A (en) Response target voice determination device, response target voice determination method, and response target voice determination program
KR20060022156A (en) Distributed speech recognition system and method
US10854192B1 (en) Domain specific endpointing
US11587547B2 (en) Electronic apparatus and method for controlling thereof
US20190206386A1 (en) Method and system for text-to-speech synthesis
US10143027B1 (en) Device selection for routing of communications
JPWO2009104332A1 (en) Utterance division system, utterance division method, and utterance division program
KR101959080B1 (en) Apparatus and method for evaluating linguistic performance based on silence interval
KR20190041772A (en) Apparatus and method for evaluating linguistic performance based on silence interval using comparison with other users
KR20190041773A (en) Apparatus and method for evaluating linguistic performance based on silence interval using Fourier transform