KR20190041769A - Apparatus and method for evaluating linguistic performance based on pitch and interval of silence - Google Patents
Apparatus and method for evaluating linguistic performance based on pitch and interval of silence Download PDFInfo
- Publication number
- KR20190041769A KR20190041769A KR1020170133421A KR20170133421A KR20190041769A KR 20190041769 A KR20190041769 A KR 20190041769A KR 1020170133421 A KR1020170133421 A KR 1020170133421A KR 20170133421 A KR20170133421 A KR 20170133421A KR 20190041769 A KR20190041769 A KR 20190041769A
- Authority
- KR
- South Korea
- Prior art keywords
- user
- silence interval
- silence
- information
- similarity
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 238000004364 calculation method Methods 0.000 claims abstract description 26
- 238000011156 evaluation Methods 0.000 claims description 52
- 238000000605 extraction Methods 0.000 claims description 34
- 238000012986 modification Methods 0.000 description 33
- 230000004048 modification Effects 0.000 description 33
- 230000000694 effects Effects 0.000 description 19
- 230000004913 activation Effects 0.000 description 9
- 230000002123 temporal effect Effects 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 239000000470 constituent Substances 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 210000004556 brain Anatomy 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 206010071299 Slow speech Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010304 firing Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B19/00—Teaching not covered by other main groups of this subclass
- G09B19/04—Speaking
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/69—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Educational Administration (AREA)
- Tourism & Hospitality (AREA)
- General Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Educational Technology (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Machine Translation (AREA)
Abstract
Description
본 발명은 주요 주의 어구 출력을 위한 묵음구간 기반의 어학 퍼포먼스 평가 장치 및 방법에 관한 것이다. The present invention relates to an apparatus and method for evaluating a linguistic performance based on a silence interval for outputting a main attention word.
어학 교육 서비스는 모바일 디바이스의 높은 점유율 및 디바이스의 컴퓨팅 파워 향상에 힘입어 새로운 패러다임으로 진화하고 있다. 기존의 어학 교육 서비스는 일방적인 교육 콘텐츠의 전달이었다면, 최근의 어학 교육 서비스는 STT(Speech to text), NLP(Natural Language Processing), webRTC 등 기술의 발달로 실시간 피드백을 동반한 양방향 교육의 패러다임으로 전환되고 있다. 이러한 양방향 교육의 일환으로 최근 Speak, 뇌새김, 차이나탄 등의 다양한 어학 서비스에서 말하기에 대한 자동 평가를 수행해주는 것으로 사용자들의 어학 서비스 경험을 향상시키고 있다. Language education services are evolving into a new paradigm, driven by the high share of mobile devices and the enhanced computing power of devices. If the existing language education service was one-sided education contents delivery, recent language education service is a paradigm of interactive education with real-time feedback due to the development of technologies such as STT (Speech to text), NLP (Natural Language Processing) and webRTC . As a part of this interactive education, we are now improving the users' linguistic service experience by performing automatic evaluation of speaking in various language services such as Speak, Brain, and Chinatan.
위와 같은 어학 교육 서비스에서 사용자의 말하기 실력을 평가하는 방법으로 기존에는 주파수 분석을 이용하여 특정 문장과 사용자의 입력 음성이 유사한지 여부를 판정하는 방법, STT(Speech to text)를 이용하여 텍스트로 변환된 사용자의 입력 음성이 특정 문장과 얼마나 유사한지 여부를 판정하는 방법 등이 있었다. 이러한 방법들은 해당 사용자의 어학 말하기 실력을 웹 또는 앱에서 정교하게 평가하는데 많은 도움을 주었다. As a method for evaluating user's speaking ability in the above-mentioned language education service, there is a method of judging whether a specific sentence and a user's input voice are similar using frequency analysis, a method of converting to text using STT (Speech to text) And how to determine whether the input voice of the user is similar to a specific sentence. These methods have been very helpful in elaborately assessing the user's speaking skills in the web or app.
기존의 많은 어학 교육 서비스 중 뇌신경과학적으로 유의미한 학습 방법 중 하나로 "따라말하기"가 있다. 특정 언어의 암묵기억을 빠르게 형성하기 위한 방법인 따라말하기 방법은 특정 문장에 대한 기준 음성(일반적으로 외국인)을 들으면서 동시에 따라말하는 방법을 의미하고, 입에 익을 때까지 반복적으로 말하는 방법이다.Among the many existing language education services, there is "talking along" as one of brain training scientific meaningful learning methods. The follow-up method, which is a method for quickly forming an implicit memory of a specific language, is a method of simultaneously speaking while listening to a reference voice (usually a foreigner) for a specific sentence.
하지만, 기존의 어학 말하기 실력 평가 방법(어학 퍼포먼스 평가)은 컴퓨팅 리소스가 지나치게 커서 사용자의 입력 음성이 종료된 뒤에 어학 퍼포먼스의 평가 결과가 도출될 수밖에 없었고, 어학 따라말하기의 퍼포먼스를 실시간으로 평가하기에는 무리가 있었다. However, the existing language speech evaluation method (language performance evaluation) has a problem that the evaluation result of the language performance can not be obtained after the input voice of the user is terminated because the computing resource is too large, .
따라서, 본 발명의 목적은 기존의 어학 퍼포먼스 평가와 달리 높은 컴퓨팅 리소스를 요구하지 않으면서도 유의미한 어학 퍼포먼스 평가 결과가 도출될 수 있어서 특히 어학 따라말하기의 퍼포먼스를 실시간으로 평가하여 피드백하는 것이 가능하도록 구성되는 묵음구간 기반의 어학 퍼포먼스 평가 장치 및 방법을 제공하는 데에 있다. Therefore, it is an object of the present invention to provide a speech recognition apparatus and a speech recognition method, which are capable of evaluating the performance of speaking based on language in real time, And to provide a device and a method for evaluating a linguistic performance based on a silent section.
이하 본 발명의 목적을 달성하기 위한 구체적 수단에 대하여 설명한다.Hereinafter, specific means for achieving the object of the present invention will be described.
본 발명의 목적은, 액티베이션 모듈이 참조 음성 데이터의 발화 시작 시의 시그널을 사용자 음성 데이터에서 감지하여 어학 퍼포먼스 평가의 수행을 시작하도록 하는 액티베이션 단계; 사용자 묵음구간 추출 모듈이 상기 사용자 음성 데이터를 토대로 상기 사용자 음성 데이터의 묵음구간인 사용자 묵음구간을 추출하고, 상기 사용자 묵음구간에 대한 정보인 사용자 묵음구간 정보를 생성하는 사용자 묵음구간 추출 단계; 및 묵음구간 유사도 계산 모듈이 상기 사용자 묵음구간 정보를 수신하고, 상기 참조 음성 데이터의 묵음구간에 대한 정보인 참조 묵음구간 정보와 상기 사용자 묵음구간 정보의 유사도인 묵음구간 유사도를 계산하는 묵음구간 유사도 계산 단계;를 포함하고, 상기 묵음구간 유사도를 토대로 상기 사용자 음성 데이터의 어학 퍼포먼스를 평가하는 것을 특징으로 하는, 액티베이션 모듈을 이용한 묵음구간 기반의 어학 퍼포먼스 평가 방법을 제공하여 달성될 수 있다.An object of the present invention is to provide an activation step of allowing an activation module to sense a signal at the start of utterance of reference speech data in user speech data to start performing language performance evaluation; A user silence interval extraction module extracting a user silence interval that is a silence interval of the user voice data based on the user voice data and generating user silence interval information that is information on the user silence interval; And a silence interval similarity calculation module that receives the user silence interval information and calculates silence interval similarity, which is the similarity between the reference silence interval information, which is information on the silence interval of the reference speech data, and the user silence interval information, And evaluating the language performance of the user voice data based on the silence interval similarity. The method of evaluating the silence interval based language performance using the activation module may be provided.
본 발명의 다른 목적은, 참조 음성 데이터의 발화 시작 시의 시그널을 사용자 음성 데이터에서 감지하여 어학 퍼포먼스 평가의 수행을 시작하도록 하는 액티베이션 모듈; 사용자 음성 데이터를 토대로 상기 사용자 음성 데이터의 묵음구간인 사용자 묵음구간을 추출하고, 상기 사용자 묵음구간에 대한 정보인 사용자 묵음구간 정보를 생성하는 사용자 묵음구간 추출 모듈; 및 상기 사용자 묵음구간 정보를 수신하고, 참조 음성 데이터의 묵음구간에 대한 정보인 참조 묵음구간 정보와 상기 사용자 묵음구간 정보의 유사도인 묵음구간 유사도를 계산하는 묵음구간 유사도 계산 모듈;를 포함하고, 상기 묵음구간 유사도를 토대로 상기 사용자 음성 데이터의 어학 퍼포먼스를 평가하는 것을 특징으로 하는, 액티베이션 모듈을 이용한 묵음구간 기반의 어학 퍼포먼스 평가 장치를 제공하여 달성될 수 있다.Another object of the present invention is to provide a speech recognition apparatus and a speech recognition method, which can be realized by an activation module for detecting a signal at the start of utterance of reference speech data in user speech data and starting performance of language performance evaluation. A user silence interval extracting module for extracting a user silence interval that is a silence interval of the user voice data based on the user voice data and generating user silence interval information about the user silence interval; And a silence interval similarity calculation module that receives the user silence interval information and calculates silence interval similarity, which is the similarity between the reference silence interval information and the silence interval information, which is information on the silence interval of the reference voice data, And the linguistic performance of the user voice data is evaluated on the basis of the similarity degree of the silence section. The present invention can be achieved by providing a silence interval-based language performance evaluation apparatus using the activation module.
상기한 바와 같이, 본 발명에 의하면 이하와 같은 효과가 있다.As described above, the present invention has the following effects.
첫째, 본 발명의 일실시예에 따르면, 어학 퍼포먼스 평가에 높은 컴퓨팅 파워가 요구되지 않는 효과가 발생된다. First, according to one embodiment of the present invention, an effect that a high computing power is not required for language performance evaluation occurs.
둘째, 본 발명의 일실시에에 따르면, 어학 따라말하기의 퍼포먼스를 실시간으로(예를 들면, 100ms 이내) 평가하여 피드백하는 것이 가능하게 되는 효과가 발생된다. Second, according to one embodiment of the present invention, it is possible to evaluate the performance of language-following speech in real time (for example, within 100 ms) and to feedback it.
셋째, 본 발명의 일실시예에 따르면, 사용자의 음성 녹음 거리나 녹음 퀄리티의 수준에 관계 없이 어학 퍼포먼스를 평가할 수 있게 되는 효과가 발생된다. Third, according to an embodiment of the present invention, language performance can be evaluated regardless of the user's voice recording distance or the level of the recording quality.
본 명세서에 첨부되는 다음의 도면들은 본 발명의 바람직한 실시예를 예시하는 것이며, 발명의 상세한 설명과 함께 본 발명의 기술사상을 더욱 이해시키는 역할을 하는 것이므로, 본 발명은 그러한 도면에 기재된 사항에만 한정되어 해석되어서는 아니 된다.
도 1은 본 발명의 일실시예에 따른 묵음구간 기반의 어학 퍼포먼스 평가 장치를 도시한 모식도,
도 2는 사용자의 음성파형의 예시를 도시한 것,
도 3은 본 발명의 일실시예에 따른 묵음구간 기반의 어학 퍼포먼스 평가 방법을 도시한 흐름도이다. BRIEF DESCRIPTION OF THE DRAWINGS The accompanying drawings, which are included to provide a further understanding of the invention and are incorporated in and constitute a part of this application, illustrate preferred embodiments of the invention and, together with the description, And shall not be interpreted.
BRIEF DESCRIPTION OF THE DRAWINGS FIG. 1 is a schematic diagram showing a linguistic performance evaluation apparatus based on a silence period according to an embodiment of the present invention;
2 shows an example of a user's speech waveform,
FIG. 3 is a flowchart illustrating a silent interval-based language performance evaluation method according to an embodiment of the present invention.
이하 첨부된 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 본 발명을 쉽게 실시할 수 있는 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예에 대한 동작원리를 상세하게 설명함에 있어서 관련된 공지기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다.DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings. In the following detailed description of the operation principle of the preferred embodiment of the present invention, a detailed description of known functions and configurations incorporated herein will be omitted when it may unnecessarily obscure the subject matter of the present invention.
또한, 도면 전체에 걸쳐 유사한 기능 및 작용을 하는 부분에 대해서는 동일한 도면 부호를 사용한다. 명세서 전체에서, 특정 부분이 다른 부분과 연결되어 있다고 할 때, 이는 직접적으로 연결되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고, 간접적으로 연결되어 있는 경우도 포함한다. 또한, 특정 구성요소를 포함한다는 것은 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라, 다른 구성요소를 더 포함할 수 있는 것을 의미한다.The same reference numerals are used for portions having similar functions and functions throughout the drawings. In the specification, when a specific portion is connected to another portion, it includes not only a direct connection but also a case where the other portion is indirectly connected with another element in between. In addition, the inclusion of a specific constituent element does not exclude other constituent elements unless specifically stated otherwise, but may include other constituent elements.
묵음구간 기반의 어학 퍼포먼스 평가 장치A linguistic performance evaluation device based on silence interval
도 1은 본 발명의 일실시예에 따른 묵음구간 기반의 어학 퍼포먼스 평가 장치를 도시한 모식도이다. 도 1에 도시된 바와 같이, 본 발명의 일실시예에 따른 묵음구간 기반의 어학 퍼포먼스 평가 장치(1)는, 사용자 묵음구간 추출 모듈(10), 묵음구간 유사도 계산 모듈(11), 어학 퍼포먼스 평가 모듈(20), 참조 묵음구간 추출 모듈(30)을 포함할 수 있다. 사용자는 어학 퍼포먼스 평가 장치(1)에 사용자 음성 데이터(100)를 입력하게 되는데, 사용자 클라이언트에서 참조 음성이 출력되어 참조 음성을 따라말하는 방식으로 사용자 음성 데이터(100)가 입력되거나, 사용자 클라이언트에서 참조 음성 및 이에 대응되는 참조 어학 콘텐츠(예를 들어, 텍스트)가 출력되어 이를 따라말하는 방식으로 사용자 음성 데이터(100)가 입력될 수 있다.1 is a schematic diagram showing a silence interval-based language performance evaluation apparatus according to an embodiment of the present invention. 1, the silence interval-based language performance evaluation apparatus 1 according to the embodiment of the present invention includes a user silence
사용자 묵음구간 추출 모듈(10)은 사용자 음성 데이터(100)를 토대로 상기 사용자 음성 데이터의 묵음구간인 사용자 묵음구간에 대한 정보를 생성하는 모듈이다. 본 발명의 일실시예에 따른 사용자 묵음구간 추출 모듈(10)은 사용자 클라이언트에 구비되어 서버에 사용자 묵음구간에 대한 정보를 송신하거나, 서버에 구비되어 서버에서 직접 사용자 묵음구간에 대한 정보를 생성하도록 구성될 수 있다. 본 발명의 일실시에에 따른 사용자 묵음구간 추출 모듈(10)이 클라이언트에 구성되고 묵음구간 유사도 계산 모듈(11)이 서버에 구성되는 경우 사용자 음성 데이터(100) 자체(PCM raw data)를 서버에 전송하지 않고 단순히 묵음구간 정보만 서버에 전송되게 되므로 송수신 데이터의 경량화가 가능해지는 효과가 발생된다. 본 발명의 일실시예에 따른 사용자 묵음구간 추출 모듈(10)이 서버에 구비되는 경우, 사용자 클라이언트에서 수신된 사용자 음성 데이터(100)가 그대로 전송되거나 적절히 인코딩되어 서버에 스트리밍 될 수 있다. The user silence
사용자 묵음구간 추출 모듈(10)의 사용자 묵음구간 추출 방법과 관련하여, 사용자 묵음구간 추출 모듈(10)은 사용자 음성 데이터(100)의 음성 파형에서 특정 dB 이하의 구간(또는 특정 진폭 이하)을 사용자 묵음구간으로 추출할 수 있다. 도 2는 사용자의 음성파형의 예시를 도시한 것이고, 도 2에 도시된 바와 같이, 사용자 묵음구간 추출 모듈(10)은 특정 dB 이하의 구간을 사용자 묵음구간(2)으로 정의하여 사용자 묵음구간에 대한 정보를 추출하도록 구성될 수 있다. 본 발명의 일실시예에 따른 사용자 묵음구간에 대한 정보(사용자 묵음구간 정보)에는 묵음구간의 길이(a), 발화시작에서의 시간적 위치(b), 발화시작부터 몇 번째 묵음구간인지, 발화시작부터 묵음구간의 총 길이, 이전 묵음구간 종료 이후의 시간 등을 포함할 수 있다. 추출하는 묵음구간에 대한 정보를 위와 같이 구성하는 것에 의해 빠르면서도 정교한 어학 퍼포먼스 평가가 가능하게 되는 효과가 발생되게 된다.The user silence
묵음구간 유사도 계산 모듈(11)의 묵음구간 유사도 계산 시 정확도를 더 향상시키기 위해 본 발명의 일실시예에 따른 사용자 묵음구간 추출 모듈(10) 및 참조 묵음구간 추출 모듈(30)은 사용자 묵음구간 정보 및 참조 묵음구간 정보에 묵음구간 직전의 시그널 정보 및 직후의 시그널 정보 중 적어도 하나를 더 포함할 수 있다. 이러한 시그널 정보는, 예를 들어, 음소 정보 또는 주파수 정보를 포함할 수 있다. 본 발명의 일실시예에 따라 사용자 묵음구간 추출 모듈(10) 및 참조 묵음구간 추출 모듈(30)에서 추출되는 묵음구간 정보에 묵음구간 직전 및 직후의 시그널 정보 중 적어도 하나가 더 포함되는 경우, 사용자 묵음구간과 참조 묵음구간의 매칭이 정교해지는 효과가 발생되고, 묵음구간 유사도 판단이 정교해지므로 어학 퍼포먼스 평가의 정확도가 향상되며, 묵음구간 싱크만 맞추는 어뷰징을 방지할 수 있게 되는 효과가 발생된다.The user silence
묵음구간 유사도 계산 모듈(11)은 사용자 묵음구간 추출 모듈(10)에서 상기 사용자 묵음구간에 대한 정보를 수신하고, 참조 묵음구간 추출 모듈(30)에서 참조 묵음구간에 대한 정보를 수신하며, 참조 묵음구간과 상기 사용자 묵음구간의 유사도인 묵음구간 유사도를 계산하는 모듈이다. 본 발명의 일실시예에 따른 묵음구간 유사도 계산 모듈(11)은 복수의 사용자의 클라이언트의 애플리케이션에 각각 구비되어 각 클라이언트가 자체적으로 참조 묵음구간과 사용자 묵음구간의 유사도인 묵음구간 유사도를 계산하도록 구성될 수 있다. 또한, 본 발명의 일실시예에 따른 묵음구간 유사도 계산 모듈(11)은 서버에 구비되어 서버가 묵음구간 유사도를 계산하여 그에 맞는 피드백을 결정한 뒤 각 클라이언트에 출력하도록 구성 될수도 있다. The silence period
묵음구간 유사도 계산 모듈(11)의 묵음구간 유사도 계산 방법과 관련하여, 본 발명의 일실시예에 따른 묵음구간 유사도 계산 모듈(11)은 사용자 묵음구간 정보에 포함되는 발화시작에서의 시간적 위치, 발화시작부터 몇 번째 묵음구간인지 등을 토대로 유사도를 계산하고자 하는 사용자 묵음구간에 대응되는 참조 묵음구간을 매칭하고, 사용자 묵음구간 정보와 해당 참조 묵음구간에 대응되는 참조 묵음구간 정보를 토대로 해당 참조 묵음구간과의 유사도를 계산할 수 있다.The silence period
특히, 유사도 계산의 정확도를 향상시키기 위해 이전 무음구간이 종료된 시점을 기준으로 시간을 alignment하는 등의 방법으로 참조 음성 데이터(300)와 사용자 음성 데이터(100)의 시간 갭(Gap)을 보정할 수 있다.Particularly, in order to improve the accuracy of the similarity calculation, the time gap (Gap) between the
묵음구간 유사도 계산 모듈(11)의 묵음구간 유사도 계산 빈도와 관련하여, 본 발명의 일실시예에 따른 묵음구간 유사도 계산 모듈(11)은 사용자 음성 데이터(100)에서 특정 개수의 사용자 묵음구간이 검출될 때마다 사용자 묵음구간과 이에 대응되는 참조 묵음구간과의 묵음구간 유사도를 계산하도록 구성될 수 있다. 이에 따르면, 100ms 내지 500ms 내에 어학 퍼포먼스의 평가가 가능해지므로, 어학 따라말하기에 대한 실시간 피드백이 가능해지는 효과가 발생된다. The silence period
어학 퍼포먼스 평가 모듈(20)은 묵음구간 유사도 계산 모듈(11)에서 수신된 상기 묵음구간 유사도를 토대로 상기 사용자 음성 데이터의 어학 퍼포먼스를 평가하여 어학 퍼포먼스 데이터(200)를 생성하는 모듈이다. 어학 퍼포먼스 평가 모듈(20)의 사용자에 대한 어학 퍼포먼스 평가 결과는 다음 어학 콘텐츠의 난이도 결정에 이용될 수 있고, 다음 어학 콘텐츠의 난이도는 참조 음성 데이터(300)의 속도, 어휘, 문법, 발음 등의 요소로 결정될 수 있다.The language performance evaluation module 20 is a module for evaluating the language performance of the user speech data based on the silence interval similarity received by the silence interval
어학 퍼포먼스 평가 모듈(20)의 평가 방법과 관련하여, 본 발명의 일실시예에 따른 어학 퍼포먼스 평가 모듈(20)은 묵음구간 유사도 계산 모듈(11)에서 생성된 묵음구간 유사도 정보를 토대로 사용자 묵음구간 정보와 참조 묵음구간 정보가 유사할수록 참조 음성 데이터(300)에 대한 어학 따라말하기를 성공적으로 실시하였다고 평가할 수 있다.The language performance evaluation module 20 according to the embodiment of the present invention compares the silence section similarity degree information generated by the silence section degree similarity
또는, 어학 퍼포먼스 평가 모듈(20)은 묵음구간 유사도 계산 모듈(11)에서 상기 사용자 묵음구간 및 상기 참조 묵음구간 중 적어도 하나의 길이에 대한 가중치인 구간길이 가중치를 반영하여, 묵음구간의 길이가 길수록 해당 묵음구간의 유사도가 어학 퍼포먼스의 평가 결과에 더 많은 영향을 미치도록 구성될 수 있다. 이와 같이 어학 퍼포먼스 평가 모듈(20)이 구성되는 경우, 참조 음성에서 어떤 묵음 구간을 평가 알고리즘에 반영할지 안할지를 고려하지 않아도 되는 효과가 발생될 수 있다. 따라서, 참조 음성의 말하기 속도로 인한 묵음 구간 패턴의 변화 등에 영향을 거의 받지 않은 평가가 가능하게 되는 효과가 발생된다. 만일 위와 달리 고정된 길이로 평가할 묵음 구간을 취사선택하게 되면, 말이 빠른 사람과 말이 느린 사람의 음성에서 성능차이가 나는 문제가 발생된다.Alternatively, the linguistic performance evaluation module 20 may reflect the interval length weight, which is a weight for at least one of the user silence interval and the reference silence interval, in the silence interval
참조 묵음구간 추출 모듈(30)은 참조 음성 데이터(300)를 토대로 상기 참조 데이터의 묵음구간인 참조 묵음구간에 대한 정보(참조 묵음구간 정보)를 생성하는 모듈이다. 본 발명의 일실시예에 따른 참조 묵음구간 추출 모듈(30)은 사용자 클라이언트에 구비되어 서버에서 참조 음성 데이터(300)에 대한 정보를 수신하거나, 서버에 구비되어 서버에서 직접 참조 묵음구간에 대한 정보를 생성하도록 구성될 수 있다. The reference silence section extraction module 30 is a module for generating information about a reference silence section (reference silence section information), which is a silence section of the reference data, based on the
참조 묵음구간 추출 모듈(30)의 참조 묵음구간 추출 방법과 관련하여, 참조 묵음구간 추출 모듈(30)은 참조 음성 데이터(300)의 음성 파형에서 특정 dB 이하의 구간(또는 특정 진폭 이하)을 참조 묵음구간으로 추출할 수 있다. 본 발명의 일실시예에 따른 참조 묵음구간에 대한 정보(참조 묵음구간 정보)에는 묵음구간의 길이, 발화시작에서의 시간적 위치, 발화시작부터 몇 번째 묵음구간인지, 발화시작부터 묵음구간의 총 길이, 이전 묵음구간 종료 이후의 시간 등을 포함할 수 있다. 본 발명의 일실시예에 따른 참조 묵음구간 추출 모듈(30)은 참조 묵음구간 정보를 실시간으로 추출하지 않고, 미리 추출하여 서버나 클라이언트에 저장하도록 구성될 수 있다. The reference silent section extraction module 30 refers to the reference silent section extraction method of the reference silent section extraction module 30 by referring to the section of the speech sound waveform of the
위와 같이, 사용자 음성 데이터(100)와 참조 음성 데이터(300)의 비교를 통해 어학 퍼포먼스를 평가할 때 묵음구간 정보(묵음구간의 길이, 발화시작에서의 시간적 위치, 발화시작부터 몇 번째 묵음구간인지, 발화시작부터 묵음구간의 총 길이, 이전 묵음구간 종료 이후의 시간, 묵음구간 직전의 시그널 정보, 직후의 시그널 정보)의 유사도를 이용하는 경우 매우 빠르게(100ms 내지 500ms 이내에) 사용자의 어학 퍼포먼스를 평가할 수 있게 되며, 어학 따라말하기와 같이 빠르게 난이도 피드백이 필요한 상황에 적용될 수 있는 효과가 발생된다.When the language performance is evaluated through comparison between the user voice data 100 and the
묵음구간 기반의 어학 퍼포먼스 평가 방법Evaluation method of linguistic performance based on silence interval
도 3은 본 발명의 일실시예에 따른 묵음구간 기반의 어학 퍼포먼스 평가 방법을 도시한 흐름도이다. 도 3에 도시된 바와 같이, 본 발명의 일실시예에 따른 묵음구간 기반의 어학 퍼포먼스 평가 방법은, 사용자 묵음구간 추출 단계(S10), 유사도 판단 단계(S20), 어학 퍼포먼스 평가 단계(S30)를 포함할 수 있다.FIG. 3 is a flowchart illustrating a silent interval-based language performance evaluation method according to an embodiment of the present invention. As shown in FIG. 3, the silent interval-based language performance evaluation method according to an embodiment of the present invention includes a user silence interval extraction step S10, a similarity degree determination step S20, and a language performance evaluation step S30 .
사용자 묵음구간 추출 단계(S10)는 사용자 묵음구간 추출 모듈(10)이 사용자 음성 데이터(100)에서 상기 사용자 음성 데이터의 묵음구간인 사용자 묵음구간을 추출하고, 사용자 묵음구간에 대한 정보인 사용자 묵음구간 정보를 생성하는 단계이다. 본 발명의 일실시예에 따른 사용자 묵음구간에 대한 정보(사용자 묵음구간 정보)에는 묵음구간의 길이, 발화시작에서의 시간적 위치, 발화시작부터 몇 번째 묵음구간인지, 발화시작부터 묵음구간의 총 길이, 이전 묵음구간 종료 이후의 시간 등을 포함할 수 있다.In the user silence interval extraction step S10, the user silence
유사도 판단 단계(S20)는 묵음구간 유사도 계산 모듈(11)이 사용자 묵음구간 추출 모듈(10)에서 상기 사용자 묵음구간에 대한 정보를 수신하고, 참조 묵음구간 추출 모듈(30)에서 참조 묵음구간에 대한 정보를 수신하며, 참조 묵음구간과 상기 사용자 묵음구간의 유사도인 묵음구간 유사도를 계산하는 단계이다.In the similarity determination step S20, the silence period
어학 퍼포먼스 평가 단계(S30)는 어학 퍼포먼스 평가 모듈(20)이 묵음구간 유사도 계산 모듈(11)에서 수신된 상기 묵음구간 유사도를 토대로 상기 사용자 음성 데이터의 어학 퍼포먼스를 평가하는 단계이다.The language performance evaluation step S30 is a step in which the language performance evaluation module 20 evaluates the language performance of the user speech data based on the silence interval similarity received by the silence period similarity
변형예Variation example
[[ 제1변형예First Modification -발화시점의 시그널을 - The signal at the firing point. 액티베이션Activation 트리거로As a trigger ]]
본 발명의 제1변형예에 따르면, 본 발명의 일실시예에 따른 묵음구간 기반의 어학 퍼포먼스 평가 장치(1)에 액티베이션 모듈이 더 포함될 수 있다. 본 발명의 제1변형예에 따른 액티베이션 모듈은 참조 음성 데이터(300)의 발화 시작 시 시그널만을 사용자 음성 데이터(100)에서 감지하여 어학 퍼포먼스 평가의 수행을 시작하도록 구성될 수 있다. 본 발명의 제1변형예에 따라 액티베이션 모듈이 더 포함되는 경우, 어학 퍼포먼스 평가 장치(1)가 클라이언트에 구성될 때는 전력 사용량을 저감시켜주고, 묵음구간 유사도 계산 모듈(11)이 서버에 구성될 때는 통신 사용량을 저감시켜주는 효과가 발생된다. According to the first modification of the present invention, the silence interval-based language performance evaluating apparatus 1 according to the embodiment of the present invention may further include an activation module. The activation module according to the first modification of the present invention can be configured to detect only the signal at the start of speech of the
[[ 제2변형예Second Modification -특정 수준까지 올라오는데 걸리는 시간으로 난이도 태깅]- Difficulty tagging time to get to a certain level]
본 발명의 제2변형예에 따르면, 본 발명의 일실시예에 따른 묵음구간 기반의 어학 퍼포먼스 평가 장치(1)에 난이도 태깅 모듈이 더 포함될 수 있다. 본 발명의 제2변형예에 따른 난이도 태깅 모듈은, 사용자가 특정 참조 음성에 대한 어학 따라말하기를 수행할 때, 사용자가 몇 회 반복을 수행하여야 특정 유사도 이상의 결과에 수렴하는지를 트래킹하고 이에 따라 해당 참조 음성의 어학적인 난이도를 결정하여 태깅할 수 있다. 예를 들어, 사용자가 2번 따라말하기로 특정 유사도 이상의 결과에 수렴하게 된 경우에 해당 참조 음성에 난이도 태깅 모듈이 '난이도 낮음'으로 태깅한다면, 사용자가 10번 따라말하기로 특정 유사도 이상의 결과에 수렴하게 된 경우에는 난이도 태깅 모듈이 '난이도 높음'으로 해당 참조 음성에 태깅할 수 있다. 이에 따르면, 사용자의 어학 따라말하기 수행에 따라 자동으로 복수의 참조 음성에 대해 난이도 태깅이 가능해지는 효과가 발생된다.According to the second modification of the present invention, the difficulty tagging module may be further included in the silence interval-based language performance evaluating apparatus 1 according to an embodiment of the present invention. The difficulty tagging module according to the second modification of the present invention tracks how many times the user must perform repetition to converge to a result of a certain degree of similarity or more when the user performs linguistic speaking on a specific reference speech, The linguistic difficulty of the voice can be determined and tagged. For example, if the user converges to a result of more than a certain degree of similarity by saying two times, if the difficulty tagging module tags the reference voice with 'difficulty low', the user converges to a result more than a certain degree of similarity The difficulty tagging module can be tagged with the reference voice as 'difficulty high'. According to this, there is an effect that the difficulty tagging can be automatically performed for a plurality of reference voices according to the performance of speech by the user.
[[ 제3변형예Third Modification -다음 어학 콘텐츠 결정]- Determine next language content]
본 발명의 제3변형예에 따르면, 본 발명의 일실시예에 따른 묵음구간 기반의 어학 퍼포먼스 평가 장치(1)에 어학 콘텐츠 출력 모듈이 더 포함될 수 있다. 본 발명의 제3변형예에 따른 어학 콘텐츠 출력 모듈은, 사용자가 특정 참조 음성에 대한 어학 따라말하기를 수행할 때, 사용자가 몇 회 반복을 수행하여야 특정 유사도 이상의 결과에 수렴하는지를 트래킹하고 이에 따라 다음에 출력할 어학 콘텐츠를 난이도에 알맞게 결정하는 모듈이다. 예를 들어, 사용자가 2번 따라말하기로 특정 유사도 이상의 결과에 수렴하게 된 경우에 어학 콘텐츠 출력 모듈이 해당 참조 음성보다 난이도가 높은 어학 콘텐츠를 출력하고, 사용자가 10번 따라말하기로 특정 유사도 이상의 결과에 수렴하게 된 경우에는 어학 콘텐츠 출력 모듈이 해당 참조 음성보다 난이도가 낮은 어학 콘텐츠를 출력하게 된다. 이에 따르면, 사용자의 어학 따라말하기 수행에 따라 자동으로 난이도가 조절된 어학 콘텐츠가 출력되는 효과가 발생된다.According to the third modified example of the present invention, the linguistic performance output apparatus based on the silence interval-based language performance according to the embodiment of the present invention may further include a language content output module. The language content output module according to the third modified example of the present invention tracks when the user performs speech according to the language of a specific reference speech to see how many times the user has to repeat to converge to a result of more than a certain degree of similarity, And determines the language content to be output to the degree of difficulty according to the degree of difficulty. For example, when the user converges to a result of more than a certain degree of similarity by saying two times, the language content output module outputs linguistic content having a higher level of difficulty than the reference voice. When the user speaks 10 times, The linguistic content output module outputs linguistic content having a lower degree of difficulty than the reference voice. According to this, the effect of outputting the linguistic content in which the degree of difficulty is automatically adjusted according to the linguistic follow-up performance of the user is generated.
[[ 제4변형예Fourth Modification -묵음구간 사이에서는 음 높낮이 정보를 추가 비교]- In the silence section, the sound height information is further compared]
본 발명의 제4변형예에 따르면, 본 발명의 일실시예에 따른 묵음구간 기반의 어학 퍼포먼스 평가 장치(1)에서 분석하는 묵음구간 정보에 묵음구간 사이의 음 높낮이 정보(Pitch)를 더 포함할 수 있다. 본 발명의 제4변형예에 따라 묵음구간 정보에 묵음구간 사이의 음 높낮이 정보가 더 포함되게 되면, 보다 정교한 어학 퍼포먼스 평가가 가능해지는 효과가 발생된다.According to the fourth modification of the present invention, the silence interval information analyzed by the silence interval-based language performance evaluating apparatus 1 according to the embodiment of the present invention further includes the pitch height information (Pitch) between the silence intervals . According to the fourth modification of the present invention, when the silence interval information further includes the sound level information between the silence periods, an effect of enabling a more elaborate language performance evaluation is obtained.
[[ 제5변형예Fifth Modification -이전 차수 대비 유사도의 - Similarity to previous order 변화도가The degree of change 낮을 때 특정 수준에 도달한 것으로 판정] It is judged that the specific level is reached when the temperature is low]
본 발명의 제5변형예에 따르면, 본 발명의 일실시예에 따른 묵음구간 기반의 어학 퍼포먼스 평가 장치(1)의 어학 퍼포먼스 평가 모듈(20)에서는 특정 유사도 이상에서 사용자의 어학 따라말하기 반복에 따라 유사도의 변화가 특정 값 이하일 경우 해당 참조 음성에 대해 성공으로 간주하고 다음 어학 콘텐츠를 출력하도록 구성될 수 있다. 본 발명의 제5변형예에 따라 유사도의 변화에 대한 정보를 추가하여 어학 퍼포먼스 평가를 수행하게 되면, 사용자 맞춤형의 어학 퍼포먼스 평가가 가능해지는 효과가 발생된다. According to the fifth modified example of the present invention, in the language performance evaluation module 20 of the silence interval-based language performance evaluation apparatus 1 according to the embodiment of the present invention, If the change in the degree of similarity is less than or equal to a certain value, it can be regarded as success for the reference speech and the next language content can be output. According to the fifth modification of the present invention, when the information about the change in the degree of similarity is added to perform the language performance evaluation, there is an effect that the user-customized language performance evaluation becomes possible.
[[ 제6변형예Sixth Modification -특정 수준에 도달했을 때, 특정 어구의 발음에 대해 해당 어구를 태깅]- When a certain level is reached, tag the phrase for the pronunciation of a specific phrase.
본 발명의 제6변형예에 따르면, 본 발명의 일실시예에 따른 묵음구간 기반의 어학 퍼포먼스 평가 장치(1)는 발음 태깅 모듈을 더 포함할 수 있고, 본 발명의 제6변형예에 따른 발음 태깅 모듈은 특정 유사도 이상에서 사용자 음성 데이터에 대해 해당 어구를 태깅하도록 구성될 수 있다. 본 발명의 제6변형예에 따라 발음 태깅 모듈이 사용자 음성 데이터에 대해 해당 어구를 태깅하게 되면, 사용자의 어학 따라말하기 수행에 따라 자동으로 어구에 대해 발음이 태깅되는 효과가 발생된다. According to a sixth modification of the present invention, the silence interval-based language performance evaluating apparatus 1 according to an embodiment of the present invention may further include an pronunciation tagging module, The tagging module can be configured to tag the corresponding phrase for user voice data at a certain degree of similarity or higher. According to the sixth variation of the present invention, when the pronunciation tagging module tags the corresponding phrase for the user voice data, the pronunciation is tagged automatically for the phrase according to the user's linguistic follow-up performance.
[[ 제7변형예Seventh Modification -상이한 묵음구간의 이전 어구에서만 - Only in previous phrases of different silence periods STTSTT 비교] compare]
본 발명의 제7변형예에 따르면, 본 발명의 일실시예에 따른 묵음구간 기반의 어학 퍼포먼스 평가 장치(1)는 주요 주의 어구 출력 모듈을 더 포함할 수 있다. 본 발명의 제7변형예의 주요 주의 어구 출력 모듈에 따르면, 묵음구간의 유사도가 낮게 나오는 묵음구간의 이전 어구에 대해서 참조 어학 콘텐츠의 텍스트 데이터와 사용자 음성 데이터의 텍스트 데이터를 STT(Speech to text)를 이용해 비교하여, 참조 어학 콘텐츠 중 구체적으로 어떤 부분을 더 주의하여 어학 따라말하기를 수행해야 하는지 정보를 출력할 수 있다. 본 발명의 제7변형예에 따라 주요 주의 어구 출력 모듈이 이용되면, 적은 계산량으로 사용자에게 향상된 피드백을 줄 수 있는 효과가 발생된다. According to the seventh modification of the present invention, the silence interval-based language performance evaluating apparatus 1 according to an embodiment of the present invention may further include a main attention word output module. According to the seventh variant of the seventh variant of the present invention, the text data of the reference language content and the text data of the user voice data are converted into STT (Speech to text) for the previous phrase of the silence section in which the similarity degree of the silence section is low , It is possible to output information indicating which part of the reference language content should be more carefully cared for by the language. According to the seventh modification of the present invention, when the main attention word output module is used, an effect of giving improved feedback to the user with a small calculation amount is generated.
[[ 제8변형예Eighth Modified Example -참조 음성 데이터의 출력 속도로 난이도 조절]- Adjustment of difficulty by output speed of reference voice data]
본 발명의 제8변형예에 따르면, 본 발명의 일실시예에 따른 묵음구간 기반의 어학 퍼포먼스 평가 장치(1)는 난이도 조절 모듈을 더 포함할 수 있다. 본 발명의 제8변형예의 난이도 조절 모듈은 어학 퍼포먼스 평가 모듈(20)에 의해 평가된 사용자의 어학 퍼포먼스에 따라 다음에 출력될 어학 콘텐츠인 참조 음성과 참조 텍스트 중 특히 참조 음성의 출력 속도를 조절하도록 구성될 수 있다. 예를 들어, 어학 퍼포먼스가 '높음'으로 평가된 경우, 이번에 출력된 참조 음성의 출력 속도가 100단어/분이었다면 다음에 출력될 참조 음성의 출력 속도를 150단어/분으로 빠르게 조정하는 것이다. 본 발명의 제8변형예에 따라 사용자의 어학 퍼포먼스에 따라 다음에 출력될 참조 음성의 출력 속도를 조절하게 되면 사용자가 적절한 난이도를 경험할 수 있게 되는 효과가 발생된다.According to the eighth modification of the present invention, the silence interval-based language performance evaluating apparatus 1 according to an embodiment of the present invention may further include a difficulty level adjusting module. The difficulty level adjustment module of the eighth modification of the present invention adjusts the output speed of the reference voice, in particular, the reference voice, which is the language content to be outputted next, according to the language performance of the user evaluated by the language performance evaluation module Lt; / RTI > For example, when the language performance is evaluated as 'high', if the output speed of the reference voice outputted this time is 100 words / minute, the output speed of the reference voice to be outputted next is adjusted to 150 words / minute. According to the eighth modification of the present invention, when the output speed of the reference voice to be output next is adjusted according to the language performance of the user, the user experiences an appropriate degree of difficulty.
[[ 제9변형예Ninth Modification -사용자가 참조 음성을 제공]- the user provides a reference voice]
본 발명의 제9변형예에 따르면, 본 발명의 일실시예에 따른 묵음구간 기반의 어학 퍼포먼스 평가 장치(1)는 참조 음성 수신 모듈을 더 포함할 수 있다. 본 발명의 제9변형예의 참조 음성 수신 모듈은 사용자에게 참조 음성을 수신하고 STT를 이용하여 참조 어학 콘텐츠화한 뒤, 다른 사용자에게 참조 음성 및 참조 어학 콘텐츠로 제공할 수 있다. 이에 따르면, 사용자의 활동에 따라 참조 음성 데이터의 양이 많아지는 효과가 발생된다. According to the ninth modification of the present invention, the silence interval-based language performance evaluating apparatus 1 according to an embodiment of the present invention may further include a reference speech receiving module. The reference voice receiving module of the ninth modification of the present invention can receive the reference voice to the user and convert it into a reference language content using the STT and then provide the reference voice and the reference language content to other users. According to this, the effect of increasing the amount of the reference voice data in accordance with the user's activity occurs.
[[ 제10변형예Tenth modification -사용자가 참조 어학 콘텐츠를 제공]- users provide reference language content]
본 발명의 제10변형예에 따르면, 본 발명의 일실시예에 따른 묵음구간 기반의 어학 퍼포먼스 평가 장치(1)는 참조 어학 콘텐츠 수신 모듈을 더 포함할 수 있다. 본 발명의 제10변형예의 참조 어학 콘텐츠 수신 모듈은 사용자에게 텍스트 기반의 참조 어학 콘텐츠를 수신하고 TTS(Text to speech)를 이용하여 참조 음성 데이터화한 뒤, 다른 사용자에게 참조 음성 및 참조 어학 콘텐츠로 제공할 수 있다. 이에 따르면, 사용자의 활동에 따라 참조 어학 콘텐츠의 양이 많아지는 효과가 발생된다. According to a tenth modification of the present invention, the silence interval-based language performance evaluating apparatus 1 according to an embodiment of the present invention may further include a reference language content receiving module. The reference language content receiving module of the tenth modification of the present invention receives a text-based reference language content from a user and converts it into reference voice data using TTS (Text to Speech), and provides the reference speech and the reference language content to other users can do. According to this, the effect of increasing the amount of the reference language content depends on the activity of the user.
[[ 제11변형예Eleventh Modification -어학 퍼포먼스 평가에 다른 사용자들의 묵음구간 유사도를 이용]- Using other users' silence interval similarity in language performance evaluation]
본 발명의 제11변형예에 따르면, 본 발명의 일실시예에 따른 묵음구간 기반의 어학 퍼포먼스 평가 장치(1)의 어학 퍼포먼스 평가 모듈(20)은 해당 참조 음성에 관한 묵음구간 유사도를 통해 해당 사용자의 어학 퍼포먼스 평가를 수행할 때, 다른 사용자들의 묵음구간 유사도를 이용할 수 있다. 이에 따르면, 별도의 Threshold를 정하지 않고도 통계적으로 사용자들의 어학 성취를 평가할 수 있게 되는 효과가 발생된다. According to the eleventh modification of the present invention, the language performance evaluation module 20 of the silence interval-based language performance evaluating apparatus 1 according to the embodiment of the present invention calculates the silence interval When performing the linguistic performance evaluation of the user, the silence interval similarity of other users can be used. According to this, the effect of statistically evaluating users' language achievement can be obtained without setting a separate threshold.
[[ 제12변형예Twelfth Modification Example -묵음구간 추출 시 - When extracting silence section 퓨리에Fury 변환 이용] Conversion use]
본 발명의 제12변형예에 따르면, 본 발명의 일실시예에 따른 묵음구간 기반의 어학 퍼포먼스 평가 장치(1)의 사용자 묵음구간 추출 모듈(10) 및 참조 묵음구간 추출 모듈(30)은 음성 데이터에서 묵음구간 추출 시 퓨리에 변환을 하여 주파수를 분리하고, 분리된 주파수들 중 dB의 변화가 작은 주파수들을 배경음으로 간주하고, 음성 데이터에서 배경음만이 남은 구간을 묵음구간으로 추출할 수 있다. 이에 따르면, 사용자와 마이크 사이의 거리, 배경의 소음 등에도 불구하고 균일한 어학 퍼포먼스의 평가가 이루어질 수 있는 효과가 있다.According to a twelfth modified example of the present invention, the user silence
[[ 제13변형예Modification 13 -성공까지 걸리는 시간을 - Time to success. 리워드로With a reward 하는 강화학습으로 개인화] Personalized by reinforcement learning]
이상에서 설명한 바와 같이, 본 발명이 속하는 기술 분야의 통상의 기술자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 상술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다. 본 발명의 범위는 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 등가 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함하는 것으로 해석되어야 한다.As described above, those skilled in the art will appreciate that the present invention may be embodied in other specific forms without departing from the spirit or essential characteristics thereof. It is therefore to be understood that the above-described embodiments are to be considered in all respects only as illustrative and not restrictive. The scope of the present invention is defined by the appended claims rather than the detailed description, and all changes or modifications derived from the meaning and scope of the claims and their equivalents should be construed as being included in the scope of the present invention.
본 명세서 내에 기술된 특징들 및 장점들은 모두를 포함하지 않으며, 특히 많은 추가적인 특징들 및 장점들이 도면들, 명세서, 및 청구항들을 고려하여 당업자에게 명백해질 것이다. 더욱이, 본 명세서에 사용된 언어는 주로 읽기 쉽도록 그리고 교시의 목적으로 선택되었고, 본 발명의 주제를 묘사하거나 제한하기 위해 선택되지 않을 수도 있다는 것을 주의해야 한다.The features and advantages described herein are not all inclusive, and in particular, many additional features and advantages will be apparent to those skilled in the art in view of the drawings, specification, and claims. Moreover, it should be noted that the language used herein is primarily chosen for readability and for purposes of teaching, and may not be selected to delineate or limit the subject matter of the invention.
본 발명의 실시예들의 상기한 설명은 예시의 목적으로 제시되었다. 이는 개시된 정확한 형태로 본 발명을 제한하거나, 빠뜨리는 것 없이 만들려고 의도한 것이 아니다. 당업자는 상기한 개시에 비추어 많은 수정 및 변형이 가능하다는 것을 이해할 수 있다.The foregoing description of embodiments of the invention has been presented for purposes of illustration. It is not intended to be exhaustive or to limit the invention to the precise form disclosed. Those skilled in the art will appreciate that many modifications and variations are possible in light of the above teachings.
그러므로 본 발명의 범위는 상세한 설명에 의해 한정되지 않고, 이를 기반으로 하는 출원의 임의의 청구항들에 의해 한정된다. 따라서, 본 발명의 실시예들의 개시는 예시적인 것이며, 이하의 청구항에 기재된 본 발명의 범위를 제한하는 것은 아니다.The scope of the invention is, therefore, not to be limited by the Detailed Description, but is to be defined by the claims of any application based thereon. Accordingly, the disclosure of embodiments of the invention is illustrative and not restrictive of the scope of the invention, which is set forth in the following claims.
1: 묵음구간 기반의 어학 퍼포먼스 평가 장치
2: 묵음구간
10: 사용자 묵음구간 추출 모듈
11: 묵음구간 유사도 계산 모듈
20: 어학 퍼포먼스 평가 모듈
30: 참조 묵음구간 추출 모듈
100: 사용자 음성 데이터
200: 어학 퍼포먼스 데이터
300: 참조 음성 데이터
a: 묵음구간의 길이
b: 발화시작에서의 시간적 위치1: Language performance evaluation device based on silence interval
2: Silent section
10: user silence interval extraction module
11: Silence interval similarity calculation module
20: Language Performance Evaluation Module
30: Reference silent section extraction module
100: User voice data
200: Language performance data
300: reference voice data
a: length of the silence section
b: temporal position at the start of speech
Claims (2)
묵음구간 유사도 계산 모듈이 상기 사용자 묵음구간 정보를 수신하고, 참조 음성 데이터의 묵음구간에 대한 정보인 참조 묵음구간 정보와 상기 사용자 묵음구간 정보의 유사도인 묵음구간 유사도를 계산하는 묵음구간 유사도 계산 단계;
어학 퍼포먼스 평가 모듈이 상기 묵음구간 유사도를 토대로 상기 사용자 음성 데이터의 어학 퍼포먼스를 평가하는 어학 퍼포먼스 평가 단계; 및
주요 주의 어구 출력 모듈이 상기 묵음구간의 유사도가 낮게 나오는 묵음구간의 이전 어구에 대해서 상기 참조 음성 데이터의 텍스트 데이터와 상기 사용자 음성 데이터의 텍스트 데이터를 STT(Speech to text)를 이용해 비교하여, 참조 음성 데이터 중 구체적으로 어떤 부분을 더 주의하여 어학 따라말하기를 수행해야 하는지에 대한 정보인 주요 주의 어구 정보를 출력하는 주요 주의 어구 출력 단계;
를 포함하는,
주요 주의 어구 출력을 위한 묵음구간 기반의 어학 퍼포먼스 평가 방법.
A user silence interval extraction module extracting a user silence interval that is a silence interval of the user voice data based on user voice data and generating user silence interval information that is information on the user silence interval;
A silence interval similarity calculation step of calculating a silence interval similarity between the reference silence interval information and the user silence interval information, the silence interval similarity calculating module receiving the user silence interval information and the silence interval information of the reference speech data;
A language performance evaluation step in which the language performance evaluation module evaluates the language performance of the user voice data based on the silence interval similarity; And
The main attention word output module compares the text data of the reference speech data with the text data of the user speech data by using STT (Speech to text) for the previous phrase of the silence section in which the similarity degree of the silence section is low, Outputting the main attention word outputting information of the main attention word, which is information on which part of the data should be more specifically cautiously followed by speech-based speech;
/ RTI >
A method of evaluating linguistic performance based on silence interval for output of major notes.
상기 사용자 묵음구간 정보를 수신하고, 참조 음성 데이터의 묵음구간에 대한 정보인 참조 묵음구간 정보와 상기 사용자 묵음구간 정보의 유사도인 묵음구간 유사도를 계산하는 묵음구간 유사도 계산 모듈;
상기 묵음구간 유사도를 토대로 상기 사용자 음성 데이터의 어학 퍼포먼스를 평가하는 어학 퍼포먼스 평가 모듈; 및
상기 묵음구간의 유사도가 낮게 나오는 묵음구간의 이전 어구에 대해서 상기 참조 음성 데이터의 텍스트 데이터와 상기 사용자 음성 데이터의 텍스트 데이터를 STT(Speech to text)를 이용해 비교하여, 참조 음성 데이터 중 구체적으로 어떤 부분을 더 주의하여 어학 따라말하기를 수행해야 하는지에 대한 정보인 주요 주의 어구 정보를 출력하는 주요 주의 어구 출력 모듈;
를 포함하는,
주요 주의 어구 출력을 위한 묵음구간 기반의 어학 퍼포먼스 평가 장치.
A user silence interval extracting module for extracting a user silence interval that is a silence interval of the user voice data based on the user voice data and generating user silence interval information about the user silence interval;
A silence interval similarity calculation module that receives the user silence interval information and calculates a silence interval similarity that is a similarity between the reference silence interval information and the silence interval information of the reference speech data;
A linguistic performance evaluation module for evaluating the linguistic performance of the user speech data based on the silence interval similarity; And
The speech data of the reference speech data and the text data of the user speech data are compared with STT (Speech to Text) for the previous phrase of the silence section in which the similarity degree of the silence section is low, A key attention word output module that outputs information of the main state of the word, which is information on whether to speak the language according to a more careful attention;
/ RTI >
A linguistic performance evaluation device based on the silence interval for the output of the main note.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170133421A KR20190041769A (en) | 2017-10-13 | 2017-10-13 | Apparatus and method for evaluating linguistic performance based on pitch and interval of silence |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170133421A KR20190041769A (en) | 2017-10-13 | 2017-10-13 | Apparatus and method for evaluating linguistic performance based on pitch and interval of silence |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20190041769A true KR20190041769A (en) | 2019-04-23 |
Family
ID=66285123
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020170133421A KR20190041769A (en) | 2017-10-13 | 2017-10-13 | Apparatus and method for evaluating linguistic performance based on pitch and interval of silence |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20190041769A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
USD988279S1 (en) * | 2020-12-16 | 2023-06-06 | Samsung Electronics Co., Ltd. | Television |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100943477B1 (en) | 2007-07-10 | 2010-02-22 | 한국방송공사 | Method System of Speaking Ability test |
KR20160123872A (en) | 2015-04-17 | 2016-10-26 | 배재대학교 산학협력단 | System for evaluating language speaking using mobile terminal and method thereof |
-
2017
- 2017-10-13 KR KR1020170133421A patent/KR20190041769A/en unknown
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100943477B1 (en) | 2007-07-10 | 2010-02-22 | 한국방송공사 | Method System of Speaking Ability test |
KR20160123872A (en) | 2015-04-17 | 2016-10-26 | 배재대학교 산학협력단 | System for evaluating language speaking using mobile terminal and method thereof |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
USD988279S1 (en) * | 2020-12-16 | 2023-06-06 | Samsung Electronics Co., Ltd. | Television |
USD988278S1 (en) * | 2020-12-16 | 2023-06-06 | Samsung Electronics Co., Ltd. | Television |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6945695B2 (en) | Utterance classifier | |
US20200251107A1 (en) | Voice control of remote device | |
US10593328B1 (en) | Voice control of remote device | |
US10074371B1 (en) | Voice control of remote device by disabling wakeword detection | |
EP3433855B1 (en) | Speaker verification method and system | |
JP7244665B2 (en) | end-to-end audio conversion | |
KR102205371B1 (en) | Individualized hotword detection models | |
US9940926B2 (en) | Rapid speech recognition adaptation using acoustic input | |
US7716051B2 (en) | Distributed voice recognition system and method | |
US8849664B1 (en) | Realtime acoustic adaptation using stability measures | |
KR20190109532A (en) | Server-side hot warming | |
WO2019129511A1 (en) | Speaker identification with ultra-short speech segments for far and near field voice assistance applications | |
JP6078964B2 (en) | Spoken dialogue system and program | |
US8996373B2 (en) | State detection device and state detecting method | |
JP2018523156A (en) | Language model speech end pointing | |
US10854192B1 (en) | Domain specific endpointing | |
US20200117996A1 (en) | Unified Endpointer Using Multitask and Multidomain Learning | |
JP2023524088A (en) | End-to-end multi-speaker overlapping speech recognition | |
CN113488026B (en) | Speech understanding model generation method based on pragmatic information and intelligent speech interaction method | |
JPWO2009104332A1 (en) | Utterance division system, utterance division method, and utterance division program | |
CN116114015A (en) | Chaos test for voice-enabled devices | |
US11044567B1 (en) | Microphone degradation detection and compensation | |
KR20190041769A (en) | Apparatus and method for evaluating linguistic performance based on pitch and interval of silence | |
KR101959080B1 (en) | Apparatus and method for evaluating linguistic performance based on silence interval | |
KR20190041772A (en) | Apparatus and method for evaluating linguistic performance based on silence interval using comparison with other users |