KR102631382B1 - System for providing korean education service for korean native speaker - Google Patents

System for providing korean education service for korean native speaker Download PDF

Info

Publication number
KR102631382B1
KR102631382B1 KR1020230077522A KR20230077522A KR102631382B1 KR 102631382 B1 KR102631382 B1 KR 102631382B1 KR 1020230077522 A KR1020230077522 A KR 1020230077522A KR 20230077522 A KR20230077522 A KR 20230077522A KR 102631382 B1 KR102631382 B1 KR 102631382B1
Authority
KR
South Korea
Prior art keywords
pronunciation
instructor
korean
user terminal
user
Prior art date
Application number
KR1020230077522A
Other languages
Korean (ko)
Inventor
김수홍
Original Assignee
주식회사 미카
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 미카 filed Critical 주식회사 미카
Priority to KR1020230077522A priority Critical patent/KR102631382B1/en
Application granted granted Critical
Publication of KR102631382B1 publication Critical patent/KR102631382B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/04Speaking
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/04Electrically-operated educational appliances with audible presentation of the material to be studied
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/08Electrically-operated educational appliances providing for individual presentation of information to a plurality of student stations
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Tourism & Hospitality (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Artificial Intelligence (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

제 1 언어가 한국어인 사용자를 위한 한국어 교육 서비스 제공 시스템이 제공되며, 나이, 성별, 지역 및 직군을 포함하는 인구통계학적 데이터에 대응하는 사용자 정보를 입력하는 사용자 단말, 실시간 강의를 진행하는 교수자 단말, 및 나이, 성별, 지역 및 직군을 포함하는 인구통계학적 데이터에 따라, 표준발음과 현실발음이 다른 경우를, 인구통계학적 데이터에 매핑하여 데이터베이스를 구축하는 구축부, 사용자 단말에서 입력된 사용자 정보를 입력으로 표준발음과 현실발음이 다른 경우를 추출하는 추출부, 사용자 단말에서 현실발음과 다른 표준발음이 포함된 단어 또는 문장을 사용자 단말에서 음성발화하도록 한 후 음성발화된 음성 데이터와 기준 데이터를 비교하여 차이 데이터를 사용자 단말로 전송하는 전송부, 교수자 단말에서 실시간 강의를 시작하기 이전에 차이 데이터를 교수자 단말로 전달하는 강의준비부를 포함하는 교육 서비스 제공 서버를 포함한다.A Korean language education service provision system is provided for users whose first language is Korean, a user terminal that inputs user information corresponding to demographic data including age, gender, region, and occupation, and an instructor terminal that conducts real-time lectures. , and a construction unit that builds a database by mapping cases where the standard pronunciation and actual pronunciation are different depending on demographic data including age, gender, region, and occupation, to demographic data, and user information input from the user terminal. As an input, an extraction unit extracts cases where the standard pronunciation is different from the actual pronunciation. After the user terminal utters a word or sentence containing a standard pronunciation different from the actual pronunciation, the uttered voice data and the reference data are used. It includes an education service providing server including a transmission unit that compares and transmits the difference data to the user terminal, and a lecture preparation unit that transmits the difference data to the instructor terminal before starting a real-time lecture on the instructor terminal.

Description

제 1 언어가 한국어인 사용자를 위한 한국어 교육 서비스 제공 시스템 {SYSTEM FOR PROVIDING KOREAN EDUCATION SERVICE FOR KOREAN NATIVE SPEAKER}Korean education service provision system for users whose first language is Korean {SYSTEM FOR PROVIDING KOREAN EDUCATION SERVICE FOR KOREAN NATIVE SPEAKER}

본 발명은 제 1 언어가 한국어인 사용자를 위한 한국어 교육 서비스 제공 시스템에 관한 것으로, 한국어가 모국어인 사용자를 대상으로 표준발음을 구사하는 아나운서를 통해 스피치 교육을 실시하는 플랫폼을 제공한다.The present invention relates to a Korean language education service provision system for users whose first language is Korean, and provides a platform for conducting speech education through an announcer who speaks standard pronunciation for users whose native language is Korean.

한국어 교육은 의사소통 능력이라는 개념이 등장하면서 언어 지식을 익히기 위한 교육에서 배운 언어를 실제로 사용하는 것에 초점을 두게 되었다. 최근 한국어를 배우는 학습자 수가 증가함에 따라 말하기 교육 연구도 급성장하게 되면서 한국어를 가르치는 교수자 중심의 말하기 교수 연구와 학습자 중심의 말하기 학습 연구도 더불어 증가하는 추세다. 또, 학문 목적과 중국어권 학습자 위주의 말하기 교육 연구에서, 한국인을 위한 한국어 스피치 교육, 즉 일반, 취업, 관광 목적과 같이, 다양한 목적과 중국어권 이외의 보다 다양한 언어권별 한국어 말하기 교육이 요구된다. 그리고, 중급과 초급 수준의 말하기 교재는 눈에 띄게 활발하지만, 고급 수준의 학습자들을 위한 말하기 교재와 콘텐츠는 상대적으로 미비한 실정이다. As the concept of communication ability emerged, Korean language education began to focus on actually using the language learned in education to acquire language knowledge. Recently, as the number of learners learning Korean has increased, speaking education research has also grown rapidly, and speaking teaching research centered on instructors who teach Korean and learner-centered speaking learning research are also increasing. In addition, in research on speaking education focused on academic purposes and Chinese-speaking learners, Korean speaking education for various purposes and language areas other than the Chinese-speaking area is required, such as Korean speech education for Koreans, that is, for general, employment, and tourism purposes. And, although speaking materials for intermediate and beginner levels are noticeably active, speaking materials and content for advanced level learners are relatively lacking.

이때, 아나운서의 표준발음과 유사도를 비교하여 발음교정을 도와주거나 언어장애인의 발성 및 발음을 개선하기 위한 방법이 연구 및 개발되었는데, 이와 관련하여, 선행기술인 한국등록특허 제10-1779361호(2017년09월18일 공고) 및 한국공개특허 제2021-0051278호(2021년05월10일 공개)에는, 사용자 단말에서 수신한 사용자 음성발화와 기 저장된 아나운서 음성발화 간 발음정확도, 속도, 크기 및 억양 간 유사도를 발음분석 알고리즘을 이용하여 분석하고, 사용자의 발음이 아나운서와 다르거나 사용자가 어려워하는 발음을 분류하며, 분류된 발음의 발음연습을 도와주는 구성과, 음성인식 및 몰입형 가상현실을 기반으로 언어훈련을 수행하도록 하며, 자음 정확도에 따라 미리 설정된 조음정확도 데이터를 기반으로 조음장애여부 및 조음장애정도를 파악하는 구성이 각각 개시되어 있다.At this time, a method was researched and developed to help correct pronunciation by comparing the similarity with the announcer's standard pronunciation or to improve the speech and pronunciation of the speech impaired. In this regard, the prior art, Korean Patent No. 10-1779361 (2017) Announced on September 18) and Korean Patent Publication No. 2021-0051278 (published on May 10, 2021), the pronunciation accuracy, speed, size, and intonation between the user's voice utterance received from the user terminal and the previously stored announcer's voice utterance are discussed. The similarity is analyzed using a pronunciation analysis algorithm, the user's pronunciation is different from the announcer's or the pronunciation that the user finds difficult is classified, and the configuration helps to practice pronunciation of the classified pronunciation, and is based on voice recognition and immersive virtual reality. Each configuration is disclosed to perform language training and to determine the presence of articulation disorder and the degree of articulation disorder based on articulation accuracy data preset according to consonant accuracy.

다만, 전자의 경우 발음의 유사도를 분석할 때 음성의 피치 및 주파수를 비교하는 것이기 때문에, 기계적으로 차이를 도출해낸다고 할지라도 일반인인 사용자가 이를 교정하기 위해 어떻게 발음연습을 진행해야 하는지 잘 감을 잡지 못하는 경우가 많다. 후자의 경우에도 조음장애여부를 판단해주고 언어훈련프로그램을 제공하지만 차이가 있거나 틀리게 발음하는 것을 교정해주는 구성은 개시되어 있지 않다. 한국어가 모국어(L1)인 화자는 일상에서 표준발음으로만 발음하지 않고 표준발음과는 차이가 있는 발음으로 발화하기도 한다. 심지어 표준발음으로 발음할 경우 부자연스럽게 들리고, 현실발음으로 발음할 경우 자연스럽게 느끼고 화자의 의도를 이해할 수 있는 경우도 있다. 이에, 표준발음과 현실발음 간의 차이를 아나운서와 같이 표준발음으로 발음할 수 있도록 하면서도, 정확한 한국어 발음을 구사할 수 있는 자격을 갖춘 전문가를 연결할 수 있는, 한국어가 모국어(L1)인 사용자를 위한 플랫폼의 연구 및 개발이 요구된다.However, in the former case, since the pitch and frequency of the voice are compared when analyzing the similarity of pronunciation, even if the difference is mechanically derived, the average user has no idea how to practice pronunciation to correct this. There are many cases. In the latter case, the presence of articulation disorders is determined and a language training program is provided, but a structure for correcting differences or incorrect pronunciation is not disclosed. Speakers whose native language (L1) is Korean do not just use the standard pronunciation in everyday life, but sometimes use pronunciations that differ from the standard pronunciation. There are even cases where it sounds unnatural when pronounced with a standard pronunciation, and when pronounced with a realistic pronunciation, it feels natural and you can understand the speaker's intention. Accordingly, a platform for users whose native language (L1) is Korean, that allows them to pronounce the difference between the standard pronunciation and the actual pronunciation in a standard pronunciation like an announcer, while connecting them with an expert qualified to speak accurate Korean pronunciation. Research and development are required.

본 발명의 일 실시예는, 한국어가 모국어인 사용자가 취업, 교육 및 스피치 훈련을 포함한 목적으로 스피치 교육을 받고자 할 때, 표준발음과 현실발음 간 차이를 배우도록 하고, 한국어가 모국어인 사용자의 인구통계학적 데이터를 기준으로 연령대별, 나이대별, 직군별 자주 사용하는 현실발음을 빅데이터로 구축하여 현실발음에 대응하는 표준발음을 집중적으로 학습하도록 하며, 모음 및 자음에 대한 발성을 정확한 한국어 발음을 구사할 수 있는 자격을 갖춘 전문가인 아나운서에게 배울 수 있도록 스피치 플랫폼을 제공할 수 있는, 제 1 언어가 한국어인 사용자를 위한 한국어 교육 서비스 제공 시스템을 제공할 수 있다.One embodiment of the present invention allows users whose native language is Korean to learn the difference between standard pronunciation and actual pronunciation when they want to receive speech education for purposes including employment, education, and speech training, and to enable the population of users whose native language is Korean. Based on statistical data, frequently used realistic pronunciations by age group, age group, and job group are constructed as big data to intensively learn standard pronunciation corresponding to realistic pronunciation, and the pronunciation of vowels and consonants is used to use accurate Korean pronunciation. It is possible to provide a Korean language education service provision system for users whose first language is Korean, which can provide a speech platform so that they can learn from an announcer who is a qualified expert.

다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.However, the technical challenge that this embodiment aims to achieve is not limited to the technical challenges described above, and other technical challenges may exist.

상기한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 일 실시예는, 나이, 성별, 지역 및 직군을 포함하는 인구통계학적 데이터에 대응하는 사용자 정보를 입력하고, 적어도 하나의 교수자 프로필을 출력하고 어느 하나의 교수자를 선택하여 실시간으로 클래스에 입장한 후 수업을 진행하는 사용자 단말, 적어도 하나의 자격조건검증으로 교수자로 등록되고, 사용자 단말의 선택으로 실시간 강의를 진행하는 교수자 단말 및 나이, 성별, 지역 및 직군을 포함하는 인구통계학적 데이터에 따라, 표준발음과 현실발음이 다른 경우를, 인구통계학적 데이터에 매핑하여 데이터베이스를 구축하는 구축부, 사용자 단말에서 입력된 사용자 정보를 입력으로 표준발음과 현실발음이 다른 경우를 추출하는 추출부, 사용자 단말에서 현실발음과 다른 표준발음이 포함된 단어 또는 문장을 사용자 단말에서 음성발화하도록 한 후 음성발화된 음성 데이터와 기준 데이터를 비교하여 차이 데이터를 사용자 단말로 전송하는 전송부, 교수자 단말에서 실시간 강의를 시작하기 이전에 차이 데이터를 교수자 단말로 전달하는 강의준비부를 포함하는 교육 서비스 제공 서버를 포함한다.As a technical means for achieving the above technical problem, one embodiment of the present invention inputs user information corresponding to demographic data including age, gender, region, and occupation, and outputs at least one instructor profile. A user terminal that selects an instructor, enters the class in real time and conducts the class, is registered as an instructor by verifying at least one qualification, and conducts a real-time lecture based on the selection of the user terminal. The instructor terminal, age, and gender , a construction unit that builds a database by mapping cases where the standard pronunciation and actual pronunciation are different according to demographic data including region and occupation, to demographic data, and standard pronunciation by inputting user information entered from the user terminal. An extraction unit that extracts cases where the actual pronunciation is different from the actual pronunciation, causes the user terminal to vocalize a word or sentence containing a standard pronunciation that is different from the actual pronunciation, and then compares the vocalized speech data with the reference data to generate the difference data. It includes an education service providing server including a transmission unit that transmits to the user terminal and a lecture preparation unit that transmits difference data to the instructor terminal before starting a real-time lecture on the instructor terminal.

상술한 과제 해결 수단은 단지 예시적인 것으로서, 본 발명을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 추가적인 실시예가 존재할 수 있다.The above-described means for solving the problem are merely illustrative and should not be construed as intended to limit the present invention. In addition to the exemplary embodiments described above, additional embodiments may be present in the drawings and detailed description of the invention.

전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 한국어가 모국어인 사용자가 취업, 교육 및 스피치 훈련을 포함한 목적으로 스피치 교육을 받고자 할 때, 표준발음과 현실발음 간 차이를 배우도록 하고, 한국어가 모국어인 사용자의 인구통계학적 데이터를 기준으로 연령대별, 나이대별, 직군별 자주 사용하는 현실발음을 빅데이터로 구축하여 현실발음에 대응하는 표준발음을 집중적으로 학습하도록 하며, 모음 및 자음에 대한 발성을 정확한 한국어 발음을 구사할 수 있는 자격을 갖춘 전문가인 아나운서에게 배울 수 있도록 스피치 플랫폼을 제공할 수 있다.According to one of the means for solving the problem of the present invention described above, when a user whose native language is Korean wants to receive speech education for purposes including employment, education, and speech training, he or she learns the difference between the standard pronunciation and the actual pronunciation, and learns the Korean language. Based on the demographic data of users whose native language is, frequently used realistic pronunciations by age group, age group, and occupation are constructed as big data to intensively learn standard pronunciation corresponding to realistic pronunciation, and vocalization of vowels and consonants. We can provide a speech platform so that people can learn from announcers who are qualified experts who can use accurate Korean pronunciation.

다만, 본 발명에서 얻을 수 있는 효과는 상기된 바와 같은 효과들로 한정되지 않으며, 또 다른 효과들이 존재할 수 있다.However, the effects that can be obtained from the present invention are not limited to the effects described above, and other effects may exist.

도 1은 본 발명의 일 실시예에 따른 제 1 언어가 한국어인 사용자를 위한 한국어 교육 서비스 제공 시스템을 설명하기 위한 도면이다.
도 2는 도 1의 시스템에 포함된 교육 서비스 제공 서버를 설명하기 위한 블록 구성도이다.
도 3 및 도 4는 본 발명의 일 실시예에 따른 제 1 언어가 한국어인 사용자를 위한 한국어 교육 서비스가 구현된 일 실시예를 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시예에 따른 제 1 언어가 한국어인 사용자를 위한 한국어 교육 서비스 제공 방법을 설명하기 위한 동작 흐름도이다.
1 is a diagram illustrating a system for providing Korean language education services for users whose first language is Korean according to an embodiment of the present invention.
FIG. 2 is a block diagram illustrating an education service providing server included in the system of FIG. 1.
Figures 3 and 4 are diagrams for explaining an embodiment in which a Korean education service for users whose first language is Korean is implemented according to an embodiment of the present invention.
Figure 5 is an operation flowchart illustrating a method of providing a Korean language education service for a user whose first language is Korean according to an embodiment of the present invention.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.Below, with reference to the attached drawings, embodiments of the present invention will be described in detail so that those skilled in the art can easily implement the present invention. However, the present invention may be implemented in many different forms and is not limited to the embodiments described herein. In order to clearly explain the present invention in the drawings, parts that are not related to the description are omitted, and similar parts are given similar reference numerals throughout the specification.

본 발명의 명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결" 또는 "간접적으로 연결"되어 있는 경우도 포함한다. Throughout the specification of the present invention, when a part is said to be “connected” to another part, this means not only “directly connected” but also “electrically connected” or “indirectly connected” with another element in between. Also includes cases where it is connected to.

본 발명의 명세서 전체에서, 어떤 부재가 다른 부재 "상에", "상부에", "상단에", "하에", "하부에", "하단에" 위치하고 있다고 할 때, 이는 어떤 부재가 다른 부재에 접해 있는 경우뿐 아니라 두 부재 사이에 또 다른 부재가 존재하는 경우도 포함한다.Throughout the specification of the present invention, when a member is said to be located “on”, “in the upper part”, “at the top”, “below”, “at the bottom”, or “at the bottom” of another member, this means that a member This includes not only cases where a member is in contact with a member, but also cases where another member exists between two members.

본 발명의 명세서 전체에서, 어떤 부분이 어떤 구성 요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다.Throughout the specification of the present invention, when a part is said to “include” a certain component, this means that it may further include other components rather than excluding other components unless specifically stated to the contrary.

본 발명의 명세서 전체에서, 단말, 장치 또는 디바이스가 수행하는 것으로 기술된 동작이나 기능 중 일부는 해당 단말, 장치 또는 디바이스와 연결된 서버에서 대신 수행될 수도 있다. 이와 마찬가지로, 서버가 수행하는 것으로 기술된 동작이나 기능 중 일부도 해당 서버와 연결된 단말, 장치 또는 디바이스에서 수행될 수도 있다.Throughout the specification of the present invention, some of the operations or functions described as being performed by a terminal, apparatus, or device may instead be performed on a server connected to the terminal, apparatus, or device. Likewise, some of the operations or functions described as being performed by the server may also be performed in a terminal, apparatus, or device connected to the server.

본 발명의 명세서 전체에서, '적어도 하나의' 라는 용어는 단수 및 복수를 포함하는 용어로 정의될 수 있고, 적어도 하나의 라는 용어가 존재하지 않더라도 각 구성요소가 단수 또는 복수로 존재할 수 있으며, 단수 또는 복수를 의미할 수 있음은 자명하다 할 것이다. 또한, 각 구성요소가 단수 또는 복수로 구비되는 것은, 실시예에 따라 변경 가능할 수 있다.Throughout the specification of the present invention, the term 'at least one' may be defined as a term including singular and plural, and even if the term 'at least one' does not exist, each component may exist in singular or plural, and singular Or, it is obvious that it can mean revenge. Additionally, whether each component is provided in singular or plural form may vary depending on the embodiment.

본 명세서는 본 출원인의 선등록특허인 한국등록특허 제10-2355960호(2022년02월08일 공고)의 후속특허로, 본 명세서에 기재되지 않은 구성 및 내용은 본 출원인의 선등록특허를 참조하기로 하고 본 명세서에는 상세히 기재하지 않는다.This specification is a successor patent to Korea Patent No. 10-2355960 (announced on February 8, 2022), which is the applicant's pre-registered patent. For structures and contents not described in this specification, refer to the applicant's pre-registered patent. It is decided to do so and will not be described in detail in this specification.

이하 첨부된 도면을 참고하여 본 발명을 상세히 설명하기로 한다.Hereinafter, the present invention will be described in detail with reference to the attached drawings.

도 1은 본 발명의 일 실시예에 따른 제 1 언어가 한국어인 사용자를 위한 한국어 교육 서비스 제공 시스템을 설명하기 위한 도면이다. 도 1을 참조하면, 제 1 언어가 한국어인 사용자를 위한 한국어 교육 서비스 제공 시스템(1)은, 적어도 하나의 사용자 단말(100), 교육 서비스 제공 서버(300), 적어도 하나의 교수자 단말(400)을 포함할 수 있다. 다만, 이러한 도 1의 제 1 언어가 한국어인 사용자를 위한 한국어 교육 서비스 제공 시스템(1)은, 본 발명의 일 실시예에 불과하므로, 도 1을 통하여 본 발명이 한정 해석되는 것은 아니다.1 is a diagram illustrating a system for providing Korean language education services for users whose first language is Korean according to an embodiment of the present invention. Referring to FIG. 1, the Korean education service providing system 1 for a user whose first language is Korean includes at least one user terminal 100, an education service providing server 300, and at least one instructor terminal 400. may include. However, since the Korean education service providing system 1 for users whose first language shown in FIG. 1 is Korean is only an embodiment of the present invention, the present invention is not limitedly interpreted through FIG. 1.

이때, 도 1의 각 구성요소들은 일반적으로 네트워크(Network, 200)를 통해 연결된다. 예를 들어, 도 1에 도시된 바와 같이, 적어도 하나의 사용자 단말(100)은 네트워크(200)를 통하여 교육 서비스 제공 서버(300)와 연결될 수 있다. 그리고, 교육 서비스 제공 서버(300)는, 네트워크(200)를 통하여 적어도 하나의 사용자 단말(100), 적어도 하나의 교수자 단말(400)과 연결될 수 있다. 또한, 적어도 하나의 교수자 단말(400)은, 네트워크(200)를 통하여 교육 서비스 제공 서버(300)와 연결될 수 있다. At this time, each component of FIG. 1 is generally connected through a network (Network, 200). For example, as shown in FIG. 1, at least one user terminal 100 may be connected to the education service providing server 300 through the network 200. In addition, the education service providing server 300 may be connected to at least one user terminal 100 and at least one instructor terminal 400 through the network 200. Additionally, at least one instructor terminal 400 may be connected to the education service providing server 300 through the network 200.

여기서, 네트워크는, 복수의 단말 및 서버들과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 이러한 네트워크의 일 예에는 근거리 통신망(LAN: Local Area Network), 광역 통신망(WAN: Wide Area Network), 인터넷(WWW: World Wide Web), 유무선 데이터 통신망, 전화망, 유무선 텔레비전 통신망 등을 포함한다. 무선 데이터 통신망의 일례에는 3G, 4G, 5G, 3GPP(3rd Generation Partnership Project), 5GPP(5th Generation Partnership Project), LTE(Long Term Evolution), WIMAX(World Interoperability for Microwave Access), 와이파이(Wi-Fi), 인터넷(Internet), LAN(Local Area Network), Wireless LAN(Wireless Local Area Network), WAN(Wide Area Network), PAN(Personal Area Network), RF(Radio Frequency), 블루투스(Bluetooth) 네트워크, NFC(Near-Field Communication) 네트워크, 위성 방송 네트워크, 아날로그 방송 네트워크, DMB(Digital Multimedia Broadcasting) 네트워크 등이 포함되나 이에 한정되지는 않는다.Here, the network refers to a connection structure that allows information exchange between each node, such as a plurality of terminals and servers. Examples of such networks include a local area network (LAN) and a wide area network (WAN). Wide Area Network, Internet (WWW: World Wide Web), wired and wireless data communication network, telephone network, wired and wireless television communication network, etc. Examples of wireless data communication networks include 3G, 4G, 5G, 3rd Generation Partnership Project (3GPP), 5th Generation Partnership Project (5GPP), Long Term Evolution (LTE), World Interoperability for Microwave Access (WIMAX), and Wi-Fi. , Internet, LAN (Local Area Network), Wireless LAN (Wireless Local Area Network), WAN (Wide Area Network), PAN (Personal Area Network), RF (Radio Frequency), Bluetooth network, NFC ( It includes, but is not limited to, Near-Field Communication (Near-Field Communication) network, satellite broadcasting network, analog broadcasting network, and DMB (Digital Multimedia Broadcasting) network.

하기에서, 적어도 하나의 라는 용어는 단수 및 복수를 포함하는 용어로 정의되고, 적어도 하나의 라는 용어가 존재하지 않더라도 각 구성요소가 단수 또는 복수로 존재할 수 있고, 단수 또는 복수를 의미할 수 있음은 자명하다 할 것이다. 또한, 각 구성요소가 단수 또는 복수로 구비되는 것은, 실시예에 따라 변경가능하다 할 것이다.In the following, the term at least one is defined as a term including singular and plural, and even if the term at least one does not exist, each component may exist in singular or plural, and may mean singular or plural. This should be self-explanatory. In addition, whether each component is provided in singular or plural form may be changed depending on the embodiment.

적어도 하나의 사용자 단말(100)은, 제 1 언어가 한국어인 사용자를 위한 한국어 교육 서비스 관련 웹 페이지, 앱 페이지, 프로그램 또는 애플리케이션을 이용하여 한국어를 배우고자 하는 사용자의 단말일 수 있다. 이때, 사용자는 한국어가 모국어인데 발음을 교정하거나 배우고 싶은 내국인일 수 있다. 이때, 사용자 단말(100)은 교육 서비스 제공 서버(300)에 접속하여 교수자의 프로필을 출력하고 교수자를 선택한 후 클래스에 참여하는 단말일 수 있다. 여기서, 사용자 단말(100)은, 교수자와 일대일로 연결될 수도 있지만 실시예에 따라 일대다, 다대다, 다대일 등의 다양한 클래스 형태에 참여할 수 있는 단말일 수 있다.At least one user terminal 100 may be a terminal of a user who wants to learn Korean using a web page, app page, program, or application related to a Korean education service for users whose first language is Korean. At this time, the user may be a Korean whose native language is Korean and who wants to correct or learn pronunciation. At this time, the user terminal 100 may be a terminal that connects to the education service providing server 300, prints the instructor's profile, selects the instructor, and participates in the class. Here, the user terminal 100 may be connected one-to-one with the instructor, but depending on the embodiment, it may be a terminal that can participate in various class types such as one-to-many, many-to-many, and many-to-one.

여기서, 적어도 하나의 사용자 단말(100)은, 네트워크를 통하여 원격지의 서버나 단말에 접속할 수 있는 컴퓨터로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 네비게이션, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(Desktop), 랩톱(Laptop) 등을 포함할 수 있다. 이때, 적어도 하나의 사용자 단말(100)은, 네트워크를 통해 원격지의 서버나 단말에 접속할 수 있는 단말로 구현될 수 있다. 적어도 하나의 사용자 단말(100)은, 예를 들어, 휴대성과 이동성이 보장되는 무선 통신 장치로서, 네비게이션, PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말, 스마트폰(Smartphone), 스마트 패드(Smartpad), 타블렛 PC(Tablet PC) 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 포함할 수 있다.Here, at least one user terminal 100 may be implemented as a computer capable of accessing a remote server or terminal through a network. Here, the computer may include, for example, a laptop equipped with a navigation system and a web browser, a desktop, a laptop, etc. At this time, at least one user terminal 100 may be implemented as a terminal capable of accessing a remote server or terminal through a network. At least one user terminal 100 is, for example, a wireless communication device that guarantees portability and mobility, and includes navigation, personal communication system (PCS), global system for mobile communications (GSM), personal digital cellular (PDC), PHS (Personal Handyphone System), PDA (Personal Digital Assistant), IMT (International Mobile Telecommunication)-2000, CDMA (Code Division Multiple Access)-2000, W-CDMA (W-Code Division Multiple Access), Wibro (Wireless Broadband Internet) ) It may include all types of handheld-based wireless communication devices such as terminals, smartphones, smartpads, and tablet PCs.

교육 서비스 제공 서버(300)는, 제 1 언어가 한국어인 사용자를 위한 한국어 교육 서비스 웹 페이지, 앱 페이지, 프로그램 또는 애플리케이션을 제공하는 서버일 수 있다. 그리고, 교육 서비스 제공 서버(300)는, 적어도 하나의 교수자 단말(400)의 자격을 검증하기 위하여 교수자 단말(400)로부터 프로필을 등록받을 때, 실제 아나운싱 교육을 받은 자인지, 방송인인지, 아나운서인지 등을 검증하여 등록받는 서버일 수 있다. 그리고, 교육 서비스 제공 서버(300)는, 검증이 완료된 교수자의 프로필을 업로드하고 사용자 단말(100)에서 교수자를 선택하는 경우, 실시간 클래스에 사용자 단말(100)이 참여하도록 하는 서버일 수 있다. 또한, 교육 서비스 제공 서버(300)는, 사용자 단말(100)로부터 각 교수자의 평점 및 리뷰를 수집하여 로그로 누적하고, 사용자 단말(100)의 음성발화인 스피치를 레벨별로 나누어 테스트를 진행하고 스피치 협회에서 발급하는 자격증을 발급해주는 서버일 수 있다. The education service providing server 300 may be a server that provides a Korean education service web page, app page, program, or application for users whose first language is Korean. And, when registering a profile from the instructor terminal 400 in order to verify the qualifications of at least one instructor terminal 400, the education service providing server 300 determines whether the person has actually received announcing training, is a broadcaster, or is an announcer. It may be a server that verifies and registers, etc. Additionally, the education service providing server 300 may be a server that allows the user terminal 100 to participate in a real-time class when the verified instructor's profile is uploaded and the user terminal 100 selects the instructor. In addition, the education service providing server 300 collects the ratings and reviews of each instructor from the user terminal 100 and accumulates them into a log, divides the speech, which is the voice utterance of the user terminal 100, into levels, tests it, and conducts a speech test. It may be a server that issues certificates issued by the association.

여기서, 교육 서비스 제공 서버(300)는, 네트워크를 통하여 원격지의 서버나 단말에 접속할 수 있는 컴퓨터로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 네비게이션, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(Desktop), 랩톱(Laptop) 등을 포함할 수 있다.Here, the education service providing server 300 may be implemented as a computer that can access a remote server or terminal through a network. Here, the computer may include, for example, a laptop equipped with a navigation system and a web browser, a desktop, a laptop, etc.

적어도 하나의 교수자 단말(400)은, 제 1 언어가 한국어인 사용자를 위한 한국어 교육 서비스 관련 웹 페이지, 앱 페이지, 프로그램 또는 애플리케이션을 이용하는 교수자의 단말일 수 있다. 이때, 교수자 단말(400)은, 자신의 경력사항이나 자격사항 등을 증명하기 위하여 교육 서비스 제공 서버(300)로 프로필을 전송하고 후술할 블록체인에서 각 기관의 자격사항 열람을 허용하는 단말일 수 있다. 교수자 단말(400)의 자격검증이 완료된 후 등록이 되면 사용자 단말(100)과 실시간 강의로 연결되는 단말일 수 있다. 또한, 교수자 단말(400)은 각 사용자 단말(100)의 리뷰 및 평점을 피드백으로 받는 단말일 수 있다.At least one instructor terminal 400 may be an instructor terminal that uses a web page, app page, program, or application related to a Korean language education service for users whose first language is Korean. At this time, the instructor terminal 400 may be a terminal that transmits a profile to the education service provision server 300 to prove one's career or qualifications and allows viewing of each institution's qualifications in the blockchain, which will be described later. there is. If the instructor terminal 400 is registered after completing qualification verification, it may be a terminal connected to the user terminal 100 and a real-time lecture. Additionally, the instructor terminal 400 may be a terminal that receives reviews and ratings of each user terminal 100 as feedback.

여기서, 적어도 하나의 교수자 단말(400)은, 네트워크를 통하여 원격지의 서버나 단말에 접속할 수 있는 컴퓨터로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 네비게이션, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(Desktop), 랩톱(Laptop) 등을 포함할 수 있다. 이때, 적어도 하나의 교수자 단말(400)은, 네트워크를 통해 원격지의 서버나 단말에 접속할 수 있는 단말로 구현될 수 있다. 적어도 하나의 교수자 단말(400)은, 예를 들어, 휴대성과 이동성이 보장되는 무선 통신 장치로서, 네비게이션, PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말, 스마트폰(Smartphone), 스마트 패드(Smartpad), 타블렛 PC(Tablet PC) 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 포함할 수 있다.Here, at least one instructor terminal 400 may be implemented as a computer capable of accessing a remote server or terminal through a network. Here, the computer may include, for example, a laptop equipped with a navigation system and a web browser, a desktop, a laptop, etc. At this time, at least one instructor terminal 400 may be implemented as a terminal capable of accessing a remote server or terminal through a network. At least one instructor terminal 400 is, for example, a wireless communication device that ensures portability and mobility, and includes navigation, Personal Communication System (PCS), Global System for Mobile communications (GSM), Personal Digital Cellular (PDC), PHS (Personal Handyphone System), PDA (Personal Digital Assistant), IMT (International Mobile Telecommunication)-2000, CDMA (Code Division Multiple Access)-2000, W-CDMA (W-Code Division Multiple Access), Wibro (Wireless Broadband Internet) ) It may include all types of handheld-based wireless communication devices such as terminals, smartphones, smartpads, and tablet PCs.

도 2는 도 1의 시스템에 포함된 교육 서비스 제공 서버를 설명하기 위한 블록 구성도이고, 도 3 및 도 4는 본 발명의 일 실시예에 따른 제 1 언어가 한국어인 사용자를 위한 한국어 교육 서비스가 구현된 일 실시예를 설명하기 위한 도면이다.Figure 2 is a block diagram for explaining the education service providing server included in the system of Figure 1, and Figures 3 and 4 show a Korean education service for a user whose first language is Korean according to an embodiment of the present invention. This is a drawing to explain an implemented embodiment.

도 2를 참조하면, 교육 서비스 제공 서버(300)는, 구축부(310), 추출부(320), 전송부(330), 강의준비부(340), 등록부(350), 저장부(360), 발음시각화부(370), 모음분석부(380), 스피치부(390), 평가부(391), 빅데이터화부(393) 및 인식성능향상부(395)를 포함할 수 있다.Referring to FIG. 2, the education service providing server 300 includes a construction unit 310, an extraction unit 320, a transmission unit 330, a lecture preparation unit 340, a registration unit 350, and a storage unit 360. , it may include a pronunciation visualization unit 370, a vowel analysis unit 380, a speech unit 390, an evaluation unit 391, a big data visualization unit 393, and a recognition performance improvement unit 395.

본 발명의 일 실시예에 따른 교육 서비스 제공 서버(300)나 연동되어 동작하는 다른 서버(미도시)가 적어도 하나의 사용자 단말(100) 및 적어도 하나의 교수자 단말(400)로 제 1 언어가 한국어인 사용자를 위한 한국어 교육 서비스 애플리케이션, 프로그램, 앱 페이지, 웹 페이지 등을 전송하는 경우, 적어도 하나의 사용자 단말(100) 및 적어도 하나의 교수자 단말(400)은, 제 1 언어가 한국어인 사용자를 위한 한국어 교육 서비스 애플리케이션, 프로그램, 앱 페이지, 웹 페이지 등을 설치하거나 열 수 있다. 또한, 웹 브라우저에서 실행되는 스크립트를 이용하여 서비스 프로그램이 적어도 하나의 사용자 단말(100) 및 적어도 하나의 교수자 단말(400)에서 구동될 수도 있다. 여기서, 웹 브라우저는 웹(WWW: World Wide Web) 서비스를 이용할 수 있게 하는 프로그램으로 HTML(Hyper Text Mark-up Language)로 서술된 하이퍼 텍스트를 받아서 보여주는 프로그램을 의미하며, 예를 들어 넷스케이프(Netscape), 익스플로러(Explorer), 크롬(Chrome) 등을 포함한다. 또한, 애플리케이션은 단말 상의 응용 프로그램(Application)을 의미하며, 예를 들어, 모바일 단말(스마트폰)에서 실행되는 앱(App)을 포함한다.The education service providing server 300 according to an embodiment of the present invention or another server (not shown) operating in conjunction with at least one user terminal 100 and at least one instructor terminal 400 whose first language is Korean. When transmitting a Korean language education service application, program, app page, web page, etc. for a user, at least one user terminal 100 and at least one instructor terminal 400 are provided for a user whose first language is Korean. You can install or open Korean education service applications, programs, app pages, web pages, etc. Additionally, a service program may be run on at least one user terminal 100 and at least one instructor terminal 400 using a script executed in a web browser. Here, a web browser is a program that allows the use of web (WWW: World Wide Web) services and refers to a program that receives and displays hypertext written in HTML (Hyper Text Mark-up Language), for example, Netscape. , Explorer, Chrome, etc. Additionally, an application refers to an application on a terminal and includes, for example, an app running on a mobile terminal (smartphone).

도 2를 참조하면, 구축부(310)는, 나이, 성별, 지역 및 직군을 포함하는 인구통계학적 데이터에 따라, 표준발음과 현실발음이 다른 경우를, 인구통계학적 데이터에 매핑하여 데이터베이스를 구축할 수 있다. 표준발음이 현실발음과 다른 경우는, 표준발음의 발음기호로 현실에서 발음하지 않는 경우를 포함할 수 있다. 한국어가 모국어인 화자는 일상에서 표준발음으로만 발음하지 않고 표준발음과는 차이가 있는 발음으로 발화하기도 한다. 심지어 표준발음으로 발음할 경우 부자연스럽게 들리고, 현실발음으로 발음할 경우 자연스럽게 느끼고 화자의 의도를 이해할 수 있는 경우도 있다.Referring to FIG. 2, the construction unit 310 builds a database by mapping cases where the standard pronunciation and the actual pronunciation are different according to demographic data including age, gender, region, and occupation, to the demographic data. can do. Cases where the standard pronunciation is different from the actual pronunciation may include cases where the standard pronunciation is not pronounced in reality. Speakers whose native language is Korean do not just use the standard pronunciation in their daily lives, but sometimes use pronunciations that are different from the standard pronunciation. There are even cases where it sounds unnatural when pronounced with a standard pronunciation, and when pronounced with a realistic pronunciation, it feels natural and you can understand the speaker's intention.

[표 1][Table 1]

위의 발화에서 표준발음대로 [바라요], [졸지], [흘기], [김밥]으로 발음하는 경우 대부분의 한국어 모어 화자들은 어색하게 느끼고 심지어 그 의미를 이해하지 못하는 경우도 생길 수 있다. 오히려 비표준발음인 [바래요], [쫄지], [흐기]라고 발음하거나, 복수표준발음 중 [김빱]으로 발음하는 것을 자연스럽게 받아들인다. 이처럼 일상 구어에서 빈도 높게 실현되고, 한국어 모어 화자들이 자연스럽게 받아들이는 현실발음이 존재한다.In the above utterance, if you pronounce [barayo], [jolji], [heulgi], and [gimbap] according to the standard pronunciation, most native Korean speakers will feel awkward and may even not understand the meaning. Rather, it is naturally accepted to pronounce it as non-standard pronunciations such as [Baraeyo], [Jjolji], and [Heugi], or as [Gimbbap] among the plural standard pronunciations. In this way, there is a realistic pronunciation that is frequently realized in everyday spoken language and is naturally accepted by native Korean speakers.

<현실발음><Real pronunciation>

먼저 한국어음운론적 관점에서 현실발음을 살펴보면, 현실발음은 표준발음과 다른 발음이기는 하지만 실제 일상 구어에서 많은 사람들이 발화하는 발음으로 파악할 수 있다. 또한 한국어 화자들이 실제로 많이 사용하는 발음으로, 한국어 사용자의 의사소통을 위해 발음 교육의 대상이 될 필요가 있는 발음이다. 현실발음이 표준발음과는 다른, 구어에서 빈도 높게 실현되는 발음으로 정의한다면 각 지역의 방언적 발음도 현실발음에 포함할 수 있을 것이다. First, looking at the real pronunciation from the perspective of Korean phonology, although the real pronunciation is different from the standard pronunciation, it can be understood as the pronunciation that many people utter in actual everyday spoken language. In addition, it is a pronunciation that Korean speakers actually use a lot, and it is a pronunciation that needs to be the subject of pronunciation education for Korean speakers to communicate. If real pronunciation is defined as a pronunciation that is different from the standard pronunciation and is realized frequently in spoken language, the dialectal pronunciation of each region can also be included in the real pronunciation.

<현실발음의 유형><Types of realistic pronunciation>

현실발음의 유형은 이하 표 2에서와 같이 보편적 음운현상과 명사 말자음의 변화, 활용, 개별 낱말과 형태소로 유형화할 수 있다. 표 3은 현실발음을 우선 교체, 탈락, 첨가, 축약으로 나누어 정리한 것이다. 출현정도를 살펴보면 교체에 해당하는 현실발음의 비중이 높고, 교체 중 대부분은 모음교체에 해당한다. 모음교체 중 모음상승에 해당하는 오→우, 어→으, 아→어, 에→이 교체의 실현 정도가 높아, 현실발음의 상당 부분이 모음상승과 관련된 것이다. 특히 조사나 어미의 오가 우로 실현되는 발음이 전체 현실발음 중 차지하는 비율이 높아, 현실발음 중 오→우 교체가 차지하는 정도가 압도적이다.The types of actual pronunciation can be categorized into universal phonological phenomena, changes in noun final consonants, utilization, and individual words and morphemes, as shown in Table 2 below. Table 3 summarizes the actual pronunciation by dividing it into replacement, omission, addition, and abbreviation. Looking at the degree of occurrence, the proportion of real pronunciations corresponding to replacements is high, and most of the replacements correspond to vowel replacements. Among vowel exchanges, the degree of realization of o → u, uh → eu, ah → uh, and e →, corresponding to vowel rise, is high, and a significant portion of actual pronunciation is related to vowel rise. In particular, pronunciations in which the o of particles or endings are realized as u account for a high proportion of all real pronunciations, and the proportion of o → right substitutions among real pronunciations is overwhelming.

[표 2][Table 2]

[표 3][Table 3]

교육의 대상이 되는 현실발음의 유형은 표 4와 같이 정리될 수 있다.The types of realistic pronunciation that are the subject of education can be summarized as in Table 4.

[표 4][Table 4]

반모음 탈락이나 조음위치동화, 모음축약, ㅎ탈락과 같은 유형은 일상적인 빠른 말씨에서 발음의 경제성을 위해 실현되는 것이고, 어두경음화, 모음상승으로 인한 모음교체, ㄹ첨가, 움라우트, 체언 어간말 자음의 교체 등은 언어변화에서 신형과 구형이 공존하는 과정에서 신형에 해당하는 발음이다. 이러한 발음은 한국어의 음운변화와 관련된 것이다. 이 외에도 각 지역마다의 방언과 억양, 인토네이션이나 엑센트 등 사용자의 정보에 따라 표준발음과 현실발음이 서로 달라지는 경우가 발생한다. 이에, 사용자의 지역, 성별, 직군, 연령 등에 따라 현실발음과 표준발음이 달라지는 경우를 분류 및 저장하고, 사용자가 클래스에 입장하기 전에 표준발음과 현실발음이 다른 경우를 미리 학습할 수 있도록 데이터베이스를 구축한다. 추출부(320)는, 사용자 단말(100)에서 입력된 사용자 정보를 입력으로 표준발음과 현실발음이 다른 경우를 추출할 수 있다. 사용자 단말(100)은, 인구통계학적 데이터에 대응하는 사용자 정보를 입력할 수 있다. 각 사용자가 태어난 지역, 살아온 환경, 현재 속해있는 집단에 따라 표준발음과 다른 현실발음이 다를 수 있다. 이때, 이 데이터를 추출한 후 먼저 어떠한 발음이 표준발음인지, 자신이 어떠한 발음을 표준발음으로 잘못 알고 있었는지 등을 교수자를 만나기 전에 학습하도록 한다. 물론, 표준발음 전체를 전 사용자에게 모두 동등하게 제공하는 것도 가능하나, 자주 쓰면서 틀리게 발음하는 것이 있다면 이를 중점적으로 고치는 것도 중요하기 때문에, 해당 집단에서 자주 또 많이 틀리는 발음 위주로 먼저 연습을 하도록 한다.Types such as semi-vowel dropping, articulatory position assimilation, vowel reduction, and ㅎ elimination are realized for economy of pronunciation in everyday fast speech, and include initial consonants, vowel replacement due to vowel elevation, ㄹ addition, umlaut, and end-of-word consonants. Replacement, etc. is a pronunciation corresponding to the new form in the process of language change where new and old forms coexist. This pronunciation is related to phonetic changes in Korean. In addition, there are cases where the standard pronunciation and the actual pronunciation are different depending on the user's information, such as dialect, accent, intonation, etc. for each region. Accordingly, cases where the actual pronunciation and standard pronunciation differ depending on the user's region, gender, occupation, age, etc. are classified and stored, and a database is created so that users can learn in advance about cases where the standard pronunciation is different from the actual pronunciation before entering the class. Build it. The extraction unit 320 can extract cases where the standard pronunciation and the actual pronunciation are different by using user information input from the user terminal 100. The user terminal 100 may input user information corresponding to demographic data. Depending on the region where each user was born, the environment in which they lived, and the group they currently belong to, the actual pronunciation may differ from the standard pronunciation. At this time, after extracting this data, first learn which pronunciation is the standard pronunciation and which pronunciation you misunderstood as the standard pronunciation before meeting the instructor. Of course, it is possible to provide the entire standard pronunciation equally to all users, but if there is a pronunciation that is frequently used incorrectly, it is important to focus on correcting it, so practice first with the pronunciation that is frequently and frequently incorrectly made in the group.

전송부(330)는, 사용자 단말(100)에서 현실발음과 다른 표준발음이 포함된 단어 또는 문장을 사용자 단말(100)에서 음성발화하도록 한 후 음성발화된 음성 데이터와 기준 데이터를 비교하여 차이 데이터를 사용자 단말(100)로 전송할 수 있다. The transmission unit 330 causes the user terminal 100 to vocalize a word or sentence containing a standard pronunciation that is different from the actual pronunciation, and then compares the vocalized voice data with the reference data to obtain difference data. Can be transmitted to the user terminal 100.

강의준비부(340)는, 교수자 단말(400)에서 실시간 강의를 시작하기 이전에 차이 데이터를 교수자 단말(400)로 전달할 수 있다. 사용자 단말(100)은, 적어도 하나의 교수자 프로필을 출력하고 어느 하나의 교수자를 선택하여 실시간으로 클래스에 입장한 후 수업을 진행할 수 있다. 교수자 단말(400)은, 적어도 하나의 자격조건검증으로 교수자로 등록되고, 사용자 단말(100)의 선택으로 실시간 강의를 진행할 수 있다.The lecture preparation unit 340 may transmit difference data to the instructor terminal 400 before starting a real-time lecture on the instructor terminal 400. The user terminal 100 can output at least one instructor profile, select one instructor, enter the class in real time, and then proceed with the class. The instructor terminal 400 is registered as an instructor by verifying at least one qualification condition and can conduct a real-time lecture by selecting the user terminal 100.

달리 표현해, 강의준비부(340)는, 사용자 단말(100)에서 적어도 하나의 교수자 프로필이 출력되도록 사용자 단말(100)의 작동을 제어하고, 이후 사용자가 사용자 단말(100)에서 적어도 하나의 교수자 프로필 중 어느 하나의 교수자 프로필로서 제1 교수자 프로필을 선택한 것으로 감지되는 경우, 이후 사용자가 상기 제1 교수자 프로필에 대응하는 교수(제1 교수)의 클래스(수업, 수업 콘텐츠)인 제1 클래스에 입장함으로써 상기 제1 클래스를 실시간으로 들을 수 있도록 제어할 수 있다.In other words, the lecture preparation unit 340 controls the operation of the user terminal 100 so that at least one instructor profile is output from the user terminal 100, and then the user displays at least one instructor profile on the user terminal 100. If it is detected that the first instructor profile has been selected as one of the instructor profiles, the user then enters the first class (class, class content) of the professor (first professor) corresponding to the first instructor profile. It can be controlled so that the first class can be listened to in real time.

이때, 강의준비부(340)는 사용자가 제1 교수자 프로필을 선택했을 때, 사용자 단말(100)에서 기 설정된 클래스이용료 지불과정이 진행되도록 제어하고, 상기 기 설정된 클래스이용료 지불과정의 진행을 통하여 사용자 단말(100)에서 상기 제1 클래스의 입장을 위해 기 설정된 클래스이용료가 지불 완료된 것으로 감지된 경우에 한하여, 사용자가 상기 제1 클래스에 입장 가능하도록 제어할 수 있다.At this time, when the user selects the first instructor profile, the lecture preparation unit 340 controls the user terminal 100 to proceed with the preset class fee payment process, and the user progresses through the preset class fee payment process. Only when the terminal 100 detects that the preset class fee for admission to the first class has been paid, it can be controlled to allow the user to enter the first class.

여기서, 상기 기 설정된 클래스이용료 지불과정은, i) 사용자 단말(100)에 미리 등록되어 있는 사용자 소유의 결제용카드가 적어도 하나 이상 존재하는지 판단하는 제1 과정, ii) 제1 과정에서 복수개의 결제용카드가 사용자 단말(100)에 미리 등록되어 있는 것으로 판단되면, 미리 등록되어 있는 상기 복수개의 결제용카드 각각의 카드혜택정보를 상기 복수개의 결제용카드 각각에 대응하는 카드사의 홈페이지로부터 획득하는 제2 과정, iii) 상기 제2 과정에서 획득된 복수개의 결제용카드 각각의 카드혜택정보와 상기 제1 클래스(수업 콘텐츠)가 제공되는 클래스 제공 사이트의 속성 정보를 기반으로, 상기 복수개의 결제용카드 각각에 대하여 상기 제1 클래스에 대응하는 기 설정된 클래스이용료의 결제 수행시 예상되는 예상할인금액을 도출하는 제3 과정, 및 iv) 제3 과정에서 도출된 복수개의 결제용카드별 예상할인금액 중 적어도 하나의 예상할인금액이 다른 경우, 복수개의 결제용카드 중 예상할인금액이 가장 높은 값을 갖는 어느 한 결제용카드를 결제대상카드로 선정(1차 선정)하고, 상기 선정(1차로 선정)된 결제대상카드로 상기 기 설정된 클래스이용료에 대한 실제 결제를 진행하는 제4 과정을 포함할 수 있다.Here, the preset class fee payment process includes i) a first process of determining whether there is at least one user-owned payment card pre-registered in the user terminal 100, ii) a plurality of payments in the first process. If it is determined that the payment card is pre-registered in the user terminal 100, a method of obtaining card benefit information for each of the plurality of pre-registered payment cards is obtained from the website of the card company corresponding to each of the plurality of payment cards. Process 2, iii) Based on the card benefit information of each of the plurality of payment cards obtained in the second process and the attribute information of the class providing site where the first class (class content) is provided, the plurality of payment cards A third process of deriving the expected discount amount expected upon payment of the preset class fee corresponding to the first class, and iv) at least one of the expected discount amounts for each payment card derived in the third process. If the expected discount amount is different, the payment card with the highest expected discount amount among the plurality of payment cards is selected (primary selection) as the payment card, and the selected payment card (primary selection) is selected as the payment card. It may include a fourth process of actually making payment for the preset class fee using the payment card.

여기서, 제1 클래스에 대응하는 기 설정된 클래스이용료는, 사용자가 제1 클래스를 듣기 위해 지불해야 하는 클래스이용료(이용금액)에 관한 정보를 의미할 수 있다. Here, the preset class fee corresponding to the first class may mean information about the class fee (amount) that the user must pay to listen to the first class.

또한, 클래스 제공 사이트는 교수들의 클래스(수업 콘텐츠)가 제공되는 사이트를 의미하는 것으로서, 이는 교육 서비스 제공 서버(300)에 의해 제공되는 사이트를 의미할 수 있다.Additionally, the class provision site refers to a site where professors' classes (class content) are provided, and may refer to a site provided by the education service provision server 300.

또한, 제3 과정에서, 클래스 제공 사이트의 속성 정보는 일예로 클래스 제공 사이트와 제휴되어 있는 카드사가 존재하는 경우, 제휴되어 있는 카드사별 할인율 정보를 포함할 수 있다. 또한, 제3 과정에서 고려되는 예상할인금액은 결제용카드로 결제시에 할인이 예상되는 금액에 대한 정보를 의미하는 것으로서, 일예로 제1 결제용카드로 결제를 할 경우 1000원이 할인이 된다면, 1000원을 의미할 수 있다.Additionally, in the third process, the attribute information of the class providing site may include, for example, if a card company affiliated with the class providing site exists, discount rate information for each affiliated card company. In addition, the expected discount amount considered in the third process refers to information about the amount expected to be discounted when paying with a payment card. For example, if 1,000 won is discounted when paying with the first payment card, It can mean 1,000 won.

또한, 상기 기 설정된 클래스이용료 지불과정은, v) 일예로 제4 과정의 수행시, 복수개의 결제용카드별 예상할인금액 중 적어도 하나의 예상할인금액이 다르되, 복수개의 결제용카드 중 예상할인금액이 가장 높은 값을 갖는 결제용카드가 적어도 2개 이상임으로 인하여, 복수개의 결제용카드 중 예상할인금액이 가장 높은 값을 갖는 어느 한 결제용카드를 결제대상카드로 선정(즉, 1차로 선정)하는 것이 불가능한 경우, 이후 상기 기 설정된 클래스이용료 지불과정이 진행되는 현 진행시점을 기준으로 하여, 상기 예상할인금액이 가장 높은 값을 갖는 적어도 2개 이상의 결제용카드 각각에 대응하는 카드사의 홈페이지로부터, 상기 적어도 2개 이상의 결제용카드 각각에 대한 상기 현 시점에서의 미달되어 있는 미달된 카드실적금액 정보를 획득하고, 이후 상기 적어도 2개 이상의 결제용카드 각각의 미달된 카드실적금액 정보 중 미달된 카드실적금액 정보가 가장 낮은 값을 갖는 어느 한 결제용카드를 결제대상카드로 선정(2차 선정)하고, 상기 선정(2차로 선정)된 결제대상카드로 상기 기 설정된 클래스이용료에 대한 실제 결제를 진행하는 제5 과정을 포함할 수 있다.In addition, the preset class fee payment process is v) For example, when performing the fourth process, at least one expected discount amount among the expected discount amounts for a plurality of payment cards is different, but the expected discount amount among the plurality of payment cards is different. Since there are at least two payment cards with the highest amount, the one payment card with the highest expected discount amount among the plurality of payment cards is selected as the payment card (i.e., selected first) ), if it is impossible to do so, then, based on the current progress of the preset class fee payment process, from the website of the card company corresponding to each of at least two payment cards with the highest expected discount amount. , Obtain information on the insufficient card performance amount at the current time for each of the at least two or more payment cards, and then obtain information on the insufficient card performance amount for each of the at least two or more payment cards. The payment card with the lowest card performance amount information is selected as the payment target card (secondary selection), and the actual payment for the preset class fee is made with the payment target card (secondary selection). It may include a fifth process.

또한, 상기 기 설정된 클래스이용료 지불과정은, 제5 과정과 유사하게, vi) 일예로 제4 과정의 수행시, 복수개의 결제용카드별 예상할인금액이 모두 동일함으로 인하여, 복수개의 결제용카드 중 예상할인금액이 가장 높은 값을 갖는 어느 한 결제용카드를 결제대상카드로 선정(즉, 1차로 선정)하는 것이 불가능한 경우, 이후 상기 기 설정된 클래스이용료 지불과정이 진행되는 현 진행시점을 기준으로 하여, 상기 복수개의 결제용카드 각각에 대응하는 카드사의 홈페이지로부터, 상기 복수개의 결제용카드 각각에 대한 상기 현 시점에서의 미달되어 있는 미달된 카드실적금액 정보를 획득하고, 이후 상기 복수개의 결제용카드 각각의 미달된 카드실적금액 정보 중 미달된 카드실적금액 정보가 가장 낮은 값을 갖는 어느 한 결제용카드를 결제대상카드로 선정(2차 선정)하고, 상기 선정(2차로 선정)된 결제대상카드로 상기 기 설정된 클래스이용료에 대한 실제 결제를 진행하는 제6 과정을 포함할 수 있다.In addition, the preset class fee payment process is similar to the fifth process. vi) For example, when performing the fourth process, the expected discount amount for each of the plurality of payment cards is the same, so that among the plurality of payment cards, If it is impossible to select the payment card with the highest expected discount amount as the payment card (i.e., select first), the payment process will be based on the current time when the preset class fee payment process is in progress. , obtain information on the insufficient card performance amount at the current time for each of the plurality of payment cards from the website of the card company corresponding to each of the plurality of payment cards, and then use the plurality of payment cards Among each of the information on the insufficient card performance amount, the payment card with the lowest card performance amount information is selected (secondary selection) as the payment target card, and the selected payment card (secondarily selected) is the payment card. It may include a sixth process of actually making payment for the preset class fee.

상술한 기 설정된 클래스이용료 지불과정은 일예로 사용자 단말(100)에서 기 설정된 클래스이용료 지불과정 자동 수행 동의란에 사용자가 동의체크를 입력한 경우에 한해서만 자동으로 진행되는 절차일 수 있다.For example, the above-mentioned preset class fee payment process may be a process that is automatically performed only when the user enters a consent check in the consent box for automatically performing the preset class fee payment process on the user terminal 100.

강의준비부(340)는 상술한 기 설정된 클래스이용료 지불과정으로 제1 클래스의 기 설정된 클래스이용료에 대한 지불이 이루어지도록 함으로써, 사용자가 보유한 복수개의 결제용카드 중 1차적으로 예상할인금액이 가장 높은 카드로 우선 결제가 이루어지도록 하되, 예상할인금액이 가장 높은 카드의 식별(선정)이 불가능한 경우, 2차적으로 미달된 카드실적금액 정보가 가장 낮은 카드로 우선 결제가 이루어지도록 할 수 있는바, 결과적으로 사용자가 다수개의 카드를 보유하고 있는 상태일 때 보다 혜택을 많이 누릴 수 있도록 하는 방향으로 카드 결제가 자동으로 이루어지도록 하여 합리적인 소비가 이루어지도록 할 수 있다.The lecture preparation unit 340 ensures that the preset class fee for the first class is paid through the above-described preset class fee payment process, so that among the plurality of payment cards held by the user, the primary expected discount amount is the highest. Payment is to be made by card first, but if it is impossible to identify (select) the card with the highest expected discount amount, payment can be made first to the card with the lowest card performance amount information. This allows card payments to be made automatically so that users can enjoy more benefits when holding multiple cards, thereby ensuring reasonable consumption.

등록부(350)는, 적어도 하나의 자격조건을 설정하고 적어도 하나의 교수자 단말(400)을 적어도 하나의 자격조건검증으로 등록을 진행하여 교수자풀(Pool)을 구축할 수 있다. 적어도 하나의 자격조건은, 아나운싱 교육을 받은 자, 방송인 및 아나운서, 성우, 가수 중 어느 하나일 수 있다. 또한, 구축된 교수자풀에 등록된 교수자에는, 특정 업체(엔터테인먼트, 회사 등)에 소속된 교수자, 및 특정 업체에 소속되지 않고 개인적으로 활동하는 개인 프리랜서 교수자가 포함될 수 있다.The register 350 can establish an instructor pool by setting at least one qualification condition and registering at least one instructor terminal 400 by verifying at least one qualification condition. At least one qualification may be one of those who have received announcing training, a broadcaster and announcer, a voice actor, or a singer. In addition, instructors registered in the constructed instructor pool may include instructors belonging to a specific company (entertainment, company, etc.) and individual freelance instructors who are not affiliated with a specific company and work individually.

일예로, 등록부(350)는, 교수자풀이 구축된 이후 사용자 단말(100)에서 개인클래스 정보제공 요청이 이루어진 것으로 감지된 경우, 교수자풀에 등록된 복수의 교수자 중 개인 프리랜서 교수자들의 정보를 추출하여 리스트로 생성해 사용자 단말(100)로 제공할 수 있다.For example, when the register 350 detects that a request to provide personal class information has been made from the user terminal 100 after the instructor pool is established, it extracts the information of individual freelance instructors from among the plurality of instructors registered in the instructor pool and creates a list. It can be generated and provided to the user terminal 100.

이때, 등록부(350)는, 상기 리스트의 제공시, 개인 프리랜서 교수자들의 개인정보(일예로 이름, 나이, 및 핸드폰번호)를 제외한 나머지 정보(일예로, 학력, 경력, 교수자의 교육 활동 지역, 및 교수자의 니즈 정보)만 1차적으로 제공되도록 하고, 이후 개인정보를 제외한 나머지 정보를 기반으로 사용자가 리스트 내 복수의 개인 프리랜서 교수자 중 어느 한 개인 프리랜서 교수자인 제1 개인 프리랜서 교수자를 선택하여 1:1 개인 교육 요청을 한 경우, 상기 제1 개인 프리랜서 교수자의 교수자 단말인 제1 교수자 단말로 1:1 개인 교육 요청 관련 알림 메시지를 전송하고, 이후 상기 제1 교수자 단말로부터 상기 알림 메시지에 대한 응답으로서 승낙 응답 및 거부 응답 중 승낙 응답이 이루어진 것으로 감지되면, 이후 승낙 응답을 한 제1 교수자 단말에 대응하는 제1 개인 프리랜서 교수자의 개인정보를 사용자 단말(100)로 제공하여 사용자가 확인 가능하도록 할 수 있다. 또한, 등록부(350)는 상기 승낙 응답이 이루어진 것으로 감지되면, 제1 교수자 단말로 사용자의 개인정보(일예로 이름, 나이, 및 핸드폰번호)를 제공하여 제1 교수자 단말의 제1 교수자가 확인 가능하도록 할 수 있다.At this time, when providing the list, the register 350 provides the remaining information (e.g., educational background, experience, educational activity area of the instructor, and Only the instructor's needs information) is provided primarily, and then, based on the remaining information excluding personal information, the user selects the first individual freelance instructor among the plurality of individual freelance instructors in the list and provides 1:1 training. When a request for personal training is made, a notification message related to the 1:1 personal training request is sent to the first instructor terminal, which is the instructor terminal of the first personal freelance instructor, and then approval is received as a response to the notification message from the first instructor terminal. If it is detected that an acceptance response has been made among the responses and rejection responses, the personal information of the first individual freelance instructor corresponding to the first instructor terminal that responded yes may be provided to the user terminal 100 so that the user can confirm it. . In addition, when the register 350 detects that the consent response has been made, the user's personal information (for example, name, age, and mobile phone number) is provided to the first instructor terminal so that the first instructor of the first instructor terminal can confirm it. You can do it.

즉, 등록부(350)는 사용자가 개인 프리랜서 교수자에게서 1:1 개인 교육(한국어 고육)을 받고자 할 때, 리스트에서는 사용자가 개인 프리랜서 교수자들의 나머지 정보만 확인 가능하도록 하고, 사용자가 특정 개인 프리랜서 교수자에게 1:1 개인 교육 요청을 하고 그에 응답하여 해당 교수자가 승낙 응답을 한 경우에 한해서만 해당 교수자와 사용자 간에 서로 개인정보가 공유되도록 할 수 있다. 이러한 등록부(350)는, 한국어 교육 서비스를 제공함에 있어서, 교수자와 사용자 간에 개인정보의 불필요한 노출을 줄이고, 승낙 응답이 이루어졌을 때에만 개인정보 교환이 이루어지도록 함으로써 장난전화 등의 개인정보의 악용 우려를 낮출 수 있고, 피해 발생시 신고 등의 조치를 신속히 이루어질 수 있도록 할 수 있고, 사용자가 1:1 개인 교육을 원할 때 교수자를 인물이나 나이를 토대로 선택하는 것이 아닌 실력(경력, 학력 등) 위주로 교수자를 선택 가능하도록 할 수 있다.In other words, the register 350 allows the user to check only the remaining information of the individual freelance instructors in the list when the user wants to receive 1:1 personal education (Korean language training) from a personal freelance instructor, and allows the user to check the remaining information of the individual freelance instructors. Personal information can be shared between the instructor and the user only when a 1:1 personal education request is made and the instructor responds with approval. In providing Korean education services, this register 350 reduces unnecessary exposure of personal information between instructors and users and ensures that personal information is exchanged only when an approval response is made, thereby raising the risk of misuse of personal information such as prank calls. can be lowered, and measures such as reporting can be taken quickly when damage occurs, and when a user wants 1:1 personal education, the instructor is selected based on ability (experience, academic background, etc.) rather than selecting the instructor based on person or age. can be selected.

또한, 등록부(350)는, 일예로 교수자풀의 구축 수행시, 적어도 하나의 교수자 단말 중 어느 한 교수자 단말인 제1 교수자 단말에서 교수자 등록 요청이 이루어진 경우, 상기 제1 교수자 단말로부터 적어도 하나의 자격조건의 검증을 위한 증빙자료를 업로드받고, 업로드받은 증빙자료의 분석을 통해 제1 교수자 단말의 교수자인 제1 교수자가 적어도 하나의 자격조건을 충족하는게 맞는지 여부(즉, 아나운싱 교육을 받은자가 맞는지 여부, 성우가 맞는지 여부 등)를 판단할 수 있다. 이후, 등록부(350)는 제1 교수자가 적어도 하나의 자격조건을 충족하는게 맞는 것으로 판단되면, 제1 교수자의 교수자 정보를 교수자 DB(미도시)에 등록시킴으로써 교수자풀을 구축할 수 있다.In addition, the register 350, for example, when constructing an instructor pool, when a request for instructor registration is made from a first instructor terminal that is one of at least one instructor terminal, at least one qualification is registered from the first instructor terminal. Evidential data for verification of conditions is uploaded, and through analysis of the uploaded evidential data, it is determined whether the first instructor, who is the instructor of the first instructor terminal, satisfies at least one qualification condition (i.e., whether he or she has received announcing training). , whether the voice actor is correct, etc.) can be determined. Afterwards, if the register 350 determines that the first instructor satisfies at least one qualification condition, it can build an instructor pool by registering the instructor information of the first instructor in an instructor DB (not shown).

여기서, 증빙자료는 일예로 아나운싱 교육 수료증, 가수인 경우 앨범 정보 등이 포함될 수 있다. 또한, 교수자 정보에는 교수자의 이름, 나이, 핸드폰번호, 학력, 경력, 교수자의 교육 활동 지역, 및 교수자의 니즈 정보 등이 포함될 수 있다.Here, the supporting materials may include, for example, an announcing training certificate or, in the case of a singer, album information, etc. In addition, instructor information may include the instructor's name, age, cell phone number, educational background, career, instructor's educational activity area, and instructor's needs information.

이때, 등록부(350)는, 제1 교수자의 교수자 정보가 교수자 DB(미도시)에 등록되고 나면, 이후 교수자 정보 내 학력 정보를 기반으로 하여 제1 교수자가 졸업한 학교들(초등학교, 중학교, 고등학교, 및 대학교) 각각에 대응하는 학교 단말들을 대상으로 하여 제1 교수자에 관한 생활기록정보를 요청하여 수신하고, 또한 제1 교수자의 SNS 계정에 접속하여 제1 교수자에 의해 업로드된 게시물 정보를 수집하며, 이후 제1 교수자와 관련하여 수신된 제1 교수자에 관한 복수의 생활기록정보와 상기 수집된 게시물 정보를 분석함으로써, 제1 교수자에게 절도 이력, 학폭 이력 및 폭력 성향이 존재하는지 여부를 판단할 수 있다.At this time, once the instructor information of the first instructor is registered in the instructor DB (not shown), the register 350 registers the schools (elementary school, middle school, high school) from which the first instructor graduated based on the academic background information in the instructor information. , and university) request and receive life record information about the first instructor targeting corresponding school terminals, and also collect information on posts uploaded by the first instructor by accessing the first instructor's SNS account. , By analyzing the plurality of life record information about the first instructor and the collected posting information received in relation to the first instructor, it can be determined whether the first instructor has a history of theft, history of school violence, and a tendency toward violence. there is.

여기서, 절도 이력 및 학폭 이력의 존재 여부는, 생활기록정보와 게시물 정보에 기록된 데이터에 대한 분석(글자 분석, 의미론적 분석 등)을 통해 이루어질 수 있고, 일예로 제1 교수자의 생활기록정보 내에 '친구들의 물건을 훔치는 경향이 있음', '친구들과 다툼이 잦음' 등과 같은 문구(텍스트, 데이터)가 기록되어 있는 경우, 등록부(350)는 제1 교수자에게 절도 이력 및 학폭 이력이 존재하는 것으로 판단할 수 있다.Here, the existence of a history of theft and a history of school violence can be determined through analysis (character analysis, semantic analysis, etc.) of data recorded in life record information and posting information, and as an example, within the life record information of the first instructor. If phrases (text, data) such as 'tends to steal things from friends', 'frequent fights with friends', etc. are recorded, the register 350 determines that the first instructor has a history of theft and school violence. You can judge.

또한, 폭력 성향이 존재하는지 여부는, 일예로 생활기록정보 및 게시물 정보 내에 폭력과 연관된 단어가 미리 설정된 개수(일예로 10개)이상 존재하는지 여부를 통해 판단될 수 있다. 즉, 등록부(350)는 수신된 생활기록정보 및 수집된 게시물 정보 내에 폭력과 연관된 단어가 미리 설정된 개수 이상 존재하면 제1 교수자에게 폭력 성향이 존재하는 것으로 판단할 수 있다. 여기서, 푹력과 관련된 단어에는, 폭행, 폭력, 다툼, 싸움, 던짐, 및 부숨에 해당하는 단어들이 포함될 수 있다.In addition, whether a tendency toward violence exists can be determined, for example, by whether a preset number (for example, 10) or more of words related to violence exist in life record information and posting information. That is, the register 350 may determine that the first instructor has a tendency toward violence if there are more than a preset number of words related to violence in the received life record information and collected posting information. Here, words related to pukryeok may include words corresponding to assault, violence, quarrel, fight, throwing, and breaking.

이때, 등록부(350)는, 제1 교수자에게 절도 이력, 학폭 이력 및 폭력 성향이 존재하는지 여부를 판단할 때, 일예로 기 학습된 인공지능 모델을 이용할 수 있다.At this time, the register 350 may use, for example, a previously learned artificial intelligence model when determining whether the first instructor has a history of theft, history of school violence, and a tendency to violence.

또한, 등록부(350)는, 일예로 제1 교수자와 관련하여 수신된 복수의 생활기록정보와 제1 교수자와 관련하여 수집된 게시물 정보를 종합적으로 분석함으로써, 제1 교수자에게 절도 이력, 학폭 이력 및 폭력 성향 중 적어도 하나가 존재하는 것으로 판단되면, 교수자 DB에 등록되어 있는 제1 교수자의 교수자 정보를 자동으로 등록취소 처리(즉, 삭제)할 수 있다. 이에 따르면, 등록부(350)는, 절도 이력 및 학폭 이력이 없으며 폭력 성향이 없는 교수자들만이 교수자 DB 내지 교수자풀에 등록되어 교육 서비스 제공 서버(300)를 통해 사용자들에게 강의를 진행할 수 있도록 할 수 있다. In addition, the register 350, for example, comprehensively analyzes a plurality of life record information received in relation to the first instructor and post information collected in relation to the first instructor, thereby providing information on the first instructor's theft history, school violence history, and If it is determined that at least one of the violent tendencies exists, the instructor information of the first instructor registered in the instructor DB can be automatically deregistered (i.e., deleted). According to this, the register 350 allows only instructors who have no history of theft, school violence, and a tendency to violence to be registered in the instructor DB or instructor pool and provide lectures to users through the education service provision server 300. there is.

또한, 등록부(350)는, 일예로 제1 교수자와 관련하여 수신된 복수의 생활기록정보와 제1 교수자와 관련하여 수집된 게시물 정보를 종합적으로 분석함으로써, 제 1교수자의 성격유형정보로서 제1 교수자의 MBTI(Myers Briggs Type Indicator) 정보를 추측하여 도출할 수 있다. 등록부(350)는, 교수자 DB(또는 교수자풀)에 등록되어 있는 복수의 교수자 각각에 대하여, 각 교수자들의 MBTI 정보를 도출할 수 있고, 이후 도출된 각 교수자들의 MBTI 정보를 교수자 정보와 연계시켜 교수자 DB에 등록시켜 둘 수 있다.In addition, the register 350, for example, comprehensively analyzes a plurality of life record information received in relation to the first instructor and post information collected in relation to the first instructor, thereby providing the first instructor as personality type information. It can be derived by guessing the instructor's MBTI (Myers Briggs Type Indicator) information. The register 350 can derive the MBTI information of each instructor for each of the plurality of instructors registered in the instructor DB (or instructor pool), and then links the derived MBTI information of each instructor with the instructor information to determine the instructor's status. It can be registered in DB.

이때, MBTI의 정보의 유형에는 종래에 기 공지된 바와 같이 일예로 16가지의 유형으로서, ISTJ, ISFJ, INFJ, INTJ, ISTP, ISFP, INFP, INTP, ESTP, ESFP, ENFP, ENTP, ESTJ, ESFJ, ENFJ, 및 ENTJ를 포함할 수 있고, 각 유형의 특징에 대한 구체적인 설명은 생략하기로 한다. At this time, as previously known, the types of MBTI information include, for example, 16 types: ISTJ, ISFJ, INFJ, INTJ, ISTP, ISFP, INFP, INTP, ESTP, ESFP, ENFP, ENTP, ESTJ, ESFJ. , ENFJ, and ENTJ, and detailed descriptions of the characteristics of each type will be omitted.

이때, 등록부(350)는, 사용자 단말(100)에서 기 등록된 사용자의 MBTI 정보가 존재하는 상태에서 사용자 단말(100)에서 MBTI 기반 교수자 추천 요청이 이루어진 것으로 감지되는 경우, 교수자 DB(혹은 교수자풀)에 기 등록된 복수의 교수자 각각의 MBTI 정보를 기반으로 하여, 기 등록된 복수의 교수자 중 사용자의 MBTI 정보와 일치하는 MBTI 정보를 가진 교수자들을 추천 교수자들로서 추출하고, 이후 추출된 추천 교수자들의 정보를 사용자 단말(100)의 화면에 제공할 수 있다.At this time, when the register 350 detects that an MBTI-based instructor recommendation request has been made from the user terminal 100 while MBTI information of a user already registered in the user terminal 100 exists, the instructor DB (or instructor pool) Based on the MBTI information of each of the plurality of instructors already registered in ), among the plurality of instructors already registered, instructors with MBTI information that matches the user's MBTI information are extracted as recommended instructors, and the information on the recommended instructors is then extracted. Can be provided on the screen of the user terminal 100.

또는, 등록부(350)는, 사용자가 선호 MBTI 정보를 기 입력한 경우, 기 등록된 복수의 교수자 중 사용자가 기 입력한 선호 MBTI 정보와 일치하는 MBTI 정보를 가진 교수자들을 추천 교수자들로서 추출하여, 추출된 추천 교수자들의 정보를 사용자 단말(100)의 화면에 제공할 수도 있다. Alternatively, when the user has previously entered preferred MBTI information, the register 350 extracts as recommended instructors instructors whose MBTI information matches the preferred MBTI information previously entered by the user from among a plurality of pre-registered instructors. Information on recommended instructors may be provided on the screen of the user terminal 100.

이러한 등록부(350)는, 추천 교수자들의 정보를 제공함으로써, 사용자가 자신의 성격과 유사 내지 동일한 성격을 가진 교수자들(특히, 자신의 MBTI와 동일한 MBTI를 가진 교수자들) 중 어느 한 교수자를 선택해 해당 교수자의 클래스(수업)에 입장해 교육을 받을 수 있도록 하거나, 혹은 사용자가 선호하는 MBTI 정보를 가진 교수자들 중 어느 한 교수자를 선택해 해당 교수자의 클래스에 입장해 교육을 받을 수 있도록 할 수 있다. This register 350 provides information on recommended instructors, allowing the user to select one instructor among instructors with a personality similar to or identical to the user's (in particular, instructors with the same MBTI as the user's MBTI). You can enter the instructor's class and receive education, or you can select one of the instructors with the MBTI information you prefer and enter that instructor's class to receive education.

저장부(360)는, 적어도 하나의 교수자 단말(400)로부터 수집한 음성발화 데이터를 이용하여, 피치(Pitch), 제 1 포먼트(Formant, F1)와 피치 비율, 피치 대역폭, 피치 대역폭 내 평균 피치 위치 및 발화속도를 포함하는 음향적 음색 분석 데이터를 수집하여 표준발음 데이터베이스를 구축할 수 있다. 이때 피치는, 음의 높이로 주파수(Frequency)로 표시한다. The storage unit 360 uses voice speech data collected from at least one instructor terminal 400 to calculate pitch, first formant (F1), pitch ratio, pitch bandwidth, and average within the pitch bandwidth. A standard pronunciation database can be built by collecting acoustic timbre analysis data including pitch position and speech rate. At this time, pitch is the height of the sound and is expressed as frequency.

<F1 및 피치 비율><F1 and pitch ratio>

포먼트는 개인 음성의 근본적인 특징을 결정하는 중요한 요소 중 하나이다. 피치의 경우 성대의 조절을 통해 충분히 변화가 가능하며 적당한 수준 이내에서 자연스러운 음성을 산출하는 것이 가능하지만, 제 1 포먼트(F1)는 근본적인 성도의 길이와 관련되므로 인위적인 조절에 한계가 있다. F1이 결정되면 제 2 포먼트(F2)는 어떠한 모음을 산출하느냐에 따라 비율적으로 산출되므로 F1의 주파수 특성을 따른다. 예를 들어, F1과 피치의 비율 관계를 나타낼 때, F1/F0의 비율 비교에 사용된 일반 여성 평균피치를 이용할 수 있다. F1은 기본적으로 신체의 크기를 반영하므로 아동, 여성, 남성 순으로 낮아진다. 듣기 자연스러운 정상 범위에서의 낮은 F1은 음성의 무게감과 안정감에 영향을 미친다. 반면 F1이 높다면 상대적으로 가볍고 발랄한 느낌에 영향을 줄 것이다. 이것은 남성, 여성, 아동의 전반적인 음성특성을 반영하는 것이다. 또한 F1에 따라서 F2, F3의 주파수가 모두 영향을 받으며 이것은 전체적인 주파수 공명 형태에 영향을 미친다. 반면 피치와 F1의 비율은 높을수록 음성이 가라앉는 느낌을 준다. 이것은 피치의 절대적인 높낮이와는 다른 요소이다. Formants are one of the important elements that determine the fundamental characteristics of an individual's voice. In the case of pitch, it can be sufficiently changed by adjusting the vocal cords and it is possible to produce a natural voice within an appropriate level. However, since the first formant (F1) is fundamentally related to the length of the vocal tract, there are limits to artificial adjustment. Once F1 is determined, the second formant (F2) is calculated proportionally depending on which vowel is produced, so it follows the frequency characteristics of F1. For example, when expressing the ratio relationship between F1 and pitch, the average pitch of general women used to compare the ratio of F1/F0 can be used. F1 basically reflects body size, so it decreases in that order: children, women, and men. A low F1 in the normal listening range affects the weight and stability of the voice. On the other hand, if F1 is high, it will affect the relatively light and lively feeling. This reflects the overall vocal characteristics of men, women, and children. Additionally, depending on F1, the frequencies of F2 and F3 are all affected, which affects the overall frequency resonance shape. On the other hand, the higher the ratio between pitch and F1, the more the voice feels subdued. This is a different factor from the absolute height of the pitch.

<피치 대역폭><Pitch Bandwidth>

성대를 포함한 사람의 발성구조와 특징은 선천적인 요소이므로 자신에게 적합한 피치는 어느 정도 정해진다. 반면에 말하는 상황에서의 피치 대역폭은 선천적인 발성구조와 관련이 없으며, 화자가 기본피치에서 얼마나 유동적으로 변하면서 말하는지를 파악할 수 있는 하나의 척도로 해석할 수 있다. 피치 대역폭은 피치 변화가 얼마나 역동적으로 움직였는지를 반영한다. 경직된 상황이나 우울한 감정에서 성대의 활동성이 줄어들며 가장 대표적인 예로 로봇의 발성을 들 수 있다. Since a person's vocal structure and characteristics, including the vocal cords, are innate factors, the pitch that is suitable for one is determined to some extent. On the other hand, the pitch bandwidth in a speaking situation is not related to the innate vocal structure, and can be interpreted as a measure that can be used to determine how fluidly the speaker changes from the basic pitch when speaking. Pitch bandwidth reflects how dynamic the pitch changes are. In tense situations or depressed emotions, the activity of vocal cords decreases, and the most representative example is the vocalization of a robot.

전형적인 로봇발성은 피치가 일정하므로 피치대역폭이 매우 좁으며 이것은 무뚝뚝한 감정표현의 가정 전형적인 발성 예이다. 반대로 상대방에게 정감을 이끌어 내거나 목표한 내용 전달력을 증대시키기 위해서는 필연적으로 성대의 활동성을 높여야 한다. 인위적인 과도한 피치대역폭은 듣기 부자연스러울 수 있으나 좁은 피치 대역폭은 필연적으로 집중도를 떨어뜨리고 지루함을 줄 수밖에 없다. 결국 청자가 자연스럽게 들리는 수준 이내라면 피치대역폭이 넓은 것이 유리하다.Typical robot vocalizations have a constant pitch, so the pitch bandwidth is very narrow, and this is a typical example of vocalizations that express blunt emotions. On the contrary, in order to elicit affection from the other person or increase the ability to convey the targeted content, the activity of the vocal cords must inevitably be increased. Artificially excessive pitch bandwidth may be unnatural to listen to, but narrow pitch bandwidth inevitably reduces concentration and causes boredom. Ultimately, if the listener is within the level of natural hearing, a wide pitch bandwidth is advantageous.

이에 따라, 피치주변 평균 스펙트럼으로 전반적인 피치 높이와 주파수 특성과, 각 교수자의 피치 대역폭과 대역폭 비율을 나타내는 경우, 사용자의 발성과 비교할 기준값이 될 수 있다. 인간의 주파수 청감은 옥타브당 배수로 올라가는 음계에서 볼 수 있듯이 로그스케일에 가깝다. 따라서, 선형적인 피치대역폭이 아닌 피치의 위치에 따른 대역폭 비율이 의미가 있다. 여기서, 피치대역폭이란 화자가 말한 음성의 전체 평균스펙트럼의 피치범위에서 가장 에너지가 큰 중심주파수부터 에너지가 3dB 떨어질 때까지의 범위이며 대역폭 비율은 이것을 다시 평균피치를 나눈 값이다Accordingly, when the overall pitch height and frequency characteristics and the pitch bandwidth and bandwidth ratio of each instructor are represented by the average spectrum around the pitch, it can be a reference value for comparison with the user's vocalization. Human frequency hearing is close to a logarithmic scale, as can be seen in musical scales that rise in multiples per octave. Therefore, the bandwidth ratio according to the pitch position rather than the linear pitch bandwidth is meaningful. Here, the pitch bandwidth is the range from the center frequency with the highest energy in the pitch range of the entire average spectrum of the speaker's voice until the energy drops by 3dB, and the bandwidth ratio is the result of dividing this by the average pitch.

<피치 대역폭 내 평균 피치 위치> <Average pitch position within pitch bandwidth>

사람은 문장을 마무리할 때 저음으로 내려가는 특성이 있다. 즉 문장의 마무리에 투자되는 시간이나 피치를 내리는 곡선의 기울기에 따라서 피치대역폭 내 평균피치의 위치가 결정된다. 예를 들어, 피치대역폭 내에 평균피치가 차지하고 있는 위치를 기준으로 청감특성을 고려한 피치대역폭 내의 저음과 고음대역의 비율을 억양과 관련하여 고려할 수 있다. 평균피치는 주로 사용된 피치만을 나타내지만 피치대역폭내 평균피치의 위치를 통해 저음대역과 고음대역의 비율을 나눌 수 있다. 해당 수치의 저음대역의 비율이 높다면 화자는 문장의 마무리나 중간 쉼표 부분에서 차분하게 마무리하는 성향을 반영한다. 반대로 저음대역 비율이 낮다면 상대적으로 문장의 마무리가 신속한 성향을 반영한다.People have a tendency to go lower in their voice when finishing a sentence. In other words, the position of the average pitch within the pitch bandwidth is determined depending on the time invested in finishing the sentence or the slope of the curve lowering the pitch. For example, based on the position occupied by the average pitch within the pitch bandwidth, the ratio of low and high pitch bands within the pitch bandwidth considering auditory characteristics can be considered in relation to intonation. The average pitch mainly indicates only the pitch used, but the ratio of the low-pitched band and the high-pitched tone band can be divided through the position of the average pitch within the pitch bandwidth. If the ratio of the low-pitched range of the corresponding number is high, it reflects the speaker's tendency to finish calmly at the end of the sentence or at the middle comma. Conversely, if the low-pitched range ratio is low, it reflects a tendency to finish sentences relatively quickly.

이러한 문장 마무리의 F0 하강기울기는 인상에도 영향을 준다. 해당 수치가 문장 마무리 발성 특성 전체를 대표하는 것은 아니며 이것을 통해 교수자의 발성특성의 좋고 나쁨을 구별할 수는 없다. 이하 수학식 1의 FLP는 피치대역폭내에 평균피치가 차지하는 저음대역의 위치비율이며, 고음대역의 위치비율은 FHP이다. 여기서 FL과 FH은 각각 피치대역폭의 최저주파수와 최대주파수를 나타내며, FC는 평균피치이다.The F0 falling slope of these sentence endings also affects the impression. This number does not represent the entire sentence-ending vocalization characteristics, and it is not possible to distinguish between good and bad instructor's vocalization characteristics through this. F LP in Equation 1 below is the position ratio of the low-pitched tone band occupied by the average pitch within the pitch bandwidth, and the positional ratio of the high-pitched tone band is F HP . Here, F L and F H represent the minimum and maximum frequencies of the pitch bandwidth, respectively, and F C is the average pitch.

[수학식 1][Equation 1]

<발화속도> <Ignition speed>

발성속도는 초당 화자가 몇 개의 단어를 발성했는지에 대한 측정값으로 어느 정도 속도로 말하는지를 나타낸다. 어떤 문장을 어떤 상황에서 말하는가에 따라 적당한 속도는 다르기 때문에, 평균 발화속도만으로 속도 조절이 잘 되었는지 여부는 알 수 없지만, 평균을 통해 어느 정도의 속도 성향은 파악이 가능하다. 이때 속도를 측정하는 기준은, 초당 음절 수(Syllable Per Second: SPS)일 수 있다.Speech speed is a measure of how many words a speaker utters per second and indicates the speed at which a speaker speaks. Since the appropriate speed varies depending on which sentence is spoken and under what circumstances, it is impossible to determine whether the speed has been properly controlled based on the average speaking speed alone, but it is possible to determine a certain degree of speed tendency through the average. At this time, the standard for measuring speed may be syllables per second (SPS).

발음시각화부(370)는, 사용자 단말(100)에서 입력된 음성발화인 음성데이터를 시간축 상에서 정의되는 시계열 데이터로 표현하고, 시간축 상에서 변화하는 구조를 반영하는 확률적 SOM-VAE(Self-Organizing Map with Variational Auto Encoder) 알고리즘을 이용하여 표준발음 데이터베이스의 표준발음과 사용자 단말(100)의 오류발음 간 차이를 시각화할 수 있다. 음성의 시각화에 대한 연구는 예를 들어, 각 음성에 대해 입술 모양과 혀의 위치를 그래픽으로 표현하고 3차원 애니메이션으로 보여 주는 시각화 시스템이나, Time Delay 신경망을 이용하여 음소의 특징을 구한 후 이를 컬러로 표현하는 방법이 존재한다. 또, 단어 및 문장에 대한 표준발음과 사용자 발음의 스펙트럼과 컬러로 표현된 특성을 동시에 보여 주며 비교를 할 수 있도록 하였다. The pronunciation visualization unit 370 expresses voice data, which is a voice utterance input from the user terminal 100, as time series data defined on the time axis, and uses a probabilistic Self-Organizing Map (SOM-VAE) that reflects the structure that changes on the time axis. With Variational Auto Encoder) algorithm, the difference between the standard pronunciation of the standard pronunciation database and the error pronunciation of the user terminal 100 can be visualized. Research on voice visualization includes, for example, a visualization system that graphically expresses the shape of the lips and the position of the tongue for each voice and displays them in a 3D animation, or uses a time delay neural network to obtain phoneme characteristics and then displays them in color. There is a way to express it. In addition, the standard pronunciation of words and sentences and the characteristics expressed in spectrum and color of the user's pronunciation are simultaneously displayed to enable comparison.

이와 같은 시각화 방법들은 단지 개별 음성의 특징을 추출하고 시각화하여 보여 줄 뿐이므로 사용자의 발음이 표준발음으로부터 얼마나 멀리 떨어져 있고, 어떤 식으로 발화를 하여야 표준발음에 가까이 근접해 나갈 수 있는지에 대한 정보를 제시할 수 없는 단점이 있다. 이에, 본 발명의 일 실시예는 사용자의 발음이 표준발음으로부터 얼마나 떨어져 있는지 그 차이를 상대적인 거리 개념을 도입하여 화면에 표시하는 모델을 이용하기로 한다. 사용자는 자신의 발음이 표준발음으로부터 얼마나 떨어져 있는지 확인을 할 수있으며, 동시에 자신의 혀와 입모양이나 구강의 모양을 변화시켜가면서 교수자의 클래스 이전에 표준발음을 습득할 수 있다. Since these visualization methods only extract and visualize the characteristics of individual voices, they provide information about how far the user's pronunciation is from the standard pronunciation and how to speak to get closer to the standard pronunciation. There is a downside to not being able to do it. Accordingly, one embodiment of the present invention decides to use a model that displays on the screen how far the user's pronunciation is from the standard pronunciation by introducing the concept of relative distance. Users can check how far their pronunciation is from the standard pronunciation, and at the same time, change the shape of their tongue, mouth, or mouth to learn the standard pronunciation before the instructor's class.

표준발음 및 오류발음 공간 시각화 모듈을 구성하는데, 주요 기능은 음성에서 특징을 추출하여 클러스터링을 수행한 후 이를 화면에 사상(Mapping)하는 방법을 이용하는 것이다. 궁극적인 목적인 입력 음성으로부터 지속시간, 음의 세기(Intensity), 음높이에 대한 시간상의 패턴, 포먼트 주파수의 시간상 변화 패턴, 음성 포락선(Envelope)의 패턴, 기식의 양 등의 다중모드 자질을 추출하고, 표준발음과 오류발음 사이의 거리를 이들 자질들의 차이로 표현할 수 있는 척도를 구축하며, 이 척도에 따른 발음상의 차이를 2차원 컴퓨터 화면에 상대적인 거리로서 시각적으로 표현할 수 있도록 한다. 가장 큰 특징은 한 단어 또는 어구에 대한 발음의 차이를 컴퓨터 화면에 거리로 표현하는 발음 공간을 생성하여 이를 이용하는 사용자는 발성기관과 조음 방법을 조정해 가면서 스스로 발음을 교정하며 표준발음에 접근해 갈 수 있는 수월성에 있다. 이때, 표준발음은 전문가, 예를 들어 아나운서의 정확한 발음을 의미한다.It configures the standard pronunciation and error pronunciation space visualization module, and its main function is to extract features from speech, perform clustering, and then map them on the screen. The ultimate goal is to extract multi-mode features such as duration, intensity, temporal pattern of pitch, temporal change pattern of formant frequency, voice envelope pattern, and amount of expression from input voice. , construct a scale that can express the distance between standard pronunciation and error pronunciation as the difference between these features, and enable the difference in pronunciation according to this scale to be expressed visually as a relative distance on a two-dimensional computer screen. The biggest feature is that it creates a pronunciation space that expresses the difference in pronunciation of a word or phrase as a distance on the computer screen, allowing users to adjust their vocal organs and articulation methods to correct their own pronunciation and approach standard pronunciation. There is excellence that can be achieved. At this time, standard pronunciation refers to the correct pronunciation of an expert, for example, an announcer.

<음성특징 추출><Voice feature extraction>

발음 오류의 원인은 복합적인 양상을 띠고 있기 때문에 다중모드 자질(Multimodal Features)을 다루어야 하고, 이에 따라 표준발음과 오류발음 사이의 차이를 단순 비교하기에는 어려움이 있다. 예를 들어 평음, 격음, 경음을 구분하는 중요한 자질은 후행 모음의 음높이(Pitch)와 기식의 양으로서, 이들 음향적 자질을 [다], [타], [따] 발음으로 예를 들면, 음높이는 하나의 수치(주파수)로 표시되는 것이 아니라 시간상의 패턴으로 나타난다. 따라서 단어인 갔다가 표준발음에서는 경음화 되어 [갇따]로 발음되어야 하는데 사용자의 발음 오류로 인해 [갇다]와 같이 발음된다면 [따]와 [다]에 대한 음높이 패턴 사이의 차이, 즉 오류의 정도를 나타낼 수 있는 척도 또는 방법이 필요하다. 더욱이 패턴 형태의 음높이와 더불어 단순 수치 형태의 기식의 양도 함께 사용한 다중모드 척도를 설계하는 것은 단순한 일이 아니다. 따라서 점데이터를 기반으로 하는 클러스터링 알고리즘을 적용하지 않고 시계열 데이터를 입력으로 받아서 처리하는 방법을 사용할 수 있다.Because the causes of pronunciation errors are complex, multimodal features must be addressed, making it difficult to simply compare the differences between standard pronunciation and error pronunciation. For example, the important qualities that distinguish between flat, aspirated, and tense sounds are the pitch and amount of air of the trailing vowel. These acoustic qualities can be expressed as [da], [ta], and [ta] pronunciations, for example, pitch. is not displayed as a single number (frequency), but appears as a pattern in time. Therefore, in the standard pronunciation, the word ganda should be tense and pronounced as [gatta], but if it is pronounced as [gatda] due to a user's pronunciation error, it will indicate the difference between the pitch patterns for [tta] and [da], that is, the degree of error. A measure or method that can be used is needed. Moreover, designing a multimodal scale that uses both pitch in the form of patterns and quantity in the form of simple numbers is not a simple task. Therefore, it is possible to use a method that receives time series data as input and processes it without applying a clustering algorithm based on point data.

한국어 자음의 음향적 특성은 성대진동 시간(Voice Onset Time, VOT), 후행 모음의 기본주파수, 파열시 나오는 기류의 세기, 폐쇄지속시간(Closure Duration, CD) 등에 의해 특징지을 수 있다. 한국어 파열음의 평음, 경음, 격음을 구분하는데 있어서 VOT가 결정적인 역할을 하며, 파열음의 조음방법에서 어두 위치에서는 성대진동시간(VOT)과 후행 모음의 길이가 파열음을 구별하는 데 중요한 역할을 하고, 어중 위치에서는 패쇄지속시간(CD)과 선행 모음의 길이 등이 중요한 역할을 한다. 어두 위치, 즉 초성일 경우에 VOT값의 분포를 보면, 경음 [ㅃ, ㄲ, ㄸ]은 20ms 이하의 분포를 이루고, 격음 [ㅍ, ㅋ, ㅌ]는 60~80ms 구간의 분포를 가지며, 평음 [ㅂ, ㄱ, ㄷ]은 40~60ms의 분포를 보이는 것으로 관찰된다. 어중일 경우의 분포는 경음은 20ms 이하로 줄어들고, 격음은 50~60ms 구간의 분포를 이루며, 평음은 유음화된다. 또, 후행모음의 음높이와 폐쇄지속시간은 경음, 격음, 평음을 구별해 주는 속성이 있다.The acoustic characteristics of Korean consonants can be characterized by vocal fold vibration time (Voice Onset Time, VOT), fundamental frequency of the trailing vowel, strength of airflow during burst, closure duration (CD), etc. VOT plays a decisive role in distinguishing the plain, tense, and aspirated sounds of Korean plosives. In the articulation method of plosives, at the word-initial position, the vocal cord vibration time (VOT) and the length of the trailing vowel play an important role in distinguishing plosives. In position, closure duration (CD) and the length of the preceding vowel play an important role. Looking at the distribution of VOT values at the word-initial position, that is, in the case of initial consonants, tense consonants [ㅃ, ㄲ, ㄸ] have a distribution of less than 20ms, aspirated consonants [ㅍ, ㅋ, ㅌ] have a distribution of 60~80ms, and plain consonants [ㅃ, ㄲ, ㄸ] have a distribution of less than 20ms. [ㅂ, ㄱ, ㄷ] is observed to have a distribution of 40 to 60 ms. In the case of word-middle, the distribution is reduced to less than 20ms for tense sounds, the distribution is in the 50~60ms range for aspirated sounds, and the flat sounds are voiced. Additionally, the pitch and closure duration of trailing vowels have properties that distinguish tense, aspirated, and flat sounds.

상술한 데이터를 고려하여 VOT, 음높이, CD를 자음을 구분하는 특징으로 설정할 수 있다. 모음의 특징으로는 음성데이터로부터 세 개의 포먼트 F1, F2, F3를 구하여 사용할 수 있는데, 이는 본 출원인의 선등록특허인 한국등록특허 제10-2355960호(2022년02월08일 공고)에 상세히 기술되어 있으므로 본 명세서에 설명되지 않은 내용들은 상술한 등록특허를 참조하기로 한다. 포먼트를 구하는 방법에는 다음과 같이 LPC(Linear Predictive Coding) 분석을 기반으로 하는 방법이 많이 사용된다.Considering the above-mentioned data, VOT, pitch, and CD can be set as features to distinguish consonants. The characteristic of the vowel is that three formants F1, F2, and F3 can be obtained and used from voice data, which is detailed in Korean Patent No. 10-2355960 (announced on February 8, 2022), which is the applicant's pre-registered patent. Since it is described, contents not described in this specification will refer to the above-mentioned registered patent. To obtain formants, a method based on LPC (Linear Predictive Coding) analysis is widely used as follows.

① 먼저 음성데이터를 25ms 길이의 프레임 단위로 나눈다. 전처리 작업으로 Hamming Window를 곱한 후에 고주파 통과 전극 여과기(High-Pass all Pole Filter)를 적용한다. 각 프레임의 음성샘플 수를 N으로 표시하고, i 번째 프레임의 n 번째 샘플데이터를 si(n)으로 나타낼 때, LPC 모델은 다음과 같이 현재의 음성신호 값이 이전 p개의 음성샘플 값의 선형조합으로 근사적인 표현을 할 수 있다는 가정을 한다.① First, the voice data is divided into frames of 25ms in length. After multiplying the Hamming Window as a preprocessing operation, a high-pass all pole filter is applied. When the number of voice samples in each frame is expressed as N and the nth sample data of the ith frame is expressed as si(n), the LPC model is a linear combination of the previous p voice sample values as follows: It is assumed that an approximate expression can be made.

[수학식 2][Equation 2]

계수 벡터 (vec)a=(a1,...,ap)는 음성신호 si(n)과 예측신호 (hat)si(n) 사이의 MSE(Mean Square Error)를 최소화하는 값으로서 이하 수학식 2와 같은 선형식의 해를 구하여 얻는다.The coefficient vector (vec)a=(a1,...,ap) is a value that minimizes the MSE (Mean Square Error) between the voice signal si(n) and the prediction signal (hat)si(n), and is expressed in Equation 2 below: It is obtained by finding the solution of a linear equation such as .

[수학식 3][Equation 3]

② 필터계수인 벡터 (vec)a를 다음과 같이 LP 켑스트럼 계수(Cepstrum Coefficient) (vec)c=(c1,...,cn)으로 변환한다.② Convert the filter coefficient vector (vec)a to LP Cepstrum Coefficient (vec)c=(c1,...,cn) as follows.

[수학식 4][Equation 4]

③. LP 스펙트럼에서 낮은 주파수로부터 피크가 되는 지점을 차례로 구하면 F1, F2, F3를 얻을 수 있다.③. If you sequentially find the peak points from low frequencies in the LP spectrum, you can get F1, F2, and F3.

<시계열 데이터의 클러스터링><Clustering of time series data>

음성데이터는 시간축 상에서 정의되는 시계열 데이터로 표현된다. 따라서 시간축 상에서 변화하는 구조를 반영할 수 있는 클러스터링 알고리즘이 요구된다. 최근에 발표된 확률적 SOM-VAE(Self-Organizing Map with Variational Auto Encoder) 알고리즘은 고차원 시계열 데이터를 저차원 공간에 사상(Mapping)을 할 때 부드러운 연속성을 보장하는 성능을 제공해준다. 이 기법을 적용하면 시간축 상에서 변화하는 포먼트를 평균값이라는 점(Point) 데이터로 표현하는 대신에 시계열 데이터를 직접 이용할 수 있으므로 정보 손실을 막을 수 있다.Voice data is expressed as time series data defined on the time axis. Therefore, a clustering algorithm that can reflect the changing structure on the time axis is required. The recently announced stochastic SOM-VAE (Self-Organizing Map with Variational Auto Encoder) algorithm provides performance that guarantees smooth continuity when mapping high-dimensional time series data to low-dimensional space. By applying this technique, information loss can be prevented because time series data can be used directly instead of expressing formants that change on the time axis as point data called average values.

SOM-VAE 모델의 플로우를 간략하게 살펴보면, 입력 음성데이터 x는 신경망을 이용하여 구현한 부호기(Encoder)를 통해 시간정보가 함축된 잠재적 공간(Latent Space)의 Ze에 사상되고, Ze는 다시 SOM맵의 가장 가까운 노드 Zq에 사상되어 근사적으로 표현된다. SOM맵 공간에서는 마코브 전이모델을 적용하여 학습을 수행하는데 이를 통해 현재 상태 Ztq에서 다음 상태 Zt+1q로의 전이를 확률로 예측할 수 있다. 이와 같이 연속적인 시계열 데이터는 이산적인 표현으로 나타낼 수 있는데 다시 복호기(Decoder)를 통하여 원래의 시계열 데이터 공간에 사상시킬 수 있다. SOM-VAE 알고리즘에 의해서 구축되는 특징맵을 사용하여 컴퓨터 화면 위에서 음성의 상대적 거리를 나타낼 수 있다.Briefly looking at the flow of the SOM-VAE model, input voice data It is expressed approximately by mapping to the nearest node Zq. In the SOM map space, learning is performed by applying the Markov transition model, through which the transition from the current state Ztq to the next state Zt+1q can be predicted with probability. In this way, continuous time series data can be expressed in discrete expressions, which can then be mapped into the original time series data space through a decoder. The feature map constructed by the SOM-VAE algorithm can be used to represent the relative distance of the voice on the computer screen.

<경음화 발음의 분포><Distribution of tense pronunciation>

경음화 현상은 평음이 경음으로 발음되는 현상으로 단어 합법이 [합–j]으로 발음되는 현상이다. 오류발음이 [하법], [하–j], [핫법] 등으로 입력되었다면, 이들과 표준발음 [합–j]을 포함하여 4개의 발음군을 구성하고 SOM-VAE 특징맵을 구축한 결과를 표시할 수 있다. 표준발음과 오류발음은 각각 노드를 가지며 분포되는데, 노드들의 분포가 군집화를 이루고, 이 특징맵을 컴퓨터 화면에 사상을 하면 사용자의 오류발음이 표준발음으로 얼마나 떨어져 있는지 상대적인 거리를 표시할 수가 있다.Gyeongeumization is a phenomenon in which a plain sound is pronounced as a hard sound, and the word Hapbeop is pronounced as [hapj]. If the error pronunciation was entered as [Habeop], [Haj], [Hotbeop], etc., four pronunciation groups including these and the standard pronunciation [Haj] were formed, and the results of constructing the SOM-VAE feature map were calculated. It can be displayed. Standard pronunciation and error pronunciation are each distributed with nodes. The distribution of nodes forms a cluster, and when this feature map is mapped onto a computer screen, the relative distance of the user's error pronunciation from the standard pronunciation can be displayed.

<비음화 발음의 분포><Distribution of nasal pronunciation>

비음화 현상은 비음이 아닌 범주에 속한 자음이 비음으로 발음되는 현상으로 단어 작년이 [장년]으로 발음되는 것과 같은 현상이다. 이에 관련된 오류발음이[자년], [자연], [잔년]으로 입력되었다면, 표준발음을 포함하여 4개의 발음군을 구성하고 SOM-VAE 특징맵을 구축할 수 있고 그 결과를 표시할 수 있다.The nasalization phenomenon is a phenomenon in which consonants belonging to a non-nasal category are pronounced as nasal sounds, and is the same phenomenon as the word last year being pronounced as [Jangnyeon]. If the error pronunciation related to this is entered as [janyeon], [natural], and [jannyeon], four pronunciation groups including the standard pronunciation can be formed, a SOM-VAE feature map can be constructed, and the results can be displayed.

<유음화 발음의 분포><Distribution of voiced pronunciation>

한국어 자음 체계에서 유음은 [ㄹ] 하나이다. 유음화 현상은 비음 [ㄴ]이 유음 [ㄹ]로 변동되어 실현되는 현상으로 단어 편리가 [펼리]로 발음되는 것 같은 현상이다. 단어 편리에 관련된 오류발음은 [펴리], [펴니], [편니]로 입력되었다면, 표준발음을 포함하여 4개의 발음군을 구성하고 SOM-VAE 특징맵을 구축할 수 있다. 이 외에도 유기음화 발음 니은(ㄴ) 첨가 발음, 구개음화 발음 등이 있으며, 각 발음 데이터들은 포먼트 특징에 따라서 화면에 사상시킬 수 있다.In the Korean consonant system, there is only one consonant [ㄹ]. The voicing phenomenon is a phenomenon that occurs when the nasal sound [ㄴ] is changed to the voice sound [ㄹ], and is like the word convenience being pronounced as [pulli]. If the error pronunciation related to word convenience is entered as [Peoeri], [Peooni], and [Pyeonni], four pronunciation groups including the standard pronunciation can be formed and a SOM-VAE feature map can be constructed. In addition, there are organic phonetic pronunciations, ni-eun (ㄴ)-added pronunciations, and palatal phonetic pronunciations, and each pronunciation data can be mapped onto the screen according to formant characteristics.

모음분석부(380)는, 사용자 단말(100)로부터 음성발화가 인식된 경우, 음성샘플을 수집하고 Praat 프로그램을 이용하여 음성샘플에서 모음 아, 이 및 우를 분석한 후, 표준발음 음성발화와 각 음형대 주파수 차이를 산출한 후, 사용자의 음성발화와 표준발음 음성발화 간 모음삼각도(Vowels Triangle)를 생성하여 차이가 발생하는 모음에 대한 구강개방 및 입술의 움직임을 지도하도록 교수자 단말(400)로 전송할 수 있다. 한국어는 자음을 산출하기 위해 모음이 운반체의 역할을 해 주는데, 자연스러운 문장 속에서 아나운서가 산출하는 모음과 차이를 분석하고 사용자의 발음을 음향학적으로 분석하여 산출하는 패턴을 분석하는 경우, 사용자의 발음지도에 기초정보로 이용될 수 있다.When a voice utterance is recognized from the user terminal 100, the vowel analysis unit 380 collects a voice sample, analyzes the vowels A, I, and U in the voice sample using the Praat program, and then generates a standard pronunciation voice utterance. After calculating the frequency difference for each sound zone, a vowel triangle is created between the user's voice utterance and the standard pronunciation voice utterance, and the instructor terminal (400) is used to guide mouth opening and lip movement for vowels where differences occur. ) can be transmitted. In Korean, vowels serve as a carrier to produce consonants. When analyzing the difference between the vowels produced by the announcer in a natural sentence and analyzing the patterns produced by acoustically analyzing the user's pronunciation, the user's pronunciation It can be used as basic information on maps.

<음성샘플수집><Voice sample collection>

사용자의 음성을 수집하기 위해 개별 음성 샘플은 Roland(R-09HR)을 활용하여 wav 파일로 녹음하고, 이때 표본추출률(Sampling Rate)은 44kHz로 설정할 수 있다. 이때 사용자들의 자연스러운 글 읽기를 위해 가능한 의미있는 단어를 구성할 수 있고, 파열음의 개방파열이 일어난 후 후행되는 모음의 음형대 전이가 없는 부분만을 분석할 수 있다. 한글 문장을 읽을 때 긴장하거나 음절별로 끊어읽는 것을 막기 위해 연습문장을 먼저 읽은 후에 목표 문장을 읽게 할 수 있다.To collect the user's voice, individual voice samples are recorded as wav files using Roland (R-09HR), and the sampling rate can be set to 44kHz. At this time, it is possible to construct as meaningful words as possible for users' natural reading of the text, and only the part where there is no phonetic transition of the vowel following the open rupture of the plosive can be analyzed. To prevent students from being nervous or stopping to read each syllable when reading Korean sentences, you can read the practice sentences first and then read the target sentence.

<음성샘플분석><Voice sample analysis>

Praat 프로그램을 이용하여 수집된 음성샘플에서 모음 /아, 이, 우/를 분석할 수 있다. 목표단어에 포함된 모음의 음형대를 분석하기 위해 파열음의 개방파열(Burst)이 터진 이후에 모음음형대가 시작하는 시점에서 다른 음소로 전이가 일어나기 전까지 평평한 범위를 분석하여 3 개의 음형대를 분석할 수 있다. 이때, 사용자와 통제집단인 교수자의 대표모음의 음형대(F1,F2,F3) 간의 주파수 차이를 살펴보기 위하여 독립표본 t 검정을 실시할 수 있다.Using the Praat program, you can analyze the vowels /ah, i, u/ in collected voice samples. In order to analyze the sound range of the vowel included in the target word, three sound ranges were analyzed by analyzing the flat range from the beginning of the vowel range after the burst of the plosive until the transition to another phoneme occurs. You can. At this time, an independent samples t test can be performed to examine the frequency difference between the sound patterns (F1, F2, F3) of the representative vowels of the user and the instructor, which is the control group.

<모음삼각도><Vowel triangle>

모음사각도의 크기에 따라 말명료도와 관련있고, 모음사각도의 면적이 좁을수록 말명료도가 떨어진다. 마찬가지로 모음삼각도도 동일한 개념인데, 동일한 환경의 문맥모음에서 한국어 학습자가 모음삼각도 면적이 작아 발음의 명료도가 감소하는 경우가 있다. 이러한 축소는 조음산출을 위한 긴장과 입술의 움직임이 떨어지면서 성도 축소 등으로 인해 나타난 것이다. 이에 따라, 한국어 학습자의 모음삼각도 크기가 일반인에 비해 작고 모음 /아, 어, 우/의 경우 더 뒤쪽에 배치된 경우, 이들의 발음명료성을 높이기 위해 구강개방과 입술강의 움직임을 확장시켜 산출하기 위한 언어발음교육이나 지도가 필요하다. 이러한 특성을 파악한다면 교수자는 사용자에게 인공와우와 같은 개구기를 착용시킬 수도 있고 지속적으로 체계적인 발음훈련을 지도하는 등으로 지도의 방향을 잡을 수 있다.The size of the vowel angle is related to speech intelligibility, and the narrower the area of the vowel angle, the lower the speech intelligibility. Likewise, vowel triangle is the same concept, but in context vowels in the same environment, Korean learners sometimes have a small vowel triangle area, which reduces the clarity of pronunciation. This reduction is due to tension for articulation production and reduction of lip movement, resulting in reduction of the vocal tract. Accordingly, if the size of the vowel triangle of Korean learners is smaller than that of the general public and the vowels /ah, uh, u/ are placed further back, it is calculated by expanding the mouth opening and movement of the lip space to improve pronunciation clarity. Language pronunciation education or guidance is needed. If these characteristics are identified, the instructor can set the direction of instruction by having the user wear an aperture device such as a cochlear implant or continuously providing systematic pronunciation training.

스피치부(390)는, 사용자 단말(100)의 사용자의 레벨을 나누어 스피치 테스트를 진행한 후 기 설정된 기관 또는 협회에서 발행하는 스피치 자격증을 발급할 수 있다.The speech unit 390 may conduct a speech test by dividing the levels of users of the user terminal 100 and then issue a speech certificate issued by a preset organization or association.

평가부(391)는, 사용자 단말(100)에서 교수자를 선택하여 교수자 단말(400)과 실시간 강의를 진행한 후 교수자에 대한 평점 및 리뷰를 입력하도록 요청하고, 각 교수자별로 평점과 리뷰를 누적하여 저장할 수 있다. The evaluation unit 391 selects an instructor from the user terminal 100 and conducts a real-time lecture with the instructor terminal 400, then requests the instructor to input ratings and reviews, and accumulates the ratings and reviews for each instructor. You can save it.

빅데이터화부(393)는, 사용자 단말(100)에서 입력되는 음성발화에 대한 음성 데이터를, 인구통계학적 데이터로 라벨링하여 음성발화한 텍스트와 매핑하여 빅데이터를 구축할 수 있다. 영어의 경우 TIMIT 음성 코퍼스(Corpus)와 같은 낭독체 뿐만 아니라, Buckeye 음성 코퍼스와 같은 자연발화 레이블이 제공됨으로써 발화자 정보는 물론 구체적인 음성 자료가 공개되어 있다. 각 단어에 해당하는 발음 형태가 텍스트 기반의 발음기호 형태로 되어 있어 쉽게 발음사전으로 전환할 수 있으며, CMU 발음사전과 같은 공개된 사전식 발음사전과 비교하여 발음변이를 추출해 낼 수 있다. 한국어 음성 코퍼스는 낭독체의 경우 국립국어원에서 제공한 서울말 낭독체 발화 코퍼스가 있으며, 자연발화의 경우 최근 공개된 서울코퍼스가 있지만, 실제로 각 집단이나 그룹, 또 직군에 있는 사람들이 발화하는 음성을 대규모로 얻기가 어렵다. 얻는다고 할지라도 각 사용자의 인구통계학적 데이터를 라벨링해야 하는 과정을 거쳐야 하는데, 본 발명의 일 실시예에서는 각 사용자가 발음연습을 반복적으로 장기간 실시하게 되고, 각 사용자의 지역, 성별, 직군 등을 수집하게 되므로 인구통계학적 데이터를 라벨링하지 않아도 각 집단의 음성 데이터를 얻을 수 있게 된다.The big data converting unit 393 can construct big data by labeling voice data for voice utterances input from the user terminal 100 with demographic data and mapping it with the voice utterance text. In the case of English, not only speech texts such as the TIMIT speech corpus but also natural speech labels such as the Buckeye speech corpus are provided, making speaker information as well as specific speech data public. Since the pronunciation form corresponding to each word is in the form of a text-based pronunciation symbol, it can be easily converted to a pronunciation dictionary, and pronunciation variations can be extracted by comparing it with a public pronunciation dictionary such as the CMU pronunciation dictionary. For the Korean speech corpus, there is the Seoul Speech Corpus provided by the National Institute of the Korean Language in the case of reading, and in the case of spontaneous speech, there is the recently released Seoul Corpus, but it contains the voices actually uttered by people in each group, group, or occupation. Difficult to obtain on a large scale. Even if it is obtained, it is necessary to go through a process of labeling each user's demographic data. In one embodiment of the present invention, each user repeatedly practices pronunciation for a long period of time, and each user's region, gender, occupation, etc. are collected. This makes it possible to obtain voice data for each group without labeling demographic data.

인식성능향상부(395)는, STT(Speech to Text)를 생성할 때, 음성 데이터와 텍스트를 입력하여 학습시킴으로써, 인구통계학적 데이터에 따라 달라지는 음성발화에 대응하는 음성 데이터가 입력되더라도, 텍스트가 출력되도록 할 수 있다. STT(Speech To Text)는 음성인식의 한 분야로서 사람의 음성언어를 컴퓨터의 해석으로 문자데이터로 변환하는 처리를 의미한다. 키보드나 기타 입력장치에 의한 입력이 아니라 사람의 음성을 통한 입력이 되기 때문에 HCI(Human Computer Interaction), 텔레메틱스(Telemetics), 인공지능 비서, 챗봇(ChatBot) 등 다양한 기술의 기반이 된다. STT는 발화자의 음성을 기계적인 알고리즘을 통해 텍스트로 변환을 수행하는데, 최근 STT를 위한 음성인식 엔진은 딥러닝(Deep Learning) 알고리즘을 통해 음향과 언어모델을 이용해 정확도를 높이고 있다. When generating STT (Speech to Text), the recognition performance improvement unit 395 learns by inputting voice data and text, so that even if voice data corresponding to voice utterance that varies depending on demographic data is input, the text is It can be printed. STT (Speech To Text) is a field of voice recognition and refers to the process of converting human voice language into text data through computer interpretation. Because input is made through human voice rather than through a keyboard or other input device, it is the basis for various technologies such as HCI (Human Computer Interaction), telematics, artificial intelligence assistant, and ChatBot. STT converts the speaker's voice into text through a mechanical algorithm, and recently, the voice recognition engine for STT is improving accuracy by using sound and language models through deep learning algorithms.

전통적인 음성인식 알고리즘인 HMM(Hidden Markov Model) 이외에 딥러닝 기반알고리즘으로 널리 사용되는 DNN(Deep Neural Network)과 RNN(Recurrent Neural Network)기법을 적용함으로써 과거에 비해 높은 정확도를 보이고 있다. STT를 수행하는 과정은 입력음성을 전처리한 후 많은 음성 데이터에 의해 트레이닝된 모델과 비교해 텍스트 결과를 출력한다. 따라서 얼마나 다양한 음성 데이터로 트레이닝을 했는지, 얼마나 특화된 알고리즘을 통해 모델을 생성했는지 등 다양한 기술에 따라 출력되는 결과물이 다르게 나타날 수 있다. 따라서 정확한 성능 평가 및 테스트를 위해서는 입력된 오디오가 얼마나 정확하게 텍스트로 변환이 되었는가에 대한 평가를 수행하는데 이때, 필요한 기술이 텍스트 유사도(Similarity) 평가이다.In addition to the traditional voice recognition algorithm, HMM (Hidden Markov Model), it is showing higher accuracy than in the past by applying DNN (Deep Neural Network) and RNN (Recurrent Neural Network) techniques, which are widely used as deep learning-based algorithms. The process of performing STT preprocesses the input voice and outputs text results by comparing it with a model trained on a lot of voice data. Therefore, the output results may appear differently depending on various technologies, such as how diverse the voice data was trained with and how specialized the model was created. Therefore, in order to accurately evaluate and test performance, it is necessary to evaluate how accurately the input audio has been converted to text. At this time, the necessary technology is text similarity evaluation.

텍스트 유사도 측정은 자연어처리(NLP, Natural Language Processing) 분야에서 중요한 연구 분야이며 최근 인공지능(AI, Artificial Intelligence)기술의 발전과 더불어 적용 분야가 많다. 문자열의 유사도 측정은 두 문자열 간의 의미적 유사성을 점수화하며 두 데이터가 얼마나 같은지 나타내주는 척도이다. 데이터 과학 분야에서 데이터 간의 유사도를 측정하는 것은 데이터의 분류(Classification) 및 군집화(Clustering)의 기반이며 향상된 알고리즘을 적용하기 위한 기반이 된다. 데이터에 대한 유사도를 비교할 때 단순 1:1 매칭이면 간단할 수도 있지만 음성을 통해 변환된 텍스트는 여러 변수가 존재한다. 영어를 텍스트로 변환하는 경우, 영어는 알파벳으로 이루어져 있고 띄어쓰기도 명확하기 때문에 유사도를 측정하기가 상대적으로 유리하지만, 한국어의 경우는 초성, 중성, 종성이 하나의 글자를 이루고 있으며, 정확한 띄어쓰기도 어렵다. 또한 두음법칙, 연음법칙 등으로 인해 충분한 의미전달은 되지만 정확한 한글 표기와 발음상의 표기가 다른 점이 많은 경우가 많다. 따라서 한글에 대한 유사도 평가는 영어와는 다른 식으로 접근을 해야 좀 더 정확한 평가를 할 수 있다.Text similarity measurement is an important research field in the field of Natural Language Processing (NLP), and has many areas of application with the recent development of artificial intelligence (AI) technology. String similarity measurement scores the semantic similarity between two strings and is a measure of how similar the two data are. In the field of data science, measuring similarity between data is the basis for classification and clustering of data and the basis for applying improved algorithms. When comparing similarity to data, simple 1:1 matching may be simple, but text converted through voice has many variables. When converting English to text, it is relatively advantageous to measure similarity because English is made up of alphabets and spacing is clear, but in Korean, the initial consonant, middle consonant, and final consonant make up one letter, and accurate spacing is difficult. . In addition, although the meaning is sufficiently conveyed due to the rules of initial pronunciation and linking rules, there are many cases where the correct Hangul spelling and pronunciation are different. Therefore, the similarity evaluation for Hangul must be approached in a different way from that for English to achieve a more accurate evaluation.

STT 엔진의 정확도 평가를 위한 과정은 일반적으로 다음과 같다. 첫 번째 테스트 오디오 음성파일과 정확하게 매칭되는 원본 텍스트 파일을 준비한다. 두 번째 STT 엔진을 통해 나온 텍스트 결과파일과 원본 오디오의 텍스트 파일을 비교해 유사도를 비교한다. 평가과정은 매우 단순하지만 인식율을 평가하는데 몇몇 오차가 존재할 수 있다. 우선 원본 텍스트 파일을 생성할 때 오류가 존재할 수 있다. 예를 들면 어떤 단어의 표준발음과 현실발음이 둘 다 존재할 경우, 발음에 따라 의미가 변별되는 경우가 있다. 이는 현실발음과 표준발음이 일정한 의미 차이를 초래하는 경우라고 할 수 있다. 어두경음화의 경우, 어두경음화 결과 본래 뜻과는 다른 의미를 만들어 내기도 한다. [쫄다]는 [졸다]의 [ㅈ]이 어두에서 경음화된 것으로,‘심리적으로 겁에 질리다’라는 의미로 쓰일 때는 [쫄다]로 발음되는 것이 일반적이다. [졸다]가 이런 의미로 쓰이는 상황에서 화자가 ‘야, 졸지[쫄지] 마.’, ‘너 졸았어[쪼라써]?’와 같이 현실발음으로 발음한다면, STT는 [쫄지마]로 받아쓰게 되고 이는 제대로 텍스트로 변환한 것이 아니기 때문에 오류로 취급된다. 이때, [졸지마]를 [쫄지마]로 발음한 것, 즉 [표준발음]-[현실발음]을 매핑하여 저장하고, [텍스트]-[표준발음]과 연결시키는 경우, 현실발음을 입력하더라도 표준발음으로 변환한 후 표준어, 즉 텍스트로 오류없이 변환시킬 수 있게 된다.The process for evaluating the accuracy of the STT engine is generally as follows. Prepare an original text file that exactly matches the first test audio voice file. The similarity is compared between the text result file produced through the second STT engine and the text file of the original audio. Although the evaluation process is very simple, there may be some errors in evaluating the recognition rate. First, there may be errors when creating the original text file. For example, when a word has both a standard pronunciation and a real pronunciation, the meaning may be differentiated depending on the pronunciation. This can be said to be a case where there is a certain difference in meaning between the actual pronunciation and the standard pronunciation. In the case of a prefix, a meaning different from the original meaning may be created as a result of the prefix. [Jjolda] is a tense pronunciation of the [ㅈ] in [Jjolda] at the beginning, and when it is used to mean ‘to be psychologically scared,’ it is generally pronounced as [jjolda]. In a situation where [dozing off] is used in this sense, if the speaker pronounces it in a realistic pronunciation, such as ‘Hey, don’t doze [get scared].’ or ‘Are you dozing off [get scared]?’, STT is dictated as [Don’t get scared]. This is treated as an error because it has not been converted to text properly. At this time, if [Don't doze off] is pronounced as [Don't be scared], that is, [Standard pronunciation] - [Real pronunciation] are mapped and stored, and linked with [Text] - [Standard pronunciation], even if the realistic pronunciation is entered. After converting to standard pronunciation, it can be converted to standard language, that is, text, without error.

이때 [표준발음]과 [현실발음]을 매핑시킬 때는, 각 사용자가 표준발음에 대응하는 [텍스트]를 읽을 때 입력되는 음성발화, 즉 음성 데이터를 [현실발음]으로 매핑시켜 데이터베이스를 풍부히 하게 된다. 각 사용자는 교육을 받기 이전에 테스트를 진행하게 되는데 교육 이전인 경우 일반인이 그대로 사용하는 현실발음을 하는 상태이므로, 이 기간 내, 즉 교수자가 어느 정도 레벨 이하라고 판단하거나 판단을 하기 이전의 사용자로부터 입력된 음성발화만 현실발음으로 추출하여 사용할 수 있다. 이미 교재 또는 콘텐츠에는 [텍스트]-[표준발음]이 매핑되어 저장되어 있으므로, 여기에 사용자가 발화하는 현실발음만을 더 입력받아 연결하면 된다. 이를 이용하는 경우 사용자는 연습을 하게 되고, STT 엔진을 개발하는 개발자에게는 풍부한 음성 코퍼스를 제공할 수 있게 되며, 개발자가 라벨러를 고용하지 않아도 이미 라벨링이 되어 있기 때문에 전처리 없이 그대로 사용할 수도 있어 활용도가 높고 경제적이다.At this time, when mapping [standard pronunciation] and [realistic pronunciation], the database is enriched by mapping the voice data, that is, the voice data input when each user reads the [text] corresponding to the standard pronunciation, to [realistic pronunciation]. . Each user undergoes a test before receiving training. Before training, the actual pronunciation used by the general public is the same, so within this period, that is, before the instructor determines or judges that the user is below a certain level, Only the input voice utterance can be extracted and used as real pronunciation. Since [text]-[standard pronunciation] is already mapped and stored in the textbook or content, only the actual pronunciation uttered by the user needs to be entered and connected to it. When using this, users can practice, and developers developing STT engines can be provided with a rich voice corpus. Developers can use it as is without preprocessing because it is already labeled without hiring a labeler, making it highly useful and economical. am.

또한, 도면에 도시하지는 않았으나, 교육 서비스 제공 서버(300)는, 사용자가 한국어 교육교재를 구매 가능하도록 하기 위해, 사용자 단말(100)에서 교재 메뉴를 클릭한 것으로 감지되는 경우, 교육교재 DB(미도시)에 기 등록된 복수의 한국어 교육교재의 리스트인 교육교재 리스트를 사용자 단말(100)의 화면에 제공하는 교재 관리부(미도시)를 포함할 수 있다.In addition, although not shown in the drawing, the education service providing server 300 operates in the education materials database (not shown) when it detects that the user has clicked on the textbook menu on the user terminal 100 in order to enable the user to purchase Korean education materials. It may include a textbook management unit (not shown) that provides a list of educational textbooks, which is a list of a plurality of Korean educational textbooks already registered in the city, on the screen of the user terminal 100.

이때, 교재 관리부(미도시)는 교육교재 리스트를 제공할 때, 교육교재 리스트가 표시되는 사용자 단말(100)의 화면의 일영역에 사용자가 선택한 적어도 하나의 위시리스트 교재의 정보가 노출되는 위시리스트 노출 아이콘을 함께 제공할 수 있다. 이때, 위시리스트 노출 아이콘의 크기는, 일예로 사용자 단말(100)의 화면의 전체 크기의 1/10에 해당하는 크기를 갖도록 마련될 수 있다. 즉, 위시리스트 노출 아이콘은, 사용자 단말(100)의 화면의 전체 크기보다 작은 크기로 마련될 수 있다.At this time, when providing a list of educational teaching materials, the teaching materials management unit (not shown) displays a wish list in which information on at least one wish list teaching material selected by the user is displayed in one area of the screen of the user terminal 100 where the list of educational teaching materials is displayed. An exposure icon can also be provided. At this time, the size of the wish list exposure icon may be set to have a size corresponding to 1/10 of the total size of the screen of the user terminal 100, for example. That is, the wish list exposure icon may be provided in a size smaller than the overall size of the screen of the user terminal 100.

교재 관리부(미도시)는, 사용자가 교육교재 리스트에 포함된 복수의 한국어 교육교재 중 구매를 원하는 적어도 하나의 한국어 교육교재를 위시리스트 교재로서 위시리스트 노출 아이콘에 저장시켜 두도록 할 수 있다.The textbook management unit (not shown) may allow the user to store at least one Korean education textbook that the user wants to purchase among a plurality of Korean education textbooks included in the education textbook list as a wish list textbook in the wish list exposure icon.

이때, 위시리스트 노출 아이콘은, 미리 설정된 개수(일예로 5개) 만큼의 위시리스트 교재의 정보가 노출되는 복수개의 노출 영역(즉, 5개의 노출 영역)을 포함할 수 있다. 이에 따라, 일예로 사용자는 위시리스트 교재로서 최대 5개의 위시리스트 교재를 위시리스트 노출 아이콘에 저장시켜 둘 수 있다.At this time, the wishlist exposure icon may include a plurality of exposure areas (i.e., 5 exposure areas) where information on the wishlist textbook is exposed as much as a preset number (for example, 5). Accordingly, for example, the user can store up to five wish list teaching materials in the wish list exposure icon.

이때, 교재 관리부(미도시)는, 위시리스트 노출 아이콘을 사용자 단말(100)의 화면의 전체 크기의 1/10에 해당하는 크기를 갖도록 마련하고, 위시리스트 노출 아이콘을 복수개의 노출 영역을 포함하도록 마련함에 따라, 사용자가 위시리스트 노출 아이콘을 통해, 위시리스트 노출 아이콘에 저장시켜 둔 위시리스트 교재들과 사용자 단말의 화면에 표시되는 교육교재 리스트를 한 화면에서 함께 확인하면서 원하는 적어도 한 교육교재를 구매 가능하도록 할 수 있다.At this time, the textbook management unit (not shown) prepares the wishlist exposure icon to have a size corresponding to 1/10 of the total screen size of the user terminal 100, and configures the wishlist exposure icon to include a plurality of exposure areas. Accordingly, the user can check the wish list textbooks saved in the wish list exposure icon and the list of educational materials displayed on the screen of the user terminal together on one screen through the wish list exposure icon and purchase at least one educational material of their choice. It can be made possible.

또한, 위시리스트 노출 아이콘은, 일영역에 마련되는 최저가 검색 버튼을 포함할 수 있다. Additionally, the wishlist exposure icon may include a lowest price search button provided in the day area.

교재 관리부(미도시)는, 일예로 사용자가 교육교재 리스트 내 복수의 한국어 교육교재 중 제1 한국어 교육교재 내지 제4 한국어 교육교재를 포함한 4개의 한국어 교육교재를 구매를 원하여 위시리스트 교재(즉, 4개의 위시리스트 교재)로서 위시리스트 노출 아이콘에 저장시켜둔 상태에서 최저가 검색 버튼을 클릭한 것으로 감지되는 경우, 상기 최저가 검색 버튼에 대한 사용자의 클릭에 응답하여, 온라인 상의 복수의 교재판매처 사이트(일예로, 인터파크, 알라딘, 쿠팡, 교보문고, 옥션, 영풍문고, G마켓 등)를 대상으로, 상기 위시리스트 노출 아이콘에 기 저장된 4개의 위시리스트 교재(즉, 4개의 한국어 교육교재에 대응하는 4개의 위시리스트 교재) 각각에 대해 상기 4개의 위시리스트 교재 각각과 동일한 교재명과 저자명(또는 출판사)을 가진 동일 교육교재에 대한 최저가 검색을 진행하고, 이후 최저가 검색의 결과를 기반으로 하여, 상기 4개의 위시리스트 교재의 정보가 노출되어 있는 위시리스트 노출 아이콘 내 4개의 노출 영역 각각의 하단 일영역에 상기 4개의 위시리스트 교재 각각의 최저가 검색 결과 정보가 노출되도록 제어할 수 있다.For example, the textbook management department (not shown) may wish to purchase four Korean education textbooks, including the 1st to 4th Korean education textbooks among the plurality of Korean education textbooks in the education textbook list, and select the wish list textbooks (i.e. , 4 wish list textbooks), if it is detected that the lowest price search button has been clicked while the wish list exposure icon is saved, in response to the user's click on the lowest price search button, a plurality of online textbook sales sites ( For example, for Interpark, Aladdin, Coupang, Kyobo Bookstore, Auction, Youngpoong Bookstore, G Market, etc., 4 wishlist textbooks (i.e. 4 corresponding to 4 Korean education textbooks) already stored in the wishlist exposure icon. For each of the four wishlist textbooks, a lowest price search is conducted for the same educational textbooks with the same textbook name and author name (or publisher) as each of the four wishlist textbooks, and then based on the results of the lowest price search, the four wishlist textbooks are It can be controlled so that the lowest price search result information for each of the four wishlist textbooks is exposed in the bottom area of each of the four exposure areas within the wishlist exposure icon where information on the wishlist textbooks is exposed.

예를 들면, 위시리스트 노출 아이콘 내 제1 노출 영역에는 '제1 교재명과 제1 저자명을 가진 제1 위시리스트 교재(제1 한국어 교육교재)'가 저장되어 있고, 제2 노출 영역에는 '제2 교재명과 제2 저자명을 가진 제2 위시리스트 교재(제2 한국어 교육교재)'가 저장되어 있고, 제3 노출 영역에는 '제3 교재명과 제3 저자명을 가진 제3 위시리스트 교재(제3 한국어 교육교재)'가 저장되어 있고, 제4 노출 영역에는 '제4 교재명과 제4 저자명을 가진 제4 위시리스트 교재(제4 한국어 교육교재)'가 저장되어 있고, 이러한 성태에서 사용자가 최저가 검색 버튼을 클릭했다고 하자.For example, in the first exposure area of the wishlist exposure icon, 'the first wishlist textbook (first Korean education textbook) with the name of the first textbook and the name of the first author' is stored, and in the second exposure area, 'the second textbook' is stored. The 2nd wishlist textbook (2nd Korean education textbook) with the name of the textbook and the 2nd author is stored, and in the third exposure area, the 3rd wishlist textbook (3rd Korean education textbook) with the name of the 3rd textbook and the name of the 3rd author is stored. 'Textbook)' is stored, and in the fourth exposure area, '4th wish list textbook (4th Korean education textbook) with the name of the 4th textbook and the name of the 4th author' is stored, and in this situation, the user clicks the lowest price search button. Let's say you clicked.

이후, 교재 관리부(미도시)는 복수의 교재판매처 사이트를 대상으로 4개의 위시리스트 교재 각각에 대한 최저가 검색을 진행할 수 있고, 이때, 최저가 검색의 진행 결과, i) 제1 위시리스트 교재와 관련하여서는, 제1 교재판매처 사이트(일예로 영풍문고)에서 8000원, 제2 교재판매처 사이트(일예로 G 마켓)에서 9500원, 제3 교재판매처 사이트(일에로 알라딘)에서 10000원에 판매되고 있는 것으로 확인되고, ii) 제2 위시리스트 교재와 관련하여서는, 제1 교재판매처 사이트(일예로 영풍문고)에서 9000원, 제4 교재판매처 사이트(일예로 인터파크)에서 9550원, 제5 교재판매처 사이트(일예로 홈앤쇼핑)에서 9700원, 제6 교재판매처 사이트(일예로 마루서재)에서 10500원에 판매되고 있는 것으로 확인되고, iii) 제3 위시리스트 교재와 관련하여서는, 제1 교재판매처 사이트(일예로 영풍문고)에서 7600원, 제2 교재판매처 사이트(일예로 G 마켓)에서 8050원에 판매되고 있는 것으로 확인되며, iv) 제4 위시리스트 교재와 관련하여서는, 제2 교재판매처 사이트(일예로 G 마켓)에서 15000원, 제5 교재판매처 사이트(일예로 홈앤쇼핑)에서 9900원, 제6 교재판매처 사이트(일예로 마루서재)에서 10900원에 판매되고 있는 것으로 검색되었다고 하자.Afterwards, the textbook management department (not shown) may conduct a search for the lowest price for each of the four wish list textbooks targeting a plurality of textbook sales sites. At this time, the results of the lowest price search, i) with respect to the first wish list textbook, , it is being sold for 8,000 won on the first textbook sales site (e.g., Youngpoong Bookstore), 9,500 won on the second textbook sales site (e.g., G Market), and 10,000 won on the third textbook sales site (e.g., Aladdin). Confirmed, ii) Regarding the second wish list textbook, 9,000 won on the first textbook sales site (for example, Youngpoong Bookstore), 9,550 won on the fourth textbook sales site (for example, Interpark), and 9,550 won on the fifth textbook sales site (for example, Interpark) It has been confirmed that it is being sold for 9,700 won on Home & Shopping) and 10,500 won on the 6th textbook sales site (for example, Maruseojae). iii) Regarding the 3rd wish list textbook, it is sold for 10,500 won on the 6th textbook sales site (for example, Youngpoong). It is confirmed that it is being sold for 7,600 won on the second textbook sales site (e.g., G Market) and 8,050 won on the second textbook sales site (e.g., G Market). iv) Regarding the fourth wish list textbook, it is sold for 7,600 won on the second textbook sales site (e.g., G Market). Let's say it is being sold for 15,000 won on the 5th textbook sales site (e.g., Home & Shopping), 9,900 won on the 6th textbook sales site (e.g., Maruseo), and 10,900 won.

이러한 경우, 교재 관리부(미도시)는, 최저가 검색 버튼에 대한 사용자의 클릭 입력에 응답하여, 최저가 검색의 결과로서, 위시리스트 노출 아이콘 내 제1 노출 영역의 하단 일영역에는 제1 위시리스트 교재의 최저가 검색 결과 정보로서 '8000원(영풍문고)'이, 제2 노출 영역의 하단 일영역에는 제2 위시리스트 교재의 최저가 검색 결과 정보로서 '9000원(영풍문고)'이, 제3 노출 영역의 하단 일영역에는 제3 위시리스트 교재의 최저가 검색 결과 정보로서 '7600원(영풍문고)'이, 제4 노출 영역의 하단 일영역에는 제4 위시리스트 교재의 최저가 검색 결과 정보로서 '9900원(홈앤쇼핑)'이라는 정보가 노출되도록 사용자 단말(100)을 제어할 수 있다.In this case, the textbook management unit (not shown) responds to the user's click input on the lowest price search button, and as a result of the lowest price search, the first wish list textbook is displayed in the lower area of the first exposure area in the wish list exposure icon. '8,000 won (Youngpoong Bookstore)' as the lowest price search result information, '9,000 won (Youngpoong Bookstore)' as the lowest price search result information for the second wish list textbook in the lower part of the second exposure area, and '9000 won (Youngpoong Bookstore)' as the lowest price search result information of the second wish list textbook in the lower part of the second exposure area. In the lower daily area, the lowest price search result information for the 3rd wish list textbook is '7,600 Won (Youngpoong Bookstore)', and in the lower daily area of the 4th exposure area, the lowest price search result information for the 4th wish list textbook is '9,900 won (Home& The user terminal 100 can be controlled so that information called 'shopping)' is exposed.

이러한 교재 관리부(미도시)는, 최저가 검색 버튼을 포함한 위시리스트 노출 아이콘을 제공함으로써, 사용자가 복수의 한국어 교육교재 중 적어도 하나의 한국어 교육교재를 구매하고자 할 때에, 구매를 희망하여 위시리스트 교재로 저장시켜 둔 다수의 한국어 교육교재들(즉, 일예로 4개의 위시리스트 교재들)에 대한 최저가의 검색이 단순히 최저가 검색 버튼을 누르는 것을 통해 손쉽게 일괼적으로 한번에(동시에) 이루어지도록 할 수 있어, 사용자에게 적어도 하나의 위시리스트 교재에 대한 구매의 편의성을 제공할 수 있다.This textbook management unit (not shown) provides a wish list exposure icon including a lowest price search button, so that when a user wishes to purchase at least one Korean education textbook among a plurality of Korean education textbooks, the user wishes to purchase the wish list textbook. The lowest price search for a number of stored Korean education textbooks (i.e., 4 wish list textbooks, for example) can be easily done all at once (simultaneously) by simply pressing the lowest price search button, allowing users to It is possible to provide convenience in purchasing at least one wish list textbook.

이하, 상술한 도 2의 교육 서비스 제공 서버의 구성에 따른 동작 과정을 도 3 및 도 4를 예로 들어 상세히 설명하기로 한다. 다만, 실시예는 본 발명의 다양한 실시예 중 어느 하나일 뿐, 이에 한정되지 않음은 자명하다 할 것이다.Hereinafter, the operation process according to the configuration of the education service providing server of FIG. 2 described above will be described in detail using FIGS. 3 and 4 as an example. However, it will be apparent that the embodiment is only one of various embodiments of the present invention and is not limited thereto.

도 3을 참조하면, (a) 교육 서비스 제공 서버(300)는 사용자 단말(100)로부터 나이, 성별, 직군, 학년, 소속집단, 지역 등을 입력받고, 사용자가 속한 집단에서 자주 사용하거나 틀리는 표준발음과 차이가 나는 현실발음을 추출한다. (b) 그리고, 교육 서비스 제공 서버(300)는 사용자 단말(100)에서 수집되는 음성 데이터를 현실발음으로 수집하고, (c)와 같이 데이터라벨링을 수행하여 이후 STT 엔진의 정확도 향상을 위한 데이터로 사용한다. (d)와 같이 교육 서비스 제공 서버(300)는 사용자 단말(100)에서 표준발음과 다른 현실발음을 교정하는 연습을 하도록 한 후, 도 4의 (a)와 같이 검증된 교수자를 (b)와 같이 신청하여 들을 수 있도록 한다. (c)와 같이 STT 개선에 사용자 단말(100)로부터 수집된 현실발음을 사용하는데, 사용자가 발화한 음성발화가 표준발음과 유사도가 높다면 이는 현실발음으로 포함시키지 않는다. (d)와 같이 STT를 전국 어느 집단의 사용자가 사용하더라도 표준어로 받아쓸 수 있으며, 더 나아가 AI 챗봇이나 AI 비서 등 다양한 채팅 에이전트나 음성기반 모듈에서 오류없이 인식 및 활용될 수 있다.Referring to FIG. 3, (a) the education service providing server 300 receives age, gender, occupation, grade, group affiliation, region, etc. from the user terminal 100, and selects standards frequently used or incorrect in the group to which the user belongs. Extract real pronunciation that is different from pronunciation. (b) Then, the education service providing server 300 collects the voice data collected from the user terminal 100 as realistic pronunciation, performs data labeling as in (c), and later uses data to improve the accuracy of the STT engine. use. As shown in (d), the education service providing server 300 allows the user terminal 100 to practice correcting the actual pronunciation that is different from the standard pronunciation, and then uses the verified instructor as shown in (a) of FIG. 4 in (b) and Let's apply together so we can listen. As shown in (c), the real pronunciation collected from the user terminal 100 is used to improve STT, but if the voice utterance uttered by the user has a high similarity to the standard pronunciation, it is not included as the real pronunciation. As shown in (d), STT can be dictated in standard language by any group of users across the country, and furthermore, it can be recognized and utilized without error in various chat agents or voice-based modules such as AI chatbots or AI assistants.

이와 같은 도 2 내지 도 4의 제 1 언어가 한국어인 사용자를 위한 한국어 교육 서비스 제공 방법에 대해서 설명되지 아니한 사항은 앞서 도 1을 통해 제 1 언어가 한국어인 사용자를 위한 한국어 교육 서비스 제공 방법에 대하여 설명된 내용과 동일하거나 설명된 내용으로부터 용이하게 유추 가능하므로 이하 설명을 생략하도록 한다.Matters that are not explained in FIGS. 2 to 4 regarding the method of providing Korean education services for users whose first language is Korean are explained in FIG. 1 regarding the method of providing Korean education services for users whose first language is Korean. Since the content is the same as the content described or can be easily inferred from the content described, the description below will be omitted.

도 5는 본 발명의 일 실시예에 따른 도 1의 제 1 언어가 한국어인 사용자를 위한 한국어 교육 서비스 제공 시스템에 포함된 각 구성들 상호 간에 데이터가 송수신되는 과정을 나타낸 도면이다. 이하, 도 5를 통해 각 구성들 상호간에 데이터가 송수신되는 과정의 일 예를 설명할 것이나, 이와 같은 실시예로 본원이 한정 해석되는 것은 아니며, 앞서 설명한 다양한 실시예들에 따라 도 5에 도시된 데이터가 송수신되는 과정이 변경될 수 있음은 기술분야에 속하는 당업자에게 자명하다.FIG. 5 is a diagram illustrating a process in which data is transmitted and received between components included in the Korean education service providing system for users whose first language in FIG. 1 is Korean according to an embodiment of the present invention. Hereinafter, an example of the process of transmitting and receiving data between each component will be described with reference to FIG. 5, but the present application is not limited to this embodiment, and the process shown in FIG. 5 according to the various embodiments described above It is obvious to those skilled in the art that the process of transmitting and receiving data can be changed.

도 5를 참조하면, 교육 서비스 제공 서버는, 나이, 성별, 지역 및 직군을 포함하는 인구통계학적 데이터에 따라, 표준발음과 현실발음이 다른 경우를, 인구통계학적 데이터에 매핑하여 데이터베이스를 구축한다(S5100).Referring to Figure 5, the education service provision server builds a database by mapping cases where the standard pronunciation and actual pronunciation are different according to demographic data including age, gender, region, and occupation, to demographic data. (S5100).

그리고, 교육 서비스 제공 서버는, 사용자 단말에서 입력된 사용자 정보를 입력으로 표준발음과 현실발음이 다른 경우를 추출하고(S5200), 사용자 단말에서 현실발음과 다른 표준발음이 포함된 단어 또는 문장을 사용자 단말에서 음성발화하도록 한 후 음성발화된 음성 데이터와 기준 데이터를 비교하여 차이 데이터를 사용자 단말로 전송한다(S5300).And, the education service providing server extracts cases where the standard pronunciation and the actual pronunciation are different from the user information input from the user terminal (S5200), and selects a word or sentence containing a standard pronunciation different from the actual pronunciation from the user terminal to the user. After the terminal is made to produce a voice speech, the spoken voice data is compared with the reference data and the difference data is transmitted to the user terminal (S5300).

또, 교육 서비스 제공 서버는, 교수자 단말에서 실시간 강의를 시작하기 이전에 차이 데이터를 교수자 단말로 전달한다(S5400).In addition, the education service providing server transmits difference data to the instructor terminal before starting a real-time lecture on the instructor terminal (S5400).

상술한 단계들(S5100~S5400)간의 순서는 예시일 뿐, 이에 한정되지 않는다. 즉, 상술한 단계들(S5100~S5400)간의 순서는 상호 변동될 수 있으며, 이중 일부 단계들은 동시에 실행되거나 삭제될 수도 있다.The sequence between the above-described steps (S5100 to S5400) is only an example and is not limited thereto. That is, the order between the above-described steps (S5100 to S5400) may change, and some of the steps may be executed simultaneously or deleted.

이와 같은 도 5의 제 1 언어가 한국어인 사용자를 위한 한국어 교육 서비스 제공 방법에 대해서 설명되지 아니한 사항은 앞서 도 1 내지 도 4를 통해 제 1 언어가 한국어인 사용자를 위한 한국어 교육 서비스 제공 방법에 대하여 설명된 내용과 동일하거나 설명된 내용으로부터 용이하게 유추 가능하므로 이하 설명을 생략하도록 한다.Matters that are not explained regarding the method of providing Korean education services for users whose first language in FIG. 5 are Korean are previously described in FIGS. 1 to 4 regarding the method of providing Korean education services for users whose first language is Korean. Since the content is the same as the content described or can be easily inferred from the content described, the description below will be omitted.

도 5를 통해 설명된 일 실시예에 따른 제 1 언어가 한국어인 사용자를 위한 한국어 교육 서비스 제공 방법은, 컴퓨터에 의해 실행되는 애플리케이션이나 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. A method of providing a Korean language education service for a user whose first language is Korean according to an embodiment described with reference to FIG. 5 includes a recording medium containing instructions executable by a computer, such as an application or program module executed by a computer. It can also be implemented in form. Computer-readable media can be any available media that can be accessed by a computer and includes both volatile and non-volatile media, removable and non-removable media. Additionally, computer-readable media may include all computer storage media. Computer storage media includes both volatile and non-volatile, removable and non-removable media implemented in any method or technology for storage of information such as computer-readable instructions, data structures, program modules or other data.

전술한 본 발명의 일 실시예에 따른 제 1 언어가 한국어인 사용자를 위한 한국어 교육 서비스 제공 방법은, 단말기에 기본적으로 설치된 애플리케이션(이는 단말기에 기본적으로 탑재된 플랫폼이나 운영체제 등에 포함된 프로그램을 포함할 수 있음)에 의해 실행될 수 있고, 사용자가 애플리케이션 스토어 서버, 애플리케이션 또는 해당 서비스와 관련된 웹 서버 등의 애플리케이션 제공 서버를 통해 마스터 단말기에 직접 설치한 애플리케이션(즉, 프로그램)에 의해 실행될 수도 있다. 이러한 의미에서, 전술한 본 발명의 일 실시예에 따른 제 1 언어가 한국어인 사용자를 위한 한국어 교육 서비스 제공 방법은 단말기에 기본적으로 설치되거나 사용자에 의해 직접 설치된 애플리케이션(즉, 프로그램)으로 구현되고 단말기에 등의 컴퓨터로 읽을 수 있는 기록매체에 기록될 수 있다.The method of providing a Korean language education service for a user whose first language is Korean according to an embodiment of the present invention described above includes an application installed by default on a terminal (this may include programs included in a platform or operating system, etc., installed by default on the terminal). It may be executed by an application (i.e., a program) that the user installs directly on the master terminal through an application providing server such as an application store server, an application, or a web server related to the service. In this sense, the method of providing a Korean language education service for a user whose first language is Korean according to an embodiment of the present invention described above is implemented as an application (i.e., a program) installed by default on the terminal or directly installed by the user, and is implemented through the terminal. It may be recorded on a computer-readable recording medium such as .

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.The description of the present invention described above is for illustrative purposes, and those skilled in the art will understand that the present invention can be easily modified into other specific forms without changing the technical idea or essential features of the present invention. will be. Therefore, the embodiments described above should be understood in all respects as illustrative and not restrictive. For example, each component described as unitary may be implemented in a distributed manner, and similarly, components described as distributed may also be implemented in a combined form.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.The scope of the present invention is indicated by the claims described below rather than the detailed description above, and all changes or modified forms derived from the meaning and scope of the claims and their equivalent concepts should be construed as being included in the scope of the present invention. do.

Claims (4)

인구통계학적 데이터에 대응하는 사용자 정보를 입력하는 사용자 단말;
실시간 강의를 진행하는 교수자 단말; 및
교육 서비스 제공 서버를 포함하되,
상기 교육 서비스 제공 서버는,
나이, 성별, 지역 및 직군을 포함하는 인구통계학적 데이터에 따라, 표준발음과 현실발음이 다른 경우를, 인구통계학적 데이터에 매핑하여 데이터베이스를 구축하는 구축부;
상기 사용자 단말에서 입력된 사용자 정보를 입력으로 표준발음과 현실발음이 다른 경우를 추출하는 추출부;
상기 사용자 단말에서 상기 현실발음과 다른 표준발음이 포함된 단어 또는 문장을 상기 사용자 단말에서 음성발화하도록 한 후 음성발화된 음성 데이터와 기준 데이터를 비교하여 차이 데이터를 상기 사용자 단말로 전송하는 전송부;
상기 교수자 단말에서 실시간 강의를 시작하기 이전에 상기 차이 데이터를 상기 교수자 단말로 전달하는 강의준비부;
적어도 하나의 교수자 단말로부터 수집한 음성발화 데이터를 이용하여, 피치(Pitch), 제 1 포먼트와 피치 비율, 피치 대역폭, 피치 대역폭 내 평균 피치 위치 및 발화속도를 포함하는 음향적 음색 분석 데이터를 수집하여 표준발음 데이터베이스를 구축하는 저장부;
사용자 단말에서 입력된 음성발화인 음성데이터를 시간축 상에서 정의되는 시계열 데이터로 표현하고, 시간축 상에서 변화하는 구조를 반영하는 확률적 SOM-VAE(Self-Organizing Map with Variational Auto Encoder) 알고리즘을 이용하여 표준발음 데이터베이스의 표준발음과 사용자 단말의 오류발음 간 차이를 시각화하는 발음시각화부;
사용자 단말로부터 음성발화가 인식된 경우, 음성샘플을 수집하고 Praat 프로그램을 이용하여 음성샘플에서 모음 아, 이 및 우를 분석한 후, 표준발음 음성발화와 각 음형대 주파수 차이를 산출한 후, 사용자의 음성발화와 표준발음 음성발화 간 모음삼각도를 생성하여 차이가 발생하는 모음에 대한 구강개방 및 입술의 움직임을 지도하도록 교수자 단말로 전송하는 모음분석부;
사용자 단말의 사용자의 레벨을 나누어 스피치 테스트를 진행한 후 기 설정된 기관 또는 협회에서 발행하는 스피치 자격증을 발급하는 스피치부;
사용자 단말에서 교수자를 선택하여 교수자 단말과 실시간 강의를 진행한 후 교수자에 대한 평점 및 리뷰를 입력하도록 요청하고, 각 교수자별로 평점과 리뷰를 누적하여 저장하는 평가부;
사용자 단말에서 입력되는 음성발화에 대한 음성 데이터를, 인구통계학적 데이터로 라벨링하여 음성발화한 텍스트와 매핑하여 빅데이터를 구축하는 빅데이터화부;
STT(Speech to Text)를 생성할 때, 음성 데이터와 텍스트를 입력하여 학습시킴으로써, 인구통계학적 데이터에 따라 달라지는 음성발화에 대응하는 음성 데이터가 입력되더라도, 텍스트가 출력되도록 하는 인식성능향상부; 및
사용자 단말에서 교재 메뉴를 클릭한 것으로 감지되는 경우, 교육교재 DB에 기 등록된 복수의 한국어 교육교재의 리스트인 교육교재 리스트를 사용자 단말의 화면에 제공하는 교재 관리부를 포함하고,
상기 교재 관리부는,
상기 교육교재 리스트를 제공할 때, 교육교재 리스트가 표시되는 사용자 단말의 화면의 일영역에 사용자가 선택한 적어도 하나의 위시리스트 교재의 정보가 노출되는 위시리스트 노출 아이콘을 함께 제공하되,
상기 위시리스트 노출 아이콘을 사용자 단말의 화면의 전체 크기의 1/10에 해당하는 크기를 갖도록 마련하면서, 사용자가 미리 설정된 개수 만큼의 위시 리스트 교재를 저장시켜 둘 수 있도록 상기 미리 설정된 개수 만큼의 위시리스트 교재의 정보가 노출되는 복수개의 노출 영역을 포함하도록 마련함으로써, 상기 위시리스트 노출 아이콘을 통해 사용자가 위시리스트 노출 아이콘에 저장시켜 둔 위시리스트 교재들과 사용자 단말의 화면에 표시되는 교육교재 리스트를 한 화면에서 함께 확인하면서 원하는 교육교재의 구매가 가능하도록 하는 것인, 제 1 언어가 한국어인 사용자를 위한 한국어 교육 서비스 제공 시스템.
a user terminal for inputting user information corresponding to demographic data;
Instructor terminal that conducts real-time lectures; and
Including education service provision servers,
The education service provision server is,
A construction unit that constructs a database by mapping cases where standard pronunciation and actual pronunciation are different according to demographic data including age, gender, region, and occupation, to demographic data;
An extraction unit that extracts cases where the standard pronunciation and the actual pronunciation are different from the user information input from the user terminal;
A transmission unit that causes the user terminal to utter a word or sentence containing a standard pronunciation different from the actual pronunciation by voice, then compares the uttered voice data with reference data and transmits the difference data to the user terminal;
a lecture preparation unit that transmits the difference data to the instructor terminal before starting a real-time lecture on the instructor terminal;
Using voice speech data collected from at least one instructor terminal, collect acoustic timbre analysis data including pitch, first formant and pitch ratio, pitch bandwidth, average pitch position within the pitch bandwidth, and speech rate. a storage unit that builds a standard pronunciation database;
Voice data, which is a voice utterance input from the user terminal, is expressed as time series data defined on the time axis, and standard pronunciation is made using the probabilistic SOM-VAE (Self-Organizing Map with Variational Auto Encoder) algorithm that reflects the changing structure on the time axis. A pronunciation visualization unit that visualizes the difference between the standard pronunciation of the database and the error pronunciation of the user terminal;
When a voice utterance is recognized from the user terminal, a voice sample is collected, the vowels a, i, and u are analyzed in the voice sample using the Praat program, and the frequency difference between the standard pronunciation voice utterance and each sound type is calculated, and then the user A vowel analysis unit that generates a vowel triangle between the voice utterance and the standard pronunciation voice utterance and transmits it to the instructor's terminal to guide mouth opening and lip movement for vowels where there is a difference;
A speech department that conducts a speech test by dividing the level of the user of the user terminal and then issues a speech certificate issued by a preset organization or association;
An evaluation unit that selects an instructor on the user terminal and conducts a real-time lecture with the instructor terminal, then requests the instructor to enter ratings and reviews, and accumulates and stores the ratings and reviews for each instructor;
A big data unit that builds big data by labeling voice data for voice utterances input from the user terminal with demographic data and mapping it with the voice utterance text;
When generating STT (Speech to Text), a recognition performance improvement unit that learns by inputting voice data and text so that text is output even if voice data corresponding to voice utterances that vary depending on demographic data are input; and
When it is detected that a textbook menu has been clicked on the user terminal, it includes a textbook management unit that provides an educational textbook list, which is a list of a plurality of Korean educational textbooks already registered in the educational textbook DB, on the screen of the user terminal,
The textbook management department,
When providing the list of educational materials, a wishlist exposure icon that exposes information on at least one wishlist textbook selected by the user is provided in an area of the screen of the user terminal where the list of educational materials is displayed,
The wish list exposure icon is provided to have a size corresponding to 1/10 of the total size of the screen of the user terminal, and a wish list of a pre-set number is provided so that the user can store a pre-set number of wish list teaching materials. By providing a plurality of exposed areas where the information of the teaching materials is exposed, the wish list teaching materials stored by the user in the wish list exposure icon and the list of educational teaching materials displayed on the screen of the user terminal are displayed through the wish list exposure icon. A Korean education service provision system for users whose first language is Korean, which allows them to purchase desired educational materials while checking them on the screen.
제1항에 있어서,
상기 강의준비부는,
사용자 단말에서 적어도 하나의 교수자 프로필 중 어느 하나의 교수자 프로필로서 제1 교수자 프로필을 선택한 것으로 감지되는 경우, 사용자가 상기 제1 교수자 프로필에 대응하는 제1 교수의 클래스인 제1 클래스에 입장함으로써 상기 제1 클래스를 실시간으로 들을 수 있도록 제어하는 것인, 제 1 언어가 한국어인 사용자를 위한 한국어 교육 서비스 제공 시스템.
According to paragraph 1,
The lecture preparation department,
When the user terminal detects that the first instructor profile has been selected as one of at least one instructor profile, the user enters the first class, which is the class of the first professor corresponding to the first instructor profile, 1 A Korean education service provision system for users whose first language is Korean, which controls the ability to listen to classes in real time.
제1항에 있어서,
상기 교육 서비스 제공 서버는,
적어도 하나의 자격조건을 설정하고 적어도 하나의 교수자 단말을 상기 적어도 하나의 자격조건검증으로 등록을 진행하여 교수자풀(Pool)을 구축하는 등록부;
를 더 포함하고,
상기 적어도 하나의 자격조건은, 아나운싱 교육을 받은 자, 방송인 및 아나운서, 성우, 가수 중 어느 하나인 것인, 제 1 언어가 한국어인 사용자를 위한 한국어 교육 서비스 제공 시스템.
According to paragraph 1,
The education service provision server is,
A register that establishes an instructor pool by setting at least one qualification condition and registering at least one instructor terminal by verifying the at least one qualification condition;
It further includes,
A system for providing Korean language education services for users whose first language is Korean, wherein the at least one qualification is to be one of those who have received announcing training, broadcasters and announcers, voice actors, and singers.
삭제delete
KR1020230077522A 2023-06-16 2023-06-16 System for providing korean education service for korean native speaker KR102631382B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020230077522A KR102631382B1 (en) 2023-06-16 2023-06-16 System for providing korean education service for korean native speaker

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020230077522A KR102631382B1 (en) 2023-06-16 2023-06-16 System for providing korean education service for korean native speaker

Publications (1)

Publication Number Publication Date
KR102631382B1 true KR102631382B1 (en) 2024-01-31

Family

ID=89717272

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020230077522A KR102631382B1 (en) 2023-06-16 2023-06-16 System for providing korean education service for korean native speaker

Country Status (1)

Country Link
KR (1) KR102631382B1 (en)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010097625A (en) * 2000-04-25 2001-11-08 김교현 Apparatus and Method for cyber education
KR20120035059A (en) * 2010-10-04 2012-04-13 에스케이텔레콤 주식회사 Method for language studying using speech recognition of terminal and system
KR101656055B1 (en) * 2015-03-30 2016-09-08 주식회사 포워드벤처스 Method and apparatus for providing a list of products which is viewed by a user
KR102355960B1 (en) * 2021-04-12 2022-02-08 주식회사 미카 System for providing qualification verification based korean language training service
KR20220039679A (en) * 2019-12-31 2022-03-29 (주)헤이스타즈 Method for providing personalized problems for pronunciation evaluation

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010097625A (en) * 2000-04-25 2001-11-08 김교현 Apparatus and Method for cyber education
KR20120035059A (en) * 2010-10-04 2012-04-13 에스케이텔레콤 주식회사 Method for language studying using speech recognition of terminal and system
KR101656055B1 (en) * 2015-03-30 2016-09-08 주식회사 포워드벤처스 Method and apparatus for providing a list of products which is viewed by a user
KR20220039679A (en) * 2019-12-31 2022-03-29 (주)헤이스타즈 Method for providing personalized problems for pronunciation evaluation
KR102355960B1 (en) * 2021-04-12 2022-02-08 주식회사 미카 System for providing qualification verification based korean language training service

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
복거철. 음성특징의 거리에 기반한 한국어 발음의 시각화. 한국정보전자통신기술학회논문지. 2020년, 제13권, 제3호, pp.197~205 *

Similar Documents

Publication Publication Date Title
Handley Is text-to-speech synthesis ready for use in computer-assisted language learning?
CN101785048B (en) HMM-based bilingual (mandarin-english) TTS techniques
WO2021212954A1 (en) Method and apparatus for synthesizing emotional speech of specific speaker with extremely few resources
Kitzing et al. Automatic speech recognition (ASR) and its use as a tool for assessment or therapy of voice, speech, and language disorders
Isbell et al. Learning Korean pronunciation: Effects of instruction, proficiency, and L1
KR102355960B1 (en) System for providing qualification verification based korean language training service
Voeten Individual differences in the adoption of sound change
Raptis et al. Expressive speech synthesis for storytelling: the innoetics’ entry to the blizzard challenge 2016
Peabody et al. Towards automatic tone correction in non-native mandarin
KR102631382B1 (en) System for providing korean education service for korean native speaker
Meloni et al. Application of childhood apraxia of speech clinical markers to French-speaking children: A preliminary study
Pucher et al. Perceptual effects of interpolated Austrian and German standard varieties
Quintas et al. Evaluation of deep learning approaches to text-to-speech systems for European Portuguese
KR100701270B1 (en) Online Lecture and Evaluation System and Method of Foreign Languages
Merritt Perceptual representation of speaker gender
KR100701271B1 (en) Online Study and Test System and Method of Foreign Language Interview
Duan et al. An English pronunciation and intonation evaluation method based on the DTW algorithm
Imam et al. The Computation of Assimilation of Arabic Language Phonemes
Schirru et al. Linguistic analysis for emotion recognition: a case of Chinese speakers
Bao et al. [Retracted] An Auxiliary Teaching System for Spoken English Based on Speech Recognition Technology
Nagle et al. Exploring phonetic predictors of intelligibility, comprehensibility, and foreign accent in L2 Spanish speech
Kondo et al. Perception of Japanese accented English segments in words
KR102645783B1 (en) System for providing korean education service for foreigner
CN117711444B (en) Interaction method, device, equipment and storage medium based on talent expression
Mixdorff et al. Quantifying and evaluating the impact of prosodic differences of foreign-accented English

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
N231 Notification of change of applicant
GRNT Written decision to grant