KR102321141B1 - 발음 평가를 위한 사용자 인터페이스 제공 장치 및 방법 - Google Patents

발음 평가를 위한 사용자 인터페이스 제공 장치 및 방법 Download PDF

Info

Publication number
KR102321141B1
KR102321141B1 KR1020200000805A KR20200000805A KR102321141B1 KR 102321141 B1 KR102321141 B1 KR 102321141B1 KR 1020200000805 A KR1020200000805 A KR 1020200000805A KR 20200000805 A KR20200000805 A KR 20200000805A KR 102321141 B1 KR102321141 B1 KR 102321141B1
Authority
KR
South Korea
Prior art keywords
pronunciation
user
evaluation
data
voice data
Prior art date
Application number
KR1020200000805A
Other languages
English (en)
Other versions
KR20210087727A (ko
Inventor
조창수
김상하
문대영
Original Assignee
주식회사 셀바스에이아이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 셀바스에이아이 filed Critical 주식회사 셀바스에이아이
Priority to KR1020200000805A priority Critical patent/KR102321141B1/ko
Publication of KR20210087727A publication Critical patent/KR20210087727A/ko
Application granted granted Critical
Publication of KR102321141B1 publication Critical patent/KR102321141B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/06Foreign languages
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Abstract

본 발명의 실시예에 따른 발음 평가를 위한 사용자 인터페이스 제공 장치 및 방법이 제공된다. 본 발명의 실시예에 따른 발음 평가를 위한 사용자 인터페이스 제공 장치는, 데이터를 송수신하도록 구성된 통신부; 데이터를 표시하도록 구성된 표시부; 및 상기 통신부, 및 상기 표시부와 연결하도록 구성된 제어부를 포함하고, 상기 제어부는, 특정 음소 또는 특정 단어에 대한 사용자의 음성 데이터를 획득하고, 상기 획득된 음성 데이터를 상기 사용자의 발음을 평가하기 위한 서비스 제공 서버로 전달하고, 상기 서비스 제공 서버로부터 상기 사용자의 발음을 평가한 발음 평가 결과 데이터를 수신하고, 상기 수신된 발음 평가 결과 데이터를 나타내는 인터페이스 화면을 상기 표시부를 통해 표시하도록 구성된다.

Description

발음 평가를 위한 사용자 인터페이스 제공 장치 및 방법{APPARATUS AND METHOD FOR USER INTERFACE FOR PRONUNCIATION ASSESSMENT}
본 발명은 발음 평가를 위한 사용자 인터페이스 제공 장치 및 방법에 관한 것이다.
산업의 전문화 및 국제화의 추세에 따라 외국어에 대한 중요성이 커지고 있으며, 이에 따라 외국어 학습을 위한 다양한 서비스가 제공되고 있다.
일반적으로 외국어 학습은 원어민 강사의 지도에 의해서 이루어지고 있으나, 이러한 학습은 비용이 많이 소비되고, 장소 및 시간 제약이 있다는 문제점이 있다.
이에, 장소 및 시간 제약 없이 언제 어디서든 적은 비용으로 외국어 학습이 가능한 외국어 학습 방법이 필요로 하게 되었다. 이러한 요구에 부응하기 위해 다양한 어학용 프로그램이 개발되어 제공되고 있다.
그러나, 이러한 어학용 프로그램은 사용자의 외국어 발음 중 어떤 발음이 취약하고 훈련이 필요한지 분석하거나, 이에 대하여 피드백을 제공하는 부분이 취약하다는 문제점이 있다.
따라서, 장소 및 시간 제약 없이 사용자의 외국어 발음을 분석하여 어떤 발음이 취약하고 훈련이 필요한지 피드백을 해주기 위한 발음 평가 방법이 요구된다.
본 발명이 해결하고자 하는 과제는 발음 평가를 위한 사용자 인터페이스 제공 장치 및 방법을 제공하는 것이다.
구체적으로, 본 발명이 해결하고자 하는 과제는 장소 및 시간 제약 없이 사용자의 외국어 학습을 위해 사용자의 외국어 발음을 평가하기 위한 사용자 인터페이스 제공 장치 및 방법을 제공하는 것이다.
또한, 본 발명이 해결하고자 하는 또다른 과제는 사용자의 외국어 발음을 분석하여 취약 부분에 대한 피드백을 제공하기 위한 발음 평가 사용자 인터페이스 제공 장치 및 방법을 제공하는 것이다.
본 발명의 과제들은 이상에서 언급한 과제들로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
전술한 바와 같은 과제를 해결하기 위하여 본 발명의 실시예에 따른 발음 평가를 위한 사용자 인터페이스 제공 장치 및 방법이 제공된다. 본 발명의 실시예에 따른 발음 평가를 위한 사용자 인터페이스 제공 장치는, 데이터를 송수신하도록 구성된 통신부; 데이터를 표시하도록 구성된 표시부; 및 상기 통신부, 및 상기 표시부와 연결하도록 구성된 제어부를 포함하고, 상기 제어부는, 특정 음소 또는 특정 단어에 대한 사용자의 음성 데이터를 획득하고, 상기 획득된 음성 데이터를 상기 사용자의 발음을 평가하기 위한 서비스 제공 서버로 전달하고, 상기 서비스 제공 서버로부터 상기 사용자의 발음을 발음 특성 각각에 대해서 평가한 발음 평가 결과 데이터를 수신하고, 상기 수신된 발음 평가 결과 데이터를 나타내는 인터페이스 화면을 상기 표시부를 통해 표시하도록 구성되고, 상기 발음 평가 결과 데이터는, 상기 사용자의 발음에 대한 평가 결과를 점수화한 평가 점수, 상기 사용자의 음성 데이터로부터 추출된 발음 특성 및 상기 사용자의 발음을 원어민의 발음으로 가이드하기 위한 피드백 데이터 중 적어도 하나를 포함한다.
본 발명의 실시예에 따른 발음 평가를 위한 사용자 인터페이스 제공 장치의 제어부에 의해서 수행되는 발음 평가를 위한 사용자 인터페이스 제공 방법은, 특정 음소 또는 특정 단어에 대한 사용자의 음성 데이터를 획득하는 단계; 상기 획득된 음성 데이터를 상기 사용자의 발음을 평가하기 위한 서비스 제공 서버로 전달하는 단계; 상기 서비스 제공 서버로부터 상기 사용자의 발음을 발음 특성 각각에 대해서 평가한 발음 평가 결과 데이터를 수신하는 단계; 및 상기 수신된 발음 평가 결과 데이터를 나타내는 인터페이스 화면을 표시하는 단계를 포함하고, 상기 발음 평가 결과 데이터는, 상기 사용자의 발음에 대한 평가 결과를 점수화한 평가 점수, 상기 사용자의 음성 데이터로부터 추출된 발음 특성 및 상기 사용자의 발음을 원어민의 발음으로 가이드하기 위한 피드백 데이터 중 적어도 하나를 포함한다.
기타 실시예의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.
본 발명은 장소 및 시간 제약 없이 사용자의 외국어 발음을 평가하기 위한 사용자 인터페이스 제공 장치 및 방법을 제공할 수 있다.
또한 본 발명은 사용자의 외국어 발음을 분석하여 발음 특성 각각의 취약 부분에 대한 피드백을 제공하여 사용자가 취약 발음에 대한 훈련을 수행하도록 할 수 있다.
또한 본 발명은 사용자의 외국어 발음을 원어민 발음으로 교정하도록 가이드함으로서, 사용자의 외국어 발음을 원어민 수준으로 향상시킬 수 있다.
또한 본 발명은 음소별로 발음 정확도 분석 결과를 제공함으로써, 사용자가 외국어 발음에 대하여 보다 강도 높은 학습이 가능하다.
본 발명에 따른 효과는 이상에서 예시된 내용에 의해 제한되지 않으며, 더욱 다양한 효과들이 본 명세서 내에 포함되어 있다.
도 1은 본 발명의 실시예에 따른 발음 평가를 위한 사용자 인터페이스 제공 시스템을 설명하기 위한 개략도이다.
도 2는 본 발명의 실시예에 따른 사용자 장치에 대한 개략도이다.
도 3는 본 발명의 실시예에 따른 서비스 제공 서버에 대한 개략도이다.
도 4는 본 발명의 실시예에 따른 사용자 장치에서 발음 평가를 위한 사용자 인터페이스 제공 방법을 설명하기 위한 개략적인 흐름도이다.
도 5는 본 발명의 실시예에 따른 사용자 장치 및 서비스 제공 서버 간의 발음 평가를 위한 방법을 설명하기 위한 개략적인 흐름도이다.
도 6a, 도 6b, 도 6c, 도 6d, 도 6e, 도 6f, 및 도 6g는 본 발명의 실시예에 따른 발음 평가에 관련된 다양한 인터페이스 화면에 대한 예시도들이다.
도 7은 본 발명의 실시예에 따른 사용자의 발음 평가를 위한 모바일 웹 화면에 대한 예시도이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조부호가 사용될 수 있다.
본 문서에서, "가진다," "가질 수 있다," "포함한다," 또는 "포함할 수 있다" 등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.
본 문서에서, "A 또는 B," "A 또는/및 B 중 적어도 하나," 또는 "A 또는/및 B 중 하나 또는 그 이상" 등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. 예를 들면, "A 또는 B," "A 및 B 중 적어도 하나," 또는 "A 또는 B 중 적어도 하나"는, (1) 적어도 하나의 A를 포함, (2) 적어도 하나의 B를 포함, 또는(3) 적어도 하나의 A 및 적어도 하나의 B 모두를 포함하는 경우를 모두 지칭할 수 있다.
본 문서에서 사용된 "제1," "제2," "첫째," 또는 "둘째," 등의 표현들은 다양한 구성요소들을, 순서 및/또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다. 예를 들면, 제1 사용자 기기와 제2 사용자 기기는, 순서 또는 중요도와 무관하게, 서로 다른 사용자 기기를 나타낼 수 있다. 예를 들면, 본 문서에 기재된 권리범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제 2 구성요소도 제1 구성요소로 바꾸어 명명될 수 있다.
어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "(기능적으로 또는 통신적으로) 연결되어((operatively or communicatively) coupled with/to)" 있다거나 "접속되어(connected to)" 있다고 언급된 때에는, 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제3 구성요소)를 통하여 연결될 수 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소와 상기 다른 구성요소 사이에 다른 구성요소(예: 제3 구성요소)가 존재하지 않는 것으로 이해될 수 있다.
본 문서에서 사용된 표현 "~하도록 구성된(또는 설정된)(configured to)"은 상황에 따라, 예를 들면, "~에 적합한(suitable for)," "~하는 능력을 가지는(having the capacity to)," "~하도록 설계된(designed to)," "~하도록 변경된(adapted to)," "~하도록 만들어진(made to)," 또는 "~ 를 할 수 있는(capable of)"과 바꾸어 사용될 수 있다. 용어 "~하도록 구성된(또는 설정된)"은 하드웨어적으로 "특별히 설계된(specifically designed to)" 것만을 반드시 의미하지 않을 수 있다. 대신, 어떤 상황에서는, "~하도록 구성된 장치"라는 표현은, 그 장치가 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다. 예를 들면, 문구 "A, B, 및 C를 수행하도록 구성된(또는 설정된)프로세서"는 해당 동작을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리 장치에 저장된 하나 이상의 소프트웨어 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(generic-purpose processor)(예: CPU 또는 application processor)를 의미할 수 있다.
본 문서에서 사용된 용어들은 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 다른 실시예의 범위를 한정하려는 의도가 아닐 수 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 용어들은 본 문서에 기재된 기술분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가질 수 있다. 본 문서에 사용된 용어들 중 일반적인 사전에 정의된 용어들은, 관련 기술의 문맥상 가지는 의미와 동일 또는 유사한 의미로 해석될 수 있으며, 본 문서에서 명백하게 정의되지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다. 경우에 따라서, 본 문서에서 정의된 용어일지라도 본 문서의 실시 예들을 배제하도록 해석될 수 없다.
본 발명의 여러 실시예들의 각각 특징들이 부분적으로 또는 전체적으로 서로 결합 또는 조합 가능하며, 당업자가 충분히 이해할 수 있듯이 기술적으로 다양한 연동 및 구동이 가능하며, 각 실시예들이 서로에 대하여 독립적으로 실시 가능할 수도 있고 연관 관계로 함께 실시 가능할 수도 있다.
이하, 첨부된 도면을 참조하여 본 발명의 다양한 실시예들을 상세히 설명한다.
도 1은 본 발명의 실시예에 따른 발음 평가를 위한 사용자 인터페이스 제공 시스템을 설명하기 위한 개략도이다.
도 1을 참조하면, 발음 평가를 위한 사용자 인터페이스 제공 시스템(100)은 사용자의 음성 데이터를 분석하여 사용자의 발음을 평가하고, 평가 결과에 기반하여 발음 평가를 위한 사용자 인터페이스를 제공하는 시스템으로서, 사용자의 발음 평가 및 교정을 요청하기 위해 사용자의 음성 데이터를 제공하는 사용자 장치(110), 및 발음 평가를 위한 서비스를 제공하는 서비스 제공 서버(120)를 포함할 수 있다.
먼저, 사용자 장치(110)는 사용자의 음성 데이터에 대한 발음 평가를 요청하고, 발음 평가에 대한 결과 데이터를 나타내기 위한 사용자 인터페이스를 제공하는 전자 장치로서, 스마트폰, 태블릿 PC(Personal Computer), 노트북 및/또는 PC 등 중 적어도 하나를 포함할 수 있다.
사용자 장치(110)는 사용자의 발음 평가 및 발음 교정을 위해 사용자의 음성 데이터를 획득하고, 획득된 음성 데이터를 서비스 제공 서버(120)로 전달할 수 있다. 예를 들어, 사용자 장치(110)는 사용자의 음성 데이터를 획득하기 위한 마이크와 같은 입력 장치를 구비하고, 마이크를 통해 음성 데이터를 획득하기 위한 사용자 인터페이스를 제공할 수 있다. 이러한 사용자 인터페이스는 특정 음소 또는 특정 발음에 대한 원어민 발음을 학습하기 위한 영상 데이터를 표시하는 영역을 포함할 수 있다.
이러한 사용자 인터페이스를 통해 음성 데이터가 획득되면 사용자 장치(110)는 획득된 음성 데이터를 서비스 제공 서버(120)로 전달할 수 있다.
사용자 장치(110)는 서비스 제공 서버(120)로부터 사용자의 발음에 대한 평가 결과를 나타내는 발음 평가 결과 데이터를 수신하고, 수신된 발음 평가 결과 데이터를 사용자 장치(110)의 표시부를 통해 표시할 수 있다. 여기서, 발음 평가 결과 데이터는 사용자의 발음에 대한 평가 점수, 사용자의 음성 데이터로부터 추출된 음소별 발음 특성 및 피드백 데이터 중 적어도 하나를 포함할 수 있다. 예를 들어, 피드백 데이터는 사용자의 발음에서 취약 부분을 설명하기 위한 데이터일 수 있다.
다음으로, 서비스 제공 서버(120)는 사용자 장치(110)로부터 제공된 사용자의 음성 데이터를 분석하여 발음 평가를 위한 서비스를 제공하기 위해 다양한 연산을 수행하는 범용 컴퓨터, 랩탑, 및/또는 데이터 서버 등을 포함할 수 있다. 다양한 실시예에서 서비스 제공 서버(120)는 클라이언트의 요청에 따라 발음 평가를 위한 서비스에 관한 웹 페이지를 제공하는 웹 서버(web server) 또는 모바일 웹 사이트를 제공하는 모바일 웹 서버(mobile web server)일 수 있으나, 이에 한정되지 않는다.
구체적으로, 서비스 제공 서버(120)는 사용자 장치(110)로부터 음성 데이터를 수신하고, 수신된 음성 데이터를 분석하여 발음 특성 각각에 대해서 발음 평가를 수행할 수 있다. 예를 들어, 서비스 제공 서버(120)는 음성 데이터를 음소별로 정렬하고, 음소별로 적어도 하나의 발음 특성을 검출한 후 검출된 적어도 하나의 발음 특성을 점수화할 수 있다. 예를 들어, 음소별로 검출된 적어도 하나의 발음 특성은 변별적 자질(distinctive feature)일 수 있으나, 이에 한정되지 않는다. 이러한 경우 적어도 하나의 발음 특성은 높은 혀, 낮은 혀, 앞쪽 혀, 뒤쪽 혀, 둥근 입술, 유성음, 비음, 파열음, 마찰음, 순음(또는 순치음), 치간/치경음, 유음, 파찰음, R유음, Y반모음, W반모음, 닫힘이중, 열림이중, 중앙이중, 연구개음 등 중 적어도 하나를 포함할 수 있다. 이와 같이 적어도 하나의 발음 특성으로 변별적 자질이 이용됨으로써, 분절음의 음성적 특징을 명확히 표현할 수 있고, 음소간의 상호관계를 명확하게 구분할 수 있으며, 많은 분절음을 구분 가능하며, 음운 규칙을 명시적으로 기술할 수 있다.
서비스 제공 서버(120)는 사용자의 발음에 대한 평가 결과를 나타내는 발음 평가 결과 데이터를 사용자 장치(110)로 제공할 수 있다.
이와 같이 서비스 제공 서버(120)로부터 제공되는 데이터는 사용자 장치(120)에 설치된 웹 브라우저를 통해 웹 페이지로 제공되거나, 어플리케이션, 또는 프로그램 형태로 제공될 수 있다. 다양한 실시예에서 이러한 데이터는 클라이언트-서버 환경에서 플랫폼에 포함되는 형태로 제공될 수 있다.
이를 통해 본 발명은 사용자가 스스로 학습이 가능하고, 사용자의 학습 만족도를 높일 수 있으며, 효율성이 향상된 발음 평가 및 교정을 위한 학습 서비스를 제공할 수 있다.
하기에서는 도 2를 참조하여 사용자 장치(110)에 대해서 상세하게 설명하도록 한다.
도 2는 본 발명의 실시예에 따른 사용자 장치에 대한 개략도이다.
도 2를 참조하면, 사용자 장치(200)는 통신부(210), 표시부(220), 저장부(230) 및 제어부(240)를 포함한다. 제시된 실시예에서 사용자 장치(200)는 도 1의 사용자 장치(110)를 의미할 수 있다.
통신부(210)는 사용자 장치(200)가 외부 장치와 통신이 가능하도록 연결한다. 통신부(210)는 유/무선 통신을 이용하여 서비스 제공 서버(120)와 연결되어 다양한 데이터를 송수신할 수 있다. 구체적으로, 통신부(210)는 서비스 제공 서버(120)로 사용자의 음성 데이터를 전달하고, 서비스 제공 서버(120)로부터 발음 평가 결과 데이터를 수신할 수 있다.
표시부(220)는 사용자에게 각종 콘텐츠(예: 텍스트, 이미지, 비디오, 아이콘, 배너 또는 심볼 등)를 표시할 수 있다. 구체적으로, 표시부(220)는 사용자의 음성 데이터에 대한 발음 평가를 요청하고, 발음 평가에 대한 결과 데이터를 나타내기 위한 다양한 인터페이스 화면을 표시할 수 있다.
다양한 실시예에서 표시부(220)는 터치스크린을 포함할 수 있으며, 예를 들면, 전자 펜 또는 사용자의 신체의 일부를 이용한 터치(touch), 제스처(gesture), 근접, 드래그(drag), 스와이프(swipe) 또는 호버링(hovering) 입력 등을 수신할 수 있다.
저장부(230)는 사용자의 음성 데이터에 대한 발음 평가를 요청하고, 발음 평가에 대한 결과 데이터를 나타내기 위한 사용자 인터페이스를 제공하기 위해 사용되는 다양한 데이터를 저장할 수 있다. 다양한 실시예에서 저장부(230)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(Random Access Memory, RAM), SRAM(Static Random Access Memory), 롬(Read-Only Memory, ROM), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다. 서비스 제공 서버(200)는 인터넷(internet)상에서 상기 저장부(230)의 저장 기능을 수행하는 웹 스토리지(web storage)와 관련되어 동작할 수도 있다.
제어부(240)는 통신부(210), 표시부(220) 및 저장부(230)와 동작 가능하게 연결되며, 사용자의 음성 데이터에 대한 발음 평가를 요청하고, 발음 특성 각각에 대한 발음 평가에 대한 결과 데이터를 나타내기 위한 사용자 인터페이스를 제공하기 위한 다양한 명령들을 수행할 수 있다.
구체적으로, 제어부(240)는 특정 음소 또는 특정 단어에 대하여 사용자의 음성 데이터를 획득하고, 획득된 음성 데이터에 대한 발음 평가를 서비스 제공 서버(120)로 요청할 수 있다. 여기서, 특정 단어는 특정 음소의 발음이 포함된 단어일 수 있으나, 이에 한정되지 않는다. 예를 들어, 제어부(240)는 마이크와 같은 입력부를 더 구비하고, 입력부를 통해서 사용자의 음성 데이터를 획득할 수 있으나, 이에 한정되지 않는다. 다양한 실시예에서 사용자 장치(200)가 마이크를 구비하지 않은 경우 외부 마이크와 같은 외부 장치와 연결되고, 이를 통해 음성 데이터를 획득할 수도 있다.
특정 음소 또는 특정 단어에 대하여 사용자의 음성 데이터를 획득하기 위해 제어부(240)는 특정 음소 또는 특정 단어에 대한 원어민 발음을 학습하기 위한 영상 데이터를 제공할 수 있다. 예를 들어, 영상 데이터는 특정 음소 또는 특정 단어에 대한 원어민의 발음 및 원어민의 입모양 등을 영상화한 데이터일 수 있다. 이를 통해 사용자는 특정 음소 또는 특정 단어에 대한 발음 학습을 수행할 수 있다.
이어서, 제어부(240)는 획득된 음성 데이터에 대한 발음 평가를 요청하기 위한 인터페이스 화면을 표시부(220)를 통해 표시할 수 있다.
제어부(240)는 서비스 제공 서버(120)로부터 발음 평가 결과 데이터를 수신하고, 수신된 발음 평가 결과 데이터를 나타내는 인터페이스 화면을 표시할 수 있다. 이러한 인터페이스 화면은 결정된 평가 점수, 음성 데이터로부터 추출된 음소별 발음 특성 및 피드백 데이터 중 적어도 하나를 나타내기 위한 그래픽 객체 또는 표시 영역을 포함할 수 있다. 다양한 실시예에서 인터페이스 화면은 특정 음소 또는 특정 단어에 대한 원어민의 발음을 학습하기 위한 영상 데이터를 나타내는 표시 영역을 더 포함할 수 있다.
이를 통해 본 발명은 사용자의 발음을 원어민 발음으로 교정하기 위해 사용자 스스로 학습을 수행할 수 있다.
하기에서는 도 3를 참조하여 서비스 제공 서버(120)에 대해서 상세하게 설명하도록 한다.
도 3는 본 발명의 실시예에 따른 서비스 제공 서버에 대한 개략도이다.
도 3를 참조하면, 서비스 제공 서버(300)는 통신부(310), 저장부(320) 및 제어부(330)를 포함한다. 제시된 실시예에서 서비스 제공 서버(300)는 도 1의 서비스 제공 서버(120)를 의미할 수 있다.
통신부(310)는 서비스 제공 서버(300)가 외부 장치와 통신이 가능하도록 연결한다. 통신부(310)는 유/무선 통신을 이용하여 사용자 장치(110)와 연결되어 다양한 데이터를 송수신할 수 있다.
구체적으로, 통신부(310)는 사용자 장치(110)로부터 사용자의 음성 데이터를 수신하고, 사용자 장치(110)로 발음 평가 결과 데이터를 전달할 수 있다.
저장부(320)는 사용자의 음성 데이터를 분석하여 발음 평가를 위한 서비스를 제공하기 위한 다양한 데이터를 저장할 수 있다. 다양한 실시예에서 저장부(330)는 플래시 메모리 타입, 하드디스크 타입, 멀티미디어 카드 마이크로 타입, 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램, SRAM, 롬, EEPROM, PROM, 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다. 사용자 장치(300)는 인터넷상에서 상기 저장부(330)의 저장 기능을 수행하는 웹 스토리지와 관련되어 동작할 수도 있다.
제어부(330)는 통신부(310) 및 저장부(320)와 동작 가능하게 연결되며, 사용자의 음성 데이터를 분석하여 발음 평가를 위한 서비스를 제공하기 위한 다양한 명령들을 수행할 수 있다.
구체적으로, 제어부(330)는 통신부(310)를 통해 사용자 장치(110)로부터 사용자의 음성 데이터를 수신하고, 수신된 음성 데이터에 기반하여 사용자의 발음을 평가할 수 있다.
이를 위해 제어부(330)는 수신된 사용자의 음성 데이터를 분석하여 적어도 하나의 발음 특성을 추출하고, 추출된 적어도 하나의 발음 특성을 기초로 사용자의 발음을 평가하도록 사전 학습된 발음 평가 모델을 이용할 수 있다. 예를 들어, 발음 평가 모델은 원어민 발음을 정답으로 사전 학습된 모델로서, 원어민 발음과의 유사도를 수치화한 평가 점수를 생성하거나, 원어민 발음과의 유사도가 높거나, 낮은지를 결정하기 위해 이용될 수 있다.
제어부(330)는 이러한 발음 평가 모델을 이용하여 음성 데이터로부터 적어도 하나의 발음 특성을 추출하고, 추출된 적어도 하나의 발음 특성을 기초로 사용자의 발음에 대한 평가 점수를 결정할 수 있다. 이때, 평가 점수는 사용자의 발음 특성과 원어민 발음 특성 사이의 유사도를 수치화한 데이터일 수 있다.
예를 들어, “Boy”라는 단어에 대하여 원어민의 음소별 변별적 자질이 “B: 마찰음”, “o: 둥근입술”, 및 “y: Y반모음”이라고 가정한다. 제어부(330)는 사용자의 음성 데이터를 음소별로 정렬하고, 음소별로 정렬된 음성 데이터로부터 적어도 하나의 변별적 자질을 추출할 수 있다. 다시 말해서, 제어부(330)는 “B”, “o”, “y” 각각으로부터 적어도 하나의 변별적 자질을 추출할 수 있다.
제어부(330)는 사용자의 음성 데이터로부터 추출된 변별적 자질이 “낮은혀”, “마찰음”, 및 “Y반모음”과 일치하면 사용자의 발음 특성과 원어민 발음 특성 사이의 유사도가 높다고 결정할 수 있다. 다양한 실시예에서 제어부(330)는 사용자의 음성 데이터로부터 추출된 변별적 자질이 “낮은혀”, “마찰음”, 및 “Y반모음” 이외에 다른 변별적 자질을 포함하거나, “마찰음”, “둥근입술” 및 “Y반모음” 중 어느 하나만 추출되면 사용자의 발음 특성과 원어민 발음 특성 사이의 유사도가 높지 않거나, 낮다고 결정할 수 있다.
이와 같이 유사도가 결정되면 제어부(330)는 결정된 유사도에 기반하여 사용자의 발음에 대한 평가 점수를 결정할 수 있다. 이와 같이 결정된 평가 점수는 사용자의 음소별 발음 정확도에 대한 분석 결과로서 제공될 수 있다.
다양한 실시예에서 제어부(330)는 사용자의 음성 데이터로부터 음소별로 추출된 음성 특징과 원어민에 대한 음소별 발음 특성을 비교한 비교 데이터를 제공할 수 있다. 예를 들어, “B”, “o”, “y” 각각으로부터 추출되는 원어민 음성의 음소별 변별적 자질이 “낮은혀”, “마찰음”, 및 “Y반모음”인 경우 제어부(330)는 사용자의 음성 데이터로부터 추출된 음소별 변별적 자질이 “낮은혀”, “마찰음”, 및 “Y반모음”에 해당하는지를 나타내는 데이터를 제공하거나, “낮은혀”, “마찰음”, 및 “Y반모음” 이외에 추출된 변별적 자질이 있다면 해당 변별적 자질을 나타내는 데이터를 제공할 수 있으나, 이에 한정되지 않는다.
다양한 실시예에서 제어부(330)는 결정된 평가 점수 및 음소별 발음 특성에 따라 미리 결정된 피드백 데이터를 제공할 수 있다. 여기서, 피드백 데이터는 사용자의 발음에 대해서 원어민의 발음으로 가이드하기 위한 데이터일 수 있다. 구체적으로, 피드백 데이터는 특정 음소 또는 특정 단어에 대해서 사용자의 음성 데이터로부터, 원어민 음성으로부터 추출된 적어도 하나의 발음 특성과 일치되는 발음 특성이 추출되도록 가이드하기 위한 데이터일 수 있다. 예를 들어, 피드백 데이터는 “소리를 길게 내지 않아야 합니다. 입을 크게 벌려 소리를 냅니다. 혀 끝을 입청장에 대지 않도록 합니다”와 같은 텍스트일 수 있으나, 이에 한정되지 않는다.
제어부(330)는 결정된 평가 점수, 음성 데이터로부터 추출된 음소별 발음 특성 및 피드백 데이터 중 적어도 하나를 포함하는 발음 평가 결과 데이터를 사용자 장치(110)로 제공할 수 있다.
이와 같이 본 발명은 사용자의 외국어 발음에 대하여 음소별로 발음 정확도를 분석한 결과를 제공함으로써, 사용자가 외국어 발음에 대하여 보다 강도 높은 발음 훈련을 수행할 수 있다.
하기에서는 사용자 장치(110)에서 발음 평가를 위한 사용자 인터페이스 제공 방법에 대해서 도 4를 참조하여 설명하도록 한다.
도 4는 본 발명의 실시예에 따른 사용자 장치에서 발음 평가를 위한 사용자 인터페이스 제공 방법을 설명하기 위한 개략적인 흐름도이다. 하기에서 서술하는 동작들은 사용자 장치(200)의 제어부(240)에 의해서 수행될 수 있다.
도 4를 참조하면, 사용자 장치(200)는 특정 음소 또는 특정 단어에 대한 사용자의 음성 데이터를 획득하고(S400), 획득된 음성 데이터를 서비스 제공 서버(120)로 전달한다(S410). 예를 들어, 사용자 장치(200)는 마이크를 이용하여 특정 음소 또는 특정 단어를 발음한 사용자의 음성 데이터를 입력받을 수 있다. 사용자 장치(200)는 마이크를 통해 입력된 음성 데이터를 서비스 제공 서버(120)로 전달하여 발음 평가를 요청할 수 있다.
사용자 장치(200)는 서비스 제공 서버(120)로부터 사용자의 음성 데이터를 기초로 특정 음소 또는 특정 단어에 대한 사용자의 발음을 평가한 발음 평가 결과 데이터를 수신하고(S420), 수신된 발음 평가 결과 데이터를 나타내는 인터페이스 화면을 표시한다(S430). 예를 들어, 발음 평가 결과 데이터는 서비스 제공 서버(120)에서 발음 평가 모델을 이용하여 특정 음소 또는 특정 단어에 대하여 사용자의 발음과 원어민의 발음 사이의 유사도에 따라 결정된 평가 점수, 사용자의 음성 데이터로부터 추출된 음소별 발음 특성 및 사용자의 발음을 원어민 발음으로 교정하도록 가이드하기 위한 피드백 데이터 중 적어도 하나를 포함할 수 있다.
이에 따라, 발음 평가 결과 데이터를 나타내는 인터페이스 화면은 평가 점수, 음소별 발음 특성 및 피드백 데이터를 나타내는 그래픽 객체, 또는 표시 영역 등을 포함할 수 있다.
하기에서는 사용자 장치(110) 및 서비스 제공 서버(120) 간의 발음 평가를 위한 방법에 대해서 도 5를 참조하여 설명하도록 한다.
도 5는 본 발명의 실시예에 따른 사용자 장치 및 서비스 제공 서버 간의 발음 평가를 위한 방법을 설명하기 위한 개략적인 흐름도이다.
도 5를 참조하면, 사용자 장치(110)는 특정 음소 또는 특정 단어에 대한 사용자의 음성 데이터를 획득하고(S500), 획득된 음성 데이터를 서비스 제공 서버로 전달한다(S510).
서비스 제공 서버(120)는 음성 데이터를 기초로 사용자의 발음을 평가하도록 학습된 발음 평가 모델을 이용하여 사용자의 발음을 평가하고(S520), 발음 평가 결과 데이터를 사용자 장치(110)로 전달한다(S530).
구체적으로, 서비스 제공 서버(120)는 발음 평가 모델을 이용하여 사용자의 음성 데이터로부터 음소별 발음 특성을 추출하고, 추출된 음소별 발음 특성과 원어민의 음소별 발음 특성 간의 유사도를 결정할 수 있다. 서비스 제공 서버(120)는 결정된 유사도에 대응하여 평가 점수를 결정하고, 결정된 평가 점수, 추출된 음소별 발음 특성 및 피드백 데이터 중 적어도 하나를 포함하는 발음 평가 결과 데이터를 사용자 장치(110)로 전달할 수 있다.
사용자 장치(110)는 발음 평가 결과 데이터를 나타내는 인터페이스 화면을 표시한다(S540).
이를 통해 본 발명은 사용자가 장소 및 시간 제약 없이 외국어 발음 훈련을 할 수 있고, 외국어 강사 등과 같은 교육자의 발음 교정 학습에 대한 부담을 감소시킬 수 있다.
하기에서는 발음 평가에 관련된 다양한 인터페이스 화면에 대해서 도 6a, 도 6b, 도 6c, 도 6d, 도 6e, 도 6f, 및 도 6g를 참조하여 설명하도록 한다.
도 6a, 도 6b, 도 6c, 도 6d, 도 6e, 도 6f, 및 도 6g는 본 발명의 실시예에 따른 발음 평가에 관련된 다양한 인터페이스 화면에 대한 예시도들이다. 이러한 인터페이스 화면들은 사용자 장치(200)의 표시부(220)를 통해서 표시될 수 있다. 제시된 실시예에서는 사용자 장치(200)가 PC이고, 표시부(220)가 모니터인 경우를 설명하도록 한다.
도 6a를 참조하면, 사용자 장치(200)는 특정 음소 또는 특정 단어에 대한 사용자의 발음을 평가하기 위한 인터페이스 화면(600)을 표시할 수 있다. 이러한 인터페이스 화면(600)은 발음 평가를 위해 사용자로부터 획득하고자 하는 음소 또는 단어 중 어느 하나를 선택하기 위한 제1 영역(602), 선택된 음소 또는 단어의 종류를 나타내는 제2 영역(604) 및 선택된 음소 또는 단어에 관련된 다양한 데이터를 나타내는 제3 영역(606)을 포함할 수 있다.
제1 영역(602)을 통해 특정 음소에 대한 발음 평가를 위한 “음소” 아이콘이 선택되면 사용자 장치(200)는 평가 가능한 음소의 종류를 나타내는 적어도 하나의 그래픽 객체를 제2 영역(604)에 표시할 수 있다.
제2 영역(604)에 표시된 그래픽 객체들 중 “/a/” 발음에 해당하는 그래픽 객체(608)가 선택되면 사용자 장치(200)는 “/a/” 발음에 대한 원어민 발음을 학습하기 위한 영상을 표시하는 제4 영역(610) 및 “/a/” 발음에 관련된 사용자의 음성 데이터를 획득하기 위한 제5 영역(612)을 제3 영역(606)에 표시할 수 있다. 여기서, “/a/” 발음에 대한 원어민 발음을 학습하기 위한 영상은 “/a/” 발음에 대하여 원어민의 발음 및 입모양을 영상화한 데이터일 수 있다. 또한 제5 영역(612)은 사용자의 음성 데이터를 획득(또는 녹음)하기 위한 녹음 아이콘(614)을 포함할 수 있다.
녹음 아이콘(614)이 선택되고, 사용자 장치(200)에 내장되거나, 또는 외부 장치로서 연결된 마이크를 통해 사용자의 음성 데이터가 입력되면 사용자 장치(200)는 도 6b와 같이 마이크를 통해 입력되고 있는 음성 데이터를 나타내는 그래픽 객체(616)를 제5 영역(612)에 표시할 수 있다.
음성 입력이 완료되면 사용자 장치(200)는 음성 데이터를 서비스 제공 서버(120)로 전달하여 “/a/” 발음에 대한 평가를 요청할 수 있다.
서비스 제공 서버(120)로부터 발음 평가 결과 데이터가 수신되면 사용자 장치(200)는 도 6c와 같이 발음 평가 결과 데이터를 나타내는 그래픽 객체들(618, 620, 622, 624, 626)을 제3 영역(606)에 표시할 수 있다.
도 6c를 참조하면, 발음 평가 결과 데이터를 나타내는 그래픽 객체들(618, 620, 622, 624, 626)은 “/a/” 발음에 대한 사용자의 전반적인 발음 평가 결과를 나타내는 제1 그래픽 객체(618), “/a/” 발음에 대하여 원어민 음성으로부터 추출되는 적어도 하나의 발음 특성을 나타내는 제2 그래픽 객체(620), “/a/” 발음에 대하여 사용자 음성으로부터 추출된 적어도 하나의 발음 특성을 나타내는 제3 그래픽 객체(622), 원어민 음성에서 추출된 발음 특성과 사용자 음성에서 추출된 발음 특성 간의 유사도를 나타내는 제4 그래픽 객체(624), 및 사용자의 발음을 원어민 발음으로 교정하도록 가이드하기 위한 제5 그래픽 객체(626)를 포함할 수 있다.
여기서, 제1 그래픽 객체(618)는 서비스 제공 서버(120)에서 발음 평가 모델을 이용하여 결정된 사용자의 발음 평가 점수를 5개의 별 중 적어도 일부로서 표현한 이미지, 및 발음 평가 점수를 “bad, good, excellent” 등의 단어로 표현한 텍스트를 포함할 수 있다.
제2 그래픽 객체(620)는 “/a/” 발음에 대하여 원어민 음성 데이터로부터 추출된 적어도 하나의 발음 특성을 나타내는 아이콘 또는 이미지일 수 있다.
제3 그래픽 객체(622)는 “/a/” 발음에 대하여 사용자 음성 데이터로부터 추출된 적어도 하나의 발음 특성을 나타내는 아이콘 또는 이미지일 수 있다.
제4 그래픽 객체(624)는 원어민 음성 데이터로부터 추출된 적어도 하나의 발음 특성과 사용자 음성 데이터로부터 추출된 적어도 하나의 발음 특성 간의 일치 여부를 O, X 로서 나타낸 아이콘 또는 이미지일 수 있다.
제5 그래픽 객체(626)는 원어민 음성 데이터로부터 추출된 적어도 하나의 발음 특성과 사용자 음성 데이터로부터 추출된 적어도 하나의 발음 특성이 일치하지 않을 경우 사용자의 발음을 원어민 발음으로 교정하도록 가이드하기 위한 피드백 데이터를 나타내는 텍스트일 수 있다. 예를 들어, “혀 위치를 낮추어 소리 내주세요”와 같은 텍스트일 수 있다.
도 6d를 참조하면, 제1 영역(602)을 통해 특정 단어에 대한 발음 평가를 위한 “단어” 아이콘(628)이 선택되면 사용자 장치(200)는 “/a/” 발음에 관련하여 평가 가능한 단어의 종류를 나타내는 적어도 하나의 그래픽 객체(630)를 제3 영역(606)에 표시할 수 있다.
예를 들어, 적어도 하나의 그래픽 객체(630) 중 “fox” 단어에 대한 발음 평가를 위한 그래픽 객체(632)가 선택되면 사용자 장치(200)는 “fox” 단어에 대한 원어민 발음을 학습하기 위한 영상을 표시하는 제6 영역(634) 및 “fox” 단어에 관련된 사용자의 음성 데이터를 획득하기 위한 제7 영역(636)을 제3 영역(606)에 표시할 수 있다. 여기서, 제7 영역(636)은 사용자의 음성 데이터를 녹음하기 위한 녹음 아이콘(638)을 포함할 수 있다.
녹음 아이콘(638)이 선택되고, 마이크를 통해 사용자의 음성 데이터가 입력되면 사용자 장치(200)는 도 6e와 같이 마이크를 통해 입력되고 있는 음성 데이터를 나타내는 그래픽 객체(640)를 제7 영역(636)에 표시할 수 있다.
음성 입력이 완료되면 사용자 장치(200)는 음성 데이터를 서비스 제공 서버(120)로 전달하여 “fox” 단어에 대한 사용자의 발음 평가를 요청할 수 있다.
서비스 제공 서버(120)로부터 발음 평가 결과 데이터가 수신되면 사용자 장치(200)는 도 6f와 같이 발음 평가 결과 데이터를 나타내는 그래픽 객체들(642, 644, 646, 648, 650)을 제3 영역(606)에 표시할 수 있다.
도 6f를 참조하면, 발음 평가 결과 데이터를 나타내는 그래픽 객체들(642, 644, 646, 648, 650)은 “fox” 단어의 음소별 발음에 해당하는 “f, a, k, s” 각각에 대한 평가 점수를 나타내는 제1 그래픽 객체(642), “fox” 단어에 대한 사용자의 전반적인 발음 평가 결과를 나타내는 제2 그래픽 객체(644), “fox” 단어에 대하여 원어민 음성으로부터 추출되는 음소별 발음 특성을 나타내는 제3 그래픽 객체(646), “fox” 단어에 대하여 사용자 음성으로부터 추출된 음소별 발음 특성을 나타내는 제4 그래픽 객체(648), 및 원어민 음성에서 추출된 음소별 발음 특성과 사용자 음성에서 추출된 음소별 발음 특성 간의 유사도를 나타내는 제5 그래픽 객체(650)를 포함할 수 있다.
다양한 실시예에서 이러한 발음 평가 결과 데이터를 나타내는 그래픽 객체들은 사용자의 발음을 원어민 발음으로 교정하도록 가이드하기 위한 그래픽 객체를 더 포함할 수 있다.
여기서, 제1 그래픽 객체(642)는 “fox” 단어의 발음에 해당하는 “/faks/”의 음소별 발음인 “f”, “a”, “k”, “s” 각각에 대하여 서비스 제공 서버(120)에서 발음 평가 모델을 이용하여 결정된 발음 평가 점수를 나타내는 텍스트일 수 있다. 예를 들어, “f”에 대하여 80점, “a”에 대하여 77점, “k”에 대하여 44점, “s”에 대하여 96점으로 결정된 음소별 평가 점수를 나타내는 텍스트일 수 있다.
제2 그래픽 객체(644)는 서비스 제공 서버(120)에서 발음 평가 모델을 이용하여 결정된 사용자의 발음 평가 점수를 5개의 별 중 적어도 일부로서 표현한 이미지, 및 발음 평가 점수를 “bad, good, excellent” 등의 단어로 표현한 텍스트를 포함할 수 있다.
제3 그래픽 객체(646)는 “fox” 단어에 대해서 원어민 음성 데이터로부터 추출된 음소별 발음 특성을 나타내는 아이콘 또는 이미지일 수 있다.
제4 그래픽 객체(648)는 “fox” 단어에 대해서 사용자 음성 데이터로부터 추출된 음소별 발음 특성을 나타내는 아이콘 또는 이미지일 수 있다.
제5 그래픽 객체(650)는 원어민 음성 데이터로부터 추출된 적어도 하나의 발음 특성과 사용자 음성 데이터로부터 추출된 적어도 하나의 발음 특성 간의 일치 여부를 O, X 로서 나타낸 아이콘 또는 이미지일 수 있다.
도 6g를 참조하면, 사용자 장치(200)는 사용자의 음소별 발음에 대한 전체적인 평가 결과를 나타내는 인터페이스 화면(652)을 표시할 수 있다.
이러한 인터페이스 화면(652)은 사용자가 발음 평가를 요청한 음소들 중 원어민 발음과 유사도가 높은 음소의 개수를 나타내는 제1 그래픽 객체(654), 발음 연습이 필요한 발음을 나타내는 제2 그래픽 객체(656) 및 각 발음에 대한 평가 점수를 그래프로 나타낸 제3 그래픽 객체(658)를 포함할 수 있다. 이를 통해 사용자는 복수의 음소들에 대하여 자신에게 부족한 발음을 확인할 수 있게 된다.
하기에서는 발음 평가에 관련된 인터페이스 화면이 모바일 웹 화면으로 구현된 실시 예에 대해서 도 7을 참조하여 설명하도록 한다.
도 7은 본 발명의 실시예에 따른 사용자의 발음 평가를 위한 모바일 웹 화면에 대한 예시도이다. 제시된 실시예에서는 사용자 장치(200)가 모바일 장치인 경우를 설명하도록 한다.
도 7을 참조하면, 사용자 장치(200)는 평가받고자 하는 특정 음소 또는 특정 단어에 관한 음성 데이터를 획득하고, 획득된 음성 데이터를 기초로 특정 음소 또는 특정 단어에 대한 사용자의 발음을 평가하기 위한 인터페이스 화면(700)을 표시할 수 있다.
인터페이스 화면(700)은 평가받고자 하는 특정 음소 또는 특정 단어를 선택하기 위한 제1 영역(710), 특정 음소 또는 특정 단어에 대한 원어민 발음을 학습하기 위한 영상 데이터를 표시하는 제2 영역(720) 및 사용자의 음성 데이터를 획득하기 위한 제3 영역(730)을 포함할 수 있다.
사용자의 음성 녹음을 위한 녹음 아이콘(732)이 선택되면 사용자 장치(220)는 내장된 마이크를 통해 사용자의 음성 데이터를 획득할 수 있다. 이와 같이 획득된 음성 데이터는 제3 영역(730)에 표시될 수 있다.
사용자 장치(200)는 획득된 음성 데이터를 서비스 제공 서버(120)로 전달하고, 서비스 제공 서버(120)로부터 발음 평가 결과 데이터를 수신할 수 있다. 이와 같이 수신된 발음 평가 결과는 특정 음소 또는 특정 단어에 대하여 사용자의 발음 평가를 수치화한 평가 점수를 나타내는 제1 그래픽 객체(740), 특정 음소 또는 특정 단어에 대하여 원어민 음성으로부터 추출되는 적어도 하나의 발음 특성을 나타내는 제2 그래픽 객체(750) 및 사용자 음성으로부터 추출된 적어도 하나의 발음 특성과 원어민 음성으로부터 추출되는 적어도 하나의 발음 특성 간의 일치 여부를 나타내는 제3 그래픽 객체(760)로서 인터페이스 화면(700)에 표시될 수 있다.
제시된 실시예에서 설명한 인터페이스 화면들의 구성은 상술한 내용으로 한정되지 않으며, 각 인터페이스 화면을 구성하는 객체들은 다양하게 구성될 수 있다.
이와 같이 본 발명은 사용자의 취약 발음에 대한 강도 높은 훈련이 가능하여 사용자의 외국어 학습 능력을 향상시킬 수 있다.
또한, 본 발명은 음소별 학습이 가능하므로, 발음 교정이 필요한 음소에 대한 상세 또는 집중 훈련이 가능하다.
본 발명의 실시예에 따른 장치 및 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.
컴퓨터 판독 가능 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media) 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상 첨부된 도면을 참조하여 본 발명의 실시예들을 더욱 상세하게 설명하였으나, 본 발명은 반드시 이러한 실시예로 국한되는 것은 아니고, 본 발명의 기술사상을 벗어나지 않는 범위 내에서 다양하게 변형 실시될 수 있다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
100: 발음 평가를 위한 사용자 인터페이스 제공 시스템
110, 200: 사용자 장치
120, 300: 서비스 제공 서버

Claims (13)

  1. 데이터를 송수신하도록 구성된 통신부;
    데이터를 표시하도록 구성된 표시부; 및
    상기 통신부, 및 상기 표시부와 연결하도록 구성된 제어부를 포함하고,
    상기 제어부는,
    특정 음소 또는 특정 단어에 대한 사용자의 음성 데이터를 획득하고,
    상기 획득된 음성 데이터를 상기 사용자의 발음을 평가하기 위한 서비스 제공 서버로 전달하고,
    상기 서비스 제공 서버로부터 상기 사용자의 발음을 발음 특성-상기 발음 특성은 음소 별로 검출되는 적어도 하나의 변별적 자질과 대응됨- 각각에 대해서 평가한 발음 평가 결과 데이터를 수신하고,
    상기 수신된 발음 평가 결과 데이터를 나타내는 인터페이스 화면을 상기 표시부를 통해 표시하도록 구성되고,
    상기 변별적 자질은,
    높은 혀, 낮은 혀, 앞쪽 혀, 뒤쪽 혀, 둥근 입술, 유성음, 비음, 파열음, 마찰음, 순치음, 치간음, 치경음, 유음, 파찰음, R유음, Y반모음, W반모음, 닫힘이중, 열림이중, 중앙이중, 연구개음 중 적어도 하나를 포함하며,
    상기 발음 평가 결과 데이터는,
    상기 서비스 제공 서버에 의해 상기 사용자의 음성 데이터를 기초로 상기 사용자의 발음을 상기 변별적 자질과 대응되는 발음 특성 각각에 대해서 평가하도록 사전 학습된 발음 평가 모델을 이용하여 결정되며,
    상기 사용자의 발음에 대한 평가 결과를 점수화한 평가 점수, 상기 사용자의 음성 데이터로부터 추출된 발음 특성 및 상기 사용자의 발음을 원어민의 발음으로 가이드하기 위한 피드백 데이터 중 적어도 하나와 상기 원어민의 발음 및 입모양을 영상화한 영상 데이터를 포함하고,
    상기 영상 데이터는,
    상기 특정 음소 또는 상기 특정 단어에 대한 상기 원어민의 발음에서 어느 하나의 음소에 대해 적어도 둘 이상의 변별적 자질을 조합하여 나타낸 그래픽 객체를 포함하는, 발음 평가를 위한 사용자 인터페이스 제공 장치.
  2. 삭제
  3. 제1항에 있어서, 상기 발음 평가 모델은,
    상기 특정 음소 또는 상기 특정 단어에 대한 원어민 발음을 정답으로 사전 학습된 모델인, 발음 평가를 위한 사용자 인터페이스 제공 장치.
  4. 제1항에 있어서, 상기 평가 점수는,
    상기 서비스 제공 서버에 의해 상기 발음 평가 모델을 이용하여 상기 음성 데이터로부터 추출된 적어도 하나의 발음 특성을 기초로 상기 사용자의 발음 특성과 상기 원어민의 발음 특성 사이의 유사도를 수치화한 데이터인, 발음 평가를 위한 사용자 인터페이스 제공 장치.
  5. 제1항에 있어서, 상기 사용자의 발음 특성과 상기 원어민의 발음 특성 사이의 유사도는,
    상기 사용자의 발음 특성과 상기 원어민의 발음 특성 간의 일치 여부에 따라 결정되는, 발음 평가를 위한 사용자 인터페이스 제공 장치.
  6. 제1항에 있어서, 상기 피드백 데이터는,
    상기 사용자의 발음 특성과 상기 원어민의 발음 특성이 서로 일치하지 않으면 상기 사용자의 음성 데이터로부터, 상기 원어민의 발음 특성과 일치하는 발음 특성이 추출되도록 가이드하기 위해 제공되는, 발음 평가를 위한 사용자 인터페이스 제공 장치.
  7. 삭제
  8. 발음 평가를 위한 사용자 인터페이스 제공 장치의 제어부에 의해서 수행되는 발음 평가를 위한 사용자 인터페이스 제공 방법에 있어서,
    특정 음소 또는 특정 단어에 대한 사용자의 음성 데이터를 획득하는 단계;
    상기 획득된 음성 데이터를 상기 사용자의 발음을 평가하기 위한 서비스 제공 서버로 전달하는 단계;
    상기 서비스 제공 서버로부터 상기 사용자의 발음을 발음 특성-상기 발음 특성은 음소 별로 검출되는 적어도 하나의 변별적 자질과 대응됨- 각각에 대해서 평가한 발음 평가 결과 데이터를 수신하는 단계; 및
    상기 수신된 발음 평가 결과 데이터를 나타내는 인터페이스 화면을 표시하는 단계를 포함하고,
    상기 변별적 자질은,
    높은 혀, 낮은 혀, 앞쪽 혀, 뒤쪽 혀, 둥근 입술, 유성음, 비음, 파열음, 마찰음, 순치음, 치간음, 치경음, 유음, 파찰음, R유음, Y반모음, W반모음, 닫힘이중, 열림이중, 중앙이중, 연구개음 중 적어도 하나를 포함하며,
    상기 발음 평가 결과 데이터는,
    상기 서비스 제공 서버에 의해 상기 사용자의 음성 데이터를 기초로 상기 사용자의 발음을 상기 변별적 자질과 대응되는 발음 특성 각각에 대해서 평가하도록 사전 학습된 발음 평가 모델을 이용하여 결정되며,
    상기 사용자의 발음에 대한 평가 결과를 점수화한 평가 점수, 상기 사용자의 음성 데이터로부터 추출된 발음 특성 및 상기 사용자의 발음을 원어민의 발음으로 가이드하기 위한 피드백 데이터 중 적어도 하나와 상기 원어민의 발음 및 입모양을 영상화한 영상 데이터를 포함하고,
    상기 영상 데이터는,
    상기 특정 음소 또는 상기 특정 단어에 대한 상기 원어민의 발음에서 어느 하나의 음소에 대해 적어도 둘 이상의 변별적 자질을 조합하여 나타낸 그래픽 객체를 포함하는, 발음 평가를 위한 사용자 인터페이스 제공 방법.
  9. 삭제
  10. 제8항에 있어서, 상기 발음 평가 모델은,
    상기 특정 음소 또는 상기 특정 단어에 대한 원어민 발음을 정답으로 사전 학습된 모델인, 발음 평가를 위한 사용자 인터페이스 제공 방법.
  11. 제8항에 있어서, 상기 평가 점수는,
    상기 서비스 제공 서버에 의해 상기 발음 평가 모델을 이용하여 상기 음성 데이터로부터 추출된 적어도 하나의 발음 특성을 기초로 상기 사용자의 발음 특성과 상기 원어민의 발음 특성 사이의 유사도를 수치화한 데이터인, 발음 평가를 위한 사용자 인터페이스 제공 방법.
  12. 제8항에 있어서, 상기 사용자의 발음 특성과 상기 원어민의 발음 특성 사이의 유사도는,
    상기 사용자의 발음 특성과 상기 원어민의 발음 특성 간의 일치 여부에 따라 결정되는, 발음 평가를 위한 사용자 인터페이스 제공 방법.
  13. 제8항에 있어서, 상기 피드백 데이터는,
    상기 사용자의 발음 특성과 상기 원어민의 발음 특성이 서로 일치하지 않으면 상기 사용자의 음성 데이터로부터, 상기 원어민의 발음 특성과 일치하는 발음 특성이 추출되도록 가이드하기 위해 제공되는, 발음 평가를 위한 사용자 인터페이스 제공 방법.
KR1020200000805A 2020-01-03 2020-01-03 발음 평가를 위한 사용자 인터페이스 제공 장치 및 방법 KR102321141B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200000805A KR102321141B1 (ko) 2020-01-03 2020-01-03 발음 평가를 위한 사용자 인터페이스 제공 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200000805A KR102321141B1 (ko) 2020-01-03 2020-01-03 발음 평가를 위한 사용자 인터페이스 제공 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20210087727A KR20210087727A (ko) 2021-07-13
KR102321141B1 true KR102321141B1 (ko) 2021-11-03

Family

ID=76858706

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200000805A KR102321141B1 (ko) 2020-01-03 2020-01-03 발음 평가를 위한 사용자 인터페이스 제공 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102321141B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230088377A (ko) * 2020-12-24 2023-06-19 주식회사 셀바스에이아이 발음 평가를 위한 사용자 인터페이스 제공 장치 및 방법

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130059276A1 (en) * 2011-09-01 2013-03-07 Speechfx, Inc. Systems and methods for language learning
KR101411039B1 (ko) * 2012-02-07 2014-07-07 에스케이씨앤씨 주식회사 음성인식을 이용한 발음 평가 방법 및 이를 적용한 전자기기
KR101740636B1 (ko) * 2015-03-05 2017-05-26 한국전자통신연구원 음성 인식 기반 발음 평가 방법 및 장치
KR102052031B1 (ko) * 2016-11-02 2019-12-04 한국전자통신연구원 발음평가 방법 및 상기 방법을 이용하는 발음평가 시스템
KR102101817B1 (ko) * 2018-06-19 2020-04-17 주식회사 에듀템 인터넷 상에 공개된 동영상을 이용한 어학 학습 지원 장치

Also Published As

Publication number Publication date
KR20210087727A (ko) 2021-07-13

Similar Documents

Publication Publication Date Title
US8793118B2 (en) Adaptive multimodal communication assist system
CN105792752B (zh) 用于诊断和治疗语言相关障碍的计算技术
US20190385480A1 (en) System to evaluate dimensions of pronunciation quality
US6134529A (en) Speech recognition apparatus and method for learning
US9378650B2 (en) System and method for providing scalable educational content
US10546508B2 (en) System and method for automated literacy assessment
US11145222B2 (en) Language learning system, language learning support server, and computer program product
JP2009503563A (ja) 話し言葉のコンピュータによる習熟度評価
US10672293B2 (en) Computer system methods for generating combined language content
CN109817244B (zh) 口语评测方法、装置、设备和存储介质
US20140195239A1 (en) Systems and Methods for an Automated Pronunciation Assessment System for Similar Vowel Pairs
JP5105943B2 (ja) 発話評価装置及び発話評価プログラム
KR102225435B1 (ko) Stt 기반 언어구사 학습-훈련 시스템
KR102321141B1 (ko) 발음 평가를 위한 사용자 인터페이스 제공 장치 및 방법
RU2344492C2 (ru) Динамическая поддержка произношения для обучения распознаванию японской и китайской речи
US20220230626A1 (en) Creative work systems and methods thereof
CN113990351A (zh) 纠音方法、纠音装置及非瞬时性存储介质
Junining et al. Automatic speech recognition in computer-assisted language learning for individual learning in speaking
CN111128237B (zh) 语音评测方法、装置、存储介质和电子设备
KR20230088377A (ko) 발음 평가를 위한 사용자 인터페이스 제공 장치 및 방법
KR102523440B1 (ko) 언어 학습 콘텐츠의 캐릭터를 교육하기 위한 사용자 인터페이스 제공 장치 및 방법
KR20240063576A (ko) 취약 발음 분석을 위한 사용자 인터페이스 제공 장치 및 방법
KR102333029B1 (ko) 발음 평가 방법 및 이를 이용한 디바이스
CN110688848A (zh) 一种英语语法的训练方法及系统
JP7367819B2 (ja) 発音学習支援システム、発音学習支援装置、発音学習支援方法及び発音学習支援プログラム

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant