KR102333029B1 - 발음 평가 방법 및 이를 이용한 디바이스 - Google Patents

발음 평가 방법 및 이를 이용한 디바이스 Download PDF

Info

Publication number
KR102333029B1
KR102333029B1 KR1020200026532A KR20200026532A KR102333029B1 KR 102333029 B1 KR102333029 B1 KR 102333029B1 KR 1020200026532 A KR1020200026532 A KR 1020200026532A KR 20200026532 A KR20200026532 A KR 20200026532A KR 102333029 B1 KR102333029 B1 KR 102333029B1
Authority
KR
South Korea
Prior art keywords
pronunciation
user
characteristic
phoneme
voice data
Prior art date
Application number
KR1020200026532A
Other languages
English (en)
Other versions
KR20210111503A (ko
Inventor
김상하
문대영
조창수
Original Assignee
주식회사 셀바스에이아이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 셀바스에이아이 filed Critical 주식회사 셀바스에이아이
Priority to KR1020200026532A priority Critical patent/KR102333029B1/ko
Publication of KR20210111503A publication Critical patent/KR20210111503A/ko
Application granted granted Critical
Publication of KR102333029B1 publication Critical patent/KR102333029B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/06Foreign languages
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Artificial Intelligence (AREA)
  • Educational Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

본 발명은, 프로세서에 의해 구현되는 발음 평가 방법으로서, 특정 음소 또는 특정 단어에 대한 사용자의 음성 데이터를 수신하는 단계, 음성 데이터를 입력으로 하여 발성 구간 및 발성 발음을 출력하도록 구성된 제1 발음 평가 모델을 이용하여, 음성 데이터로부터 발성 구간 및 발성 발음을 결정하는 단계, 제1 발음 평가 모델에 의해 출력된 발성 구간에 해당하는 음성 데이터를 기초로 발음 특성을 출력하도록 구성된 제2 발음 평가 모델을 이용하여, 음성 데이터로부터 발음 특성을 결정하는 단계, 특정 음소 또는 특정 단어에 대한 기준 발음 특성과 사용자의 발음 특성의 유사도를 기초로 사용자의 발음을 평가하는 단계, 및 평가 결과를 제공하는 단계를 포함하는 발음 평가 방법 및 이를 이용한 장치를 제공한다.

Description

발음 평가 방법 및 이를 이용한 디바이스{METHOD FOR PRONUNCIATION ASSESSMENT AND DEVICE FOR PRONUNCIATION ASSESSMENT USING THE SAME}
본 발명은 발음 평가 방법 및 이를 이용한 디바이스에 관한 것으로, 보다 구체적으로는 사용자의 음성 데이터에 기초한 발음 평가 방법 및 이를 이용한 발음 평가 디바이스에 관한 것이다.
산업의 전문화 및 국제화의 추세에 따라 외국어에 대한 중요성이 커지고 있으며, 이에 따라 외국어 학습을 위한 다양한 서비스가 제공되고 있다.
일반적으로 외국어 학습은 원어민 강사의 지도에 의해서 이루어지고 있으나, 이러한 학습은 비용이 많이 소비되고, 장소 및 시간 제약이 있다는 문제점이 있다.
이에, 장소 및 시간 제약 없이 언제 어디서든 적은 비용으로 외국어 학습이 가능한 외국어 학습 방법이 필요로 하게 되었다. 이러한 요구에 부응하기 위해 다양한 어학용 프로그램이 개발되어 제공되고 있다.
그러나, 이러한 어학용 프로그램은 사용자의 외국어 발음 중 어떤 발음이 취약하고 훈련이 필요한지 분석하거나, 이에 대하여 피드백을 제공하는 부분이 취약하다는 문제점이 있다.
따라서, 장소 및 시간 제약 없이 사용자의 외국어 발음을 분석하여 어떤 발음이 취약하고 훈련이 필요한지 피드백을 해주기 위한 발음 평가 방법이 요구되고 있는 실정이다.
발명의 배경이 되는 기술은 본 발명에 대한 이해를 보다 용이하게 하기 위해 작성되었다. 발명의 배경이 되는 기술에 기재된 사항들이 선행기술로 존재한다고 인정하는 것으로 이해되어서는 안 된다.
한편, 본 발명의 발명자들은, 종래의 어학용 프로그램이 갖는 한계를 극복하기 위한 방안으로, 외국어의 소리와 철자 사이의 상관 관계에 기초하여 사용자의 발음을 평가하는 새로운 시스템을 개발하고자 하였다.
그 결과, 본 발명의 발명자들은, 사용자가 특정 음소 또는 특정 단어에 대한 음성을 입력할 경우, 음소를 구별 및 분할하고, 음소별로 발음 특성을 추출하여 발성 기관 위치 등을 평가할 수 있는 새로운 발음 평가 시스템을 개발하기에 이르렀다.
이때, 본 발명의 발명자들은, 발음과 연동되는 발성 기관의 입체적 표현을 제공할 뿐만 아니라, 사용자의 발음과 원어민 발음의 비교에 기초한 교정 가이드 문구 등을 함께 제시하여, 사용자로 하여금 정확한 발음을 유도하도록 상기 시스템을 구성하였다.
더욱이, 본 발명의 발명자들은, 특정 음소 또는 특정 단어에 대한 사용자의 음성 데이터를 입력으로 하여, 이를 기초로 평가 점수와 같은 발음 평가 데이터를 출력하도록 학습된, 발음 평가 모델을 발음 평가 시스템에 적용하고자 하였다.
보다 구체적으로, 본 발명의 발명자들은, 언어 모델 및 음향 모델로 이루어져 주어진 특정 음소 또는 특정 단어에 대한 발음 구간 및 발성 발음을 결정하도록 구성된 제1 발음 평가 모델 및 발음 특성을 결정하도록 구성된 제2 발음 평가 모델을 발음 평가 시스템에 적용할 수 있었다.
이에, 본 발명의 발명자들은 상기와 같은 발음 평가 모델들을 적용함으로써, 발성 발음과 함께 발음 특성을 평가에 고려할 수 있고, 사용자 개개인에 대한 맞춤형 평가 및 피드백을 제공할 수 음을 기대할 수 있었다. 더욱이, 본 발명의 발명자들은 외국어 발음 학습 효율의 향상을 기대할 수 있었다.
특히, 본 발명의 발명자들은, 발음 평가 모델들을 적용함으로써, 사용자의 외국어 발음을 분석하고 발음 특성 각각의 취약 부분에 대한 피드백을 제공할 수 있어 사용자가 취약 발음에 대한 훈련을 효과적으로 수행할 수 있음을 기대할 수 있었다.
이에, 본 발명이 해결하고자 하는 과제는, 제1 발음 평가 모델을 이용하여, 수신된 음성 데이터로부터 발성 구간 및 발성 발음을 결정하고, 제2 발음 평가 모델을 이용하여, 음성 데이터로부터 발음 특성을 결정하고, 특정 음소 또는 특정 단어에 대한 기준 발음 특성과 사용자의 발음 특성의 유사도를 기초로 사용자의 발음을 평가하고, 이를 제공하도록 구성된, 발음 평가 방법 및 장치를 제공하는 것이다.
본 발명의 과제들은 이상에서 언급한 과제들로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
전술한 바와 같은 과제를 해결하기 위하여 본 발명의 일 실시예에 따른 발음 평가 방법을 제공한다. 상기 방법은, 특정 음소 또는 특정 단어에 대한 사용자의 음성 데이터를 수신하는 단계, 음성 데이터를 입력으로 하여 발성 구간 및 발성 발음을 출력하도록 구성된 제1 발음 평가 모델을 이용하여, 음성 데이터로부터 발성 구간 및 발성 발음을 결정하는 단계, 제1 발음 평가 모델에 의해 출력된 발성 구간에 해당하는 음성 데이터를 기초로 발음 특성을 출력하도록 구성된 제2 발음 평가 모델을 이용하여, 음성 데이터로부터 발음 특성을 결정하는 단계, 특정 음소 또는 특정 단어에 대한 기준 발음 특성과 사용자의 발음 특성의 유사도를 기초로 사용자의 발음을 평가하는 단계, 및 평가 결과를 제공하는 단계를 포함한다.
본 발명의 특징에 따르면, 음성학적 발음 특성을 기초로, 상기 특정 음소 또는 특정 단어에 대한 기준 발음 특성을 결정하는 단계를 더 포함할 수 있다. 이때, 사용자의 발음을 평가하는 단계는, 추출된 사용자의 발음 특성 및 기준 발음 특성 사이의 유사도에 기초하여 발음 평가 점수를 산출하는 단계를 포함할 수 있다. 또한, 평가 결과를 제공하는 단계는, 발음 평가 점수를 제공하는 단계를 포함할 수 있다.
본 발명의 다른 특징에 따르면, 음성 데이터는, 복수의 음소로 구성된 특정 단어에 대한 음성 데이터일 수 있다. 이때, 발음 평가 방법은, 발성 발음 및 발음 특성을 결정하는 단계 이전에 수행되는, 특정 단어에 대한 음성 데이터를 복수의 구간으로 분할하는 단계를 더 포함할 수 있다. 한편, 발성 구간은, 음소 단위로 출력된 발성 구간이고, 발성 발음은, 복수의 음소 각각에 대한 발성 발음이고, 평가는, 특정 단어에 대한 음소 단위의 평가로 정의될 수 있다.
본 발명의 또 다른 특징에 따르면, 사용자의 발음을 평가하는 단계는, 음소 단위 각각에 대하여 사용자의 발음 특성 및 기준 발음 특성을 비교하는 단계, 음소 단위 각각에 대한 유사도 점수를 산출하는 단계, 및 음소 단위 각각에 대한 유사도 점수의 평균 점수를 산출하는 단계를 포함할 수 있다.
본 발명의 또 다른 특징에 따르면, 음성 데이터는, 특정 단어에 대한 음성 데이터일 수 있다. 또한, 제2 발음 평가 모델은, 특정 단어 내의 특정 음소의 전 또는 후에 배치된 음소에 기초하여 발음 특성을 추출하도록 더 구성될 수 있다.
본 발명의 또 다른 특징에 따르면, 발음 평가 방법은, 제공하는 단계 이후에, 사용자의 발음을 원어민의 발음으로 가이드 하기 위한 피드백 데이터를 제공하는 단계를 포함할 수 있다. 이때, 피드백 데이터는, 사용자의 발음 특성과 원어민의 발음 특성이 서로 일치하지 않으면 사용자의 음성 데이터로부터, 원어민의 발음 특성과 일치하는 발음 특성이 추출되도록 가이드 하기 위한 것일 수 있다.
본 발명의 또 다른 특징에 따르면, 음성 데이터에 대한 기준 발음 특성은 복수개이고, 기준 발음 특성은, 특정 음소 또는 특정 단어에 대한 원어민의 발음에 특징으로 정의될 수 있다. 이때, 피드백 데이터를 제공하는 단계는, 추출된 발음 특성과 기준 발음 특성과 비교하는 단계, 및 추출된 발음 특성 내에 기준 발음 특성과 상이한 발음 특성이 포함될 경우, 상이한 발음 특성에 대한 발성을 하지 않도록 가이드 하기 위한 피드백 데이터를 결정하거나, 또는 추출된 발음 특성 내에 기준 발음 특성 중 특정 발음 특성이 포함되지 않을 경우, 특정 발음 특성에 대하여 발성하도록 가이드 하기 위한 피드백 데이터를 결정하는 단계를 포함할 수 있다.
본 발명의 또 다른 특징에 따르면, 발음 특성은, 높은 혀, 낮은 혀, 앞쪽 혀, 뒤쪽 혀, 둥근 입술, 유성음, 비음, 파열음, 마찰음, 순음(또는 순치음), 치간/치경음, 유음, 파찰음, R유음, Y반모음, W반모음, 닫힘이중, 열림이중, 중앙이중, 연구개음 중 적어도 하나의 변별적 자질 (distinctive feature) 일 수 있다.
본 발명의 또 다른 특징에 따르면, 평가 결과를 제공하는 단계 이후에, 사용자로부터 특정 음소 또는 특정 단어에 대한 음성 데이터를 재수신하는 단계, 및 제1 발음 평가 모델 및 제2 발음 평가 모델을 이용하여, 재수신된 음성 데이터를 재평가하는 단계를 더 포함할 수 있다.
본 발명의 또 다른 특징에 따르면, 특정 단어 및 특정 음소는 복수개일 수 있다. 이때, 발음 평가 방법은, 사용자의 음성 데이터를 수신하는 단계 이전에, 복수개의 특정 단어 중 적어도 하나 또는 복수개의 특정 음소 중 적어도 하나에 대한 선택을 입력 받는 단계를 더 포함할 수 있다.
본 발명의 또 다른 특징에 따르면, 제2 발음 평가 모델은, 발음 및 발음 특성에 따른 복수의 아웃노드 (output node) 레이어를 포함하할 수 있다. 이때, 아웃노드 레이어는, 미리 결정된 음소 또는 단어에 대한 학습용 음성 데이터를 수신하는 단계, 학습용 음성 데이터를 음소 단위로 분할하는 단계, 음소 단위의 학습용 음성 데이터 각각에 대하여 특징을 추출하는 단계, 특징으로부터 발성 발음을 결정하는 단계, 발음 클러스터를 형성하도록, 유사도에 기초하여 발성 발음을 클러스터링하는 단계, 및 발음 클러스터에 기초하여 복수의 아웃노드 레이어를 생성하는 단계를 통해 생성될 수 있다.
전술한 바와 같은 과제를 해결하기 위하여 본 발명의 다른 실시예에 따른 발음 평가용 디바이스가 제공한다. 디바이스는, 특정 음소 또는 특정 단어에 대한 사용자의 음성 데이터를 수신하도록 구성된 통신부; 통신부와 연결된 프로세서, 및 표시부를 포함한다. 이때, 프로세서는, 음성 데이터를 입력으로 하여 발성 구간 및 발성 발음을 출력하도록 구성된 제1 발음 평가 모델을 이용하여, 음성 데이터로부터 발성 구간 및 발성 발음을 결정하고, 제1 발음 평가 모델에 의해 출력된 발성 구간에 해당하는 음성 데이터를 기초로 발음 특성을 출력하도록 구성된 제2 발음 평가 모델을 이용하여, 음성 데이터로부터 발음 특성을 결정하고, 특정 음소 또는 특정 단어에 대한 기준 발음 특성과 사용자의 발음 특성의 유사도를 기초로 사용자의 발음을 평가하도록 구성된다. 또한, 표시부는, 평가 결과를 제공하도록 구성된다.
본 발명의 특징에 따르면, 프로세서는, 음성학적 발음 특성을 기초로, 특정 음소 또는 특정 단어에 대한 기준 발음 특성을 결정하고, 추출된 사용자의 발음 특성 및 기준 발음 특성 사이의 유사도에 기초하여 발음 평가 점수를 산출하도록 더 구성될 수 있다. 표시부는, 발음 평가 점수를 제공하도록 더 구성될 수 있다.
본 발명의 다른 특징에 따르면, 음성 데이터는, 복수의 음소로 구성된 특정 단어에 대한 음성 데이터일 수 있다. 이때, 프로세서는, 특정 단어에 대한 음성 데이터를 복수의 구간으로 분할하도록 더 구성될 수 있고, 발성 구간은, 음소 단위로 출력된 발성 구간이고, 발성 발음은, 복수의 음소 각각에 대한 발성 발음이고, 평가는, 특정 단어에 대한 음소 단위의 평가로 정의될 수 있다.
본 발명의 또 다른 특징에 따르면, 프로세서는, 음소 단위 각각에 대하여 사용자의 발음 특성 및 기준 발음 특성을 비교하고, 음소 단위 각각에 대한 유사도 점수를 산출하고, 음소 단위 각각에 대한 유사도 점수의 평균 점수를 산출하도록 더 구성될 수 있다.
본 발명의 또 다른 특징에 따르면, 음성 데이터는, 특정 단어에 대한 음성 데이터이고, 제2 발음 평가 모델은, 특정 단어 내의 특정 음소의 전 또는 후에 배치된 음소에 기초하여 발음 특성을 추출하도록 더 구성될 수 있다.
본 발명의 또 다른 특징에 따르면, 표시부는, 사용자의 발음을 원어민의 발음으로 가이드 하기 위한 피드백 데이터를 제공하도록 더 구성될 수 있다. 이때, 피드백 데이터는, 사용자의 발음 특성과 원어민의 발음 특성이 서로 일치하지 않으면 사용자의 음성 데이터로부터, 원어민의 발음 특성과 일치하는 발음 특성이 추출되도록 가이드 하기 위한 것일 수 있다.
본 발명의 또 다른 특징에 따르면, 음성 데이터에 대한 기준 발음 특성은 복수개일 수 있다. 이때, 기준 발음 특성은, 특정 음소 또는 특정 단어에 대한 원어민의 발음에 특징으로 정의될 수 있다. 나아가, 프로세서는, 추출된 발음 특성과 기준 발음 특성과 비교하고, 추출된 발음 특성 내에 기준 발음 특성과 상이한 발음 특성이 포함될 경우, 상이한 발음 특성에 대한 발성을 하지 않도록 가이드 하기 위한 피드백 데이터를 결정하도록 더 구성될 수 있다. 또한 프로세서는, 추출된 발음 특성 내에 기준 발음 특성 중 특정 발음 특성이 포함되지 않을 경우, 특정 발음 특성에 대하여 발성하도록 가이드 하기 위한 피드백 데이터를 결정하도록 더 구성될 수 있다.
기타 실시예의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.
본 발명은 장소 및 시간 제약 없이 사용자의 외국어 발음의 평가가 가능한, 발음 평가 방법 및 장치를 제공할 수 있다.
특히, 본 발명은, 사용자의 음성 데이터에 기초하여 음소 단위의 평가를 진행하여, 사용자의 외국어 발음에 대한 섬세한 평가를 진행할 수 있다.
나아가, 본 발명은, 평가 결과를 점수화한 평가 점수, 상기 사용자의 음성 데이터로부터 추출된 발음 특성 및 사용자의 발음을 원어민의 발음으로 가이드 하기 위한 피드백 등의 다양한 발음 평가 데이터를 제공할 수 있다.
예를 들어, 본 발명은 사용자의 외국어 발음을 분석하여 발음 특성 각각의 취약 부분에 대한 피드백을 제공하여 사용자가 취약 발음에 대한 훈련을 수행하도록 할 수 있다.
이때, 본 발명은, 음성 데이터를 입력으로 하여 발음 구간 및 발성 발음을 추출하고 발음 특성을 추출하도록 각각 구성된 발음 평가 모델이 적용될 수 있다. 따라서, 사용자의 발음에 대한 정확도 높은 진단이 가능할 수 있다.
이에, 본 발명은 사용자의 외국어 발음을 원어민 발음으로 교정하도록 가이드함으로써, 사용자의 외국어 발음을 원어민 수준으로 향상시킬 수 있다.
또한 본 발명은 음소별로 발음 정확도 분석 결과를 제공함으로써, 사용자는 외국어 발음에 대하여 강도 높은 학습을 수행할 수 있다.
본 발명에 따른 효과는 이상에서 예시된 내용에 의해 제한되지 않으며, 더욱 다양한 효과들이 본 발명 내에 포함되어 있다.
도 1a은 본 발명의 일 실시예에 따른 발음 평가 시스템을 설명하기 위한 개략도이다.
도 1b는 본 발명의 일 실시예에 따른 발음 평가용 디바이스를 설명하기 위한 개략도이다.
도 1c는 본 발명의 실시예에 따른 사용자 장치에 대한 개략도이다.
도 1d 내지 1f는 본 발명의 일 실시예에 따른 사용자 디바이스의 표시부를 예시적으로 도시한 것이다.
도 2는 본 발명의 일 실시예에 따른 발음 평가 방법을 설명하기 위한 개략적인 순서도이다.
도 3a 및 3b는 본 발명의 일 실시예에 따른 발음 평가 방법의 절차를 예시적으로 도시한 것이다.
도 4는 본 발명의 다양한 실시예에 적용되는 발음 평가 모델의 아웃노드 레이어 생성을 설명하기 위한 개략적인 순서도이다.
도 5a는 본 발명의 다양한 실시예에 적용되는 발음 평가 모델의 아웃노드 레이어를 예시적으로 도시한 것이다.
도 5b는 본 발명의 다양한 실시예에 적용되는 발음 평가 모델의 학습에 이용되는 기준 발음 특성을 예시적으로 도시한 것이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조부호가 사용될 수 있다.
본 문서에서, "가진다," "가질 수 있다," "포함한다," 또는 "포함할 수 있다" 등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.
본 문서에서, "A 또는 B," "A 또는/및 B 중 적어도 하나," 또는 "A 또는/및 B 중 하나 또는 그 이상" 등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. 예를 들면, "A 또는 B," "A 및 B 중 적어도 하나," 또는 "A 또는 B 중 적어도 하나"는, (1) 적어도 하나의 A를 포함, (2) 적어도 하나의 B를 포함, 또는(3) 적어도 하나의 A 및 적어도 하나의 B 모두를 포함하는 경우를 모두 지칭할 수 있다.
본 문서에서 사용된 "제1," "제2," "첫째," 또는 "둘째," 등의 표현들은 다양한 구성요소들을, 순서 및/또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다. 예를 들면, 제1 사용자 기기와 제2 사용자 기기는, 순서 또는 중요도와 무관하게, 서로 다른 사용자 기기를 나타낼 수 있다. 예를 들면, 본 문서에 기재된 권리범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 바꾸어 명명될 수 있다.
어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "(기능적으로 또는 통신적으로) 연결되어((operatively or communicatively) coupled with/to)" 있다거나 "접속되어(connected to)" 있다고 언급된 때에는, 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제3 구성요소)를 통하여 연결될 수 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소와 상기 다른 구성요소 사이에 다른 구성요소(예: 제3 구성요소)가 존재하지 않는 것으로 이해될 수 있다.
본 문서에서 사용된 표현 "~하도록 구성된(또는 설정된)(configured to)"은 상황에 따라, 예를 들면, "~에 적합한(suitable for)," "~하는 능력을 가지는(having the capacity to)," "~하도록 설계된(designed to)," "~하도록 변경된(adapted to)," "~하도록 만들어진(made to)," 또는 "~ 를 할 수 있는(capable of)"과 바꾸어 사용될 수 있다. 용어 "~하도록 구성된(또는 설정된)"은 하드웨어적으로 "특별히 설계된(specifically designed to)" 것만을 반드시 의미하지 않을 수 있다. 대신, 어떤 상황에서는, "~하도록 구성된 장치"라는 표현은, 그 장치가 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다. 예를 들면, 문구 "A, B, 및 C를 수행하도록 구성된(또는 설정된)프로세서"는 해당 동작을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리 장치에 저장된 하나 이상의 소프트웨어 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(generic-purpose processor)(예: CPU 또는 application processor)를 의미할 수 있다.
본 문서에서 사용된 용어들은 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 다른 실시예의 범위를 한정하려는 의도가 아닐 수 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 용어들은 본 문서에 기재된 기술분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가질 수 있다. 본 문서에 사용된 용어들 중 일반적인 사전에 정의된 용어들은, 관련 기술의 문맥상 가지는 의미와 동일 또는 유사한 의미로 해석될 수 있으며, 본 문서에서 명백하게 정의되지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다. 경우에 따라서, 본 문서에서 정의된 용어일지라도 본 문서의 실시 예들을 배제하도록 해석될 수 없다.
본 발명의 여러 실시예들의 각각 특징들이 부분적으로 또는 전체적으로 서로 결합 또는 조합 가능하며, 당업자가 충분히 이해할 수 있듯이 기술적으로 다양한 연동 및 구동이 가능하며, 각 실시예들이 서로에 대하여 독립적으로 실시 가능할 수도 있고 연관 관계로 함께 실시 가능할 수도 있다.
본 명세서의 해석의 명확함을 위해, 이하에서는 본 명세서에서 사용되는 용어들을 정의하기로 한다.
본원 명세서 내에서 이용되는 용어 “발음 평가 모델”은, 특정 음소 또는 특정 단어에 대한 사용자의 음성 데이터를 입력으로 하여 발음 구간 및 발성 발음을 추출하고, 발음 특성을 출력하도록 구성된 모델일 수 있다.
이때, 발음 평가 모델은, 제1 발음 평가 모델 및 제2 발음 평가 모델로 이루어질 수 있다.
제1 발음 평가 모델은, 음향 모델 및 언어 모델로 이루어진 모델로서, 사용자의 음성 데이터를 입력으로 하여, 특정 음소 또는 특정 단어에 대한 발음 구간 및 발성 발음을 결정하여 출력하도록 구성될 수 있다.
보다 구체적으로, 제1 발음 평가 모델은, 임의의 단위로 분할된 사용자의 음성 데이터로부터, 음소 단위로 발성 구간을 결정하고, 사용자의 음성 데이터를 음소별로 정렬할 수 있다. 음향 모델 및 언어 모델의 제1 발음 평가 모델은 인식된 특정 음소에 대한 발음, 또는 특정 단에 대한 음소 단위의 발음을 인식하고 도출할 수 있고, 인식 결과는 발음 평가에 이용될 수 있다.
제2 발음 평가 모델은, 제1 발음 평가 모델에 의해 출력된 발성 구간에 해당하는 음성 데이터를 기반으로 발음 특성을 출력하도록 구성된 음향 모델로서, 발성 구간에 대한 음성 데이터를 입력으로 하여 발음 특성을 결정하고 출력하도록 구성될 수 있다. 예를 들어, 제2 발음 평가 모델은, 음소별로 정렬된 음성 데이터로부터 각 음소구간에 대한 발음 특성을 결정할 수 있다. 음향 모델의 제2 발음 평가 모델은, 특정 음소에 대한 발음, 또는 특정 단에 대한 음소 단위의 발음 각각에 대한 발음 특성을 추출할 수 있고, 발음 특성 또한 발음 평가에 이용될 수 있다.
본 발명의 특징에 따르면, 제2 발음 평가 모델은, 특정 단어 내의 특정 음소의 전 또는 후에 배치된 음소의 발음 특성을 추출하도록 구성될 수 있다. 즉, 제2 발음 평가 모델은, 음소의 각각의 발음 특성이 전후 관계에서 따라 갖는 일정한 규칙인 'context'를 고려한 학습 데이터로 훈련될 수 있어, 동일한 음소에 대하여 전 후에 배치된 음소에 따라 서로 상이한 발음 특성을 할 수 있다.
한편, 본원 명세서 내에 개시된 발음 평가 모델들은 딥러닝 알고리즘에 기초한 모델일 수 있다. 보다 구체적으로, 제1 발음 평가 모델 및/또는 제2 발음 평가 모델은 DNN (Deep Neural Network), DCNN (Deep Convolution Neural Network), RNN (Recurrent Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), SSD (Single Shot Detector), 및 SVM (Support Vector Machine) 중 적어도 하나의 알고리즘에 기초할 수 있다.
본원 명세서 내에서 이용되는 용어 “발음 특성”은, 언어가 갖는 발성학적 특성을 의미할 수 있다.
이때, 발음 특성은, 한 음성형식을 단지 그것만의 차이에 의하여 다른 음성형식과 구별시켜 주는 음성적 특성으로 정의되는 변별적 자질 (distinctive feature) 일 수 있다. 변별적 자질은, 분절음의 음성적 특징을 명확히 표현할 수 있고, 음소간의 상호관계를 명확하게 구분할 수 있고, 다양한 분절음을 구별할 수 있으며, 음운 규칙을 명시적으로 기술할 수 있다. 따라서, 발음 평가에 있어서 평가 요소로 고려될 수 있다.
한편, 변별적 자질은 높은 혀, 낮은 혀, 앞쪽 혀, 뒤쪽 혀, 둥근 입술, 유성음, 비음, 파열음, 마찰음, 순음(또는 순치음), 치간/치경음, 유음, 파찰음, R유음, Y반모음, W반모음, 닫힘이중, 열림이중, 중앙이중, 연구개음 등 중 적어도 하나일 수 있으나, 이에 제한되는 것은 아니다.
한편, 본 발명의 특징에 따르면, 제2 발음 평가 모델은, 발음 특성을 출력하는 아웃풋 노드 (OutputNode) 레이어를 포함할 수 있다. 이때, 아웃풋 노드는 언어 특성 및 훈련 데이터의 특성이 반영된 것으로, 음소 단위로 분할된 음성 데이터 각각에 해당하는 정답 발음, 및 분할된 음성 데이터들의 유사도에 따라 클러스터링 (clustering) 된 후 부여된 고유 인덱스 (Index) 를 포함할 수 있다. 이때, 발음 특성은, 음소 (또는, 인덱스) 에 대응하는 발음 특성 (예를 들어, 변별적 자질) 을 정리한 기준 발음 특성에 기초하여 결정될 수 있다.
본원 명세서 내에서 이용되는 용어 “발음 평가 점수”는 점수는, 사용자의 음성 데이터의 인식 결과인 발성 발음 및 이에 대한 변별적 자질을 평가한 점수를 의미할 수 있다.
보다 구체적으로, 발음 평가 점수는, 사용자에 의해 선택된 특정 음소 또는 특정 단어에 대한 음성학적 발성 특성과 제2 발음 평가 모델에 의해 결정된 발음 특성의 유사도에 기초하여 산출될 수 있다. 예를 들어, 발음 평가 점수는 특정 단어를 이루는 음소에 대한 변별적 자질, 및 제1 발음 평가 모델로부터 인식된 음소별 음성 데이터에 대하여 제2 발음 평가 모델에 의해 결정된 변별적 자질의 음소 단위의 유사도에 기초하여 산출될 수 있다. 즉, 음소 단위의 평가가 진행될 수 있다.
이하에서는, 도 1a 내지 도 1f를 참조하여, 본 발명의 다양한 실시예에 따른 발음 평가용 디바이스를 상세히 설명한다.
도 1a은 본 발명의 일 실시예에 따른 발음 평가 시스템을 설명하기 위한 개략도이다.
먼저, 도 1a을 참조하면, 발음 평가 시스템 (1000) 은, 사용자의 음성 데이터를 분석하여 사용자의 발음을 평가하고, 평가 결과에 기반하여 발음 평가를 결과를 제공하는 시스템으로서, 발음 평가를 위한 서비스를 제공하는 발음 평가용 디바이스 (100) 및 사용자의 발음 평가 및 교정을 요청하기 위해 사용자의 음성 데이터를 제공하는 사용자 디바이스 (200) 를 포함할 수 있다.
먼저, 발음 평가용 디바이스 (100) 는 사용자 디바이스 (200) 로부터 제공된 사용자의 음성 데이터를 분석하여 발음 평가를 위한 서비스를 제공하기 위해 다양한 연산을 수행하는 범용 컴퓨터, 랩탑, 및/또는 데이터 서버 등을 포함할 수 있다. 이때, 사용자 디바이스 (200) 는 클라이언트의 요청에 따라 발음 평가를 위한 서비스에 관한 웹 페이지를 제공하는 웹 서버(web server) 또는 모바일 웹 사이트를 제공하는 모바일 웹 서버(mobile web server)에 액세스하기 위한 디바이스일 수 있으나, 이에 한정되지 않는다.
구체적으로, 발음 평가용 디바이스 (100) 는 사용자 디바이스 (200) 로부터 음성 데이터를 수신하고, 수신된 음성 데이터를 분석하여 발음 특성 각각에 대해서 발음 평가를 수행할 수 있다. 예를 들어, 발음 평가용 디바이스 (100) 는 음성 데이터를 음소별로 정렬하고, 음소별로 적어도 하나의 발음 특성을 검출한 후 검출된 발음 특성을 점수화할 수 있다. 이때, 음소별로 검출된 적어도 하나의 발음 특성은 변별적 자질 (distinctive feature) 일 수 있으나, 이에 한정되지 않는다. 이러한 경우 적어도 하나의 발음 특성은 높은 혀, 낮은 혀, 앞쪽 혀, 뒤쪽 혀, 둥근 입술, 유성음, 비음, 파열음, 마찰음, 순음(또는 순치음), 치간/치경음, 유음, 파찰음, R유음, Y반모음, W반모음, 닫힘이중, 열림이중, 중앙이중, 연구개음 등 중 적어도 하나를 포함할 수 있다. 이와 같이 발음 특성으로 변별적 자질이 이용됨으로써, 분절음의 음성적 특징을 명확히 표현할 수 있고, 음소간의 상호관계를 명확하게 구분할 수 있으며, 많은 분절음을 구분 가능하며, 음운 규칙을 명시적으로 기술할 수 있다.
발음 평가용 디바이스 (100) 는 사용자의 발음에 대한 평가 결과를 나타내는 발음 평가 결과를 사용자 디바이스 (200) 로 제공할 수 있다.
이와 같이 발음 평가용 디바이스 (100) 로부터 제공되는 데이터는 사용자 디바이스 (200) 에 설치된 웹 브라우저를 통해 웹 페이지로 제공되거나, 어플리케이션, 또는 프로그램 형태로 제공될 수 있다. 다양한 실시예에서 이러한 데이터는 클라이언트-서버 환경에서 플랫폼에 포함되는 형태로 제공될 수 있다.
이를 통해 본 발명은 사용자가 스스로 학습이 가능하고, 사용자의 학습 만족도를 높일 수 있으며, 효율성이 향상된 발음 평가 및 교정을 위한 학습 서비스를 제공할 수 있다.
다음으로, 사용자 디바이스 (200) 는 사용자의 음성 데이터에 대한 발음 평가를 요청하고, 발음 평가에 대한 결과 데이터를 나타내기 위한 사용자 인터페이스를 제공하는 전자 장치로서, 스마트폰, 태블릿 PC (Personal Computer), 노트북 및/또는 PC 등 중 적어도 하나를 포함할 수 있다.
사용자 디바이스 (200) 는 사용자의 발음 평가 및 발음 교정을 위해 사용자의 음성 데이터를 획득하고, 획득된 음성 데이터를 발음 평가용 디바이스 (100) 로 전달할 수 있다. 예를 들어, 사용자 디바이스 (200) 는 사용자의 음성 데이터를 획득하기 위한 마이크와 같은 입력 장치를 구비하고, 마이크를 통해 음성 데이터를 획득하기 위한 사용자 인터페이스를 제공할 수 있다. 이러한 사용자 인터페이스는 특정 음소 또는 특정 발음에 대한 원어민 발음을 학습하기 위한 영상 데이터를 표시하는 영역을 포함할 수 있다.
사용자 인터페이스를 통해 음성 데이터가 획득되면 사용자 디바이스 (200) 는 획득된 음성 데이터를 발음 평가용 디바이스 (100) 로 전달할 수 있다.
사용자 디바이스 (200) 는 발음 평가용 디바이스 (100) 로부터 사용자의 발음에 대한 평가 결과를 나타내는 발음 평가 결과를 수신하고, 수신된 발음 평가 결과를 사용자 디바이스 (200) 의 표시부를 통해 표시할 수 있다. 여기서, 발음 평가 결과는 사용자의 발음에 대한 평가 점수, 사용자의 음성 데이터로부터 추출된 음소별 발음 특성 및 피드백 데이터 중 적어도 하나를 포함할 수 있다. 예를 들어, 피드백 데이터는 사용자의 발음에서 취약 부분을 설명하기 위한 데이터일 수 있다.
다음으로, 도 1b를 참조하여, 본 발명의 발음 평가용 디바이스 (100) 의 구성 요소에 대하여 구체적으로 설명한다.
도 1b는 본 발명의 일 실시예에 따른 발음 평가용 디바이스를 설명하기 위한 개략도이다.
도 1b를 참조하면, 발음 평가용 디바이스 (100) 는 저장부 (110), 통신부 및 프로세서 (130) 를 포함한다.
먼저, 저장부 (110) 는 사용자의 음성 데이터를 분석하여 발음 평가를 위한 서비스를 제공하기 위한 다양한 데이터를 저장할 수 있다. 다양한 실시예에서 저장부 (110) 는 플래시 메모리 타입, 하드디스크 타입, 멀티미디어 카드 마이크로 타입, 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램, SRAM, 롬, EEPROM, PROM, 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.
통신부 (120) 는 발음 평가용 디바이스 (100) 가 외부 장치와 통신이 가능하도록 연결한다. 통신부 (120) 는 유/무선 통신을 이용하여 사용자 디바이스 (200) 와 연결되어 다양한 데이터를 송수신할 수 있다. 구체적으로, 통신부 (120) 는 사용자 디바이스 (200) 로부터 사용자의 음성 데이터를 수신하고, 사용자 디바이스 (200) 로 발음 평가 결과 데이터를 전달할 수 있다.
프로세서 (220) 는 저장부 (110) 및 통신부와 동작 가능하게 연결되며, 사용자의 음성 데이터를 분석하여 발음 평가를 위한 서비스를 제공하기 위한 다양한 명령들을 수행할 수 있다.
구체적으로, 프로세서 (130) 는 통신부 (120) 를 통해 사용자 디바이스 (200) 로부터 사용자의 음성 데이터를 수신하고, 수신된 음성 데이터에 기반하여 사용자의 발음을 평가할 수 있다.
이를 위해 프로세서 (130) 는 수신된 사용자의 음성 데이터를 분석하여 발성 구간 및 발성 발음을 결정하여 음성 데이터를 정렬하도록 구성된 제1 발음 평가 모델 및, 발음 특성을 추출하도록 구성된 제2 발음 평가 모델을 이용할 수 있다. 이때, 발음 평가 모델들은 원어민 발음을 정답으로 사전 학습된 모델로서, 원어민 발음과의 유사도를 수치화한 평가 점수를 생성하거나, 원어민 발음과의 유사도가 높거나, 낮은지를 결정하기 위해 이용될 수 있다.
프로세서 (130) 는 이러한 발음 평가 모델들을 이용하여 음성 데이터로부터 발성 발음 및 발음 특성을 각각 추출하고, 이를 기초로 사용자의 발음에 대한 평가 점수를 결정할 수 있다. 이때, 평가 점수는 사용자의 발음 특성과 원어민 발음 특성 사이의 유사도를 수치화한 데이터일 수 있다.
예를 들어, “BOY”라는 단어에 대하여 원어민의 음소별 변별적 자질이 “B: 유성음, 순(치)음, 파열음”, “OY: 닫힘이중(모음)”이라고 가정한다. 프로세서 (130) 는 제1 발음 평가 모델을 이용하여 사용자의 음성 데이터를 음소별로 정렬하고, 제2 발음 평가 모델을 이용하여 음소별로 정렬된 음성 데이터로부터 적어도 하나의 변별적 자질을 추출할 수 있다. 즉, 프로세서 (130) 는 “B”“OY”각각으로 정렬된 음성 데이터로부터 적어도 하나씩의 변별적 자질을 추출할 수 있다.
이때, 프로세서 (130) 는 사용자의 음성 데이터로부터 추출된 변별적 자질이 “유성음”, “순(치)음”, "파열음" 및 “닫힘이중(모음)”과 일치하면 사용자의 발음 특성과 원어민 발음 특성 사이의 유사도가 높다고 결정할 수 있다. 다양한 실시예에서 프로세서 (130) 는 사용자의 음성 데이터로부터 추출된 변별적 자질이“유성음”, “순(치)음”, "파열음" 및 “닫힘이중(모음)”이외에 다른 변별적 자질을 포함하거나, “유성음”, “순(치)음”, "파열음" 및 “닫힘이중(모음)”중 어느 하나만 추출되면 사용자의 발음 특성과 원어민 발음 특성 사이의 유사도가 높지 않거나, 낮다고 결정할 수 있다.
이와 같이 유사도가 결정되면 프로세서 (130) 는 결정된 유사도에 기반하여 사용자의 발음에 대한 평가 점수를 결정할 수 있다. 이와 같이 결정된 평가 점수는 사용자의 음소별 발음 정확도에 대한 분석 결과로서 제공될 수 있다.
다양한 실시예에서 프로세서 (130) 는 사용자의 음성 데이터로부터 음소별로 추출된 발음 특성과 원어민에 대한 음소별 발음 특성을 비교한 비교 데이터를 제공할 수 있다. 예를 들어, “B”“OY” 각각으로부터 추출되는 원어민 음성의 음소별 변별적 자질이, “유성음”, “순(치)음”, "파열음" 및 “닫힘이중(모음)” 인 경우 프로세서 (130) 는 사용자의 음성 데이터로부터 추출된 음소별 변별적 자질이 , “유성음”, “순(치)음”, "파열음" 및 “닫힘이중(모음)” 각각에 해당하는지를 나타내는 데이터를 제공하거나, 상기 변별적 자질 이외에 추출된 변별적 자질이 있다면 해당 변별적 자질을 나타내는 데이터를 제공할 수 있으나, 이에 한정되지 않는다.
다양한 실시예에서 프로세서 (130) 는 결정된 평가 점수 및 음소별 발음 특성에 따라 미리 결정된 피드백 데이터를 사용자 디바이스 (200) 에 제공할 수 있다. 여기서, 피드백 데이터는 사용자의 발음에 대해서 원어민의 발음으로 가이드 하기 위한 데이터일 수 있다. 구체적으로, 피드백 데이터는 특정 음소 또는 특정 단어에 대해서 사용자의 음성 데이터로부터, 원어민 음성으로부터 추출된 적어도 하나의 발음 특성과 일치되는 발음 특성이 추출되도록 가이드 하기 위한 데이터일 수 있다. 예를 들어, 피드백 데이터는 “소리를 길게 내지 않아야 합니다. 입을 크게 벌려 소리를 냅니다. 혀 끝을 입천장에 대지 않도록 합니다”와 같은 텍스트일 수 있으나, 이에 한정되지 않는다.
이와 같이 본 발명은 사용자의 외국어 발음에 대하여 음소별로 발음 정확도를 분석한 결과를 제공함으로써, 사용자가 외국어 발음에 대하여 보다 강도 높은 발음 훈련을 수행할 수 있다.
한편, 도 1c를 함께 참조하면, 사용자 디바이스 (200) 는 통신부 (210), 표시부 (220), 저장부 (230) 및 프로세서 (240) 를 포함한다.
통신부 (210) 는 사용자 디바이스 (200) 가 외부 장치와 통신이 가능하도록 연결한다. 통신부 (210) 는 유/무선 통신을 이용하여 발음 평가용 디바이스 (100) 와 연결되어 다양한 데이터를 송수신할 수 있다. 구체적으로, 통신부 (210) 는 발음 평가용 디바이스 (100) 로 사용자의 음성 데이터를 전달하고, 발음 평가용 디바이스 (100) 로부터 발음 평가 결과 데이터를 수신할 수 있다.
표시부 (220) 는 사용자에게 각종 콘텐츠 (예: 텍스트, 이미지, 비디오, 아이콘, 배너 또는 심볼 등)를 표시할 수 있다. 구체적으로, 표시부 (220) 는 사용자의 음성 데이터에 대한 발음 평가를 요청하고, 발음 평가에 대한 결과 데이터를 나타내기 위한 다양한 인터페이스 화면을 표시할 수 있다.
다양한 실시예에서 표시부 (220) 는 터치스크린을 포함할 수 있으며, 예를 들면, 전자 펜 또는 사용자의 신체의 일부를 이용한 터치 (touch), 제스처 (gesture), 근접, 드래그 (drag), 스와이프 (swipe) 또는 호버링 (hovering) 입력 등을 수신할 수 있다.
저장부 (230) 는 사용자의 음성 데이터에 대한 발음 평가를 요청하고, 발음 평가에 대한 결과 데이터를 나타내기 위한 사용자 인터페이스를 제공하기 위해 사용되는 다양한 데이터를 저장할 수 있다. 다양한 실시예에서 저장부 (230) 는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(Random Access Memory, RAM), SRAM(Static Random Access Memory), 롬(Read-Only Memory, ROM), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.
프로세서 (240) 는 통신부 (210), 표시부 (220) 및 저장부 (230) 와 동작 가능하게 연결되며, 사용자의 음성 데이터에 대한 발음 평가를 요청하고, 발음 특성 각각에 대한 발음 평가에 대한 결과 데이터를 나타내기 위한 사용자 인터페이스를 제공하기 위한 다양한 명령들을 수행할 수 있다.
구체적으로, 프로세서 (240) 는 특정 음소 또는 특정 단어에 대하여 사용자의 음성 데이터를 획득하고, 획득된 음성 데이터에 대한 발음 평가를 발음 평가용 디바이스 (100) 로 요청할 수 있다. 여기서, 특정 단어는 특정 음소의 발음이 포함된 단어일 수 있으나, 이에 한정되지 않는다. 예를 들어, 프로세서 (240) 는 마이크와 같은 입력부를 더 구비하고, 입력부를 통해서 사용자의 음성 데이터를 획득할 수 있으나, 이에 한정되지 않는다. 다양한 실시예에서 사용자 디바이스 (200) 가 마이크를 구비하지 않은 경우 마이크와 같은 외부 장치와 연결되고, 이를 통해 음성 데이터를 획득할 수도 있다.
특정 음소 또는 특정 단어에 대하여 사용자의 음성 데이터를 획득하기 위해 프로세서 (240) 는 특정 음소 또는 특정 단어에 대한 원어민 발음을 학습하기 위한 영상 데이터를 제공할 수 있다. 예를 들어, 영상 데이터는 특정 음소 또는 특정 단어에 대한 원어민의 발음 및 원어민의 입모양 등을 영상화한 데이터일 수 있다. 이를 통해 사용자는 특정 음소 또는 특정 단어에 대한 발음 학습을 수행할 수 있다.
이어서, 프로세서 (240) 는 획득된 음성 데이터에 대한 발음 평가를 요청하기 위한 인터페이스 화면을 표시부 (220) 를 통해 표시할 수 있다.
프로세서 (240) 는 발음 평가용 디바이스 (100) 로부터 발음 평가 결과 데이터를 수신하고, 수신된 발음 평가 결과 데이터를 나타내는 인터페이스 화면을 표시할 수 있다. 이러한 인터페이스 화면은 결정된 평가 점수, 음성 데이터로부터 추출된 음소별 발음 특성 및 피드백 데이터 중 적어도 하나를 나타내기 위한 그래픽 객체 또는 표시 영역을 포함할 수 있다. 다양한 실시예에서 인터페이스 화면은 특정 음소 또는 특정 단어에 대한 원어민의 발음을 학습하기 위한 영상 데이터를 나타내는 표시 영역을 더 포함할 수 있다.
이를 통해 본 발명은 사용자의 발음을 원어민 발음으로 교정하기 위한 사용자 스스로의 학습이 가능하다.
이하에서는, 도 1d 내지 도 1f를 참조하여, 본 발명의 일 실시예에 따른 사용자 디바이스의 표시부에 대하여 구체적으로 설명한다.
도 1d 내지 1f는 본 발명의 일 실시예에 따른 사용자 디바이스의 표시부를 예시적으로 도시한 것이다.
먼저 도 1d를 참조하면, 사용자 디바이스 (200) 의 표시부 (220) 는 특정 음소 또는 특정 단어에 대한 사용자의 발음을 평가하기 위한 인터페이스 화면을 표시할 수 있다. 표시부 (220) 는 발음 평가를 위해 사용자로부터 획득하고자 하는 음소 또는 단어 중 어느 하나를 선택하기 위한 제1 영역 (221), 선택된 음소 또는 단어의 종류를 나타내는 제2 영역 (222) 및 선택된 음소 또는 단어에 관련된 다양한 데이터를 나타내는 제3 영역 (223) 을 표시할 수 있다.
보다 구체적으로, 제1 영역 (221) 을 통해 특정 단어에 대한 발음 평가를 위한 “음소” 아이콘 (221a) 및 “단어” 아이콘 (221b) 중 단어” 아이콘 (221b) 이 선택되면 표시부 (220) 는 “/a/”발음에 관련하여 평가 가능한 단어의 종류를 나타내는 적어도 하나의 그래픽 객체 (224) 를 제3 영역 (223) 에 표시할 수 있다.
예를 들어, 적어도 하나의 그래픽 객체 (224) 중 “fox”단어에 대한 발음 평가를 위한 그래픽 객체 (224a) 가 선택되면 사용자 디바이스 (200) 는 “fox”단어에 대한 원어민 발음을 학습하기 위한 영상을 표시하는 제4 영역 (225) 및 “fox”단어에 관련된 사용자의 음성 데이터를 획득하기 위한 제5 영역 (226) 을 제3 영역 (223) 에 표시할 수 있다. 여기서, 제5 영역 (226) 은 사용자의 음성 데이터를 녹음하기 위한 녹음 아이콘 (226a) 을 포함할 수 있다.
녹음 아이콘 (226a) 이 선택되고, 마이크를 통해 사용자의 음성 데이터가 입력되면 사용자 디바이스 (200) 는 도 1e와 같이 마이크를 통해 입력되고 있는 음성 데이터를 나타내는 그래픽 객체 (226b) 를 제5 영역 (226) 에 표시할 수 있다.
음성 입력이 완료되면 사용자 디바이스 (200) 는 음성 데이터를 프로세서 (240) 로 전달하여 “fox”단어에 대한 사용자의 발음 평가를 요청할 수 있다.
발음 평가용 디바이스 (100) 로부터 발음 평가 결과 데이터가 수신되면 사용자 디바이스 (200) 는 도 1f와 같이 발음 평가 결과 데이터를 나타내는 그래픽 객체들 (227, 228, 229a, 229b, 229c) 을 제3 영역 (223) 에 표시할 수 있다.
도 1f를 참조하면, 발음 평가 결과 데이터를 나타내는 그래픽 객체들 (227, 228, 229a, 229b, 229c) 은 “fox”단어의 음소별 발음에 해당하는 “f, a, k, s”각각에 대한 평가 점수를 나타내는 제1 그래픽 객체 (227), “fox”단어에 대한 사용자의 전반적인 발음 평가 결과를 나타내는 제2 그래픽 객체 (228), “fox”단어에 대하여 원어민 음성으로부터 추출되는 원어민 음소별 발음 특성 그래픽 객체 (229a), 사용자 음성으로부터 추출된 사용자 음소별 발음 특성 그래픽 객체 (229b), 및 원어민 음성에서 추출된 음소별 발음 특성과 사용자 음성에서 추출된 음소별 발음 특성 간의 유사도 그래픽 객체 (229c) 로 이루어진 제3 그래픽 객체 (229) 를 포함할 수 있다.
다양한 실시예에서 이러한 발음 평가 결과 데이터를 나타내는 그래픽 객체들은 사용자의 발음을 원어민 발음으로 교정하도록 가이드 하기 위한 그래픽 객체를 더 포함할 수 있다.
여기서, 제1 그래픽 객체 (227) 는 “fox”단어의 발음에 해당하는 “/faks/”의 음소별 발음인 “f”,“a”,“k”,“s”각각에 대하여 발음 평가용 디바이스 (100) 에서 제1 발음 평가 모델 및 제2 발음 평가 모델에 의해 결정된 발음 평가 점수를 나타내는 텍스트일 수 있다. 예를 들어, “f”에 대하여 80점, “a”에 대하여 77점, “k”에 대하여 44점, “s”에 대하여 96점으로 결정된 음소별 평가 점수를 나타내는 텍스트일 수 있다. 이때, “fox”단어에 대한 사용자의 발음 점수는, 음소별 평가 점수의 평균 점수인 74.25점에 대응할 수 있다.
제2 그래픽 객체 (228) 는 발음 평가 모델들에 의해 결정된 사용자의 발음 평가 점수를 5개의 별 중 적어도 일부로서 표현한 이미지, 및 발음 평가 점수를 “bad, good, excellent”등의 단어로 표현한 텍스트를 포함할 수 있다.
음소별 발음 특성 그래픽 객체 (229a) 는 “fox”단어에 대해서 원어민 음성 데이터로부터 추출된 음소별 발음 특성을 나타내는 아이콘 또는 이미지일 수 있다.
사용자 음소별 발음 특성 그래픽 객체 (229b) 는 “fox”단어에 대해서 사용자 음성 데이터로부터 추출된 음소별 발음 특성을 나타내는 아이콘 또는 이미지일 수 있다.
음소별 발음 특성 간의 유사도 그래픽 객체 (229c) 는 원어민 음성 데이터로부터 추출된 적어도 하나의 발음 특성과 사용자 음성 데이터로부터 추출된 적어도 하나의 발음 특성 간의 일치 여부를 O, X 로서 나타낸 아이콘 또는 이미지일 수 있다
즉, 표시부 (220) 는, 통신부 (210) 를 통해 수신된 음성 데이터를 입력으로 하여 발음 구간 및 발성 발음을 추출하고 발음 특성을 추출하도록 각각 구성된 발음 평가 모델에 의한 사용자의 발음에 대한 진단 결과를 출력할 수 있다.
이에, 사용자는, 외국어 발음의 발음 특성 각각의 취약 부분에 대한 피드백을 제공받을 수 있어, 취약 발음에 대한 훈련을 용이하게 수행할 수 있다.
이하에서는 도 2, 도 3a 및 3b를 참조하여 본 발명의 다양한 실시예에 따른 발음 평가 방법을 설명한다.
도 2는 본 발명의 일 실시예에 따른 발음 평가 방법을 설명하기 위한 개략적인 순서도이다. 도 3a 및 3b는 본 발명의 일 실시예에 따른 발음 평가 방법의 절차를 예시적으로 도시한 것이다.
도 2를 참조하면, 먼저 본 발명의 일 실시예에 따른 발음 평가 방법에 따라, 특정 음소 또는 특정 단어에 대한 사용자의 음성 데이터가 수신된다 (S210). 그 다음, 제1 발음 평가 모델에 의해 음성 데이터로부터 발성 구간 및 발성 발음이 결정되고 (S220), 제2 발음 평가 모델에 의해 음성 데이터로부터 발음 특성이 결정된다 (S230). 그 다음, 기준 발음 특성과 사용자의 발음 특성의 유사도에 기초하여 사용자의 발음이 평가되고 (S240), 최종 결과가 제공된다 (S250).
보다 구체적으로, 음성 데이터가 수신되는 단계 (S210) 에서 사용자 디바이스로부터 특정 음소 또는 특정 단어에 대한 사용자의 음성 데이터가 수신되거나, 입력부를 통해 직접 특정 음소 또는 특정 단어에 대한 사용자의 음성 데이터를 입력 받을 수 있다.
본 발명의 특징에 따르면, 음성 데이터가 수신되는 단계 (S210) 가 수행되기 이전에, 복수개의 특정 단어 중 적어도 하나 또는 복수개의 특정 음소 중 적어도 하나에 대한 선택이 입력되는 단계가 더 수행될 수 있다.
따라서, 음성 데이터가 수신되는 단계 (S210) 에서 사용자로부터 선택된 특정 음소 또는 특정 단어에 대한 음성 데이터가 수신될 수 있다.
예를 들어, 도 3a를 참조하면, 음성 데이터가 수신되는 단계 (S210) 에서 사용자가 선택한 “BOY”라는 단어에 대한 사용자의 음성 데이터 (312) 가 수신될 수 있다.
본 발명의 다른 특징에 따르면, 특정 음소 또는 특정 단어에 대한 기준 발음 특성이 결정되는 단계가 더욱 수행될 수 있다.
예를 들어, 도 3a를 참조하면, 특정 음소 또는 특정 단어에 대한 기준 발음 특성이 결정되는 단계에서, 미리 결정된 음성학적 발음 특성 테이블 (316) 에 기초하여, 사용자가 선택한 “BOY”라는 단어에 대한 “B”“OY”의 음소 각각의 변별적 자질인 기준 변별적 자질 (318) 이 결정될 수 있다. 보다 구체적으로, 특정 음소 또는 특정 단어에 대한 기준 발음 특성이 결정되는 단계에서, “B”에 대한 원어민의 변별적 자질인 “유성음”, “순(치)음” 및 “파열음”이, “OY”에 대한 변별적 자질인 “닫힘이중(모음)”이 각각 결정될 수 있다.
그 다음, 다시 도 2를 참조하면, 발성 구간 및 발성 발음이 결정되는 단계 (S220) 에서, 음성 데이터를 입력으로 하여 발성 구간 및 발성 발음을 출력하도록 구성된 제1 발음 평가 모델에 의해 음성 데이터로부터 발성 구간 및 발성 발음이 결정될 수 있다.
본 발명의 특징에 따르면, 구간 및 발성 발음이 결정되는 단계 (S220) 이 전에 특정 단어에 대한 음성 데이터가 복수의 구간으로 분할되는 단계가 더욱 수행될 수 있다.
이때, 발성 구간은 음소 단위로 출력될 수 있고, 발성 발음은 복수의 음소 각각에 대한 발성 발음을 포함할 수 있다.
예를 들어, 도 3a를 함께 참조하면, 사용자의 음성 데이터 (312) 가 미리 결정된 시간 단위인 10 ms 단위로 분할될 수 있다. 그 다음, 구간 및 발성 발음이 결정되는 단계 (S220) 에 따라, 제1 발음 평가 모델 (320) 에 분할된 음성 데이터 (314) 가 입력되고, “BOY”에 대한 사용자의 발성 구간이 음소 단위로 출력되고, 음소별 발성 발음인 “T”, “OY”가 출력된다. 또한, 각 음소 단위에 대한 타임스탬프 또는 몇 개의 분할된 시간 단위로 이루어지는지도 출력된다.
그 다음, 다시 도 2를 참조하면, 음성 데이터로부터 발음 특성이 결정되는 단계 (S230) 에서, 제1 발음 평가 모델에 의해 출력된 발성 구간, 즉 출력된 복수의 분할된 시간 구간에 대한 음성 데이터를 기초로 발음 특성을 출력하도록 구성된 제2 발음 평가 모델에 의해 음성 데이터로부터 발음 특성이 결정될 수 있다.
예를 들어, 다시 도 3a를 참조하면, 음성 데이터로부터 발음 특성이 결정되는 단계 (S230) 에서, 제2 발음 평가 모델 (330) 에, 제1 발음 평가 모델 (320) 에 의해 결정된 발성 구간에 해당하는 음성 데이터 (322a 및 322b) 가 입력된다. 그 다음, 사용자의 발음에 대한 음소별 발음 특성인 변별적 자질 (332) 이 출력될 수 있다.
그 다음, 다시 도 2를 참조하면, 사용자의 발음이 평가되는 단계 (S240) 에서, 추출된 사용자의 발음 특성 및 기준 발음 특성 사이의 유사도에 기초하여 발음 평가 점수가 산출될 수 있다.
본 발명의 특징에 따르면, 사용자의 발음이 평가되는 단계 (S240) 에서, 음소 단위 각각에 대하여 사용자의 발음 특성 및 기준 발음 특성이 비교되고, 음소 단위 각각에 대한 유사도 점수가 산출되고, 음소 단위 각각에 대한 유사도 점수의 평균 점수가 산출될 수 있다.
예를 들어, 도 3a를 참조하면, 사용자의 발음이 평가되는 단계 (S240) 에서, 미리 결정된 “BOY”에 대한 기준 변별적 자질 (318) 및 사용자의 발음에 대한 변별적 자질 (332) 이 음소별로 매칭된다. 그 다음, 음소 단위 각각에 대한 유사도 점수가 산출된다. 이때, 사용자의 발음에 대한 변별적 자질 (332) 이 기준 변별적 자질 (318) 인, “B”의 “유성음”, “순치음” 및 “파열음”, “OY”의 “닫힘이중모음”과 유사할 경우, 평가 점수가 높게 산출될 수 있다. 한편, 사용자는 “BOY”를 “TOY”로 발음 했음에 따라, 사용자의 발음에 대한 변별적 자질 (332) 의 첫 번 째 음소에서 “T”에 대한 변별적 자질인 “마찰음”이 검출될 수 있다. 즉 기준 변별적 자질 (318) 과의 매칭 결과에 따르면, “B”에 대한 발음 특성의 유사도가 20 %, “OY”에 대한 발음 특성의 유사도가 100일 수 있다. 따라서, 평가 결과 (342) 에서, 음소 각각에 대한 유사도 점수, 즉 발음 평가 점수는 20 점 및 100 점일 수 있고, “BOY”에 대한 발음 평가 점수는 음소 별 발음 평가 점수의 평균인 60점으로 결정될 수 있다.
마지막으로, 최종 결과가 제공되는 단계 (S250) 에서, 제2 발음 평가 모델의 출력 결과 및/또는 발음에 대한 평가 점수가 제공될 수 있다.
본 발명의 특징에 따르면, 최종 결과가 제공되는 단계 (S250) 에서, 기준 발음 특성이 제공될 수 있다.
예를 들어, 도 3a를 참조하면, 최종 결과가 제공되는 단계 (S250) 에서, “BOY”에 대한 사용자의 발음에 대한 평가 결과 (342), “BOY”에 대한 원어민 발음에 기초하여 미리 결정된 기준 변별적 자질 (318) 이 제공될 수 있다.
본 발명의 다른 특징에 따르면, 최종 결과가 제공되는 단계 (S250) 이후에, 사용자의 발음 특성과 원어민의 발음 특성이 서로 일치하지 않으면 사용자의 음성 데이터로부터, 원어민의 발음 특성과 일치하는 발음 특성이 추출되도록 가이드 하기 위한 피드백 데이터가 더욱 제공될 수 있다.
이때, 추출된 발음 특성과 기준 발음 특성과의 비교 결과, 추출된 발음 특성 내에 기준 발음 특성과 상이한 발음 특징이 포함될 경우, 상이한 발음 특성에 대한 발성을 하지 않도록 가이드 하기 위한 피드백 데이터가 결정될 수 있다. 또한, 추출된 발음 특성과 기준 발음 특성과의 비교 결과, 추출된 발음 특성 내에 기준 발음 특성 중 특정 발음 특성이 포함되지 않을 경우, 특정 발음 특징에 대하여 발성하도록 가이드 하기 위한 피드백 데이터가 결정될 수 있다.
즉, 피드백 데이터는, 제2 발음 평가 모델에 의해 출력된 사용자의 발음에 대한 발음 특징에 기초하여 결정될 수 있다.
예를 들어, 도 3b를 참조하면, 원어민 발음에 대한 사용자 발음의 음소별 변별적 분석 결과에서, 추출된 변별적 자질 내에 원어민의 발음에 대한 변별적 자질, 즉 기준 변별적 자질과 상이한 자질이 포함되거나, 검출되어야 할 자질이 검출되지 않을 경우, 이들 조합에 따라 미리 결정된 가이드라인이 피드백 데이터 (352) 로 결정될 수 있다.
한편, 본 발명의 다른 특징에 따르면, 최종 결과가 제공되는 단계 (S250) 이후에, 사용자로부터 특정 음소 또는 상기 특정 단어에 대한 음성 데이터를 재수신하고, 제1 발음 평가 모델 및 제2 발음 평가 모델을 이용하여, 재수신된 음성 데이터를 재평가하는 단계가 더 수행될 수 있다.
사용자는 스스로의 외국어 발음에 대한 발음 특성 각각의 취약 부분에 대한 피드백을 제공받을 수 있어, 취약 발음에 대한 훈련을 효과적으로 진행할 수 있다.
이하에서는, 도 4, 도 5a 및 5b를 참조하여, 본 발명의 다양한 실시예에 적용되는 발음 평가 모델 중 제2 발음 평가 모델의 훈련 방법에 대하여 구체적으로 설명한다.
도 4는 본 발명의 다양한 실시예에 적용되는 발음 평가 모델의 아웃노드 레이어 생성을 설명하기 위한 개략적인 순서도이다. 도 5a는 본 발명의 다양한 실시예에 적용되는 발음 평가 모델의 아웃노드 레이어를 예시적으로 도시한 것이다. 도 5b는 본 발명의 다양한 실시예에 적용되는 발음 평가 모델의 학습에 이용되는 기준 발음 특성을 예시적으로 도시한 것이다.
먼저, 음성 데이터를 기초로 발음 특성을 결정하도록 구성된 제2 발음 평가 모델은, 입력 레이어, 특징 추출 레이어 및 출력 레이어에 대응하는 아웃노드 레이어로 이루어질 수 있다.
보다 구체적으로, 입력 레이어는, 발성 구간에 대응하는 음성 데이터, 즉 음소 단위의 음성 데이터를 입력 받도록 구성될 수 있다. 특징 추출 레어이는, 음소 단위의 음성 데이터로부터 특징을 추출하도록 구성되고, 아웃노드 레이어는 발음에 대응하는 음소에 대한 변별적 자질과 같은 발음 특성을 결정하도록 구성될 수 있다.
한편, 제2 발음 특성 모델의 훈련은, 발음 특성을 출력하는 아웃풋 노드 를 생성하는 단계, 음소 각각에 대하여 매칭되는 변별적 자질에 대응하는 기준 발음 특성을 생성하는 단계, 훈련용 음성 데이터를 음소별로 정렬하는 단계, 및 변별적 자질을 예측하는 단계를 통해 학습될 수 있다.
이때, 도 4를 참조하면, 아웃노드 레이어는, 미리 결정된 음소 또는 단어에 대한 학습용 음성 데이터를 수신하는 단계 (S410), 학습용 음성 데이터를 복수의 시간 단위로 분할하는 단계 (S420), 단위 학습용 음성 데이터 각각에 대하여 특징을 추출하는 단계 (S430), 특징으로부터 발성 발음을 결정하는 단계 (S440), 발음 클러스터를 형성하도록, 유사도에 기초하여 발성 발음을 클러스터링하는 단계 (S450), 및 발음 클러스터에 기초하여 복수의 아웃노드 레이어를 생성하는 단계 (S460) 를 통해 생성될 수 있다.
보다 구체적으로, 도 5a를 함께 참조하면, 학습용 음성 데이터를 수신하는 단계 (S410) 에서 학습용 음성 데이터는, 음소의 각각의 발음 특성이 전후 관계에서 따라 갖는 일정한 규칙인 'context'를 고려한 학습용 음성 데이터가 수신될 수 있다. 다음으로, 복수의 시간 단위로 분할하는 단계 (S420) 에서, 학습용 음성 데이터는 미리 결정된 시간 단위인 10 ms 단위로 분할될 수 있다. 이때, 10 ms 단위의 음성 데이터는 음소 단위의 음성 데이터에 대응할 수 있다. 다음으로, 단위 학습용 음성 데이터 각각에 대하여 특징을 추출하는 단계 (S430) 에소 분할된 학습용 음성 데이터 각각이 입력되고, 이들에 대한 특징이 각각 추출된다. 그 다음, 발성 발음을 결정하는 단계 (S440) 에서, 음소 단위의 음성 데이터에 대응하는 각각의 세그멘테이션 (segmentation) 에 대한 발성 발음이 결정된다. 그 다음, 발음을 클러스터링하는 단계 (S450) 에서, 추출된 특징값의 유사도에 따라 아웃 노드들의 클러스터링되고, Index 1 (ID1), Index 2 (ID2) 등의 발음 클러스터가 형성된다. 즉, 발성이 유사한 발음들끼리 같은 인덱스가 부여될 수 있다. 이상의 절차에 따라, 세그멘테이션의 정답과 발음 클러스터에 대응하는 인덱스 값을 포함하는 아웃노드 레이어가 생성될 수 있다.
한편, 음소 각각에 대하여 매칭되는 변별적 자질에 대응하는 기준 발음 특성은, 도 5b와 같이 아웃 노드는 발음 클러스터 각각에 대응하는 변별적 자질 (distinctive feature, DF) 이 매칭되어 나열된 발음 특성 테이블로서 존재할 수 있다. 즉, 제2 발음 평가 모델은, 발음 특성 테이블의 기준 발음 특성에 기초하여, 출력 결과 (예를 들어, ID 1, ID 2 등) 에 대응하는 변별적 자질을 검출하도록 훈련될 수 있다.
본 발명의 다른 특징에 따르면, 제2 발음 평가 모델의 아웃노드 레이어의 구성 시, 음소의 각각의 발음 특성이 전후 관계에서 따라 갖는 일정한 규칙인 'context'를 고려하도록 구성될 수 있다. 예를 들어, 동일한 음소에 대하여 앞뒤 전후에 배치된 음소의 종류에 따라 서로 상이한 변별적 자질을 가질 수 있고, 아웃노드 레이어는 학습 시 이상의 특징을 고려하여 학습될 수 있다.
이상의 다양한 실시예와 같이, 본 발명은, 제2 발음 평가 모델을 이용함에 따라, 사용자의 음성 데이터에 기초하여 음소 단위의 평가를 진행하여, 사용자의 외국어 발음에 대한 섬세한 평가를 진행할 수 있고, 사용자의 발음에 대한 정확도 높은 진단이 가능할 수 있다.
이에, 본 발명은 사용자의 외국어 발음을 원어민 발음으로 교정하도록 가이드함으로써, 사용자의 외국어 발음을 원어민 수준으로 향상시킬 수 있다.
또한 본 발명은 음소별로 발음 정확도 분석 결과를 제공함으로써, 사용자는 외국어 발음에 대하여 강도 높은 학습을 수행할 수 있다.
이상 첨부된 도면을 참조하여 본 발명의 일 실시예들을 더욱 상세하게 설명하였으나, 본 발명은 반드시 이러한 실시예로 국한되는 것은 아니고, 본 발명의 기술사상을 벗어나지 않는 범위 내에서 다양하게 변형 실시될 수 있다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
100: 발음 평가용 디바이스
110, 230: 저장부
120, 210: 통신부
130, 240: 프로세서
200: 사용자 디바이스
220: 표시부
221: 제1 영역
221a: “음소” 아이콘
222: 제2 영역
223: 제3 영역
224: 평가 가능한 단어의 종류를 나타내는 적어도 하나의 그래픽 객체
224a: “fox”단어에 대한 발음 평가를 위한 그래픽 객체
225: 제4 영역
226: 제5 영역
226a: 녹음 아이콘
227: 제1 그래픽 객체
228: 제2 그래픽 객체
229: 제3 그래픽 객체
229a: 원어민 음소별 발음 특성 그래픽 객체
229b: 사용자 음소별 발음 특성 그래픽 객체
229c: 음소별 발음 특성 간의 유사도 그래픽 객체
312: 음성 데이터
314: 분할된 음성 데이터
316: 발음 특성 테이블
318: 기준 변별적 자질
320: 제1 발음 평가 모델
322a, 322b: 발성 구간에 해당하는 음성 데이터
330: 제2 발음 평가 모델
332: 사용자의 발음에 대한 변별적 자질
342: 평가 결과
352: 피드백 데이터
1000: 발음 평가 시스템

Claims (18)

  1. 특정 음소 또는 특정 단어에 대한 사용자의 음성 데이터를 수신하는 단계;
    음성 데이터를 입력으로 하여 발성 구간 및 발성 발음을 출력하도록 구성된 제1 발음 평가 모델을 이용하여, 상기 음성 데이터로부터 발성 구간 및 발성 발음을 결정하는 단계;
    상기 제1 발음 평가 모델에 의해 출력된 상기 발성 구간에 해당하는 음성 데이터를 기초로 발음 특성을 출력하도록 구성된 제2 발음 평가 모델을 이용하여, 상기 음성 데이터로부터 발음 특성을 결정하는 단계;
    미리 결정된 음성학적 발음 특성을 기초로, 상기 특정 음소 또는 상기 특정 단어에 대한 기준 발음 특성을 결정하는 단계;
    상기 기준 발음 특성과 상기 사용자의 발음 특성의 유사도를 기초로 발음 평가 점수를 산출하는 단계, 및
    상기 발음 평가 점수를 제공하는 단계를 포함하는, 발음 평가 방법.
  2. 삭제
  3. 제1항에 있어서,
    상기 음성 데이터는, 복수의 음소로 구성된 특정 단어에 대한 음성 데이터이고,
    상기 발성 구간 및 발성 발음을 결정하는 단계 이전에,
    상기 특정 단어에 대한 음성 데이터를 복수의 구간으로 분할하는 단계를 더 포함하고,
    상기 발성 구간은,
    음소 단위로 출력된 발성 구간이고,
    상기 발성 발음은,
    복수의 음소 각각에 대한 발성 발음이고,
    상기 발음 평가 점수는,
    상기 특정 단어에 대한 음소 단위의 평가 점수로 정의되는, 발음 평가 방법.
  4. 제3항에 있어서,
    상기 발음 평가 점수를 산출하는 단계는,
    상기 음소 단위 각각에 대하여 상기 사용자의 발음 특성 및 상기 기준 발음 특성을 비교하는 단계;
    상기 음소 단위 각각에 대한 유사도 점수를 산출하는 단계, 및
    상기 음소 단위 각각에 대한 유사도 점수의 평균 점수를 산출하는 단계를 포함하는, 발음 평가 방법.
  5. 제1항에 있어서,
    상기 음성 데이터는, 상기 특정 단어에 대한 음성 데이터이고,
    상기 제2 발음 평가 모델은,
    상기 특정 단어 내의 특정 음소의 전 또는 후에 배치된 음소에 기초하여 발음 특성을 추출하도록 더 구성된, 발음 평가 방법.
  6. 제1항에 있어서,
    상기 발음 평가 점수를 제공하는 단계 이후에,
    상기 사용자의 발음을 원어민의 발음으로 가이드 하기 위한 피드백 데이터를 제공하는 단계를 포함하고,
    상기 피드백 데이터는,
    상기 사용자의 발음 특성과 상기 원어민의 발음 특성이 서로 일치하지 않으면 상기 사용자의 음성 데이터로부터, 상기 원어민의 발음 특성과 일치하는 발음 특성이 추출되도록 가이드 하기 위한 것인, 발음 평가 방법.
  7. 제6항에 있어서,
    상기 음성 데이터에 대한 기준 발음 특성은 복수개이고,
    상기 기준 발음 특성은, 상기 특정 음소 또는 상기 특정 단어에 대한 상기 원어민의 발음에 특징으로 정의되고,
    상기 피드백 데이터를 제공하는 단계는,
    상기 사용자의 발음 특성과 상기 기준 발음 특성과 비교하는 단계, 및
    상기 사용자의 발음 특성 내에 상기 기준 발음 특성과 상이한 발음 특성이 포함될 경우,
    상기 상이한 발음 특성에 대한 발성을 하지 않도록 가이드 하기 위한 피드백 데이터를 결정하거나, 또는 상기 사용자의 발음 특성 내에 상기 기준 발음 특성 중 특정 발음 특성이 포함되지 않을 경우, 상기 특정 발음 특성에 대하여 발성하도록 가이드 하기 위한 피드백 데이터를 결정하는 단계를 포함하는, 발음 평가 방법.
  8. 제1항에 있어서,
    상기 발음 특성은,
    높은 혀, 낮은 혀, 앞쪽 혀, 뒤쪽 혀, 둥근 입술, 유성음, 비음, 파열음, 마찰음, 순음(또는 순치음), 치간/치경음, 유음, 파찰음, R유음, Y반모음, W반모음, 닫힘이중, 열림이중, 중앙이중, 연구개음 중 적어도 하나의 변별적 자질 (distinctive feature) 인, 발음 평가 방법.
  9. 제1항에 있어서,
    상기 발음 평가 점수를 제공하는 단계 이후에,
    상기 사용자로부터 상기 특정 음소 또는 상기 특정 단어에 대한 음성 데이터를 재수신하는 단계, 및
    상기 제1 발음 평가 모델 및 상기 제2 발음 평가 모델을 이용하여, 상기 재수신된 음성 데이터를 재평가하는 단계를 더 포함하는, 발음 평가 방법.
  10. 제1항에 있어서,
    상기 특정 단어 및 상기 특정 음소는 복수개이고,
    상기 사용자의 음성 데이터를 수신하는 단계 이전에,
    복수개의 특정 단어 중 적어도 하나 또는 복수개의 특정 음소 중 적어도 하나에 대한 선택을 입력 받는 단계를 더 포함하는, 발음 평가 방법.
  11. 제1항에 있어서,
    상기 제2 발음 평가 모델은,
    발음 및 발음 특성에 따른 복수의 아웃노드 (outnode) 레이어를 포함하고,
    상기 아웃노드 레이어는,
    미리 결정된 음소 또는 단어에 대한 학습용 음성 데이터를 수신하는 단계;
    상기 학습용 음성 데이터를 음소 단위로 분할하는 단계;
    상기 음소 단위의 학습용 음성 데이터 각각에 대하여 특징을 추출하는 단계;
    상기 특징으로부터 발성 발음을 결정하는 단계;
    발음 클러스터를 형성하도록, 유사도에 기초하여 상기 발성 발음을 클러스터링하는 단계, 및
    상기 발음 클러스터에 기초하여 상기 복수의 아웃노드 레이어를 생성하는 단계를 통해 생성된, 발음 평가 방법.
  12. 특정 음소 또는 특정 단어에 대한 사용자의 음성 데이터를 수신하도록 구성된 통신부;
    상기 통신부와 연결된 프로세서, 및
    표시부를 포함하고,
    상기 프로세서는,
    음성 데이터를 입력으로 하여 발성 구간 및 발성 발음을 출력하도록 구성된 제1 발음 평가 모델을 이용하여, 상기 음성 데이터로부터 발성 구간 및 발성 발음을 결정하고, 상기 제1 발음 평가 모델에 의해 출력된 상기 발성 구간에 해당하는 음성 데이터를 기초로 발음 특성을 출력하도록 구성된 제2 발음 평가 모델을 이용하여, 상기 음성 데이터로부터 발음 특성을 결정하고, 미리 결정된 음성학적 발음 특성을 기초로, 상기 특정 음소 또는 상기 특정 단어에 대한 기준 발음 특성을 결정하고, 상기 기준 발음 특성과 상기 사용자의 발음 특성의 유사도를 기초로 발음 평가 점수를 산출하도록 구성되고,
    상기 표시부는,
    상기 발음 평가 점수를 제공하도록 구성된, 발음 평가용 디바이스.
  13. 삭제
  14. 제12항에 있어서,
    상기 음성 데이터는, 복수의 음소로 구성된 특정 단어에 대한 음성 데이터이고,
    상기 프로세서는,
    상기 특정 단어에 대한 음성 데이터를 복수의 구간으로 분할하도록 더 구성되고,
    상기 발성 구간은,
    음소 단위로 출력된 발성 구간이고,
    상기 발성 발음은,
    복수의 음소 각각에 대한 발성 발음이고,
    상기 평가는,
    상기 특정 단어에 대한 음소 단위의 평가로 정의되는, 발음 평가용 디바이스.
  15. 제14항에 있어서,
    상기 프로세서는,
    상기 음소 단위 각각에 대하여 상기 사용자의 발음 특성 및 상기 기준 발음 특성을 비교하고, 상기 음소 단위 각각에 대한 유사도 점수를 산출하고, 상기 음소 단위 각각에 대한 유사도 점수의 평균 점수를 산출하도록 더 구성된, 발음 평가용 디바이스.
  16. 제12항에 있어서,
    상기 음성 데이터는, 상기 특정 단어에 대한 음성 데이터이고,
    상기 제2 발음 평가 모델은,
    상기 특정 단어 내의 특정 음소의 전 또는 후에 배치된 음소에 기초하여 발음 특성을 추출하도록 더 구성된, 발음 평가용 디바이스.
  17. 제12항에 있어서,
    상기 표시부는,
    상기 사용자의 발음을 원어민의 발음으로 가이드 하기 위한 피드백 데이터를 제공하도록 더 구성되고,
    상기 피드백 데이터는,
    상기 사용자의 발음 특성과 상기 원어민의 발음 특성이 서로 일치하지 않으면 상기 사용자의 음성 데이터로부터, 상기 원어민의 발음 특성과 일치하는 발음 특성이 추출되도록 가이드 하기 위한 것인, 발음 평가용 디바이스.
  18. 제17항에 있어서,
    상기 음성 데이터에 대한 기준 발음 특성은 복수개이고,
    상기 기준 발음 특성은, 상기 특정 음소 또는 상기 특정 단어에 대한 상기 원어민의 발음에 특징으로 정의되고,
    상기 프로세서는,
    상기 사용자의 발음 특성과 상기 기준 발음 특성과 비교하고, 상기 사용자의 발음 특성 내에 상기 기준 발음 특성과 상이한 발음 특성이 포함될 경우, 상기 상이한 발음 특성에 대한 발성을 하지 않도록 가이드 하기 위한 피드백 데이터를 결정하거나, 또는 상기 사용자의 발음 특성 내에 상기 기준 발음 특성 중 특정 발음 특성이 포함되지 않을 경우, 상기 특정 발음 특성에 대하여 발성하도록 가이드 하기 위한 피드백 데이터를 결정하도록 더 구성된, 발음 평가용 디바이스.
KR1020200026532A 2020-03-03 2020-03-03 발음 평가 방법 및 이를 이용한 디바이스 KR102333029B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200026532A KR102333029B1 (ko) 2020-03-03 2020-03-03 발음 평가 방법 및 이를 이용한 디바이스

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200026532A KR102333029B1 (ko) 2020-03-03 2020-03-03 발음 평가 방법 및 이를 이용한 디바이스

Publications (2)

Publication Number Publication Date
KR20210111503A KR20210111503A (ko) 2021-09-13
KR102333029B1 true KR102333029B1 (ko) 2021-12-01

Family

ID=77796747

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200026532A KR102333029B1 (ko) 2020-03-03 2020-03-03 발음 평가 방법 및 이를 이용한 디바이스

Country Status (1)

Country Link
KR (1) KR102333029B1 (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010072446A (ja) * 2008-09-19 2010-04-02 Toyohashi Univ Of Technology 調音特徴抽出装置、調音特徴抽出方法、及び調音特徴抽出プログラム
JP2018097045A (ja) * 2016-12-09 2018-06-21 日本電信電話株式会社 発音辞書及び音響モデル生成装置、音声認識装置、方法及びプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160122542A (ko) * 2015-04-14 2016-10-24 주식회사 셀바스에이아이 발음 유사도 측정 방법 및 장치
KR102052031B1 (ko) * 2016-11-02 2019-12-04 한국전자통신연구원 발음평가 방법 및 상기 방법을 이용하는 발음평가 시스템

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010072446A (ja) * 2008-09-19 2010-04-02 Toyohashi Univ Of Technology 調音特徴抽出装置、調音特徴抽出方法、及び調音特徴抽出プログラム
JP2018097045A (ja) * 2016-12-09 2018-06-21 日本電信電話株式会社 発音辞書及び音響モデル生成装置、音声認識装置、方法及びプログラム

Also Published As

Publication number Publication date
KR20210111503A (ko) 2021-09-13

Similar Documents

Publication Publication Date Title
KR102401512B1 (ko) 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체
US11030993B2 (en) Advertisement selection by linguistic classification
Hu et al. Improved mispronunciation detection with deep neural network trained acoustic models and transfer learning based logistic regression classifiers
CN112397091B (zh) 中文语音综合评分及诊断系统和方法
KR102410914B1 (ko) 음성 인식을 위한 모델 구축 장치 및 음성 인식 장치 및 방법
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
Gruhn et al. Statistical pronunciation modeling for non-native speech processing
KR20200015418A (ko) 순차적 운율 특징을 기초로 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체
WO2021061484A1 (en) Text-to-speech processing
Arora et al. Phonological feature-based speech recognition system for pronunciation training in non-native language learning
KR20220000391A (ko) 순차적 운율 특징을 기초로 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체
Vlasenko et al. Modeling phonetic pattern variability in favor of the creation of robust emotion classifiers for real-life applications
US11676572B2 (en) Instantaneous learning in text-to-speech during dialog
KR102062524B1 (ko) 음성 인식과 번역 방법 및 그를 위한 단말 장치와 서버
JP5105943B2 (ja) 発話評価装置及び発話評価プログラム
Lee Language-independent methods for computer-assisted pronunciation training
Livescu et al. Articulatory feature-based pronunciation modeling
US11935523B2 (en) Detection of correctness of pronunciation
JP2015530614A (ja) 精度スコアを使用した音声認識性能を予測するための方法およびシステム
Mary et al. Significance of prosody for speaker, language, emotion, and speech recognition
Lin et al. Hierarchical prosody modeling for Mandarin spontaneous speech
Dai [Retracted] An Automatic Pronunciation Error Detection and Correction Mechanism in English Teaching Based on an Improved Random Forest Model
Manjunath et al. Automatic phonetic transcription for read, extempore and conversation speech for an Indian language: Bengali
KR102333029B1 (ko) 발음 평가 방법 및 이를 이용한 디바이스
Huang et al. A review of automated intelligibility assessment for dysarthric speakers

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right