KR20040073291A - 외국어 발음 평가 시스템 및 그 평가 방법 - Google Patents

외국어 발음 평가 시스템 및 그 평가 방법 Download PDF

Info

Publication number
KR20040073291A
KR20040073291A KR1020040001075A KR20040001075A KR20040073291A KR 20040073291 A KR20040073291 A KR 20040073291A KR 1020040001075 A KR1020040001075 A KR 1020040001075A KR 20040001075 A KR20040001075 A KR 20040001075A KR 20040073291 A KR20040073291 A KR 20040073291A
Authority
KR
South Korea
Prior art keywords
data
pronunciation
native speaker
native
voice
Prior art date
Application number
KR1020040001075A
Other languages
English (en)
Inventor
박전규
김영창
이준조
허용수
Original Assignee
정보통신연구진흥원
동아시테크주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 정보통신연구진흥원, 동아시테크주식회사 filed Critical 정보통신연구진흥원
Priority to KR1020040001075A priority Critical patent/KR20040073291A/ko
Publication of KR20040073291A publication Critical patent/KR20040073291A/ko
Priority to KR1020050001956A priority patent/KR100733469B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Business, Economics & Management (AREA)
  • Signal Processing (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • Educational Administration (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Educational Technology (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

본 발명에 의한 외국어 발음 평가 시스템은, 비원어민 또는 원어민의 음성을 분석하여 음성, 음향적인 특징 데이터를 추출하는 음성분석기와; 원어민의 특징 데이터 통계 DB(Data Base), 비원어민의 특징 데이터 통계 DB , 특징 데이터들의 이론치 DB로 구성된 데이터 베이스부와; 비원어민 음성의 특징 데이터에 대해 원어민 음성의 특징 데이터와의 PDF(Probability Density Function), DTW(Dynamic Time Warping)를 수행하고, 특정 요소에 대한 가중치를 적용토록 하는 비교 분석기와; 비교 분석기의 비교 결과를 토대로 최종적으로 비원어민의 발음 상태를 평가하는 논리 결정기가 포함되는 것을 특징으로 한다.
이와 같은 본 발명에 의하면, 비원어민의 발음의 평가 대상이 되는 원어민의 발음을 개개인의 성향을 배제한 일반적인 특성 데이터를 추출하여 시행함으로써, 보편적이고 객관적인 발음 평가가 가능하여 발음 평가의 오류 범위를 최소화할 수 있으며, 비원어민의 발음 평가에 있어 비원어민의 특징 데이터 통계 DB와 특징데이터들의 이론치 DB를 통해 동적인 가중치를 적용함으로써, 기존의 일괄적인 가중치 적용으로 인한 문장의 특성에 따른 평가 오류를 방지하고, 그에 따라 발음 평가에 대한 신뢰도를 구축할 수 있다.

Description

외국어 발음 평가 시스템 및 그 평가 방법{appraisal system of foreign language pronunciation and method thereof}
본 발명은 외국어 발음 평가 시스템 및 그 평가 방법에 관한 것으로, 특히비원어민의 발음과 원어민의 발음을 비교하여 이를 통계적인 방법으로 산출하고, 상기 산출된 결과를 기준으로 비원어민의 외국어 발음에 대한 유창함을 수치적 또는 정성적으로 표현하는 외국어 발음 평가 시스템 및 그 평가 방법에 관한 것이다.
일반적으로 현대인들은 산업의 전문화와 국제화의 추세에 따라 제 2 외국어에 대한 관심이 많아지는 경향을 보이는데, 이러한 추세에 대응하기 위해 어학용 학습기 또는 다양한 어학용 프로그램 즉, 외국어 발음 평가 방법들이 개발되고 있는 실정이다.
종래의 외국어 발음 평가 방법의 경우, 일례로 음성신호 처리 기술을 이용한 발음 비교 방법이 있으며, 이는 은닉 마코브 모델(Hidden Markov Model, 이하 HMM)을 이용하여 비원어민의 발음 음성에 대한 인식을 한 후, 원어민의 음성과 비교하는 알고리즘이다.
이와 같은 종래의 외국어 발음 평가 방법은 비원어민의 발성의 분절적 특성 중 하나의 요소특성에 대하여 그에 대응하는 원어민의 특성과 비교하는 방법을 택하였다. 특히 분절적 특성 중 음소에 대한 특성 데이터를 많이 사용하게 된다.
이 때 사용되는 원어민의 특징 데이터는 훈련된 AM(Acoustic Model) 또는 발성 시점에서 원어민의 음성 데이터로부터 추출한 특성 데이터를 사용하게 되는데, 이러한 AM이나 음성에서 추출된 특성은 전체 원어민의 개인적인 발성 성향에 대한오차를 무시하게 됨으로써, 올바른 평가를 기대할 수 없으며, 음절이나 구문, 문장의 강세나 등시성 등에 대한 평가가 불가능하거나, 평가하더라고 그 정확성을 기대할 수 없다는 단점이 있다.
또한, 종래의 외국어 발음 평가 방법은 모든 발성의 분절적, 비분절적 특성들에 대하여 동일한 혹은 임의의 가중치를 일괄적으로 적용함으로써, 특정 문장 또는 단어 등에 대한 억양, 강세, 발성 속도 등에 대한 개별적 특징을 적용하지 못하는 문제점을 가지고 있다.
본 발명은 음성 분석기1, 2, 비교 분석기, 논리 결정기, 데이터 베이스부로 구성되며, 이를 통해 비원어민의 발음과 원어민의 발음을 비교하여 이를 통계적인 방법으로 산출하고, 상기 산출된 결과를 기준으로 비원어민의 외국어 발음에 대한 유창함을 수치적 또는 정성적으로 표현하는 외국어 발음 평가 시스템 및 그 평가 방법을 제공함에 그 목적이 있다.
도 1은 본 발명에 의한 외국어 발음 평가 시스템의 구조를 나타내는 블록도.
도 2는 도 1의 비교 분석기를 통해 비원어민 사용자의 발음이 원어민의 발음에 대해 PDF 및 DTW 비교 되는 과정을 나타내는 도면.
도 3은 특성 평가 데이터들의 분절적, 비분절적 요소들에 대한 가중치 적용 구조 및 방법을 설명하는 도면.
<도면의 주요 부분에 대한 부호의 설명>
102 : 음성 분석기 1 104 : 음성 분석기 2
110 : 데이터베이스부 120 : 비교 분석기
130 : 논리 결정기 200, 210 : 특징 데이터
220 : 특성 평가 데이터 222 : 분절 특성 평가 데이터
224 : 비분절 특성 평가 데이터
상기 목적을 달성하기 위하여 본 발명에 의한 외국어 발음 평가 시스템은, 비원어민 또는 원어민의 음성을 분석하여 음성, 음향적인 특징 데이터를 추출하는 음성분석기와; 원어민의 특징 데이터 통계 DB(Data Base), 비원어민의 특징 데이터 통계 DB , 특징 데이터들의 이론치 DB로 구성된 데이터 베이스부와; 비원어민 음성의 특징 데이터에 대해 원어민 음성의 특징 데이터와의 PDF(Probability Density Function), DTW(Dynamic Time Warping)를 수행하고, 특정 요소에 대한 가중치를 적용토록 하는 비교 분석기와; 비교 분석기의 비교 결과를 토대로 최종적으로 비원어민의 발음 상태를 평가하는 논리 결정기가 포함되는 것을 특징으로 한다.
여기서, 상기 음성분석기는, 비원어민 사용자의 음성으로써, 직접 사용자가발성하여 입력되거나 또는 발성이 녹음된 데이터가 입력되는 음성을 분석하여 특징 데이터를 추출하는 음성분석기 1과; 표준에 가장 가까운 발음을 하는 원어민에 대해 특정 지문을 읽게 하고, 이를 녹음한 후 녹음된 데이터가 입력되는 음성을 분석하여 특징 데이터를 추출하는 음성분석기 2로 구성됨을 특징으로 한다.
또한, 상기 특징 데이터는 음성, 음향적인 분석 요소들을 의미하는 것으로, 음의 길이(duration), 음의 에너지(energy), 피치(pitch), 모음의 구성음소 즉, 포만트(formant), RFC(Rising Falling Connection)/Tilt, 스펙트럼(Spectrum), VOT(Voice Onset Time)가 될 수 있으며, 이는 수치 데이터와 패턴 데이터로 구분된다.
또한, 상기 비교 분석기는, 상기 특징 데이터의 수치 데이터에 대해서 PDF를 수행하여 비원어민 발음에 대한 소정 요소(음의 세기, 피치 등)의 수치값이 얼마나 원어민의 소정 요소에 근접해 있는지 비교하고, 상기 패턴 데이터에 대해서는 DTW를 수행하여 비원어민의 인토네이션 등이 원어민의 인토네이션 등과 얼마나 유사한지 비교하며, 상기 비원어민의 특징 데이터 통계 DB, 특징 데이터들의 이론치 DB 및 비원어민 사용자의 발성 분석 자료를 근간으로 각 분절적, 비분절적 경항 및 중요도를 산출하여 각 요소에 대한 가중치를 유추하고 적용하는 역할을 함을 특징으로 한다.
또한, 상기 논리 결정기에서는 상기 비교 분석기를 통해 산출된 결과를 통해 비원어민 사용자 발음의 분절적 특성 및 비분절적 특성에 대한 평가와 분석을 수행함을 특징으로 한다.
또한, 본 발명에 의한 외국어 발음 평가 방법은, 비원어민의 음성, 음향적인 특징 데이터가 수치 데이터 및 패턴 데이터로 구분되는 단계와; 상기 비원어민 음성에 대한 수치 데이터는 데이터 베이스부에 기 저장된 원어민의 특징 데이터 통계값들과 PDF를 수행하여 소정의 평가치가 산출되는 단계와; 상기 비원어민 음성에 대한 패턴 데이터는 원어민의 음성 데이터로부터 추출된 패턴 데이터들과 DTW를 수행하여 소정의 평가치가 산출되는 단계와; 상기 PDF 및 DTW를 수행함으로써 생성된 소정의 평가치가 비분절적 요소에 관한 것인지, 분절적 요소에 관한 것인지에 따라 비분절 특성 평가 데이터 또는 분절 특성 평가 데이터로 나뉘게 되는 단계와; 상기 분절/ 비분절 특성 평가 데이터들이 각 요소별로 가중치를 적용 받게 되는 단계와; 상기 가중치 처리된 데이터들을 통해 비원어민 사용자 발음의 분절적 특성 및 비분절적 특성에 대한 평가/ 분석이 수행되어 수치적인 결과가 도출되는 단계가 포함되는 것을 특징으로 한다.
여기서, 상기 PDF를 통해 산출되는 평가치는 비분절적 특성에 대한 PDF 결과치 또는 분절적 특성에 대한 PDF 결과치 이며, 상기 DTW는 시간적 변동을 고려하여 대상 패턴들의 비교 값을 산출할 수 있는 비교 논리로 어떠한 선형적 데이터를 보간하고 정규화하여 비교하는 방식임을 특징으로 한다.
이와 같은 본 발명에 의하면, 비원어민의 발음의 평가 대상이 되는 원어민의 발음을 개개인의 성향을 배제한 일반적인 특성 데이터를 추출하여 시행함으로써, 보편적이고 객관적인 발음 평가가 가능하여 발음 평가의 오류 범위를 최소화할 수 있으며, 비원어민의 발음 평가에 있어 비원어민의 특징 데이터 통계 DB와 특징데이터들의 이론치 DB를 통해 동적인 가중치를 적용함으로써, 기존의 일괄적인 가중치 적용으로 인한 문장의 특성에 따른 평가 오류를 방지하고, 그에 따라 발음 평가에 대한 신뢰도를 구축할 수 있다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 실시 예를 상세히 설명하도록 한다.
도 1은 본 발명에 의한 외국어 발음 평가 시스템의 구조를 나타내는 블록도이다.
도 1을 참조하면, 본 발명에 의한 외국어 발음 평가 시스템은 음성 분석기1(102), 음성 분석기2(104), 비교 분석기(120) , 논리 결정기(130) , 데이터 베이스부(110)로 구성되어 있으며, 이하 각 구성요소의 구성 및 동작에 대해 설명토록 한다.
먼저 음성 분석기1(102)은 비원어민 사용자의 음성을 분석하여 음성, 음향적인 특징 데이터를 추출하는 역할을 한다.
이 때, 상기 비원어민 사용자의 음성은 직접 사용자가 발성하여 입력되거나 또는 발성이 녹음된 데이터가 입력될 수 있다.
상기 특징 데이터는 음성, 음향적인 분석 요소들을 의미하는 것으로, 음의 길이(duration), 음의 에너지(energy), 피치(pitch), 모음의 구성음소 즉, 포만트(formant), RFC(Rising Falling Connection)/Tilt, 스펙트럼(Spectrum), VOT(Voice Onset Time) 등을 그 예로 들 수 있다.
본 발명의 경우 음성에 대한 특성을 수치적으로 표현할 수 있는 상기 특징데이터를 통해 공학적인 음성의 분석 및 비교를 수행하게 된다.
또한, 상기 특징 데이터는 수치 데이터와 패턴 데이터로 구분할 수 있는데, 상기 수치 데이터는 어떤 프레임에서 피치가 150Hz 라는 식의 수치적인 데이터를 의미한다. 즉, 이는 수치적인 값으로써 평균 값과 표준편차 값을 갖는 통계 데이터베이스를 이용 PDF(Probability Density Function)를 수행함으로써 비교가 가능한 데이터이며, 상기 데이터의 수치 그 자체가 중요한 의미를 갖는다.
이 때, 상기 PDF는 통계적 데이터를 기반으로 하는 확률적인 평가 방법을 말하는 것이다.
또한, 상기 패턴 데이터는 전체 문장의 인토네이션(intonation) 등을 의미하는 것으로, 이는 수치 값으로 표현되는 것이 아니라 어느 곳에서 억양이 올라가고(rising), 어느 곳에서 내려가는(falling) 것인지 그 형태 및 성향, 순서 등이 중심이 되는 데이터이며, 이는 DTW(Dynamic Time Warping) 방식으로 비교할 수 있다. 이 때, 상기 DTW는 시간적 변동을 고려하여 대상 패턴들을 비교 하는 평가 방법을 말하는 것이다.
이에 음성 분석기 2(104)는 상기 음성 분석기 1(102)과 같이 사용자의 음성을 분석하여 음성, 음향적인 특징 데이터를 추출하는 역할을 하는데, 단, 이는 표준에 가장 가까운 발음을 하는 원어민에 대해 특정 지문을 읽게 하고 이를 녹음한 후 분석하여 상기 특징 데이터를 추출하게 된다.
이는 상기 음성 분석기 1(102)을 통해 입력된 비원어민의 발음을 평가하기 위한 비교 대상으로서의 역할을 하게 된다.
이와 같은 원어민의 특징 데이터는 상기 데이터 베이스부(110)에 저장되는데, 상기 데이터 베이스부(110)는 원어민의 특징 데이터 통계 DB(Data Base)(112), 비원어민의 특징 데이터 통계 DB(114), 특징 데이터들의 이론치 DB(116)로 이루어져 있다.
여기서, 상기 비원어민의 특징 데이터 통계 DB(114)에는 일정 수의 평범한 비원어민의 특징 데이터들에 대한 통계치가 분절적, 비분절적 항목으로 구분되어 저장되어 있으며, 상기 원어민의 특징 데이터 통계 DB(112)는 표준에 가장 가까운 발음을 하는 원어민의 특징 데이터들에 대한 통계치가 분절적, 비분절적 항목으로 구분되어 저장되어 있다. 또한, 상기 특징 데이터들의 이론치 DB(116)에는 학계의 검증을 받거나 혹은 상식적으로 보편화되어 있는 특징 데이터들을 분절적, 비분절적 항목으로 구분되어 저장되어 있다.
이 때, 상기 특징 데이터들의 이론치는, 이미 학계에서 검증된 발표 수치들로써 증명된 값들을 의미한다. 예를 들어 파열음은 일반적으로 어떠한 특징을 갖고 있는지 , 비원어민의 경우 나라별 혹은 언어권 별로 어떠한 부분에서 오류가 많이 발생하는지 등에 대한 지금까지의 연구 결과 및 논문 등 학계에서 인증한 모든 데이터를 말하는 것으로 분절적, 비분절적 특성 요소에 대한 부분을 모두 포함하고 있다.
상기와 같이 입력 및 저장된 비원어민 사용자의 음성 즉, 발음에 대한 특징 데이터들은, 상기 데이터 베이스부(110)에 저장된 원어민의 특징 데이터 통계 DB(112)와, 특징 데이터들의 이론치 DB(114)와 비교되어 정확한 비교 결과를 얻을수 있게 된다.
본 발명은 상기와 같은 정확한 비교 및 분석을 비교 분석기(120) 및 논리 결정기(130)를 통해 수행하게 된다.
이 때, 상기 비교 분석기(120)는 비원어민의 음성 데이터에 대해 원어민 음성 데이터와의 PDF(140), DTW(150)를 수행하고, 특정 요소에 대한 가중치(160)를 적용토록 하는 역할을 하며, 상기 논리 결정기(130)는 상기 비교 분석기(120)의 비교 결과를 토대로 최종적으로 비원어민의 발음 상태를 평가하는 역할을 한다.
즉, 상기 비교 분석기(120)는 상기 특징 데이터의 수치 데이터에 대해서 PDF를 수행하여 비원어민 발음에 대한 소정 요소(음의 세기, 피치 등)의 수치값이 얼마나 원어민의 소정 요소에 근접해 있는지 비교하고, 상기 패턴 데이터에 대해서는 DTW를 수행하여 비원어민의 인토네이션 등이 원어민의 인토네이션 등과 얼마나 유사한지 비교한다.
또한, 비원어민의 특징 데이터 통계 DB(114), 특징 데이터들의 이론치 DB(116) 및 비원어민 사용자의 발성 분석 자료를 근간으로 각 분절적, 비분절적 경항 및 중요도를 산출하여 각 요소에 대한 가중치를 유추하고 적용토록 하며, 이렇게 비교된 분절적, 비분절적 특징 데이터들의 각 요소에 동적으로 작성된 가중치를 적용하고, 상기 논리 결정기(130)에서 종합적인 비원어민 사용자의 발음에 대한 평가와 분석을 수행하여 수치적은 결과를 도출하게 되는 것이다.
결과적으로 본 발명은 비원어민의 외국어 발음을 평가하기 위해 발음의 분절적 특성 즉, 문장, 구절, 단어, 음소에 대해서만 원어민의 발음과 비교하는 것이아니라, 상기 분절적 특성에 대한 비분절적 특성 즉, 강세, 억양, 등시성 등을 비교 평가함에 그 특징이 있다.
도 2는 본 발명에 의한 외국어 발음 평가 시스템의 동작을 설명하는 블록도로서, 도 1의 비교 분석기를 통해 비원어민 사용자의 발음이 원어민의 발음에 대해 PDF 및 DTW 비교 되는 과정을 나타내고 있다.
도시된 바와 같이 음성 분석기 1(102)을 통해 추출된 비원어민 발음의 음성, 음향적인 특징 데이터(200)는 수치 데이터(202) 및 패턴 데이터(204)로 구분된다.
이 때 상기 수치 데이터(202)는 데이터 베이스부(110)에 저장된 원어민의 특징 데이터 DB(112)의 통계 값들과 PDF(140)를 수행함으로써 소정의 평가치를 산출하게 되며, 상기 PDF를 통해 산출되는 평가치는 PDF를 수행한 각각의 결과치를 의미하는 것으로, 이는 비분절적 특성에 대한 PDF 결과치일 수 있고, 또는 분절적 특성에 대한 PDF 결과치일 수 있다.
여기서, 상기 통계 값이라 함은 어떤 요소의 평균과, 표준편차, 최대값, 최소값을 의미하며, 상기 PDF는 이러한 통계수치를 이용한 확률기반의 평가 논리를 말한다.
이와 같이 상기 비원어민 발음의 수치 데이터(202) 및 원어민의 특징 데이터 DB(112)의 통계 값에 대한 PDF(140)를 수행함으로써, 비원어민의 발음 중 수치로 표현될 수 있는 소정의 요소에 대해 그 수치값이 원어민의 수치값에 얼마나 근접해 있는가를 알 수 있게 된다. 즉, 통계적으로 현재 발성에 대한 어떤 음소의 어떤 특성은 원어민과 70% 유사하다는 등의 판단이 가능하게 되는 것이다.
다음으로 상기 음성 분석기 1(102)을 통해 추출된 비원어민 발음의 패턴 데이터(204)는 상기 음성 분석기 2(104)를 통해 원어민의 음성 데이터로부터 추출된 패턴 데이터(214)들과 DTW(150)를 수행하게 됨으로써 평가치가 산출된다.
상기 패턴 데이터(214)는 앞서 설명한 바와 같이 분절적 요소의 억양, tilt 등을 의미하는 것이며, 상기 DTW는 상기 패턴 데이터를 비교할 수 있는 방법으로 시간적 변동을 고려하여 대상 패턴들의 비교 값을 산출할 수 있는 비교 논리를 말한다.
즉, DTW(150)는 어떠한 선형적 데이터를 보간하고 정규화하여 비교하는 것으로, 이는 비교되는 양 패턴 데이터가 얼마나 유사한 양상을 띄고 있는지를 수치적인 값으로 표시하게 된다.
이와 같이 비원어민의 발음에 대한 특징 데이터(200) 즉, 수치 데이터(202) 및 패턴 데이터(204)에 대해 각각 PDF(140) 및 DTW(150)를 수행함으로써 생성된 평가치는 상기 평가치가 비분절적 요소에 관한 것인지, 분절적 요소에 관한 것인지에 따라 비분절 특성 평가 데이터(222) 또는 분절 특성 평가 데이터(224)로 나뉘게 된다.
여기서, 상기 분절적 특성은 음성의 경우 문장, 구절, 음절, 단어, 음소와 같이 분리가 가능하고, 세분화될 수 있는 항목을 말하며, 비분절 특성이란 음성의 경우 억양, 강세, 등시성 등과 같이 분절이 되지 않는 항목을 말한다.
즉, 분절적 요소인 음소의 첫번째 포만트(first formant)의 피크(peak)값은 분절적 요소 특징이라 할 수 있겠고, 입력된 음성에 대한 등시성은 비분절적 요소특징이라 할 수 있는 것이다.
상기 PDF 및 DTW는 수치 데이터 및 패턴 테이터에 대한 비교 분석을 하는 것이기 때문에, 각각의 평가치는 모두 분절 특성 평가 데이터 및 비분절 특성 평가 데이터를 포함하고 있다.
또한, 이렇게 생성된 비원어민 사용자의 특성 평가 데이터(220)들은 각 요소별로 가중치를 적용받게 되는데, 이는 도 3을 통해 설명하도록 한다.
도 3은 본 발명에 의한 외국어 발음 평가 시스템의 동작을 설명하는 블록도로서, 특성 평가 데이터들의 분절적, 비분절적 요소들에 대한 가중치 적용 구조 및 방법을 설명하는 도면이다.
도 1 내지 도 3을 참조하면, 음성 분석기 1(102)을 통해 추출된 비원어민 발음의 음성, 음향적인 특징 데이터(200)와 데이터 베이스부(110) 내의 비원어민의 특징 데이터 통계 DB(114), 특징 데이터들의 이론치 DB(116)를 이용하여 비원어민 사용자의 발음 중 어떤 분절적 혹은 비분절적 요소의 중요도가 높은지 판단한다.
즉, 상기 데이터들을 비교 분석하면 비원어민이 어떠한 음소, 음절 등의 어떠한 특성(억양, 등시성, 강세)에서 오류를 발생하는지 또는 원어민의 발음과 비교하여 어떠한 발성 특성을 가지고 있는지 알 수 있게 된다. 예를 들면, 우리나라 사람의 경우 "R" 과 "L"의 발음 차이가 거의 없다는 등의 특성을 검출하게 되면 이러한 사항이 검출되는 구간이 중요도가 높다고 판단하는 것이다.
이러한 중요도를 기반으로 하여 각 비분절적, 분절적 평가 데이터(222, 224)에 대한 가중치를 산출하게 된다. 즉, 상기 중요도가 높은 곳에 대해 가중치를 높게 한다.
여기서, 상기 분절 특성 평가 데이터(224)는 음소, 단어, 음절, 구절, 문장으로 구성되며, 각각의 분절 요소는 해당 특징 데이터 및 비분절 특성 평가 데이터(222)를 포함하고 있다. 이 때, 상기 비분절 특성 평가 데이터(222)는 억양, 강세, duration, 등시성, pause로 구성된다.
즉, 도 3에서 상기 분절, 비분절 특성 평가 데이터(224, 222)는 비교 분석기(120)에서의 PDF(140) 및 DTW(150)를 통해 생성된 평가치이고, 이는 비교 분석기(120)에서의 요소별 가중치(160) 생성에 의해 가중치 처리되며, 상기 가중치 처리된 데이터들은 논리 결정기(130)에 의해 종합적인 비원어민 사용자의 발음에 대한 평가/ 분석이 수행되어 수치적인 결과가 도출되는 것이다.
결과적으로 비원어민의 발음에 대한 모든 특성 요소들은 가중치의 적용을 받아 하나의 점수 또는 각 분절적 요소에 대한 점수로써 산출되며, 이는 곧 비원어민 사용자의 발음에 대한 수치적 점수가 될 수 있다.
이러한 수치적 점수는 발음의 유창함을 표현하며, 또한, 평가에 대한 수치적 근거 자료로써 가치를 발휘할 수 있다.
본 발명에 의한 외국어 발음 평가 시스템 및 그 평가 방법에 의하면, 비원어민의 발음의 평가 대상이 되는 원어민의 발음을 개개인의 성향을 배제한 일반적인 특성 데이터를 추출하여 시행함으로써, 보편적이고 객관적인 발음 평가가 가능하여 발음 평가의 오류 범위를 최소화할 수 있다는 장점이 있다.
또한, 비원어민의 발음 평가에 있어 비원어민의 특징 데이터 통계 DB와 특징데이터들의 이론치 DB를 통해 동적인 가중치를 적용함으로써, 기존의 일괄적인 가중치 적용으로 인한 문장의 특성에 따른 평가 오류를 방지하고, 그에 따라 발음 평가에 대한 신뢰도를 구축할 수 있다는 장점이 있다.

Claims (13)

  1. 비원어민 또는 원어민의 음성을 분석하여 음성, 음향적인 특징 데이터를 추출하는 음성분석기와,원어민의 특징 데이터 통계 DB(Data Base), 비원어민의 특징 데이터 통계 DB , 특징 데이터들의 이론치 DB로 구성된 데이터 베이스부와,
    비원어민 음성의 특징 데이터에 대해 원어민 음성의 특징 데이터와의 PDF(Probability Density Function), DTW(Dynamic Time Warping)를 수행하고, 특정 요소에 대한 가중치를 적용토록 하는 비교 분석기와,
    비교 분석기의 비교 결과를 토대로 최종적으로 비원어민의 발음 상태를 평가하는 논리 결정기가 포함되는 것을 특징으로 하는 외국어 발음 평가 시스템.
  2. 제 1항에 있어서,
    상기 음성분석기는,
    비원어민 사용자의 음성으로써, 직접 사용자가 발성하여 입력되거나 또는 발성이 녹음된 데이터가 입력되는 음성을 분석하여 특징 데이터를 추출하는 음성분석기 1과,
    표준에 가장 가까운 발음을 하는 원어민에 대해 특정 지문을 읽게 하고, 이를 녹음한 후 녹음된 데이터가 입력되는 음성을 분석하여 특징 데이터를 추출하는 음성분석기 2로 구성됨을 특징으로 하는 외국어 발음 평가 시스템.
  3. 제 1항에 있어서,
    상기 특징 데이터는 음성, 음향적인 분석 요소들을 의미하는 것으로, 음의 길이(duration), 음의 에너지(energy), 피치(pitch), 모음의 구성음소 즉, 포만트(formant), RFC(Rising Falling Connection)/Tilt, 스펙트럼(Spectrum), VOT(Voice Onset Time)가 될 수 있음을 특징으로 하는 외국어 발음 평가 시스템.
  4. 제 1항에 있어서,
    상기 특징 데이터는 수치 데이터와 패턴 데이터로 구분되며,
    상기 수치 데이터는 수치적인 값으로 평균 값과 표준편차 값을 갖는 통계 데이터베이스를 이용 상기 PDF(Probability Density Function)를 수행함으로써 비교가 가능한 데이터이며,
    상기 패턴 데이터는 문장의 어느 곳에서 억양이 올라가고(rising), 어느 곳에서 내려가는(falling) 것인지 그 형태 및 성향, 순서 등이 중심이 되는 데이터로 상기 DTW(Dynamic Time Warping)에 의해 비교가 가능한 데이터임을 특징으로 하는 외국어 발음 평가 시스템.
  5. 제 1항에 있어서,
    상기 비원어민의 특징 데이터 통계 DB에는 일정 수의 평범한 비원어민의 특징 데이터들에 대한 통계치가 분절적, 비분절적 항목으로 구분되어 저장되어 있음을 특징으로 하는 외국어 발음 평가 시스템.
  6. 제 1항에 있어서,
    상기 원어민의 특징 데이터 통계 DB는 표준에 가장 가까운 발음을 하는 원어민의 특징 데이터들에 대한 통계치가 분절적, 비분절적 항목으로 구분되어 저장되어 있음을 특징으로 하는 외국어 발음 평가 시스템.
  7. 제 1항에 있어서,
    상기 특징 데이터들의 이론치 DB에는 학계의 검증을 받거나 혹은 상식적으로 보편화되어 있는 특징 데이터들을 분절적, 비분절적 항목으로 구분되어 저장되어 있음을 특징으로 하는 외국어 발음 평가 시스템.
  8. 제 1항에 있어서,
    상기 비교 분석기는,
    상기 특징 데이터의 수치 데이터에 대해서 PDF를 수행하여 비원어민 발음에 대한 소정 요소(음의 세기, 피치 등)의 수치값이 얼마나 원어민의 소정 요소에 근접해 있는지 비교하고, 상기 패턴 데이터에 대해서는 DTW를 수행하여 비원어민의 인토네이션 등이 원어민의 인토네이션 등과 얼마나 유사한지 비교함을 특징으로 하는 외국어 발음 평가 시스템.
  9. 제 1항에 있어서,
    상기 비교 분석기는,
    상기 비원어민의 특징 데이터 통계 DB, 특징 데이터들의 이론치 DB 및 비원어민 사용자의 발성 분석 자료를 근간으로 각 분절적, 비분절적 경항 및 중요도를 산출하여 각 요소에 대한 가중치를 유추하고 적용함을 특징으로 하는 외국어 발음 평가 시스템.
  10. 제 1항에 있어서,
    상기 논리 결정기에서는 상기 비교 분석기를 통해 산출된 결과를 통해 비원어민 사용자 발음의 분절적 특성 및 비분절적 특성에 대한 평가와 분석을 수행함을 특징으로 하는 외국어 발음 평가 시스템.
  11. 비원어민의 음성, 음향적인 특징 데이터가 수치 데이터 및 패턴 데이터로 구분되는 단계와,
    상기 비원어민 음성에 대한 수치 데이터는 데이터 베이스부에 기 저장된 원어민의 특징 데이터 통계값들과 PDF를 수행하여 소정의 평가치가 산출되는 단계와,
    상기 비원어민 음성에 대한 패턴 데이터는 원어민의 음성 데이터로부터 추출된 패턴 데이터들과 DTW를 수행하여 소정의 평가치가 산출되는 단계와,
    상기 PDF 및 DTW를 수행함으로써 생성된 소정의 평가치가 비분절적 요소에 관한 것인지, 분절적 요소에 관한 것인지에 따라 비분절 특성 평가 데이터 또는 분절 특성 평가 데이터로 나뉘게 되는 단계와,
    상기 분절/ 비분절 특성 평가 데이터들이 각 요소별로 가중치를 적용 받게 되는 단계와,
    상기 가중치 처리된 데이터들을 통해 비원어민 사용자 발음의 분절적 특성 및 비분절적 특성에 대한 평가/ 분석이 수행되어 수치적인 결과가 도출되는 단계가 포함되는 것을 특징으로 하는 외국어 외국어 발음 평가 방법.
  12. 제 11항에 있어서,
    상기 PDF를 통해 산출되는 평가치는 비분절적 특성에 대한 PDF 결과치 또는 분절적 특성에 대한 PDF 결과치 임을 특징으로 하는 외국어 발음 평가 방법.
  13. 제 11항에 있어서,
    상기 DTW는 시간적 변동을 고려하여 대상 패턴들의 비교 값을 산출할 수 있는 비교 논리로 어떠한 선형적 데이터를 보간하고 정규화하여 비교하는 방식임을 특징으로 하는 외국어 발음 평가 방법.
KR1020040001075A 2004-01-08 2004-01-08 외국어 발음 평가 시스템 및 그 평가 방법 KR20040073291A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020040001075A KR20040073291A (ko) 2004-01-08 2004-01-08 외국어 발음 평가 시스템 및 그 평가 방법
KR1020050001956A KR100733469B1 (ko) 2004-01-08 2005-01-08 외국어 발음 평가 시스템 및 외국어 발음 평가 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020040001075A KR20040073291A (ko) 2004-01-08 2004-01-08 외국어 발음 평가 시스템 및 그 평가 방법

Publications (1)

Publication Number Publication Date
KR20040073291A true KR20040073291A (ko) 2004-08-19

Family

ID=37263093

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020040001075A KR20040073291A (ko) 2004-01-08 2004-01-08 외국어 발음 평가 시스템 및 그 평가 방법
KR1020050001956A KR100733469B1 (ko) 2004-01-08 2005-01-08 외국어 발음 평가 시스템 및 외국어 발음 평가 방법

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020050001956A KR100733469B1 (ko) 2004-01-08 2005-01-08 외국어 발음 평가 시스템 및 외국어 발음 평가 방법

Country Status (1)

Country Link
KR (2) KR20040073291A (ko)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100701338B1 (ko) * 2006-05-08 2007-03-29 경남대학교 산학협력단 음성합성 기술을 이용한 원어민 운율 학습 방법
KR100701271B1 (ko) * 2004-08-20 2007-03-29 동아시테크주식회사 온라인 외국어 인터뷰 학습 및 평가 시스템과 그 시스템을이용한 인터뷰 학습 및 평가 방법
KR100755417B1 (ko) * 2004-08-20 2007-09-04 동아시테크주식회사 온라인 외국어 자가 학습 및 평가 시스템과 그 시스템을이용한 자가 학습 및 평가 방법
KR101231037B1 (ko) * 2012-10-31 2013-02-07 김성렬 어학 발음 평가 방법 및 이를 이용한 어학 학습 시스템
CN104485115A (zh) * 2014-12-04 2015-04-01 上海流利说信息技术有限公司 发音评价设备、方法和系统
CN106531189A (zh) * 2016-12-20 2017-03-22 潘奕君 一种智能口语测评方法
CN109300474A (zh) * 2018-09-14 2019-02-01 北京网众共创科技有限公司 一种语音信号处理方法及装置
CN110718210A (zh) * 2019-09-25 2020-01-21 北京字节跳动网络技术有限公司 一种英文错误发音的识别方法、装置、介质和电子设备

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100687441B1 (ko) * 2006-03-16 2007-02-27 장성옥 외국어 음성 평가 방법 및 시스템
KR100815115B1 (ko) * 2006-03-31 2008-03-20 광주과학기술원 타 언어권 화자 음성에 대한 음성 인식시스템의 성능향상을 위한 발음 특성에 기반한 음향모델 변환 방법 및이를 이용한 장치
KR101104822B1 (ko) 2008-03-06 2012-01-16 봉래 박 큰소리 발성에 기반을 둔 어학 시스템 및 방법
KR100981432B1 (ko) * 2008-08-04 2010-09-10 고려대학교 산학협력단 사용자의 음성을 보완하는 장치 및 그 방법
KR101329999B1 (ko) * 2009-10-29 2013-11-20 조문경 음성분석기술을 이용한 시각적 영어 발음 교정시스템 및 교정법
KR101145440B1 (ko) * 2010-02-09 2012-05-15 서울대학교산학협력단 음성인식 기술을 이용한 외국어 말하기 평가 방법 및 시스템
KR100997255B1 (ko) * 2010-03-11 2010-11-29 (주)말문이터지는영어 음성인식기술을 활용한 언어학습 시스템
KR101067673B1 (ko) * 2010-10-06 2011-09-27 차보영 방송장치
KR101710002B1 (ko) * 2010-10-22 2017-02-27 한국전자통신연구원 음성 인식 시스템
KR101599030B1 (ko) * 2012-03-26 2016-03-14 강진호 음성분석기술을 이용한 시각적 영어 발음 교정시스템 및 교정법
KR101598950B1 (ko) 2013-10-30 2016-03-03 에스케이텔레콤 주식회사 발음 평가 장치 및 이를 이용한 발음 평가 방법에 대한 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체
KR102042344B1 (ko) * 2018-04-27 2019-11-27 (주)투미유 음성 유사도 판단 장치 및 음성 유사도 판단 방법
WO2020027394A1 (ko) * 2018-08-02 2020-02-06 미디어젠 주식회사 음소 단위 발음 정확성 평가 장치 및 평가 방법
KR102212332B1 (ko) * 2019-01-11 2021-02-04 김주현 외국어 교육을 위한 발음 정확도 평가 장치 및 방법
KR102017229B1 (ko) 2019-04-15 2019-09-02 미디어젠(주) 발화 패턴의 무한성 개선을 위한 딥러닝 기반의 텍스트 문장 자동 생성시스템
KR102292477B1 (ko) * 2019-11-18 2021-08-24 주식회사 스터디맥스 외국어 말하기 학습 서버 및 방법
KR102460272B1 (ko) * 2019-12-30 2022-10-31 한상종 모국어 문자기반 원 사이클 온라인 외국어 학습 시스템 및 그 방법
KR102396833B1 (ko) * 2019-12-31 2022-05-13 (주)헤이스타즈 음성 분석을 통한 한국어 발음 학습 방법 및 시스템
KR102274764B1 (ko) 2020-09-02 2021-07-08 미디어젠(주) 통계정보를 제공하는 사용자 맞춤형 발음 평가 시스템
KR102274751B1 (ko) 2020-09-04 2021-07-08 미디어젠(주) 평가정보를 제공하는 사용자 맞춤형 발음 평가 시스템
KR102414626B1 (ko) 2020-10-26 2022-06-30 주식회사 에듀템 외국어 발음 훈련 및 평가 시스템
KR102275200B1 (ko) * 2020-11-24 2021-07-08 김소이 한글 음가 매칭 기반의 영어 파닉스 교육 시스템
KR102338563B1 (ko) * 2021-02-05 2021-12-13 이기헌 영어 학습을 위한 음성 시각화 시스템 및 그 방법
KR102274766B1 (ko) 2021-02-05 2021-07-08 미디어젠(주) 외국어 초보 학습자를 위한 발음 예측 및 평가시스템
KR102410644B1 (ko) * 2022-02-16 2022-06-22 주식회사 알투스 인공지능을 활용한 음성인식 기반 외국어 교육 콘텐츠 서비스 제공 방법, 장치 및 시스템

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000072073A (ko) * 2000-07-21 2000-12-05 백종관 음성 인식 및 음성 합성 기술을 이용한 자동동시통역서비스 방법 및 그 시스템
KR100450019B1 (ko) * 2001-11-17 2004-09-30 전준호 인터넷을 이용한 음성인식 영어 학습서비스방법

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100701271B1 (ko) * 2004-08-20 2007-03-29 동아시테크주식회사 온라인 외국어 인터뷰 학습 및 평가 시스템과 그 시스템을이용한 인터뷰 학습 및 평가 방법
KR100755417B1 (ko) * 2004-08-20 2007-09-04 동아시테크주식회사 온라인 외국어 자가 학습 및 평가 시스템과 그 시스템을이용한 자가 학습 및 평가 방법
KR100701338B1 (ko) * 2006-05-08 2007-03-29 경남대학교 산학협력단 음성합성 기술을 이용한 원어민 운율 학습 방법
KR101231037B1 (ko) * 2012-10-31 2013-02-07 김성렬 어학 발음 평가 방법 및 이를 이용한 어학 학습 시스템
CN104485115A (zh) * 2014-12-04 2015-04-01 上海流利说信息技术有限公司 发音评价设备、方法和系统
CN106531189A (zh) * 2016-12-20 2017-03-22 潘奕君 一种智能口语测评方法
CN109300474A (zh) * 2018-09-14 2019-02-01 北京网众共创科技有限公司 一种语音信号处理方法及装置
CN109300474B (zh) * 2018-09-14 2022-04-26 北京网众共创科技有限公司 一种语音信号处理方法及装置
CN110718210A (zh) * 2019-09-25 2020-01-21 北京字节跳动网络技术有限公司 一种英文错误发音的识别方法、装置、介质和电子设备
CN110718210B (zh) * 2019-09-25 2022-06-07 北京字节跳动网络技术有限公司 一种英文错误发音的识别方法、装置、介质和电子设备

Also Published As

Publication number Publication date
KR100733469B1 (ko) 2007-06-29
KR20050074298A (ko) 2005-07-18

Similar Documents

Publication Publication Date Title
KR20040073291A (ko) 외국어 발음 평가 시스템 및 그 평가 방법
US7013276B2 (en) Method of assessing degree of acoustic confusability, and system therefor
CN101346758B (zh) 感情识别装置
US7962341B2 (en) Method and apparatus for labelling speech
JP4911034B2 (ja) 音声判別システム、音声判別方法及び音声判別用プログラム
US20170301343A1 (en) Method and system for generating advanced feature discrimination vectors for use in speech recognition
Farrús et al. Using jitter and shimmer in speaker verification
Bocklet et al. Age and gender recognition based on multiple systems-early vs. late fusion.
Fatima et al. Short utterance speaker recognition a research agenda
Chittaragi et al. Acoustic-phonetic feature based Kannada dialect identification from vowel sounds
Hou et al. Multi-layered features with SVM for Chinese accent identification
Mahdavi et al. Persian accents identification using modeling of speech articulatory features
Bosch Emotions: what is possible in the ASR framework
CN107610691B (zh) 英语元音发声纠错方法及装置
Chomphan et al. Tone correctness improvement in speaker-independent average-voice-based Thai speech synthesis
Ezzine et al. Moroccan dialect speech recognition system based on cmu sphinxtools
Jung et al. Selecting feature frames for automatic speaker recognition using mutual information
Hanani et al. Palestinian Arabic regional accent recognition
Moungsri et al. HMM-based Thai speech synthesis using unsupervised stress context labeling
Hung et al. Automatic identification of vietnamese dialects
Hillenbrand The acoustics and perception of North American English vowels
Graham et al. Articulation rate as a metric in spoken language assessment
US20150170644A1 (en) Method and apparatus for classifying lexical stress
Lazaridis et al. Syllable-based regional Swiss French accent identification using prosodic features
Amdal et al. Automatic evaluation of quantity contrast in non-native Norwegian speech.

Legal Events

Date Code Title Description
A201 Request for examination
G15R Request for early opening