KR101609473B1 - 영어 말하기 시험의 유창성 평가 시스템 및 방법 - Google Patents

영어 말하기 시험의 유창성 평가 시스템 및 방법 Download PDF

Info

Publication number
KR101609473B1
KR101609473B1 KR1020140138466A KR20140138466A KR101609473B1 KR 101609473 B1 KR101609473 B1 KR 101609473B1 KR 1020140138466 A KR1020140138466 A KR 1020140138466A KR 20140138466 A KR20140138466 A KR 20140138466A KR 101609473 B1 KR101609473 B1 KR 101609473B1
Authority
KR
South Korea
Prior art keywords
phoneme
fluency
duration
rti
score
Prior art date
Application number
KR1020140138466A
Other languages
English (en)
Inventor
권오욱
장병용
Original Assignee
충북대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 충북대학교 산학협력단 filed Critical 충북대학교 산학협력단
Priority to KR1020140138466A priority Critical patent/KR101609473B1/ko
Application granted granted Critical
Publication of KR101609473B1 publication Critical patent/KR101609473B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

본 발명의 영어 말하기 시험의 유창성 평가 시스템은 영어 발화를 포함하는 음성 신호와 전사 텍스트를 입력받아 음소를 정렬하여 인식하고, 이를 이용하여 음소열 및 지속시간 정보를 획득하기 위한 음소열 및 지속시간 추출부, 상기 음소열 및 지속시간 정보로부터 음성학적 특징과 음향학적 특징을 추출하기 위한 유창성 관련 특징 추출부 및 상기 유창성 관련 특징 추출부에서 추출한 음성학적 특징과 음향학적 특징을 이용하여 SVR(support vector regression) 모델을 학습하고, 학습된 SVR 모델을 이용하여 유창성 점수를 산출하기 위한 SVR 모델 학습 및 점수 산출부를 포함한다. 본 발명에 의하면 영어 말하기 시험의 유창성 평가에 있어서 용이하게 특징을 추출할 수 있으며, ‘보고-읽기’ 유형뿐만이 아닌 자유발화의 답변이 요구되는 유형의 문제에서도 유창성 수준에 따른 점수를 산출하여 보여줌으로써, 영어 말하기 시험의 유창성을 용이하게 평가할 수 있는 효과가 있다.

Description

영어 말하기 시험의 유창성 평가 시스템 및 방법 {SYSTEM AND METHOD FOR AUTOMATIC FLUENCY EVALUATION OF ENGLISH SPEAKING TESTS}
본 발명은 영어 말하기의 유창성을 평가하는 자동 유창성 평가에 관한 것으로서, 음성인식 기술을 이용하여 음향학적, 음성학적 유창성 관련 특징을 추출하고, SVR(support vector regression)을 통하여 특징을 결합하여 자동 유창성 평가 시스템을 구현할 수 있는 방법에 관한 것이다.
현재 영어 교육에 있어서 말하기 부분은 그 중요성이 더욱 높아지고 있다. 전국적으로 영어 말하기 대회의 개최가 늘어나고 있으며, 영어 말하기 시험 자격 등급은 취업에서 필수 요소가 되었다. 이러한 추세에 반증이라도 하듯이 국내외 기업 및 연구소에서는 영어 말하기를 학습할 수 있는 도구를 개발하여 발표 및 상용화 하고 있으며, 여기에 발음 및 유창성 평가 기술은 필수적으로 구현되어야 하는 부분이다. 하지만 현재 구현된 유창성 및 발음 평가 기술은 주어진 텍스트를 읽는 ‘보고-읽기’ 유형의 과제에 국한되어 있으며, 자신의 생각을 말하는 과제 유형에서 적용이 불가능하기 때문에 이를 적용 가능한 시스템이 개발되면 말하기 교육뿐만 아니라 말하기 시험 등 많은 응용 분야에 적용가능하다.
유창성을 평가하기 위하여 음성 인식 기술은 가장 핵심적인 기술이라고 할 수 있다. 유창성에 관련한 많은 특징을 추출하기 위하여 음성 인식은 필수 요소이며, 음성 인식 기술 중에서도 음소 정렬 기술을 이용하여 특징을 추출하는 연구가 대부분이였다. 음소 정렬을 이용하여 추출된 음소열 및 지속시간 정보는 유창성 관련 특징을 추출하기 위하여 사용되는데, 발화속도(speech rate)와 발화 시간 비율(phonation time ratio), 로그 사후 확률 점수(log posterior probability score), 음소 지속시간 점수(phone duration score)가 유창성을 평가하는데 유용한 특징이라고 알려져 있으며, 발화안의 묵음 정보 또한 유용한 특징이 될 수 있다고 인문학 분야에서 언급되었다. 하지만 실제로 이러한 특징들을 추출하기 위하여서는 사람의 수동적 특징 추출 과정이 필요하며, 이는 자동 유창성 평가 구현하는데 제한적 요소를 가져다준다. 또한 인문학 분야에서 언급한 발화 내의 묵음에 관련된 특징들은 효율적인 특징 추출 방법이 아직 연구되지 않아 그 성능이 검증되지 않고 있다.
자동 유창성 평가를 위하여서는 추출한 특징의 결합이 필요하고, 이를 위하여서 크게 클래스분류(classification)와 회귀분석(regression) 방법이 존재하며, 가장 기본적인 선형 회귀 방법으로 least square가 있으며, 신경 회로망(neural-network)을 이용한 클래스분류 또는 회귀분석이 가능한 MLP(multi layer perceptron), 최근 널리 사용되는 클래스분류 방법인 SVM(support vector machine), 그리고 SVM을 응용하여 회귀분석을 하는 SVR(support vector regression)이 있고, 신경 회로망과 퍼지(fuzzy)를 결합한 ANFIS(adaptive neuro fuzzy inference system) 등이 있다. 하지만 본 분야에서는 상관분석(cross correlation)을 이용하여 각 특징의 성능을 분석하는게 대부분의 연구이며, 단순히 몇 개의 집단으로 나뉘어져 있는 클래스를 SVM을 이용하여 분류하는 연구가 존재하지만, 실질적 점수를 산출하는 연구는 드물다.
대한민국 등록특허 10-0362292
본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 음성인식 기술을 이용하여 문제 유형에 제한되지 않도록 특징을 추출하고, 이 결과를 바탕으로 자동으로 추출할 수 있는 특징을 선정 및 수정, 제안하고, 추출한 특징을 SVR(support vector regression)을 이용하여 결합하여 유창도 점수를 산출하여 자동 유창성 평가 시스템을 구현할 수 있는 방법을 제공하는데 그 목적이 있다.
본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
이와 같은 목적을 달성하기 위한 본 발명의 영어 말하기 시험의 유창성 평가 시스템은 영어 발화를 포함하는 음성 신호와 전사 텍스트를 입력받아 음소를 정렬하여 인식하고, 이를 이용하여 음소열 및 지속시간 정보를 획득하기 위한 음소열 및 지속시간 추출부, 상기 음소열 및 지속시간 정보로부터 음성학적 특징과 음향학적 특징을 추출하기 위한 유창성 관련 특징 추출부 및 상기 유창성 관련 특징 추출부에서 추출한 음성학적 특징과 음향학적 특징을 이용하여 SVR(support vector regression) 모델을 학습하고, 학습된 SVR 모델을 이용하여 유창성 점수를 산출하기 위한 SVR 모델 학습 및 점수 산출부를 포함한다.
상기 유창성 관련 특징 추출부는 상기 음소열 및 지속시간 정보로부터 발화속도, 조음 속도, 발화 시간 비율, 연속 발화 평균 길이, 빈 묵음 빈도, 빈 묵음 평균 길이를 포함하는 음성학적 특징과, 국소 평균 로그 우도, 전체 평균 로그 우도, 로그 사후 확률 점수, 음소 지속 시간 점수, 음소 로그 우도 점수를 포함하는 음향학적 특징을 추출할 수 있다.
상기 발화 속도(SR, speech rate)는 발화 내의 음절의 개수를 계산하여 획득하며, 음절 단위가 아닌 정렬된 발음열의 모음의 단위를 이용하여 상기 발화 속도 특징을 추출하며, NV는 발화 내 모음의 개수이고, tend는 발화가 끝나는 시간이고, tbeg는 발화가 시작하는 시간이고, 음절의 개수를 모음의 개수로 간주할 때,
Figure 112014097817191-pat00001
(수학식 1)과 같이 계산할 수 있다.
음절 단위가 아닌 정렬된 발음열의 모음의 단위를 이용하여 상기 조음 속도 특징을 추출하며, dUP(i)는 i번째 빈 묵음의 지속 시간이고, NUP는 모든 빈 묵음의 개수라고 할 때, 상기 조음 속도(AR, articulation rate)는,
Figure 112014097817191-pat00002
(수학식 2)와 같이 계산할 수 있다.
상기 발화 시간 비율(PR, phonation time ratio)은 총 발화 시간 중 실제 발화한 시간 비율을 나타내는 특징으로서, 빈 묵음을 제외한 시간을 총 발화 시간으로 나누어서 구하며,
Figure 112014097817191-pat00003
(수학식 3)과 같이 계산할 수 있다.
상기 빈 묵음 빈도(numUP)는 묵음 관련 특징으로 빈 묵음의 개수를 총 발화 시간으로 나눠서 구하며, 이 때 빈 묵음의 지속 시간을 고려하기 위하여 시그모이드 함수를 적용하여 추출하며,
Figure 112014097817191-pat00004
(수학식 5)와 같이 계산되고, 이 때, f(ㆍ)는 시그모이드 함수로서,
Figure 112014097817191-pat00005
(수학식 6)과 같이 정의될 수 있다.
상기 빈 묵음 평균 길이(lenUP)는 빈 묵음의 길이와 관련된 특징으로서,
Figure 112014097817191-pat00006
(수학식 7)과 같이 계산할 수 있다.
상기 국소 평균 로그 우도(LLH)는 로그 우도 값을 음소 단위로 평균을 낸 값으로, NP는 음소의 개수이고, li는 i번째 음소의 로그 우도 값이고, di는 i번째 음소의 지속시간 값이라고 할 때,
Figure 112014097817191-pat00007
(수학식 8)과 같이 나타낼 수 있다.
상기 전체 평균 로그 우도(GLH)는 로그 우도 값을 각 프레임 단위로 평균을 낸 값으로서,
Figure 112014097817191-pat00008
(수학식 9)와 같이 계산할 수 있다.
상기 음소 로그 우도 점수(PLS)는 로그 우도에 대하여 원어민 모델을 만든 후 그 확률 값을 계산하며, NP는 발화 내 음소의 개수이고, li는 i번째 음소의 로그 우도 점수이며, p(li)는 원어민 확률 모델을 적용한 확률 값이라고 할 때,
Figure 112014097817191-pat00009
(수학식 14)와 같이 계산할 수 있다.
본 발명의 영어 말하기 시험의 유창성을 평가하기 위한 유창성 평가 시스템에서의 유창성 평가 방법에 있어서, 영어 발화를 포함하는 음성 신호와 전사 텍스트를 입력받아 음소를 정렬하여 인식하고, 이를 이용하여 음소열 및 지속시간 정보를 획득하기 위한 음소열 및 지속시간 추출 단계, 상기 음소열 및 지속시간 정보로부터 음성학적 특징과 음향학적 특징을 추출하기 위한 유창성 관련 특징 추출 단계 및 상기 유창성 관련 특징 추출 단계에서 추출한 음성학적 특징과 음향학적 특징을 이용하여 SVR(support vector regression) 모델을 학습하고, 학습된 SVR 모델을 이용하여 유창성 점수를 산출하기 위한 SVR 모델 학습 및 점수 산출단계를 포함한다.
상기 유창성 관련 특징 추출 단계는 상기 음소열 및 지속시간 정보로부터 발화속도, 조음 속도, 발화 시간 비율, 연속 발화 평균 길이, 빈 묵음 빈도, 빈 묵음 평균 길이를 포함하는 음성학적 특징과, 국소 평균 로그 우도, 전체 평균 로그 우도, 로그 사후 확률 점수, 음소 지속 시간 점수, 음소 로그 우도 점수를 포함하는 음향학적 특징을 추출할 수 있다.
상기 발화 속도(SR, speech rate)는 발화 내의 음절의 개수를 계산하여 획득하며, 음절 단위가 아닌 정렬된 발음열의 모음의 단위를 이용하여 상기 발화 속도 특징을 추출하며, NV는 발화 내 모음의 개수이고, tend는 발화가 끝나는 시간이고, tbeg는 발화가 시작하는 시간이고, 음절의 개수를 모음의 개수로 간주할 때,
Figure 112014097817191-pat00010
(수학식 1)과 같이 계산할 수 있다.
음절 단위가 아닌 정렬된 발음열의 모음의 단위를 이용하여 상기 조음 속도 특징을 추출하며, dUP(i)는 i번째 빈 묵음의 지속 시간이고, NUP는 모든 빈 묵음의 개수라고 할 때, 상기 조음 속도(AR, articulation rate)는,
Figure 112014097817191-pat00011
(수학식 2)와 같이 계산할 수 있다.
상기 발화 시간 비율(PR, phonation time ratio)은 총 발화 시간 중 실제 발화한 시간 비율을 나타내는 특징으로서, 빈 묵음을 제외한 시간을 총 발화 시간으로 나누어서 구하며,
Figure 112014097817191-pat00012
(수학식 3)과 같이 계산할 수 있다.
상기 빈 묵음 빈도(numUP)는 묵음 관련 특징으로 빈 묵음의 개수를 총 발화 시간으로 나눠서 구하며, 이 때 빈 묵음의 지속 시간을 고려하기 위하여 시그모이드 함수를 적용하여 추출하며,
Figure 112014097817191-pat00013
(수학식 5)와 같이 계산되고, 이 때, f(ㆍ)는 시그모이드 함수로서,
Figure 112014097817191-pat00014
(수학식 6)과 같이 정의될 수 있다.
상기 빈 묵음 평균 길이(lenUP)는 빈 묵음의 길이와 관련된 특징으로서,
Figure 112014097817191-pat00015
(수학식 7)과 같이 계산할 수 있다.
상기 국소 평균 로그 우도(LLH)는 로그 우도 값을 음소 단위로 평균을 낸 값으로, NP는 음소의 개수이고, li는 i번째 음소의 로그 우도 값이고, di는 i번째 음소의 지속시간 값이라고 할 때,
Figure 112014097817191-pat00016
(수학식 8)과 같이 나타낼 수 있다.
상기 전체 평균 로그 우도(GLH)는 로그 우도 값을 각 프레임 단위로 평균을 낸 값으로서,
Figure 112014097817191-pat00017
(수학식 9)와 같이 계산할 수 있다.
상기 음소 로그 우도 점수(PLS)는 로그 우도에 대하여 원어민 모델을 만든 후 그 확률 값을 계산하며, NP는 발화 내 음소의 개수이고, li는 i번째 음소의 로그 우도 점수이며, p(li)는 원어민 확률 모델을 적용한 확률 값이라고 할 때,
Figure 112014097817191-pat00018
(수학식 14)와 같이 계산할 수 있다.
본 발명에 의하면 영어 말하기 시험의 유창성 평가에 있어서 용이하게 특징을 추출할 수 있으며, ‘보고-읽기’ 유형뿐만이 아닌 자유발화의 답변이 요구되는 유형의 문제에서도 유창성 수준에 따른 점수를 산출하여 보여줌으로써, 영어 말하기 시험의 유창성을 용이하게 평가할 수 있는 효과가 있다.
또한, 본 발명에 의하면 발화자에게 유창한 정도를 제공함으로써, 모의 평가를 실시하거나 부족한 부분을 피드백받는 효과를 기대할 수 있다.
도 1은 본 발명의 일 실시예에 따른 영어 말하기 시험의 유창성 평가 시스템을 도시한 블록도이다.
도 2는 본 발명의 일 실시예에 따른 영어 말하기 시험의 유창성 평가 시스템의 전체 구조를 학습 과정과 평가 과정으로 나누어 상세하게 도시한 블록도이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 갖는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
도 1은 본 발명의 일 실시예에 따른 영어 말하기 시험의 유창성 평가 시스템을 도시한 블록도이다.
도 1에서 보는 바와 같이, 본 발명에서는 음성신호 및 전사텍스트 정보를 이용하여 유창성 점수를 산출한다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 영어 말하기 시험의 유창성 평가 시스템은 음소열 및 지속시간 추출부(100), 유창성 관련 특징 추출부(200) 및 SVR 모델 학습 및 점수 산출부(300)를 포함한다.
음소열 및 지속시간 추출부(100)는 영어 발화를 포함하는 음성 신호와 전사 텍스트를 입력받아 음소를 정렬하여 인식하고, 이를 이용하여 음소열 및 지속시간 정보를 획득하는 역할을 한다.
유창성 관련 특징 추출부(200)는 음소열 및 지속시간 정보로부터 음성학적 특징과 음향학적 특징을 추출한다.
SVR 모델 학습 및 점수 산출부(300)는 유창성 관련 특징 추출부(200)에서 추출한 음성학적 특징과 음향학적 특징을 이용하여 SVR(support vector regression) 모델을 학습하고, 학습된 SVR 모델을 이용하여 유창성 점수를 산출하는 역할을 한다.
본 발명의 영어 말하기 시험의 유창성을 평가하기 위한 유창성 평가 시스템에서의 유창성 평가 방법에 있어서, 영어 발화를 포함하는 음성 신호와 전사 텍스트를 입력받아 음소를 정렬하여 인식하고, 이를 이용하여 음소열 및 지속시간 정보를 획득하기 위한 음소열 및 지속시간 추출 단계, 상기 음소열 및 지속시간 정보로부터 음성학적 특징과 음향학적 특징을 추출하기 위한 유창성 관련 특징 추출 단계 및 상기 유창성 관련 특징 추출 단계에서 추출한 음성학적 특징과 음향학적 특징을 이용하여 SVR(support vector regression) 모델을 학습하고, 학습된 SVR 모델을 이용하여 유창성 점수를 산출하기 위한 SVR 모델 학습 및 점수 산출단계를 포함한다.
도 2는 본 발명의 일 실시예에 따른 영어 말하기 시험의 유창성 평가 시스템의 전체 구조를 학습 과정과 평가 과정으로 나누어 상세하게 도시한 블록도이다.
도 2는 본 발명의 영어 말하기 시험의 유창성 평가 시스템의 전체 구조를 학습 과정과 평가 과정으로 나누어 더욱 상세히 보여주는 도면이다.
도 2를 참조하면, 학습 과정인 (a)에서는 음성 신호 및 전사텍스트의 음소열 및 지속시간을 추출하고, 이 정보를 이용하여 유창성 관련 특징을 추출하여 평가자의 점수를 이용하여 SVR 모델을 학습하고, 평가 과정인 (b)에서는 학습 과정과 동일한 방법으로 유창성 관련 특징을 추출한 후, 학습 과정에서 생성한 SVR 모델을 이용하여 최종 유창성 점수를 산출함을 보여준다.
음소열 및 지속시간 추출부(100)는 음소 정렬 방법과 음소 인식 방법 2가지 방법이 있다.
음소 정렬 방법은 영어 발화와 전사 텍스트가 필요하며, 이는 ‘보고-읽기’와 같은 텍스트가 주어진 문제 유형에서 효과적인 음소열 및 지속시간 추출을 할 수 있다.
음소 인식 방법은 영어 발화만을 가지고 음소열 및 지속시간 정보를 추출하기 때문에 자유 발화 답변이 요구되는 문제 유형에서도 음소열 및 지속시간 정보를 추출할 수 있으며, 이렇게 추출된 정보는 유창성 관련 특징 추출부(200)에서 특징을 추출하는데 필요한 정보를 제공한다.
유창성 관련 특징 추출부(200)는 음소열 및 지속시간 추출부(100)에서 획득한 정보를 이용하여 6개의 음성학적 특징과 5개의 음향학적 특징을 추출한다.
6개의 음성학적 특징은 발화속도, 조음속도, 발화 시간 비율, 연속 발화 평균 길이, 빈 묵음 빈도, 빈 묵음 평균 길이이다. 기본적으로 음성학적 특징을 추출시에는 음절단위의 분할이 필요한데, 영어에서 음절단위 분할은 한국어에서와 달리 어려우며, 이를 해결하고자 음절단위 분할을 정렬된 음소열 중 모음의 기준으로 분할학, 이를 바탕으로 음절의 개수는 모음의 개수로 정의한다.
음성학적 특징 중 발화 속도(SR, speech rate)는 발화 내의 음절의 개수를 계산하여 획득하며, 위에서 정의하였듯이 음절의 개수는 모음의 개수로 간주하여 다음 수학식 1과 같이 계산하여 특징을 추출할 수 있다.
Figure 112014097817191-pat00019
여기서 NV는 발화 내 모음의 개수이고, tend는 발화가 끝나는 시간이고, tbeg는 발화가 시작하는 시간이다.
조음 속도(AR, articulation rate)는 발화 속도와 비슷한 개념으로 묵음을 제거한 시간을 사용하며, 다음 수학식 2와 같이 계산하여 특징을 추출할 수 있다.
Figure 112014097817191-pat00020
여기서 dUP(i)는 i번째 빈 묵음의 지속 시간이고, NUP는 모든 빈 묵음의 개수이다. 수학식 2에서 모든 빈 묵음의 지속 시간을 제거함으로써 발화 속도와 구분된다. 묵음은 빈 묵음(unfilled pause)과 채워진 묵음(filled pause)으로 나뉘는데, 빈 묵음은 소리가 없는 묵음이고, 채워진 묵음은 더듬음이나 반복(repetition) 등을 말한다.
발화 시간 비율(PR, phonation time ratio)은 총 발화 시간 중 실제 발화한 시간 비율을 나타내는 특징으로 빈 묵음을 제외한 시간을 총 발화 시간으로 나누어서 구하며, 이는 다음 수학식 3과 같이 계산한다.
Figure 112014097817191-pat00021
연속 발화 평균 길이(LR)는 0.25초 이상의 빈 묵음 사이의 음절 개수의 평균이다. 여기서 0.25초는 컷-오프 포인트(cut-off point)라고 하며, 컷-오프 포인트(cut-off point)가 0.25초보다 짧으면 파열음(plosive)이 묵음으로 간주되고, 0.25초보다 길면 생략되는 양이 많아진다. 발화 샘플의 시작과 끝이 항상 0.25초 이상의 빈 묵음으로 구성되어 있다면, 이 특징은 다음 수학식 4와 같이 계산된다.
Figure 112014097817191-pat00022
여기서, NUP0 .25 는 0.25초 이상의 빈 묵음의 개수이다.
빈 묵음 빈도(numUP)는 묵음 관련 특징으로 빈 묵음의 개수를 총 발화 시간으로 나눠서 구하는데, 이 때 빈 묵음의 지속 시간을 고려하기 위하여 시그모이드 함수를 적용하여 추출하며, 이 특징은 수학식 5와 같이 계산한다.
Figure 112014097817191-pat00023
이 때, f(ㆍ)는 시그모이드 함수로서, 다음 수학식 6과 같이 정의한다.
Figure 112014097817191-pat00024
빈 묵음 평균 길이(lenUP)는 빈 묵음의 길이와 관련된 특징으로 다음 수학식 7과 같이 계산한다.
Figure 112014097817191-pat00025
5개의 음향학적 특징은 국소 평균 로그 우도, 전체 평균 로그 우도, 로그 사후 확률 점수, 음소 지속 시간 점수, 음소 로그 우도 점수이며, 이 특징들은 유창성 평가 부분에서 발음을 평가하는데 관련이 크다. 이 특징들 중 국소 평균 로그 우도(LLH)는 로그 우도 값을 음소 단위로 평균을 낸 값으로 다음 수학식 8과 같이 계산한다.
Figure 112014097817191-pat00026
여기서, NP는 음소의 개수이고, li는 i번째 음소의 로그 우도 값이고, di는 i번째 음소의 지속시간 값이다.
이와 비슷한 특징으로 전체 평균 로그 우도(GLH)는 로그 우도 값을 각 프레임 단위로 평균을 낸 값으로 다음 수학식 9와 같이 계산한다.
Figure 112014097817191-pat00027
로그 사후 확률 점수(LPS)는 사후 확률 값으로서, 인식기를 통해 인식된 음소가 얼마나 큰 비중을 가지는지를 판단하여 정확한 발음을 했는지를 가늠하는 특징이다. 일반적으로 t번째 프레임의 정렬된 음소 qt의 사후 확률 p(qt|x)는 다음 수학식 10과 같이 계산한다.
Figure 112014097817191-pat00028
여기서 x는 음성 인식기의 특징 벡터로서 MFCC이고, qt는 음소 정렬 결과에서 t번째 프레임의 음소 클래스이며, wk ,t는 t번째 프레임에서 k번째 경쟁 음소 클래스를 나타내고, Nc는 후보 음소의 개수이다. 이 때, 보편적으로 N-best 음소 정렬 결과에서 구한 N개의 후보만을 가지고 사후 확률을 근사적으로 계산하며, 이는 다음 수학식 11과 같이 계산한다.
Figure 112014097817191-pat00029
여기서, p(qt|x)는 t번째 프레임의 사후 확률이고, NP는 음소의 개수이다.
음소 지속 시간 점수(PDS)는 원어민의 음소 지속 시간 확률 모델을 이용하여 비원어민의 발음을 평가하기 위한 것으로 다음 수학식 12와 같이 계산한다.
Figure 112014097817191-pat00030
여기서,
Figure 112014097817191-pat00031
는 i번째 음소의 정규화된 지속시간으로, 이는 다음 수학식 13과 같이 계산한다.
Figure 112014097817191-pat00032
그리고 p(x)는 원어민 발화에서 추출한 지속시간 정보를 이용하여 획득한 확률 모델로서, 이는 가우시안 확률 모델, Zip’s law 모델 등이 될 수 있다.
음소 로그 우도 점수(PLS)는 음소 지속 시간 점수와 비슷한 개념으로 로그 우도에 대하여 원어민 모델을 만든 후 그 확률 값을 계산하며, 이는 다음 수학식 14와 같이 계산한다.
Figure 112014097817191-pat00033
여기서, NP는 발화 내 음소의 개수이고, li는 i번째 음소의 로그 우도 점수이며, p(li)는 원어민 확률 모델을 적용한 확률 값이다.
SVR 모델 학습 및 점수 산출부(300)에서는 유창성 관련 특징 추출부(200)에서 획득한 특징들 중 학습 데이터를 이용하여 SVR(support vector regression) 모델을 학습하고, 학습한 SVR 모델을 이용하여 검증 데이터의 유창성 점수를 산출하여 최종 점수를 획득한다.
이상 본 발명을 몇 가지 바람직한 실시예를 사용하여 설명하였으나, 이들 실시예는 예시적인 것이며 한정적인 것이 아니다. 본 발명이 속하는 기술분야에서 통상의 지식을 지닌 자라면 본 발명의 사상과 첨부된 특허청구범위에 제시된 권리범위에서 벗어나지 않으면서 다양한 변화와 수정을 가할 수 있음을 이해할 것이다.
100 음소열 및 지속시간 추출부
200 유창성 관련 특징 추출부
300 SVR 모델 학습 및 점수 산출부

Claims (20)

  1. 영어 발화를 포함하는 음성 신호와 전사 텍스트를 입력받아 음소를 정렬하여 인식하고, 이를 이용하여 음소열 및 지속시간 정보를 획득하기 위한 음소열 및 지속시간 추출부;
    상기 음소열 및 지속시간 정보로부터 음성학적 특징과 음향학적 특징을 추출하기 위한 유창성 관련 특징 추출부; 및
    상기 유창성 관련 특징 추출부에서 추출한 음성학적 특징과 음향학적 특징을 이용하여 SVR(support vector regression) 모델을 학습하고, 학습된 SVR 모델을 이용하여 유창성 점수를 산출하기 위한 SVR 모델 학습 및 점수 산출부를 포함하며,
    상기 유창성 관련 특징 추출부는 상기 음소열 및 지속시간 정보로부터 발화속도, 조음 속도, 발화 시간 비율, 연속 발화 평균 길이, 빈 묵음 빈도, 빈 묵음 평균 길이를 포함하는 음성학적 특징과, 국소 평균 로그 우도, 전체 평균 로그 우도, 로그 사후 확률 점수, 음소 지속 시간 점수, 음소 로그 우도 점수를 포함하는 음향학적 특징을 추출하고,
    상기 발화 속도(SR, speech rate)는 발화 내의 음절의 개수를 계산하여 획득하며, 음절 단위가 아닌 정렬된 발음열의 모음의 단위를 이용하여 상기 발화 속도 특징을 추출하며,
    NV는 발화 내 모음의 개수이고, tend는 발화가 끝나는 시간이고, tbeg는 발화가 시작하는 시간이고, 음절의 개수를 모음의 개수로 간주할 때,
    Figure 112015104681505-pat00054
    (수학식 1)과 같이 계산할 수 있으며,
    x는 음성 인식기의 특징 벡터이고, qt는 음소 정렬 결과에서 t번째 프레임의 음소 클래스이며, wk,t는 t번째 프레임에서 k번째 경쟁 음소 클래스이고, Nc는 후보 음소의 개수라고 할 때, t번째 프레임의 정렬된 음소 qt의 사후 확률 p(qt|x)를
    Figure 112015104681505-pat00055
    (수학식 10)으로 계산할 수 있으며,
    p(qt|x)는 t번째 프레임의 사후 확률이고, NP는 음소의 개수라고 할 때, 사후 확률 값으로서, 인식기를 통해 인식된 음소가 얼마나 큰 비중을 가지는지를 판단하여 정확한 발음을 했는지를 가늠하는 특징인 로그 사후 확률 점수(LPS)는,
    Figure 112015104681505-pat00056
    (수학식 11)로 나타낼 수 있고,
    p(x)는 원어민 발화에서 추출한 지속시간 정보를 이용하여 획득한 확률 모델이고,
    Figure 112015104681505-pat00057
    는 i번째 음소의 정규화된 지속시간이라고 할 때, 원어민의 음소 지속 시간 확률 모델을 이용하여 비원어민의 발음을 평가하기 위한 것인 음소 지속 시간 점수(PDS)는,
    Figure 112015104681505-pat00058
    (수학식 13),
    Figure 112015104681505-pat00059
    (수학식 12)로 나타낼 수 있는 것을 특징으로 하는 영어 말하기 시험의 유창성 평가 시스템.
  2. 삭제
  3. 삭제
  4. 청구항 1에 있어서,
    음절 단위가 아닌 정렬된 발음열의 모음의 단위를 이용하여 상기 조음 속도 특징을 추출하며,
    dUP(i)는 i번째 빈 묵음의 지속 시간이고, NUP는 모든 빈 묵음의 개수라고 할 때, 상기 조음 속도(AR, articulation rate)는,
    Figure 112015104681505-pat00035
    (수학식 2)와 같이 계산할 수 있는 것을 특징으로 하는 영어 말하기 시험의 유창성 평가 시스템.
  5. 청구항 4에 있어서,
    상기 발화 시간 비율(PR, phonation time ratio)은 총 발화 시간 중 실제 발화한 시간 비율을 나타내는 특징으로서, 빈 묵음을 제외한 시간을 총 발화 시간으로 나누어서 구하며,
    Figure 112014097817191-pat00036
    (수학식 3)과 같이 계산할 수 있는 것을 특징으로 하는 영어 말하기 시험의 유창성 평가 시스템.
  6. 청구항 5에 있어서,
    상기 빈 묵음 빈도(numUP)는 묵음 관련 특징으로 빈 묵음의 개수를 총 발화 시간으로 나눠서 구하며, 이 때 빈 묵음의 지속 시간을 고려하기 위하여 시그모이드 함수를 적용하여 추출하며,
    Figure 112014097817191-pat00037
    (수학식 5)와 같이 계산되고,
    이 때, f(ㆍ)는 시그모이드 함수로서,
    Figure 112014097817191-pat00038
    (수학식 6)과 같이 정의되는 것을 특징으로 하는 영어 말하기 시험의 유창성 평가 시스템.
  7. 청구항 6에 있어서,
    상기 빈 묵음 평균 길이(lenUP)는 빈 묵음의 길이와 관련된 특징으로서,
    Figure 112014097817191-pat00039
    (수학식 7)과 같이 계산할 수 있는 것을 특징으로 하는 영어 말하기 시험의 유창성 평가 시스템.
  8. 청구항 7에 있어서,
    상기 국소 평균 로그 우도(LLH)는 로그 우도 값을 음소 단위로 평균을 낸 값으로,
    NP는 음소의 개수이고, li는 i번째 음소의 로그 우도 값이고, di는 i번째 음소의 지속시간 값이라고 할 때,
    Figure 112014097817191-pat00040
    (수학식 8)과 같이 나타낼 수 있는 것을 특징으로 하는 영어 말하기 시험의 유창성 평가 시스템.
  9. 청구항 8에 있어서,
    상기 전체 평균 로그 우도(GLH)는 로그 우도 값을 각 프레임 단위로 평균을 낸 값으로서,
    Figure 112014097817191-pat00041
    (수학식 9)와 같이 계산할 수 있는 것을 특징으로 하는 영어 말하기 시험의 유창성 평가 시스템.
  10. 청구항 9에 있어서,
    상기 음소 로그 우도 점수(PLS)는 로그 우도에 대하여 원어민 모델을 만든 후 그 확률 값을 계산하며,
    NP는 발화 내 음소의 개수이고, li는 i번째 음소의 로그 우도 점수이며, p(li)는 원어민 확률 모델을 적용한 확률 값이라고 할 때,
    Figure 112014097817191-pat00042
    (수학식 14)와 같이 계산할 수 있는 것을 특징으로 하는 영어 말하기 시험의 유창성 평가 시스템.
  11. 영어 말하기 시험의 유창성을 평가하기 위한 유창성 평가 시스템에서의 유창성 평가 방법에 있어서,
    영어 발화를 포함하는 음성 신호와 전사 텍스트를 입력받아 음소를 정렬하여 인식하고, 이를 이용하여 음소열 및 지속시간 정보를 획득하기 위한 음소열 및 지속시간 추출 단계;
    상기 음소열 및 지속시간 정보로부터 음성학적 특징과 음향학적 특징을 추출하기 위한 유창성 관련 특징 추출 단계; 및
    상기 유창성 관련 특징 추출 단계에서 추출한 음성학적 특징과 음향학적 특징을 이용하여 SVR(support vector regression) 모델을 학습하고, 학습된 SVR 모델을 이용하여 유창성 점수를 산출하기 위한 SVR 모델 학습 및 점수 산출단계를 포함하며,
    상기 유창성 관련 특징 추출 단계는 상기 음소열 및 지속시간 정보로부터 발화속도, 조음 속도, 발화 시간 비율, 연속 발화 평균 길이, 빈 묵음 빈도, 빈 묵음 평균 길이를 포함하는 음성학적 특징과, 국소 평균 로그 우도, 전체 평균 로그 우도, 로그 사후 확률 점수, 음소 지속 시간 점수, 음소 로그 우도 점수를 포함하는 음향학적 특징을 추출하고,
    상기 발화 속도(SR, speech rate)는 발화 내의 음절의 개수를 계산하여 획득하며, 음절 단위가 아닌 정렬된 발음열의 모음의 단위를 이용하여 상기 발화 속도 특징을 추출하며,
    NV는 발화 내 모음의 개수이고, tend는 발화가 끝나는 시간이고, tbeg는 발화가 시작하는 시간이고, 음절의 개수를 모음의 개수로 간주할 때,
    Figure 112015104681505-pat00060
    (수학식 1)과 같이 계산할 수 있으며,
    x는 음성 인식기의 특징 벡터이고, qt는 음소 정렬 결과에서 t번째 프레임의 음소 클래스이며, wk,t는 t번째 프레임에서 k번째 경쟁 음소 클래스이고, Nc는 후보 음소의 개수라고 할 때, t번째 프레임의 정렬된 음소 qt의 사후 확률 p(qt|x)를
    Figure 112015104681505-pat00061
    (수학식 10)으로 계산할 수 있으며,
    p(qt|x)는 t번째 프레임의 사후 확률이고, NP는 음소의 개수라고 할 때, 사후 확률 값으로서, 인식기를 통해 인식된 음소가 얼마나 큰 비중을 가지는지를 판단하여 정확한 발음을 했는지를 가늠하는 특징인 로그 사후 확률 점수(LPS)는,
    Figure 112015104681505-pat00062
    (수학식 11)로 나타낼 수 있고,
    p(x)는 원어민 발화에서 추출한 지속시간 정보를 이용하여 획득한 확률 모델이고,
    Figure 112015104681505-pat00063
    는 i번째 음소의 정규화된 지속시간이라고 할 때, 원어민의 음소 지속 시간 확률 모델을 이용하여 비원어민의 발음을 평가하기 위한 것인 음소 지속 시간 점수(PDS)는,
    Figure 112015104681505-pat00064
    (수학식 13),
    Figure 112015104681505-pat00065
    (수학식 12)로 나타낼 수 있는 것을 특징으로 하는 영어 말하기 시험의 유창성 평가 방법.
  12. 삭제
  13. 삭제
  14. 청구항 11에 있어서,
    음절 단위가 아닌 정렬된 발음열의 모음의 단위를 이용하여 상기 조음 속도 특징을 추출하며,
    dUP(i)는 i번째 빈 묵음의 지속 시간이고, NUP는 모든 빈 묵음의 개수라고 할 때, 상기 조음 속도(AR, articulation rate)는,
    Figure 112015104681505-pat00044
    (수학식 2)와 같이 계산할 수 있는 것을 특징으로 하는 영어 말하기 시험의 유창성 평가 방법.
  15. 청구항 14에 있어서,
    상기 발화 시간 비율(PR, phonation time ratio)은 총 발화 시간 중 실제 발화한 시간 비율을 나타내는 특징으로서, 빈 묵음을 제외한 시간을 총 발화 시간으로 나누어서 구하며,
    Figure 112014097817191-pat00045
    (수학식 3)과 같이 계산할 수 있는 것을 특징으로 하는 영어 말하기 시험의 유창성 평가 방법.
  16. 청구항 15에 있어서,
    상기 빈 묵음 빈도(numUP)는 묵음 관련 특징으로 빈 묵음의 개수를 총 발화 시간으로 나눠서 구하며, 이 때 빈 묵음의 지속 시간을 고려하기 위하여 시그모이드 함수를 적용하여 추출하며,
    Figure 112014097817191-pat00046
    (수학식 5)와 같이 계산되고,
    이 때, f(ㆍ)는 시그모이드 함수로서,
    Figure 112014097817191-pat00047
    (수학식 6)과 같이 정의되는 것을 특징으로 하는 영어 말하기 시험의 유창성 평가 방법.
  17. 청구항 16에 있어서,
    상기 빈 묵음 평균 길이(lenUP)는 빈 묵음의 길이와 관련된 특징으로서,
    Figure 112014097817191-pat00048
    (수학식 7)과 같이 계산할 수 있는 것을 특징으로 하는 영어 말하기 시험의 유창성 평가 방법.
  18. 청구항 17에 있어서,
    상기 국소 평균 로그 우도(LLH)는 로그 우도 값을 음소 단위로 평균을 낸 값으로,
    NP는 음소의 개수이고, li는 i번째 음소의 로그 우도 값이고, di는 i번째 음소의 지속시간 값이라고 할 때,
    Figure 112014097817191-pat00049
    (수학식 8)과 같이 나타낼 수 있는 것을 특징으로 하는 영어 말하기 시험의 유창성 평가 방법.
  19. 청구항 18에 있어서,
    상기 전체 평균 로그 우도(GLH)는 로그 우도 값을 각 프레임 단위로 평균을 낸 값으로서,
    Figure 112014097817191-pat00050
    (수학식 9)와 같이 계산할 수 있는 것을 특징으로 하는 영어 말하기 시험의 유창성 평가 방법.
  20. 청구항 19에 있어서,
    상기 음소 로그 우도 점수(PLS)는 로그 우도에 대하여 원어민 모델을 만든 후 그 확률 값을 계산하며,
    NP는 발화 내 음소의 개수이고, li는 i번째 음소의 로그 우도 점수이며, p(li)는 원어민 확률 모델을 적용한 확률 값이라고 할 때,
    Figure 112014097817191-pat00051
    (수학식 14)와 같이 계산할 수 있는 것을 특징으로 하는 영어 말하기 시험의 유창성 평가 방법.
KR1020140138466A 2014-10-14 2014-10-14 영어 말하기 시험의 유창성 평가 시스템 및 방법 KR101609473B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140138466A KR101609473B1 (ko) 2014-10-14 2014-10-14 영어 말하기 시험의 유창성 평가 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140138466A KR101609473B1 (ko) 2014-10-14 2014-10-14 영어 말하기 시험의 유창성 평가 시스템 및 방법

Publications (1)

Publication Number Publication Date
KR101609473B1 true KR101609473B1 (ko) 2016-04-05

Family

ID=55800411

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140138466A KR101609473B1 (ko) 2014-10-14 2014-10-14 영어 말하기 시험의 유창성 평가 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR101609473B1 (ko)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109087667A (zh) * 2018-09-19 2018-12-25 平安科技(深圳)有限公司 语音流利度识别方法、装置、计算机设备及可读存储介质
CN109584906A (zh) * 2019-01-31 2019-04-05 成都良师益友科技有限公司 口语发音评测方法、装置、设备及存储设备
KR20190068841A (ko) 2017-12-11 2019-06-19 윤영훈 인공지능 음성인식 api를 활용한 영어 발음 훈련 및 평가 시스템
WO2020027394A1 (ko) * 2018-08-02 2020-02-06 미디어젠 주식회사 음소 단위 발음 정확성 평가 장치 및 평가 방법
CN111358428A (zh) * 2020-01-20 2020-07-03 书丸子(北京)科技有限公司 一种观察能力测试评定方法和装置
KR20200081092A (ko) * 2018-12-27 2020-07-07 주식회사 한국지텔프 항공영어 구술 능력 시험 시스템 및 방법과, 이를 위한 컴퓨터 프로그램
KR20200088073A (ko) * 2019-01-14 2020-07-22 김주혁 영어 말하기 평가 시스템 및 방법
WO2020149621A1 (ko) * 2019-01-14 2020-07-23 김주혁 영어 말하기 평가 시스템 및 방법
CN111833853A (zh) * 2020-07-01 2020-10-27 腾讯科技(深圳)有限公司 语音处理方法及装置、电子设备、计算机可读存储介质
KR20210012503A (ko) * 2019-07-25 2021-02-03 주식회사 제네시스랩 온라인 면접을 제공하는 방법, 시스템 및 컴퓨터-판독가능 매체
KR20210037231A (ko) * 2019-09-27 2021-04-06 주식회사 에이치투케이 인공지능 기반의 유아 한글 수준별 진단 평가 장치 및 방법
KR20210059581A (ko) * 2019-11-15 2021-05-25 한국전자통신연구원 말하기의 자동 유창성 평가 방법 및 그 장치
CN112951270A (zh) * 2019-11-26 2021-06-11 新东方教育科技集团有限公司 语音流利度检测的方法、装置和电子设备
KR102274764B1 (ko) * 2020-09-02 2021-07-08 미디어젠(주) 통계정보를 제공하는 사용자 맞춤형 발음 평가 시스템
KR102274751B1 (ko) * 2020-09-04 2021-07-08 미디어젠(주) 평가정보를 제공하는 사용자 맞춤형 발음 평가 시스템
KR20210109757A (ko) 2020-02-28 2021-09-07 순천향대학교 산학협력단 발성에 따른 영문학 작품의 학습장치 및 방법
CN115273897A (zh) * 2022-08-05 2022-11-01 北京有竹居网络技术有限公司 用于处理语音数据的方法、装置、设备和存储介质
KR102724095B1 (ko) * 2023-11-29 2024-10-30 신성준 비대면 외국어 말하기 시험 제공 장치 및 시스템

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Judit Kormos et al., ‘Exploring measures and perceptions of fluency in the speech of second language learners’, System 32, pp.145~164, 2004.*
Leonardo Neumeyer et al., ‘Automatic scoring of pronunciation quality’, Speech Communication 30, pp.83~93, 2000.*
Lex Wang et al., ‘Automatic fluency assessment of non-native english reading’, JCIT, Vol.7, No.19, pp.636~642, October 2012.*

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190068841A (ko) 2017-12-11 2019-06-19 윤영훈 인공지능 음성인식 api를 활용한 영어 발음 훈련 및 평가 시스템
WO2020027394A1 (ko) * 2018-08-02 2020-02-06 미디어젠 주식회사 음소 단위 발음 정확성 평가 장치 및 평가 방법
CN109087667B (zh) * 2018-09-19 2023-09-26 平安科技(深圳)有限公司 语音流利度识别方法、装置、计算机设备及可读存储介质
CN109087667A (zh) * 2018-09-19 2018-12-25 平安科技(深圳)有限公司 语音流利度识别方法、装置、计算机设备及可读存储介质
KR102224822B1 (ko) 2018-12-27 2021-03-08 주식회사 한국지텔프 항공영어 구술 능력 시험 시스템 및 방법과, 이를 위한 컴퓨터 프로그램
KR20200081092A (ko) * 2018-12-27 2020-07-07 주식회사 한국지텔프 항공영어 구술 능력 시험 시스템 및 방법과, 이를 위한 컴퓨터 프로그램
KR20200088073A (ko) * 2019-01-14 2020-07-22 김주혁 영어 말하기 평가 시스템 및 방법
WO2020149621A1 (ko) * 2019-01-14 2020-07-23 김주혁 영어 말하기 평가 시스템 및 방법
KR102196917B1 (ko) * 2019-01-14 2020-12-30 김주혁 영어 말하기 평가 시스템 및 방법
CN109584906A (zh) * 2019-01-31 2019-04-05 成都良师益友科技有限公司 口语发音评测方法、装置、设备及存储设备
CN109584906B (zh) * 2019-01-31 2021-06-08 成都良师益友科技有限公司 口语发音评测方法、装置、设备及存储设备
KR102297947B1 (ko) 2019-07-25 2021-09-03 주식회사 제네시스랩 온라인 면접을 제공하는 방법, 시스템 및 컴퓨터-판독가능 매체
KR20210012503A (ko) * 2019-07-25 2021-02-03 주식회사 제네시스랩 온라인 면접을 제공하는 방법, 시스템 및 컴퓨터-판독가능 매체
KR102297265B1 (ko) * 2019-09-27 2021-09-03 주식회사 에이치투케이 인공지능 기반의 유아 한글 수준별 진단 평가 장치 및 방법
KR20210037231A (ko) * 2019-09-27 2021-04-06 주식회사 에이치투케이 인공지능 기반의 유아 한글 수준별 진단 평가 장치 및 방법
KR20210059581A (ko) * 2019-11-15 2021-05-25 한국전자통신연구원 말하기의 자동 유창성 평가 방법 및 그 장치
KR102442020B1 (ko) * 2019-11-15 2022-09-08 한국전자통신연구원 말하기의 자동 유창성 평가 방법 및 그 장치
CN112951270A (zh) * 2019-11-26 2021-06-11 新东方教育科技集团有限公司 语音流利度检测的方法、装置和电子设备
CN112951270B (zh) * 2019-11-26 2024-04-19 新东方教育科技集团有限公司 语音流利度检测的方法、装置和电子设备
CN111358428A (zh) * 2020-01-20 2020-07-03 书丸子(北京)科技有限公司 一种观察能力测试评定方法和装置
KR20210109757A (ko) 2020-02-28 2021-09-07 순천향대학교 산학협력단 발성에 따른 영문학 작품의 학습장치 및 방법
CN111833853A (zh) * 2020-07-01 2020-10-27 腾讯科技(深圳)有限公司 语音处理方法及装置、电子设备、计算机可读存储介质
CN111833853B (zh) * 2020-07-01 2023-10-27 腾讯科技(深圳)有限公司 语音处理方法及装置、电子设备、计算机可读存储介质
KR102274764B1 (ko) * 2020-09-02 2021-07-08 미디어젠(주) 통계정보를 제공하는 사용자 맞춤형 발음 평가 시스템
KR102274751B1 (ko) * 2020-09-04 2021-07-08 미디어젠(주) 평가정보를 제공하는 사용자 맞춤형 발음 평가 시스템
CN115273897A (zh) * 2022-08-05 2022-11-01 北京有竹居网络技术有限公司 用于处理语音数据的方法、装置、设备和存储介质
KR102724095B1 (ko) * 2023-11-29 2024-10-30 신성준 비대면 외국어 말하기 시험 제공 장치 및 시스템

Similar Documents

Publication Publication Date Title
KR101609473B1 (ko) 영어 말하기 시험의 유창성 평가 시스템 및 방법
Arora et al. Automatic speech recognition: a review
KR100815115B1 (ko) 타 언어권 화자 음성에 대한 음성 인식시스템의 성능향상을 위한 발음 특성에 기반한 음향모델 변환 방법 및이를 이용한 장치
KR102052031B1 (ko) 발음평가 방법 및 상기 방법을 이용하는 발음평가 시스템
Aggarwal et al. Acoustic modeling problem for automatic speech recognition system: conventional methods (Part I)
EP1675102A2 (en) Method for extracting feature vectors for speech recognition
US8706487B2 (en) Audio recognition apparatus and speech recognition method using acoustic models and language models
US11935523B2 (en) Detection of correctness of pronunciation
Yusnita et al. Malaysian English accents identification using LPC and formant analysis
Middag et al. Robust automatic intelligibility assessment techniques evaluated on speakers treated for head and neck cancer
KR102442020B1 (ko) 말하기의 자동 유창성 평가 방법 및 그 장치
Hasija et al. Recognition of children Punjabi speech using tonal non-tonal classifier
Yousfi et al. Holy Qur'an speech recognition system Imaalah checking rule for warsh recitation
Işık et al. Turkish dialect recognition using acoustic and phonotactic features in deep learning architectures
Hämäläinen et al. Improving speech recognition through automatic selection of age group–specific acoustic models
Ong et al. Malay language speech recogniser with hybrid hidden markov model and artificial neural network (HMM/ANN)
Kumar et al. Automatic spontaneous speech recognition for Punjabi language interview speech corpus
KR102274766B1 (ko) 외국어 초보 학습자를 위한 발음 예측 및 평가시스템
KR102274751B1 (ko) 평가정보를 제공하는 사용자 맞춤형 발음 평가 시스템
KR102323482B1 (ko) 발화 감정 히스토리를 이용한 대화 에이젼트 시스템 및 방법
Wang et al. Generating TTS Based Adversarial Samples for Training Wake-Up Word Detection Systems Against Confusing Words.
Wang et al. Generating Adversarial Samples For Training Wake-up Word Detection Systems Against Confusing Words
Heo et al. Classification based on speech rhythm via a temporal alignment of spoken sentences
Amdal et al. Automatic evaluation of quantity contrast in non-native Norwegian speech.
KR102274764B1 (ko) 통계정보를 제공하는 사용자 맞춤형 발음 평가 시스템

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20200206

Year of fee payment: 5