KR101609473B1

KR101609473B1 - 영어 말하기 시험의 유창성 평가 시스템 및 방법

Info

Publication number: KR101609473B1
Application number: KR1020140138466A
Authority: KR
Inventors: 권오욱; 장병용
Original assignee: 충북대학교 산학협력단
Priority date: 2014-10-14
Filing date: 2014-10-14
Publication date: 2016-04-05

Abstract

본 발명의 영어 말하기 시험의 유창성 평가 시스템은 영어 발화를 포함하는 음성 신호와 전사 텍스트를 입력받아 음소를 정렬하여 인식하고, 이를 이용하여 음소열 및 지속시간 정보를 획득하기 위한 음소열 및 지속시간 추출부, 상기 음소열 및 지속시간 정보로부터 음성학적 특징과 음향학적 특징을 추출하기 위한 유창성 관련 특징 추출부 및 상기 유창성 관련 특징 추출부에서 추출한 음성학적 특징과 음향학적 특징을 이용하여 SVR(support vector regression) 모델을 학습하고, 학습된 SVR 모델을 이용하여 유창성 점수를 산출하기 위한 SVR 모델 학습 및 점수 산출부를 포함한다. 본 발명에 의하면 영어 말하기 시험의 유창성 평가에 있어서 용이하게 특징을 추출할 수 있으며, ‘보고-읽기’ 유형뿐만이 아닌 자유발화의 답변이 요구되는 유형의 문제에서도 유창성 수준에 따른 점수를 산출하여 보여줌으로써, 영어 말하기 시험의 유창성을 용이하게 평가할 수 있는 효과가 있다.

Description

영어 말하기 시험의 유창성 평가 시스템 및 방법 {SYSTEM AND METHOD FOR AUTOMATIC FLUENCY EVALUATION OF ENGLISH SPEAKING TESTS}

본 발명은 영어 말하기의 유창성을 평가하는 자동 유창성 평가에 관한 것으로서, 음성인식 기술을 이용하여 음향학적, 음성학적 유창성 관련 특징을 추출하고, SVR(support vector regression)을 통하여 특징을 결합하여 자동 유창성 평가 시스템을 구현할 수 있는 방법에 관한 것이다.

현재 영어 교육에 있어서 말하기 부분은 그 중요성이 더욱 높아지고 있다. 전국적으로 영어 말하기 대회의 개최가 늘어나고 있으며, 영어 말하기 시험 자격 등급은 취업에서 필수 요소가 되었다. 이러한 추세에 반증이라도 하듯이 국내외 기업 및 연구소에서는 영어 말하기를 학습할 수 있는 도구를 개발하여 발표 및 상용화 하고 있으며, 여기에 발음 및 유창성 평가 기술은 필수적으로 구현되어야 하는 부분이다. 하지만 현재 구현된 유창성 및 발음 평가 기술은 주어진 텍스트를 읽는 ‘보고-읽기’ 유형의 과제에 국한되어 있으며, 자신의 생각을 말하는 과제 유형에서 적용이 불가능하기 때문에 이를 적용 가능한 시스템이 개발되면 말하기 교육뿐만 아니라 말하기 시험 등 많은 응용 분야에 적용가능하다.

유창성을 평가하기 위하여 음성 인식 기술은 가장 핵심적인 기술이라고 할 수 있다. 유창성에 관련한 많은 특징을 추출하기 위하여 음성 인식은 필수 요소이며, 음성 인식 기술 중에서도 음소 정렬 기술을 이용하여 특징을 추출하는 연구가 대부분이였다. 음소 정렬을 이용하여 추출된 음소열 및 지속시간 정보는 유창성 관련 특징을 추출하기 위하여 사용되는데, 발화속도(speech rate)와 발화 시간 비율(phonation time ratio), 로그 사후 확률 점수(log posterior probability score), 음소 지속시간 점수(phone duration score)가 유창성을 평가하는데 유용한 특징이라고 알려져 있으며, 발화안의 묵음 정보 또한 유용한 특징이 될 수 있다고 인문학 분야에서 언급되었다. 하지만 실제로 이러한 특징들을 추출하기 위하여서는 사람의 수동적 특징 추출 과정이 필요하며, 이는 자동 유창성 평가 구현하는데 제한적 요소를 가져다준다. 또한 인문학 분야에서 언급한 발화 내의 묵음에 관련된 특징들은 효율적인 특징 추출 방법이 아직 연구되지 않아 그 성능이 검증되지 않고 있다.

자동 유창성 평가를 위하여서는 추출한 특징의 결합이 필요하고, 이를 위하여서 크게 클래스분류(classification)와 회귀분석(regression) 방법이 존재하며, 가장 기본적인 선형 회귀 방법으로 least square가 있으며, 신경 회로망(neural-network)을 이용한 클래스분류 또는 회귀분석이 가능한 MLP(multi layer perceptron), 최근 널리 사용되는 클래스분류 방법인 SVM(support vector machine), 그리고 SVM을 응용하여 회귀분석을 하는 SVR(support vector regression)이 있고, 신경 회로망과 퍼지(fuzzy)를 결합한 ANFIS(adaptive neuro fuzzy inference system) 등이 있다. 하지만 본 분야에서는 상관분석(cross correlation)을 이용하여 각 특징의 성능을 분석하는게 대부분의 연구이며, 단순히 몇 개의 집단으로 나뉘어져 있는 클래스를 SVM을 이용하여 분류하는 연구가 존재하지만, 실질적 점수를 산출하는 연구는 드물다.

대한민국 등록특허 10-0362292

본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 음성인식 기술을 이용하여 문제 유형에 제한되지 않도록 특징을 추출하고, 이 결과를 바탕으로 자동으로 추출할 수 있는 특징을 선정 및 수정, 제안하고, 추출한 특징을 SVR(support vector regression)을 이용하여 결합하여 유창도 점수를 산출하여 자동 유창성 평가 시스템을 구현할 수 있는 방법을 제공하는데 그 목적이 있다.

본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

이와 같은 목적을 달성하기 위한 본 발명의 영어 말하기 시험의 유창성 평가 시스템은 영어 발화를 포함하는 음성 신호와 전사 텍스트를 입력받아 음소를 정렬하여 인식하고, 이를 이용하여 음소열 및 지속시간 정보를 획득하기 위한 음소열 및 지속시간 추출부, 상기 음소열 및 지속시간 정보로부터 음성학적 특징과 음향학적 특징을 추출하기 위한 유창성 관련 특징 추출부 및 상기 유창성 관련 특징 추출부에서 추출한 음성학적 특징과 음향학적 특징을 이용하여 SVR(support vector regression) 모델을 학습하고, 학습된 SVR 모델을 이용하여 유창성 점수를 산출하기 위한 SVR 모델 학습 및 점수 산출부를 포함한다.

상기 유창성 관련 특징 추출부는 상기 음소열 및 지속시간 정보로부터 발화속도, 조음 속도, 발화 시간 비율, 연속 발화 평균 길이, 빈 묵음 빈도, 빈 묵음 평균 길이를 포함하는 음성학적 특징과, 국소 평균 로그 우도, 전체 평균 로그 우도, 로그 사후 확률 점수, 음소 지속 시간 점수, 음소 로그 우도 점수를 포함하는 음향학적 특징을 추출할 수 있다.

상기 발화 속도(SR, speech rate)는 발화 내의 음절의 개수를 계산하여 획득하며, 음절 단위가 아닌 정렬된 발음열의 모음의 단위를 이용하여 상기 발화 속도 특징을 추출하며, N_V는 발화 내 모음의 개수이고, t_end는 발화가 끝나는 시간이고, t_beg는 발화가 시작하는 시간이고, 음절의 개수를 모음의 개수로 간주할 때,

(수학식 1)과 같이 계산할 수 있다.

음절 단위가 아닌 정렬된 발음열의 모음의 단위를 이용하여 상기 조음 속도 특징을 추출하며, d_UP(i)는 i번째 빈 묵음의 지속 시간이고, N_UP는 모든 빈 묵음의 개수라고 할 때, 상기 조음 속도(AR, articulation rate)는,

(수학식 2)와 같이 계산할 수 있다.

상기 발화 시간 비율(PR, phonation time ratio)은 총 발화 시간 중 실제 발화한 시간 비율을 나타내는 특징으로서, 빈 묵음을 제외한 시간을 총 발화 시간으로 나누어서 구하며,

(수학식 3)과 같이 계산할 수 있다.

상기 빈 묵음 빈도(numUP)는 묵음 관련 특징으로 빈 묵음의 개수를 총 발화 시간으로 나눠서 구하며, 이 때 빈 묵음의 지속 시간을 고려하기 위하여 시그모이드 함수를 적용하여 추출하며,

(수학식 5)와 같이 계산되고, 이 때, f(ㆍ)는 시그모이드 함수로서,

(수학식 6)과 같이 정의될 수 있다.

상기 빈 묵음 평균 길이(lenUP)는 빈 묵음의 길이와 관련된 특징으로서,

(수학식 7)과 같이 계산할 수 있다.

상기 국소 평균 로그 우도(LLH)는 로그 우도 값을 음소 단위로 평균을 낸 값으로, N_P는 음소의 개수이고, l_i는 i번째 음소의 로그 우도 값이고, d_i는 i번째 음소의 지속시간 값이라고 할 때,

(수학식 8)과 같이 나타낼 수 있다.

상기 전체 평균 로그 우도(GLH)는 로그 우도 값을 각 프레임 단위로 평균을 낸 값으로서,

(수학식 9)와 같이 계산할 수 있다.

상기 음소 로그 우도 점수(PLS)는 로그 우도에 대하여 원어민 모델을 만든 후 그 확률 값을 계산하며, N_P는 발화 내 음소의 개수이고, l_i는 i번째 음소의 로그 우도 점수이며, p(l_i)는 원어민 확률 모델을 적용한 확률 값이라고 할 때,

(수학식 14)와 같이 계산할 수 있다.

본 발명의 영어 말하기 시험의 유창성을 평가하기 위한 유창성 평가 시스템에서의 유창성 평가 방법에 있어서, 영어 발화를 포함하는 음성 신호와 전사 텍스트를 입력받아 음소를 정렬하여 인식하고, 이를 이용하여 음소열 및 지속시간 정보를 획득하기 위한 음소열 및 지속시간 추출 단계, 상기 음소열 및 지속시간 정보로부터 음성학적 특징과 음향학적 특징을 추출하기 위한 유창성 관련 특징 추출 단계 및 상기 유창성 관련 특징 추출 단계에서 추출한 음성학적 특징과 음향학적 특징을 이용하여 SVR(support vector regression) 모델을 학습하고, 학습된 SVR 모델을 이용하여 유창성 점수를 산출하기 위한 SVR 모델 학습 및 점수 산출단계를 포함한다.

상기 유창성 관련 특징 추출 단계는 상기 음소열 및 지속시간 정보로부터 발화속도, 조음 속도, 발화 시간 비율, 연속 발화 평균 길이, 빈 묵음 빈도, 빈 묵음 평균 길이를 포함하는 음성학적 특징과, 국소 평균 로그 우도, 전체 평균 로그 우도, 로그 사후 확률 점수, 음소 지속 시간 점수, 음소 로그 우도 점수를 포함하는 음향학적 특징을 추출할 수 있다.

(수학식 1)과 같이 계산할 수 있다.

(수학식 2)와 같이 계산할 수 있다.

(수학식 3)과 같이 계산할 수 있다.

(수학식 6)과 같이 정의될 수 있다.

(수학식 7)과 같이 계산할 수 있다.

(수학식 8)과 같이 나타낼 수 있다.

(수학식 9)와 같이 계산할 수 있다.

(수학식 14)와 같이 계산할 수 있다.

본 발명에 의하면 영어 말하기 시험의 유창성 평가에 있어서 용이하게 특징을 추출할 수 있으며, ‘보고-읽기’ 유형뿐만이 아닌 자유발화의 답변이 요구되는 유형의 문제에서도 유창성 수준에 따른 점수를 산출하여 보여줌으로써, 영어 말하기 시험의 유창성을 용이하게 평가할 수 있는 효과가 있다.

또한, 본 발명에 의하면 발화자에게 유창한 정도를 제공함으로써, 모의 평가를 실시하거나 부족한 부분을 피드백받는 효과를 기대할 수 있다.

도 1은 본 발명의 일 실시예에 따른 영어 말하기 시험의 유창성 평가 시스템을 도시한 블록도이다.
도 2는 본 발명의 일 실시예에 따른 영어 말하기 시험의 유창성 평가 시스템의 전체 구조를 학습 과정과 평가 과정으로 나누어 상세하게 도시한 블록도이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 갖는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

도 1은 본 발명의 일 실시예에 따른 영어 말하기 시험의 유창성 평가 시스템을 도시한 블록도이다.

도 1에서 보는 바와 같이, 본 발명에서는 음성신호 및 전사텍스트 정보를 이용하여 유창성 점수를 산출한다.

도 1을 참조하면, 본 발명의 일 실시예에 따른 영어 말하기 시험의 유창성 평가 시스템은 음소열 및 지속시간 추출부(100), 유창성 관련 특징 추출부(200) 및 SVR 모델 학습 및 점수 산출부(300)를 포함한다.

음소열 및 지속시간 추출부(100)는 영어 발화를 포함하는 음성 신호와 전사 텍스트를 입력받아 음소를 정렬하여 인식하고, 이를 이용하여 음소열 및 지속시간 정보를 획득하는 역할을 한다.

유창성 관련 특징 추출부(200)는 음소열 및 지속시간 정보로부터 음성학적 특징과 음향학적 특징을 추출한다.

SVR 모델 학습 및 점수 산출부(300)는 유창성 관련 특징 추출부(200)에서 추출한 음성학적 특징과 음향학적 특징을 이용하여 SVR(support vector regression) 모델을 학습하고, 학습된 SVR 모델을 이용하여 유창성 점수를 산출하는 역할을 한다.

도 2는 본 발명의 일 실시예에 따른 영어 말하기 시험의 유창성 평가 시스템의 전체 구조를 학습 과정과 평가 과정으로 나누어 상세하게 도시한 블록도이다.

도 2는 본 발명의 영어 말하기 시험의 유창성 평가 시스템의 전체 구조를 학습 과정과 평가 과정으로 나누어 더욱 상세히 보여주는 도면이다.

도 2를 참조하면, 학습 과정인 (a)에서는 음성 신호 및 전사텍스트의 음소열 및 지속시간을 추출하고, 이 정보를 이용하여 유창성 관련 특징을 추출하여 평가자의 점수를 이용하여 SVR 모델을 학습하고, 평가 과정인 (b)에서는 학습 과정과 동일한 방법으로 유창성 관련 특징을 추출한 후, 학습 과정에서 생성한 SVR 모델을 이용하여 최종 유창성 점수를 산출함을 보여준다.

음소열 및 지속시간 추출부(100)는 음소 정렬 방법과 음소 인식 방법 2가지 방법이 있다.

음소 정렬 방법은 영어 발화와 전사 텍스트가 필요하며, 이는 ‘보고-읽기’와 같은 텍스트가 주어진 문제 유형에서 효과적인 음소열 및 지속시간 추출을 할 수 있다.

음소 인식 방법은 영어 발화만을 가지고 음소열 및 지속시간 정보를 추출하기 때문에 자유 발화 답변이 요구되는 문제 유형에서도 음소열 및 지속시간 정보를 추출할 수 있으며, 이렇게 추출된 정보는 유창성 관련 특징 추출부(200)에서 특징을 추출하는데 필요한 정보를 제공한다.

유창성 관련 특징 추출부(200)는 음소열 및 지속시간 추출부(100)에서 획득한 정보를 이용하여 6개의 음성학적 특징과 5개의 음향학적 특징을 추출한다.

6개의 음성학적 특징은 발화속도, 조음속도, 발화 시간 비율, 연속 발화 평균 길이, 빈 묵음 빈도, 빈 묵음 평균 길이이다. 기본적으로 음성학적 특징을 추출시에는 음절단위의 분할이 필요한데, 영어에서 음절단위 분할은 한국어에서와 달리 어려우며, 이를 해결하고자 음절단위 분할을 정렬된 음소열 중 모음의 기준으로 분할학, 이를 바탕으로 음절의 개수는 모음의 개수로 정의한다.

음성학적 특징 중 발화 속도(SR, speech rate)는 발화 내의 음절의 개수를 계산하여 획득하며, 위에서 정의하였듯이 음절의 개수는 모음의 개수로 간주하여 다음 수학식 1과 같이 계산하여 특징을 추출할 수 있다.

여기서 N_V는 발화 내 모음의 개수이고, t_end는 발화가 끝나는 시간이고, t_beg는 발화가 시작하는 시간이다.

조음 속도(AR, articulation rate)는 발화 속도와 비슷한 개념으로 묵음을 제거한 시간을 사용하며, 다음 수학식 2와 같이 계산하여 특징을 추출할 수 있다.

여기서 d_UP(i)는 i번째 빈 묵음의 지속 시간이고, N_UP는 모든 빈 묵음의 개수이다. 수학식 2에서 모든 빈 묵음의 지속 시간을 제거함으로써 발화 속도와 구분된다. 묵음은 빈 묵음(unfilled pause)과 채워진 묵음(filled pause)으로 나뉘는데, 빈 묵음은 소리가 없는 묵음이고, 채워진 묵음은 더듬음이나 반복(repetition) 등을 말한다.

발화 시간 비율(PR, phonation time ratio)은 총 발화 시간 중 실제 발화한 시간 비율을 나타내는 특징으로 빈 묵음을 제외한 시간을 총 발화 시간으로 나누어서 구하며, 이는 다음 수학식 3과 같이 계산한다.

연속 발화 평균 길이(LR)는 0.25초 이상의 빈 묵음 사이의 음절 개수의 평균이다. 여기서 0.25초는 컷-오프 포인트(cut-off point)라고 하며, 컷-오프 포인트(cut-off point)가 0.25초보다 짧으면 파열음(plosive)이 묵음으로 간주되고, 0.25초보다 길면 생략되는 양이 많아진다. 발화 샘플의 시작과 끝이 항상 0.25초 이상의 빈 묵음으로 구성되어 있다면, 이 특징은 다음 수학식 4와 같이 계산된다.

여기서, N_UP0 _.25 는 0.25초 이상의 빈 묵음의 개수이다.

빈 묵음 빈도(numUP)는 묵음 관련 특징으로 빈 묵음의 개수를 총 발화 시간으로 나눠서 구하는데, 이 때 빈 묵음의 지속 시간을 고려하기 위하여 시그모이드 함수를 적용하여 추출하며, 이 특징은 수학식 5와 같이 계산한다.

이 때, f(ㆍ)는 시그모이드 함수로서, 다음 수학식 6과 같이 정의한다.

빈 묵음 평균 길이(lenUP)는 빈 묵음의 길이와 관련된 특징으로 다음 수학식 7과 같이 계산한다.

5개의 음향학적 특징은 국소 평균 로그 우도, 전체 평균 로그 우도, 로그 사후 확률 점수, 음소 지속 시간 점수, 음소 로그 우도 점수이며, 이 특징들은 유창성 평가 부분에서 발음을 평가하는데 관련이 크다. 이 특징들 중 국소 평균 로그 우도(LLH)는 로그 우도 값을 음소 단위로 평균을 낸 값으로 다음 수학식 8과 같이 계산한다.

여기서, N_P는 음소의 개수이고, l_i는 i번째 음소의 로그 우도 값이고, d_i는 i번째 음소의 지속시간 값이다.

이와 비슷한 특징으로 전체 평균 로그 우도(GLH)는 로그 우도 값을 각 프레임 단위로 평균을 낸 값으로 다음 수학식 9와 같이 계산한다.

로그 사후 확률 점수(LPS)는 사후 확률 값으로서, 인식기를 통해 인식된 음소가 얼마나 큰 비중을 가지는지를 판단하여 정확한 발음을 했는지를 가늠하는 특징이다. 일반적으로 t번째 프레임의 정렬된 음소 q_t의 사후 확률 p(q_t｜x)는 다음 수학식 10과 같이 계산한다.

여기서 x는 음성 인식기의 특징 벡터로서 MFCC이고, q_t는 음소 정렬 결과에서 t번째 프레임의 음소 클래스이며, w_k _,t는 t번째 프레임에서 k번째 경쟁 음소 클래스를 나타내고, N_c는 후보 음소의 개수이다. 이 때, 보편적으로 N-best 음소 정렬 결과에서 구한 N개의 후보만을 가지고 사후 확률을 근사적으로 계산하며, 이는 다음 수학식 11과 같이 계산한다.

여기서, p(q_t｜x)는 t번째 프레임의 사후 확률이고, N_P는 음소의 개수이다.

음소 지속 시간 점수(PDS)는 원어민의 음소 지속 시간 확률 모델을 이용하여 비원어민의 발음을 평가하기 위한 것으로 다음 수학식 12와 같이 계산한다.

여기서,

는 i번째 음소의 정규화된 지속시간으로, 이는 다음 수학식 13과 같이 계산한다.

그리고 p(x)는 원어민 발화에서 추출한 지속시간 정보를 이용하여 획득한 확률 모델로서, 이는 가우시안 확률 모델, Zip’s law 모델 등이 될 수 있다.

음소 로그 우도 점수(PLS)는 음소 지속 시간 점수와 비슷한 개념으로 로그 우도에 대하여 원어민 모델을 만든 후 그 확률 값을 계산하며, 이는 다음 수학식 14와 같이 계산한다.

여기서, N_P는 발화 내 음소의 개수이고, l_i는 i번째 음소의 로그 우도 점수이며, p(l_i)는 원어민 확률 모델을 적용한 확률 값이다.

SVR 모델 학습 및 점수 산출부(300)에서는 유창성 관련 특징 추출부(200)에서 획득한 특징들 중 학습 데이터를 이용하여 SVR(support vector regression) 모델을 학습하고, 학습한 SVR 모델을 이용하여 검증 데이터의 유창성 점수를 산출하여 최종 점수를 획득한다.

이상 본 발명을 몇 가지 바람직한 실시예를 사용하여 설명하였으나, 이들 실시예는 예시적인 것이며 한정적인 것이 아니다. 본 발명이 속하는 기술분야에서 통상의 지식을 지닌 자라면 본 발명의 사상과 첨부된 특허청구범위에 제시된 권리범위에서 벗어나지 않으면서 다양한 변화와 수정을 가할 수 있음을 이해할 것이다.

100 음소열 및 지속시간 추출부
200 유창성 관련 특징 추출부
300 SVR 모델 학습 및 점수 산출부

Claims

영어 발화를 포함하는 음성 신호와 전사 텍스트를 입력받아 음소를 정렬하여 인식하고, 이를 이용하여 음소열 및 지속시간 정보를 획득하기 위한 음소열 및 지속시간 추출부;
상기 음소열 및 지속시간 정보로부터 음성학적 특징과 음향학적 특징을 추출하기 위한 유창성 관련 특징 추출부; 및
상기 유창성 관련 특징 추출부에서 추출한 음성학적 특징과 음향학적 특징을 이용하여 SVR(support vector regression) 모델을 학습하고, 학습된 SVR 모델을 이용하여 유창성 점수를 산출하기 위한 SVR 모델 학습 및 점수 산출부를 포함하며,
상기 유창성 관련 특징 추출부는 상기 음소열 및 지속시간 정보로부터 발화속도, 조음 속도, 발화 시간 비율, 연속 발화 평균 길이, 빈 묵음 빈도, 빈 묵음 평균 길이를 포함하는 음성학적 특징과, 국소 평균 로그 우도, 전체 평균 로그 우도, 로그 사후 확률 점수, 음소 지속 시간 점수, 음소 로그 우도 점수를 포함하는 음향학적 특징을 추출하고,
상기 발화 속도(SR, speech rate)는 발화 내의 음절의 개수를 계산하여 획득하며, 음절 단위가 아닌 정렬된 발음열의 모음의 단위를 이용하여 상기 발화 속도 특징을 추출하며,
N_V는 발화 내 모음의 개수이고, t_end는 발화가 끝나는 시간이고, t_beg는 발화가 시작하는 시간이고, 음절의 개수를 모음의 개수로 간주할 때,

(수학식 1)과 같이 계산할 수 있으며,
x는 음성 인식기의 특징 벡터이고, q_t는 음소 정렬 결과에서 t번째 프레임의 음소 클래스이며, w_k,t는 t번째 프레임에서 k번째 경쟁 음소 클래스이고, N_c는 후보 음소의 개수라고 할 때, t번째 프레임의 정렬된 음소 q_t의 사후 확률 p(q_t｜x)를
(수학식 10)으로 계산할 수 있으며,
p(q_t｜x)는 t번째 프레임의 사후 확률이고, N_P는 음소의 개수라고 할 때, 사후 확률 값으로서, 인식기를 통해 인식된 음소가 얼마나 큰 비중을 가지는지를 판단하여 정확한 발음을 했는지를 가늠하는 특징인 로그 사후 확률 점수(LPS)는,

(수학식 11)로 나타낼 수 있고,
p(x)는 원어민 발화에서 추출한 지속시간 정보를 이용하여 획득한 확률 모델이고,
는 i번째 음소의 정규화된 지속시간이라고 할 때, 원어민의 음소 지속 시간 확률 모델을 이용하여 비원어민의 발음을 평가하기 위한 것인 음소 지속 시간 점수(PDS)는,

(수학식 13),

(수학식 12)로 나타낼 수 있는 것을 특징으로 하는 영어 말하기 시험의 유창성 평가 시스템.
삭제
삭제
청구항 1에 있어서,
음절 단위가 아닌 정렬된 발음열의 모음의 단위를 이용하여 상기 조음 속도 특징을 추출하며,
d_UP(i)는 i번째 빈 묵음의 지속 시간이고, N_UP는 모든 빈 묵음의 개수라고 할 때, 상기 조음 속도(AR, articulation rate)는,

(수학식 2)와 같이 계산할 수 있는 것을 특징으로 하는 영어 말하기 시험의 유창성 평가 시스템.
청구항 4에 있어서,
상기 발화 시간 비율(PR, phonation time ratio)은 총 발화 시간 중 실제 발화한 시간 비율을 나타내는 특징으로서, 빈 묵음을 제외한 시간을 총 발화 시간으로 나누어서 구하며,

(수학식 3)과 같이 계산할 수 있는 것을 특징으로 하는 영어 말하기 시험의 유창성 평가 시스템.
청구항 5에 있어서,
상기 빈 묵음 빈도(numUP)는 묵음 관련 특징으로 빈 묵음의 개수를 총 발화 시간으로 나눠서 구하며, 이 때 빈 묵음의 지속 시간을 고려하기 위하여 시그모이드 함수를 적용하여 추출하며,

(수학식 5)와 같이 계산되고,
이 때, f(ㆍ)는 시그모이드 함수로서,

(수학식 6)과 같이 정의되는 것을 특징으로 하는 영어 말하기 시험의 유창성 평가 시스템.
청구항 6에 있어서,
상기 빈 묵음 평균 길이(lenUP)는 빈 묵음의 길이와 관련된 특징으로서,

(수학식 7)과 같이 계산할 수 있는 것을 특징으로 하는 영어 말하기 시험의 유창성 평가 시스템.
청구항 7에 있어서,
상기 국소 평균 로그 우도(LLH)는 로그 우도 값을 음소 단위로 평균을 낸 값으로,
N_P는 음소의 개수이고, l_i는 i번째 음소의 로그 우도 값이고, d_i는 i번째 음소의 지속시간 값이라고 할 때,

(수학식 8)과 같이 나타낼 수 있는 것을 특징으로 하는 영어 말하기 시험의 유창성 평가 시스템.
청구항 8에 있어서,
상기 전체 평균 로그 우도(GLH)는 로그 우도 값을 각 프레임 단위로 평균을 낸 값으로서,

(수학식 9)와 같이 계산할 수 있는 것을 특징으로 하는 영어 말하기 시험의 유창성 평가 시스템.
청구항 9에 있어서,
상기 음소 로그 우도 점수(PLS)는 로그 우도에 대하여 원어민 모델을 만든 후 그 확률 값을 계산하며,
N_P는 발화 내 음소의 개수이고, l_i는 i번째 음소의 로그 우도 점수이며, p(l_i)는 원어민 확률 모델을 적용한 확률 값이라고 할 때,

(수학식 14)와 같이 계산할 수 있는 것을 특징으로 하는 영어 말하기 시험의 유창성 평가 시스템.
영어 말하기 시험의 유창성을 평가하기 위한 유창성 평가 시스템에서의 유창성 평가 방법에 있어서,
영어 발화를 포함하는 음성 신호와 전사 텍스트를 입력받아 음소를 정렬하여 인식하고, 이를 이용하여 음소열 및 지속시간 정보를 획득하기 위한 음소열 및 지속시간 추출 단계;
상기 음소열 및 지속시간 정보로부터 음성학적 특징과 음향학적 특징을 추출하기 위한 유창성 관련 특징 추출 단계; 및
상기 유창성 관련 특징 추출 단계에서 추출한 음성학적 특징과 음향학적 특징을 이용하여 SVR(support vector regression) 모델을 학습하고, 학습된 SVR 모델을 이용하여 유창성 점수를 산출하기 위한 SVR 모델 학습 및 점수 산출단계를 포함하며,
상기 유창성 관련 특징 추출 단계는 상기 음소열 및 지속시간 정보로부터 발화속도, 조음 속도, 발화 시간 비율, 연속 발화 평균 길이, 빈 묵음 빈도, 빈 묵음 평균 길이를 포함하는 음성학적 특징과, 국소 평균 로그 우도, 전체 평균 로그 우도, 로그 사후 확률 점수, 음소 지속 시간 점수, 음소 로그 우도 점수를 포함하는 음향학적 특징을 추출하고,
상기 발화 속도(SR, speech rate)는 발화 내의 음절의 개수를 계산하여 획득하며, 음절 단위가 아닌 정렬된 발음열의 모음의 단위를 이용하여 상기 발화 속도 특징을 추출하며,
N_V는 발화 내 모음의 개수이고, t_end는 발화가 끝나는 시간이고, t_beg는 발화가 시작하는 시간이고, 음절의 개수를 모음의 개수로 간주할 때,

(수학식 1)과 같이 계산할 수 있으며,
x는 음성 인식기의 특징 벡터이고, q_t는 음소 정렬 결과에서 t번째 프레임의 음소 클래스이며, w_k,t는 t번째 프레임에서 k번째 경쟁 음소 클래스이고, N_c는 후보 음소의 개수라고 할 때, t번째 프레임의 정렬된 음소 q_t의 사후 확률 p(q_t｜x)를
(수학식 10)으로 계산할 수 있으며,
p(q_t｜x)는 t번째 프레임의 사후 확률이고, N_P는 음소의 개수라고 할 때, 사후 확률 값으로서, 인식기를 통해 인식된 음소가 얼마나 큰 비중을 가지는지를 판단하여 정확한 발음을 했는지를 가늠하는 특징인 로그 사후 확률 점수(LPS)는,

(수학식 11)로 나타낼 수 있고,
p(x)는 원어민 발화에서 추출한 지속시간 정보를 이용하여 획득한 확률 모델이고,
는 i번째 음소의 정규화된 지속시간이라고 할 때, 원어민의 음소 지속 시간 확률 모델을 이용하여 비원어민의 발음을 평가하기 위한 것인 음소 지속 시간 점수(PDS)는,

(수학식 13),

(수학식 12)로 나타낼 수 있는 것을 특징으로 하는 영어 말하기 시험의 유창성 평가 방법.
삭제
삭제
청구항 11에 있어서,
음절 단위가 아닌 정렬된 발음열의 모음의 단위를 이용하여 상기 조음 속도 특징을 추출하며,
d_UP(i)는 i번째 빈 묵음의 지속 시간이고, N_UP는 모든 빈 묵음의 개수라고 할 때, 상기 조음 속도(AR, articulation rate)는,

(수학식 2)와 같이 계산할 수 있는 것을 특징으로 하는 영어 말하기 시험의 유창성 평가 방법.
청구항 14에 있어서,
상기 발화 시간 비율(PR, phonation time ratio)은 총 발화 시간 중 실제 발화한 시간 비율을 나타내는 특징으로서, 빈 묵음을 제외한 시간을 총 발화 시간으로 나누어서 구하며,

(수학식 3)과 같이 계산할 수 있는 것을 특징으로 하는 영어 말하기 시험의 유창성 평가 방법.
청구항 15에 있어서,
상기 빈 묵음 빈도(numUP)는 묵음 관련 특징으로 빈 묵음의 개수를 총 발화 시간으로 나눠서 구하며, 이 때 빈 묵음의 지속 시간을 고려하기 위하여 시그모이드 함수를 적용하여 추출하며,

(수학식 5)와 같이 계산되고,
이 때, f(ㆍ)는 시그모이드 함수로서,

(수학식 6)과 같이 정의되는 것을 특징으로 하는 영어 말하기 시험의 유창성 평가 방법.
청구항 16에 있어서,
상기 빈 묵음 평균 길이(lenUP)는 빈 묵음의 길이와 관련된 특징으로서,

(수학식 7)과 같이 계산할 수 있는 것을 특징으로 하는 영어 말하기 시험의 유창성 평가 방법.
청구항 17에 있어서,
상기 국소 평균 로그 우도(LLH)는 로그 우도 값을 음소 단위로 평균을 낸 값으로,
N_P는 음소의 개수이고, l_i는 i번째 음소의 로그 우도 값이고, d_i는 i번째 음소의 지속시간 값이라고 할 때,

(수학식 8)과 같이 나타낼 수 있는 것을 특징으로 하는 영어 말하기 시험의 유창성 평가 방법.
청구항 18에 있어서,
상기 전체 평균 로그 우도(GLH)는 로그 우도 값을 각 프레임 단위로 평균을 낸 값으로서,

(수학식 9)와 같이 계산할 수 있는 것을 특징으로 하는 영어 말하기 시험의 유창성 평가 방법.
청구항 19에 있어서,
상기 음소 로그 우도 점수(PLS)는 로그 우도에 대하여 원어민 모델을 만든 후 그 확률 값을 계산하며,
N_P는 발화 내 음소의 개수이고, l_i는 i번째 음소의 로그 우도 점수이며, p(l_i)는 원어민 확률 모델을 적용한 확률 값이라고 할 때,

(수학식 14)와 같이 계산할 수 있는 것을 특징으로 하는 영어 말하기 시험의 유창성 평가 방법.