KR100570262B1

KR100570262B1 - 발음의 유창성을 평가하는 방법

Info

Publication number: KR100570262B1
Application number: KR1020030090052A
Authority: KR
Inventors: 박준용; 김무중
Original assignee: 주식회사 언어과학
Priority date: 2003-12-11
Filing date: 2003-12-11
Publication date: 2006-04-12
Also published as: KR20050057845A

Abstract

학습자 음성 데이터를 입력받는 단계; 상기 입력된 학습자 음성 데이터를 분할기호를 이용하여 구 단위(phrase)로 분할하는 단계; 상기 분할된 구 단위에 대응하는 구 단위로 표준음성 데이터를 분할하는 단계; 상기 분할된 표준음성 데이터의 각 구 단위별 시간정보와 상기 분할된 학습자 음성 데이터의 각 구 단위별 시간정보를 추출하고 이들을 비교하여 긴 시간정보에 대한 짧은 시간 정보의 비를 구간점수를 산출하는 단계; 상기 학습자 음성 데이터와 표준음성 데이터로부터 숏 포즈(short pause)가 존재하는지를 체크하는 단계; 상기 표준음성 데이터의 숏 포즈에 대해 상기 학습자 음성 데이터의 숏 포즈의 존재 여부에 따라 상기 산출된 구간점수로부터 일정한 점수를 가감하여 최종점수를 산출하는 단계; 및 상기 산출된 최종점수에 근거하여 유창성을 평가하는 단계를 포함하는 발음의 유창성을 평가하는 방법이 개시된다.

자동분할, 언어모델, 객관화, 구간정보, 묵음, 시간정보

Description

발음의 유창성을 평가하는 방법{Method for estimating fluency of pronunciation}

도 1은 본 발명에 따른 유능성 평가방법을 보여주는 플로우 챠트이다.

도 2는 자동분할 시스템에 의해 생성된 언어 네트워크를 보여준다.

도 3은 생성된 단위별 사전을 보여준다.

도 4는 학습자 음성데이터와 표준음성 데이터를 비교하는 그래프를 보여준다.

본 발명은 발음의 유창성을 평가하는 방법에 관한 것으로, 보다 상세하게는 평가하고자 하는 음성 데이터와 표준음성 데이터에 대해 구간별 시간정보를 비교하고 숏 포즈(short pause)의 존재여부를 체크하여 최종적으로 발음의 유창성을 평가하는 방법에 관한 것이다.

일반적으로 현대인들은 산업의 전문화와 국제화의 추세에 따라 외국어에 대한 관심이 많아지는 경향을 보이는데, 이러한 추세에 대응하기 위해 어학용 학습기나, 다양한 어학용 프로그램들이 개발되고 있는 실정이다.

이러한 어학용 프로그램은 인식하고자 하는 인식 대상 어휘를 미리 결정해놓고 결정된 인식 대상 어휘중의 하나 또는 몇 개를 사용자가 발성하면, 입력된 음성이 미리 등록된 어휘 중 어느 것에 가장 가까운지를 찾아내어 출력하도록 구성되며, 이러한 결과를 정오 혹은 점수 형태로 나타내게 되며, 사용자는 이 결과로 자신의 발음의 정확도 여부를 판단하는 것이 가능해진다.

이러한 형태의 평가 방법은 해당되는 단어나 문장의 통계적 음향모델에 대한 발음한 음성 신호의 확률값을 구하고 원어민 화자에 대한 확률 값으로부터 미리 구해진 문턱값과의 비교를 통해 발음의 정확도를 계산함으로써 이루어지며 자세한 과정은 대략적으로 특징 추출 과정, 음성 인식 과정, 평가과정으로 이루어진다.

그러나, 이러한 방법은 일반적인 음성 인식 과정과 동일한 형태로서 발음한 단어 혹은 문장 전체에 대한 원어민 발음과의 유사성을 나타내주게 되지만, 현재까지의 방법은 단어를 이루고 있는 음절이나 음소 각각에 대한 발음의 정확도에 대한 분석과 비교가 세밀하게 이루어지지 못하였다.

이러한 문제점을 해결하기 위하여 특허공개 제 2002-0067870 호에서는 음성인식 기술을 이용한 영어 발음 학습 방법 및 시스템이 개시되어 있다. 이 방법에 따르면, 사용자의 발음의 정확도 뿐 아니라 강세, 억양, 속도 등에 대한 폭넓은 평가가 가능하므로 종합적인 발음 학습에 효과가 있고, 학습 결과에 대하여 통계화된 자료는 사용자의 발음 향상 정도를 가늠하는 정보를 제공함으로써 음소별, 자질별로 통계를 사용자가 모니터링하여 향상 정도를 확인하고 학습 의욕을 고취시킬 수 있다.

이 특허에 따르면, 강세, 억양과 함께 속도를 평가하는 방법에 대해 사용자의 발음과 원어민의 발음의 지속길이를 비교하여 속도의 적절성을 판단하며, 음성 구간을 자동으로 분할하여 음소, 단어 단위 등의 구간별로 비교한다고 기재하고 있다.

그러나, 속도의 적절성을 평가하는 것만으로는 발음의 유창성을 평가하기에는 충분한 변수가 될 수 없다는 문제점이 있다.

더욱이, 발음의 지속길이만으로는 속도의 적절성을 평가할 수 있을 수는 있지만, 원어민의 발음에 대해 얼마나 유창한지를 평가할 수는 없다는 문제점이 있다.

또한, 발음의 유창성을 객관적으로 평가하기 위해서는 학습자의 발음을 원어민의 발음에 대해 수치적으로 환산할 수 있는 방법이 제시되어야 한다는 문제점이 있다.

따라서, 본 발명의 목적은 학습자의 발음이 원어민의 발음에 대하여 어느 정도 유창한지를 수치적으로 환산하여 효과적이고 신속하게 평가할 수 있는 방법을 제공하는 것이다.

본 발명의 다른 목적과 특징은 이하에 서술되는 바람직한 실시예를 통하여 보다 명확하게 이해될 것이다.

본 발명에 따르면, 학습자 음성 데이터를 입력받는 단계; 상기 입력된 학습자 음성 데이터를 분할기호를 이용하여 구 단위(phrase)로 분할하는 단계; 상기 분할된 구 단위에 대응하는 구 단위로 표준음성 데이터를 분할하는 단계; 상기 분할된 표준음성 데이터의 각 구 단위별 시간정보와 상기 분할된 학습자 음성 데이터의 각 구 단위별 시간정보를 추출하고 이들을 비교하여 긴 시간정보에 대한 짧은 시간 정보의 비를 구간점수를 산출하는 단계; 상기 학습자 음성 데이터와 표준음성 데이터로부터 숏 포즈(short pause)가 존재하는지를 체크하는 단계; 상기 표준음성 데이터의 숏 포즈에 대해 상기 학습자 음성 데이터의 숏 포즈의 존재 여부에 따라 상기 산출된 구간점수로부터 일정한 점수를 가감하여 최종점수를 산출하는 단계; 및 상기 산출된 최종점수에 근거하여 유창성을 평가하는 단계를 포함하는 발음의 유창성을 평가하는 방법이 개시된다.

바람직하게, 산출된 구간점수와 전체 구간에 대한 해당 구간의 시간길이 비율을 곱하여 구 단위 환산점수를 산출하고 각 구 단위 환산점수를 합산하여 전체 환산점수를 산출하며, 전체 환산점수와 체크된 숏 포즈를 참고하여 최종점수를 산출할 수 있다.

또한, 바람직하게, 구(phrase) 단위의 시간정보는, 분할기호에 의해 구 단위로 분할된 텍스트 데이터를 입력하여 구 단위 언어 네트워크를 생성하는 단계; 단위별 사전을 생성하는 단계; 구 단위 언어 네트워크와 단위별 사전 및 기제작된 음소별 음향모델을 통하여 최종 인식 네트워크를 생성하고, 이를 통해 추출한다.

이하, 첨부된 도면을 참조하여 본 발명의 일 실시예를 상세하게 설명한다.

먼저 평가될 음성 데이터가 입력된다(단계 S10).

이어 입력된 음성 데이터로부터 지정된 구(phrase) 단위로 시간정보를 추출한다(단계 S11).

이를 위해 자동분할 시스템(auto segmentation system)이 적용되며, 처리 루틴을 대략적으로 설명하면 텍스트 데이터를 이용하여 최종 인식 네트워크를 생성하고 이를 통해 입력된 음성 데이터의 시간정보를 추출한다.

도 2와 도 3을 참조하여 이를 보다 구체적으로 설명한다.

우선 기본조건으로 입력되는 음성 데이터와 텍스트 데이터는 일치하여야 한다. 학습자는 입력되는 음성 데이터에 대응하는 텍스트 데이터를 표준음성 데이터를 고려하여 일정한 구 단위로 분할한다.

예를 들어, "Let's read a bit more it's only ten o'clock"이라는 텍스트 데이터에 대해서 분할기호 "/"를 이용하여 "Let's read a/ bit more/ it's only/ ten o'clock"와 같이 구 단위로 분할한다.

이와 같이 구 단위로 분할하여 자동분할 시스템에 입력하면, 도 2에 도시된 바와 같은 언어 네트워크가 생성된다.

여기서, "silence"는 묵음구간을 나타내며, "sp"는 "short pause"를 의미하며 끊어 읽기 구간을 나타낸다.

또한, 이와 같은 입력에 대응하여 도 3에 도시된 바와 같은 형태의 단위별 사전이 생성된다.

여기서, 발음사전의 단위인 "lx", "ex" 등은 음성인식기에서 사용하는 음향모델의 단위가 된다.

이와 같이 하여 구 단위 언어 네트워크와 단위별 사전 그리고 음향모델을 통하여 최종 인식 네트워크가 생성되며, 이와 같이 생성된 인식 네트워크를 통하여 입력된 음성 데이터의 시간정보를 추출한다.
음소별 음향모델에 대한 생성방법은 본 출원인에 의해 출원된 특허공개 제 2003-81537 호에 상세하게 기재되어 있다.

예를 들어, [표 1]과 같이 추출될 수 있다.

구 단위	시작시간	종료시간
silence	0㎳	30㎳
let's_read_a	30㎳	330㎳
bit_more	330㎳	430㎳

it's_only	430㎳	680㎳
ten_o'clock	680㎳	880㎳
silence	880㎳	900㎳

이와 같이 시간정보가 추출되면, 표준음성 데이터의 동일한 구 단위의 시간정보를 비교하여 구간점수를 산출한다(단계 S12).

즉, 표준음성 데이터에 대해서도 [표 2]와 같이 구 단위의 시간정보로 나타낸다.

구 단위	시작시간	종료시간
silence	0㎳	30㎳
let's_read_a	30㎳	280㎳
bit_more	280㎳	430㎳
short pause	430㎳	480㎳
it's_only	480㎳	680㎳
ten_o'clock	680㎳	880㎳
silence	880㎳	900㎳

이어 각 구간별 시간정보의 상대치를 백분율로 계산하여 구간점수를 산출한다. 즉, 구간점수 = (짧은 시간정보/긴 시간정보) X 100의 식을 이용한다.

따라서, [표 3]과 같은 구간점수를 산출할 수 있다.

구 단위	구간점수
let's_read_a	83
bit_more	66
short pause	0
it's_only	80
ten_o'clock	100

이어 바람직하게 산출된 각 구 단위의 구간점수에 표준음성 데이터의 전체 구간에서 해당구간이 차지하는 비율을 곱하여 전체적으로 합한 환산점수를 산출한다(단계 S13).

예를 들어, "let's_read_a" 구간이 전체 구간에서 차지하는 비율이 34%라고 하면, 구간점수 83에 0.34를 곱하여 28.22라는 구 단위 환산점수를 계산한다. 이와 같이 각 구간에서의 구 단위 환산점수를 계산하고 합산하여 전체 환산점수를 산출한다.

이와 같이, 각 구간을 동일시하여 구간점수를 적용할 수도 있지만, 각 구간이 차지하는 비율을 고려하여 산출된 전체 환산점수를 적용하여 평가를 보다 정확하게 할 수 있다.

이를 보다 도해적으로 체크하기 위하여 도 4에 도시된 음성출력 그래프를 이 용할 수도 있다.

이어 추출된 시간정보로부터 숏 포즈(short pause)가 존재하는지를 체크한다(단계 S14).

즉, 표준음성 데이터에 숏 포즈가 있고 학습자음성 데이터에 숏 포즈가 없는 경우나 그 반대의 경우에는 일정한 비율로 감점을 한다. 또한, 숏 포즈가 동일하게 검출되더라도 해당 구간의 시간정보를 비교하여 상기와 같이 구간점수나 환산점수를 산출할 수 있다.

이와 같이 산출된 구간점수 또는 환산점수 중 어느 하나와 체크된 숏 포즈의 존재여부를 참고하여 최종점수를 산출하고(단계 S15), 이에 근거하여 유창성을 평가한다(단계 S16).

이상에서는 본 발명의 바람직한 실시예를 중심으로 설명하였지만, 당업자의 수준에서 다양한 변경을 가할 수 있음은 물론이다. 따라서, 본 발명의 권리범위는 상기한 실시예에 한정되어서는 안되며 이하에 기재되는 특허청구범위에 근거하여 해석되어야 할 것이다.

이상에서 설명한 바와 같이, 본 발명에 따르면 학습자의 발음이 원어민의 발음에 대해 얼마나 유창한지를 정확하게 평가할 수는 있다는 이점이 있다.

또한, 학습자의 발음을 원어민의 발음에 대해 수치적으로 환산하여 체크함으 로써 발음의 유창성을 객관적으로 평가할 수 있는 이점이 있다.

Claims

학습자 음성 데이터를 입력받는 단계;

상기 입력된 학습자 음성 데이터를 분할기호를 이용하여 구 단위(phrase)로 분할하는 단계;

상기 분할된 구 단위에 대응하는 구 단위로 표준음성 데이터를 분할하는 단계;

상기 분할된 표준음성 데이터의 각 구 단위별 시간정보와 상기 분할된 학습자 음성 데이터의 각 구 단위별 시간정보를 추출하고 이들을 비교하여 긴 시간정보에 대한 짧은 시간 정보의 비를 구간점수를 산출하는 단계;

상기 학습자 음성 데이터와 표준음성 데이터로부터 숏 포즈(short pause)가 존재하는지를 체크하는 단계;

상기 표준음성 데이터의 숏 포즈에 대해 상기 학습자 음성 데이터의 숏 포즈의 존재 여부에 따라 상기 산출된 구간점수로부터 일정한 점수를 가감하여 최종점수를 산출하는 단계; 및

상기 산출된 최종점수에 근거하여 유창성을 평가하는 단계를 포함하는 것을 특징으로 하는 발음의 유창성을 평가하는 방법.
제 1 항에 있어서, 상기 산출된 구간점수와 전체 구간에 대한 해당 구간의 시간길이 비율을 곱하여 구 단위 환산점수를 산출하고 각 구 단위 환산점수를 합산하여 전체 환산점수를 산출하며, 상기 전체 환산점수와 체크된 숏 포즈를 참고하여 최종점수를 산출하는 것을 특징으로 하는 발음의 유창성을 평가하는 방법.
제 1 항에 있어서, 상기 구(phrase) 단위의 시간정보는,

분할기호에 의해 상기 구 단위로 분할된 텍스트 데이터를 입력하여 구 단위 언어 네트워크를 생성하는 단계;

단위별 사전을 생성하는 단계;

상기 구 단위 언어 네트워크와 단위별 사전 및 기제작된 음소별 음향모델을 통하여 최종 인식 네트워크를 생성하는 단계를 통해 추출하는 것을 특징으로 하는 발음의 유창성을 평가하는 방법.