KR20180048136A

KR20180048136A - 발음평가 방법 및 상기 방법을 이용하는 발음평가 시스템

Info

Publication number: KR20180048136A
Application number: KR1020160145335A
Authority: KR
Inventors: 이성주; 박전규; 이윤근; 정훈
Original assignee: 한국전자통신연구원
Priority date: 2016-11-02
Filing date: 2016-11-02
Publication date: 2018-05-10
Also published as: KR102052031B1

Abstract

원어민 참조발성신호가 존재하지 않는 경우, 원어민 음성 데이터베이스로부터 추출한 원어민 발음의 단어별 특징벡터를 추출하여 단어별 평가모델을 생성하고, 학습자의 발성 음성에 대해 단어별 특징벡터를 추출하며, 학습자의 발성 음성에 대한 단어별 특징벡터와 상기 단어별 평가모델과의 유사도를 판단함으로써, 단어별 발음평가를 수행하는 발음평가 시스템이 개시된다. 본 발명에 따르면, 원어민 참조발음에 대한 정보가 존재하지 않는 경우에도 발음평가를 수행할 수 있다.

Description

발음평가 방법 및 상기 방법을 이용하는 발음평가 시스템{METHOD FOR PRONUNCIATION ASSESSMENT AND SYSTEM USING THE METHOD}

본 발명은 발음평가 장치 및 방법에 관한 것으로, 더욱 상세하게는 외국어 학습자를 위해 음성인식 시스템을 이용하여 자동으로 발음을 평가하는 장치 및 그 방법에 관한 것이다.

최근 컴퓨터, 온라인 등을 활용한 외국어 학습 수단이 다양하게 출시되고 있고, 학습자가 발음하면 발음의 정확도를 알려주는 소프트웨어도 시판되고 있다. 외국어 학습자를 위한 자동 발음평가란 외국어 학습자가 목표 외국어의 발음을 학습함에 있어 학습자의 발음을 자동적으로 평가 혹은 그 평가를 위한 참고 데이터를 제공하는 것을 의미한다. 학습자의 발음 정확도를 자동으로 판단하는 기술에 있어서 중요한 요소 중 하나는 자동 발음측정기의 발음평가가 인간 평가자에 의한 발음평가와 유사한 결과를 나타내는지 여부가 될 것이다.

발음 평가를 위해 바탕이 되는 기술들 중 중요한 요소 기술의 하나가 음성 인식 기술이다. 음성인식 기술로 가장 선호되는 방법은 은닉 마코프 모델(Hidden Markov Model: HMM)을 이용한 통계적 방법이다. 기존의 구축된 음성데이터로부터 유사음소 단위(phoneme-like unit)의 모델을 훈련시키고 단어나 문장의 음성적 표현이 이렇게 훈련된 HMM 모델의 연결 사슬로 구성된다. 새로 입력된 인식 대상 음성은 따라서 기존의 음성 데이터베이스의 음향 특징과 비교하여 얼마나 유사한가를 유사음소 단위별로 계산하는 것이다.

말소리에 나타나는 소리의 변화는 주변 음과의 동시조음 등 여러 가지 조건에 의해서 다양한 형태로 나타난다. 통계적 모델링은 다시 말해서, 기존의 데이터로부터 학습하여 새로운 데이터에 적용한다는 것이므로 다양한 음향특성을 모델링하기 위해서는 모든 변이성이 포함된 대규모의 음성데이터베이스를 필요로 한다.

자동 음성인식기를 이용한 외국어 학습자의 발음 정확도를 측정하고 점수화하기 위해서는 보통 외국어 모국어 화자의 발화에 나타난 음향 특징과 학습자의 외국어 발음에 나타난 음향 특징의 유사성을 비교한다.

다시 말해, 자동 발음평가를 위한 음성인식기의 구축과 기기의 성능 평가에 필요한 데이터베이스는 두 가지 종류, 즉 훈련에 쓰일 외국어 원어민 화자의 음성 데이터베이스와 평가에 쓰일 학습자의 외국어 발음 데이터베이스이다. 또한, 통상적인 발음평가 시스템은 원어민의 참조발음(reference pronunciation) 신호로부터 특징벡터를 추출한 다음, 원어민의 특징벡터 열과 학습자의 특징벡터 열의 유사도를 다이나믹 프로그램(dynamic programing) 기법을 이용하여 추정하는 과정을 거친다.

따라서, 통상적인 발음평가 방법에서는 원어민의 참조 발음신호가 없는 경우 자동 발음평가 자체가 곤란하다는 문제점이 있다.

상기와 같은 문제점을 해결하기 위한 본 발명의 목적은 자신의 모국어가 아닌 외국어를 학습자하는 자(L2 학습자)를 위해 원어민의 참조발성 신호가 없는 경우의 발음평가 방법을 제공하는 데 있다.

상기와 같은 문제점을 해결하기 위한 본 발명의 다른 목적은, 원어민의 참조발성 신호가 없는 경우 상기 발음평가 방법을 이용하는 발음평가 시스템을 제공하는 데 있다.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 발음평가 방법은, 원어민 참조발성 신호가 존재하는지 체크하는 단계, 원어민 참조발성 신호가 존재하지 않는 경우, 원어민 음성 데이터베이스로부터 추출한 원어민 발음의 단어별 특징벡터를 추출하여 단어별 평가모델을 생성하는 단계, 학습자의 발성 음성에 대해 단어별 특징벡터를 추출하는 단계, 학습자의 발성 음성에 대한 단어별 특징벡터와 상기 단어별 평가모델의 유사도를 판단하는 단계, 및 판단된 유사도에 따라 단어별 발음평가를 수행하는 단계를 포함할 수 있다.

상기 발음평가 방법은, 원어민 참조발성 신호가 존재하는지 체크한 결과 원어민 참조발성 신호가 존재하는 경우에는, 원어민 참조발음에 대한 단어별 특징벡터 및 학습자 발음의 단어별 특징벡터 간 거리를 계산하여 단어별 발음평가를 수행하는 단계를 포함할 수 있다.

상기 다른 목적을 달성하기 위한 본 발명의 일 실시예에 따른 발음평가 시스템은, 원어민 참조발성 신호가 존재하는지 체크하고, 원어민 참조발성 신호가 존재하지 않는 경우, 원어민 음성 데이터베이스로부터 추출한 원어민 발음의 단어별 특징벡터를 추출하여 단어별 평가모델을 생성하고, 학습자의 발성 음성에 대해 단어별 특징벡터를 추출하며, 학습자의 발성 음성에 대한 단어별 특징벡터와 상기 단어별 평가모델과의 유사도를 판단함으로써, 단어별 발음평가를 수행하는 컨트롤러를 포함할 수 있다.

상기 발음평가 시스템은, 원어민 참조발성 신호가 존재하는지 체크한 결과 원어민 참조발성 신호가 존재하는 경우에는, 원어민 참조발음에 대한 단어별 특징벡터 및 학습자 발음의 단어별 특징벡터 간 거리를 계산하여 단어별 발음평가를 수행한다.

상기와 같은 본 발명의 실시예에 따르면, 자동 음성인식, 발음평가용 단어별 특징추출, 및 통계적 발음 모델링 방법을 이용하여 기존의 발음평가 시스템이 지닌 문제점, 즉 원어민 참조발음 신호가 없는 경우의 발음평가의 문제점을 해결 가능하다.

또한, 본 발명에 따른 자동 발음평가 방법 및 이를 이용하는 시스템을 활용하면 외국어 학습자의 자유발화에 대한 발음평가까지 가능하게 된다.

도 1은 본 발명의 일 실시예에 따른 발음평가특징 추출부의 블록 구성도이다.
도 2는 본 발명에 따라 추출되는 음성신호의 화성 성분의 예시를 나타낸다.
도 3은 본 발명에 따른 발음평가에 활용되는 음절의 발화속도 및 중단 지속시간의 계산예를 도시한다.
도 4는 본 발명의 일 실시예에 따른 발음평가 시스템의 블록 구성도이다.
도 5는 본 발명에 따른 음성인식 네트워크의 일 실시예를 나타낸다.
도 6는 본 발명의 다른 실시예에 따른 발음평가 시스템의 블록 구성도이다.
도 7은 본 발명의 다른 실시예에 따른 발음평가 시스템의 블록 구성도이다.
도 8은 본 발명의 일 실시예에 따른 발음평가 방법의 동작 순서도이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.

제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. "및/또는"이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

본 발명은 음성인식 시스템을 이용하여 자신의 모국어가 아닌 외국어를 학습자하는 자(L2 학습자)를 위한 자동 발음평가 장치 및 방법을 제공하는 것을 목적으로 한다.

도 1은 본 발명의 일 실시예에 따른 발음평가특징 추출부의 블록 구성도이다.

도 1에 도시된 발음평가 특징 추출부는, 신호 백색화 필터부(110), 프레임 분석부(120), 로그 에너지 계산부(121), LPC 분석부(130), 여기신호 주파수 분석부(131), 주파수 영역 에너지 계산부(140), SRH 계산부(150), 최대값 검출부(160), 하모닉 검출부(170), 하모닉특징 추출부(171), 정규화부(180), 및 동적특징 추출부(190)를 포함하여 구성될 수 있다.

신호 백색화 필터부(110)는 입력된 신호에 대해 높은 주파수 성분에 대한 변조가 강하게 적용되도록 프리엠퍼시스(pre-emphasis) 필터를 적용한다.

프레임 분석부(120)는, 입력신호 분석을 위해 윈도우잉 방법을 적용하여 프레임 단위로 신호를 분리한다. 로그 에너지 계산부(121)는 입력 프레임 신호로부터 로그 에너지를 계산하여 출력한다.

LPC 분석부(130)는, 소스-필터(source-filter) 모델 적용을 위한 선형예측계수(linear predictive coefficient) 분석을 수행하고 입력신호를 성도 필터(vocal tract filter) 신호와 여기(excitation) 신호로 분리하여 출력한다. 여기신호 주파수 분석부(131)는 입력된 여기 신호를 분석하고, 주파수 영역 에너지 계산부(140)는 푸리에 변환을 이용하여 각 주파수 성분에 대한 에너지를 계산한다.

SRH 계산부(150)는 잔여하모닉합(sum of residual harmonic)의 함수를 계산한다. 최대값 검출부(160)는 SRH 함수의 최대값을 검출하여 기본 주파수(fundamental frequency)를 추정한다. 하모닉 검출부(170)는 F0(fundamental frequency)를 이용하여 음성신호의 화성성분 2번에서 4번까지를 검출한다. 여기서, 화성성분 1번은 F0이다.

하모닉 특징추출부(171)는 하모닉 검출부(170)가 출력하는 화성성분에 대해 화성성분 2번에서 4번까지 에너지 궤적을 추출하고, 정규화부(Mean Normalization)(180)는 하모닉 특징추출부(171)가 출력하는 화성성분의 에너지 궤적을 평균값으로 정규화한다.

동적특징 추출부(190)는 입력된 궤적들의 정보와 시간적(temporal) DCT(discrete cosine transform)을 이용하여 동적특징벡터를 추출한다. 동적 특징벡터는 N차의 TDCT 계수가 입력된 궤적의 동적 특성을 표현한다.

도 1에 도시된 본 발명의 일 실시예에 따른 발음평가특징 추출부가 출력하는 결과물은 특징 벡터, 그 중에서도 운율 특징벡터이다. 본 발명에 따른 운율특징 벡터들은, 세기(intensity) 관련 특징벡터, F0 관련 특징벡터, 하모닉 특징벡터 등을 포함할 수 있다.

도 1에 도시된 구성요소들을 살펴보면, 세기(intensity) 관련 벡터는, 입력된 음성신호에 대해 프레임 분석부(120), 로그 에너지 계산부(121), 정규화부(180) 및 동적특징 추출부(190)의 처리를 거쳐 도출된다.

F0 관련 특징벡터는, 입력된 음성신호에 대해 신호백색화 필터부(110), 프레임 분석부(120), LPC 분석부(130), 여기신호 주파수 분석부(131), 주파수 영역 에너지 계산부(140), SRH 계산부(150), 최대값 검출부(160), 정규화부(180), 및 동적특징 추출부(190)의 처리를 거쳐 도출된다.

하모닉 특징벡터는, 입력된 음성신호에 대해 신호백색화 필터부(110), 프레임 분석부(120), LPC 분석부(130), 여기신호 주파수 분석부(131), 주파수 영역 에너지 계산부(140), SRH 계산부(150), 최대값 검출부(160), 하모닉 검출부(170), 하모닉특징 추출부(171), 정규화부(180), 및 동적특징 추출부(190)의 처리를 거쳐 도출된다.

이러한 본 발명에 따른 특징벡터들은 원어민 참조발성신호가 있는 경우와 원어민 참조발성신호가 없는 경우 서로 다른 요소들을 포함할 수 있으며, 각각의 경우 그 요소들은 아래와 같이 정리될 수 있다.

원어민 참조발성신호가 있는 경우의 본 발명의 일 실시예에 따른 특징벡터 구성은 아래와 같다.

1) 단어별 음향모델 유사도 혹은 우도 (Likelihood)(1차)

2) 운율특징

- 단어별 음절발화속도(1차)

- 단어별 세기(Intensity) 관련 정적/동적 특징(M차),

- 단어별 F0관련 정적/동적 특징(M차)

- 단어별 하모닉 관련 정적/동적 특징(3ⅹM차)

- 멈춤(pause) 지속시간(1차)

여기서, 정적 특징이란 프레임 값들의 평균과 표준편차를 의미한다.

또한, 원어민 참조발성신호가 없는 경우의 본 발명의 일 실시예에 따른 특징벡터 구성은 아래와 같다.

1) 단어별 음향모델 유사도 혹은 우도 (Likelihood)(1차)

2) 운율특징

- 단어별 음절발화속도(1차)

- 단어별 세기(Intensity) 관련 정적/동적 특징(M차),

- 단어별 F0관련 정적/동적 특징(M차)

- 단어별 하모닉 관련 정적/동적 특징(3ⅹM차)

원어민 참조발성신호가 없는 경우에 있어서의 특징벡터에서 주목할 점은, 참조발성이 없어 멈춤(pause) 지속시간을 계산할 수 없으므로, 멈춤 지속시간 관련 벡터는 산출하지 않는다는 점이다.

도 2는 본 발명에 따라 추출되는 음성신호의 화성 성분의 예시를 나타낸다.

도 2에 도시된 h1, h2, h3, h4가 각각 화성성분 1번 내지 화성성분 4번까지를 나타낸다.

도 3은 본 발명에 따른 발음평가에 활용되는 음절의 발화속도 및 중단 지속시간의 계산예를 도시한다.

도 3에 도시된 음성 신호는 발화자가 "Mary came with Manny"라는 문장을 발음했을 경우의 시간축 상에서의 신호, 프레임 구간별로 주파수 변환된 신호 등이 표현되어 있다. 도 3에 나타낸 신호에서는 "Mary", "came wit" "Manny" 에 각각 해당하는 발화 구간(301)과 멈춤 구간(302)이 반복되어 나타나고 있다.

음절의 발화속도는 도 3에 도시된 바와 같이 초당 몇 음절의 단위로 나타낼 수 있는데, 예를 들어, 2 음절/초 (syl/duration in sec)와 같이 나타낼 수 있다.

도 4는 본 발명의 일 실시예에 따른 발음평가 시스템의 블록 구성도이다.

도 4에 도시된 발음평가 시스템은 원어민 화자의 참조발음과 전사정보가 있고, 제2외국어 학습자가 참조발음을 그대로 따라 발성한 경우 구성될 수 있는 발음평가 시스템의 블록도이다.

본 발명에 따른 발음평가 시스템은 오프라인 상에서 구현될 수 있는 구성요소들과 온라인 상에서 구현될 수 있는 구성들을 포함할 수 있다.

오프라인 상에 구현되는 구성요소들은 원어민 음성신호와 관련한 처리를 담당하는 블록들로, 원어민 음성신호 처리부(200) 및 단어별 발음평가 특징추출부(100)를 포함할 수 있다.

원어민 음성신호 처리부(200)는 세부 구성으로, 원어민 음성신호 강제정렬부(210) 및 언어모델, 사전, 음향모델 등을 포함할 수 있다.

원어민 음성신호 강제정렬부(210)는 원어민의 참조발음신호와 전사정보를 입력으로, 언어모델, 사전, 음향모델 등을 포함하는 외국어 음성인식 시스템을 이용하여 강제정렬(forced alignment) 과정을 수행한다.

단어별 발음평가 특징추출부(100)는 워드 레티스에 따른 단어 경계정보를 이용하여 발음평가를 위한 단어별 특징벡터를 추출한다. 여기서, 단어별 특징벡터는, 단어별 음향모델 유사도, 단어별 음절발화속도, 단어별 세기 관련 정적/동적 특징, 단어별 f0관련 정적/동적 특징, 단어별 하모닉 관련 정적/동적 특징, 멈춘(pause) 지속시간 등에 관한 벡터를 포함할 수 있다.

온라인 상에 구현되는 구성요소들은 학습자의 음성신호와 관련한 처리를 담당하는 블록들로, 학습자 음성신호 처리부(300) 및 단어별 발음평가 특징추출부(100), 단어별 거리 계산부(400), 단어별 발음평가부(500), 발음평가 종합부(600)를 포함할 수 있다.

학습자 음성신호 처리부(300)는 세부 구성으로, 학습자 음성신호 음성인식부(310) 및 언어모델, 사전, 음향모델 등을 포함할 수 있다. 학습자는 원어민의 참조발성을 보고, 듣고 따라서 발성을 하게 되는데 이때 학습자의 읽기 능력에 따라 발음의 멈춤(pause), 삽입(insertion) 혹은 제거(deletion) 등이 발생할 수 있다. 학습자 음성신호 음성인식부(310)는 이러한 현상들을 고려하여 본 발명에 따른 음성인식 네트워크를 구성하여 학습자의 음성신호를 인식하고 인식된 워드 레티스(word lattice)를 출력한다.

온라인 상에서의 단어별 발음평가 특징추출부(100)는 오프라인 상에서의 단어별 발음평가 특징추출부(100)와 동일한 기능을 수행 가능하다. 온라인 상에서의 단어별 발음평가 특징추출부(100)는 워드 레티스에 따른 단어 경계정보를 이용하여 발음평가를 위한 단어별 특징벡터를 추출한다.

단어별 거리 계산부(400)는, 발음평가를 위해 원어민 발음과 학습자 발음 사이의 특징벡터 거리를 계산한다.

단어별 발음평가부(500)는 원어민 발음과 학습자 발음 사이의 특징벡터 거리를 기초로 하여 단어별 발음평가 지식을 이용해 단어별 발음을 평가하고 평가 결과를 단어별 발음수준 단계로 맵핑한다. 발음수준 단걔는 예를 들어, 1점 내지 5점 사이의 점수로 표현될 수 있다.

발음평가 종합부(600)는 단어별 발음평가부에서 맵핑한 발음수준 단계를 종합하여 전체 문장의 발음 점수를 추정하고 각 단어별 발음수준 단계와 함께 출력한다.

도 5는 본 발명에 따른 음성인식 네트워크의 일 실시예를 나타낸다.

도 5에서는 본 발명에 따른 음성인식 네트워크를 폰 바이그램(phone bigram)의 형태로 표현하고 있다. 도 5에서는 발화자가 예를 들어, "I am Tom"이라는 참조 문장을 발음했을 때 학습자의 읽기능력에 따라 흔히 발생하는 멈춤(pause), 삽입(insertion) 혹은 제거(deletion) 등의 현상을 폰 바이그램 형태로 표현한 것이다. 즉, 발음할 때 발생 가능한 멈춤, 삽입, 제거 등의 현상을 이러한 음성인식 네트워크를 사용하여 쉽게 반영할 수 있다. 여기서, 삽입은 간투사, 노이즈(man-made noise) 등의 삽입을 의미한다.

도 6는 본 발명의 다른 실시예에 따른 발음평가 시스템의 블록 구성도이다.

도 6에 도시된 발음평가 시스템은 원어민 화자의 참조발음과 전사정보가 없고, 제2외국어 학습자가 제시된 문장을 그대로 따라 발성한 경우 구성될 수 있는 발음평가 시스템의 블록도이다.

도 6에 도시된 본 발명의 일 실시예에 따른 발음평가 시스템 역시, 오프라인 상에서 구현될 수 있는 구성요소들과 온라인 상에서 구현될 수 있는 구성들을 포함할 수 있다.

오프라인 상에 구현되는 구성요소들은 원어민 음성신호와 관련한 처리를 담당하는 블록들로, 원어민 전사파일 데이터베이스(220), 원어민 음성신호 데이터베이스(230), 원어민 음성신호 강제정렬부(210) 및 언어모델, 사전, 음향모델 등을 포함할 수 있다. 오프라인 상에 구현되는 구성요소로서 추가적으로, 단어별 발음평가 특징추출부(100) 및 단어별 평가모델 데이터베이스(700)를 포함할 수 있다.

원어민 전사파일 데이터베이스(220)는 외국어 음성인식 시스템의 음향모델 학습에 사용된 원어민 전사파일 DB이다. 전사파일은 학습자가 발화하는 문장에 대한 정보이다. 원어민 음성신호 데이터베이스(230)는 전사파일에 저장된 문장과 매칭되는 원어민의 음성신호를 저장하는 DB이다.

원어민 전사파일 데이터베이스(220) 및 원어민 음성신호 데이터베이스(230)는 본 발명의 일 실시예에 따른 이용해 단어별 운율 모델, 즉 단어별 특징 모델을 생성하는 데 사용된다.

원어민 음성신호 강제정렬부(210)는 원어민의 음성신호와 전사파일을 입력으로 수신하여, 언어모델, 사전, 음향모델 등 외국어 음성인식 시스템을 이용한 강제정렬(forced alignment) 과정을 수행하고 워드 레티스를 출력한다.

단어별 발음평가 특징추출부(100)는 원어민 음성데이터베이스로부터 추출한 워드 레티스에 따른 단어 경계정보를 이용하여 발음평가를 위한 단어별 특징벡터를 추출하고 단어별 평가모델(700)을 생성한다.

여기서, 학습자가 발성하는 문장은 단어별 평가모델 내에 포함된 단어들로 구성되는 것이 바람직하다.

도 4를 통해 설명된 실시예에서 사용되었던 단어별 발음평가 특징 중 멈춤(pause) 지속시간 정보는 원어민 참조 발성이 존재하지 않으므로, 본 실시예에 따른 단어별 평가모델은 중단 지속시간 정보를 제외한 특징 벡터들을 포함한다. 즉, 본 실시예에서 단어별 특징모델은 단어별 음향모델 유사도, 단어별 음절발화속도, 단어별 세기 관련 정적/동적 특징, 단어별 f0관련 정적/동적 특징, 단어별 하모닉 관련 정적/동적 특징에 관한 벡터를 포함할 수 있다.

한편, 온라인 상에 구현되는 구성요소들은 학습자의 음성신호와 관련한 처리를 담당하는 블록들로, 학습자 음성신호 음성인식부(310) 및 언어모델, 사전, 음향모델, 그리고 단어별 발음평가 특징추출부(100), 단어별 평가모델 유사도 추정부(410), 단어별 발음평가부(500), 발음평가 종합부(600)를 포함할 수 있다.

학습자는 주어진 문장 정보를 보고 해당 문장을 발성하게 되는데 이때 학습자의 읽기 능력에 따라 발음의 멈춤(pause), 삽입(insertion) 혹은 제거(deletion) 등이 발생할 수 있다. 학습자 음성신호 음성인식부(310)는 이러한 현상들을 고려하여 본 발명에 따른 음성인식 네트워크를 구성하여 학습자의 음성 신호를 인식하고 인식된 워드 레티스(word lattice)를 출력한다.

온라인 상에 위치하는 단어별 발음평가 특징추출부(100)는 학습자 음성신호로부터 추출된 워드 레티스로부터 발음평가를 위한 단어별 특징 벡터들을 출력한다.

단어별 평가모델 유사도 추정부(410)는 학습자의 음성신호와 발화문장 정보를 이용하여 추출한 발음평가용 단어별 특징벡터를 단어별 평가모델과 비교하여 유사도를 추정한다.

단어별 발음 평가부(500)는 추정된 단어별 유사도를 이용하여 단어별 발음점수 또는 발음수준 단계를 산출한다. 발음 평가 종합부(600)는 단어별 발음평가부에서 맵핑한 발음수준단계를 종합하여 전체 문장의 발음 점수를 추정하고 각 단어별 발음수준 단계와 함께 출력한다.

도 7은 본 발명의 다른 실시예에 따른 발음평가 시스템의 블록 구성도이다.

도 7에 도시된 발음평가 시스템은 원어민 화자의 참조발음과 전사정보가 없고, 제2외국어 학습자가 제시된 문장이 아닌 자유로운 문장을 발성한 경우 구성될 수 있는 발음평가 시스템의 블록도이다.

도 7에 도시된 본 발명의 일 실시예에 따른 발음평가 시스템 역시, 오프라인 상에서 구현될 수 있는 구성요소들과 온라인 상에서 구현될 수 있는 구성들을 포함할 수 있다.

단어별 발음평가 특징추출부(100)는 원어민 음성데이터베이스로부터 추출한 워드 레티스에 따른 단어 경계정보를 이용하여 발음평가를 위한 단어별 특징벡터를 추출하고 단어별 평가모델(700)을 생성한다. 여기서, 학습자가 발성하는 문장은 단어별 평가 모델 내에 포함되어 있는 단어들로 구성되는 것이 바람직하다.

도 6에 도시된 실시예에서는 발음 문장에 대한 전사파일이 제공된 반면, 도 7에 도시된 실시예에서는 정해진 문장이 존재하지 않으므로, 어떠한 전사파일도 학습자 음성신호 음성인식부(310)로 제공되지 않는다. 따라서, 이전에 설명된 실시예들과는 달리, 학습자 음성신호 음성인식부(310)는 대용량 외국어 음성인식 시스템을 이용하여, 즉 일반적인 언어모델을 이용하여 음성 인식 과정을 수행하고, 인식된 워드 레티스(word lattice)를 출력한다.

한편, 도 7에 도시된 실시예에서는 학습자 음성신호 음성인식부(310)가 출력하는 워드 레티스에 대한 후처리를 수행하는 후처리부(320)를 추가로 포함한다. 후처리부(320)는 고급언어지식(high-level language knowledge)을 이용하여 워드 레티스 리스코어링 과정을 수행한다. 여기서, 고급 언어지식은 발성 도메인 정보 혹은 발성 주제 등으로 인식 성능 향상에 도움을 줄 수 있는 고급 언어 지식을 의미한다.

단어별 평가모델 유사도 추정부(410)는 학습자의 음성신호로부터 추출된 발음평가용 단어별 특징벡터를 단어별 평가모델 데이터베이스(700)에 저장된 단어별 평가모델과 비교하여 유사도를 추정한다.

도 4, 도 6, 및 도 7을 통해 설명한 발음평가 시스템을 개별적으로 설명하기는 하였으나, 모든 경우에 대해 동작 가능하여 그 기능이 하나로 통합된 시스템의 형태로도 또한 존재 가능하다. 앞서 설명한 발음평가 시스템들의 기능이 하나의 시스템으로 통합된다면 해당 시스템은 아래 도 8에서 설명하는 방법을 수행할 수 있다.

도 8은 본 발명의 일 실시예에 따른 발음평가 방법의 동작 순서도이다.

도 8에 도시된 방법은 도 4 내지 7에 도시된 발음평가 시스템의 실시예들 또는 이러한 시스템들의 기능이 하나의 시스템으로 통합된 경우 해당 시스템에 의해 수행될 수 있으나, 그 동작 주체가 이에 한정되는 것은 아니다.

도 8에 도시된 방법이 하나의 시스템에 의해 실행되는 경우 해당 시스템은 원어민 참조발음 및 전사정보가 존재하는지 판단하고 학습자가 발성하는 문장의 종류를 판단하는 컨트롤러를 별도로 포함할 수 있으며, 이 컨트롤러는 앞서 설명된 여러 발음평가 시스템에 대한 실시예들에서 설명된 블록들 중 각각의 경우에 대해 필요한 블록들을 선택하고 제어할 수 있다.

본 발명에 따른 발음평가 방법에서는 우선, 원어민 참조발음 및 전사정보가 존재하는지 체크하는 단계(S810)가 선행된다.

원어민 참조발음 및 전사정보가 존재하는 경우에는, 원어민의 워드 레티스 및 단어별 특징벡터를 추출하고(S811), 학습자의 워드 레티스 및 단어별 특징벡터를 추출한다(S812). 단어별 특징벡터가 추출되면, 두 특징벡터 간 단어별 거리를 계산하여(S813) 단어별 발음평가를 수행하고(S814), 발음평가를 종합하여 출력한다(S815).

원어민 참조발음 및 전사정보가 존재하지 않는 경우에는 발성대상 문장의 종류를 판단하는 단계(S820)를 거치게 된다. 발성대상 문장이 시스템에 의해 제시된 문장이라면, 원어민의 워드 레티스 및 단어별 특징벡터를 추출하고(S821) 단어별 평가모델을 생성한다(S822). 이후 온라인 상에서 입력된 학습자의 음성 신호에 대해 학습자의 워드 레티스 및 단어별 특징벡터 추출한다(S823). 단어별 특징벡터가 추출되면, 단어별 특징벡터와 단어별 발음평가모델과의 유사도를 추정한다(S824). 이후, 단어별 발음평가모델과의 유사도에 따라 단어별 발음평가를 수행하고(S825), 발음평가를 종합하여 출력한다(S826).

발성대상 문장의 종류를 판단하는 단계(S820)에서 대상 문장이 자유 발성 문장인 경우로 판단되면 우선, 원어민의 워드 레티스 및 단어별 특징벡터를 추출하고(S831), 단어별 평가모델을 생성한다(S832). 이후 온라인 상에서 입력된 학습자의 음성 신호에 대해 학습자의 워드 레티스를 추출하고(S833), 추가적으로 고급언어지식을 이용해 학습자의 워드 레티스를 후처리한다(S834). 워드 레티스에 대한 후처리가 완료되면, 후처리된 워드 레티스에 대해 단어별 특징벡터를 추출하고, 단어별 특징벡터와 단어별 발음평가모델과의 유사도를 추정한다(S835). 단어별 발음평가모델과의 유사도에 따라 단어별 발음평가를 수행하고(S836), 발음평가를 종합하여 출력한다(S837).

본 발명의 실시예에 따른 발음평가 방법의 동작은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 프로그램 또는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의해 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산 방식으로 컴퓨터로 읽을 수 있는 프로그램 또는 코드가 저장되고 실행될 수 있다.

또한, 컴퓨터가 읽을 수 있는 기록매체는 롬(rom), 램(ram), 플래시 메모리(flash memory) 등과 같이 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함할 수 있다. 프로그램 명령은 컴파일러(compiler)에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터(interpreter) 등을 사용해서 컴퓨터에 의해 실행될 수 있는 고급 언어 코드를 포함할 수 있다.

본 발명의 일부 측면들은 장치의 문맥에서 설명되었으나, 그것은 상응하는 방법에 따른 설명 또한 나타낼 수 있고, 여기서 블록 또는 장치는 방법 단계 또는 방법 단계의 특징에 상응한다. 유사하게, 방법의 문맥에서 설명된 측면들은 또한 상응하는 블록 또는 아이템 또는 상응하는 장치의 특징으로 나타낼 수 있다. 방법 단계들의 몇몇 또는 전부는 예를 들어, 마이크로프로세서, 프로그램 가능한 컴퓨터 또는 전자 회로와 같은 하드웨어 장치에 의해(또는 이용하여) 수행될 수 있다. 몇몇의 실시예에서, 가장 중요한 방법 단계들의 하나 이상은 이와 같은 장치에 의해 수행될 수 있다.

본 발명의 실시예들에서, 프로그램 가능한 로직 장치가 여기서 설명된 방법들의 기능의 일부 또는 전부를 수행하기 위해 사용될 수 있다. 실시예들에서, 필드 프로그머블 게이트 어레이는 여기서 설명된 방법들 중 하나를 수행하기 위한 마이크로프로세서와 함께 작동할 수 있다. 일반적으로, 방법들은 어떤 하드웨어 장치에 의해 수행되는 것이 바람직하다.

상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

100: 단어별 발음평가 특징추출부 210: 원어민 음성신호 강제 정렬부
310: 학습자 음성신호 음성인식부 320: 후처리부
400: 단어별 거리 계산부
410: 단어별 평가모델 유사도 추정부
500: 단어별 발음평가부 600: 발음평가 종합부
700: 단어별 평가모델

Claims

원어민 참조발성 신호가 존재하는지 체크하는 단계;
상기 체크 결과 원어민 참조발성 신호가 존재하지 않는 경우,
원어민 음성 데이터베이스로부터 추출한 원어민 발음의 단어별 특징벡터를 추출하여 단어별 평가모델을 생성하는 단계;
학습자의 발성 음성에 대해 단어별 특징벡터를 추출하는 단계;
학습자의 발성 음성에 대한 단어별 특징벡터와 상기 단어별 평가모델의 유사도를 판단하는 단계; 및
판단된 유사도에 따라 단어별 발음평가를 수행하는 단계를 포함하는, 발음평가 방법.