KR100733469B1

KR100733469B1 - 외국어 발음 평가 시스템 및 외국어 발음 평가 방법

Info

Publication number: KR100733469B1
Application number: KR1020050001956A
Authority: KR
Inventors: 박전규; 이준조; 김영창; 허용수
Original assignee: 정보통신연구진흥원; 동아시테크주식회사
Priority date: 2004-01-08
Filing date: 2005-01-08
Publication date: 2007-06-29
Also published as: KR20050074298A; KR20040073291A

Abstract

본 발명은 음성인식 기술을 이용하여 특정 외국어에 대한 발음을 평가하기 위한 시스템에 관한 것으로, 특히, 외국어를 사용하는 원어민들의 음성을 분석하여 음성, 음향적인 특징 데이터들을 추출하고, 외국어 발음에 대해 평가받고자 하는 학습자들의 음성을 입력받아 원어민의 음성과 동일한 방법으로 특징 데이터를 분석, 추출한 후, 원어민의 특징 데이터와 학습자의 특징 데이터를 상호 비교하여 그 일치정도에 따라 점수를 부여함으로써 음성을 입력한 학습자가 자신의 발음의 정확도를 점수로 체크하고, 각종 그래프와 챠트를 통해 비교할 수 있도록 하는 외국어 발음 평가 시스템 및 외국어 발음 평가 방법을 제공한다.

외국어 발음 평가 시스템

Description

외국어 발음 평가 시스템 및 외국어 발음 평가 방법{Pronunciation Test System and Method of Foreign Language}

도1은 본 발명에 따른 외국어 발음 평가 시스템의 구성을 개략적으로 나타낸 블록도.

도2는 본 발명에 따른 외국어 발음 평가 시스템을 구성하는 컨텐츠 제공 모듈을 나타낸 블록도.

도3은 본 발명에 따른 외국어 발음 평가 시스템을 구성하는 음성파일 제작 모듈을 나타낸 블록도.

도4는 본 발명에 따른 외국어 발음 평가 시스템을 구성하는 음성인식 모듈을 나타낸 블록도.

도5는 본 발명에 따른 외국어 발음 평가 시스템을 구성하는 논리평가 모듈을 나타낸 블록도.

도6은 본 발명에 따른 외국어 발음 평가 시스템을 구성하는 멀티뷰어 모듈을 나타낸 블록도.

도7은 본 발명에 따른 외국어 발음 평가 시스템에서 디스플레이 수단을 통해 표시되는 멀티뷰어의 한 실시예를 나타낸 도면.

<도면의 주요부분에 대한 부호의 설명>

10 : 디스플레이 수단 20 : 음성입력 수단

30 : 컨텐츠 제공 모듈 31 : 업그레이드 컨텐츠 등록부

32 : 레벨 선택수단 33 : 텍스트파일 교정/입력수단

34 : 학습내용 저장수단 40 : 음성파일 제작 모듈

41 : 잡음 필터링부 42 : 음성파일 제작부

50 : 음성인식 모듈 51 : 음성 분석부

52 : 비교 분석부 53 : 데이터 저장부

60 : 논리평가 모듈 61 : 분절적 특성 점수 평가부

62 : 비분절적 특성 점수 평가부 63 : 종합점수 평가부

64 : 평가점수 저장부 70 : 멀티뷰어 모듈

71 : 제1뷰어 72 : 제2뷰어

73 : 제3뷰어 74 : 멀티뷰어
A : 본체

본 발명은 음성인식 기술을 이용하여 특정 외국어에 대한 발음을 평가하기 위한 시스템에 관한 것으로, 특히, 외국어를 사용하는 원어민들의 음성을 분석하여 음성, 음향적인 특징 데이터들을 추출하고, 외국어 발음에 대해 평가받고자 하는 학습자들의 음성을 입력받아 원어민의 음성과 동일한 방법으로 특징 데이터를 분석, 추출한 후, 원어민의 특징 데이터와 학습자의 특징 데이터를 상호 비교하여 그 일치정도에 따라 점수를 부여함으로써 음성을 입력한 학습자가 자신의 발음의 정확도를 점수로 체크하고, 각종 그래프와 챠트를 통해 비교할 수 있도록 하는 외국어 발음 평가 시스템 및 그 평가방법을 제공한다.

최근 들어 산업의 전문화와 국제화의 추세에 따라 외국어에 대한 중요성이 날로 커지고 있고, 이러한 중요성에 따라 많은 사람들이 외국어 학습에 많은 시간을 할애하고 있으며, 이에 발맞추어 다양한 온-오프 라인 어학 강좌들이 개설되어 있다.

상기와 같은 외국어 학습 영역 중 회화의 중요성이 더 부각되고 있고, 외국어들 중 영어의 경우는 토플 TSE(Test of Spoken English)가 2005년 9월부터 전면 시행될 것으로 예정되어 있어 이에 따른 개인 어학 학습 교재와 모의 테스트 장치에 대한 요구가 증가되고 있다.

그러나, 일반적으로 발음이나 발음에 대한 교정은 외국인 강사와의 1:1 지도방식에 의해 이루어지고 있고, 이 경우 영어 학습에 많은 비용이 소요된다는 문제점이 있으며, 특별히 정해진 시간에 교육이 이루어지기 때문에 직장인 등과 같은 바쁜 일상생활을 영위하는 사람들에게는 그 학습에의 참여가 극히 제한적이라는 문 제점이 있었다.

따라서, 유휴 시간에 혼자서도 효과적으로 외국어에 대한 발음이나 발음 등을 학습하고, 원어민의 발음과 비교 평가하는 교육 프로그램 등을 필요로 하게 되었다.

이러한, 요구에 부응하기 위하여 현재 음성인식을 이용한 다양한 어학용 프로그램들을 탑재한 어학용 학습기가 개발되어 보급되고 있다.

상기와 같은 어학용 학습기의 외국어 발음 평가 방법은, 음성 신호 처리 기술을 이용한 발음 비교방법에 의하며, 여기에는 은닉 마코브 모델(Hidden Markov Model, 이하 HMM 이라 함)을 이용하여 학습자의 발음을 인식한 후, 이를 원어민의 음성과 비교하여 그 결과를 알려주는 프로그램들을 이용하여 실시하고 있다.

상기와 같은 종래의 외국어 발음 평가 방법은 학습자의 발음에 대한 분절적 특성 중 하나의 요소특성을 그에 대응하는 원어민의 특성과 비교하는 방법을 사용하여 발음의 정확도를 평가하였고, 특히 분절적 특성 중 음소에 대한 특성 데이터를 많이 사용하였다.

상기 사용되는 원어민의 특징 데이터는 훈련된 AM(Acoustic Model) 또는 발음 시점에서 원어민의 음성 데이터로부터 추출한 특성 데이터를 사용한다. 그러나 상기 AM이나 음성에서 추출된 특징 데이터는 전체 원어민의 개인적인 발음 성향에 대한 오차를 무시하게 됨으로써, 올바른 평가를 기대할 수 없으며, 음절이나 구문, 문장의 강세나 등시성 등에 대한 평가가 불가능하거나, 평가하더라도 그 정확성을 기대할 수 없다는 단점이 있었다.

또한, 상기와 같은 발음 비교분석 프로그램들은 모든 발음의 분절적, 비분절적 특성들에 대하여 동일한 또는 임의의 가중치를 일괄적으로 부여함으로써, 특정 문장 또는 단어 등의 억양, 강세, 발음 속도 등에 대한 개별적 특징의 평가에는 적용하지 못하는 문제점이 있었다.

따라서, 상기와 같은 프로그램을 탑재한 학습기들은 디스플레이 수단을 통해 표시된 문장 중 어느 하나를 선택하여 음성을 입력하고, 입력된 학습자의 음성을 상기 프로그램에 의해 원어민의 발음과 단순히 비교 평가하여 그 결과를 점수로 학습자에게 제공하는 것이 대부분이었다.

또한, 학습자는 표시된 점수로 자신의 발음이 얼마나 정확한지를 개략적으로는 알 수 있지만, 단어나 문장에 대한 발음 길이, 억양, 강세, 발음속도 등 발음에 대한 각 분야별로 비교할 수 있는 수단이 없어 정확한 비교 분석에 의해 학습을 진행할 수 없고, 이로 인해 발음 교정에 한계가 있다는 문제점이 있었다.

또한, 종래의 음성인식 프로그램 또는 엔진이 탑재된 어학 학습기들은 획일적인 평가기준만을 구비하고 있어 학습자의 언어 사용 능력 또는 발음 특성을 적절히 반영하지 못하므로 학습자의 레벨 또는 개성에 맞는 학습을 진행할 수 없으며, 또한 종래의 음성인식기의 기술수준으로는 외국어 원어민의 AM에 대한 적응이 어렵고 근본적으로 다른 발음 및 언어 습관으로 인해 발음의 정확도에 대한 인식율이 기대에 미치지 못하고 있는 실정이다.

또한, 종래의 음성 인식기들에 의해서는 초보적인 학습 목표인 최소변별쌍 (minimal pair)의 효과적인 구분조차 현실적으로 불가능하며, 잡음 환경에 대한 효과적인 대처가 불가능하고, 핵심어나 핵심 어구의 검출 성능이 낮거나 효과적이지 못한 실정이다. 또한, 현재까지의 어학 학습기는 교과서적인 학습 방법에 치우쳐서 실제 회화 환경에서 나타날 수 있는 다양한 언어 현상에 대한 해석과 대처가 불가능하다는 문제점이 있었다.

또한, 종래의 어학 학습기들은 개별적으로 판매되는 관계로 제품구입에 따른 비용이 많이 든다는 문제점도 있었다.

따라서, 현재 많이 보급되어 있는 인터넷을 활용하여 발음에 대한 자가 평가를 실시하는 것이 학습자 입장에서 비용을 절감할 수 있으나, 상기 인터넷 등 온라인 방식의 어학 학습 시스템들은 단순히 영어 작문이나 회화 등에 관한 것에 불과하며, 학습자가 발음한 외국어에 대한 다양하고 정확한 평가와 원어민과의 발음정도 차이를 알려주고, 평가결과를 수치화 하도록 하는 시스템은 전무하다는 문제점이 있었다.

본 발명은 상술한 문제점들을 해결하기 위하여, 음향 및 음성학의 개념에 따라 영어 발음법 및 발음평가 기법들에 기반을 둔 시스템을 제공함으로써 학습자가 자신의 발음에 대해 효과적이고도 체계적으로 학습할 수 있도록 하는 것을 목적으로 한다. 즉, 학습자가 입력한 음성으로부터 비분절적·분절적 음성 데이터를 추출하며, 추출된 음성 데이터의 팩터별로 가중치를 부여하고, 그 부여된 가중치에 따라 원어민의 특징 데이터와 비교한 결과를 제공함으로써 원어민에 근접한 발음을 구현할 수 있도록 하는 것을 목적으로 한다.

또한, 학습자의 레벨에 맞는 다양한 형태의 컨텐츠를 제공함으로써 학습자 스스로가 자기의 레벨에 따라 효과적인 외국어 학습을 수행할 수 있도록 하는 것을 또 다른 목적으로 한다.

또한, 학습자가 평가를 위해 입력한 발음을 음성인식 엔진에서 분석하고, 원어민의 데이터와 비교한 점수와, 그 비교된 데이터를 초분절적 발음 분석, 스펙트럼 분석, 발음 해석 및 시간 정렬 등 학습자가 원하는 그래프가 표시되는 적어도 하나 이상의 분석 그래프를 디스플레이 수단 상에 동시에 표시하여 줌으로써 학습자 스스로가 발음이 잘못된 부분을 용이하게 확인하고 교정할 수 있도록 하는 것을 또 다른 목적으로 한다.

또한, 학습자가 평가를 위해 입력한 발음을 파일 형태로 저장하고, 필요에 따라 선택하여 다시 들어볼 수 있도록 함으로써, 시간이 경과함에 따라 발음의 향상된 정도를 파악할 수 있도록 하여 학습효과를 증대시키는 것을 또 다른 목적으로 한다.

상기 목적을 달성하기 위하여 본 발명은 각종 컨텐츠를 표시하고 마우스나 키보드 등을 이용하여 항목을 선택할 수 있도록 하는 디스플레이 수단; 상기 디스플레이 수단을 통해 선택한 컨텐츠에 해당하는 학습을 실시한 후 그 학습한 내용을 평가받기 위해 발음을 입력하는 음성 입력수단; 상기 디스플레이 수단을 통해 학습자가 자신의 영어회화 능력 레벨에 따라 학습 또는 평가를 진행할 수 있도록 다수개의 컨텐츠를 제공하는 학습 및 평가용 컨텐츠 제공 모듈과, 상기 음성입력 수단을 통해 입력된 학습자의 음성의 잡음을 제거하고 음성 파일로 제작하기 위한 음성파일 제작모듈과, 상기 음성파일 제작모듈에서 제작한 음성파일이나 별도로 입력된 음성파일의 비분절적·분절적 음성 특징 데이터를 분석, 추출하는 음성인식 모듈 및 상기 음성인식 모듈에서 분석된 학습자와 원어민의 분절적, 비분절적 음성 분석 데이터를 비교하여 일치정도에 따라 점수로 평가하여 디스플레이 수단을 통해 표시하는 논리평가 모듈로 구성된 본체를 포함하는 것을 특징으로 하는 외국어 발음 평가 시스템을 제공한다.

또한, 외국어 발음 평가 방법에 있어서, 학습자가 입력한 학습자가 입력한 음성의 잡음을 제거하고 음성 파일로 제작하는 단계와; 상기 음성 파일의 비분절적, 분절적 음성 특징데이터를 추출하여 팩터별로 가중치를 부여하는 단계와; 상기 팩터별로 가중치가 부여된 학습자의 음성 특징 데이터를 미리 저장된 원어민의 음성 특징 데이터와 비교하여 점수를 산출하는 단계와; 상기 산출된 점수와 팩터별 분석 데이터를 제공하는 단계를 포함하는 것을 특징으로 하는 외국어 발음 평가 방법을 제공한다.

이하, 첨부된 도면을 참조로 하여 본 발명을 상세히 설명하기로 한다.

먼저, 도1은 본 발명에 따른 외국어 발음 평가 시스템을 나타낸 것으로, 학습에 필요한 각종 컨텐츠를 표시하고 마우스나 키보드 등을 이용하여 항목을 선택할 수 있도록 하는 디스플레이 수단(10)과; 상기 디스플레이 수단(10)을 통해 선택한 컨텐츠에 해당하는 학습을 실시한 후 그 학습한 내용을 평가받기 위해 발음을 입력하는 음성 입력수단(20)과; 상기 디스플레이스 수단(10)을 통해 표시되는 각종 컨텐츠를 제공하고, 상기 음성 입력수단을 통해 입력된 학습자의 음성으로부터 특징 데이터를 추출하고, 미리 저장되어 있는 원어민의 음성 특징 데이터와 비교하여 그 일치정도에 따라 평가 점수를 부여하여 제공하는 본체(A)로 구성된다.
상기 본체(A)는, 학습자가 자신의 영어회화 능력 레벨에 따라 학습 또는 평가를 진행할 수 있도록 다수개의 컨텐츠를 상기 디스플레이 수단(10)을 통해 제공하는 학습 및 평가용 컨텐츠 제공 모듈(30)과; 상기 음성입력 수단(20)을 통해 입력된 학습자의 발음에서 잡음을 제거하고 음성 파일로 제작하기 위한 음성파일 제작모듈(40)과; 상기 음성파일 제작모듈(40)에서 제작한 음성파일이나 별도로 입력된 음성파일의 비분절적, 분절적 음성 특징 데이터를 분석, 추출하는 음성인식 모듈(50)과; 상기 음성인식 모듈(50)에서 분석, 추출된 학습자와 원어민의 비분절적, 분절적 발음 분석 데이터를 비교하여 일치정도에 따라 점수로 평가하여 디스플레이 수단을 통해 표시하는 논리평가 모듈(60)과, 상기 음성인식 모듈(60)에서 분석된 학습자와 원어민의 발음 분석 데이터를 다수의 분석법에 의해 비교 분석하여 그래프로 나타내고, 상기 그래프들 중 적어도 하나 이상의 그래프를 디스플레이 수단(10)을 통해 표시하여 학습자와 원어민의 발음에 대한 직접 비교가 가능하도록 하는 멀티뷰어 모듈(70)로 구성된다.

상기와 같이 구성된 본 발명의 외국어 발음 평가 시스템을 좀 더 상세히 설명하면, 먼저 도2는 본 발명에 따른 외국어 발음 평가 시스템의 본체(A)를 구성하며 학습자들이 외국어 레벨에 따라 발음 및 문장 학습을 수행할 수 있도록 하는 컨텐츠 제공모듈(30)을 나타낸 것으로, 상기 컨텐츠 제공 모듈(30)은 학습자들이 외국어 레벨을 선택할 수 있도록 학습대상을 레벨별로 분류하여 표시하는 수준 레벨 선택수단(32)과; 상기 레벨 선택수단(32)을 통해 학습자가 선택하여 학습한 단어, 문장, 회화 등의 학습내용을 저장하고 디스플레이 수단을 통해 표시하는 학습내용 저장수단(34)과; 상기 학습자가 학습 내용에 따라 입력한 텍스트 파일을 저장하고, 교정하여 주는 텍스트 파일 교정 및 입력수단(33)과; 상기 컨텐츠에서 제공되는 학습 대상을 학습 완료하였을 경우 업그레이드된 컨텐츠를 등록하기 위한 업그레이드 컨텐츠 등록부(31)로 구성된다. 이때 상기 업그레이드된 컨텐츠를 온라인 또는 오프라인 상으로 제공받아 설치할 수 있다.

특히, 상기 레벨 선택 수단(32)을 구성하는 학습 및 평가 유형을 예로 들면, 영어 구두 커뮤니케이션 능력 테스트인 TSE에서와 동일하게 6개의 칸이 그려진 연속된 내용의 만화를 보여 주고 이에 따라 영어로 스토리를 만들거나, 그림을 통해 설정한 상황을 보고 60초 이내에 그 상황을 묘사하도록 하거나, 통계 처리된 그래프를 보고 그 그래프에서 제공하는 정보를 45~60초 이내에 설명하도록 하는 등의 학습 및 평가 유형들에 따른 평가 자료를 외국어의 레벨에 따라 배치하여 학습자가 평가를 받을 수 있도록 할 수 있다.

다음에, 도3은 본 발명에 따른 외국어 발음 평가 시스템의 본체(A)를 구성하며 학습자들이 음성 입력수단(20)을 통해 입력한 음성을 음성파일로 제작하기 위한 음성파일 제작 모듈(40)을 나타낸 것으로, 상기 음성파일 제작모듈(40)은 입력된 음성으로부터 필터링을 통해 잡음을 제거하기 위한 잡음 필터링부(41)와; 상기 잡음 필터링부(41)를 통해 잡음이 제거된 음성을 파일로 제작하고, 제작된 파일에 제작 일자 및 시간을 부여하는 음성파일 제작부(42)로 구성되며, 상기와 같이 제작된 음성파일은 음성인식 모듈(50)로 제공된다.

다음에, 도4는 본 발명에 따른 외국어 발음 평가 시스템의 본체(A)를 구성하며 상기 음성파일 제작 모듈(40)에서 제작된 음성파일의 발음 특징을 다양한 형태로 분석하기 위한 음성인식 모듈(50)을 나타낸 것으로, 상기 음성인식 모듈(50)은 상기 음성파일 제작 모듈(40)로부터 전송된 음성 파일을 분석하여 음성, 음향적인 특징에 따라 비분절적, 분절적 특징 데이터를 추출하는 음성 분석부(51)와; 원어민의 음성을 분석하여 특징 데이터를 저장하고 있는 원어민 특징 데이터 통계 DB, 상기 음성 분석부에서 분석된 학습자의 특징 데이터를 저장하는 학습자 특징 데이터 통계 DB, 상기 특징 데이터들의 이론치 DB로 구성된 데이터 저장부(53)와; 상기 데이터 저장부(53)에 저장된 학습자 특징 데이터와 원어민 음성의 특징 데이터와의 PDF(Probability Density Function), DTW(Dynamic Time Warping)를 수행하고, 학습자 음성의 특정 요소에 대한 가중치를 적용토록 하는 비교 분석부(52)로 구성된다.

상기 음성 분석부(51)에서 분석되는 특징 데이터는 음성, 음향학적인 분석 요소들을 의미하는 것으로, 음의 길이(duration), 음의 에너지(energy), 피치(pitch), 모음의 구성음소 즉, 포만트(formant), RFC(Rising Falling Connection)/Tilt, 스펙트럼(Spectrum), VOT(Voice Onset Time) 등이며, 이는 수치 데이터와 패턴 데이터로 구분된다. 상기 수치 데이터는 "어떤 프레임에서 피치가 150Hz"라는 식의 수치적인 데이터를 의미하며, 이로부터 평균값과 표준편차 값을 갖는 통계 값을 이용하여 PDF를 수행함으로써 소정의 평가치를 산출하게 되고, 상기 PDF를 통해 산출되는 평가치는 PDF를 수행한 각각의 결과를 나타낸 것으로서 비 분절적 특성에 대한 결과치일 수도 있고, 분절적 특성에 대한 결과치일 수도 있다. 이때, 상기 PDF는 통계적 데이터를 기반으로 하는 확률적인 평가방법을 나타낸 것으로, 상기 데이터의 수치 그 자체가 중요한 의미를 갖는다.

또한, 상기 패턴 데이터는 전체 문장의 인토네이션 등을 의미하는 것으로, 이는 수치값으로 표현되는 것이 아니라 어느 곳에서 억양이 올라가고(rising), 어느 곳에서 내려가는(falling) 것인지 그 형태, 성향 및 순서 등이 중심이 되는 데이터이며, 이는 DTW 방식으로 비교할 수 있다. 이때 상기 DTW 방식은 시간적 변동을 고려하여 대상 패턴들을 비교하는 평가 방법을 나타낸다.

또한, 상기 데이터 저장부(53)를 구성하는 상기 원어민의 특징 데이터 통계DB(53-1)는 표준에 가장 가까운 발음을 하는 원어민의 특징 데이터들에 대한 통계치가 분절적, 비분절적 항목으로 구분되어 저장되어 있으며, 학습자 특징 데이터 통계 DB(53-2)에는 일정 수의 평범한 다른 학습자의 특징 데이터들에 대한 통계치가 분절적, 비분적절 항목으로 구분되어 함께 저장되어 있다. 또한, 상기 특징 데이터들의 이론치 DB(53-3)에는 학계에서 검증을 받거나 상식적으로 보편화되어 있는 특징 데이터들의 이론치가 분절적, 비분절적 항목으로 구분되어 저장되어 있다. 이때, 상기 특징 데이터들의 이론치는, 예를 들어 파열음은 일반적으로 어떠한 특징으로 갖고 있는지, 학습자의 경우 나라별 또는 언어권 별로 어떠한 부분에서 오류가 많이 발생하는지 등에 대한 지금까지의 연구 결과 및 논문 등 학계에서 인증한 모든 데이터를 말하는 것으로 분절적, 비분절적 특성 요소에 대한 부분을 모두 포함하고 있다.

상기와 같이 입력 및 저장된 학습자의 음성 즉, 발음에 대한 특징 데이터들은 상기 데이터 저장부(53)에 저장된 원어민의 특징 데이터 통계 DB(53-1), 특징 데이터들의 이론치 DB(53-3) 및 상기 비교 분석부(52)를 통해 정확한 비교결과를 얻을 수 있게 된다.

또한, 상기 비교 분석부(52)는 상기 특징 데이터의 수치 데이터에 대해서 PDF(52-1)를 수행하여 학습자의 발음에 대한 소정 요소(음의 세기, 피치 등)의 수치값이 얼마나 원어민의 소정 요소에 근접해 있는지 비교하고, 상기 패턴 데이터에 대해서는 DTW(52-2)를 수행하여 학습자의 인토네이션 등이 원어민의 인토네이션 등과 얼마나 유사한지를 비교하며, 상기 학습자의 특징 데이터, 특징 데이터의 이론치 및 발음 분석 자료를 근간으로 각 분절적, 비분절적 경향 및 중요도를 산출하여 각 요소에 대한 팩터별 가충치(52-3)를 유추하고 적용하는 역할을 수행한다.

상기와 같이 학습자 발음의 수치데이터 및 원어민의 특징 데이터 DB의 통계값에 대한 PDF를 수행함으로써, 학습자의 발음 중 수치로 표현될 수 있는 소정의 요소에 대해 그 수치값이 원어민의 수치값에 얼마나 근접해 있는가를 알 수 있게 된다. 즉, 통계적으로 현재 발음에 대한 어떤 음소의 어떤 특성은 원어민과 70% 유사하다는 등의 판단이 가능하게 되는 것이다.

또한, 음성 분석부(51)를 통해 추출된 학습자 발음의 패턴 데이터는 저장되어 있는 원어민의 음성 데이터로부터 추출된 패턴 데이터들과 DTW(52-2)를 수행하게 됨으로써 평가치가 산출된다. 상기 패턴 데이터는 상술한 바와 같이 분절적 요소의 억양, 틸트(tilt) 등을 의미하는 것이며, 상기 DTW(52-2)는 상기 패턴 데이터 를 비교할 수 있는 방법으로 시간적 변동을 고려하여 대상 패턴들의 비교값을 산출할 수 있는 비교 논리를 나타낸다. 즉, DTW(52-2)는 어떤 선형적인 데이터를 보강하고 정규화하여 비교하는 것으로, 이는 비교되는 양 패턴 데이터가 얼마나 유사한 양상을 띄고 있는 지를 수치적인 값으로 표시하게 된다.

이와 같이 학습자의 발음에 대한 특징 데이터 즉, 수치 데이터 및 패턴 데이터에 대해 각각 PDF 및 DTW를 수행함으로써 학습자의 발음에 대한 평가 데이터를 생성할 수 있으며, 상기 생성된 평가 데이터가 비분절적 요소에 관한 것인지, 분절적 요소에 관한 것인지에 따라 상기 평가 데이터는 비분절 특성 평가 데이터 또는 분절 특성 평가 데이터로 나뉘게 된다.

여기서, 상기 분절적 특성은 음성의 경우 문장, 구절, 음절, 단어, 음소 등으로 분리가 가능하고 세분화할 수 있는 항목을 말하며, 비분절적 특성은 음성의 경우 억양, 강세, 등시성 등과 같이 분절되지 않는 항목을 말한다. 즉, 분절적 요소인 음소의 첫 번째 포만트의 피크(peak)값은 분절적 요소의 특징이라 할 수 있고, 입력된 음성에 대한 등시성은 비분절적 요소 특징이라 할 수 있다.

상기 PDF 및 DTW는 수치 데이터 및 패턴 데이터에 대한 비교 분석을 하는 것이기 때문에 각각의 평가치는 모두 분절 특성 평가 데이터 및 비분절 특성 평가 데이터를 동시에 포함하고 있다.

또한, 이렇게 생성된 학습자의 특성 평가 데이터들은 각 요소별로 가중치를 적용 받게 된다. 상기 학습자의 특성 평가 데이터들에 가중치를 부여하기 위해서는 데이터저장부의 특징 데이터들의 이론치 DB를 이용하여 학습자의 발음 중 어떤 분 절적 또는 비분절적 요소의 중요도가 높은지를 판단하여야 한다. 즉, 상기 데이터들을 비교분석하면 학습자의 어떠한 음소, 음절 등의 어떠한 특성(억양, 등시성, 강세)에서 오류가 발생하는지 또는 원어민의 발음과 비교하여 어떠한 발음 특성을 가지고 있는 지를 알 수 있게 된다. 예를 들면, 한국인의 경우 'r'과 'l'의 발음 차이가 거의 없다는 등의 특성을 검출하게 되면 이러한 사항이 검출되는 구간의 중요도가 높다고 판단되는 것이다. 이러한, 중요도를 기반으로 하여 각 비분절적, 분절적 평가 데이터에 대한 가중치를 산출하게 된다. 즉, 상기 중요도가 높은 곳에 대해 가중치를 높게 한다.

여기서, 상기 분절 특성 평가 데이터는 음소, 단어, 음절, 구절, 문장으로 구성되며, 각각의 분절 요소는 해당 특징 데이터 및 비분절 특성 평가 데이터를 포함하고 있다. 이때, 상기 비분절적 특성 평가 데이터는 억양, 강세, 음의 길이(duration), 등시성, 정지(pause)로 구성된다. 즉, 분절, 비분절 특성 평가 데이터는 PDF 및 DTW를 통해 생성된 평가치이고, 이는 팩터별 가중치 생성에 의해 가중치 처리된다. 결과적으로 학습자의 발음에 대한 모든 특성요소들은 가중치의 적용을 받아 상기 논리 평가 모듈을 통해 하나의 점수 또는 각 분절적 요소에 대한 점수로서 산출되며 이는 곧 학습자의 발음에 대한 수치적인 점수로 나타나게 된다.

다음으로, 도5는 본 발명에 따른 외국어 발음 평가 시스템의 본체(A)를 구성하는 논리 평가 모듈(60)을 나타낸 것으로, 상기 논리 평가 모듈(60)은 분절적 요소에 대한 평가 점수를 산출하는 분절적 특성 점수 평가부(61)와; 비분절적 요소에 대한 평가 점수를 산출하는 비분절적 특성 점수 평가부(62)와; 상기 분절적 및 비분절적 점수 평가부에서 산출된 점수를 바탕으로 학습자가 입력한 발음에 대한 종합적인 점수를 산출하는 종합점수 평가부(63)와; 상기 평가부들로부터 산출된 점수들을 입력된 음성파일에 따라 구분하여 저장하는 평가 점수 저장부(64)로 구성된다.

즉, 상기 음성인식 모듈(50)에서 PDF 및 DTW를 수행하여 분석된 분절적 또는 비분절적 특징 데이터의 분석 데이터와, 그 분석된 데이터의 팩터별로 부여된 가중치에 따라 논리적으로 학습자가 입력한 음성의 분절적 및 비분절적 평가와 분석을 수행하여 점수를 산정하여 저장하고, 상기 분절적 및 비분절적 평가 점수를 바탕으로 학습자의 발음에 대한 종합적인 평가 및 분석을 수행하고 점수를 산출하여 저장한다. 이때, 각 점수는 해당 음성파일별로 저장되므로 학습자가 차후 이전에 학습하여 입력한 평가 결과들과 비교할 수 있도록 한다.

다음에, 도6은 본 발명에 따른 외국어 평가 시스템의 본체(A)를 구성하는 멀티뷰어 모듈(70)을 나타낸 것으로, 상기 멀티뷰어 모듈(70)은 에너지 곡선(energy curve), 피치(pitch contour), 억양곡선(intonation curve) 등과 같은 학습자와 원어민의 발음 특징 데이터들 중 초분절적 발음 해석 정보를 표시하기 위한 제1뷰어(71)와; 광대역(wideband) 또는 협대역(narrowband) 스펙트로그램과, 포만트의 기본 형태 등과 같은 학습자와 원어민의 발음 특징 데이터들 중 스펙트럼 분석정보를 나타내는 제2뷰어(72)와; 음소 수준의 시간정렬 결과(IPA 음소 기호), 단어 수준의 시간 정렬 결과, 문자의 시작과 끝에 대한 정보 등과 같은 학습자와 원어민의 발음 특징 데이터들 중 발음 해석 및 시간정렬(alignment) 정보를 표시하기 위한 제3뷰어(73)와; 상기 논리평가 모듈에서 산출한 학습자의 발음 평가 점수와 상기 뷰어들을 통해 제공되는 정보들을 가공하여 하나의 창을 통해 디스플레이 수단에 표시하기 위한 멀티뷰어(74)로 구성된다. 상기와 같이 구성된 멀티뷰어 모듈은 학습자가 디스플레이수단 상에서 마우스 클릭에 의해 원하는 형태의 분석정보를 선택하여 볼 수 있도록 하고 있다.

도7은 상기 도6의 멀티뷰어 모듈을 통해 디스플레이수단에 표시되는 멀티뷰어의 한 실시예를 나타낸 것이다.

상기한 바와 같은 본 발명의 외국어 발음 평가 시스템은 원어민의 발음에 대한 특징 데이터와, 특징 데이터의 이론치가 미리 음성인식 모듈의 저장부에 저장되어 있어야만 한다.

상술한 바와 같이 본 발명에 따른 외국어 발음 평가 시스템에 의해 디스플레이 수단상에 표시되는 컨텐츠들 중 자신의 학습 레벨에 맞는 컨텐트를 선택하여 학습을 진행하고, 진행된 학습이 완료되었을 경우 그 학습한 내용의 발음을 음성입력수단을 통해 입력한다. 상기와 같이 학습자의 음성이 입력되면, 음성에 포함된 잡음을 제거하고 음성파일을 제작한다. 다음에 상기 제작된 학습자의 음성파일에서 원어민의 음성 특징 데이터 추출방법과 동일한 방법으로 학습자의 비분절적, 분절적 음성 특징 데이터를 분석, 추출한다. 다음에 상기 분석, 추출된 학습자의 비분절적, 분절적 음성 특징데이터를 원어민의 특징 데이터와 비교하여 일치정도에 따 라 점수로 평가하여 디스플레이 수단을 통해 표시하고, 이와 함께 각종 분석 데이터를 멀티뷰어를 통해 그래프 형태로 표시하여 줌으로써 학습자가 객관적이고도 정확하게 자신의 발음을 평가받을 수 있다.

즉, 외국어 발음 평가 시스템에 있어서, 학습자가 입력한 발음으로부터 비분절적, 분절적 음성 특징데이터를 추출하여 팩터별로 가중치를 부여하며, 상기 팩터별로 가중치가 부여된 학습다의 음성 특징 데이터를 원어민의 음성 특징 데이터와 비교하여 점수를 산출하고, 팩터별 분석 데이터를 제공하게 된다.

이상과 같이 본 발명을 도면에 도시한 실시예를 참고하여 설명하였으나, 이는 발명을 설명하기 위한 것일 뿐이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자라면 상세한 설명으로부터 다양한 변형 또는 균등한 실시예가 가능하다는 것을 이해할 수 있을 것이다. 따라서 본 발명의 진정한 권리범위는 청구범위의 기술적 사상에 의해 결정되어야 한다.

본 발명은 음향 및 음성학의 개념에 따라 영어 발음법 및 발음평가 기법들에 기반을 둔 발음 평가 시스템을 제공함으로써 학습자 스스로 자신의 발음에 대해 객관적이고, 정확한 발음 평가를 받을 수 있다.

또한, 학습자의 레벨에 맞는 다양한 형태의 컨텐츠를 제공함으로써 학습자 스스로가 자기의 레벨에 따라 효과적인 외국어 학습을 수행할 수 있다.

또한, 학습자가 평가를 위해 입력한 발음을 상기 음성인식 엔진에서 분석하고, 원어민의 데이터와 비교한 결과를 비분절적, 분절적 특성에 따른 발음 분석, 스펙트럼 분석, 발음 해석 및 시간 정렬 등 학습자가 원하는 형태로 그래프화하여 적어도 하나 이상을 디스플레이 수단 상에 표시함여 줌으로써 학습자 스스로가 발음이 잘못된 부분을 확인하고 교정할 수 있다.

또한, 학습자가 평가를 위해 입력한 발음을 파일 형태로 저장하고, 필요에 따라 선택하여 다시 들어볼 수 있도록 하여 시간이 경과함에 따라 발음의 향상된 정도를 파악할 수 있도록 함으로써 학습효과를 증대시킨다.

Claims

각종 컨텐츠를 표시하고 마우스나 키보드 등을 이용하여 항목을 선택할 수 있도록 하는 디스플레이 수단;

상기 디스플레이 수단을 통해 선택한 컨텐츠에 해당하는 학습을 실시한 후 그 학습한 내용을 평가받기 위해 발음을 입력하는 음성 입력수단;

상기 디스플레이 수단을 통해 학습자가 자신의 영어회화 능력 레벨에 따라 학습 또는 평가를 진행할 수 있도록 다수개의 컨텐츠를 제공하는 학습 및 평가용 컨텐츠 제공 모듈과, 상기 음성입력 수단을 통해 입력된 학습자의 음성의 잡음을 제거하고 음성 파일로 제작하기 위한 음성파일 제작모듈과, 상기 음성파일 제작모듈에서 제작한 음성파일이나 별도로 입력된 음성파일의 비분절적·분절적 음성 특징 데이터를 분석, 추출하는 음성인식 모듈 및 상기 음성인식 모듈에서 분석된 학습자와 원어민의 분절적, 비분절적 음성 분석 데이터를 비교하여 일치정도에 따라 점수로 평가하여 디스플레이 수단을 통해 표시하는 논리평가 모듈로 구성된 본체;

를 포함하는 것을 특징으로 하는 외국어 발음 평가 시스템.
제 1 항에 있어서,

상기 컨텐츠 제공 모듈은,

학습자들이 외국어 레벨을 선택할 수 있도록 학습대상을 레벨별로 분류하여 표시하기 위한 레벨 선택수단;

상기 레벨 선택수단을 통해 학습자가 선택하여 학습한 단어, 문장, 회화 등의 학습내용을 저장하고 디스플레이 수단을 통해 표시하는 학습내용 저장수단;

상기 학습자가 학습 내용에 따라 입력한 텍스트 파일을 저장하고, 교정하여 주는 텍스트 파일 교정/입력수단; 및

해당 컨텐츠에서 제공되는 학습대상을 완료하였을 경우 업그레이드된 컨텐츠를 등록하기 위한 업그레이드 컨텐츠 등록부;

로 구성된 것을 특징으로 하는 외국어 발음 평가 시스템.
제 1 항에 있어서,

상기 음성파일 제작모듈은,

상기 음성입력 수단을 통해 입력된 음성으로부터 필터링을 통해 잡음을 제거하기 위한 잡음 필터링부; 및

상기 잡음 필터링부를 통해 잡음이 제거된 음성을 파일로 제작하고, 제작된 파일에 제작 일자 및 시간을 부여하는 음성파일 제작부;

로 구성된 것을 특징으로 하는 외국어 발음 평가 시스템.
제 1 항에 있어서,

상기 음성인식 모듈은,

상기 음성파일 제작 모듈로부터 전송된 음성을 분석하여 비분절적, 분절적 특징 데이터를 추출하는 음성 분석부;

원어민의 음성을 분석하여 특징 데이터를 저장하고 있는 원어민 특징 데이터 통계 DB, 상기 음성 분석부에서 분석된 학습자의 특징 데이터를 저장하는 학습자 특징 데이터 통계 DB, 상기 특징 데이터들의 이론치 DB로 구성된 데이터 저장부; 및

상기 데이터 저장부에서 분석되어 저장된 학습자 특징 데이터와 원어민 음성의 특징 데이터와 비교하여 비분절적, 분절적 특징 데이터를 추출하는 비교 분석부;

로 구성된 것을 특징으로 하는 외국어 발음 평가 시스템.
제 4 항에 있어서,

상기 비교 분석부는,

PDF(Peobability Density Function), DTW(Dynamic Time Warping)를 수행하여 학습자의 특징 데이터를 추출하고, 상기 추출된 학습자 음성의 특정 요소에 대한 가중치를 적용토록 하는 것을 특징으로 하는 외국어 발음 평가 시스템.
제 1 항에 있어서,

상기 논리 평가 모듈은,

상기 음성 인식모듈에서 분석한 데이터의 분절적 요소에 대한 평가 점수를 산출하는 분절적 특성 점수 평가부;

상기 음성 인식모듈에서 분석한 테이터의 비분절적 요소에 대한 평가 점수를 산출하는 비분절적 특성 점수 평가부;

상기 분절적 및 비분절적 점수 평가부에서 산출된 점수를 바탕으로 학습자가 입력한 발음에 대한 종합적인 점수를 산출하는 종합점수 평가부; 및

상기 평가부들로부터 산출된 점수들을 입력된 음성파일에 따라 구분하여 저장하는 평가 점수 저장부;

로 구성된 것을 특징으로 하는 외국어 발음 평가 시스템.
제 1 항에 있어서,

상기 외국어 발음 평가 시스템은,

상기 음성인식 모듈에서 분석된 학습자와 원어민의 발음 분석 데이터를 다수의 분석법에 의해 비교 분석하여 그래프로 나타내고, 상기 그래프들 중 적어도 하나 이상의 그래프를 디스플레이 수단을 통해 표시하여 학습자와 원어민의 발음의 직접 비교가 가능하도록 하는 멀티뷰어 모듈;

을 더 포함하는 것을 특징으로 하는 외국어 발음 평가 시스템.
제 7 항에 있어서,

상기 멀티뷰어 모듈은,

발음의 에너지 곡선(energy curve), 피치(pitch contour), 억양곡선(intonation curve) 등과 같은 학습자와 원어민의 발음 특징 데이터들 중 초분절적 발음 해석 정보를 표시하기 위한 제1뷰어;

발음의 광대역(wideband) 또는 협대역(narrowband) 스펙트로그램과, 포만트의 기본 형태 등과 같은 학습자와 원어민의 발음 특징 데이터들 중 스펙트럼 분석정보를 나타내는 제2뷰어;

발음의 음소 수준의 시간정렬 결과(IPA 음소 기호), 단어 수준의 시간 정렬 결과, 문자의 시작과 끝에 대한 정보 등과 같은 학습자와 원어민의 발음 특징 데이터들 중 발음 해석 및 시간정렬(alignment) 정보를 표시하기 위한 제3뷰어; 및

상기 논리평가 모듈에서 산출한 학습자의 발음 평가 점수와 상기 뷰어들을 통해 제공되는 정보들을 가공하여 하나의 창을 통해 디스플레이 수단에 표시하기 위한 멀티뷰어;

로 구성된 것을 특징으로 하는 외국어 발음 평가 시스템.
외국어 발음 평가 방법에 있어서,

학습자가 입력한 학습자가 입력한 음성의 잡음을 제거하고 음성 파일로 제작하는 단계와;

상기 음성 파일의 비분절적, 분절적 음성 특징데이터를 추출하여 팩터별로 가중치를 부여하는 단계와;

상기 팩터별로 가중치가 부여된 학습자의 음성 특징 데이터를 미리 저장된 원어민의 음성 특징 데이터와 비교하여 점수를 산출하는 단계와;

상기 산출된 점수와 팩터별 분석 데이터를 제공하는 단계를 포함하는 것을 특징으로 하는 외국어 발음 평가 방법.