KR20240065747A

KR20240065747A - 분절음 및 초분절음 요소 통합형 발음 평가 시스템

Info

Publication number: KR20240065747A
Application number: KR1020220146862A
Authority: KR
Inventors: 홍연정; 김재원; 안태경; 김상윤
Original assignee: 미디어젠(주)
Priority date: 2022-11-07
Filing date: 2022-11-07
Publication date: 2024-05-14

Abstract

분절음 및 초분절음 요소 통합형 발음 평가 시스템은 음소 단위 강제정렬부, 특징 추출부, 점수 산출부, 메모리 및 프로세서를 포함할 수 있다. 음소 단위 강제정렬부는 학습자의 오디오 및 원어민의 오디오를 수신하고, 학습자의 오디오 상에서 음소 별 구간 길이 정보를 출력하고, 원어민의 오디오 상에서 음소 별 구간 길이를 출력하며, 출력된 원어민 및 학습자의 음소 별 구간 길이 정보를 특징 추출부 및 프로세서로 전송할 수 있다. 특징 추출부는 학습자의 음소 별 구간 길이 정보를 수신하여 억양, 강세, 리듬 및 휴지구간의 길이를 포함하는 초분절음 요소의 특징에 대한 정보를 추출하고, 원어민의 음소 별 구간 길이 정보를 수신하여 억양, 강세, 리듬 및 휴지구간의 길이를 포함하는 초분절음 요소의 특징에 대한 정보를 추출하며, 추출된 학습자 초분절음 요소의 특징에 대한 정보 및 원어민 초분절음 요소의 특징에 대한 정보를 점수 산출부로 전송할 수 있다. 점수 산출부는 학습자 초분절음 요소의 특징에 대한 정보 및 원어민 초분절음 요소의 특징에 대한 정보에 기반하여 유사도 점수를 결정할 수 있다.
프로세서는 원어민 및 학습자의 음소 별 구간 길이 정보에 기반하여 원어민 및 학습자의 오디오를 적어도 하나의 모음을 포함하는 음절 단위로 분할하고, 분할된 음절 단위로 특징(feature)을 결정하고 각 음절 단위의 특징 값을 정규화(normalize)하고, 분할된 음절 단위를 x축으로 하고, 각 음절 단위의 특징의 정규화된 수치를 y축으로 하여 원어민의 억양, 강세, 리듬 및 휴지구간의 길이를 포함하는 초분절음 요소에 대한 제 1 그래프를 생성하고, 학습자의 억양, 강세, 리듬 및 휴지구간의 길이를 포함하는 초분절음 요소에 대한 제 2 그래프를 생성하며, 원어민의 초분절음 요소에 대한 제 1 그래프 및 학습자의 초분절음 요소에 대한 제 2 그래프를 함께 표시할 수 있다. 분할된 음절은 복수의 음소들을 포함하고, 분할된 음절 단위의 특징 값은 분할된 음절에 포함된 각각의 음소 단위의 특징 값들의 평균을 이용하여 결정될 수 있다.

Description

분절음 및 초분절음 요소 통합형 발음 평가 시스템 {SEGMENTAL AND SUPRA SEGMENTAL ELEMENTS INTEGRATED PRONUNCIATION EVALUATION SYSTEM}

본 문서는 분절음 및 초분절음 요소에 기반하여 발음을 평가하는 시스템에 관한 것이다.

종래 외국어 학습방법은 스피커에서 출력되는 외국어 발음을 반복하여 학습하는 것이 일반적이었다. 하지만, 이러한 학습방법은 사용자의 발음에 대해서는 평가를 받을 수 없는 한계가 있다. 이러한 문제로 최근에는 컴퓨터가 마이크와 같은 소리 센서를 통해 얻은 음향학적 신호(acoustic speech signal)를 단어나 문장으로 변환시키는 음성인식기술을 적용하려는 추세로 발전하고 있다. 특히 영어 발음의 학습을 위한 프로그램이 증가하고 있다. 사용자가 마이크를 통해 특정 단어 또는 문장을 발화하면 그 발화를 분석하여 원어민의 발화를 기준으로 사용자의 발음에 대한 평가를 수행하여 제공할 수 있다. 사용자의 발화 내용을 알아내기 위해 음성 인식 기술이 사용될 수 있으며, 평가 결과로 점수 또는 평가 수준에 맞는 피드백을 사용자에게 제공할 수 있다.

종래 사용자에게 제공되는 발음 학습 시스템들은 문장 발음 학습의 경우 사용자에게 발화 내용 전체에 대한 전반적인 발음의 정확도만을 제공하기 때문에 사용자가 자신의 발음에 대한 피드백을 받아 학습에 반영하기엔 한계가 있다. 특히, 문장과 같이 여러 단어를 발화하는 경우에는 원어민과 비교하여 리듬, 억양, 강세 또는 휴지구간 중 적어도 어느 하나의 초분절음 요소에 대한 분석이 없어 정확한 발음 학습 결과를 제공받지 못하는 한계가 있다.

발음 자체의 정확도 이외에도, 특히 문장 발화에 있어 발화의 자연스러움을 측정하기 위해 초분절적인(suprasegmental) 요소를 포함하여 문장단위로 평가 시 세부적인 내용을 제공하기에는 한계가 있다. 초분절적인 요소는 문장의 억양, 강세, 말의 빠르기 등과 같이 분절되지 않는 항목을 의미할 수 있다. 분절적인 요소는 문장, 구절, 음절, 단어 및 음소와 같이 분리 가능한 항목을 의미할 수 있다.

분절음 및 초분절음 요소 통합형 발음 평가 시스템은 음소 단위 강제정렬부, 특징 추출부, 점수 산출부, 메모리 및 프로세서를 포함할 수 있다. 음소 단위 강제정렬부는 학습자의 오디오 및 원어민의 오디오를 수신하고, 학습자의 오디오 상에서 음소 별 구간 길이 정보를 출력하고, 원어민의 오디오 상에서 음소 별 구간 길이를 출력하며, 출력된 원어민 및 학습자의 음소 별 구간 길이 정보를 특징 추출부 및 프로세서로 전송할 수 있다. 특징 추출부는 학습자의 음소 별 구간 길이 정보를 수신하여 억양, 강세, 리듬 및 휴지구간의 길이를 포함하는 초분절음 요소의 특징에 대한 정보를 추출하고, 원어민의 음소 별 구간 길이 정보를 수신하여 억양, 강세, 리듬 및 휴지구간의 길이를 포함하는 초분절음 요소의 특징에 대한 정보를 추출하며, 추출된 학습자 초분절음 요소의 특징에 대한 정보 및 원어민 초분절음 요소의 특징에 대한 정보를 점수 산출부로 전송할 수 있다. 점수 산출부는 학습자 초분절음 요소의 특징에 대한 정보 및 원어민 초분절음 요소의 특징에 대한 정보에 기반하여 유사도 점수를 결정할 수 있다.

프로세서는 원어민 및 학습자의 음소 별 구간 길이 정보에 기반하여 원어민 및 학습자의 오디오를 적어도 하나의 모음을 포함하는 음절 단위로 분할하고, 분할된 음절 단위로 특징(feature)을 결정하고 각 음절 단위의 특징 값을 정규화(normalize)하고, 분할된 음절 단위를 x축으로 하고, 각 음절 단위의 특징의 정규화된 수치를 y축으로 하여 원어민의 억양, 강세, 리듬 및 휴지구간의 길이를 포함하는 초분절음 요소에 대한 제 1 그래프를 생성하고, 학습자의 억양, 강세, 리듬 및 휴지구간의 길이를 포함하는 초분절음 요소에 대한 제 2 그래프를 생성하며, 원어민의 초분절음 요소에 대한 제 1 그래프 및 학습자의 초분절음 요소에 대한 제 2 그래프를 함께 표시할 수 있다. 분할된 음절은 복수의 음소들을 포함하고, 분할된 음절 단위의 특징 값은 분할된 음절에 포함된 각각의 음소 단위의 특징 값들의 평균을 이용하여 결정될 수 있다.

본 문서에 따른 분절음 및 초분절음 요소에 기반하여 발음을 평가하는 시스템은 학습자의 발화를 음절 단위로 라벨링하고, 억양에 대응하는 특징(feature) 값을 정규화한 값에 기반하여 이미지로 표시하여 학습자에게 분할된 음절의 억양을 시각적으로 제공하고, 표준 발음(예: 원어민의 발음)과의 차이를 시각적으로 확인할 수 있는 효과를 제공할 수 있다.

본 문서에 따른 시스템은 학습자의 발화를 음절 단위로 라벨링하고, 강세에 대응하는 특징(feature) 값을 정규화한 값에 기반하여 이미지로 표시하여 학습자에게 분할된 음절의 강세를 시각적으로 제공하고, 표준 발음(예: 원어민의 발음)과의 차이를 시각적으로 확인할 수 있는 효과를 제공할 수 있다.

본 문서에 따른 시스템은 학습자의 발화를 음절 단위로 라벨링하고, 리듬에 대응하는 특징(feature) 값을 정규화한 값에 기반하여 이미지로 표시하여 학습자에게 분할된 음절의 리듬을 시각적으로 제공하고, 표준 발음(예: 원어민의 발음)과의 차이를 시각적으로 확인할 수 있는 효과를 제공할 수 있다.

본 문서에 따른 시스템은 유사도가 지정된 수준(예: 50%)미만인 음절을 강조 표시하여, 사용자가 원어민과 비교하여 차이가 상대적으로 큰 음절을 인식하고 발음을 교정할 수 있도록 사용성을 제공할 수 있다.

도 1은 다양한 실시예들에 따른, 분절음 및 초분절음 요소에 기반하여 발음을 평가하는 시스템의 블록도이다.
도 2a는 일 실시예에 따른 억양 유사도 점수를 산출하는 구성을 블록도로 나타낸 것이다.
도 2b는 학습자 및 원어민의 억양 비교 그래프를 도시한 것이다.
도 3a는 일 실시예에 따른 강세 유사도 점수를 산출하는 구성을 블록도로 나타낸 것이다.
도 3b는 학습자 및 원어민의 강세 비교 그래프를 도시한 것이다.
도 4a는 일 실시예에 따른 리듬 유사도 점수를 산출하는 구성을 블록도로 나타낸 것이다.
도 4b는 학습자 및 원어민의 리듬 비교 그래프를 도시한 것이다.
도 5a는 일 실시예에 따른 휴지구간 점수를 산출하는 구성을 블록도로 나타낸 것이다.
도 5b는 학습자 및 원어민의 휴지구간 비교 그래프를 도시한 것이다.
도 6은 일 실시예에 따른 분절음 및 초분절음 요소 통합형 발음 평가 방법을 흐름도로 나타낸 것이다.

도 1은 다양한 실시예들에 따른, 분절음 및 초분절음 요소에 기반하여 발음을 평가하는 시스템의 블록도이다.

도 1에 따르면, 시스템(100)은 음소 단위 강제 정렬부(112), 특징 추출부(114), 점수 산출부(116), 프로세서(120) 및 메모리(130)를 포함할 수 있다. 일 실시예에 따르면, 프로세서(120)는 전자 장치(101)의 각 구성 요소들의 제어 및/또는 통신에 관한 연산이나 데이터 처리를 수행할 수 있는 구성으로써, 하나 이상의 프로세서들로 구성될 수 있다. 메모리(130)는 상술한 방법과 관련된 정보를 저장하거나 상술한 방법이 구현된 프로그램을 저장할 수 있다. 메모리(130)는 휘발성 메모리 또는 비휘발성 메모리일 수 있다. 메모리(130)는 다양한 파일 데이터들을 저장할 수 있으며, 프로세서(120)의 동작에 따라 저장된 파일 데이터들은 업데이트 될 수 있다.

음소 단위 강제 정렬부(112)는 학습자의 오디오 및 원어민의 오디오를 수신하고, 학습자의 오디오 상에서 음소 별 구간 길이 정보를 출력하고, 원어민의 오디오 상에서 음소 별 구간 길이를 출력하며, 출력된 원어민 및 학습자의 음소 별 구간 길이 정보를 특징 추출부(114) 및 프로세서(120)로 전송할 수 있다. 음소 단위 강제 정렬부(112)는 단어에 대한 사용자 발화음성의 음성신호를 일정 시간 구간으로 나누고, 시간 구간별 특징벡터를 추출하고, 단어에 대한 사용자 발화음성의 음소들을 상기 일정 시간 구간별로 강제 정렬할 수 있다. 음소 단위 강제 정렬부(112)는 시간 구간별 특징벡터와 시간 구간별로 강제 정렬된 음소들을 이용하여 시간 구간별 로그 우도를 계산하고, 시간 구간별 로그 우도를 시간 구간별 조정점수로 변환하고, 시간 구간별 조정점수를 평균 처리하여 음소별 정확성 평가 점수를 산출할 수 있다. 음소 단위 강제 정렬부(112)는 산출된 음소별 정확성 평가 점수를 평균 처리하여 음절별 정확성 평가 점수를 산출하고, 산출된 음절별 정확성 평가 점수를 평균 처리하여 단어에 대한 정확성 평가 점수를 산출할 수 있다. 시간 구간별 로그 우도는 하기 수학식 1에 의해 계산되고, 상기 시간 구간별 조정점수는 수학식 2에 의해 계산된다.

[수학식 1]

[수학식 2]

로그 우도란 특정 시간구간에 있는 발화자의 특징 벡터가 해당 시간구간의 음소에서 나올 확률의 로그 값을 의미할 수 있다. 시간 구간별 조정 점수는 수학식 2에 의거하여 산출되고, 원어민 로그 우도를 반영하여 조정될 수 있다. 조정 점수를 산출하는 이유는 수학식 1에 의해 산출된 로그 우도값은 0보다 적은 음의 값을 갖는다. 평가정보를 생성하기 위해서는 음의 값을 갖는 로그 우도값은 평가 점수 산출에 적절치 않다. 따라서 음의 값이 아닌 조정 점수를 산출할 필요가 있다. 조정 점수 산출 시, 원어민의 로그 우도가 반영되어야 정확한 발화자의 음성 평가가 이루어 질 수있으며, 본 발명에서는 상기 수학식 2를 통해 원어민의 로그 우도가 반영된 조정 점수를 산출하게 된다. 조정 점수 산출 시, 원어민의 로그 우도를 반영하기 위해, 평가 시스템은 사전에 음소별 원어민 로그 우도 분포에 대한 통계 정보를 생성하여 관리할 수 있다. 음소 단위 강제 정렬부(112)는 다양한 단어, 문장, 문단에 대한 원어민 음성 정보를 수집 저장하고, 수집 저장된 다양한 단어, 문장, 문단에 대한 원어민 음성 정보들 각각을 시간 구간별로 강제 정렬 후 시간 구간별 특징 벡터를 추출하고, 음소별 원어민 로그 우도(특정 시간 구간에 있는 특징 벡터가 해당 특정 시간 구간의 음소에서 나타날확률에 대한 로그값) 분포에 대한 통계정보를 생성하여 저장할 수 있다.

특징 추출부(114)는 학습자의 음소 별 구간 길이 정보를 수신하여 억양, 강세, 리듬 및 휴지구간의 길이를 포함하는 초분절음 요소의 특징에 대한 정보를 추출하고, 원어민의 음소 별 구간 길이 정보를 수신하여 억양, 강세, 리듬 및 휴지구간의 길이를 포함하는 초분절음 요소의 특징에 대한 정보를 추출하며, 추출된 학습자 초분절음 요소의 특징에 대한 정보 및 원어민 초분절음 요소의 특징에 대한 정보를 점수 산출부(116)로 전송할 수 있다.

점수 산출부(116)는 학습자 초분절음 요소의 특징에 대한 정보 및 원어민 초분절음 요소의 특징에 대한 정보에 기반하여 유사도 점수를 결정할 수 있다. 도 2a에서는 억양 유사도 점수를 결정하는 과정에 대해 설명될 것이다. 도 3a에서는 강세 유사도 점수를 결정하는 과정에 대해 설명될 것이다. 도 4a에서는 리듬 유사도 점수를 결정하는 과정에 대해 설명될 것이다. 도 5a에서는 휴지구간 길이의 유사도 점수를 결정하는 과정에 대해 설명될 것이다.

일 실시예에 따르면, 프로세서(120)는 프로그램을 실행하고, 시스템(100)을 제어할 수 있다. 프로세서(120)에 의하여 실행되는 프로그램의 코드는 메모리(130)에 저장될 수 있다. 프로세서(120)의 동작들은 메모리(130)에 저장된 인스트럭션들을 로딩(loading)함으로써 수행될 수 있다. 전자 장치(101)는 입출력 장치(도면 미 표시)를 통하여 외부 장치(예를 들어, 퍼스널 컴퓨터 또는 네트워크)에 연결되고, 데이터를 교환할 수 있다.

일 실시예에 따르면, 프로세서(120)가 전자 장치 상에서 구현할 수 있는 연산 및 데이터 처리 기능에는 한정됨이 없을 것이나, 이하에서는 분절음 및 초분절음 요소에 기반하여 발음을 평가하는 기능에 대해 설명될 것이다.

도 2a는 일 실시예에 따른 억양 유사도 점수를 산출하는 구성을 블록도로 나타낸 것이다.

도 2a에 따르면, 음향모델(202) 및 평가 텍스트(204)가 음소 단위 강제 정렬기(210)에 입력되어 음소 단위로 정렬될 수 있다. 음소는 언어에 있어서 말의 뜻을 구별하여 주는 최소 단위를 의미할 수 있다. 음소 단위 강제정렬부(212)는 평가 텍스트(204)에 대한 발화를 포함하는 학습자 오디오(206) 및 원어민 오디오(208)를 입력 받을 수 있다. 음소 단위 강제정렬부(212)는 입력된 학습자 오디오(206)에 기반하여 학습자 음소 별 구간 길이 정보(214)를 생성하고, 원어민 오디오(208)에 기반하여 원어민 음소 별 구간 길이 정보(216)를 생성할 수 있다. 억양 특징 추출부(220) 및 억양 비교 시각화부(222)는 생성된 학습자 음소 별 구간 길이 정보(214) 및 원어민 음소 별 구간 길이 정보(216)를 입력 받을 수 있다. 억양 비교 시각화부(222)는 입력 받은 학습자 음소 별 구간 길이 정보(214) 및 원어민 음소 별 구간 길이 정보(216)에 기반하여 억양 비교 그래프(224)를 생성할 수 있다. 억양 비교 그래프(224)에 대해서는 도 2b에서 설명될 것이다.

억양 특징 추출부(220)는 입력 받은 학습자 음소 별 구간 길이 정보(214) 및 원어민 음소 별 구간 길이 정보(216)에 기반하여 학습자 억양 특징(226) 및 원어민 억양 특징(228)을 생성하고, 유사도 기반 억양 점수 산출부(230)로 전송할 수 있다. 유사도 기반 억양 점수 산출부(230)는 억양 점수 산출 모델(232)을 이용하여 수신된 학습자 억양 특징(226) 및 원어민 억양 특징(228)에 기반한 억양 점수(234)를 결정할 수 있다. 억양 점수(234)에 대해서는 도 2b에서 설명될 것이다.

도 2b는 학습자 및 원어민의 억양 비교 그래프를 도시한 것이다.

도 2b에 도시된 그래프의 x축은 학습자 및 원어민의 발화에 대해 분할된 음절 단위를 나타낼 수 있다. 음소 단위 강제정렬부(212)는 학습자 오디오(206) 및 원어민 오디오(208)를 적어도 하나의 모음(예: a, e, i, o, u)을 포함하는 음절 단위로 분할시킬 수 있다. 예를 들어, 도 2b에서 그래프의 x축은 "THE TEAM WAS EXPECTED TO WIN THE GAME"이라는 하나의 문장에 대해, THE / TEAM / WAS / EX / PECT / ED / TO / WIN / THE /GAME 이라는 음절 단위로 표시될 수 있다. 음절 단위로 분할된 부분은 "THE"의 E 또는 "GAME"의 A, E 처럼 적어도 하나의 모음을 포함할 수 있다. 단위는 적어도 하나의 모음을 포함할 수 있다. 프로세서(예: 도 1의 프로세서(120))는 원어민 및 학습자의 음소 별 구간 길이 정보에 기반하여 원어민 및 학습자의 오디오를 적어도 하나의 모음을 포함하는 음절 단위로 분할하고, 그래프의 x축에 분할된 음절 단위를 표시하고, 분할된 음절 단위로 억양에 대응하는 특징(예: 피치(pitch))을 결정하고 각 음절 단위의 피치 값을 정규화(normalize)한 값을 y축에 표시하며, 각 음절 단위로 피치 값을 정규화(normalize)한 값을 지점으로 표시하고, 인접한 지점을 선으로 연결하여 음절과 음절 사이의 변화 추이를 표시할 수 있다. 억양에 대응하는 피치(pitch)는 억양의 높낮이를 의미할 수 있다. 분할된 음절 단위는 복수의 음소들(예: 제 1 음소, 제 2 음소 및 제 3 음소)을 포함하고, 각 음절 단위의 억양에 대응하는 특징 값은 제 1 음소 상에서 억양에 대응하는 특징 값, 제 2 음소 상에서 억양에 대응하는 특징 값 및 제 3 음소 상에서 억양에 대응하는 특징 값들의 평균 값을 의미할 수 있다. 시스템(100)은 음소 단위 강제 정렬부(212)를 이용하여 음소 단위로 억양에 대응하는 피치 값을 결정하지만, 학습자에게 표시할 때는 어학 교육 적 효과를 위해 음절 단위로 표시할 수 있다. 음절 단위의 억양에 대응하는 피치 값은 음절 단위에 포함된 제 1 음소의 피치 값, 제 2 음소의 피치 값 및 제 3 음소의 피치 값을 평균을 구해서 결정할 수 있다. 여기서는 하나의 음절에 세 개의 음소가 포함된 것으로 가정하여 설명했지만, 하나의 음절에 포함될 수 있는 음소의 수는 이것으로 한정된 것은 아니다.

억양 유사도 점수(또는 억양 점수)는 학습자의 발화와 원어민의 발화에 있어서, 음절과 음절 사이의 변화 추이가 유사할수록 상대적으로 높게 형성될 수 있다. 예를 들어, 도 2b에서, 학습자의 발화와 원어민의 발화 모두"TEAM" 및 "WAS"사이에서는 이전 음절에서의 y축 값이 크고, 다음 음절에서 y축 값이 감소하여 음의 기울기를 갖는다. 이런 상황에서 억양 점수는 상대적으로 높게 형성될 수 있다. 반면, "EX" 및 "PECT" 사이에서, 원어민의 그래프는 음의 기울기를 갖는 반면, 학습자의 그래프는 양의 그래프를 가지므로 억양 점수는 상대적으로 낮게 형성될 수 있다. 본 문서에 따른 분절음 및 초분절음 요소 통합형 발음 평가 시스템(예: 도 1의 시스템(100))은 초분절음 요소 단위로 학습자의 발화를 분류하고, 점수 및 시각화된 그래프를 제공할 수 있다. 또한 시스템(100)은 음절 단위로 학습자의 발화를 분석하여 학습자가 정확한 언어 학습을 수행하고, 피드백을 받아 언어 실력을 향상시킬 수 있는 효과를 제공할 수 있다.

도 2b에 따르면, 프로세서(120)는 학습자의 발화를 음절 단위로 라벨링하고, 억양에 대응하는 피치 값을 정규화한 값에 기반하여 이미지로 표시하여 학습자에게 분할된 음절의 억양을 시각적으로 제공하고, 표준 발음(예: 원어민의 발음)과의 차이를 시각적으로 확인할 수 있는 효과를 제공할 수 있다.

억양에 대응하는 피치(pitch) 값은 다음에 의해 결정될 수 있다.

(2-1) rounded_pitch_value = round( getPCC(x,Y))

억양 점수는 다음에 의해 결정될 수 있다.

(2-2) if (rounded_pitch_value >= -0.5) {

pitch_value_percentage = (1 + rounded_pitch_value )/2 * 100

} else {

pitch_value_percentage = (rounded_pitch_value +1)^2 * 100

}

(2-3) intonation_score = pitch_value_percentage

(2-1)에서, rounded_pitch_value는 억양에 대응하는 특징 정보인 음의 높낮이 값을 의미한다. x는 비원어민의 intensity_value 를 의미하고, Y는 원어민의 intensity_value를 의미한다. getPCC()는 Linear regression 기반의 Pearson's Correlation Coefficient r을 구하는 함수를 의미할 수 있다. 프로세서(120)는 getPCC 함수 및 round_value 값을 이용하여 음소 단위의 피치 값을 결정할 수 있다. (2-2)에서 pitch_value_percentage는 rounded_pitch_value를 백분율로 치환한 값을 의미한다. (2-3)에서 intonation_score는 억양 점수를 의미한다.

도 3a는 일 실시예에 따른 강세 유사도 점수를 산출하는 구성을 블록도로 나타낸 것이다.

도 3a에 따르면, 음향모델(302) 및 평가 텍스트(304)가 음소 단위 강제 정렬기(310)에 입력되어 음소 단위로 정렬될 수 있다. 음소 단위 강제정렬부(312)는 평가 텍스트(304)에 대한 발화를 포함하는 학습자 오디오(306) 및 원어민 오디오(308)를 입력 받을 수 있다. 음소 단위 강제정렬부(312)는 입력된 학습자 오디오(306)에 기반하여 학습자 음소 별 구간 길이 정보(314)를 생성하고, 원어민 오디오(308)에 기반하여 원어민 음소 별 구간 길이 정보(316)를 생성할 수 있다. 강세 특징 추출부(320) 및 강세 비교 시각화부(322)는 생성된 학습자 음소 별 구간 길이 정보(314) 및 원어민 음소 별 구간 길이 정보(316)를 입력 받을 수 있다. 강세 비교 시각화부(322)는 입력 받은 학습자 음소 별 구간 길이 정보(314) 및 원어민 음소 별 구간 길이 정보(316)에 기반하여 강세 비교 그래프(324)를 생성할 수 있다. 강세 비교 그래프(324)에 대해서는 도 3b에서 설명될 것이다.

강세 특징 추출부(320)는 입력 받은 학습자 음소 별 구간 길이 정보(314) 및 원어민 음소 별 구간 길이 정보(316)에 기반하여 학습자 강세 특징(326) 및 원어민 강세 특징(328)을 생성하고, 유사도 기반 강세 점수 산출부(330)로 전송할 수 있다. 유사도 기반 강세 점수 산출부(330)는 강세 점수 산출 모델(332)을 이용하여 수신된 학습자 강세 특징(326) 및 원어민 강세 특징(328)에 기반한 강세 점수(334)를 결정할 수 있다. 강세 점수(334)에 대해서는 도 3b에서 설명될 것이다.

도 3b는 학습자 및 원어민의 강세 비교 그래프를 도시한 것이다.

도 3b에 도시된 그래프의 x축은 학습자 및 원어민의 발화에 대해 분할된 음절 단위를 나타낼 수 있다. 음소 단위 강제정렬부(312)는 학습자 오디오(306) 및 원어민 오디오(308)를 적어도 하나의 모음(예: a, e, i, o, u)을 포함하는 음절 단위로 분할시킬 수 있다. 예를 들어, 도 3b에서 그래프의 x축은 "THE TEAM WAS EXPECTED TO WIN THE GAME”이라는 하나의 문장에 대해, THE / TEAM / WAS / EX / PECT / ED / TO / WIN / THE /GAME 이라는 음절 단위로 표시될 수 있다. 프로세서(120)는 원어민 및 학습자의 음소 별 구간 길이 정보에 기반하여 원어민 및 학습자의 오디오를 적어도 하나의 모음을 포함하는 음절 단위로 분할하고, 도 3b의 그래프의 x축에 분할된 음절 단위를 표시하고, 분할된 음절 단위로 강세에 대응하는 특징(예: 피치(pitch), 세기(intensity))을 결정하고 각 음절 단위의 특징 값을 정규화(normalize)한 값을 결정하며, 그래프 상에 각 음절 단위의 특징 값을 정규화(normalize)한 값에 기반하여 도형을 표시할 수 있다. 도형은 각 음절의 강세에 대응하는 특징 값을 정규화(normalize)한 값의 크기에 비례하여 면적이 결정될 수 있다. 예를 들어, 분할된 음절에 대한 강세가 클수록 분할된 음절에 대응하는 도형의 면적은 상대적으로 크게 표시될 수 있다. 피치(pitch)는 음의 높낮이를 의미할 수 있다.

분할된 음절 단위는 복수의 음소들(예:제 1 음소, 제 2 음소 및 제 3 음소)을 포함하고, 각 음절 단위의 강세에 대응하는 특징 값은 제 1 음소 상에서 강세에 대응하는 특징 값, 제 2 음소 상에서 강세에 대응하는 특징 값 및 제 3 음소 상에서 강세에 대응하는 특징 값들의 평균 값을 의미할 수 있다. 시스템(100)은 음소 단위 강제 정렬부(312)를 이용하여 음소 단위로 강세에 대응하는 피치 값을 결정하지만, 학습자에게 표시할 때는 어학 교육적 효과를 위해 음절 단위로 표시할 수 있다. 음절 단위의 강세에 대응하는 피치 값은 음절 단위에 포함된 제 1 음소의 피치 값, 제 2 음소의 피치 값 및 제 3 음소의 피치 값을 평균을 구해서 결정될 수 있다. 음절 단위의 강세에 대응하는 세기 값도 마찬가지 방식으로 결정될 수 있다. 여기서는 하나의 음절에 세 개의 음소가 포함된 것으로 가정하여 설명했지만, 하나의 음절에 포함될 수 있는 음소의 수는 이것으로 한정된 것은 아니다.

도 3b에 따르면, 프로세서(120)는 학습자의 발화를 음절 단위로 라벨링하고, 강세에 대응하는 피치 값을 정규화한 값에 기반하여 이미지로 표시하여 학습자에게 분할된 음절의 강세를 시각적으로 제공하고, 표준 발음(예: 원어민의 발음)과의 차이를 시각적으로 확인할 수 있는 효과를 제공할 수 있다.

강세에 대응하는 피치(pitch) 값은 앞선 도 2의 (2-1)에서 결정된 억양에 대응하는 피치(pitch) 값을 이용할 수 있다.

강세에 대응하는 세기(intensity)값은 다음에 의해 결정될 수 있다.

(3-1) rounded_intensity_value = round(getPCC(x,Y))

강세 점수는 다음에 의해 결정될 수 있다.

(3-2) if (rounded_intensity_value >= -0.5) {

intensity_value_percentage = (1 + rounded_intensity_value)/2 * 100

} else {

intensity_value_percentage = (rounded_intensity_value +1)^2 * 100

}

(3-3) stress_score = (pitch_value_percentage+ intensity_value_percentage) / 2

x는 비원어민의 intensity_value 를 의미하고, Y는 원어민의 intensity_value를 의미한다. getPCC()는 Linear regression 기반의 Pearson's Correlation Coefficient r을 구하는 함수를 의미할 수 있다. 프로세서(120)는 getPCC 함수 및 round_value 값을 이용하여 음소 단위의 피치 값을 결정할 수 있다. (3-1)에서 rounded_intensity_value는 강세에 대응하는 특징 정보인 세기 값을 의미한다. (3-2)에서 intensity_value_percentage는 rounded_intensity_value를 백분율로 치환한 값을 의미한다. (3-3)에서 stress_score는 강세 점수를 의미한다. 강세 점수는 앞선 도 2의 (2-2)에서 얻어진 pitch_value_percentage 와 intensity_value_percentage의 평균값으로 결정될 수 있다.

도 4a는 일 실시예에 따른 리듬 유사도 점수를 산출하는 구성을 블록도로 나타낸 것이다.

도 4a에 따르면, 음향모델(402) 및 평가 텍스트(404)가 음소 단위 강제 정렬기(410)에 입력되어 음소 단위로 정렬될 수 있다. 음소 단위 강제정렬부(412)는 평가 텍스트(404)에 대한 발화를 포함하는 학습자 오디오(406) 및 원어민 오디오(408)를 입력 받을 수 있다. 음소 단위 강제정렬부(412)는 입력된 학습자 오디오(406)에 기반하여 학습자 음소 별 구간 길이 정보(414)를 생성하고, 원어민 오디오(408)에 기반하여 원어민 음소 별 구간 길이 정보(416)를 생성할 수 있다. 리듬 특징 추출부(420) 및 리듬 비교 시각화부(422)는 생성된 학습자 음소 별 구간 길이 정보(414) 및 원어민 음소 별 구간 길이 정보(416)를 입력 받을 수 있다. 리듬 비교 시각화부(422)는 입력 받은 학습자 음소 별 구간 길이 정보(414) 및 원어민 음소 별 구간 길이 정보(416)에 기반하여 리듬 비교 그래프(424)를 생성할 수 있다. 리듬 비교 그래프(424)에 대해서는 도 4b에서 설명될 것이다.

리듬 특징 추출부(420)는 입력 받은 학습자 음소 별 구간 길이 정보(414) 및 원어민 음소 별 구간 길이 정보(416)에 기반하여 학습자 리듬 특징(426) 및 원어민 리듬 특징(428)을 생성하고, 유사도 기반 리듬 점수 산출부(430)로 전송할 수 있다. 유사도 기반 리듬 점수 산출부(430)는 리듬 점수 산출 모델(432)을 이용하여 수신된 학습자 리듬 특징(426) 및 원어민 리듬 특징(428)에 기반한 리듬 점수(434)를 결정할 수 있다. 리듬 점수(434)에 대해서는 도 4b에서 설명될 것이다.

도 4b는 학습자 및 원어민의 리듬 비교 그래프를 도시한 것이다.

도 4b에 도시된 그래프의 x축은 학습자 및 원어민의 발화에 대해 분할된 음절 단위를 나타낼 수 있다. 음소 단위 강제정렬부(412)는 학습자 오디오(406) 및 원어민 오디오(408)를 적어도 하나의 모음(예: a, e, i, o, u)을 포함하는 음절 단위로 분할시킬 수 있다. 예를 들어, 도 4b에서 그래프의 x축은 "THE TEAM WAS EXPECTED TO WIN THE GAME”이라는 하나의 문장에 대해, THE / TEAM / WAS / EX / PECT / ED / TO / WIN / THE /GAME 이라는 음절 단위로 표시될 수 있다. 프로세서(120)는 원어민 및 학습자의 음소 별 구간 길이 정보에 기반하여 원어민 및 학습자의 오디오를 적어도 하나의 모음을 포함하는 음절 단위로 분할하고, 도 4b의 그래프의 x축에 분할된 음절 단위를 표시하고, 분할된 음절 단위로 리듬에 대응하는 특징(예: 음소 단위 길이)을 결정하고 각 음소 단위 길이 값을 정규화(normalize)한 값을 결정하며, 그래프 상에 각 음소 단위 길이 값을 정규화(normalize)한 값에 기반하여 도형을 표시할 수 있다. 도형은 각 음절의 리듬에 대응하는 음소 단위 길이 값을 정규화(normalize)한 값의 크기에 비례하여 면적이 결정될 수 있다. 예를 들어, 분할된 음절에 대한 발음 시간이 길수록, 분할된 음절에 대응하는 면적은 상대적으로 늘어날 수 있다. 또는 분할된 음절에 대한 발음 시간이 길수록, 분할된 음절에 대응하는 아이콘의 가로 길이는 상대적으로 늘어날 수 있다.

도 4b에 따르면, 프로세서(120)는 학습자의 발화를 음절 단위로 라벨링하고, 리듬에 대응하는 특징(예: 음소 단위 길이) 값을 정규화한 값에 기반하여 이미지로 표시하여 학습자에게 분할된 음절의 리듬을 시각적으로 제공하고, 표준 발음(예: 원어민의 발음)과의 차이를 시각적으로 확인할 수 있는 효과를 제공할 수 있다.

분할된 음절 단위는 복수의 음소들(예: 제 1 음소, 제 2 음소 및 제 3 음소)을 포함하고, 각 음절 단위의 리듬에 대응하는 특징 값은 제 1 음소 상에서 리듬에 대응하는 특징 값, 제 2 음소 상에서 리듬에 대응하는 특징 값 및 제 3 음소 상에서 리듬에 대응하는 특징 값들의 평균 값을 의미할 수 있다. 시스템(100)은 음소 단위 강제 정렬부(412)를 이용하여 음소 단위로 리듬에 대응하는 음소 단위 길이 값을 결정하지만, 학습자에게 표시할 때는 어학 교육적 효과를 위해 음절 단위로 표시할 수 있다. 여기서는 하나의 음절에 세 개의 음소가 포함된 것으로 가정하여 설명했지만, 하나의 음절에 포함될 수 있는 음소의 수는 이것으로 한정된 것은 아니다.

리듬에 대응하는 음소 단위 길이 값은 다음에 의해 결정될 수 있다.

(4-1) rounded_duration_value= round( getPCC(x,Y) )

리듬 점수는 다음에 의해 결정될 수 있다.

(4-2) if (rounded_duration_value >= -0.5) {

duration_value_percentage= (1 + rounded_duration_value )/2 * 100

} else {

duration_value_percentage= (rounded_duration_value +1)^2 * 100

}

(4-3) rhythm_score= duration_value_percentage

x는 비원어민의 intensity_value 를 의미하고, Y는 원어민의 intensity_value를 의미한다. getPCC()는 Linear regression 기반의 Pearson's Correlation Coefficient r을 구하는 함수를 의미할 수 있다. 프로세서(120)는 getPCC 함수 및 round_value 값을 이용하여 음소 단위의 길이 값을 결정할 수 있다. (4-2)에서 rounded_duration_value는 -1에서 1 사이의 값을 가질 수 있다. duration_value_percentage는 rounded_duration_value를 백분율로 치환한 값을 의미한다.

(4-3)에서 rhythm_score는 리듬 점수를 의미한다. 리듬 점수는 duration_value_percentage에 의해 결정될 수 있다.

도 5a는 일 실시예에 따른 휴지구간 점수를 산출하는 구성을 블록도로 나타낸 것이다.

도 5a에 따르면, 음향모델(502) 및 평가 텍스트(504)가 음소 단위 강제 정렬기(510)에 입력되어 음소 단위로 정렬될 수 있다. 음소 단위 강제정렬부(512)는 평가 텍스트(504)에 대한 발화를 포함하는 학습자 오디오(506) 및 원어민 오디오(508)를 입력 받을 수 있다. 음소 단위 강제정렬부(512)는 입력된 학습자 오디오(506)에 기반하여 학습자 음소 별 휴지구간 길이 정보(514)를 생성하고, 원어민 오디오(508)에 기반하여 원어민 음소 별 휴지구간 길이 정보(516)를 생성할 수 있다. 휴지구간의 길이 비교부(520)는 학습자 음소 별 휴지구간 길이 정보(514) 및 원어민 음소 별 휴지구간 길이 정보(516)를 이용하여 휴지구간의 길이를 비교하거나 또는 휴지구간의 차이를 계산할 수 있다.

문장 내 휴지구간 적절성 판단부(522)는 문장 내 단어 사이의 휴지구간 길이를 비교하고, 휴지구간 적절성 점수 산출부(532) 및 휴지구간 적절성 시각화부(534)로 관련 정보를 전송할 수 있다. 휴지구간 적절성 점수 산출부(532)는 문장 내 단어 간 휴지구간 길이 비교에 대한 정보에 기초하여 휴지구간의 점수(542)를 결정할 수 있다. 휴지구간 적절성 시각화부(534)는 휴지구간 길이 비교에 대한 정보에 기초하여 휴지구간 시각화 그래프(544)를 생성할 수 있다. 문장 간 휴지구간 적절성 판단부(524)는 문장 간 휴지구간 길이를 비교하여 적절성 점수 산출부(532) 및 휴지구간 적절성 시각화부(534)로 관련 정보를 전송할 수 있다. 휴지구간 적절성 점수 산출부(532)는 문장 내 단어 간 휴지구간 길이 비교에 대한 정보에 기초하여 휴지구간의 점수(542)를 결정할 수 있다. 휴지구간 적절성 시각화부(534)는 휴지구간 길이 비교에 대한 정보에 기초하여 휴지구간 시각화 그래프(544)를 생성할 수 있다. 휴지구간의 점수(542) 및 휴지구간 시각화 그래프(544)에 대해서는 도 5b에서 설명될 것이다.

도 5b는 학습자 및 원어민의 휴지구간 비교 그래프를 도시한 것이다.

도 5b에 도시된 그래프의 x축은 학습자 및 원어민의 발화에 대해 분할된 음절 단위를 나타낼 수 있다. 음소 단위 강제정렬부(512)는 학습자 오디오(506) 및 원어민 오디오(508)를 적어도 하나의 모음(예: a, e, i, o, u)을 포함하는 음절 단위로 분할시킬 수 있다. 예를 들어, 도 5b에서 그래프의 x축은 "THE TEAM WAS EXPECTED TO WIN THE GAME”이라는 하나의 문장에 대해, THE / TEAM / WAS / EX / PECT / ED / TO / WIN / THE /GAME 이라는 음절 단위로 표시될 수 있다. 프로세서(예: 도 1의 프로세서(120))는 원어민 및 학습자의 음소 별 구간 길이 정보에 기반하여 원어민 및 학습자의 오디오를 단어 단위로 분할시킬 수 있다.도 5b의 그래프의 x축에 분할된 단어를 표시하고, 분할된 단어 단위로 특징(예: 휴지구간의 길이)를 결정하고 각 단어 단위의 휴지구간의 길이 값을 정규화(normalize)한 값을 결정하며, 도 5b의 그래프상에 분할된 복수의 단어들을 표시하고 각 단어들 사이에 휴지구간에 대응하는 아이콘을 표시할 수 있다. 휴지구간에 대응하는 아이콘의 크기는 각 단어 사이의 휴지구간의 길이에 기반하여 결정될 수 있다.

도 5b에 따르면, 프로세서(120)는 학습자의 발화를 단어 단위로 라벨링하고, 휴지구간의 길이를 이미지로 표시하여 학습자에게 단어와 단어 사이의 휴지구간의 길이를 확인하고, 표준 발음(예: 원어민의 발음)과의 차이를 시각적으로 확인할 수 있는 효과를 제공할 수 있다.

문장 내 휴지구간 오류율은 다음에 의해 결정될 수 있다.

(5-1) within_sentence_pause_error_rate = COUNTIF[│within_sentence_pause_nonnative(n) - within_sentence_pause_native(n)│ > within_sentence_threshold] /within_sentence_pause_count * 100

(5-1)에서 within_sentence_pause_error_rate 는 문장 내 휴지구간 오류율을 의미한다. within_sentence_pause_nonnative(n)는 학습자 문장 내 n번째 휴지구간 길이(sec)를 의미한다. within_sentence_pause_native(n)는 원어민 문장 내 n번째 휴지구간 길이(sec)를 의미한다. within_sentence_threshold는 문장 내 휴지구간 임계치를 의미할 수 있다. within_sentence_pause_count는 문장 내 휴지구간 총 개수를 의미한다. 문장 내 휴지구간 임계치는 설정에 따라 또는 사용자의 학습 수준에 따라 다르게 결정될 수 있다. 프로세서(120)는 사용자 입력에 기반하여 학습 수준을 결정할 수 있다. 프로세서(120)는 원어민과 비원어민 휴지구간의 차이가 임계치보다 큰 경우 오류로 계산할 수 있다. 예를 들어 비원어민의 휴지구간의 길이가 원어민보다 임계치를 초과하여 짧으면 단어 사이에 충분히 쉬어줘야 하므로 이를 오류로 결정하고, 학습자에게 피드백 정보를 제공할 수 있다. 반대로 비원어민의 휴지구간의 길이가 원어민보다 임계치를 초과하여 긴 경우 단어 사이의 휴지구간을 줄여서 발음할 필요가 있으므로 이를 오류로 결정하고 학습자에게 피드백 정보를 제공할 수 있다.

문장 간 휴지구간 오류율은 다음에 의해 결정될 수 있다.

(5-2) between_sentence_pause_error_rate= COUNTIF[ │between_sentence_pause_nonnative(n) - between_sentence_pause_native(n)│ > between_sentence_threshold] /between_sentence_pause_count * 100

(5-2)에서 between_sentence_pause_error_rate는 문장 간 휴지구간 오류율을 의미한다. between_sentence_pause_nonnative(n)는 학습자 문장 간 n번째 휴지구간 길이(sec)를 의미한다. between_sentence_pause_native(n)는 원어민 문장 간 n번째 휴지구간 길이(sec)를 의미한다. 프로세서(120)는 원어민과 비원어민 휴지기간의 차이가 임계치보다 큰 경우 오류로 계산할 수 있다. between_sentence_threshold는 문장 간 휴지구간 길이의 임계치를 의미한다. 문장 간 휴지구간 길이의 임계치는 설정에 따라 또는 사용자의 학습 수준에 따라 다르게 결정될 수 있다. between_sentence_pause_count는 문장 간 휴지구간 총 개수를 의미한다.

도 6은 일 실시예에 따른 분절음 및 초분절음 요소 통합형 발음 평가 방법을 흐름도로 나타낸 것이다.

도 6을 통하여 설명되는 동작들은 컴퓨터 기록 매체 또는 메모리(예: 도 1의 메모리(130))에 저장될 수 있는 인스트럭션들을 기반으로 구현될 수 있다. 도시된 방법(600)은 앞서 도 1 내지 도 5b를 통해 설명한 시스템(예: 도 1의 시스템(100))에 의해 실행될 수 있으며, 앞서 설명한 바 있는 기술적 특징은 이하에서 생략하기로 한다. 도 6의 각 동작의 순서가 변경될 수 있으며, 일부 동작이 생략될 수도 있고, 일부 동작들이 동시에 수행될 수도 있다.

동작 610에서, 프로세서(예: 도 1의 프로세서(120))는 원어민 및 학습자의 오디오를 적어도 하나의 모음을 포함하는 음절 단위로 분할시킬 수 있다. 프로세서(120)는 음소 단위 강제 정렬부(예: 도 1의 음소 단위 강제 정렬부(112))를 이용하여 학습자 오디오 및 원어민 오디오를 적어도 하나의 모음(예: a, e, i, o, u)을 포함하는 음절 단위로 분할시킬 수 있다. 예를 들어, 음소 단위 강제 정렬부(112)는 "THE TEAM WAS EXPECTED TO WIN THE GAME"이라는 하나의 문장에 대해, THE / TEAM / WAS / EX / PECT / ED / TO / WIN / THE /GAME 이라는 음절 단위로 분할시킬 수 있다.

동작 620에서, 프로세서(120)는 분할된 음절 내 포함된 음소들의 특징 값을 이용하여 음절 단위의 특징 값을 결정하고, 각 음절 단위의 특징 값을 정규화(normalize)시킬 수 있다. 정규화(normalize)는 특정 값의 범위를 -1 내지 1 사이로 옮기는 과정을 의미할 수 있다. 예를 들어, 억양에 대한 특징 값은 음의 높낮이를 지시하는 피치(pitch)값을 포함할 수 있다. 결정된 피치(pitch)값은 사람의 특성(예: 성별)에 따라 달라질 수 있다. 사람마다 발화 시 음의 높낮이가 다르기 때문에 정규화 과정이 필요할 수 있다.

동작 630에서, 프로세서(120)는 원어민의 초분절음 요소에 대한 제1 그래프 및 학습자의 초분절음 요소에 대한 제2 그래프를 생성할 수 있다. 일 실시예에 따르면, 프로세서(120)는 음소 단위 강제 정렬부(112)에 의해 분할된 음소 단위를 x축으로 하고, 각 음절 단위의 특징(feature) 값을 정규화(normalize)한 값을 y축으로 하여 그래프를 표시할 수 있다. 분할된 음절 단위는 복수의 음소들(예: 제 1 음소, 제 2 음소 및 제 3 음소)을 포함하고, 각 음절 단위의 억양에 대응하는 특징 값은 제 1 음소 상에서 억양에 대응하는 특징 값, 제 2 음소 상에서 억양에 대응하는 특징 값 및 제 3 음소 상에서 억양에 대응하는 특징 값들의 평균 값을 의미할 수 있다. 시스템(100)은 음소 단위 강제 정렬부(212)를 이용하여 음소 단위로 억양에 대응하는 특징 값을 결정하지만, 학습자에게 표시할 때는 어학 교육적 효과를 위해 음절 단위로 표시할 수 있다. 여기서는 하나의 음절에 세 개의 음소가 포함된 것으로 가정하여 설명했지만, 하나의 음절에 포함될 수 있는 음소의 수는 이것으로 한정된 것은 아니다.

동작 640에서, 프로세서(120)는 제1 그래프, 제2 그래프 및 유사도 점수를 함께 표시할 수 있다. 점수 산출부(예: 도 1의 점수 산출부(116))는 학습자 초분절음 요소의 특징에 대한 정보 및 원어민 초분절음 요소의 특징에 대한 정보에 기반하여 유사도 점수를 결정할 수 있다. 유사도 점수는 억양, 강세, 리듬 및 휴지구간의 길이 별로 다르게 결정될 수 있다. 억양, 강세, 리듬 및 휴지구간의 길이에 대한 유사도 점수를 결정하는 과정은 도 2a 내지 도 5a에서 설명된 바 있다.

일 실시예에 따르면, 프로세서(120)는 유사도 값이 지정된 수준 미만인 음절을 강조 표시할 수 있다. 프로세서(120)는 유사도 값이 지정된 수준(예: 50%)미만인 음절을 강조 표시하여, 사용자가 원어민과 비교하여 차이가 상대적으로 큰 음절을 인식하고 발음을 교정할 수 있도록 사용성을 제공할 수 있다. 음절을 강조 표시하는 기준이 되는 유사도 값의 수준은 고정된 것은 아니며, 학습자의 수준 또는 설정에 따라 달라질 수 있다. 프로세서(120)는 학습자로부터 사전에 입력 받은 언어 수준에 기반하여 지정된 수준을 다르게 결정할 수 있다. 예를 들어 학습자가 초보 단계인 경우, 프로세서(120)는 지정된 수준을 상대적으로 낮게 설정하여 강조 표시되는 음절의 수를 줄일 수 있다. 학습자가 숙련자 단계인 경우, 프로세서(120)는 지정된 수준을 상대적으로 높게 설정하여 상대적으로 엄격하게 학습자와 원어민의 차이를 표시할 수 있다.

일 실시예에 따르면, 프로세서(120)는 학습자의 오디오(예: 도 2a의 학습자 오디오(206)) 및 원어민의 오디오(예: 도 2a의 원어민 오디오(208))에서 억양에 대한 정보에 기반하여 산출된 억양의 유사도 점수, 강세의 유사도 점수, 리듬의 유사도 점수 및 휴지구간의 유사도 점수의 평균을 측정하여 종합 유사도 점수를 결정할 수 있다.

일 실시예에 따르면, 프로세서(120)는 레벨 테스트용 발음 평가 문제에 대한 사용자 응답에 기반하여 사용자의 언어 학습 수준을 결정할 수 있다.

일 실시예에 따르면, 프로세서(120)는 외부 서버로부터 발음 연습을 위한 문장들을 원어민의 성별, 국적 및 연령을 포함하는 항목 별로 다르게 수신하여 메모리(130) 상에 저장하고, 사용자 입력에 기반하여 발음 연습을 위한 문장들을 선택하고, 성별, 국적 및 연령 별로 다른 오디오를 제공할 수 있다.

일 실시예에 따르면, 프로세서(120)는 제1 그래프 및 제2 그래프의 표시 색을 다르게 설정하고, 점수 산출부(예: 도 1의 점수 산출부(116))에서 결정된 유사도 점수가 지정된 수준 미만임에 기반하여 해당 문장을 다시 학습하도록 지시하는 가이드를 표시할 수 있다.

일 실시예에 따르면, 프로세서(120)는 학습자로부터 입력 받은 상기 학습자의 언어 학습 수준에 기반하여 제1 그래프 및 제2 그래프 상에서 유사도 값이 제 1 수준 미만인 음절을 강조 표시할 수 있다. 프로세서(120)는 학습자의 언어 학습 수준이 초보자임에 기반하여 숙련자와 비교하여 제 1 수준을 상대적으로 낮게 설정하고, 학습자의 언어 학습 수준이 숙련자임에 기반하여 초보자와 비교하여 제 1 수준을 상대적으로 높게 설정할 수 있다. 프로세서(120)는 학습자의 언어 학습 수준이 초보 단계임에 기반하여 음절 강조 표시의 기준이 되는 원어민 음성과의 유사도 값을 숙련자와 비교하여 상대적으로 낮은 수준(예: 50%)으로 결정할 수 있다. 프로세서(120)는 학습자의 언어 학습 수준이 숙련자 단계임에 기반하여 음절 강조 표시의 기준이 되는 원어민 음성과의 유사도 값을 초보자와 비교하여 상대적으로 높은 수준(예: 80%)으로 결정할 수 있다. 또는 프로세서(120)는 학습자의 언어 학습 수준이 지정된 수준(예: 초보 수준) 미만인 상황에서, 음절 강조 표시의 기준이 되는 유사도 값(예: 30%)을 상대적으로 낮게 결정할 수 있다. 즉, 프로세서(120)는 학습자의 오디오를 원어민의 오디오와 비교하여 유사도가 30% 미만인 음절을 강조 표시하여 학습자가 고쳐야 할 발음에 대한 정보를 제공할 수 있다. 또한, 프로세서(120)는 학습자의 언어 학습 수준이 지정된 수준(예: 상급자 수준)을 초과하는 경우 음절 강조 표시의 기준이 되는 유사도 값(예: 80%)을 상대적으로 높게 결정할 수 있다. 프로세서(120)는 학습자의 오디오를 원어민의 오디오와 비교하고 유사도 값이 80% 미만인 음절을 강조 표시하여 학습자가 고쳐야 할 발음에 대한 정보를 제공할 수 있다. 이 경우, 학습자의 수준이 초보 수준인 경우와 비교하여 상대적으로 발음이 조금만 원어민과 유사하지 않더라도 강조 표시될 수 있어, 상급자 수준의 학습자에게 유용한 학습 효과를 제공할 수 있다. 이는 일 예시일 뿐 학습자의 수준(예: 초보, 상급자)은 고정된 것은 아니며 사용자의 입력 또는 설정에 따라 달라질 수 있다. 유사도 수준 역시 일 예시일 뿐 고정된 것은 아니며 설정에 따라 달라질 수 있다.

일 실시예에 따르면, 프로세서(120)는 원어민의 오디오와 비교하여 유사도 차이가 큰 음절을 더 강조하여 표시할 수 있다. 예를 들어, 프로세서(120)는 유사도 값이 40%인 음절과 비교하여 유사도 값이 20%인 음절을 더 강조하여 표시할 수 있다. 이로 인해 사용자는 원어민 발음과 차이가 큰 부분을 더 쉽게 인식할 수 있다.

본 명세서와 도면에 개시된 본 문서의 실시예는 본 문서의 실시예에 따른 기술 내용을 쉽게 설명하고 본 문서의 실시예의 이해를 돕기 위해 특정 예를 제시한 것일 뿐이며, 본 문서의 실시예의 범위를 한정하고자 하는 것은 아니다. 따라서 본 문서의 일 실시예의 범위는 여기에 개시된 실시예 이외에도 본 문서의 일 실시예의 기술적 사상을 바탕으로 도출되는 모든 변경 또는 변형된 형태가 본 문서의 일 실시예의 범위에 포함되는 것으로 해석되어야 한다.

Claims

분절음 및 초분절음 요소 통합형 발음 평가 시스템에 있어서,
음소 단위 강제정렬부;
특징 추출부;
점수 산출부;
메모리; 및
프로세서를 포함하고,
상기 음소 단위 강제정렬부는
학습자의 오디오 및 원어민의 오디오를 수신하고, 학습자의 오디오 상에서 음소 별 구간 길이 정보를 출력하고, 원어민의 오디오 상에서 음소 별 구간 길이를 출력하며, 출력된 원어민 및 학습자의 음소 별 구간 길이 정보를 상기 특징 추출부 및 상기 프로세서로 전송하고,
상기 특징 추출부는
학습자의 음소 별 구간 길이 정보를 수신하여 억양, 강세, 리듬 및 휴지구간의 길이를 포함하는 초분절음 요소의 특징에 대한 정보를 추출하고, 원어민의 음소 별 구간 길이 정보를 수신하여 억양, 강세, 리듬 및 휴지구간의 길이를 포함하는 초분절음 요소의 특징에 대한 정보를 추출하며, 추출된 학습자 초분절음 요소의 특징에 대한 정보 및 원어민 초분절음 요소의 특징에 대한 정보를 상기 점수 산출부로 전송하며,
상기 점수 산출부는
학습자 초분절음 요소의 특징에 대한 정보 및 원어민 초분절음 요소의 특징에 대한 정보에 기반하여 유사도 점수를 결정하고,
상기 프로세서는
원어민 및 학습자의 음소 별 구간 길이 정보에 기반하여 원어민 및 학습자의 오디오를 적어도 하나의 모음을 포함하는 음절 단위로 분할하고,
분할된 음절 단위로 특징(feature)을 결정하고 각 음절 단위의 특징 값을 정규화(normalize)하고,
분할된 음절 단위를 x축으로 하고, 각 음절 단위의 특징의 정규화된 수치를 y축으로 하여 원어민의 억양, 강세, 리듬 및 휴지구간의 길이를 포함하는 초분절음 요소에 대한 제 1 그래프를 생성하고, 학습자의 억양, 강세, 리듬 및 휴지구간의 길이를 포함하는 초분절음 요소에 대한 제 2 그래프를 생성하며,
원어민의 초분절음 요소에 대한 상기 제 1 그래프 및 학습자의 초분절음 요소에 대한 상기 제 2 그래프를 함께 표시하며,
분할된 음절은 복수의 음소들을 포함하고, 분할된 음절 단위의 특징 값은 분할된 음절에 포함된 각각의 음소 단위의 특징 값들의 평균을 이용하여 결정되는 시스템.
제1항에 있어서,
상기 프로세서는
원어민 및 학습자의 음소 별 구간 길이 정보에 기반하여 원어민 및 학습자의 오디오를 적어도 하나의 모음을 포함하는 음절 단위로 분할하고,
상기 제 1 그래프 및 상기 제 2 그래프의 x축에 분할된 음절 단위를 표시하고, 분할된 음절 단위로 억양에 대응하는 특징(feature) 값을 결정하고 각 음절 단위의 특징 값을 정규화(normalize)한 값을 y축에 표시하며,
각 음절 단위로 특징 값을 정규화(normalize)한 값을 지점으로 표시하고,
인접한 지점을 선으로 연결하여 음절과 음절 사이의 변화 추이를 표시하며,
상기 분할된 음절 단위는 복수의 음소들을 포함하고, 각 음절 단위의 억양에 대응하는 특징 값은 상기 복수의 음소들 각각의 특징 값들의 평균을 의미하며,
상기 억양에 대응하는 특징은 음의 높낮이를 지시하는 피치(pitch)를 포함하는 시스템.
제2항에 있어서,
상기 프로세서는
linear regression 기반의 Pearson's Correlation Coefficient 를 구하는 getPCC 함수를 이용하여 음의 높낮이를 지시하는 피치(pitch) 값을 결정하고,
결정된 상기 피치 값을 백분율로 변환하여 억양 유사도 점수를 결정하는 시스템.
제1항에 있어서,
상기 프로세서는
원어민 및 학습자의 음소 별 구간 길이 정보에 기반하여 원어민 및 학습자의 오디오를 적어도 하나의 모음을 포함하는 음절 단위로 분할하고,
상기 제1 그래프 및 상기 제2 그래프의 x축에 분할된 음절 단위를 표시하고, 분할된 음절 단위로 강세에 대응하는 특징(feature) 값을 결정하고 각 음절 단위의 특징(feature) 값을 정규화(normalize)한 값을 결정하며,
상기 제 1 그래프 및 상기 제 2 그래프 상에 각 음절 단위의 특징(feature) 값을 정규화(normalize)한 값에 기반하여 도형을 표시하고
상기 도형은
각 음절의 강세에 대응하는 특징(feature) 값을 정규화(normalize)한 값의 크기에 비례하여 면적이 결정되고,
상기 분할된 음절 단위는 복수의 음소들을 포함하고, 각 음절 단위의 강세에 대응하는 특징 값은 상기 복수의 음소들 각각의 특징 값들의 평균을 의미하며,
상기 강세에 대응하는 특징은 음의 높낮이를 지시하는 피치(pitch) 및 음의 세기(intensity)를 포함하는 시스템.
제4항에 있어서,
상기 프로세서는
linear regression 기반의 Pearson's Correlation Coefficient 를 구하는 getPCC 함수를 이용하여 음의 높낮이를 지시하는 피치(pitch) 값 및 음의 세기(intensity)를 결정하고,
결정된 상기 피치 값 및 상기 세기 값을 백분율로 변환하여 강세 유사도 점수를 결정하는 시스템.
제1항에 있어서,
상기 프로세서는
원어민 및 학습자의 음소 별 구간 길이 정보에 기반하여 원어민 및 학습자의 오디오를 적어도 하나의 모음을 포함하는 음절 단위로 분할하고,
상기 제 1 그래프 및 상기 제 2 그래프의 x축에 분할된 음절 단위를 표시하고, 분할된 음절 단위로 리듬에 대응하는 특징(feature)을 결정하고 각 음절 단위의 특징(feature) 값을 정규화(normalize)한 값을 결정하며,
상기 제 1 그래프 및 상기 제 2 그래프 상에 각 음절 단위의 특징(feature) 값을 정규화(normalize)한 값에 기반하여 도형을 표시하고,
상기 도형은
각 음절의 리듬에 대응하는 특징(feature) 값을 정규화(normalize)한 값의 크기에 비례하여 면적이 결정되며,
상기 분할된 음절 단위는 복수의 음소들을 포함하고, 각 음절 단위의 리듬에 대응하는 특징 값은 상기 복수의 음소들 각각의 특징 값들의 평균을 의미하며,
상기 리듬에 대응하는 특징은 음절 단위의 길이를 포함하는 시스템.
제6항에 있어서,
상기 프로세서는
linear regression 기반의 Pearson's Correlation Coefficient 를 구하는 getPCC 함수를 이용하여 음절 단위의 길이를 결정하고,
결정된 상기 음절 단위의 길이 값을 백분율로 변환하여 리듬 유사도 점수를 결정하는 시스템.
제1항에 있어서,
상기 프로세서는
원어민 및 학습자의 음소 별 구간 길이 정보에 기반하여 원어민 및 학습자의 오디오를 단어 단위로 분할하고,
상기 제 1 그래프 및 상기 제 2 그래프의 x축에 분할된 단어 단위를 표시하고, 분할된 단어 단위로 휴지구간의 길이에 대응하는 특징(feature)을 결정하고 각 단어 단위의 특징(feature) 값을 정규화(normalize)한 값을 결정하며,
상기 제 1 그래프 및 상기 제 2 그래프 상에 분할된 복수의 단어들을 표시하고 각 단어 사이에 휴지구간에 대응하는 아이콘을 표시하고,
상기 휴지구간에 대응하는 아이콘의 크기는 각 단어 사이의 휴지구간의 길이에 기반하여 결정되는 시스템.
제8항에 있어서,
휴지구간 길이의 유사도 점수는
휴지구간 오류율에 기반하여 결정되며,
상기 휴지구간 오류율은
하나의 문장 내 오류 휴지구간 개수 및 복수의 문장 간 오류 휴지구간 개수에 기반하여 결정되고,
상기 하나의 문장 내 오류 휴지구간 개수는 사용자의 문장 내 휴지구간 길이, 원어민의 문장 내 휴지구간 길이 및 문장 내 휴지구간 임계치에 기반하여 결정되고,
상기 복수의 문장들 간 오류 휴지구간 개수는 사용자의 문장 간 휴지구간 길이, 원어민의 문장 간 휴지구간 길이 및 문장 간 휴지구간 임계치에 기반하여 결정되며,
상기 문장 내 휴지구간 임계치 및 상기 문장 간 휴지구간 임계치는 학습자 입력에 따른 학습자들의 언어 학습 수준에 기반하여 다르게 결정되는 시스템.
제1항에 있어서,
상기 점수 산출부는
상기 학습자 초분절음 요소의 특징에 대한 정보 및 원어민 초분절음 요소의 특징에 대한 정보에 기반하여 음소별 정확성 평가 점수, 억양의 유사도 점수, 강세의 유사도 점수, 리듬의 유사도 점수 및 휴지구간의 유사도 점수의 평균을 측정하여 종합 유사도 점수를 결정하는 시스템.
제1항에 있어서,
상기 프로세서는
학습자로부터 입력 받은 상기 학습자의 언어 학습 수준에 기반하여
상기 제1 그래프 및 상기 제2 그래프 상에서 유사도 값이 제 1 수준 미만인 음절을 강조 표시하며,
상기 학습자의 언어 학습 수준이 초보자임에 기반하여 숙련자와 비교하여 상기 제 1 수준을 상대적으로 낮게 설정하고,
상기 학습자의 언어 학습 수준이 숙련자임에 기반하여 초보자와 비교하여 상기 제 1 수준을 상대적으로 높게 설정하는 시스템.
제1항에 있어서,
상기 프로세서는
상기 점수 산출부에서 결정된 유사도 점수를 함께 표시하며,
상기 제1 그래프 및 상기 제2 그래프 상에서 유사도 값이 지정된 수준 미만인 음절을 강조 표시하고,
상기 점수 산출부에서 결정된 유사도 점수가 지정된 수준 미만임에 기반하여 해당 문장을 다시 학습하도록 지시하는 가이드를 표시하는 시스템.