KR101818758B1 - 외국어 발음 평가 장치 및 방법 - Google Patents

외국어 발음 평가 장치 및 방법 Download PDF

Info

Publication number
KR101818758B1
KR101818758B1 KR1020160082178A KR20160082178A KR101818758B1 KR 101818758 B1 KR101818758 B1 KR 101818758B1 KR 1020160082178 A KR1020160082178 A KR 1020160082178A KR 20160082178 A KR20160082178 A KR 20160082178A KR 101818758 B1 KR101818758 B1 KR 101818758B1
Authority
KR
South Korea
Prior art keywords
evaluation
score
speech signal
foreign language
feature
Prior art date
Application number
KR1020160082178A
Other languages
English (en)
Other versions
KR20180002981A (ko
Inventor
류혁수
홍혜진
정민화
김선희
Original Assignee
서울대학교산학협력단
네이버 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울대학교산학협력단, 네이버 주식회사 filed Critical 서울대학교산학협력단
Priority to KR1020160082178A priority Critical patent/KR101818758B1/ko
Publication of KR20180002981A publication Critical patent/KR20180002981A/ko
Application granted granted Critical
Publication of KR101818758B1 publication Critical patent/KR101818758B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/06Foreign languages
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Technology (AREA)
  • Educational Administration (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

발화된 외국어 음성 신호를 인식하는 단계; 인식된 음성 신호로부터 복수의 평가 자질 중 기 설정된 적어도 하나의 주요 평가 자질 각각에 따른 스코어를 추출하는 단계; 및 추출된 스코어를 조합하여 외국어 음성 신호에 대한 최종 평가 스코어를 산출하는 단계를 포함하는 것을 특징으로 하는 본 발명의 일 실시예에 따른 외국어 발음 평가 방법이 개시된다.

Description

외국어 발음 평가 장치 및 방법{FOREIGN LANGUAGE EVALUATING APPARATUS AND METHOD}
본 발명은 외국어 발음 평가 분야에 관한 것이다. 보다 구체적으로, 본 발명은 외국어 학습자에 의해 발화된 음성의 발음 평가를 하는 외국어 발음 평가 장치 및 방법에 관한 것이다.
외국어에 대한 관심이 고조되면서, 효율적이고 체계적인 외국어 학습 방안에 대한 필요성이 높아지고 있다. 최근 언어 교육에서 실질적인 의사소통 능력이 중시됨에 따라 의사소통의 수단인 음성 언어, 특히 말하기 영역에 대한 중요성이 높아지고 있으며, 외국어 교육에서도 동일한 경향이 나타난다.
일반적으로 말하기 평가는 다수의 평가 전문가가 직접 학습자의 발화를 듣고 그에 대한 평가를 수행하는 수동 평가의 방식으로 이루어진다. 이와 대비되는 개념으로 말하기 평가 시스템을 사용하여 평가자 없이 자동으로 학습자의 발화를 평가하는 자동 평가 방식을 생각해 볼 수 있다. 그러나, 현재까지의 자동 평가 방식은 외국어 학습자의 국적이 무엇인지, 모국어가 무엇인지 등과 무관하게 일률적인 기준으로 평가를 진행하고 있으므로, 그 정확성에 문제점이 있을 수 있다. 예를 들어, 일본어를 모국어로 하는 학습자의 한국어 발음과 중국어를 모국어로 하는 학습자의 한국어 발음은 모국어에 의한 영향으로 차이가 발생할 수 있는데, 두 학습자의 발음 평가를 일률적으로 하는 것은 발음 평가의 정확성을 떨어뜨릴 수 있는 것이다.
한편, 본 명세서에서 참조되는 참고 문헌의 리스트는 다음과 같다.
[1] Eskenazi, M., "An overview of spoken language technology for education," Speech Communication, vol. 51, no. 10, pp. 832-844, 2009.
[2] Cucchiarini, C., Strik, H., and Boves, L., "Different aspects of expert pronunciation quality ratings and their relation to scores produced by speech recognition algorithms," Speech Communication, vol. 30, no. 2-3, pp. 109-119, 2000.
[3] Cucchiarini, C., Strik, H., and Boves, L., "Quantitative assessment of second language learners' fluency by means of automatic speech recognition technology," The Journal of the Acoustical Society of America, vol. 107, no. 2, pp. 989-999, 2000.
[4] Zechner, K., Higgins, D., Xi, X. M., and Williamson, D. M., "Automatic scoring of non-native spontaneous speech in tests of spoken English," Speech Communication, vol. 51, no. 10, pp. 883-895, 2009.
[5] Neumeyer, L., Franco, H., Digalakis, V., and Weintraub, M., "Automatic scoring of pronunciation quality," Speech Communication, vol. 30, no. 2-3, pp. 83-93, 2000.
[6] Zechner, K., Higgins, D., Xi, X., and Williamson, D. M., "Automatic scoring of non-native spontaneous speech in tests of spoken English," Speech Communication, vol. 51, no. 10, pp. 883-895, 2009.
[7] Metallinou, A. and Cheng, J., "Using Deep Neural Networks to Improve Proficiency Assessment for Children English Language Learners," in Proc. of Interspeech 2014, pp. 1468-1472, Singapore, 2014.
[8] Febrero-Bande, M., Galeano, P., and Gonzalez-Manteiga, W., "Functional Principal Component Regression and Functional Partial Least-squares Regression: An Overview and a Comparative Study," International Statistical Review, vol. 83, no. 1, pp. 1-23, 2015.
[9] R Core Team, "R: A Language and Environment for Statistical Computing." Vienna, Austria, 2016.
[10] Wehrens, R., Chemometrics with R: Multivariate data analysis in the natural sciences and life sciences. Heidelberg ; New York: Springer,, 2011.
[11] Mevik, B. H. and Wehrens, R., "The pls package: Principal component and partial least squares regression in R," Journal of Statistical Software, vol. 18, no. 2, pp. 1-23, 2007.
[12] Lumley, T. and Miller, A., "leaps: regression subset selection. R package version 2. 9.," 2009.
본 발명의 일 실시예에 따른 외국어 발음 평가 장치 및 방법은 외국어 학습자의 발음을 정확하게 평가하는 것을 목적으로 한다.
또한, 본 발명의 일 실시예에 따른 외국어 발음 평가 장치 및 방법은 학습자의 발화 특성에 부합하는 평가 모델을 구성함으로써, 발음 평가의 신뢰성을 향상시키는 것을 목적으로 한다.
본 발명의 일 실시예에 따른 외국어 발음 평가 방법은,
발화된 외국어 음성 신호를 인식하는 단계; 상기 인식된 음성 신호로부터 복수의 평가 자질 중 기 설정된 적어도 하나의 주요 평가 자질 각각에 따른 스코어를 추출하는 단계; 및 상기 추출된 스코어를 조합하여 상기 외국어 음성 신호에 대한 최종 평가 스코어를 산출하는 단계를 포함할 수 있다.
상기 최종 평가 스코어를 산출하는 단계는, 학습 단계에서 회귀 분석 방법에 따라 모델링된 최종 평가 모델에 상기 스코어를 적용하여 상기 최종 평가 스코어를 산출하는 단계를 포함할 수 있다.
상기 외국어 발음 평가 방법은, 상기 복수의 평가 자질 각각에 따른 제 1 학습용 음성 신호의 스코어와 상기 제 1 학습용 음성 신호의 수동 평가 스코어를 회귀 분석 방법에 적용하여 복수의 평가 자질에 대한 평가 모델을 구성하는 단계; 및 상기 평가 모델에 주요 자질 선택 알고리즘을 적용하여 상기 복수의 평가 자질 중 상기 적어도 하나의 주요 평가 자질을 선택하는 단계를 더 포함할 수 있다.
상기 주요 자질 선택 알고리즘은, PCR(Principal Component Regression) 알고리즘, BSS(Best subset selection) 알고리즘 및 LASSO 알고리즘 중 적어도 하나를 포함할 수 있다.
상기 외국어 발음 평가 방법은, 상기 복수의 평가 자질을 복수의 평가 자질 조합으로 클러스터링하는 단계; 상기 복수의 평가 자질 조합별 제 1 학습용 음성 신호의 스코어와 상기 제 1 학습용 음성 신호의 수동 평가 스코어를 회귀 분석 방법에 적용하여 복수의 평가 자질 조합별 평가 모델을 구성하는 단계; 각 그룹별 평가 모델에 제 2 학습용 음성 신호를 적용하여 도출되는 스코어와 상기 제 2 학습용 음성 신호의 수동 평가 스코어 사이의 관련성에 기초하여, 상기 평가 자질 조합 중 최적의 평가 자질 조합을 선정하는 단계; 및 상기 최적의 평가 자질 조합의 평가 모델에 주요 자질 선택 알고리즘을 적용하여 상기 최적의 평가 자질 조합에 포함된 평가 자질 중 적어도 하나의 주요 평가 자질을 선택하는 단계를 더 포함할 수 있다.
상기 복수의 평가 자질은, 복수의 평가 자질 그룹으로 구분되되, 상기 평가 자질 조합은, 적어도 하나의 평가 자질 그룹의 조합일 수 있다.
상기 스코어를 추출하는 단계는, 상기 인식된 음성 신호를 강제 정렬(forced alignment) 알고리즘 및 인식 알고리즘 중 적어도 하나를 적용하여 상기 기 설정된 적어도 하나의 주요 평가 자질 각각에 따른 스코어를 추출하는 단계를 포함할 수 있다.
상기 외국어 발음 평가 방법은, 상기 산출된 최종 평가 스코어를 출력하는 단계를 더 포함할 수 있다.
본 발명의 다른 실시예에 따른 외국어 발음 평가 장치는,
발화된 외국어 음성 신호를 인식하는 음성 인식부; 상기 인식된 음성 신호로부터 복수의 평가 자질 중 기 설정된 적어도 하나의 주요 평가 자질 각각에 따른 스코어를 추출하는 평가 자질 추출부; 및 상기 추출된 스코어를 조합하여 상기 외국어 음성 신호에 대한 최종 평가 스코어를 산출하는 평가 스코어 산출부를 포함할 수 있다.
상기 음성 인식부는, 제 1 학습용 음성 신호를 인식하고, 상기 평가 자질 추출부는, 상기 제 1 학습용 음성 신호로부터 복수의 평가 자질 각각에 따른 스코어를 추출하되, 상기 외국어 발음 평가 장치는, 상기 복수의 평가 자질 각각에 따른 제 1 학습용 음성 신호의 스코어와 상기 제 1 학습용 음성 신호의 수동 평가 스코어를 회귀 분석 방법에 적용하여 복수의 평가 자질에 대한 평가 모델을 구성하고, 상기 평가 모델에 주요 자질 선택 알고리즘을 적용하여 상기 복수의 평가 자질 중 상기 적어도 하나의 주요 평가 자질을 선택하는 학습부를 더 포함할 수 있다.
본 발명의 일 실시예에 따른 외국어 발음 평가 장치 및 방법이 달성할 수 있는 일부의 효과는 다음과 같다.
i) 외국어 학습자의 발음을 정확하게 평가할 수 있다.
ii) 학습자의 발화 특성에 부합하는 평가 모델을 구성함으로써, 발음 평가의 신뢰성을 향상시킬 수 있다.
다만, 본 발명의 일 실시예에 따른 외국어 발음 평가 장치 및 방법이 달성할 수 있는 효과는 이상에서 언급한 것들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 발명의 일 실시예에 따른 외국어 발음 평가 방법을 설명하기 위한 순서도이다.
도 2는 본 발명의 일 실시예에서 개시하고 있는 복수의 평가 자질을 나타내는 표이다.
도 3은 발화된 외국어 음성의 발음이 본 발명의 일 실시예에 따라 평가되는 과정을 나타내는 예시적인 도면이다.
도 4는 본 발명의 일 실시예에 따른 학습 과정을 설명하기 위한 순서도이다.
도 5는 복수의 평가 자질 조합을 나타내는 표이다.
도 6은 복수의 평가 자질 조합 각각에 대응하는 평가 모델의 성능을 비교하기 위한 표이다.
도 7은 최적의 평가 자질 조합에 대응하는 평가 모델의 성능과 주요 자질 선택 알고리즘에 따라 구성된 최종 평가 모델의 성능을 비교하기 위한 표이다.
도 8은 도 7에 도시된 BSS 알고리즘에 따라 선택된 주요 평가 자질을 나타내는 예시적인 도면이다.
도 9는 본 발명의 일 실시예에 따른 외국어 발음 평가 장치의 구성을 나타내는 블록도이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고, 이를 상세한 설명을 통해 상세히 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명은 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
본 발명을 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 본 명세서의 설명 과정에서 이용되는 숫자(예를 들어, 제 1, 제 2 등)는 하나의 구성요소를 다른 구성요소와 구분하기 위한 식별기호에 불과하다.
또한, 본 명세서에서, 일 구성요소가 다른 구성요소와 "연결된다" 거나 "접속된다" 등으로 언급된 때에는, 상기 일 구성요소가 상기 다른 구성요소와 직접 연결되거나 또는 직접 접속될 수도 있지만, 특별히 반대되는 기재가 존재하지 않는 이상, 중간에 또 다른 구성요소를 매개하여 연결되거나 또는 접속될 수도 있다고 이해되어야 할 것이다.
또한, 본 명세서에서 '~부(유닛)', '모듈' 등으로 표현되는 구성요소는 2개 이상의 구성요소가 하나의 구성요소로 합쳐지거나 또는 하나의 구성요소가 보다 세분화된 기능별로 2개 이상으로 분화될 수도 있다. 또한, 이하에서 설명할 구성요소 각각은 자신이 담당하는 주기능 이외에도 다른 구성요소가 담당하는 기능 중 일부 또는 전부의 기능을 추가적으로 수행할 수도 있으며, 구성요소 각각이 담당하는 주기능 중 일부 기능이 다른 구성요소에 의해 전담되어 수행될 수도 있음은 물론이다.
이하에서는, 도면을 참조하여 본 발명의 기술적 사상에 따른 예시적인 실시예들에 대해 설명한다.
도 1은 본 발명의 일 실시예에 따른 외국어 발음 평가 방법을 설명하기 위한 순서도이다.
도 1에 도시된 각 단계는 본 발명의 일 실시예에 따른 외국인 발음 평가 장치에 의해 수행될 수 있는데, 본 발명의 일 실시예에 따른 외국인 발음 평가 장치는 마이크를 통해 학습자로부터 발화된 음성 신호를 인식하여 발음 평가를 수행할 수 있는 데스크탑 PC, 노트북, 스마트폰, 테블릿 PC, 스마트워치 등의 다양한 종류의 기기를 포함할 수 있다. 또는, 구현예에 따라서는 본 발명의 일 실시예에 따른 외국인 발음 평가 장치는 웹 서버로 구현될 수 있으며, 이 경우, 외국인 발음 평가 장치는 학습자의 단말로부터 외국어 음성 신호를 네트워크를 통해 수신하여 발음 평가를 수행할 수도 있다.
S110 단계에서, 외국인 발음 평가 장치는 학습자에 의해 발화된 외국어 음성 신호를 인식한다. 외국어 음성 신호는 제 1 언어를 모국어로 하는 학습자가 제 1 언어와 상이한 제 2 언어로 발화한 음성 신호를 의미할 수 있다.
본 발명의 일 실시예에서 외국인 발음 평가 장치는 네이티브 스피커(native speaker)에 의해 발화된 음성 신호로 모델링된 음성 인식기로 외국어 음성 신호를 인식할 수 있다.
S120 단계에서, 외국인 발음 평가 장치는 인식된 음성 신호로부터 복수의 평가 자질 중 기 설정된 적어도 하나의 주요 평가 자질 각각에 따른 스코어를 추출한다.
본 발명의 일 실시예에서 개시하고 있는 복수의 평가 자질은 도 2에 도시되어 있다.
도 2에 도시된 각 평가 자질(220)은 기존 논문 등에서 음성 평가를 위한 인자로 이용하고 있는 것들로서, 본 발명의 일 실시예에서는 총 23개의 평가 자질(220)을 이용하고 있으나, 이에 한정되는 것은 아니다.
다양한 평가 자질(220)들이 예를 들어, 참고 문헌 [1], [2], [3] 등에서 이용되고 있다. 이들 평가 자질(220)들은 음성(speech)을 폰들(phones)로 분할함으로써 유도될 수 있다.
예를 들어, 참고 문헌 [2]에 따르면, rate of speech(ROS)는 음성 폰들의 개수와 전체 듀레이션(duration) 사이의 비율로서 정의된다. 또한, 참고 문헌 [3]에 의하면, Articulation rate(AR)은 폰들의 개수와 인터벌 휴지(pause)를 제외한 음성의 듀레이션 사이의 비율로서 정의되고, Phone time ratio(PTR)은 인터벌 휴지를 제외한 음성의 듀레이션과 전체 듀레이션 사이의 비율로서 정의된다. 또한, 참고 문헌 [5]에서 Goodness of Pronunciation(GOP)는 발음 평가를 위해 사용되는데, GOP는 아래의 수학식에 기초하여 계산될 수 있다.
[수학식]
Figure 112016063247856-pat00001
위 수학식에서 Ni는 어쿠스틱 세그먼트 Oi를 구성하는 프레임의 개수를 의미하고, p(Oi|qi)는 폰 qi가 주어졌을 때 Oi를 관찰할 확률을 의미한다. 참고 문헌 [5]에 의하면, GOP 스코어는 음성의 강제 정렬(forced alignment) 및 인식(recognition)으로부터 계산된다.
본 발명의 일 실시예에서는 도 2에 도시된 각 평가 자질(220)들 중 학습 단계에서 결정된 주요 평가 자질 각각에 대한 스코어를 추출한다. 즉, 모든 평가 자질들에 따른 스코어를 고려하는 것이 아니라, 이들 평가 자질들 중 학습자의 발화 특성을 평가하는데 보다 적절한 주요 평가 자질을 선정하는 것이다.
한편, 도 2에 도시된 바와 같이, 본 발명의 일 실시예에서는 복수의 평가 자질(220)들을 그들의 특성에 따라 4개의 그룹(210), 즉, GOP 그룹, RATE 그룹, SEGMENT 그룹, SILENCE 그룹으로 분류한다. 각 그룹(210)은 적어도 하나의 평가 자질을 포함하고 있으며, 후술하는 바와 같이, 이들 그룹을 다양하게 조합함으로써, 최적의 평가 자질 조합을 선정할 수 있다.
다시 도 1을 참조하면, S130 단계에서, 외국어 발음 평가 장치는 추출된 스코어를 조합하여 외국어 음성 신호에 대한 최종 평가 스코어를 산출한다. 외국어 발음 평가 장치는 최종 평가 스코어를 산출할 때, 학습 단계에서 회귀(regression) 분석 방법에 따라 모델링된 최종 평가 모델에 각 주요 평가 자질 별 스코어를 적용하여 최종 평가 스코어를 산출할 수 있다. 상기 회귀 분석 방법은, Neural network regression, support vector regression 또는 Partial least squares regression 등의 다양한 회귀 분석 방법을 포함할 수 있다.
도 3은 발화된 외국어 음성의 발음이 본 발명의 일 실시예에 따라 평가되는 과정을 나타내는 예시적인 도면이다.
도 3에 도시된 바와 같이, '북풍은 힘껏…'이라는 외국어 음성이 학습자에 의해 발화되면, 외국어 발음 평가 장치는 외국어 음성 신호를 인식하고, 인식된 외국어 음성 신호에서 기 설정된 주요 자질들에 대한 스코어(310)를 추출한다. 외국어 발음 평가 장치는 외국어 음성 신호를 인식하기 위해 예를 들어, 네이티브 스피커의 음향으로 모델링된 음성 인식기를 이용할 수 있다. 또한, 도 3에 도시된 바와 같이, 기 설정된 주요 평가 자질들은 PTR, Silpsec, Secpchk, ROS, Wpsec, Wdpchk, Secpchkmeandev, GOP를 포함할 수 있으며, 평가 자질 추출에 따라 이들 주요 자질들 각각에 대한 스코어(310)가 산출된다.
외국어 발음 평가 장치는 이들 스코어(310) 각각에, 학습 단계에서 회귀 분석 방법에 따라 구성된 최종 평가 모델의 가중치(또는 회귀 계수)(320)를 곱한 후, 곱한 결과를 합산하여 최종 평가 스코어를 산출할 수 있다.
도 4는 본 발명의 일 실시예에 따른 학습 과정을 설명하기 위한 순서도이다.
S410 단계에서, 외국어 발음 평가 장치는 제 1 학습용 음성 신호를 인식한다. 제 1 학습용 음성 신호는 평가 모델을 구성하기 위한 학습용 데이터이다. 본 발명에 따른 실험에서는 영어, 중국어, 일본어 및 한국어를 모국어로 하는 140명의 발화자의 840 문장을 제 1 학습용 음성 신호로 이용하였다.
S420 단계에서, 외국어 발음 평가 장치는 제 1 학습용 음성 신호로부터 복수의 평가 자질 각각에 따른 스코어를 추출한다. 외국어 발음 평가 장치는 복수의 평가 자질 각각에 따른 스코어를 산출하기 위해 제 1 학습용 음성 신호에 기존 논문 등에서 이용되는 강제 정렬(forced-alignment) 알고리즘 및 인식(recognition) 알고리즘 중 적어도 하나를 제 1 학습용 음성 신호에 적용할 수 있다.
S430 단계에서, 외국어 발음 평가 장치는 상기 추출된 복수의 평가 자질 각각에 따른 스코어와 제 1 학습용 음성 신호에 대해 사람(예를 들어, 네이티브 스피커)에 의해 미리 책정된 수동 평가 스코어를 회귀 분석 방법에 적용하여 복수의 평가 자질에 대한 평가 모델을 구성한다. 예를 들어, 외국어 발음 평가 장치는 복수의 평가 자질 각각에 따른 스코어를 설명 변수로 하고, 수동 평가 스코어를 반응 변수로 하여, 설명 변수가 반응 변수에 미치는 영향을 나타내는 평가 모델을 구성할 수 있다. 평가 모델을 구성함에 따라, 각 평가 자질에 대한 가중치(또는 회귀 계수)가 도출될 수 있다.
S440 단계에서, 외국어 발음 평가 장치는 상기 구성된 평가 모델에 주요 자질 선택 알고리즘, 예를 들어, PCR(Principal Component Regression) 알고리즘, BSS(Best subset selection) 알고리즘 및 LASSO 알고리즘 중 적어도 하나를 적용하여, 복수의 평가 자질 중 적어도 하나의 주요 평가 자질을 선택한다.
PCR 알고리즘은 서로 간에 상관성이 큰 평가 자질들로부터 선형적으로 상관성이 없는(uncorrelated) 주요 평가 자질을 선택한다. 또한, BBS 알고리즘은 베이시안 정보 기준(Bayesian information criterion)을 최소화하는 평가 자질 세트를 주요 평가 자질로 선택한다. 또한, LASSO 알고리즘은 선형회귀모델의 잔차 제곱합(Residual Sum of Squares)에 벌점(penalty)를 가산한 값을 최소화하는 평가 자질 세트를 주요 자질로 선택한다. 벌점을 증가시킬수록 변수들의 가중치가 점차 0이 됨으로써, 결과적으로 주요 평가 자질을 선택하는 기능을 수행한다.
복수의 평가 자질은 서로 간의 상관성이 크므로, 서로 간에 상관성이 적으면서 반응 변수에 미치는 영향이 큰 주요 평가 자질을 선택하여 발음 평가의 정확성을 향상시키는 것이다.
외국어 발음 평가 장치는 주요 평가 자질이 선택되면, 복수의 평가 자질에 대응하는 평가 모델로부터 주요 평가 자질에 대응하는 최종 평가 모델을 구성할 수 있다.
즉, 도 4에 도시된 학습 단계에서는, 제 1 학습용 음성 신호에 대한 수동 평가 스코어와 가장 유사한 스코어를 도출하게 하는 주요 평가 자질의 평가 모델을 구성함으로써, 평가의 정확성 및 신뢰성을 향상시킬 수 있다.
도 4에서는 복수의 평가 자질 중에서 주요 평가 자질을 선택하는 내용에 대해 설명하였는데, 구현예에 따라서는 외국어 발음 평가 장치는 복수의 평가 자질을 복수의 평가 자질 조합으로 클러스터링하고, 각각의 평가 자질 조합에 대응하는 평가 모델들 중 성능이 가장 우수한 평가 모델을 선정한 후, 선정된 평가 모델에서 주요 평가 자질을 선택할 수도 있다. 이에 대해서는 도 5 및 도 6을 참조하여 설명한다.
도 5는 복수의 평가 자질 조합을 나타내는 표이고, 도 6은 복수의 평가 자질 조합 각각에 대응하는 평가 모델의 성능을 비교하기 위한 표이다.
도 5는 총 15개의 평가 자질 조합을 도시하고 있는데, 도 5에 도시된 평가 자질 조합들은 하나의 예시일 뿐이며, 평가 자질 조합은 다양하게 구성될 수 있다.
외국어 발음 평가 장치는 먼저, 제 1 학습용 음성 신호를 인식하고, 인식된 제 1 학습용 음성 신호로부터 평가 자질 조합 각각에 포함된 평가 자질에 따른 스코어를 추출한다. 예를 들어, 조합 1은 GOP 그룹만을 포함하고 있으므로, 조합 1에 대해 GOP에 따른 스코어를 추출하고, 조합 2-1은 SILENCE 그룹과 GOP 그룹만을 포함하고 있으므로, SILENCE 그룹과 GOP 그룹에 포함된 평가 자질에 따라 스코어를 추출한다.
다음으로, 외국어 발음 평가 장치는 평가 자질 조합 각각의 스코어와, 제 1 학습용 음성 신호의 수동 평가 점수를 회귀 분석 방법에 적용하여 복수의 평가 자질 조합 각각에 대한 평가 모델을 구성한다. 예를 들어, 조합 1의 경우는 GOP 그룹에 포함된 평가 자질을 설명 변수로 하고, 수동 평가 점수를 반응 변수로 하여 평가 모델을 구성하고, 조합 2-1의 경우는 SILENCE 그룹 및 GOP 그룹에 포함된 평가 자질을 설명 변수로 하고, 수동 평가 점수를 반응 점수로 하여 평가 모델을 구성할 수 있다.
다음으로, 외국어 발음 평가 장치는 제 2 학습용 음성 신호를 인식한다. 제 2 학습용 음성 신호는 각 평가 자질 조합의 평가 모델의 성능을 비교하기 위한 테스트 데이터이다. 본 발명에 따른 실험에서는 제 2 학습용 음성 신호로서 영어, 중국어, 일본어, 몽골어, 러시아를 모국어로 하는 25명의 발화자의 150개의 문장을 이용하였다.
외국어 발음 평가 장치는 제 2 학습용 음성 신호로부터 각 평가 자질 조합에 대응시켜 평가 자질에 따른 스코어를 추출한다. 예를 들어, 조합 1에 대해서는 제 2 학습용 음성 신호로부터 GOP 그룹에 포함된 평가 자질에 따른 스코어를 추출하고, 조합 2-1에 대해서는 제 2 학습용 음성 신호로부터 SILENCE 그룹과 SOP 그룹에 포함된 평가 자질에 따른 스코어를 추출하는 것이다.
다음으로, 외국어 발음 평가 장치는 각 평가 자질 조합에 따라 추출된 스코어를 각 평가 자질 조합의 평가 모델에 적용하여 각 평가 모델 별 평가 점수를 산출한다.
마지막으로, 외국어 발음 평가 장치는 각 평가 모델 별 평가 점수와 제 2 학습용 음성 신호의 수동 평가 점수의 상관성(correlation)에 기초하여 평가 모델들 중 최적의 평가 모델을 선정할 수 있다.
도 6은 도 5에 도시된 제 2 학습용 음성 신호를 각 평가 자질 조합의 평가 모델에 적용하여 산출된 평가 점수와, 제 2 학습용 음성 신호의 수동 평가 점수 사이의 상관도(correlation)을 나타내고 있다. 도 6에 도시된 바와 같이, 본 발명에 따른 실험에서는 SILENCE 그룹, SEGMENT 그룹, RATE 그룹 및 GOP 그룹을 모두 포함한 평가 자질 조합에서의 상관도(0.889)가 가장 높다는 것을 알 수 있었다. 다만, 도 6의 결과는 본 발명에 따른 실험에서의 결과이므로, 발화자의 모국어가 무엇인지에 따라 상관도가 가장 높은 평가 모델은 상이해질 수 있다.
앞서 설명한 바와 같이, 외국어 발음 평가 방법은 최적의 평가 자질 조합에 대응하는 평가 모델에 주요 자질 선택 알고리즘을 적용하여 주요 평가 자질을 선택할 수 있다.
도 7은 SILENCE 그룹, SEGMENT 그룹, RATE 그룹 및 GOP 그룹을 모두 포함한 평가 자질 조합의 평가 모델의 성능과, 이 평가 모델에 주요 자질 선택 알고리즘을 적용하여 도출된 최종 평가 모델의 성능을 비교하기 위한 표이다.
도 7에 도시된 바와 같이, SILENCE 그룹, SEGMENT 그룹, RATE 그룹 및 GOP 그룹을 모두 포함한 평가 자질 조합의 평가 모델의 경우에는 수동 평가 점수와의 상관도가 0.889이지만, 해당 평가 모델에 PCR 알고리즘을 적용하여 도출되는 최종 평가 모델은 상관도가 0.890이고, 평가 모델에 BSS 알고리즘을 적용하여 도출되는 최종 평가 모델은 상관도가 0.895로서 그 정확성이 더 향상된 것을 알 수 있다. 외국어 발음 평가 방법은 여러 주요 자질 선택 알고리즘 중 성능이 가장 우수한, 즉, 평가 모델의 상관도가 가장 높게 나타나게 하는 알고리즘을 이용하여 최종 평가 모델을 구성할 수 있다.
도 8은 도 7에 도시된 BSS 알고리즘에 따라 선택된 주요 평가 자질을 나타내는 예시적인 도면으로서, SILENCE 그룹, SEGMENT 그룹, RATE 그룹 및 GOP 그룹을 모두 포함한 평가 자질 조합의 평가 모델에 BSS 알고리즘을 적용하면 주요 평가 자질로서, PTR, Silpsec, Secpchk, ROS, Wpsec, Wdpchk, Secpchkmeandev 및 GOP가 선택될 수 있다.
도 9는 본 발명의 일 실시예에 따른 외국어 발음 평가 장치(900)의 구성을 나타내는 블록도이다.
도 9를 참조하면, 본 발명의 일 실시예에 따른 외국어 발음 평가 장치(900)는 음성 인식부(910), 평가 자질 추출부(930), 평가 스코어 산출부(950) 및 메모리(970)를 포함할 수 있다. 음성 인식부(910), 평가 자질 추출부(930), 평가 스코어 산출부(950) 및 메모리(970)는 적어도 하나의 프로세서로 구현될 수 있으며, 메모리(970)에 저장된 프로그램에 따라 동작할 수 있다.
음성 인식부(910)는 외국어 음성 신호를 인식한다. 음성 인식부(910)는 네이티브 스피커의 음향 모델로 모델링이 될 수 있다.
평가 자질 추출부(930)는 인식된 음성 신호로부터 복수의 평가 자질 중 기 설정된 적어도 하나의 주요 평가 자질 각각에 따른 스코어를 추출한다.
평가 스코어 산출부(950)는 추출된 스코어를 조합하여 외국어 음성 신호에 대한 최종 평가 스코어를 산출한다.
메모리(970)는 평가 자질 추출부(950)에 의해 추출되어야 할 주요 평가 자질에 대한 정보 및 최종 평가 스코어의 산출을 위한 최종 평가 모델에 대한 정보를 저장하고 있을 수 있다.
전술한 바와 같이, 메모리(970)에 저장된 주요 평가 자질에 대한 정보 및 최종 평가 모델은 학습 단계에서 도출되는 정보들인데, 이들 정보들은 관리자 또는 외부 장치로부터 외국어 발음 평가 장치(900)에 입력될 수 있다. 구현예에 따라서는, 외국어 발음 평가 장치(900)는 제 1 학습용 음성 신호, 또는 제 1 학습용 음성 신호와 제 2 학습용 음성 신호를 기초로 직접 학습하여 학습된 결과를 메모리(970)에 저장하는 학습부(미도시)를 더 포함할 수도 있다.
또한, 도시되지는 않았지만, 외국어 발음 평가 장치(900)는 평가 결과 산출되는 최종 평가 스코어를 출력하는 출력부를 더 포함할 수 있다. 출력부는 디스플레이, 스피커, 프린터 등으로 구현되어 상기 최종 평가 스코어를 출력할 수 있으며, 또는 출력부는 통신부로 구성되어 최종 평가 스코어를 학습자의 단말로 네트워크를 통해 전송할 수도 있다.
구현예에 따라서는, 외국어 발음 평가 장치(900)는 외국어 음성 신호를 음성 인식부(910)가 인식하기 전 또는 후에 외국어 음성 신호를 발화한 학습자의 모국어에 대한 정보를 획득할 수도 있다. 이 경우, 외국어 발음 평가 장치(900)는 해당 학습자를 평가하기에 적합한 것으로 미리 설정된 주요 평가 자질에 대한 정보와 최종 평가 모델을 추출하여 외국어 음성 신호를 평가할 수 있다. 예를 들어, 일본어를 모국어를 하는 학습자의 외국어 음성 신호에 대해서는 제 1 주요 평가 자질과 제 1 최종 평가 모델을 추출하여 해당 외국어 음성 신호를 평가하고, 중국어를 모국어로 하는 학습자의 외국어 음성 신호에 대해서는 상기 제 1 주요 평가 자질 및 제 1 최종 평가 모델과 상이한 제 2 주요 평가 자질과 제 2 최종 평가 모델을 추출하여 해당 외국어 음성 신호를 평가하는 것이다.
이상 설명한 바와 같이, 본 발명의 일 실시예에 따른 외국어 발음 평가 장치 및 방법은 학습자의 발화 특성에 부합하는 평가 모델을 구성함으로써 외국어 학습자의 발음을 정확하고 신뢰성 있게 평가할 수 있다.
한편, 상술한 본 발명의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 작성된 프로그램은 매체에 저장될 수 있다.
상기 매체는 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. 또한, 매체는 단일 또는 수개 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 애플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다.
첨부된 도면을 참조하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.
900: 외국어 발음 평가 장치
910: 음성 인식부
930: 평가 자질 추출부
950: 평가 스코어 산출부
970: 메모리

Claims (11)

  1. 복수의 평가 자질 각각에 따른 제 1 학습용 음성 신호의 스코어와 상기 제 1 학습용 음성 신호의 수동 평가 스코어를 회귀 분석 방법에 적용하여 복수의 평가 자질에 대한 평가 모델을 구성하는 단계;
    상기 평가 모델에 주요 자질 선택 알고리즘을 적용하여 상기 복수의 평가 자질 중 적어도 하나의 주요 평가 자질을 선택하는 단계;
    발화된 외국어 음성 신호를 인식하는 단계;
    상기 인식된 음성 신호로부터 상기 선택된 적어도 하나의 주요 평가 자질 각각에 따른 스코어를 추출하는 단계; 및
    상기 추출된 스코어를 조합하여 상기 외국어 음성 신호에 대한 최종 평가 스코어를 산출하는 단계를 포함하는 것을 특징으로 하는, 외국어 발음 평가 장치에 의한 외국어 발음 평가 방법.
  2. 제1항에 있어서,
    상기 최종 평가 스코어를 산출하는 단계는,
    학습 단계에서 회귀 분석 방법에 따라 모델링된 최종 평가 모델에 상기 스코어를 적용하여 상기 최종 평가 스코어를 산출하는 단계를 포함하는 것을 특징으로 하는 외국어 발음 평가 방법.
  3. 삭제
  4. 제1항에 있어서,
    상기 주요 자질 선택 알고리즘은,
    PCR(Principal Component Regression) 알고리즘, BSS(Best subset selection) 알고리즘 및 LASSO 알고리즘 중 적어도 하나를 포함하는 것을 특징으로 하는 외국어 발음 평가 방법.
  5. 복수의 평가 자질을 복수의 평가 자질 조합으로 클러스터링하는 단계;
    상기 복수의 평가 자질 조합별 제 1 학습용 음성 신호의 스코어와 상기 제 1 학습용 음성 신호의 수동 평가 스코어를 회귀 분석 방법에 적용하여 복수의 평가 자질 조합별 평가 모델을 구성하는 단계;
    각 그룹별 평가 모델에 제 2 학습용 음성 신호를 적용하여 도출되는 스코어와 상기 제 2 학습용 음성 신호의 수동 평가 스코어 사이의 관련성에 기초하여, 상기 평가 자질 조합 중 최적의 평가 자질 조합을 선정하는 단계;
    상기 최적의 평가 자질 조합의 평가 모델에 주요 자질 선택 알고리즘을 적용하여 상기 최적의 평가 자질 조합에 포함된 평가 자질 중 적어도 하나의 주요 평가 자질을 선택하는 단계;
    발화된 외국어 음성 신호를 인식하는 단계;
    상기 인식된 음성 신호로부터 상기 선택된 적어도 하나의 주요 평가 자질 각각에 따른 스코어를 추출하는 단계; 및
    상기 추출된 스코어를 조합하여 상기 외국어 음성 신호에 대한 최종 평가 스코어를 산출하는 단계를 포함하는 것을 특징으로 하는 외국어 발음 평가 방법.
  6. 제5항에 있어서,
    상기 복수의 평가 자질은,
    복수의 평가 자질 그룹으로 구분되되,
    상기 평가 자질 조합은, 적어도 하나의 평가 자질 그룹의 조합인 것을 특징으로 하는 외국어 발음 평가 방법.
  7. 제1항에 있어서,
    상기 스코어를 추출하는 단계는,
    상기 인식된 음성 신호를 강제 정렬(forced alignment) 알고리즘 및 인식 알고리즘 중 적어도 하나를 적용하여 기 설정된 적어도 하나의 주요 평가 자질 각각에 따른 스코어를 추출하는 단계를 포함하는 것을 특징으로 하는 외국어 발음 평가 방법.
  8. 제1항에 있어서,
    상기 외국어 발음 평가 방법은,
    상기 산출된 최종 평가 스코어를 출력하는 단계를 더 포함하는 것을 특징으로 하는 외국어 발음 평가 방법.
  9. 하드웨어와 결합하여 제1항, 제2항, 제4항 내지 제8항 중 어느 하나의 항의 외국어 발음 평가 방법을 실행시키기 위하여 매체에 저장된 프로그램.
  10. 제 1 학습용 음성 신호 및 발화된 외국어 음성 신호를 인식하는 음성 인식부;
    상기 제 1 학습용 음성 신호로부터 복수의 평가 자질 각각에 따른 스코어를 추출하는 평가 자질 추출부;
    상기 복수의 평가 자질 각각에 따른 제 1 학습용 음성 신호의 스코어와 상기 제 1 학습용 음성 신호의 수동 평가 스코어를 회귀 분석 방법에 적용하여 복수의 평가 자질에 대한 평가 모델을 구성하고, 상기 평가 모델에 주요 자질 선택 알고리즘을 적용하여 상기 복수의 평가 자질 중 적어도 하나의 주요 평가 자질을 선택하는 학습부; 및
    상기 평가 자질 추출부에 의해 추출된, 상기 인식된 외국어 음성 신호에 대한 상기 적어도 하나의 주요 평가 자질 각각에 따른 스코어를 조합하여 상기 외국어 음성 신호에 대한 최종 평가 스코어를 산출하는 평가 스코어 산출부를 포함하는 것을 특징으로 하는 외국어 발음 평가 장치.
  11. 삭제
KR1020160082178A 2016-06-30 2016-06-30 외국어 발음 평가 장치 및 방법 KR101818758B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160082178A KR101818758B1 (ko) 2016-06-30 2016-06-30 외국어 발음 평가 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160082178A KR101818758B1 (ko) 2016-06-30 2016-06-30 외국어 발음 평가 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20180002981A KR20180002981A (ko) 2018-01-09
KR101818758B1 true KR101818758B1 (ko) 2018-02-28

Family

ID=61000602

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160082178A KR101818758B1 (ko) 2016-06-30 2016-06-30 외국어 발음 평가 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101818758B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102405648B1 (ko) * 2021-01-18 2022-06-08 주식회사 아이포트폴리오 2중 음성 인식 모델을 이용한 발음 오류 분석 장치 및 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102405648B1 (ko) * 2021-01-18 2022-06-08 주식회사 아이포트폴리오 2중 음성 인식 모델을 이용한 발음 오류 분석 장치 및 방법

Also Published As

Publication number Publication date
KR20180002981A (ko) 2018-01-09

Similar Documents

Publication Publication Date Title
Jin et al. Speech emotion recognition with acoustic and lexical features
Qian et al. Exploring ASR-free end-to-end modeling to improve spoken language understanding in a cloud-based dialog system
CN107195296B (zh) 一种语音识别方法、装置、终端及系统
US10074363B2 (en) Method and apparatus for keyword speech recognition
US11222627B1 (en) Exploring ASR-free end-to-end modeling to improve spoken language understanding in a cloud-based dialog system
US9704413B2 (en) Non-scorable response filters for speech scoring systems
US10490194B2 (en) Speech processing apparatus, speech processing method and computer-readable medium
Athanaselis et al. ASR for emotional speech: clarifying the issues and enhancing performance
US20130185070A1 (en) Normalization based discriminative training for continuous speech recognition
JP6440967B2 (ja) 文末記号推定装置、この方法及びプログラム
US9489864B2 (en) Systems and methods for an automated pronunciation assessment system for similar vowel pairs
Chen et al. Characterizing phonetic transformations and acoustic differences across English dialects
Qian et al. Bidirectional LSTM-RNN for Improving Automated Assessment of Non-Native Children's Speech.
JP5105943B2 (ja) 発話評価装置及び発話評価プログラム
Kopparapu Non-linguistic analysis of call center conversations
Ahsiah et al. Tajweed checking system to support recitation
US20150081301A1 (en) Biometric password security
Qian et al. Self-Adaptive DNN for Improving Spoken Language Proficiency Assessment.
JP7101057B2 (ja) 言語モデル学習装置およびそのプログラム、ならびに、単語推定装置およびそのプログラム
KR20210071713A (ko) 스피치 스킬 피드백 시스템
Qian et al. The University of Birmingham 2017 SLaTE CALL Shared Task Systems.
KR101818758B1 (ko) 외국어 발음 평가 장치 및 방법
Kumar et al. Automatic spontaneous speech recognition for Punjabi language interview speech corpus
JP2006084966A (ja) 発話音声の自動評定装置およびコンピュータプログラム
Brena et al. Automated evaluation of foreign language speaking performance with machine learning

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant