KR20200087623A - 외국어 교육을 위한 발음 정확도 평가 장치 및 방법 - Google Patents
외국어 교육을 위한 발음 정확도 평가 장치 및 방법 Download PDFInfo
- Publication number
- KR20200087623A KR20200087623A KR1020190004175A KR20190004175A KR20200087623A KR 20200087623 A KR20200087623 A KR 20200087623A KR 1020190004175 A KR1020190004175 A KR 1020190004175A KR 20190004175 A KR20190004175 A KR 20190004175A KR 20200087623 A KR20200087623 A KR 20200087623A
- Authority
- KR
- South Korea
- Prior art keywords
- phoneme
- learner
- pronunciation
- mouth
- pronunciation accuracy
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 21
- 238000011156 evaluation Methods 0.000 claims abstract description 62
- 238000004458 analytical method Methods 0.000 claims abstract description 29
- 238000010191 image analysis Methods 0.000 claims abstract description 11
- 230000033764 rhythmic process Effects 0.000 claims description 12
- 239000000284 extract Substances 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 9
- 238000005516 engineering process Methods 0.000 claims description 4
- 230000001815 facial effect Effects 0.000 claims description 2
- 230000002194 synthesizing effect Effects 0.000 claims 1
- 230000005236 sound signal Effects 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B19/00—Teaching not covered by other main groups of this subclass
- G09B19/06—Foreign languages
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/269—Analysis of motion using gradient-based methods
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B5/00—Electrically-operated educational appliances
- G09B5/06—Electrically-operated educational appliances with both visual and audible presentation of the material to be studied
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/69—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- Computational Linguistics (AREA)
- Entrepreneurship & Innovation (AREA)
- Signal Processing (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
본 발명은 외국어 교육을 위한 발음 정확도 평가 장치에 관한 것으로서, 보다 구체적으로는 발음 정확도 평가 장치로서, 학습자가 발음하는 음성 신호 및 상기 음성 신호를 발음하는 학습자의 영상을 입력받는 입력 모듈; 학습자의 음성 신호로부터 음소 시퀀스를 추출하는 음성 분석 모듈; 학습자의 영상에서 입모양 랜드마크를 인식하고, 인식된 입모양 랜드마크의 변화 시퀀스를 추출하는 영상 분석 모듈; 및 상기 음성 분석 모듈 및 영상 분석 모듈에서 추출된 상기 음성 신호의 음소 시퀀스 및 입모양 랜드마크의 변화 시퀀스를 이용하여 발음 정확도를 평가하는 평가 모듈을 포함하는 것을 그 구성상의 특징으로 한다.
또한, 본 발명은 외국어 교육을 위한 발음 정확도 평가 방법에 관한 것으로서, 보다 구체적으로는 발음 정확도 평가 방법으로서, (1) 학습자가 발음하는 음성 신호 및 상기 음성 신호를 발음하는 학습자의 영상을 입력받는 단계; (2) 학습자의 음성 신호로부터 음소 시퀀스를 추출하는 단계; (3) 학습자의 영상에서 입모양 랜드마크를 인식하고, 인식된 입모양 랜드마크의 변화 시퀀스를 추출하는 단계; 및 (4) 상기 단계 (2) 및 단계 (3)에서 추출된 상기 음성 신호의 음소 시퀀스 및 입모양 랜드마크의 변화 시퀀스를 이용하여 발음 정확도를 평가하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.
본 발명에서 제안하고 있는 외국어 교육을 위한 발음 정확도 평가 장치 및 방법에 따르면, 학습자의 음성 신호로부터 추출되며 발음의 리듬, 음도, 강세 등의 속성이 부여된 음소 시퀀스를 이용해 발음 정확도를 평가함으로써 세부적인 발음 특성을 효과적으로 반영하여 평가할 수 있고, 발음을 하는 학습자의 영상으로부터 입모양 랜드마크의 변화 시퀀스를 추출하여 원어민의 입모양과 비교함으로써 발음 정확도의 평가 결과에 대한 신뢰도를 향상시킬 수 있다.
또한, 본 발명에서 제안하고 있는 외국어 교육을 위한 발음 정확도 평가 장치 및 방법에 따르면, 원어민 발음과 학습자 발음 사이의 음성의 파형의 유사도 및 음소의 유사도 뿐 아니라, 속성이 부여된 음소 시퀀스 및 입모양 랜드마크의 변화 시퀀스를 종합적으로 반영하여 발음 정확도를 평가함으로써, 발음 정확도에 대한 신뢰도 높은 종합적인 평가 결과를 제공할 수 있고, 이를 통해 외국어 학습자가 문제점을 정확하게 인식하고 보완할 수 있도록 하며, 발음 정확도에 대한 가이드를 제시하여 학습 효과를 향상시킬 수 있다.
또한, 본 발명은 외국어 교육을 위한 발음 정확도 평가 방법에 관한 것으로서, 보다 구체적으로는 발음 정확도 평가 방법으로서, (1) 학습자가 발음하는 음성 신호 및 상기 음성 신호를 발음하는 학습자의 영상을 입력받는 단계; (2) 학습자의 음성 신호로부터 음소 시퀀스를 추출하는 단계; (3) 학습자의 영상에서 입모양 랜드마크를 인식하고, 인식된 입모양 랜드마크의 변화 시퀀스를 추출하는 단계; 및 (4) 상기 단계 (2) 및 단계 (3)에서 추출된 상기 음성 신호의 음소 시퀀스 및 입모양 랜드마크의 변화 시퀀스를 이용하여 발음 정확도를 평가하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.
본 발명에서 제안하고 있는 외국어 교육을 위한 발음 정확도 평가 장치 및 방법에 따르면, 학습자의 음성 신호로부터 추출되며 발음의 리듬, 음도, 강세 등의 속성이 부여된 음소 시퀀스를 이용해 발음 정확도를 평가함으로써 세부적인 발음 특성을 효과적으로 반영하여 평가할 수 있고, 발음을 하는 학습자의 영상으로부터 입모양 랜드마크의 변화 시퀀스를 추출하여 원어민의 입모양과 비교함으로써 발음 정확도의 평가 결과에 대한 신뢰도를 향상시킬 수 있다.
또한, 본 발명에서 제안하고 있는 외국어 교육을 위한 발음 정확도 평가 장치 및 방법에 따르면, 원어민 발음과 학습자 발음 사이의 음성의 파형의 유사도 및 음소의 유사도 뿐 아니라, 속성이 부여된 음소 시퀀스 및 입모양 랜드마크의 변화 시퀀스를 종합적으로 반영하여 발음 정확도를 평가함으로써, 발음 정확도에 대한 신뢰도 높은 종합적인 평가 결과를 제공할 수 있고, 이를 통해 외국어 학습자가 문제점을 정확하게 인식하고 보완할 수 있도록 하며, 발음 정확도에 대한 가이드를 제시하여 학습 효과를 향상시킬 수 있다.
Description
본 발명은 발음 정확도 평가 장치 및 방법에 관한 것으로서, 보다 구체적으로는 외국어 교육을 위한 발음 정확도 평가 장치 및 방법에 관한 것이다.
최근 들어, 산업의 전문화와 국제화 추세에 따라 외국어에 대한 중요성이 날로 커지고 있다. 이러한 중요성에 따라 많은 사람들이 외국어 학습에 많은 시간을 투자하고 있으며, 이에 발맞추어 다양한 온-오프라인 어학 강좌들이 개설되고 있다.
그러나 일반적으로 발음이나 발음에 대한 교정은 외국인 강사와의 1:1 지도 방식에 의해 이루어지고 있고, 이 경우 어학 학습에 많은 비용이 소요된다는 문제점이 있으며, 특별히 정해진 시간에 교육이 이루어지기 때문에 직장인 등과 같은 바쁜 일상생활을 영위하는 사람들에게는 그 학습에의 참여가 극히 제한적이라는 문제점이 있었다.
따라서, 유휴 시간에 혼자서도 효과적으로 외국어에 대한 발음 등을 학습하고, 원어민의 발음과 비교 평가하는 교육 프로그램 등을 필요로 하게 되었다. 이러한 요구에 부응하기 위하여 현재 음성 인식을 이용한 다양한 어학용 프로그램들을 탑재한 어학용 학습기가 개발되어 보급되고 있는 실정이다.
이와 같은 음성인식을 이용한 발음 평가는 다양한 영어 말하기 학습 프로그램에 적용되고 있다. 종래에 발음 정확도를 평가하는 기술은, 원어민 발음과 학습자 발음 사이의 음성의 파형의 유사도, 음의 최소 단위인 음소의 유사도를 이용하고 있다. 그러나 음성 파형의 경우 정확한 발음이더라도 개개인의 특성에 따라 파형이 달라 정확한 평가가 어려우며, 어학에 능통하더라도 원어민 개개인의 파형에 맞춰 발음할 수 없기 때문에 신뢰성에 문제가 있다. 또한, 음소 유사도의 경우, 문자나 기호 등으로 표현되는 음소에 대하여 원어민의 음소와 학습자의 음소를 비교하는 방식으로, 세부적인 발음 특성을 반영할 수 없으므로 정확도가 떨어지는 한계가 있다.
국제화 시대에 적합한 의사소통능력 향상을 위해서, 학습자의 외국어 발음은 매우 중요하다. 따라서 전술한 바와 같은 종래기술의 문제점을 해결하여 원어민의 발음을 더욱 정확하게 모사하고, 개선된 발음 정확도를 제공하기 위한 기술의 개발이 요구되고 있다.
한편, 본 발명과 관련된 선행기술로서, 공개특허 제10-2016-0107735호(발명의 명칭: 음성 인식 기반 발음 평가 방법 및 장치, 공개일자: 2016년 09월 19일), 공개특허 제10-2018-0048136호(발명의 명칭: 발음평가 방법 및 상기 방법을 이용하는 발음평가 시스템, 공개일자: 2018년 05월 10일) 등이 개시된 바 있다.
본 발명은 기존에 제안된 방법들의 상기와 같은 문제점들을 해결하기 위해 제안된 것으로서, 학습자의 음성 신호로부터 추출되며 발음의 리듬, 음도, 강세 등의 속성이 부여된 음소 시퀀스를 이용해 발음 정확도를 평가함으로써 세부적인 발음 특성을 효과적으로 반영하여 평가할 수 있고, 발음을 하는 학습자의 영상으로부터 입모양 랜드마크의 변화 시퀀스를 추출하여 원어민의 입모양과 비교함으로써 발음 정확도의 평가 결과에 대한 신뢰도를 향상시킬 수 있는, 외국어 교육을 위한 발음 정확도 평가 장치 및 방법을 제공하는 것을 그 목적으로 한다.
또한, 본 발명은, 원어민 발음과 학습자 발음 사이의 음성의 파형의 유사도 및 음소의 유사도 뿐 아니라, 속성이 부여된 음소 시퀀스 및 입모양 랜드마크의 변화 시퀀스를 종합적으로 반영하여 발음 정확도를 평가함으로써, 발음 정확도에 대한 신뢰도 높은 종합적인 평가 결과를 제공할 수 있고, 이를 통해 외국어 학습자가 문제점을 정확하게 인식하고 보완할 수 있도록 하며, 발음 정확도에 대한 가이드를 제시하여 학습 효과를 향상시킬 수 있는, 외국어 교육을 위한 발음 정확도 평가 장치 및 방법을 제공하는 것을 또 다른 목적으로 한다.
상기한 목적을 달성하기 위한 본 발명의 특징에 따른 외국어 교육을 위한 발음 정확도 평가 장치는,
발음 정확도 평가 장치로서,
학습자가 발음하는 음성 신호 및 상기 음성 신호를 발음하는 학습자의 영상을 입력받는 입력 모듈;
학습자의 음성 신호로부터 음소 시퀀스를 추출하는 음성 분석 모듈;
학습자의 영상에서 입모양 랜드마크를 인식하고, 인식된 입모양 랜드마크의 변화 시퀀스를 추출하는 영상 분석 모듈; 및
상기 음성 분석 모듈 및 영상 분석 모듈에서 추출된 상기 음성 신호의 음소 시퀀스 및 입모양 랜드마크의 변화 시퀀스를 이용하여 발음 정확도를 평가하는 평가 모듈을 포함하는 것을 그 구성상의 특징으로 한다.
바람직하게는, 상기 음성 분석 모듈은,
상기 음성 신호로부터 음소를 추출하는 음소 추출부; 및
상기 추출된 음소에 속성을 부여하여, 속성이 부여된 음소 시퀀스를 추출하는 음소 시퀀스 추출부를 포함할 수 있다.
더욱 바람직하게는, 상기 음소에 부여되는 속성은,
상기 음소의 리듬, 강세 및 음도를 포함할 수 있다.
더욱 바람직하게는, 상기 평가 모듈은,
상기 음소 추출부에서 추출한 음소를 더 이용하여 발음 정확도를 평가할 수 있다.
바람직하게는, 상기 영상 분석 모듈은,
안면 인식 기술을 이용해 상기 학습자의 안면이 촬영된 영상에서 입술 주위의 입모양 랜드마크를 인식할 수 있다.
바람직하게는,
원어민 발음에 대해 분석된 음성 파형, 음소, 입모양 랜드마크 데이터를 저장하는 데이터베이스 모듈을 더 포함하며,
상기 평가 모듈은, 상기 데이터베이스 모듈에 저장된 원어민 데이터와 상기 학습자의 음성 신호의 음성 파형, 음소 시퀀스 및 입모양 랜드마크를 비교하여, 발음 정확도를 평가할 수 있다.
더욱 바람직하게는, 상기 평가 모듈은,
상기 데이터베이스 모듈에 저장된 원어민 데이터와 상기 학습자의 음성 신호의 음성 파형, 음소 시퀀스 및 입모양 랜드마크를 각각 비교하여 유사도를 산출하며, 산출된 유사도를 종합하여 발음 정확도를 정량적으로 평가할 수 있다.
상기한 목적을 달성하기 위한 본 발명의 특징에 따른 외국어 교육을 위한 발음 정확도 평가 방법은,
발음 정확도 평가 방법으로서,
(1) 학습자가 발음하는 음성 신호 및 상기 음성 신호를 발음하는 학습자의 영상을 입력받는 단계;
(2) 학습자의 음성 신호로부터 음소 시퀀스를 추출하는 단계;
(3) 학습자의 영상에서 입모양 랜드마크를 인식하고, 인식된 입모양 랜드마크의 변화 시퀀스를 추출하는 단계; 및
(4) 상기 단계 (2) 및 단계 (3)에서 추출된 상기 음성 신호의 음소 시퀀스 및 입모양 랜드마크의 변화 시퀀스를 이용하여 발음 정확도를 평가하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.
본 발명에서 제안하고 있는 외국어 교육을 위한 발음 정확도 평가 장치 및 방법에 따르면, 학습자의 음성 신호로부터 추출되며 발음의 리듬, 음도, 강세 등의 속성이 부여된 음소 시퀀스를 이용해 발음 정확도를 평가함으로써 세부적인 발음 특성을 효과적으로 반영하여 평가할 수 있고, 발음을 하는 학습자의 영상으로부터 입모양 랜드마크의 변화 시퀀스를 추출하여 원어민의 입모양과 비교함으로써 발음 정확도의 평가 결과에 대한 신뢰도를 향상시킬 수 있다.
또한, 본 발명에서 제안하고 있는 외국어 교육을 위한 발음 정확도 평가 장치 및 방법에 따르면, 원어민 발음과 학습자 발음 사이의 음성의 파형의 유사도 및 음소의 유사도 뿐 아니라, 속성이 부여된 음소 시퀀스 및 입모양 랜드마크의 변화 시퀀스를 종합적으로 반영하여 발음 정확도를 평가함으로써, 발음 정확도에 대한 신뢰도 높은 종합적인 평가 결과를 제공할 수 있고, 이를 통해 외국어 학습자가 문제점을 정확하게 인식하고 보완할 수 있도록 하며, 발음 정확도에 대한 가이드를 제시하여 학습 효과를 향상시킬 수 있다.
도 1은 본 발명의 일실시예에 따른 외국어 교육을 위한 발음 정확도 평가 장치의 구성을 도시한 도면.
도 2는 본 발명의 일실시예에 따른 외국어 교육을 위한 발음 정확도 평가 장치의 발음 정확도 평가 과정을 설명하기 위해 도시한 도면.
도 3은 본 발명의 일실시예에 따른 외국어 교육을 위한 발음 정확도 평가 장치에서, 음석 분석 모듈의 세부적인 구성을 도시한 도면.
도 4는 본 발명의 일실시예에 따른 외국어 교육을 위한 발음 정확도 평가 방법의 흐름을 도시한 도면.
도 2는 본 발명의 일실시예에 따른 외국어 교육을 위한 발음 정확도 평가 장치의 발음 정확도 평가 과정을 설명하기 위해 도시한 도면.
도 3은 본 발명의 일실시예에 따른 외국어 교육을 위한 발음 정확도 평가 장치에서, 음석 분석 모듈의 세부적인 구성을 도시한 도면.
도 4는 본 발명의 일실시예에 따른 외국어 교육을 위한 발음 정확도 평가 방법의 흐름을 도시한 도면.
이하, 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 바람직한 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예를 상세하게 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. 또한, 유사한 기능 및 작용을 하는 부분에 대해서는 도면 전체에 걸쳐 동일한 부호를 사용한다.
덧붙여, 명세서 전체에서, 어떤 부분이 다른 부분과 ‘연결’ 되어 있다고 할 때, 이는 ‘직접적으로 연결’ 되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고 ‘간접적으로 연결’ 되어 있는 경우도 포함한다. 또한, 어떤 구성요소를 ‘포함’ 한다는 것은, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.
도 1은 본 발명의 일실시예에 따른 외국어 교육을 위한 발음 정확도 평가 장치의 구성을 도시한 도면이고, 도 2는 본 발명의 일실시예에 따른 외국어 교육을 위한 발음 정확도 평가 장치의 발음 정확도 평가 과정을 설명하기 위해 도시한 도면이다. 도 1 및 도 2에 도시된 바와 같이, 본 발명의 일실시예에 따른 외국어 교육을 위한 발음 정확도 평가 장치는, 입력 모듈(100), 음성 분석 모듈(200), 영상 분석 모듈(300) 및 평가 모듈(400)을 포함하여 구성될 수 있으며, 데이터베이스 모듈(500)을 더 포함하여 구성될 수 있다.
즉, 본 발명의 일실시예에 따른 외국어 교육을 위한 발음 정확도 평가 장치는, 입력 모듈(100)을 통해 학습자의 음성 신호와 음성 신호를 발음하는 학습자의 영상을 입력받고, 음성 분석 모듈(200)과 영상 분석 모듈(300)이 학습자의 음성 신호와 영상을 각각 분석하며, 평가 모듈(400)이 음성 분석 모듈(200) 및 영상 분석 모듈(300)에서 추출된 음소 시퀀스 및 입모양 랜드마크의 변화 시퀀스를 이용하여 발음 정확도를 평가할 수 있다.
특히, 본 발명에서는, 음성 분석 모듈(200)이 학습자의 음성 신호로부터 음소를 추출하고 리듬, 음도, 강세 등의 속성을 부여한 음소 시퀀스를 추출하여 이를 발음 정확도 평가에 이용하기 때문에, 세부적인 발음 특성을 효과적으로 반영하여 평가할 수 있다. 또한, 영상 분석 모듈(300)이 발음을 하는 학습자의 영상으로부터 입모양 랜드마크의 변화 시퀀스를 추출하여 원어민의 입모양과 비교함으로써 발음 정확도의 평가 결과에 대한 신뢰도를 향상시킬 수 있다.
이와 같이, 본 발명의 일실시예에 따른 외국어 교육을 위한 발음 정확도 평가 장치는, 종래에 발음 정확도 평가에 활용되던 원어민 발음과 학습자 발음 사이의 음성의 파형의 유사도 및 음소 자체의 유사도 뿐 아니라, 속성이 부여된 음소 시퀀스 및 입모양 랜드마크의 변화 시퀀스를 종합적으로 반영하여 발음 정확도를 평가함으로써, 발음 정확도에 대한 신뢰도 높은 종합적인 평가 결과를 제공할 수 있다.
이하에서는, 도 1 및 도 2를 참조하여 본 발명의 일실시예에 따른 외국어 교육을 위한 발음 정확도 평가 장치의 세부적인 구성에 대하여 상세히 설명하도록 한다.
입력 모듈(100)은, 학습자가 발음하는 음성 신호 및 음성 신호를 발음하는 학습자의 영상을 입력받을 수 있다. 학습자는 컴퓨터, 휴대단말기, 태블릿 PC, 어학용 학습기 등 각종 디바이스를 이용해 외국어 학습을 할 수 있는데, 도 2에 도시된 바와 같이, 입력 모듈(100)은 학습자의 디바이스에 내장되거나 디바이스에 연결된 마이크를 통해 음성 신호를, 카메라를 통해 영상을 각각 입력받을 수 있다.
음성 분석 모듈(200)은, 학습자의 음성 신호로부터 음소 시퀀스를 추출할 수 있다. 즉, 음성 분석 모듈(200)은, 입력 모듈(100)로부터 학습자가 발음하는 음성 신호를 전달받아 이를 분석함으로써 음소 시퀀스를 추출할 수 있다. 또한, 도 2에 도시된 바와 같이, 음성 분석 모듈(200)은, 학습자의 음성 신호로부터 음성 파형을 분석하고, 음소를 추출하여 추출한 음소에 음소 속성을 부여하여 음소 시퀀스를 추출할 수 있다. 이하에서는, 도 3을 참조하여 음성 분석 모듈(200)의 세부적인 구성에 대해서 상세히 설명하도록 한다.
도 3은 본 발명의 일실시예에 따른 외국어 교육을 위한 발음 정확도 평가 장치에서, 음석 분석 모듈의 세부적인 구성을 도시한 도면이다. 도 3에 도시된 바와 같이, 본 발명의 일실시예에 따른 외국어 교육을 위한 발음 정확도 평가 장치의 음석 분석 모듈은, 음소 추출부(210) 및 음소 시퀀스 추출부(220)를 포함하여 구성될 수 있다.
음소 추출부(210)는, 음성 신호로부터 음소를 추출할 수 있다. 음소는 음의 최소 단위로서 문자나 기호 등으로 표현되는데, 음소 추출부(210)는 학습자의 음성 신호를 음소로 분할함으로써 원어민의 발음 즉, 원어민이 발음한 음소와 세밀한 비교가 가능하도록 할 수 있다.
음소 시퀀스 추출부(220)는, 추출된 음소에 속성을 부여하여, 속성이 부여된 음소 시퀀스를 추출할 수 있다. 여기서, 음소에 부여되는 속성은, 음소의 리듬(개별 음소의 길이, Rhythm), 강세(Accent) 및 음도(Pitch)를 포함할 수 있다. 즉, 음소 시퀀스 추출부(220)는, 학습자의 음성 신호를 분석하여 개별 음소의 리듬, 강세, 음도 등을 음소 추출부(210)에서 추출된 음소에 부여하여 음소 시퀀스를 생성할 수 있다. 이와 같이 속성이 부여된 음소 시퀀스를 이용하면, 음소 자체 뿐 아니라 음소가 발음되는 리듬, 강세, 음도 등의 특성까지 발음 정확도 평가에 반영할 수 있다.
특히, 외국어에 따라서는, 동일한 음소로 이루어진 단어이더라도 각 음소가 발음되는 길이(리듬), 강세, 음도에 따라 그 의미가 상이해지기도 하고, 개별적인 음소가 덜 정확하더라도 리듬이나 강세만 정확하게 해도 발음이 훨씬 좋아지기도 한다. 따라서 본 발명에서는, 음소 시퀀스를 이용해 음소의 속성을 효과적으로 반영하여 학습자의 발음을 정확하게 평가할 수 있고, 학습자의 발음 정확도 향상에 큰 도움을 줄 수 있다.
영상 분석 모듈(300)은, 학습자의 영상에서 입모양 랜드마크를 인식하고, 인식된 입모양 랜드마크의 변화 시퀀스를 추출할 수 있다. 즉, 영상 분석 모듈(300)은, 입력 모듈(100)로부터 학습자가 음성 신호를 발음하는 영상을 전달받아, 안면 인식 기술을 이용해 학습자의 안면이 촬영된 영상에서 입술 주위의 입모양 랜드마크를 인식할 수 있으며, 인식된 입모양 랜드마크의 변화 시퀀스를 생성할 수 있다. 보다 구체적으로는, 외국어 발음 시 입술 주위의 특징이 되는 적어도 둘 이상의 부분을 입모양 랜드마크로 설정하고, 영상에 포함된 학습자의 안면에서 미리 설정된 입모양 랜드마크를 인식하여 그 변화 시퀀스를 추출함으로써, 학습자가 정확한 입모양으로 발음을 하고 있는지 판단할 수 있다.
정확한 입모양은 발음 정확도에 큰 영향을 미친다. 소리가 일부 유사하더라도 정확한 입모양을 하지 않으면 정확하게 발음이 되지 않으며, 해당 발음을 정확하게 알고 있다고 하기 어렵다. 따라서 본 발명에서는, 입모양 변화를 추적하여 이를 발음 정확도 평가에 반영함으로써, 발음 평가 신뢰도를 높이고 정확한 평가가 가능하도록 할 수 있다.
평가 모듈(400)은, 음성 분석 모듈(200) 및 영상 분석 모듈(300)에서 추출된 음성 신호의 음소 시퀀스 및 입모양 랜드마크의 변화 시퀀스를 이용하여 발음 정확도를 평가할 수 있다. 또한, 평가 모듈(400)은, 음소 추출부(210)에서 추출한 음소를 더 이용하여 발음 정확도를 평가할 수 있으며, 학습자의 음성 신호의 파형을 분석하여 발음 정확도 평가에 반영할 수도 있다.
즉, 평가 모듈(400)은, 기존의 방식인 원어민 발음과 학습자 발음 사이의 음성 파형의 유사도 및 음소의 유사도를 이용할 뿐 아니라, 본 발명의 특징인 속성이 부여된 음소 시퀀스 및 입모양 랜드마크의 변화 시퀀스를 종합적으로 반영하여 발음 정확도를 평가할 수 있다. 이와 같이, 음성 분석 모듈(200)이 분석한 학습자의 음성 파형, 음소 및 음소 시퀀스, 영상 분석 모듈(300)이 분석한 입모양 랜드마크의 변화 시퀀스를 통합적으로 활용하여 발음 정확도를 평가함으로써, 신뢰도 높고 종합적인 평가 결과를 제공할 수 있다.
데이터베이스 모듈(500)은, 원어민 발음에 대해 분석된 음성 파형, 음소, 입모양 랜드마크 데이터를 저장할 수 있다. 도 2에 도시된 바와 같이, 원어민의 음성 신호와 영상을 분석하여, 데이터베이스 모듈(500)에 원어민 발음에 대해 분석된 음성 파형(음성 파형 DB), 음소 및 음소에 부여된 속성(음소/속성 DB), 입모양 랜드마크(입모양 랜드마크 DB)를 저장하고, 평가 모듈(400)은 데이터베이스 모듈(500)에 저장된 원어민 데이터와 학습자의 음성 신호의 음성 파형, 음소, 음소 시퀀스 및 입모양 랜드마크를 비교하여 발음 정확도를 평가할 수 있다.
보다 구체적으로는, 평가 모듈(400)은, 데이터베이스 모듈(500)에 저장된 원어민 데이터와 학습자의 음성 신호의 음성 파형, 음소 시퀀스 및 입모양 랜드마크를 각각 비교하여 유사도를 산출하며, 산출된 유사도를 종합하여 발음 정확도를 정량적으로 평가할 수 있다. 이때, 산출되는 유사도는, 코사인 유사도(Cosine similarity), 유클리디언 거리(Euclidean distance), 마할라노비스 거리(Mahalanobis distance) 및 민코스키 거리(Minkowski distance)를 포함하는 군에서 선택된 적어도 어느 하나일 수 있다.
도 4는 본 발명의 일실시예에 따른 외국어 교육을 위한 발음 정확도 평가 방법의 흐름을 도시한 도면이다. 도 4에 도시된 바와 같이, 본 발명의 일실시예에 따른 외국어 교육을 위한 발음 정확도 평가 방법은, 발음 정확도 평가 장치에 의해 처리되며, 학습자가 발음하는 음성 신호 및 학습자의 영상을 입력받는 단계(S100), 음성 신호로부터 음소 시퀀스를 추출하는 단계(S200), 학습자의 영상에서 입모양 랜드마크를 인식하고 입모양 랜드마크의 변화 시퀀스를 추출하는 단계(S300) 및 음소 시퀀스 및 입모양 랜드마크의 변화 시퀀스를 이용하여 발음 정확도를 평가하는 단계(S400)를 포함하여 구현될 수 있다.
단계 S100에서는, 학습자가 발음하는 음성 신호 및 음성 신호를 발음하는 학습자의 영상을 입력받을 수 있다. 단계 S100은 발음 정확도 평가 장치의 입력 모듈(100)에 의해 처리될 수 있다.
단계 S200에서는, 학습자의 음성 신호로부터 음소 시퀀스를 추출할 수 있다. 단계 S200은 발음 정확도 평가 장치의 음성 분석 모듈(200)에 의해 처리될 수 있다.
단계 S300에서는, 학습자의 영상에서 입모양 랜드마크를 인식하고, 인식된 입모양 랜드마크의 변화 시퀀스를 추출할 수 있다. 단계 S300은 발음 정확도 평가 장치의 영상 분석 모듈(300)에 의해 처리될 수 있다.
단계 S400에서는, 단계 S200 및 단계 S300에서 추출된 음성 신호의 음소 시퀀스 및 입모양 랜드마크의 변화 시퀀스를 이용하여 발음 정확도를 평가할 수 있다. 단계 S400은 발음 정확도 평가 장치의 평가 모듈(400)에 의해 처리될 수 있다.
본 발명의 일실시예에 따른 외국어 교육을 위한 발음 정확도 평가 방법의 각 단계에 대한 구체적인 설명은, 본 발명의 일실시예에 따른 외국어 교육을 위한 발음 정확도 평가 장치에서 이미 설명하였으므로 생략하도록 한다.
본 발명에서 제안하고 있는 외국어 교육을 위한 발음 정확도 평가 장치 및 방법에 따르면, 학습자의 음성 신호로부터 추출되며 발음의 리듬, 음도, 강세 등의 속성이 부여된 음소 시퀀스를 이용해 발음 정확도를 평가함으로써 세부적인 발음 특성을 효과적으로 반영하여 평가할 수 있고, 발음을 하는 학습자의 영상으로부터 입모양 랜드마크의 변화 시퀀스를 추출하여 원어민의 입모양과 비교함으로써 발음 정확도의 평가 결과에 대한 신뢰도를 향상시킬 수 있다. 또한, 원어민 발음과 학습자 발음 사이의 음성의 파형의 유사도 및 음소의 유사도 뿐 아니라, 속성이 부여된 음소 시퀀스 및 입모양 랜드마크의 변화 시퀀스를 종합적으로 반영하여 발음 정확도를 평가함으로써, 발음 정확도에 대한 신뢰도 높은 종합적인 평가 결과를 제공할 수 있고, 이를 통해 외국어 학습자가 문제점을 정확하게 인식하고 보완할 수 있도록 하며, 발음 정확도에 대한 가이드를 제시하여 학습 효과를 향상시킬 수 있다.
이상 설명한 본 발명은 본 발명이 속한 기술분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.
100: 입력 모듈
200: 음성 분석 모듈
210: 음소 추출부(210)
220: 음소 시퀀스 추출부(220)
300: 영상 분석 모듈
400: 평가 모듈
500: 데이터베이스 모듈
S100: 학습자가 발음하는 음성 신호 및 학습자의 영상을 입력받는 단계
S200: 음성 신호로부터 음소 시퀀스를 추출하는 단계
S300: 학습자의 영상에서 입모양 랜드마크를 인식하고 입모양 랜드마크의 변화 시퀀스를 추출하는 단계
S400: 음소 시퀀스 및 입모양 랜드마크의 변화 시퀀스를 이용하여 발음 정확도를 평가하는 단계
200: 음성 분석 모듈
210: 음소 추출부(210)
220: 음소 시퀀스 추출부(220)
300: 영상 분석 모듈
400: 평가 모듈
500: 데이터베이스 모듈
S100: 학습자가 발음하는 음성 신호 및 학습자의 영상을 입력받는 단계
S200: 음성 신호로부터 음소 시퀀스를 추출하는 단계
S300: 학습자의 영상에서 입모양 랜드마크를 인식하고 입모양 랜드마크의 변화 시퀀스를 추출하는 단계
S400: 음소 시퀀스 및 입모양 랜드마크의 변화 시퀀스를 이용하여 발음 정확도를 평가하는 단계
Claims (8)
- 발음 정확도 평가 장치로서,
학습자가 발음하는 음성 신호 및 상기 음성 신호를 발음하는 학습자의 영상을 입력받는 입력 모듈(100);
학습자의 음성 신호로부터 음소 시퀀스를 추출하는 음성 분석 모듈(200);
학습자의 영상에서 입모양 랜드마크를 인식하고, 인식된 입모양 랜드마크의 변화 시퀀스를 추출하는 영상 분석 모듈(300); 및
상기 음성 분석 모듈(200) 및 영상 분석 모듈(300)에서 추출된 상기 음성 신호의 음소 시퀀스 및 입모양 랜드마크의 변화 시퀀스를 이용하여 발음 정확도를 평가하는 평가 모듈(400)을 포함하는 것을 특징으로 하는, 외국어 교육을 위한 발음 정확도 평가 장치.
- 제1항에 있어서, 상기 음성 분석 모듈(200)은,
상기 음성 신호로부터 음소를 추출하는 음소 추출부(210); 및
상기 추출된 음소에 속성을 부여하여, 속성이 부여된 음소 시퀀스를 추출하는 음소 시퀀스 추출부(220)를 포함하는 것을 특징으로 하는, 외국어 교육을 위한 발음 정확도 평가 장치.
- 제2항에 있어서, 상기 음소에 부여되는 속성은,
상기 음소의 리듬, 강세 및 음도를 포함하는 것을 특징으로 하는, 외국어 교육을 위한 발음 정확도 평가 장치.
- 제2항에 있어서, 상기 평가 모듈(400)은,
상기 음소 추출부(210)에서 추출한 음소를 더 이용하여 발음 정확도를 평가하는 것을 특징으로 하는, 외국어 교육을 위한 발음 정확도 평가 장치.
- 제1항에 있어서, 상기 영상 분석 모듈(300)은,
안면 인식 기술을 이용해 상기 학습자의 안면이 촬영된 영상에서 입술 주위의 입모양 랜드마크를 인식하는 것을 특징으로 하는, 외국어 교육을 위한 발음 정확도 평가 장치.
- 제1항에 있어서,
원어민 발음에 대해 분석된 음성 파형, 음소, 입모양 랜드마크 데이터를 저장하는 데이터베이스 모듈(500)을 더 포함하며,
상기 평가 모듈(400)은, 상기 데이터베이스 모듈(500)에 저장된 원어민 데이터와 상기 학습자의 음성 신호의 음성 파형, 음소 시퀀스 및 입모양 랜드마크를 비교하여, 발음 정확도를 평가하는 것을 특징으로 하는, 외국어 교육을 위한 발음 정확도 평가 장치.
- 제6항에 있어서, 상기 평가 모듈(400)은,
상기 데이터베이스 모듈(500)에 저장된 원어민 데이터와 상기 학습자의 음성 신호의 음성 파형, 음소 시퀀스 및 입모양 랜드마크를 각각 비교하여 유사도를 산출하며, 산출된 유사도를 종합하여 발음 정확도를 정량적으로 평가하는 것을 특징으로 하는, 외국어 교육을 위한 발음 정확도 평가 장치.
- 발음 정확도 평가 방법으로서,
(1) 학습자가 발음하는 음성 신호 및 상기 음성 신호를 발음하는 학습자의 영상을 입력받는 단계;
(2) 학습자의 음성 신호로부터 음소 시퀀스를 추출하는 단계;
(3) 학습자의 영상에서 입모양 랜드마크를 인식하고, 인식된 입모양 랜드마크의 변화 시퀀스를 추출하는 단계; 및
(4) 상기 단계 (2) 및 단계 (3)에서 추출된 상기 음성 신호의 음소 시퀀스 및 입모양 랜드마크의 변화 시퀀스를 이용하여 발음 정확도를 평가하는 단계를 포함하는 것을 특징으로 하는, 외국어 교육을 위한 발음 정확도 평가 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190004175A KR102212332B1 (ko) | 2019-01-11 | 2019-01-11 | 외국어 교육을 위한 발음 정확도 평가 장치 및 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190004175A KR102212332B1 (ko) | 2019-01-11 | 2019-01-11 | 외국어 교육을 위한 발음 정확도 평가 장치 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20200087623A true KR20200087623A (ko) | 2020-07-21 |
KR102212332B1 KR102212332B1 (ko) | 2021-02-04 |
Family
ID=71832826
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190004175A KR102212332B1 (ko) | 2019-01-11 | 2019-01-11 | 외국어 교육을 위한 발음 정확도 평가 장치 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102212332B1 (ko) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113035235A (zh) * | 2021-03-19 | 2021-06-25 | 北京有竹居网络技术有限公司 | 发音评价方法和装置,存储介质和电子设备 |
KR102338217B1 (ko) * | 2021-05-07 | 2021-12-09 | 한지우 | 언어학습 시스템의 제어 방법 |
KR20220120330A (ko) * | 2021-02-23 | 2022-08-30 | 박명재 | 자기주도 영어 학습 콘텐츠 제공 방법 및 장치 |
KR102561276B1 (ko) * | 2022-03-15 | 2023-07-28 | 주식회사 찬란 | 발음 교정 방법 및 시스템 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102623155B1 (ko) * | 2022-08-02 | 2024-01-10 | 최동원 | 한국어 학습자를 위한 한국어 발음교정 시스템 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100733469B1 (ko) * | 2004-01-08 | 2007-06-29 | 정보통신연구진흥원 | 외국어 발음 평가 시스템 및 외국어 발음 평가 방법 |
KR20100138654A (ko) * | 2009-06-25 | 2010-12-31 | 유혜경 | 외국어 발음 학습 장치 및 방법 |
KR20140079677A (ko) * | 2012-12-19 | 2014-06-27 | 주홍찬 | 언어 데이터 및 원어민의 발음 데이터를 이용한 연음 학습장치 및 방법 |
-
2019
- 2019-01-11 KR KR1020190004175A patent/KR102212332B1/ko active IP Right Grant
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100733469B1 (ko) * | 2004-01-08 | 2007-06-29 | 정보통신연구진흥원 | 외국어 발음 평가 시스템 및 외국어 발음 평가 방법 |
KR20100138654A (ko) * | 2009-06-25 | 2010-12-31 | 유혜경 | 외국어 발음 학습 장치 및 방법 |
KR20140079677A (ko) * | 2012-12-19 | 2014-06-27 | 주홍찬 | 언어 데이터 및 원어민의 발음 데이터를 이용한 연음 학습장치 및 방법 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20220120330A (ko) * | 2021-02-23 | 2022-08-30 | 박명재 | 자기주도 영어 학습 콘텐츠 제공 방법 및 장치 |
CN113035235A (zh) * | 2021-03-19 | 2021-06-25 | 北京有竹居网络技术有限公司 | 发音评价方法和装置,存储介质和电子设备 |
KR102338217B1 (ko) * | 2021-05-07 | 2021-12-09 | 한지우 | 언어학습 시스템의 제어 방법 |
KR102561276B1 (ko) * | 2022-03-15 | 2023-07-28 | 주식회사 찬란 | 발음 교정 방법 및 시스템 |
Also Published As
Publication number | Publication date |
---|---|
KR102212332B1 (ko) | 2021-02-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102212332B1 (ko) | 외국어 교육을 위한 발음 정확도 평가 장치 및 방법 | |
US11043213B2 (en) | System and method for detection and correction of incorrectly pronounced words | |
CN109313892B (zh) | 稳健的语言识别方法和系统 | |
US11810471B2 (en) | Computer implemented method and apparatus for recognition of speech patterns and feedback | |
Mak et al. | PLASER: Pronunciation learning via automatic speech recognition | |
US11145222B2 (en) | Language learning system, language learning support server, and computer program product | |
JP2018513991A (ja) | 音声を要約するための方法、コンピュータ・プログラムおよびコンピュータ・システム | |
US9489864B2 (en) | Systems and methods for an automated pronunciation assessment system for similar vowel pairs | |
CN110415725B (zh) | 使用第一语言数据评估第二语言发音质量的方法及系统 | |
Daniels et al. | The suitability of cloud-based speech recognition engines for language learning. | |
Ahsiah et al. | Tajweed checking system to support recitation | |
CN118135992A (zh) | 语音合成模型训练和语音合成方法、装置、设备及介质 | |
Ai | Automatic pronunciation error detection and feedback generation for call applications | |
William et al. | Automatic accent assessment using phonetic mismatch and human perception | |
US10783873B1 (en) | Native language identification with time delay deep neural networks trained separately on native and non-native english corpora | |
KR20210111503A (ko) | 발음 평가 방법 및 이를 이용한 디바이스 | |
Shafie et al. | The model of Al-Quran recitation evaluation to support in Da’wah Technology media for self-learning of recitation using mobile apps | |
JP2007148170A (ja) | 外国語学習支援システム | |
Yin | Training & evaluation system of intelligent oral phonics based on speech recognition technology | |
KR20030081537A (ko) | 음소별 오류유형 검출시스템 및 방법과 이를 적용한발음교정 시스템 및 방법 | |
CN113053409B (zh) | 音频测评方法及装置 | |
Kim et al. | Automatic assessment of American English lexical stress using machine learning algorithms | |
CN112951208B (zh) | 语音识别的方法和装置 | |
Balula et al. | Automatic speech recognition (ASR) systems for learning Arabic language and Al-quran recitation: a Review | |
Ridhwan et al. | Differential Qiraat Processing Applications using Spectrogram Voice Analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right |