KR20150024180A

KR20150024180A - 발음 교정 장치 및 방법

Info

Publication number: KR20150024180A
Application number: KR20130101319A
Authority: KR
Inventors: 강진호; 조문경; 이용민
Original assignee: 주식회사 셀리이노베이션스
Priority date: 2013-08-26
Filing date: 2013-08-26
Publication date: 2015-03-06
Also published as: US20150056580A1; WO2015030471A1

Abstract

발음 교정 장치가 개시된다. 이 발음 교정 장치는 사용자의 발음을 분석하는 발음 분석부, 분석 결과로부터 혀의 위치 이미지를 생성하는 혀 위치 이미지 생성부, 및 생성된 혀의 위치 이미지를 표시부에 표시하는 혀 위치 표시 제어부를 포함한다. 이에 따라 발음 연습시 혀의 잘못된 부분을 시각적으로 확인하여 교정할 수 있다.

Description

발음 교정 장치 및 방법{Pronunciation correction apparatus and method}

발음 학습에 관련된 기술로, 특히 발음 교정을 위한 기술이 개시된다.

일반적으로 외국어 발음 교정은 외국인 강사와의 일대일 지도방식에 의해 이루어지고 있다. 그러나 이러한 방식은 외국어 학습에 많은 비용이 소요될 수밖에 없으며, 특별히 정해진 시간에 교육이 이루어지기 때문에 직장인 등과 같은 바쁜 일상생활을 영위하는 사람들에게는 유용하지 못하다. 이러한 문제를 해소하기 위해, 음성인식을 이용한 다양한 어학용 프로그램들을 탑재한 어학용 학습기가 개발되어 보급되고 있다.

한편, 음성분석기술을 이용한 시각적 영어 발음 교정시스템 및 교정법이 국내공개특허공보 제10-2012-0040174호를 통해 잘 알려져 있다. 이 공보에는 한국어 모음/자음 발음과 영어 모음/자음 발음의 공명점들(Resonance Frequencies) 중 포먼트(formant) 주파수의 공명점이 표시된 차트에 사용자 음성 분석을 통해 얻어진 포먼트 주파수의 공명점을 함께 표시함으로써, 사용자로 하여금 발음 변화를 시각적으로 확인할 수 있게 하는 내용이 개시되어 있다.

국내공개특허공보 제10-2012-0040174호(2012년 04월 26일)

발음시 혀의 위치나 입술의 모양을 교정할 수 있도록 돕는 발음 교정 장치 및 방법이 개시된다.

일 양상에 따른 발음 교정 장치는 사용자의 발음을 분석하는 발음 분석부, 분석 결과로부터 혀의 위치 이미지를 생성하는 혀 위치 이미지 생성부, 및 생성된 혀의 위치 이미지를 표시부에 표시하는 혀 위치 표시 제어부를 포함한다.

일 실시예에 있어서, 혀 위치 이미지 생성부는 발음 분석 결과에 근거하여 측면에서의 혀의 위치를 추정한다.

일 양상에 따르면, 발음 교정 장치는 발음 연습 대상으로 지정된 발음기호에 따라 발음 분석 방식을 결정하는 표준 발음 연습 매니저를 더 포함하며, 발음 분석부는 결정된 발음 분석 방식으로 발음을 분석한다.

일 실시예에 있어서, 발음 분석부는 발음 연습 대상으로 지정된 발음기호가 모음일 경우 발음의 포먼트(formant)를 분석한다.

일 실시예에 있어서, 발음 분석부는 발음 연습 대상으로 지정된 발음기호가 마찰음일 경우 발음의 고속 푸리에 변환 스펙트럼을 분석한다.

일 양상에 따르면, 발음 교정 장치는 발음 연습 대상으로 지정된 발음기호가 유음일 경우에 발음을 평가하는 발음 평가부를 더 포함한다.

일 실시예에 있어서, 발음 평가부는 선형 예측 부호화(linear predictive coding) 파형 분석을 통해 발음을 평가한다.

일 양상에 따르면, 발음 교정 장치는 발음기호별로 혀 표준 위치 이미지들을 저장하는 혀 표준 이미지 저장부, 입력된 이미지를 표시부로 출력하는 표준 발음 표시 제어부, 및 발음 연습 대상인 발음기호에 대응하는 혀 표준 위치 이미지를 혀 표준 이미지 저장부에서 읽어들여 표준 발음 표시 제어부로 출력하는 표준 발음 연습 매니저를 더 포함한다.

일 양상에 따르면, 발음 교정 장치는 촬영된 사용자의 안면 영상을 처리하는 안면 영상 처리부, 및 처리된 영상을 표시부에 표시하는 입술 모양 표시 제어부를 더 포함한다.

일 양상에 따르면, 발음 교정 장치는 발음기호별로 입술 표준 모양 이미지들을 저장하는 입술 표준 이미지 저장부를 더 포함하며, 표준 발음 연습 매니저는 발음 연습 대상인 발음기호에 대응하는 입술 표준 모양 이미지를 입술 표준 이미지 저장부에서 읽어들여 표준 발음 표시 제어부로 출력한다.

일 실시예에 있어서, 안면 영상 처리부는 사용자의 안면 영상을 분석하여 안면 윤곽을 인식한 후 표준 입술 모양 이미지와 동일한 형태로 가공한다.

일 양상에 따른 발음 교정 방법은 발음기호에 대한 사용자의 발음을 분석하는 단계, 분석 결과로부터 혀의 위치 이미지를 생성하는 단계, 및 생성된 혀의 위치 이미지를 표시하는 단계를 포함한다.

일 양상에 따르면, 발음 교정 방법은 발음기호에 대한 혀 표준 위치 이미지를 표시하는 단계를 더 포함한다.

일 양상에 따르면, 발음 교정 방법은 발음 연습 대상으로 지정된 발음기호에 따라 발음 분석 방식을 결정하는 단계를 더 포함하며, 사용자의 발음을 분석하는 단계는 결정된 발음 분석 방식으로 발음을 분석한다.

일 양상에 따르면, 발음 교정 방법은 발음 연습 대상으로 지정된 발음기호가 유음일 경우에 사용자의 발음을 평가하는 단계를 더 포함한다.

일 양상에 따르면, 발음 교정 방법은 발음기호를 발음하는 사용자의 안면 영상을 처리하는 단계, 처리된 영상을 표시하는 단계, 및 사용자가 발음하는 발음기호에 대한 입술 표준 모양 이미지를 표시하는 단계를 더 포함한다.

개시된 발음 교정 장치는 사용자의 발음 연습시의 혀 모양을 화면에 표시하므로, 잘못된 혀 모양을 확인하고 교정할 수 있게 한다. 또한 표준 혀 모양도 화면 표시하므로 교정에 더욱 도움을 줄 수 있다.

나아가 개시된 발음 교정 장치는 사용자의 발음 연습시의 입술 모양을 화면에 표시하므로, 잘못된 입술 모양을 확인하고 교정할 수 있게 한다. 또한 표준 입술 모양도 화면 표시하므로 교정에 더욱 도움을 줄 수 있다.

도 1은 본 발명의 일 실시예에 따른 발음 교정 장치의 블록도이다.
도 2는 [i] 발음에 대한 입술 모양과 혀 위치를 나타내는 표시 화면을 예시한 도면이다.
도 3은 [a] 발음에 대한 입술 모양과 혀 위치의 표시 화면을 예시한 도면이다.
도 4는 [r] 발음에 대한 입술 모양과 혀 위치의 표시 화면을 예시한 도면이다.
도 5는 [θ] 발음시의 FFT 차트상의 주파수별 에너지 분포를 나타낸 도면이다.
도 6은 [θ] 발음에 대한 입술 모양과 혀 위치의 표시 화면을 예시한 도면이다.
도 7은 [s] 발음시의 FFT 차트상의 주파수별 에너지 분포를 나타낸 도면이다.
도 8은 [s] 발음에 대한 입술 모양과 혀 위치의 표시 화면을 예시한 도면이다.
도 9는 잘못된 [s] 발음시의 FFT 차트상의 주파수별 에너지 분포를 나타낸 도면이다.
도 10은 도 9에 따른 입술 모양과 혀 위치의 표시 화면을 예시한 도면이다.
도 11은 [∫] 발음시의 FFT 차트상의 주파수별 에너지 분포를 나타낸 도면이다.
도 12는 [∫] 발음에 대한 입술 모양과 혀 위치의 표시 화면을 예시한 도면이다.
도 13은 [r] 발음시의 LPC 그래프이다.
도 14는 잘못된 [r] 발음시의 LPC 그래프이다.
도 15는 [l] 발음시의 LPC 그래프이다.
도 16은 본 발명의 일 실시예에 따른 발음 교정 방법의 흐름도이다.

전술한, 그리고 추가적인 본 발명의 양상들은 첨부된 도면을 참조하여 설명되는 바람직한 실시예들을 통하여 더욱 명백해질 것이다. 이하에서는 본 발명을 이러한 실시예를 통해 당업자가 용이하게 이해하고 재현할 수 있도록 상세히 설명하기로 한다.

도 1은 본 발명의 일 실시예에 따른 발음 교정 장치의 블록도이다. 도시된 발음 교정 장치는 특정 언어에 국한되지 않는 장치일 수 있다. 일 실시예에 있어서, 발음 교정 장치는 영어, 중국어, 독일어, 불어 등 복수의 언어들에 대한 발음 교정을 지원하는 장치일 수 있다. 사용자는 원하는 언어를 선택하여 발음 연습, 특히 발음기호에 대한 발음을 연습할 수 있으며, 후술하는 발음 교정 방식에 따라 발음 교정을 할 수 있다. 도 1에 도시된 바와 같이, 발음 교정 장치는 마이크(100)와 음성 출력부(105)와 발음 분석부(110)와 혀 위치 이미지 생성부(115) 및 혀 위치 표시 제어부(120)를 포함할 수 있다. 여기서 발음 분석부(110)와 혀 위치 이미지 생성부(115)는 하드웨어적으로는 프로세서일 수 있으며, 프로세서에 의해 실행 가능한 소프트웨어 모듈들로 구체화될 수 있다. 그리고 혀 위치 표시 제어부(120)는 표시 드라이버 IC에 구현될 수 있다. 마이크(100)는 영어를 발음하는 사용자의 음성을 입력받는다. 음성 출력부(105)는 마이크(100)를 통해 입력된 음성을 처리하여 외부로 출력한다. 잘 알려진 바와 같이, 음성 출력부(105)는 앰프 및 스피커를 포함하는 구성이다.

발음 분석부(110)는 마이크(100)를 통해 입력된 사용자의 발음을 분석한다. 여기서 사용자의 발음은 발음기호에 대한 발음일 수 있다. 일 실시예에 있어서, 발음 분석부(110)는 사용자 발음의 포먼트(formant)를 분석할 수 있다. 잘 알려진 바와 같이, 모음의 음색은 공진 주파수대의 분포에 따라 구별된다. 이때 공진 주파수 대역을 낮은 주파수 쪽에서부터 제 1 포먼트(F1), 제 2 포먼트(F2), 제 3 포먼트(F3) 등으로 부른다. 모음의 식별에는 F1과 F2가 가장 크게 관계된다. 또한 포먼트는 모음뿐만 아니라 모음과 음향적 성질이 공통되는 자음, 가령 비음과 유음에도 비교적 잘 나타난다고 알려져 있다.

혀 위치 이미지 생성부(115)는 발음 분석부(110)의 분석 결과로부터 혀의 위치 이미지를 생성할 수 있다. 일 실시예에 있어서, 혀 위치 이미지 생성부(115)는 발음 분석부(110)의 포먼트 분석으로 얻어진 F1, F2 주파수로 혀의 위치를 추정할 수 있다. 추정을 위해, 표준 발음시의 F1, F2 주파수에 대응하는 혀의 위치에 대한 정보가 사전에 구축되어 있을 수 있다. 일 실시예에 있어서, 혀 위치 이미지 생성부(115)는 구축된 정보와 발음 분석부(110)의 분석으로 얻어진 F1, F2 주파수를 비교하여 혀의 위치를 추정할 수 있다. 일 실시예에 있어서, 혀 위치 이미지 생성부(115)는 얼굴 측면에서의 혀의 위치를 추정할 수 있다. 추정된 혀의 위치는 혀를 그리는 베지에 곡선(Bezier curve)의 끝점과 작용점의 위치로 사용될 수 있다. 혀 위치 이미지 생성부(115)는 F1, F2 주파수에 따라 끝점과 작용점과의 상대적인 위치가 적절히 연동하도록 조절하여 혀의 모양을 만들 수 있다.

혀 위치 표시 제어부(120)는 혀 위치 이미지 생성부(115)에서 생성된 혀 위치 이미지를 표시부(125)에 표시시킨다. 여기서 표시부(125)는 액정 디스플레이나 유기발광다이오드 디스플레이 등일 수 있다. 혀 위치 이미지가 다수일 경우, 혀 위치 표시 제어부(120)는 일련의 혀 위치 이미지들을 순차적으로 화면 출력하여 혀의 움직임을 나타낼 수 있다. 일 실시예에 있어서, 혀 위치 표시 제어부(120)는 혀 위치 이미지들을 순차적으로 출력하는 시간을 짧게 하거나 길게 하여 혀의 움직임 속도를 조절할 수 있다. 시간을 짧게 하면 혀 위치의 변화가 느려지므로, 교정해야 할 부분을 용이하게 파악하는데 도움이 된다.

나아가, 영어 발음 교정 장치는 사용자의 발음 교정을 위해 혀 표준 위치 이미지를 표시부(125)에 표시할 수 있다. 이를 위해, 영어 발음 교정 장치는 혀 표준 이미지 저장부(130)와 표준 발음 연습 매니저(135) 및 표준 발음 표시 제어부(140)를 더 포함할 수 있다. 여기서 표준 발음 연습 매니저(135)는 프로세서에 의해 실행 가능한 소프트웨어 모듈들로 구체화될 수 있으며, 표준 발음 표시 제어부(140)는 표시 드라이버 IC에 구현될 수 있다. 혀 표준 이미지 저장부(130)는 발음기호별로 혀의 표준 위치 이미지들을 저장할 수 있다. 일 실시예에 있어서, 혀 표준 이미지 저장부(130)에는 발음기호들의 포먼트 정보와 그에 대응되는 혀 표준 위치 이미지가 저장될 수 있다. 표준 발음 연습 매니저(135)는 사용자의 발음 연습을 돕기 위한 구성으로서, 발음 연습을 위한 사용자 인터페이스를 제공할 수 있다. 예를 들어, 표준 발음 연습 매니저(135)는 사용자 인터페이스를 통해 발음 연습 대상 언어를 선택하도록 할 수 있으며, 선택된 언어에 속하는 발음 연습 대상 발음기호를 선택하도록 할 수 있다. 따라서 사용자는 조작부(145)를 통해 학습하고자 하는 언어를 선택하고, 선택된 언어에 속하는 발음기호를 선택할 수 있다. 여기서 조작부(145)는 하드웨어적인 키 입력 수단일 수 있으며, 아니면 터치 입력 수단일 수도 있다.

표준 발음 연습 매니저(135)는 연습 대상으로 선택된 발음기호에 대응하는 혀 표준 이미지를 혀 표준 이미지 저장부(130)에서 검색하여 읽어들일 수 있다. 표준 발음 연습 매니저(135)는 읽어들인 하나 이상의 혀 표준 위치 이미지를 표준 발음 표시 제어부(140)로 출력한다. 일 실시예에 있어서, 표준 발음 연습 매니저(135)는 하나 이상의 혀 표준 위치 이미지를 3D 이미지로 생성하여 표준 발음 표시 제어부(140)로 출력할 수 있다. 아니면 이미지 자체가 3D 형식으로 저장되어 있을 수도 있다. 표준 발음 표시 제어부(140)는 입력된 하나 이상의 혀 표준 위치 이미지를 표시부(125)에 표시시킨다. 이미지가 다수일 경우, 표준 발음 표시 제어부(140)는 표준 발음 연습 매니저(135)의 제어에 따라 일련의 혀 표준 위치 이미지들을 순차적으로 연속되게 표시시킴으로써 혀 위치 변화의 움직임을 나타낼 수 있다. 이 같이 하면, 사용자는 표시부(125)의 화면을 통해 혀의 표준 위치와 자신의 혀의 위치를 비교할 수 있으므로, 잘못된 부분을 용이하게 파악하여 교정할 수 있다.

또한 표준 발음 연습 매니저(135)는 표준 발음 표시 제어부(140)를 제어하여 화면에 표시될 일련의 혀 표준 이미지들의 재생 속도를 조절할 수 있다. 그리고 그 속도 조절은 조작부(145)를 통한 사용자의 명령에 따른 것일 수 있다. 또한 표준 발음 연습 매니저(135)는 혀 위치 표시 제어부(120)를 제어하여 화면에 표시될 일련의 혀 위치 이미지들의 재생 속도를 조절할 수 있다. 그리고 그 속도 조절 또한 조작부(145)를 통한 사용자의 명령에 따른 것일 수 있다.

또한 표준 발음 연습 매니저(135)는 혀 위치 표시 제어부(120)의 표시 제어와 표준 발음 표시 제어부(140)의 표시 제어를 동기화시켜 혀 표준 위치 이미지와 사용자의 혀 위치 이미지가 표시되게 할 수 있다. 이 같이 하면, 사용자의 시각적인 비교가 더욱 용이할 수 있다.

더 나아가, 발음 교정 장치는 카메라(150)와 안면 영상 처리부(155) 및 입술 모양 표시 제어부(160)를 더 포함할 수 있다. 여기서 안면 영상 처리부(155)는 프로세서에 의해 실행 가능한 소프트웨어 모듈로 구체화될 수 있으며, 입술 모양 표시 제어부(160)는 표시 드라이버 IC에 구현될 수 있다. 카메라(150)는 발음 연습중인 사용자의 안면을 촬영한다. 이때 입술을 포함한 안면의 일부만이 촬영될 수도 있다. 안면 영상 처리부(155)는 카메라(150)로부터 입력된 사용자의 안면 영상을 처리한다. 일 실시예에 있어서, 안면 영상 처리부(155)는 안면 영상을 분석하여 사용자의 입술을 포함한 일정 부위를 추출하고 적당한 크기로 스케일링할 수 있다. 입술 모양 표시 제어부(160)는 안면 영상 처리부(155)로부터 입력된 입술 영상을 표시부(125)에 표시시킨다. 이에 따라 사용자는 발음기호 발음시 자신의 입 모양을 시각적으로 확인할 수 있는바 교정에 도움이 된다.

더 나아가, 발음 교정 장치는 사용자의 발음 교정을 돕기 위해 입술 표준 모양 이미지를 표시부(125)에 표시할 수 있다. 이를 위해, 발음 교정 장치는 입술 표준 이미지 저장부(165)를 더 포함할 수 있다. 입술 표준 이미지 저장부(165)는 발음기호별 대응되는 입술 표준 모양 이미지들을 저장할 수 있다. 일 실시예에 있어서, 입술 표준 이미지 저장부(165)에는 발음기호별로 포먼트 정보와 그에 대응되는 입술 표준 모양 이미지가 저장될 수 있다. 그리고 표준 발음 연습 매니저(135)는 발음 연습 대상으로 선택된 발음기호에 대응하는 하나 이상의 입술 표준 모양 이미지를 입술 표준 이미지 저장부(165)에서 읽어들여 표준 발음 표시 제어부(140)로 출력할 수 있다.

표준 발음 표시 제어부(140)는 입력된 하나 이상의 입술 표준 모양 이미지를 표시부(125)에 표시시킨다. 이미지가 다수일 경우, 표준 발음 표시 제어부(140)는 표준 발음 연습 매니저(135)의 제어에 따라 일련의 입술 표준 모양 이미지들을 순차적으로 연속되게 표시시킴으로써 입술 모양 변화의 움직임을 나타낼 수 있다. 그리고 표준 발음 연습 매니저(135)는 표준 발음 표시 제어부(140)를 제어하여 화면에 표시될 일련의 입술 표준 모양 이미지들의 재생 속도를 조절할 수 있다. 그리고 그 속도 조절은 조작부(145)를 통한 사용자의 명령에 따른 것일 수 있다. 이 같이 하면, 사용자는 표시부(125)의 화면을 통해 표준 입술 모양과 자신의 입술 모양을 비교할 수 있으므로, 잘못된 부분을 용이하게 파악하여 교정할 수 있다.

한편, 안면 영상 처리부(155)는 카메라(150)로부터 입력된 사용자의 안면 영상을 분석하여 안면 윤곽을 인식한 후 표준 입술 모양 이미지와 동일한 형태로 가공할 수 있다. 여기서 표준 입술 모양 이미지는 입술이 포함된 코와 턱 끝 사이의 이미지일 수 있다. 일 실시예에 있어서, 안면 영상 처리부(155)는 안면 윤곽 중 코와 턱 끝 사이를 인식하고, 안면 영상 중 인식된 코와 턱 끝 사이의 영상만을 추출한 후 표준 입술 모양 이미지와 동일한 크기로 스케일링할 수 있다. 이에 의해 표준 입술 모양과 사용자의 입술 모양이 보다 용이하게 비교될 수 있다.

또한 표준 발음 연습 매니저(135)는 입술 모양 표시 제어부(160)의 표시 제어와 표준 발음 표시 제어부(140)의 표시 제어를 동기화시켜 입술 표준 모양 이미지와 사용자의 입술 모양 이미지가 동시에 표시되게 할 수 있다. 이 같이 하면, 사용자의 시각적인 비교가 더욱 용이할 수 있다.

한편, 도 1에 도시된 영어 발음 교정 장치의 구성들 중에서 발음 분석부(110)와, 혀 위치 이미지 생성부(115)와, 혀 위치 표시 제어부(120)와, 혀 표준 이미지 저장부(130)는 제외될 수 있다. 즉, 영어 발음 교정 장치는 입술 모양만을 화면에 표시해줌으로써, 입술 모양만을 가지고 발음을 교정할 수 있도록 할 수도 있다.

이상에 따르면, 발음기호에 대한 정확한 발음시의 혀의 위치를 3D 애니메이션으로 먼저 확인하고 화상카메라를 이용하여 3D 애니메이션 상의 입술 모양과 사용자의 입술 모양의 차이를 비교하면서 학습할 수 있다. 또한 발음기호에 대한 정확한 발음시의 혀의 위치를 3D 애니메이션으로 먼저 확인할 수 있게 하고, 사용자의 발음기호 발음시의 혀의 위치 및 움직임을 시뮬레이션하여 보여줌으로써, 비교 학습을 가능하게 한다.

도 2는 [i] 발음에 대한 입술 모양과 혀 위치를 나타내는 표시 화면을 예시한 도면이다. 화면 좌측에는 모음들(Vowels)이 배열되어 있다. 사용자는 발음 연습하고자 하는 모음을 선택하여 발음 연습을 할 수 있다. 혹은 어느 하나의 모음만을 선택하여 연습하는 것이 아니라 배열된 모음들을 순차적으로 발음 연습할 수도 있다. 도 2는 모음 발음기호들 중 [i] 발음기호에 대한 연습을 예시한 것으로서, 상위 좌측의 이미지는 [i] 발음시의 입술 표준 모양 이미지를 나타내며, 하위 좌측의 이미지는 [i] 발음을 한 사용자의 입술 모양 이미지를 나타낸다. 그리고 상위 우측의 이미지는 [i] 발음시의 혀 표준 위치 이미지를 나타내며, 하위 우측의 이미지는 [i] 발음을 한 사용자의 혀 위치 이미지를 나타낸다. 따라서 사용자는 화면에 표시된 좌측 이미지들을 통해 [i] 발음에 대한 자신의 잘못된 입술 모양을 알 수 있으며, 화면에 표시된 우측 이미지들을 통해 [i] 발음에 대한 자신의 잘못된 혀 위치를 알 수 있다. 그리고 상술한 바와 같이, 안면 영상 처리부(155)는 사용자의 안면 영상을 분석하여 안면 윤곽을 인식한 후 입술 표준 모양 이미지와 동일한 형태로 가공할 수 있으므로, 도시된 바와 같이 사용자의 입술 모양 이미지는 입술 표준 모양 이미지와 유사한 모습으로 표시된다.

도 3은 [a] 발음에 대한 입술 모양과 혀 위치의 표시 화면을 예시한 도면이다. 도 3은 모음 발음기호들 중 [a] 발음기호에 대한 연습을 예시한 것으로서, 상위 좌측의 이미지는 [a] 발음시의 입술 표준 모양 이미지를 나타내며, 하위 좌측의 이미지는 [a] 발음을 한 사용자의 입술 모양 이미지를 나타낸다. 그리고 상위 우측의 이미지는 [a] 발음시의 혀 표준 위치 이미지를 나타내며, 하위 우측의 이미지는 [a] 발음을 한 사용자의 혀 위치 이미지를 나타낸다. 따라서 사용자는 화면에 표시된 좌측 이미지들을 통해 [a] 발음에 대한 자신의 잘못된 입술 모양을 알 수 있으며, 화면에 표시된 우측 이미지들을 통해 [a] 발음에 대한 자신의 잘못된 혀 위치를 알 수 있다.

도 4는 [r] 발음에 대한 입술 모양과 혀 위치의 표시 화면을 예시한 도면이다. 화면 좌측에는 자음들(Consonants)이 배열되어 있다. 사용자는 발음 연습하고자 하는 자음을 선택하여 발음 연습을 할 수 있다. 도 4는 자음 발음기호들 중 [r] 발음기호에 대한 연습을 예시한 것으로서, 상위 좌측의 이미지는 [r] 발음시의 입술 표준 모양 이미지를 나타내며, 하위 좌측의 이미지는 [r] 발음을 한 사용자의 입술 모양 이미지를 나타낸다. 그리고 상위 우측의 이미지는 [r] 발음시의 혀 표준 위치 이미지를 나타내며, 하위 우측의 이미지는 [r] 발음을 한 사용자의 혀 위치 이미지를 나타낸다. 따라서 사용자는 화면에 표시된 좌측 이미지들을 통해 [r] 발음에 대한 자신의 잘못된 입술 모양을 알 수 있으며, 화면에 표시된 우측 이미지들을 통해 [r] 발음에 대한 자신의 잘못된 혀 위치를 알 수 있다.

한편, 발음 분석부(110)는 복수의 발음 분석 방식 중에서 어느 하나의 방식을 이용하여 사용자의 발음을 분석할 수 있다. 발음 분석 방식에는 상술한 바와 같은 발음의 포먼트를 분석하는 방식이 포함된다. 나아가 발음 분석 방식에는 고속 푸리에 변환(Fast Fourier Transform, FFT) 스펙트럼을 분석하는 방식이 포함될 수 있다. 발음 분석부(110)는 사용자가 연습하고자 하는 발음기호에 따라 적절한 분석 방식을 이용하여 사용자의 발음을 분석할 수 있다. 이를 위해, 표준 발음 연습 매니저(135)는 사용자에 의해 발음 연습 대상으로 지정된 발음기호에 따라 분석 방식을 결정할 수 있다. 일 실시예에 있어서, 표준 발음 연습 매니저(135)는 발음 연습 대상으로 지정된 발음기호가 모음일 경우에는 발음 분석 방식을 포먼트 분석 방식으로 결정할 수 있으며, 비음이나 유음일 경우에도 포먼트 분석 방식으로 결정할 수 있다. 그리고 발음기호가 마찰음일 경우에는 발음 분석 방식을 FFT 스펙트럼 분석 방식으로 결정할 수 있다. 여기서 마찰음으로는 영어 발음기호인 [θ], [s], [∫]를 예로 들 수 있다.

발음 분석부(110)는 발음기호가 파열음일 경우에는 FFT 스펙트럼 분석 방식으로 사용자의 발음을 분석할 수 있다. 발음 분석부(110)는 FFT 스펙트럼 주파수 대역별 에너지 분포를 분석할 수 있으며, 또한 최고조로 증폭된 피크(peak) 주파수 대역의 범위를 분석할 수 있다. 그리고 혀 위치 이미지 생성부(115)는 발음 분석부(110)의 분석 결과를 가지고 혀의 위치를 시뮬레이션하여 혀의 위치 이미지를 생성할 수 있다.

마찰음인 [θ] 발음에 대해 살펴본다. [θ] 발음의 경우는 FFT 스펙트럼 주파수 분석을 하였을 때, 도 5에 예시된 바와 같이 0에서 8000Hz까지 전 대역에 에너지가 분포한다. 그리고 임계치(threshold) 기준으로 임계치보다 높은 주파수 대역이 없을 때, 도 6의 하위 우측 이미지와 같은 모양의 혀 위치 이미지를 3D 동영상으로 시뮬레이션하여 보여줄 수 있다. 여기서 임계치는 고정적으로 정해진 값이 아니라, 에너지 크게 변화에 따라 능동적으로 결정되는 에너지값일 수 있다. 음성 데시벨은 사람마다 다르므로, 임계치를 고정적인 값으로 정할 수 없기 때문이다. 즉, 임계치는 사용자의 음성 데시벨 변화에 따라 능동적으로 결정될 수 있는 것이다.

도 6의 상위 좌측의 이미지는 [θ] 발음시의 입술 표준 모양 이미지를 나타내며, 하위 좌측의 이미지는 [θ] 발음을 한 사용자의 입술 모양 이미지를 나타낸다. 그리고 상위 우측의 이미지는 [θ] 발음시의 혀 표준 위치 이미지를 나타내며, 하위 우측의 이미지는 [θ] 발음을 한 사용자의 혀 위치 이미지를 나타낸다. 따라서 사용자는 화면에 표시된 좌측 이미지들을 통해 [θ] 발음에 대한 자신의 잘못된 입술 모양을 알 수 있으며, 화면에 표시된 우측 이미지들을 통해 [θ] 발음에 대한 자신의 잘못된 혀 위치를 알 수 있다.

마찰음인 [s] 발음에 대해 살펴본다. [s] 발음의 경우는 FFT 스펙트럼 주파수 분석을 하였을 때, 도 7에 예시된 바와 같이 3000Hz 이하의 저역대의 주파수의 에너지는 존재하지 않고, 임계치를 기준으로 6500Hz 이상의 대역에 피크 에너지가 분포하게 된다. 도 7에 예시된 바와 같이 FFT 차트상의 주파수별 에너지가 분포할 때, 도 8의 하위 우측 이미지와 같은 모양의 혀 위치 이미지를 3D 동영상으로 시뮬레이션하여 보여줄 수 있다.

도 8의 상위 좌측의 이미지는 [s] 발음시의 입술 표준 모양 이미지를 나타내며, 하위 좌측의 이미지는 [s] 발음을 한 사용자의 입술 모양 이미지를 나타낸다. 그리고 상위 우측의 이미지는 [s] 발음시의 혀 표준 위치 이미지를 나타내며, 하위 우측의 이미지는 [s] 발음을 한 사용자의 혀 위치 이미지를 나타낸다. 따라서 사용자는 화면에 표시된 좌측 이미지들을 통해 [s] 발음에 대한 자신의 잘못된 입술 모양을 알 수 있으며, 화면에 표시된 우측 이미지들을 통해 [s] 발음에 대한 자신의 잘못된 혀 위치를 알 수 있다.

그리고 사용자가 구강 내 공기의 기류를 잘못 제어하여 [s] 발음을 제대로 하지 못하는 경우는 [s] 발음의 조음 위치가 변경된다. 도 9에 예시된 바와 같이, 원래의 [s] 발음의 주파수 대역인 6500Hz 이상이 아닌 4500 ~ 6000Hz 사이에서 발음되었을 때는 조음 위치가 변경되어 도 10과 같이 사용자의 혀의 위치를 바뀐 조음점으로 변경하여 3D 시뮬레이션 영상으로 화면 출력한다.

마찰음인 [∫] 발음에 대해 살펴본다. [∫] 발음의 경우는 FFT 스펙트럼 주파수 분석을 하였을 때, 임계치를 기준으로 2400 ~ 2900Hz 사이의 중역대와 6000 ~ 7000Hz 사이의 주파수 대역에 최대 피크 에너지가 존재한다. 도 11에 예시된 바와 같이 FFT 차트상의 주파수별 에너지가 분포할 때, 도 12의 하위 우측 이미지와 같은 모양의 혀 위치 이미지를 3D 동영상으로 시뮬레이션해서 보여줄 수 있다.

한편, 파열음에 대해서는 VOT(Voice Onest Time)의 길이를 분석하는 방식이 이용될 수 있다. 구강의 조음 위치를 완전히 폐쇄한 후에 단번에 파열시켜 발음해야 하는 파열음으로는 [p, b, t, d, k, g]를 예로 들 수 있다. 발음 분석부(110)는 파열음일 경우, 접촉 부위에서의 압력에 의해 파열이 발생하는 시점부터 그 다음에 연이어서 발음되는 모음 발성을 위하여 성대가 울리기 시작하는 시점까지인 VOT의 길이를 분석한다. 그런데 실제 파형 상의 VOT만을 가지고는 양쪽 입술에서 일어나는 양순음 [p, b], 윗잇몸에서 조음이 일어나는 치경음[t, d], 혹은 연구개에서 조음이 일어나는 연구개음 [k, g]인지를 판단할 수 없다. 그러나 사용자가 발음할 발음기호는 미리 지정되므로, VOT 분석 전에 양순음인지 치경음인지 아니면 연구개음인지를 알 수 있다. 따라서 발음 분석부(110)는 사용자가 발음할 발음기호가 양순음인지 치경음인지 아니면 연구개음인지 알고 있는 상태에서 사용자의 발음을 분석할 수 있다. 그런데 파열음의 경우는 사실상 혀의 위치보다는 발성의 문제이기 때문에, 혀의 위치를 교정하는 방식은 적합하지 못할 수 있다. 따라서 파열음에 대해서는 사용자의 발음으로부터 혀의 위치 이미지를 생성하고, 이를 표시하는 프로세스는 수행되지 않을 수 있다.

나아가 발음 교정 장치는 발음 평가부(170)를 더 포함한다. 발음 평가부(170)는 발음 연습 대상으로 지정된 발음기호가 유음일 경우에 사용자의 발음을 평가할 수 있다. 여기서 유음으로는 [l, r]을 예로 들 수 있다. 일 실시예에 있어서, 발음 평가부(170)는 선형 예측 부호화(Linear Predictive Coding, LPC) 파형 분석을 통해 사용자의 발음을 평가할 수 있다.

유음인 [r] 발음에 대해 살펴본다. 발음 평가부(170)는 LPC 파형 분석을 이용하여 포먼트 주파수 중 F2와 F3의 간격이 도 13에 예시된 바와 같이 400Hz 이내일 때는 완벽한 [r] 발음으로 평가할 수 있으며, 100점이라는 점수로 환산하여 표시부(125)를 통해 사용자에게 보여줄 수 있다. 그러나 F2와 F3의 간격이 도 14에 예시된 바와 같이 400Hz 이상인 경우에는 잘못된 [r] 발음으로 평가할 수 있으며, F2와 F3의 간격 차에 따라 점수로 환산하여 표시부(125)를 통해 사용자에게 보여줄 수 있다. F2와 F3의 간격 차가 크면 클수록 발음 점수는 낮아진다.

유음인 [l] 발음에 대해 살펴본다. 발음 평가부(170)는 LPC 파형 분석을 이용하여 포먼트 주파수 중 F2와 F3의 간격이 도 15에 예시된 바와 같이 2500Hz 이상일 때는 완벽한 [l] 발음으로 평가할 수 있으며, 100점이라는 점수로 환산하여 표시부(125)를 통해 사용자에게 보여줄 수 있다. 그러나 F2와 F3의 간격이 2500Hz 미만인 경우에는 잘못된 [l] 발음으로 평가할 수 있으며, F2와 F3의 간격 차에 따라 점수로 환산하여 표시부(125)를 통해 사용자에게 보여줄 수 있다. F2와 F3의 간격 차가 작으면 작을수록 발음 점수는 낮아진다.

도 16은 본 발명의 일 실시예에 따른 발음 교정 방법의 흐름도이다. 표준 발음 연습 매니저(135)는 사용자로부터 발음 연습하고자 하는 언어 및 발음기호를 선택받는다(S100). 발음기호가 선택되면, 표준 발음 연습 매니저(135)는 발음 분석 방식을 결정한다. 일 실시예에 있어서, 발음기호가 모음일 경우는 발음 분석 방식을 포먼트 분석 방식으로 결정하며, 발음기호가 마찰음일 경우는 발음 분석 방식을 FFT 스펙트럼 분석 방식으로 결정한다(S150). 발음 분석부(110)는 선택된 발음기호에 대한 사용자의 발음을 분석하되, 결정된 발음 분석 방식으로 사용자의 발음을 분석한다(S200). 이때 발음 분석부(110)는 복수의 발음 분석 방식들 중에서 어느 하나의 발음 분석 방식을 이용하여 사용자의 발음을 분석할 수 있다. 여기서 발음 분석 방식에는 포먼트 분석 방식과 FFT 스펙트럼 분석 방식이 포함될 수 있다. 표준 발음 연습 매니저(135)는 선택된 발음기호에 대한 발음 분석 방식을 결정하고, 결정된 발음 분석 방식을 발음 분석부(110)에 알릴 수 있다. 이에 따라 발음 분석부(110)는 결정된 하나의 발음 분석 방식으로 사용자의 발음을 분석하게 된다.

혀 위치 이미지 생성부(115)는 발음 분석부(110)에 의해 분석된 결과에 근거하여 혀의 위치 이미지를 생성한다(S250). 이때 혀 위치 이미지 생성부(115)는 측면에서의 혀의 위치를 추정하여 이미지를 생성할 수 있다. 혀 위치 이미지가 생성되면, 혀 위치 표시 제어부(120)는 생성된 혀 위치 이미지를 표시부(125)에 표시한다(S300). 한편, 표준 발음 연습 매니저(135)는 S100에서 선택된 발음기호에 대한 혀의 표준 위치 이미지를 혀 표준 이미지 저장부(130)에서 검색하여 읽어들이며(S350), 표준 발음 표시 제어부(140)는 읽어들인 혀의 표준 위치 이미지를 표시부(125)에 표시한다(S400).

이상의 과정에서, 선택된 발음기호가 유음일 경우, 발음 평가부(170)는 사용자의 발음을 평가할 수 있으며, 그 평가 결과를 표시부(125)에 표시할 수 있다. 이때 발음 평가부(170)는 LPC 파형 분석을 통해 사용자의 발음을 평가할 수 있다. 그리고 상술한 과정들 중에서 S150 과정은 생략될 수 있으며, 이때는 하나의 발음 분석 방식만이 사용될 수 있다.

한편, 안면 영상 처리부(155)는 발음기호를 발음하는 사용자의 안면을 촬영한 카메라(150)로부터 입력된 안면 영상을 처리한다(S450). 이때, 안면 영상 처리부(155)는 안면 영상을 분석하여 사용자의 입술을 포함한 일정 부위를 추출하고 적당한 크기로 스케일링할 수 있다. 그리고 입술 모양 표시 제어부(160)는 안면 영상 처리부(155)에서 처리된 입술 영상을 표시부(125)에 표시한다(S500). 한편, 표준 발음 표시 매니저(135)는 S100에서 선택된 발음기호에 대한 입술 표준 이미지를 입술 표준 이미지 저장부(165)에서 검색하여 읽어들이며(S550), 표준 발음 표시 제어부(140)는 읽어들인 입술 표준 이미지를 표시부(125)에 표시한다(S600).

이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

100 : 마이크 105 : 음성 출력부
110 : 발음 분석부 115 : 혀 위치 이미지 생성부
120 : 혀 위치 표시 제어부 125 : 표시부
130 : 혀 표준 이미지 저장부 135 : 표준 발음 연습 매니저
140 : 표준 발음 표시 제어부 145 : 조작부
150 : 카메라 155 : 안면 영상 처리부
160 : 입술 모양 표시 제어부 165 : 입술 표준 이미지 저장부
170 : 발음 평가부

Claims

사용자의 발음을 분석하는 발음 분석부;
분석 결과로부터 혀의 위치 이미지를 생성하는 혀 위치 이미지 생성부; 및
생성된 혀의 위치 이미지를 표시부에 표시하는 혀 위치 표시 제어부;
를 포함하는 발음 교정 장치.
제 1 항에 있어서,
혀 위치 이미지 생성부는 발음 분석 결과에 근거하여 측면에서의 혀의 위치를 추정하는 발음 교정 장치.
제 1 항에 있어서,
발음 연습 대상으로 지정된 발음기호에 따라 발음 분석 방식을 결정하는 표준 발음 연습 매니저;를 더 포함하며,
발음 분석부는 결정된 발음 분석 방식으로 발음을 분석하는 발음 교정 장치.
제 3 항에 있어서,
발음 분석부는 발음 연습 대상으로 지정된 발음기호가 모음일 경우 발음의 포먼트(formant)를 분석하는 발음 교정 장치.
제 3 항에 있어서,
발음 분석부는 발음 연습 대상으로 지정된 발음기호가 마찰음일 경우 발음의 고속 푸리에 변환 스펙트럼을 분석하는 발음 교정 장치.
제 3 항에 있어서,
발음 연습 대상으로 지정된 발음기호가 유음일 경우에 발음을 평가하는 발음 평가부;
를 더 포함하는 발음 교정 장치.
제 6 항에 있어서,
발음 평가부는 선형 예측 부호화(linear predictive coding) 파형 분석을 통해 발음을 평가하는 발음 교정 장치.
제 3 항에 있어서,
발음기호별로 혀 표준 위치 이미지들을 저장하는 혀 표준 이미지 저장부;
입력된 이미지를 표시부로 출력하는 표준 발음 표시 제어부; 및
발음 연습 대상인 발음기호에 대응하는 혀 표준 위치 이미지를 혀 표준 이미지 저장부에서 읽어들여 표준 발음 표시 제어부로 출력하는 표준 발음 연습 매니저;
를 더 포함하는 발음 교정 장치.
제 8 항에 있어서,
촬영된 사용자의 안면 영상을 처리하는 안면 영상 처리부; 및
처리된 영상을 표시부에 표시하는 입술 모양 표시 제어부;
를 더 포함하는 발음 교정 장치.
제 9 항에 있어서,
발음기호별로 입술 표준 모양 이미지들을 저장하는 입술 표준 이미지 저장부;를 더 포함하며,
표준 발음 연습 매니저는 발음 연습 대상인 발음기호에 대응하는 입술 표준 모양 이미지를 입술 표준 이미지 저장부에서 읽어들여 표준 발음 표시 제어부로 출력하는 발음 교정 장치.
제 10 항에 있어서,
안면 영상 처리부는 사용자의 안면 영상을 분석하여 안면 윤곽을 인식한 후 표준 입술 모양 이미지와 동일한 형태로 가공하는 발음 교정 장치.
발음기호에 대한 사용자의 발음을 분석하는 단계;
분석 결과로부터 혀의 위치 이미지를 생성하는 단계; 및
생성된 혀의 위치 이미지를 표시하는 단계;
를 포함하는 발음 교정 방법.
제 12 항에 있어서,
발음기호에 대한 혀 표준 위치 이미지를 표시하는 단계;
를 더 포함하는 발음 교정 방법.
제 13 항에 있어서,
발음 연습 대상으로 지정된 발음기호에 따라 발음 분석 방식을 결정하는 단계;를 더 포함하며,
사용자의 발음을 분석하는 단계는 결정된 발음 분석 방식으로 발음을 분석하는 발음 교정 방법.
제 14 항에 있어서,
발음 분석 방식에는 발음의 포먼트를 분석하는 방식과 발음의 고속 푸리에 변환 스펙트럼을 분석하는 방식이 포함되는 발음 교정 방법.
제 14 항에 있어서,
발음 연습 대상으로 지정된 발음기호가 유음일 경우에 사용자의 발음을 평가하는 단계;
를 더 포함하는 발음 교정 방법.
제 16 항에 있어서,
사용자의 발음을 평가하는 단계는 선형 예측 부호화(linear predictive coding) 파형 분석을 통해 발음을 평가하는 발음 교정 방법.
제 13 항에 있어서,
발음기호를 발음하는 사용자의 안면 영상을 처리하는 단계;
처리된 영상을 표시하는 단계; 및
사용자가 발음하는 발음기호에 대한 입술 표준 모양 이미지를 표시하는 단계;
를 더 포함하는 발음 교정 방법.
제 18 항에 있어서,
사용자의 안면 영상을 처리하는 단계는 사용자의 안면 영상을 분석하여 안면 윤곽을 인식한 후 표준 입술 모양 이미지와 동일한 형태로 가공하는 발음 교정 방법.