KR20080065775A

KR20080065775A - 구화 교육용 발성 시각화 시스템

Info

Publication number: KR20080065775A
Application number: KR1020070002841A
Authority: KR
Inventors: 오범수; 김화성; 조성업
Original assignee: 한국문화콘텐츠진흥원; 비쥬텍쓰리디(주)
Priority date: 2007-01-10
Filing date: 2007-01-10
Publication date: 2008-07-15

Abstract

본 발명은 화자로부터 입력되는 음성을 다각적으로 분석하여 그 음성 상태를 다양한 시각화 정보 형태로 가시화하여 보여주기 위한 구화 교육용 발성 시각화 시스템을 제공한다. 이를 위해 본 발명은 입력 음성을 녹음하여 메모리에 저장하거나, 저장된 음성신호를 재생하는 음성 입출력 인터페이스와, 녹음 기능에 의해 입력 음성 신호를 웨이브 파일 형태로 저장함과 더불어, 저장된 웨이브 파일의 재생을 위해 독출하는 메모리, 상기 음성입력 인터페이스를 통해 메모리로부터 재생되는 입력 음성의 웨이브 파일을 파형 형태와, 스팩트럼 형태, 스팩트로그램 형태로 그려서 표시하기 위한 수치정보의 배열을 얻어오는 음성 시각화 정보 추출부, 상기 음성 입출력 인터페이스를 통한 메모리로부터의 음성 파일에 대한 발음의 정확도, 유/무성음 여부, 발성의 크기, 발성의 시작 여부, 발성의 지속 상태, 발성의 높이를 계산하여 측정 결과값을 생성하는 발성 측정 인터페이스 및, 상기 음성 시각화 정보 추출부에서 계산하여 추출한 수치정보를 수신받아, 상기 발성 측정 인터페이스로부터의 측정 결과에 따라 발성을 시각화하여 화면 출력하는 발성 시각화 정보 발생부를 포함하여 구성된 것을 특징으로 하는 구화 교육용 발성 시각화 시스템.

시각화, 파형, 스팩트럼, 스팩트로그램

Description

구화 교육용 발성 시각화 시스템{Phonation Visualization System Using Lip Language Education}

도 1은 본 발명에 따른 구화 교육용 발성 시각화 시스템의 전체적인 구성을 나타낸 도면,

도 2는 도 1에 도시된 음성 입력 인터페이스와 음성 시각화 정보 추출부 및 발성 측정 인터페이스의 상세한 구성 상태를 나타낸 도면,

도 3은 입력된 아날로그 음성 신호를 디지털 변환하기 위한 샘플링 과정을 보여주는 파형도,

도 4a 및 도 4b는 음성 데이터의 입/출력 연산을 위한 블럭킹 프로세스와 넌 블럭킹 프로세스의 진행 상태를 나타낸 도면,

도 5는 본 발명의 바람직한 실시예에 따라 발음의 유사도를 측정하기 위한 음성 특징 추출 과정을 설명하기 위한 도면,

도 6은 음성의 특징이 추출된 데이터 사이의 유사성을 계산하는 다이나믹 타임 워핑(Dynamic Time Warping) 방식에 의해 특징 벡터열의 거리 계산 상태를 나타내는 도면,

도 7은 화자의 발음 특성을 측정하기 위한 포만트값의 이용을 위해 모음 발음에 대한 포만트 분포를 보여주는 도면,

도 8은 한국어의 모음에 대한 포만트 분포를 나타내는 도면,

도 9는 표준 발음 데이터에 대한 벡터 공간에서의 코드북을 나타낸 도면,

도 10은 본 발명의 바람직한 실시예에 따라 입력 음성의 소리 유무 판단을 위해 음성 파형의 에너지와 영교차율의 임계치를 나타낸 도면,

도 11은 본 발명의 바람직한 실시예에 따라 입력 음성의 소리 높이를 계산하기 위해 센터 클리핑(Center-Clipping) 함수가 적용되는 상태를 나타낸 도면,

도 12는 입력 음성에 대한 무성음과 유성음의 음성 파형을 나타낸 도면,

도 13은 본 발명의 바람직한 실시예에 따라 입력 음성의 발성을 인식하여 화면 상에 시각화된 파형, 스펙트럼, 스펙트로그램으로 표시되는 상태를 나타낸 도면이다.

<도면의 주요 부분에 대한 부호의 설명>

10:음성 입출력 인터페이스, 12:메모리,

14:음성 시각화 정보 추출부, 16:발성 측정 인터페이스,

18:발성 시각화 정보 발생부, 40:파형 수치정보 제공 인터페이스,

42:스팩트럼 수치정보 제공 인터페이스,

44:스팩트로그램 수치정보 제공 인터페이스.

본 발명은 사용자로부터 입력되는 음성을 분석하여 음성의 발성 상태를 시각 화하여 보여주기 위한 구화 교육용 발성 시각화 시스템에 관한 것이다.

최근, 화자의 음성을 입력받아 음성 인식 처리 및 음성 분석 처리를 거쳐서 다양한 용도로 적용하기 위한 기술이 개발되어 사용되고 있다.

입력 음성의 음성 인식 처리 및 음성 분석 처리 기술은, 화자로부터 입력된 음성 신호에서 해당 화자의 음성 특징을 추출하여 패턴화 함에 의해, 그 패턴화된 음성 데이터를 이용하여 출입문의 잠금 및 해정을 위한 키 데이터로 활용하고 있을 뿐만 아니라, 중요한 보안 자료를 갖춘 컴퓨터 시스템의 이용 허가를 위한 인증 정보로서도 활용되고 있다.

또한, 이러한 화자 음성의 발음 상태를 분석하여 원어민과의 발음과 비교함에 의해 외국어의 어학 학습이 효과적으로 이루어질 수 있도록 하는 용도로 사용되고 있다.

한편, 현재는 청각 장애아들의 발음 및 청능 교육을 위한 여러가지 교육 방안이 강구되고 있는 바, 발화 및 청능 훈련 프로그램에 따라 발화 및 청능 교육의 전문성을 가진 교육자를 통한 반복적인 발음 교육 및 청능 훈련을 실시하고 있는 상황이고, 그 발화 및 청능 교육을 위한 보조적인 장비로서 마이크로폰과 음성 증폭기기, 헤드폰 등을 사용하고 있는 실정이다.

그러나, 이러한 청각 장애아들을 위한 발화 및 청능 교육의 경우에는 발음 상태 및 청능이 뒤떨어진 청각 장애아들을 상대로 하여 반복적으로 발성할 수 있도록 하고, 음성을 반복적으로 들을 수 있도록 하는 교육 방식을 채택하고 있기 때문에, 일정 정도의 성과가 나타나기 까지 장시간이 소요될 뿐만 아니라, 발성 및 청 음이 뒤떨어진 청각 장애아의 입장에서는 교육의 흥미가 반감되어 훈련 효율이 떨어질 수 밖에 없다는 불리함이 있다.

이에, 청각 장애에 비해서 정상적인 시각을 가지고 있는 청각 장애아들을 대상으로 하는 교육상의 흥미 유발과 보다 정확하고 가시적인 교육 효과를 기대하기 위해서는, 청각 장애아의 발성을 분석하여 시각화 데이터 형태로 보여주는 기술에 대한 개발이 절실히 요구되는 실정이다.

따라서, 본 발명은 상기한 종래의 사정을 감안하여 이루어진 것으로서, 그 목적은 화자로부터 입력되는 음성을 다각적으로 분석하여 그 음성 상태를 다양한 시각화 정보 형태로 가시화하여 보여주기 위한 구화 교육용 발성 시각화 시스템을 제공하는 것이다.

상기한 목적을 달성하기 위해 본 발명에 따르면, 마이크로폰을 통해 입력되는 화자의 음성 신호를 녹음하여 메모리에 저장하거나, 해당 메모리에 저장된 음성 신호를 재생하기 위한 인터페이스 동작을 수행하는 음성 입출력 인터페이스와, 상기 음성 입출력 인터페이스의 녹음 기능에 의해 입력 음성 신호를 웨이브 파일 형태로 저장함과 더불어, 저장된 웨이브 파일의 재생을 위해 독출하는 메모리, 상기 음성입력 인터페이스를 통해 메모리로부터 재생되는 입력 음성의 웨이브 파일을 파형(Wave Form) 형태와, 스팩트럼(Spectrum) 형태, 스팩트로그램(Spectrogram) 형태로 그려서 표시하기 위한 수치정보의 배열을 얻어오는 음성 시각화 정보 추출부, 상기 음성 입출력 인터페이스를 통한 메모리로부터의 음성 파일에 대한 발음의 정확도, 유/무성음 여부, 발성의 크기, 발성의 시작 여부, 발성의 지속 상태, 발성의 높이를 계산하여 그 측정 결과값을 생성하는 발성 측정 인터페이스 및, 상기 음성 시각화 정보 추출부에서 계산하여 추출한 파형 수치정보와, 스팩트럼 수치정보, 스팩트로그램 수치정보를 수신받아, 상기 발성 측정 인터페이스로부터의 발음 정확도, 발성 유무, 발성 크기, 발성 시작, 발성 지속시간, 발성 높이의 계산과, 유/무성음 판단 결과, 재생/녹음장치의 상태에 따라 사용자의 발성음을 시각화하여 화면으로 출력하는 발성 시각화 정보 발생부를 포함하여 구성된 것을 특징으로 하는 구화 교육용 발성 시각화 시스템을 제공한다.

이하, 상기한 바와 같이 구성된 본 발명에 대해 첨부도면을 참조하여 상세히 설명한다.

즉, 도 1은 본 발명에 따른 구화 교육용 발성 시각화 시스템의 전체적인 구성을 나타낸 도면이다.

도 1에 도시된 바와 같이, 본 발명에 따른 구화 교육용 발성 시각화 시스템은, 음성 입출력 인터페이스(10)와, 메모리(12), 음성 시각화 정보 추출부(14), 발성 측정 인터페이스(16), 발성 시각화 정보 발생부(18)로 구성된다.

상기 음성 입출력 인터페이스(10)는 마이크로폰을 통해 입력되는 화자의 음성 신호를 녹음하여 상기 메모리(12)에 저장하거나, 해당 메모리(12)에 저장된 음성 신호를 재생하기 위한 인터페이스 동작을 수행한다.

여기서, 상기 음성 입출력 인터페이스(10)는 도 2에 도시된 바와 같이, 마이 크로폰을 통해 입력되는 음성을 최적화시키기 위한 파라미터를 설정하고, 소정 시간(msec) 동안의 환경 잡음 녹음 여부를 파라미터로 받는 음성 최적화 인터페이스(20)와, 상기 메모리(12)에 있는 웨이브 파일의 이름을 입력으로 받아 음성 신호를 해당 메모리(12)에 올리기 위한 음성파일 이름 인터페이스(22), 마이크로폰을 통해 입력되는 음성의 녹음 시작 이전에 메모리(12)의 저장 공간을 미리 확보하고, 녹음을 시작하기 위한 음성 녹음 인터페이스(24), 마이크로폰을 통해 입력되는 음성의 녹음을 종료시키기 위한 음성 녹음 종료 인터페이스(26), 상기 메모리(12)에 올려진 음성을 웨이브 파일 형태로 저장하기 위한 음성 파일 저장 인터페이스(28), 상기 메모리(12)에 저장된 웨이브 파일을 처음부터 재생시키거나, 지정 시간에서부터 재생시키기 위한 음성 파일 재생 인터페이스(30), 웨이브 파일의 재생 중에 일시 정지 시키거나, 일시 정지한 후에 다시 재생시키기 위한 음성 일시정지 인터페이스(32), 웨이브 파일을 재생하다가 멈추고 처음 위치로 되돌아가기 위한 음성 재생정지 인터페이스(34), 상기 메모리(12)에 저장되는 웨이브 파일의 전체 재생 시간 정보를 얻어오는 재생 시간정보 인터페이스(36)를 포함하여 구성된다.

상기 메모리(12)는 상기 음성 입출력 인터페이스(10)의 녹음 기능에 의해 입력 음성 신호를 웨이브 파일(Wave File) 형태로 저장함과 더불어, 저장된 웨이브 파일이 재생을 위해 독출된다.

또한, 상기 음성 시각화 정보 추출부(14)는 상기 음성입력 인터페이스(10)를 통해 메모리(12)로부터 재생되는 입력 음성의 웨이브 파일을 파형(Wave Form) 형태와, 스팩트럼(Spectrum) 형태, 스팩트로그램(Spectrogram) 형태로 그려서 표시하기 위한 수치정보의 배열을 얻어오게 된다.

여기서, 상기 음성 시각화 정보 추출부(14)는 도 2에 도시된 바와 같이, 상기 메모리(12)로부터의 웨이브 파일을 파형 형태로 그리기 위한 수치 정보의 배열을 얻어오고, 녹음 작업에 의해 현재 입력되는 웨이브 파일의 현재 시간에서의 파형을 그리기 위한 수치 정보를 얻어오는 파형 수치정보 제공 인터페이스(40)와, 상기 메모리(12)로부터의 웨이브 파일을 스팩트럼 형태로 그리기 위한 수치 정보의 배열을 얻어오고, 녹음 작업에 의해 현재 입력되는 웨이브 파일의 현재 시간에서의 스팩트럼을 그리기 위한 수치 정보를 얻어오는 스팩트럼 수치정보 제공 인터페이스(42), 상기 메모리(12)로부터의 웨이브 파일을 스팩트로그램 형태로 그리기 위한 수치 정보의 배열을 얻어오고, 녹음 작업에 의해 현재 입력되는 웨이브 파일의 현재 시간에서의 스팩트로그램을 그리기 위한 수치 정보를 얻어오는 스팩트로그램 수치정보 제공 인터페이스(44)를 포함하여 구성된다.

상기 파형 수치정보 제공 인터페이스(40)는 메모리(12)의 웨이브 파일에 대한 수치 정보의 배열을 얻어오는 경우에, 각각의 샘플링 포인트(Sampling Point)에서의 음성신호의 증폭도(Amplitude)를 Short Integer 값으로 반환하고, 반환되는 배열의 사이즈 정보를 파라미터로 참조하여 반환하되, 반환되는 배열의 샘플링 포인트 사이의 시간 간격은 샘플링 레이트를 사용하여 계산한다.

또한, 상기 파형 수치정보 제공 인터페이스(40)는 현재 입력되는 음성신호의 수치정보를 얻어오는 경우에, 콜백(Callback)이나 온타이머(onTimer)에서 호출될때마다 현재 버퍼에 있는 녹음중인 음성 데이터의 배열 포인터를 리턴한다.

상기 스팩트럼 수치정보 제공 인터페이스(42)는 메모리(12)의 웨이브 파일에 대한 수치 정보의 배열을 얻어오는 경우에, 전체 웨이브 데이터에 대한 스팩트럼 값들위 평균(즉, 전체 시간에 대한 각 주파수 성분의 증폭도의 평균)을 배열 포인터로 리턴하고, 반환되는 각각의 어레이는 연속되는 주파수 성분의 증폭도 값이 된다.

또한, 상기 스팩트럼 수치정보 제공 인터페이스(42)는 현재 입력되는 음성신호의 수치정보를 얻어오는 경우에, 콜백(Callback)이나 온타이머(onTimer)에서 호출될때마다 현재 버퍼에 있는 녹음중인 음성 데이터의 배열 포인터를 리턴한다.

상기 스팩트로그램 수치정보 제공 인터페이스(44)는 메모리(12)의 웨이브 파일에 대한 수치 정보의 배열을 얻어오는 경우에, 상기 메모리(12)에 있는 웨이브 데이터에 대한 스팩트럼 값을 녹음된 길이만큼 가지고 있는 2차 배열 포인터를 리턴하고, 웨이브 데이터의 각각의 샘플링 포인트에서의 각 주파수 성분의 증폭도를 저장한 2차원 배열 포인터를 반환한다.

또한, 상기 스팩트로그램 수치정보 제공 인터페이스(44)는 현재 입력되는 음성신호의 수치정보를 얻어오는 경우에, 콜백(Callback)이나 온타이머(onTimer)에서 호출될때마다 현재 버퍼에 있는 음성 데이터에 대한 스팩트럼 값을 현재 버퍼의 길이만큼 가지고 있는 2차 배열 포인터를 리턴한다.

상기 발성 측정 인터페이스(16)는 상기 음성 입출력 인터페이스(10)를 통한 메모리(12)로부터의 음성 파일에 대한 발음의 정확도, 유/무성음 여부, 발성의 크기, 발성의 시작 여부, 발성의 지속 상태, 발성의 높이를 계산하여 그 측정 결과값 을 생성하게 된다.

상기 발성 측정 인터페이스(16)는 도 2에 도시된 바와 같이, 상기 메모리(12)로부터의 2개의 웨이브 데이터(즉, 소스 웨이브와 타겟 웨이브) 간의 발음의 유사성을 측정하여 발음의 정확도를 수치적으로 계산하여 반환하는 발음 정확도 계산 인터페이스(50)와, 상기 메모리(12)로부터의 웨이브 데이터에 대한 특정 시간에서의 소리 입력 유무 또는 녹음 작업에 따라 현재 입력되는 음성의 현재 시간에서의 소리 입력 유무를 판단하는 발성 유무 판단 인터페이스(52), 상기 메모리(12)로부터의 웨이브 데이터에 대한 특정 시간에서의 발성 크기 또는 녹음 작업에 따라 현재 입력되는 음성의 현재 시간에서의 발성의 크기값을 반환하는 발성 크기 계산 인터페이스(54), 상기 메모리(12)로부터의 웨이브 데이터에 대한 특정 기간에서의 발성 시작 유무 또는 녹음 작업에 따라 현재 입력되는 음성의 현재 시간에서의 발성 시작 유무를 판단하여 반환하는 발성 시작 판단 인터페이스(56), 상기 메모리(12)로부터의 웨이브 데이터에 대한 특정 시간에서의 발성 지속 시간 또는 녹음 작업에 따라 현재 입력되는 음성의 현재 시간에서의 발성 지속 시간 정보를 반환하는 발성 지속시간 계산 인터페이스(58), 상기 메모리(12)로부터의 웨이브 데이터에 대한 특정 시간에서의 발성의 높이 또는 녹음 작업에 따라 현재 입력되는 음성의 현재 시간에서의 발성의 높이를 반환하는 발성 높이 계산 인터페이스(60), 상기 메모리(12)로부터의 웨이브 데이터에 대해 특정 시간에서 발성이 있는지 여부에 대한 판단과 발성이 있는 경우 유/무성음을 판단한 값을 반환하거나, 녹음 작업에 따라 현재 입력되는 음성에 대해 현재 시간에서 발성이 있는지 여부에 대한 판단을 하 고, 발성이 있는 경우 유/무성음을 판단한 값을 반환하는 유/무성음 판단 인터페이스(62), 녹음 종료 또는 재생 종료 여부를 판단하기 위해, 재생 및 녹음 장치의 현재 상태를 반환하는 재생/녹음장치 상태 인터페이스(64)를 포함하여 구성된다.

도 1에서, 상기 발성 시각화 정보 발생부(18)는 상기 음성 시각화 정보 추출부(14)에서 계산하여 추출한 파형 수치정보와, 스팩트럼 수치정보, 스팩트로그램 수치정보를 수신받아, 상기 발성 측정 인터페이스(16)로부터의 발음 정확도, 발성 유무, 발성 크기, 발성 시작, 발성 지속시간, 발성 높이의 계산과, 유/무성음 판단 결과, 재생/녹음장치의 상태에 따라 사용자의 발성음을 시각화하여 화면으로 출력하게 된다.

이어, 상기한 바와 같이 이루어진 본 발명의 동작에 대해 첨부도면을 참조하여 상세히 설명한다.

먼저, 마이크로폰을 통해 입력된 사용자의 아날로그 음성신호를 디지털신호로 변환하는 샘플링 및 양자화 작업을 수행하게 되는 바, 샘플링은 도 3에 도시된 바와 같이 연속적인 시간(Continuous-Time) 신호를 샘플링 주기인 T 간격의 분리된 시간으로 바꾸는 디스크리트 시간(Discrete-Time) 신호로 변환하게 된다. 사람의 음성은 주로 8KHz 내에 분포하기 때문에 샘플링 이론에 따라 8KHz의 2배인 16KHz의 샘플링 레이트로 샘플링한다.

양자화는 디스크리트 시간 신호의 샘플링된 신호를 디스크리트 밸류(Discrete-Valued) 신호로 변환하게 되는데, 본 발명에서는 음성신호를 16bit로 양자화한다.

상기 샘플링 및 양자화된 음성신호는 리니어 펄스 코드 변조 방식의 PCM으로 코딩하게 된다.

또한, 상기 음성 입출력 인터페이스(10)에서는 음성의 녹음(Input)과 음성의 재생(Output) 시에 블럭킹(Blocking) I/O 방식 또는 논 블럭킹(Non-Blocking) I/O 방식의 프로세스 진행을 하게 되는데, 상기 블럭킹 I/O 방식은 도 4a에 도시된 바와 같이 음성 녹음 또는 재생 중 CPU의 연산을 블럭(Block)하는 방식으로서 그 프로세스 진행은 I/O 1부터 5까지의 입출력 연산을 진행하고, 각각의 입출력 연산에 대해서 CPU 1부터 5까지의 사용자 연산을 클럭킹 I/O 방식으로 처리하도록 한다.

좌측의 진행에서는 I/O 연산을 모두 한 다음에 CPU 연산을 진행하는 경우를 나타내고, 우측의 진행에서는 한번의 I/O 연산 후에 해당 I/O 연산의 CPU 연산을 하는 경우를 나타낸다. 두가지 경우 모두 I/O 연산을 할때 CPU 연산이 블럭되어 있기 때문에, 많은 양의 데이터를 처리할 수 없도록 되어 있고, 좌측의 진행에서는 I/O 연산을 모두 한 다음에 CPU 연산을 하기 때문에, 늦은 응답 시간을 갖고 있으며, 우측의 진행에서는 CPU 연산 중에 I/O 연산을 할 수 없기 때문에 데이터의 손실이 생기게 된다. 이러한 단점을 해결한 것이 논 블럭킹 I/O이다.

상기 논 블럭킹 I/O 방식은 도 4b에 도시된 바와 같이, 음성 녹음 또는 재생 중에 CPU 연산을 블럭하지 않기 때문에 I/O 연산과 동시에 CPU 연산을 할 수 있는 방식으로서, I/O 1부터 5까지의 입출력 연산을 하고, 각각의 입출력 연산에 대해 CPU 1부터 5까지의 사용자 연산을 논 블럭킹 I/O 방식으로 처리하도록 하는 프로세스 진행이다. 상기 논 블럭킹 방식은 블럭킹 방식과는 달리 I/O 연산과 CPU 연산을 동시에 할 수 있기 때문에, 빠른 응답 시간을 갖고 있으며, 많은 양의 데이터를 처리할 수 있고 입력 데이터의 손실이 없다. 따라서, 본 발명의 음성 입출력 인터페이스(10)에서는 논 블럭킹 I/O 방식을 사용하는 것이 바람직하다.

한편, 음성 시각화 정보 추출부(14)에서는 스팩트럼을 그리기 위한 음성 웨이브 파형의 푸리에 변환을 거치게 되어 주파수 도메인 값으로 표시를 진행하게 되는데, 빠른 수행 속도를 위해서 고속 푸리에 변환(Fast Fourier Transform) 을 수행한다.

상기 발성 측정 인터페이스(16)에서는, 발음 정확도 계산 인터페이스(50)를 통해서 표준 발음과 발성 화자와의 발음 유사도를 측정하게 되는데, 그 발음 유사도를 측정하기에 앞서서 입력된 음성 파형의 특징을 검출하는 특징 추출(Feature Extraction) 과정을 수행한다.

상기 특징 추출 과정은 도 5에 도시된 바와 같이, MFCC(Mel-Frequency Cepstral Coefficient) 방법을 사용하여 시간 축 음성 데이터에 대한 주파수 특성을 분석한 뒤에, 그 주파수 값을 잘 구분짓는 멜 스케일(Mel Scale)로 스팩트럼 값을 필터링하게 된다.

그 다음에, 사람의 청력으로 소리를 받아들이는 특징인 로그 스케일(Log Scale) 연산 과정을 거친 벡터값에 대한 주파수 특성을 다시 추출하는 DCT 변환을 적용하게 되고, 최종적으로 데이터 값이 13차가 되는 벡터로의 변환이 이루어지게 되는데, 여기서는 시간에 따른 벡터값의 변화 정도를 측정하여 다시 벡터값으로 가지게 되면 39차 특정 벡터가 되는 데이터 변환 과정이 마무리된다. 여기서는 연산 량을 줄이기 위해 13 벡터까지만을 이용한 두 음성 데이터 값의 유사성 계산을 수행한다.

한편, 상기 발성 측정 인터페이스(16)에서, 상기 발음 정확도 계산 인터페이스(50)는 상기 특징 추출 과정에 의해 특징이 추출된 데이터를 가지고 두 데이터 사이의 유사성을 계산하는 바분맥 종속 알고리즘을 수행하게 되는데, 그 바문맥 종속 알고리즘으로서 다이나믹 시간 워핑(Dynamic Time Warping; DTW) 방식을 사용한다.

상기 다이나믹 시간 워핑(DTW) 방식은 동일한 발음이라도 말하는 사람에 따라서 그 길이가 달라지는 문제가 있기 때문에, 이를 해결하기 위한 것으로서 입력으로 들어오는 테스트 특징 패턴의 시간축 벡터열과 저장된 음성 단위들이 대표 패턴의 시간축 벡터열을 직접 비교하여 서로 대응되는 프레임을 찾아내는 것이다. 이 경우에, 도 6에 도시된 바와 같이 발음 속도의 차이에 따른 영향을 보상해 주기 위해서 시간축 정규화 기술을 사용하게 되고, 통상 하나의 단어를 발성하는 경우에 화자, 감정, 주변 환경에 따라 각기 다른 지속시간을 가지게 되므로, 이러한 지속길이의 불일치를 비선형적으로 최적화하여 수행하는 특성을 갖는다. 저장된 대표 패턴은 특징 벡터열로 이루어져 있는데, 이 벡터들과 입력 음성의 특징 벡터열과의 거리를 계산하게 된다.

입력 음성과 그에 해당하는 대표 패턴이 정해지면, 도 6에 도시된 바와 같이 다이나믹 시간 워핑 방식에서는 현재점이 과거의 어떠한 점으로부터 오는 것이 최적인지를 비교하여 모든 가능한 최적화된 경로를 탐색하여 시간축에 대해서 Piece- Wise 리니어 매핑을 수행하게 되고, 그에 따라 계산된 z가 최소가 되도록 두 신호를 정렬하게 되는데, 이때 z값이 거리값이 된다. 다이나믹 시간 워핑 방식에서는 인식 대상 어휘가 작은 고립 단어 인식에 주로 이용될 수 있다.

한편, 화자의 발음 특성을 측정하는 방식 중에서 포만트값을 이용할 수 있는데, 이는 모음의 발음시에 서로 다른 위치에서 나타나는 포만트값의 유사도를 이용할 수 있다.

상기 포만트값은 성도의 변동 특성이 스팩트럼 상에서 나타나는 공진주파수의 위치로서 대역폭의 변화를 일으켜 음의 차이로 보여지는데, 이러한 음의 변화를 수학적으로 모델링한 것이 선형예측 계수(Linear Prediction Coeffient)이다. 상기 선형예측 계수는 각 포만트의 중심 주파수와 대역폭을 나타내어 성도의 특성을 나타낸다.

따라서, 상기 선형예측 계수를 각 음성의 특징벡터로 사용할 때, 이를 추출하기 위해서 Durbin's 알고리즘을 이용하고, 빠른 처리를 위해서 LPC Cepstrum 변환을 적용한다. 상기 구해진 선형예측 계수로부터 화자의 모음 발음에 대한 포만트 F1, F2 값을 표시하면, 도 7에 도시된 바와 같은 분포 형태로 나타난다.

또한, 한국어 모음에 대한 포만트 분포는, 도 9에 도시된 바와 같이 나타나게 되는데, 포만트를 이용한 모음 발음의 분포 상태는 남성, 여성, 연령대, 지역에 따라서 다소의 차이는 있으나 기본적인 발음 화자의 특징값으로 파악하는데 이용될 수 있다.

여기서, 상기 다이나믹 시간 워핑(DTW) 기법은 두 벡터 사이의 거리를 계산 할 수 있지만, 동일 발음에 대한 화자 간의 차이를 구별하기는 어렵도록 되어 있는 바, 이를 해결하기 위해 표준 발음 데이터에 대한 코드북을 생성하여 다른 화자와 표준 발음으로 정의된 화자 간의 코드북 거리값을 계산하게 된다.

상기 코드북을 만들기 위한 방안으로서는 Kmeans 알고리즘을 적용하게 되는데, 이 Kmeans 알고리즘은 벡터 양자화(Vector Quantization) 방법 중에 하나로서 표준 발음 데이터인 벡터들의 분포를 코드워드(Codeword) 중심으로 그룹화하여 1024개로 구분짓게 된다.

도 9에 도시된 바와 같이, 벡터들이 가장 가까운 코드워드가 있는 구역으로 그룹지어지게 되고, 화자간의 발음 특성이 다를수록 코드북의 개별 그룹 중심인 코드워드와의 거리값이 커지게 되는 반면에, 발음 특성이 유사한 화자는 코드북의 코드워드와의 거리값이 작아지게 된다. 상기와 같이, 코드북의 거리값으로 화자간의 차이를 정규화시키는 방법을 이용하여 다이나믹 시간 워핑 기법을 적용한 표준 발음과의 유사성 계산을 수행한다.

다음에, 상기 발성 측정 인터페이스(16)의 발성유무 판단 인터페이스(52)에서는 입력 음성의 소리 유무 판단을 음성 파형의 에너지와 영교차율을 이용하여 수행하게 된다.

상기 에너지와 영교차율은 한 프레임에서의 값을 계산하는 것이며, 영교차율의 임계치는 조용한 환경에서 측정된 에너지 값과 영교차율 값을 사용하는 것이 바람직하다. 즉, 마이크로폰을 통해 입력된 음성이 임계치보다 낮은 에너지 값을 갖거나 영교차율 값을 가지면 소리가 없는 것으로 판단하고, 임계치보다 높은 에너지 값 또는 영교차율값을 가지면 소리가 있는 것으로 판단하게 되는 것이다.

도 10에 도시된 바와 같이, ITU와 ITL은 각각 단계별 에너지 값에 대한 임계치를 나타낸 것이고, IZCT는 영교차율에 대한 임계치를 나타낸 것이다.

상기 음성 파형의 에너지를 계산하는 식은 하기한 수학식 1과 같이 나타난다.

여기서, x(i)는 i번째 음성 벡터이며, j는 에너지값을 계산할 프레임의 시작을 나타내고, k는 한 프레임의 사이즈를 나타낸다.

따라서, 상기 수학식 1은 k개의 음성 벡터로 이루어진 한 프레임의 에너지값을 의미하며, 영교차율의 계산은 하기한 수학식 2와 같이 나타난다.

상기 수학식 2에서는 한 프레임에서 음성이 영점을 기준으로 몇번이나 교차하는지를 비율로 측정하는 것으로서, 영점이 많이 교차할수록 소리가 있다고 판단하게 된다.

또한, 상기 발성 측정 인터페이스(16)의 발성 크기 계산 인터페이스(54)는 상기 수학식 1에서 계산된 에너지값을 이용하여 발성의 크기를 측정하게 되며, 단위는 데시벨(dB)을 사용한다. 여기서, 1데시벨(dB)에서는 음향력의 비율에 상용 로그값을 취해서 10을 곱한 것으로서, 소리의 세기가 2배로 커지게 되면 약 3.01데시벨(dB) 만큼 값이 더 커지게 된다.

한편, 소리의 크기를 데시벨 단위로 나타낼 때에는 사람이 겨우 들을 수 있는 정도의 소리와 비교되는데, 예컨대 90데시벨(dB)의 소리는 간신히 들을 수 있는 소리보다 강도가 109배나 더 큰것이다.

또, 상기 발성 측정 인터페이스(16)의 발성 시작 판단 인터페이스(56)는 사용자의 발성이 시작되었는지를 판단하는 알고리즘으로서, 상기 소리의 유무 판단에 사용된 에너지와 영교차율을 동일하게 적용한다. 즉, 상기 마이크로폰을 통해 입력된 음성이 임계치보다 낮은 에너지 값 또는 영교차율 값을 가지게 되면, 발성이 시작되지 않았다고 판단하고 임계치보다 높은 에너지 값과 영교차율이 감지되면 발성이 시작된 것으로 판단하게 되는 것이다.

또한, 상기 발성 측정 인터페이스(16)의 발성 지속시간 계산 인터페이스(58)는, 소리의 유무 측정 상태를 이용하여 소리가 있다고 판단되는 것이 얼마나 지속되는지를 측정하게 되는데, 예컨대 한 프레임이 25msec라고 가정한다면 매 25msec마다 소리가 있는지를 측정하여 소리가 있다고 처음 측정되면, 발성 지속시간을 25msec로 하고 그 다음 25msec에서도 소리 유무를 측정하여 소리가 있다고 측정되면, 발성 지속시간에 25msec를 더하여 50msec로 한다.

이에 따라, 소리가 발생되었다고 측정이 이루어질 때마다 발성 지속시간을 25msec 씩 더해 나간다. 하지만, 소리가 없다고 측정되면 발성 지속시간을 0으로 한다.

상기 발성 측정 인터페이스(16)의 발성 높이 계산 인터페이스(60)에서는, 소리의 높이를 계산하는 알고리즘으로서 센터 클리핑(Center-Clipping) 함수를 이용한 자기상관(Autocorrelation) 방식을 사용한다.

상기 센터 클리핑 함수는 자기상관 함수에 데이터를 입력시키기 전에 필요없는 정보를 제거하는 역할을 수행한다.

도 11에 도시된 바와 같이, 상기 센터 클리핑 함수는 음성 신호가 일정한 레벨(CL) 내에 있으면 그 신호를 무시하고, 일정 레벨(CL) 보다 크면 원래 신호에서 해당 일정 레벨(CL)을 뺀다. 이는 음성 신호 중에서 피치에 해당하는 성분이 크기가 크게 나타나는 특징을 이용하여 잔여 성분을 제거하는 방법이다.

그 다음에, 상기 발성 측정 인터페이스(16)의 유/무성음 판단 인터페이스(62)에서는, 피치 검출 알고리즘을 이용하여 유성음 및 무성음을 판별할 수 있도록 하고 있으며, 무성음은 특정 피치 값 이상으로 측정되지 않는다는 것을 이용하여 특정 임계치를 정하여 입력 음성이 임계치 이상의 피치값을 가지면 유성음으로 판단하고, 임계치 이하이면 무성음으로 판별하게 된다.

도 12에 도시된 바와 같이, 분리된 유성음은 [d], [b], [g], [v], [z], [zh], [j], [m], [n], [η], [l], [r], [y]. [th] 발음이며, 무성음은 [t], [p], [k], [f], [s], [sh], [ch], [th] 발음이다.

한편, 상기 발성 시각화 정보 발생부(18)에서는 상기 음성 시각화 정보 추출부(14)로부터 추출된 음성 시각화 정보와, 발성 측정 인터페이스(16)로부터 측정된 결과를 근거로 하여 영상 화면 상에 파형과, 스팩트럼, 스팩트로그램의 형태로 시각화된 음성을 표시하게 되는 바, 도 13에 도시된 바와 같이 입력 음성의 파형과, 스팩트럼, 스팩트로그램을 동시에 화면 표시할 수 있게 된다.

상기에서 본 발명의 특정한 실시예가 설명 및 도시되었지만, 본 발명이 당업자에 의해 다양하게 변형되어 실시될 가능성이 있는 것은 자명한 일이다. 이와 같은 변형된 실시예들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안되며, 본 발명에 첨부된 청구범위 안에 속한다고 해야 할 것이다.

이상과 같이 본 발명에 따르면, 사용자로부터 입력된 음성을 측정하여 시각화된 파형과, 스팩트럼, 스팩트로그램의 형태로 표현되도록 화면 상에 그래픽 표시함에 따라, 청각 장애아들의 발화 및 청능 교육 등에 적용하게 되면 보다 효율적인 교육이 가능하게 할 수 있다는 효과를 갖게 된다.

Claims

마이크로폰을 통해 입력되는 화자의 음성 신호를 녹음하여 메모리에 저장하거나, 해당 메모리에 저장된 음성 신호를 재생하기 위한 인터페이스 동작을 수행하는 음성 입출력 인터페이스와;

상기 음성 입출력 인터페이스의 녹음 기능에 의해 입력 음성 신호를 웨이브 파일 형태로 저장함과 더불어, 저장된 웨이브 파일의 재생을 위해 독출하는 메모리;

상기 음성입력 인터페이스를 통해 메모리로부터 재생되는 입력 음성의 웨이브 파일을 파형(Wave Form) 형태와, 스팩트럼(Spectrum) 형태, 스팩트로그램(Spectrogram) 형태로 그려서 표시하기 위한 수치정보의 배열을 얻어오는 음성 시각화 정보 추출부;

상기 음성 입출력 인터페이스를 통한 메모리로부터의 음성 파일에 대한 발음의 정확도, 유/무성음 여부, 발성의 크기, 발성의 시작 여부, 발성의 지속 상태, 발성의 높이를 계산하여 그 측정 결과값을 생성하는 발성 측정 인터페이스; 및

상기 음성 시각화 정보 추출부에서 계산하여 추출한 파형 수치정보와, 스팩트럼 수치정보, 스팩트로그램 수치정보를 수신받아, 상기 발성 측정 인터페이스로부터의 발음 정확도, 발성 유무, 발성 크기, 발성 시작, 발성 지속시간, 발성 높이의 계산과, 유/무성음 판단 결과, 재생/녹음장치의 상태에 따라 사용자의 발성음을 시각화하여 화면으로 출력하는 발성 시각화 정보 발생부를 포함하여 구성된 것을 특징으로 하는 구화 교육용 발성 시각화 시스템.
제 1 항에 있어서,

상기 음성 입출력 인터페이스는, 마이크로폰을 통해 입력되는 음성을 최적화시키기 위한 파라미터를 설정하고, 소정 시간 동안의 환경 잡음 녹음 여부를 파라미터로 받는 음성 최적화 인터페이스와,

상기 메모리에 있는 웨이브 파일의 이름을 입력으로 받아 음성 신호를 해당 메모리에 올리기 위한 음성파일 이름 인터페이스,

마이크로폰을 통해 입력되는 음성의 녹음 시작 이전에 메모리의 저장 공간을 미리 확보하고, 녹음을 시작하기 위한 음성 녹음 인터페이스,

마이크로폰을 통해 입력되는 음성의 녹음을 종료시키기 위한 음성 녹음 종료 인터페이스,

상기 메모리에 올려진 음성을 웨이브 파일 형태로 저장하기 위한 음성 파일 저장 인터페이스,

상기 메모리에 저장된 웨이브 파일을 처음부터 재생시키거나, 지정 시간에서부터 재생시키기 위한 음성 파일 재생 인터페이스,

웨이브 파일의 재생 중에 일시 정지 시키거나, 일시 정지한 후에 다시 재생시키기 위한 음성 일시정지 인터페이스,

웨이브 파일을 재생하다가 멈추고 처음 위치로 되돌아가기 위한 음성 재생정지 인터페이스 및,

상기 메모리에 저장되는 웨이브 파일의 전체 재생 시간 정보를 얻어오는 재생 시간정보 인터페이스를 포함하여 구성된 것을 특징으로 하는 구화 교육용 발성 시각화 시스템.
제 1 항에 있어서,

상기 음성 시각화 정보 추출부는, 상기 메모리로부터의 웨이브 파일을 파형 형태로 그리기 위한 수치 정보의 배열을 얻어오고, 녹음 작업에 의해 현재 입력되는 웨이브 파일의 현재 시간에서의 파형을 그리기 위한 수치 정보를 얻어오는 파형 수치정보 제공 인터페이스와, 상기 메모리로부터의 웨이브 파일을 스팩트럼 형태로 그리기 위한 수치 정보의 배열을 얻어오고, 녹음 작업에 의해 현재 입력되는 웨이브 파일의 현재 시간에서의 스팩트럼을 그리기 위한 수치 정보를 얻어오는 스팩트럼 수치정보 제공 인터페이스, 상기 메모리로부터의 웨이브 파일을 스팩트로그램 형태로 그리기 위한 수치 정보의 배열을 얻어오고, 녹음 작업에 의해 현재 입력되는 웨이브 파일의 현재 시간에서의 스팩트로그램을 그리기 위한 수치 정보를 얻어오는 스팩트로그램 수치정보 제공 인터페이스를 포함하여 구성되고,

상기 발성 측정 인터페이스는, 상기 메모리로부터의 2개의 웨이브 데이터 간의 발음의 유사성을 측정하여 발음의 정확도를 수치적으로 계산하여 반환하는 발음 정확도 계산 인터페이스와, 상기 메모리로부터의 웨이브 데이터에 대한 특정 시간에서의 소리 입력 유무 또는 녹음 작업에 따라 현재 입력되는 음성의 현재 시간에서의 소리 입력 유무를 판단하는 발성 유무 판단 인터페이스, 상기 메모리로부터의 웨이브 데이터에 대한 특정 시간에서의 발성 크기 또는 녹음 작업에 따라 현재 입력되는 음성의 현재 시간에서의 발성의 크기값을 반환하는 발성 크기 계산 인터페이스, 상기 메모리로부터의 웨이브 데이터에 대한 특정 기간에서의 발성 시작 유무 또는 녹음 작업에 따라 현재 입력되는 음성의 현재 시간에서의 발성 시작 유무를 판단하여 반환하는 발성 시작 판단 인터페이스, 상기 메모리로부터의 웨이브 데이터에 대한 특정 시간에서의 발성 지속 시간 또는 녹음 작업에 따라 현재 입력되는 음성의 현재 시간에서의 발성 지속 시간 정보를 반환하는 발성 지속시간 계산 인터페이스, 상기 메모리로부터의 웨이브 데이터에 대한 특정 시간에서의 발성의 높이 또는 녹음 작업에 따라 현재 입력되는 음성의 현재 시간에서의 발성의 높이를 반환하는 발성 높이 계산 인터페이스, 상기 메모리로부터의 웨이브 데이터에 대해 특정 시간에서 발성이 있는지 여부에 대한 판단과 발성이 있는 경우 유/무성음을 판단한 값을 반환하거나, 녹음 작업에 따라 현재 입력되는 음성에 대해 현재 시간에서 발성이 있는지 여부에 대한 판단을 하고, 발성이 있는 경우 유/무성음을 판단한 값을 반환하는 유/무성음 판단 인터페이스 및, 녹음 종료 또는 재생 종료 여부를 판단하기 위해, 재생 및 녹음 장치의 현재 상태를 반환하는 재생/녹음장치 상태 인터페이스를 포함하여 구성된 것을 특징으로 하는 구화 교육용 발성 시각화 시스템.