KR102188264B1

KR102188264B1 - 언어재활 기반 발성 음성 평가 장치 및 방법

Info

Publication number: KR102188264B1
Application number: KR1020190001073A
Authority: KR
Inventors: 최성준; 이건수; 남윤영; 홍경훈
Original assignee: 순천향대학교 산학협력단
Priority date: 2019-01-04
Filing date: 2019-01-04
Publication date: 2020-12-08
Also published as: KR20200085041A

Abstract

본 발명은 언어재활 기반 발성 음성 평가 장치 및 방법에 관한 것으로, 더욱 상세하게는 정상인과는 다른 발성 특징을 갖고 있는 언어 장애인이 발성한 발음에 대한 복수의 속성에 대한 특징을 추출하고 복수의 속성에 따른 속성 공간에서의 표준 특징과의 거리를 계측하고, 상기 각 속성별 가중치를 상기 속성별 거리에 적용한 평균값에 의해 발성의 장애유무 및 장애 정도를 판별하는 언어재활 기반 발성 음성 평가 장치 및 방법에 관한 것이다.

Description

언어재활 기반 발성 음성 평가 장치 및 방법{Language rehabilitation based vocal voice evaluation apparatus and method thereof}

일반적으로, 사람의 목소리를 처리하기 위한 기존 기술들은 대부분 다음의 두 가지 목표를 위해 개발되어 왔다.

첫 번째 목표는 목소리를 듣고, 화자를 구분하는 것이고, 두 번째 목표는 지금 하는 말은 무엇인지를 인지하는 것이다.

첫 번째 목표를 위한 기술은 개개인이 갖고 있 발성 특징을 찾고, 찾아진 발성 패턴의 소유자를 찾는 방법에 관한 기술이며, 두 번째 목표를 위한 기술은 개개인의 특성을 제거하고 남은 발성 정보를 바탕으로 어떤 어휘가 발음되었는지를 찾는 방법에 관한 기술이다.

현재 음성 인식 관련 연구는 이들 기술들이 주를 이루고 있으며, 여기에서 발전하여 음성인식, 즉 두 번째 기술에 기반하여 언어장애 여부 등을 검사할 수 있는 기술들 또한 연구되고 있다.

그러나 종래 언어장애 검사 기술은 상술한 바와 같이 음성인식에 기반한 기술로 정확한 표현을 하지 못함에 의한 장애만을 검사할 뿐, 음성인식 불가에서 출발하여 표준 발성과의 발성 발음 자체의 불일치의 정도를 판단하여 발성 음성을 평가할 수 없는 문제점이 있었다.

등록특허공보 제10-1804389호(2017.12.04.공고)

따라서 본 발명의 목적은 정상인과는 다른 발성 특징을 갖고 있는 언어 장애인이 발성한 발음에 대한 복수의 속성에 대한 특징을 추출하고 복수의 속성에 따른 속성 공간에서의 표준 특징과의 거리를 계측하고, 상기 각 속성별 가중치를 상기 속성별 거리에 적용한 평균값에 의해 발성의 장애유무 및 장애 정도를 판별하는 언어재활 기반 발성 음성 평가 장치 및 방법을 제공함에 있다.

상기와 같은 목적을 달성하기 위한 본 발명에 따른 언어재활 기반 발성 음성 평가 장치는: 표준음성에 대한 속성별 표준음성 특징정보를 저장하는 표준음성 DB 및 평가 기준 레벨값을 저장하는 평가 기준 DB를 포함하는 저장부; 발화자가 발성하는 음성을 입력받아 음성 데이터를 출력하는 오디오 처리부; 및 상기 음성 데이터를 입력받아 다수의 프레임으로 분할하고, 프레임 단위로 샘플링하여 정규화하며, 정규화된 프레임 단위의 복수의 속성별 특징을 검출하고, 검출된 속성별 특징과 상기 표준음성 DB에 미리 저장되어 있는 발성된 상기 음성에 대한 해당 표준음성의 속성별 특징정보의 특징간의 유클리드 거리(유사도)를 계산하고, 계산된 각 속성별 유클리드 거리를 복합적으로 반영한 평가값을 계산한 후, 계산된 상기 평가값과 상기 평가 기준 DB의 평가 기준 레벨값을 비교하여 상기 발화자의 발성 음성을 평가하는 제어부를 포함하는 것을 특징으로 한다.

상기 제어부는, 상기 오디오 처리부를 통해 음성 데이터를 획득하여 출력하는 음성신호 처리부; 상기 음성신호 처리부로부터 음성 데이터를 입력받고, 다수의 프레임으로 분할하고, 프레임 단위로 샘플링하여 정규화하며, 정규화된 프레임 단위의 복수의 속성별 특징을 검출하는 음성 특징 추출부; 검출된 속성별 특징과 상기 표준음성 DB에 미리 저장되어 있는 표준음성에 대한 속성별 특징간의 거리(유사도)를 계산하는 유클리드 거리 계산부; 계산된 각 속성별 거리를 복합적으로 반영한 평가값을 계산하는 평가값 계산부; 및 계산된 상기 평가값과 상기 평가 기준 DB의 평가 기준 레벨값을 비교하여 상기 발화자의 발성 음성을 평가하는 음성 평가부를 포함하는 것을 특징으로 한다.

상기 음성 특징 추출부는, 다수의 프레임으로 분할하고, 프레임 단위로 샘플링하여 정규화하는 샘플링부; 정규화된 프레임에 단기 푸리에 변환(Short Term Fourier Transform)을 수행하여 발성 음성에 대응하는 상기 음성 데이터에 대한 파워 스펙트럼을 구하는 에너지 스펙트럼 획득부; 상기 파워 스펙트럼에 대한 각 주파수 구간에서의 각각의 속성별 에너지를 추출하는 속성별 특징 추출부; 상기 각 속성의 구간별 에너지에 로그를 취하여 로그값을 계산하는 구간별 로그부; 및 각 속성에 대해 구간별 연속되는 로그값에 의해 표현되는 곡선에 대한 이산 코사인 변환을 수행하여 이산 코사인 변환값을 특징값으로 출력하는 이산 코사인 변환 계산부를 포함하는 것을 특징으로 한다.

상기 속성별 특징 추출부는, 상기 파워 스펙트럼에 멜 스케일(Mel Scale)필터 뱅크를 적용하여 발성 음성에 대한 청각 기반 속성의 에너지를 계산하고, 계산된 에너지를 합하여 제1 특징을 추출하는 MFCC 특징 추출부; 상기 파워 스펙트럼에 선형 스케일(Linear Scale)필터 뱅크를 적용하여 발성 음성에 대한 성도 기반 속성의 에너지를 계산하고, 계산된 에너지를 합하여 제2 특징을 추출하는 LPCC 특징 추출부; 및 상기 파워 스펙트럼에 바크 스케일(Bark Scale)필터 뱅크 및 노이즈 필터를 적용하여 배경 잡음이 제거된 발성 음성에 대한 에너지를 계산하고, 계산된 에너지를 합하여 제3 특징을 추출하는 RASTA-PLP(Relative Spectral-Perceptual Linear Prediction) 특징 추출부를 포함하는 것을 특징으로 한다.

상기 표준음성 DB는, 미리 정의된 어휘에 대한 표준음성 특징정보를 저장하고, 상기 제어부는, 미리 정의된 어휘 중 어느 하나 이상을 오디오 처리부의 스피커를 통해 순차적으로 출력하여 상기 발화자가 출력되는 어휘에 대한 음성을 발성하도록 유도하는 것을 특징으로 한다.

상기 어휘는 유탭(U-TAP) 어휘인 것을 특징으로 한다.

상기 평가값 계산부는, MFCC, LPCC 및 RASTA-PLP 속성별 가중치(MFCC->w1, LPCC->w2, RASTA-PLP->w3) 및 속성별 유클리드 거리를 하기 수학식 2에 적용하여 평가값을 계산하는 것을 특징으로 한다.

[수학식 2]

여기서, Feature_similarity_i는 각 속성의 유클리드 거리이다.

상기 표준음성 DB는, 미리 정의된 어휘에 대한 표준 음성 특징정보 및 어휘별 가중치를 저장하고, 상기 제어부는, 미리 정의된 어휘 중 어느 하나 이상을 오디오 처리부의 스피커를 통해 순차적으로 출력하여 상기 발화자가 출력되는 어휘에 대한 음성을 발성하도록 유도한 후, 발성 유도된 어휘에 따라 입력되는 음성의 어휘에 대응하는 가중치를 적용하는 것을 특징으로 한다.

상기와 같은 목적을 달성하기 위한 본 발명에 따른 언어재활 기반 발성 음성 평가 방법은: 제어부가 오디오 처리부를 통해 발화자가 발성한 음성에 대한 음성 데이터를 획득하는 음성 획득 과정; 상기 제어부가 상기 음성 데이터를 다수의 프레임으로 분할하고, 프레임 단위로 샘플링하여 정규화하며, 정규화된 프레임 단위의 복수의 속성별 특징을 검출하는 속성별 특징 검출 과정; 상기 제어부가 검출된 속성별 특징과 표준음성 DB에 미리 저장되어 있는 표준음성에 대한 속성별 특징간의 유클리드 거리(유사도)를 계산하는 유클리드 거리 계산 과정; 상기 제어부가 계산된 각 속성별 유클리드 거리를 복합적으로 반영한 평가값을 계산하는 평가값 계산 과정; 및 상기 제어부가 계산된 상기 평가값과 상기 평가 기준 DB의 평가 기준 레벨값을 비교하여 상기 발화자의 발성 음성을 평가하는 평가 과정을 포함하는 것을 특징으로 한다.

삭제

상기 속성별 특징 검출 과정은, 다수의 프레임으로 분할하고, 프레임 단위로 샘플링하여 정규화하는 샘플링 단계; 정규화된 프레임에 단기 푸리에 변환(Short Term Fourier Transform)을 수행하여 발성 음성에 대응하는 상기 음성 데이터에 대한 파워 스펙트럼을 구하는 에너지 스펙트럼 획득 단계; 상기 파워 스펙트럼에 대한 각 주파수 구간에서의 각각의 속성별 특징(에너지값)을 추출하는 속성별 특징 추출 단계; 상기 각 속성의 구간별 특징에 로그를 취하여 로그값을 계산하는 구간별 로그값 계산 단계; 상기 각 속성의 구간별 특징에 로그를 취하여 로그값을 계산하는 구간별 로그값 계산 단계; 및 각 속성의 구간별 로그값에 이산 코사인 변환을 수행하여 이산 코사인 변환값을 계산하는 이산 코사인 변환 계산 단계를 포함하는 것을 특징으로 한다.

상기 속성별 특징 추출 단계는, 상기 파워 스펙트럼에 멜 스케일(Mel Scale)필터 뱅크를 적용하여 발성 음성에 대한 청각 기반 속성의 에너지를 계산하고, 계산된 에너지를 합하여 제1 특징을 추출하는 MFCC 특징 추출 단계; 상기 파워 스펙트럼에 선형 스케일(Linear Scale)필터 뱅크를 적용하여 발성 음성에 대한 성도 기반 속성의 에너지를 계산하고, 계산된 에너지를 합하여 제2 특징을 추출하는 LPCC 특징 추출 단계; 및 상기 파워 스펙트럼에 바크 스케일(Bark Scale)필터 뱅크를 적용하여 발성 음성에 대한 억양 기반 속성의 에너지를 계산하고, 계산된 에너지를 합하여 제3 특징을 추출하는 RASTA-PLP(Relative Spectral-Packet Level Procedure) 특징 추출 단계를 포함하는 것을 특징으로 한다.

상기 방법은: 상기 제어부가 표준음성 DB에 미리 정의된 어휘 중 어느 하나 이상을 오디오 처리부의 스피커를 통해 순차적으로 출력하여 상기 발화자가 출력되는 어휘에 대한 음성을 발성하도록 유도하는 어휘 발성 유도 과정을 더 포함하는 것을 특징으로 한다.

상기 어휘는 유탭(U-TAP) 어휘인 것을 특징으로 한다.

상기 제어부는, MFCC, LPCC 및 RASTA-PLP 속성별 가중치(MFCC->w1, LPCC->w2, RASTA-PLP->w3) 및 속성별 유클리드 거리를 하기 수학식 2에 적용하여 평가값을 계산하는 것을 특징으로 한다.

[수학식 2]

여기서, Feature_similarity_i는 각 속성의 유클리드 거리이다. 한다.

본 발명은 발화자가 발성한 음성에 대해 세 가지의 속성을 측정하고, 측정된 세 가지의 속성에 따른 속성 공간에서 표준 발성과의 거리를 측정하고, 속성별 가중치를 적용하여 발화자의 발성을 평가하므로 발화자의 장애 여부 및 정상인과의 차이에 따른 장애 정도를 정확하게 판별할 수 있는 효과를 갖는다.

본 발명은 장애 여부 및 장애 정도를 정확하게 판단할 수 있으므로 재활치료사에 따른 재활 훈련의 질 변화를 방지하고, 보다 저렴한 비용으로 양질의 음성 재활 서비스를 제공하도록 할 수 있는 효과를 갖는다.

도 1은 본 발명에 따른 언어재활 기반 발성 음성 평가 장치의 구성을 나타낸 도면이다.
도 2는 본 발명에 따른 언어재활 기반 발성 음성 평가 방법을 나타낸 흐름도이다.
도 3은 본 발명에 따른 언어재활기반 발성 음성 평가 방법 중 음성 특징 추출 방법을 나타낸 흐름도이다.
도 4는 본 발명의 일실시예에 따른 장애 아동 및 정상 아동의 음성 파형 및 특징들을 나타낸 도면이다.

이하 첨부된 도면을 참조하여 본 발명에 따른 언어재활 기반 발성 음성 평가 장치의 구성 및 동작을 설명하고, 그에 따른 발성 음성 평가 방법을 상세히 설명한다.

도 1은 본 발명에 따른 언어재활 기반 발성 음성 평가 장치의 구성을 나타낸 도면이다.

본 발명에 따른 언어재활 기반 발성 음성 평가 장치는 저장부(10), 디스플레이부(20), 입력부(30), 오디오 처리부(40) 및 제어부(50)를 포함한다.

저장부(10)는 본 발명에 따른 발성 음성 평가 장치의 동작을 제어하기 위한 제어프로그램을 저장하는 프로그램영역, 상기 제어프로그램의 수행 중에 발생하는 데이터를 일시 저장하는 임시영역, 상기 제어프로그램에 필요한 데이터 및 제어프로그램에 의해 발생되는 데이터를 반영구적으로 저장하는 데이터영역을 포함한다.

본 발명에 따라 상기 데이터 영역에는 표준음성 DB(11), 평가 기준 DB(12) 및 평가 DB(13)가 구성된다.

상기 표준음성 DB(11)는 다수의 어휘들을 정의하고 있으며, 정의된 어휘 각각의 표준음성에 대한 속성별 특징에 대한 속성별 표준음성 특징정보를 저장한다. 상기 어휘는 하기 표 1과 같이 유탭(Urimal Test of Articulation and Phonation: U-TAP)에서 사용되는 어휘를 적용한다.

U-TAP 어휘

바지, 단추, 책상, 가방, 사탕, 연필, 자동차, 동물원, 엄마, 뽀뽀, 호랑이, 코끼리, 땅콩, 귀, 그네, 토끼, 풍선, 로봇, 그림, 못, 눈썹, 괴물, 싸움, 참새, 세 마리, 짹짹, 나무, 메뚜기, 전화, 목도리

상기 표준음성에 대한 속성별 특징은 정상인의 상기 U-TAP의 어휘에 대한 속성별 특징들의 평균값으로 정의한다. 상기 표준음성에 대한 속성별 특징은 연령대별로 구분되어 정의될 수도 있을 것이다. 상기 속성은 후술할 음성인식 방법으로 알려진 MFCC(Mel Frequency Cepstral Coefficient), LPCC(Linear Prediction Cepstrum Coefficient) 및 RASTA_PLP(Relative Spectral- Perceptual Linear Prediction)이며, MFCC는 청각 (속성)기반이고, LPCC는 성도 (속성)기반이며, RASTA_PLP는 발음 (속성) 기반이다.

또한, 상기 표준음성 DB(11)는 각 어휘에 대한 속성별 가중치(Weight)를 더 저장한다.

평가 기준 DB(12)는 발성된 음성에 대한 레벨을 정의하기 위한 평가 기준 레벨값 및 평가 기준 레벨값별 평가정보를 저장한다.

평가 DB(13)는 임의의 사용자에 대해 평가된 사용자별 평가정보를 저장한다.

디스플레이부(20)는 언어재활 기반 발성 음성 평가 장치의 동작 상태에 따른 정보 및 동작 중에 발생되는 다양한 정보들을 텍스트, 아이콘 등을 포함하는 그래픽, 정지영상 및 동영상 중 어느 하나 이상으로 표시한다.

입력부(30)는 사용자로부터 본 발명에 따른 기능 및 정보 입력을 위한 다수의 키를 구비하는 키보드 등과 같은 키 입력장치, 상기 디스플레이부(20)의 화면에 일체로 구성되어 터치되는 화면상의 위치에 대응하는 위치정보를 출력하는 터치패드, 상기 화면상에서 움직이는 커서를 이동시키고 이동되는 커서의 이동정보를 출력하는 마우스 등 중 하나 이상을 포함한다.

오디오 처리부(40)는 제어부(50)로부터 음성(오디오)데이터를 입력받아 스피커(SPK)를 통해 가청음으로 출력하고, 마이크(MIC)를 통해 발화자가 발성하는 발음에 대한 음성신호를 생성하고, 음성신호를 음성 데이터로 변환하여 제어부(50)로 출력한다.

제어부(50)는 발성 유도부(101), 음성신호 처리부(110), 음성 특징 추출부(120), 유클리드 거리 계산부(130), 평가값 계산부(140) 및 음성 평가부(150)를 포함하여, 본 발명에 따른 언어재활 기반 발성 음성 평가 장치의 전반적인 동작을 제어한다.

구체적으로, 발성 유도부(101)는 입력부(30)를 통해 발음 평가 이벤트가 발생하는지를 모니터링하고, 발음 평가 이벤트가 발생되면 저장부(10)의 표준음성 DB(11)에 등록된 어휘에 대응하는 음성을 발성할 것을 유도하는 어휘 발성 요청 메시지를 디스플레이부(20) 및 오디오 처리부(40) 중 어느 하나를 통해 출력하여 발화자가 상기 어휘를 발성하도록 유도한다.

발성 유도부(101)는 상기 유도된 어휘에 대한 정보를 유클리드 거리 계산부(130) 및 평가값 계산부(140)로 제공한다.

음성신호 처리부(110)는 상기 발성 유도된 어휘에 대한 음성 데이터가 오디오 처리부(40)로부터 입력되는지를 모니터링하고, 음성 데이터가 입력되면 음성 특징 추출부(120)로 출력한다.

음성 특징 추출부(120)는 샘플링부(121), 에너지 스펙트럼 획득부(122), 속성별 특징 추출부(123), 로그부(127), 이산 코사인 계산부(128) 및 이산 코사인 계수 계산부(129)를 포함하여 상기 음성 데이터를 입력받아 다수의 프레임으로 분할하고, 프레임 단위로 샘플링하여 정규화하며, 정규화된 프레임 단위의 복수의 속성별 특징을 검출한다.

구체적으로, 샘플링부(121)는 상기 음성 데이터를 다수의 프레임으로 분할하고, 상기 분할된 프레임들을 샘플링하여 정규화한 후 출력한다. 상기 샘플링 수는 2000 등이 될 수 있을 것이다. 프레임 당 샘플 수가 너무 적으면 주파수 분석 신뢰도가 낮아지고, 너무 크면 하나의 프레임 안에 많은 변화치가 하나로 섞이기 때문에 중요한 변화를 놓칠 수 있으므로 적당한 사이즈를 맞추는 것이 중요하다.

에너지 스펙트럼 획득부(122)는 각각의 상기 프레임에 단기 푸리에 변환(Short Term Fourier Transform: STFT)을 수행하여 상기 음성 데이터에 대한 파워 스펙트럼(Power Spectrum)을 획득하여 출력한다.

속성별 특징 추출부(123)는 상기 파워 스펙트럼에 속성별 필터뱅크를 적용하여 속성별 에너지를 출력한다.

상기 속성별 특징 추출부(123)는 청각 기반의 제1속성의 에너지를 추출하는 멜 스케일(Mel Scale) 필터 뱅크를 적용하는 제1특징(MFCC) 추출부(124), 성도 기반의 제2속성의 에너지를 추출하는 선형 스케일(Linear Scale) 필터 뱅크를 적용하는 제2특징(LPCC) 추출부(125) 및 억양 기반의 제3속성의 에너지를 추출하는 바크 스케일(Bark Scale) 필터뱅크를 적용하는 제3특징(RASTA-PLP) 추출부(126)를 포함한다.

로그부(127)는 상기 속성별 특징 추출부(123)로부터 출력되는 각 속성의 구간별 에너지들에 로그를 취한 로그값을 계산하여 출력한다.

이산 코사인 변환(DCT) 계산부(128)는 각 속성의 구간별 로그값에 의해 표현되는 곡선을 이산 코사인 함수 계수를 가지는 적절한 수의 코사인 함수로 변환하고, 적절한 수의 코사인 함수 각각의 이산 코사인 변환 계수를 찾고, 찾아진 이산 코사인 변환 계수를 적용하여 각 속성별 이산 코사인 변환값을 계산하여 각 속성별 특징(값)으로써 출력한다. 상기 코사인 함수의 수는 8개인 것이 바람직하며, 이에 한정되는 것은 아니다. 상기 이산 코사인 변환 계수 및 이산 코사인 변환값을 계산하는 그 자체는 공지의 기술이므로 그 상세한 설명을 생략한다.

유클리드 거리 계산부(130)는 상기 음성 특징 추출부(120), 즉 이산 코사인 계수 계산부(129)에서 출력되는 속성별 특징과 표준음성 DB(11)의 상기 음성 데이터에 대한 어휘에 대응하는 속성별 특징들 간의 거리를 계산하여 출력한다.

각 속성의 유클리드 거리는 하기 수학식 1과 같이 정의될 수 있을 것이다.

x_n은 각 속성의 프레임들의 특징인 이산 코사인 변환값이고,

은 표준음성 DB(11)에 미리 저장되어 있는 해당 어휘의 각 속성에 대한 특징인 이산 코사인 변환값이다.

평가값 계산부(140)는 상기 유클리드 거리 계산부(130)에서 계산된 유클리드 거리를 하기 수학식 2에 적용하여 평가값(Quality)을 계산한다.

여기서, Feature_similarity_i는 각 속성의 유클리드 거리이다.

음성 평가부(150)는 상기 평가값 계산부(140)에서 계산된 평가값과 평가 기준 DB(12)에 저장되어 있는 평가 기준 레벨값을 비교하여 해당 평가 기준 레벨값에 대응하는 평가정보를 디스플레이부(20) 및 오디오 처리부(40) 중 어느 하나 이상을 통해 제공한다.

도 2는 본 발명에 따른 언어재활 기반 발성 음성 평가 방법을 나타낸 흐름도로, 발화자의 연령을 입력받아 연령대별 평가를 수행하는 방법을 나타낸 흐름도이다.

도 2를 참조하면, 우선 제어부(50)는 발성 평가 이벤트가 발생되는지를 검사한다(S111).

발성 평가 이벤트가 발생되면 제어부(50)는 디스플레이부(20) 및 오디오 처리부(40) 중 어느 하나 이상을 통해 연령을 입력할 것을 요청할 수 있다(S113).

연령이 요청되면 제어부(50)는 입력부(30)를 통해 연령이 입력되는지를 검사하고(S115), 연령이 입력되면 연령에 따른 평가 설정을 수행한다(S117). 상기 평가 설정이란 연령대가 입력되는 연령대에 대응하는 속성별 특성 및 평가값을 설정하는 것이다.

평가 설정이 완료되면 제어부(50)는 디스플레이부(20) 및 오디오 처리부(40) 중 어느 하나 이상을 통해 표준 음성 DB(11)에 등록되어 있는 어휘들 중 미리 설정된 순서 또는 임의의 순서로 해당 어휘를 발성할 것을 요청한다(S119).

발성 요청 후 제어부(50)는 오디오 처리부(40)를 통해 발화자가 발성한 음성에 대한 음성 데이터가 획득되는지를 모니터링하고(S121), 음성 데이터가 획득되면 음성 특징 추출 과정을 수행하여 평가값을 계산하고(S123), 계산된 평가값과 평가 기준 DB(12)에 저장된 평가 기준 레벨값을 비교하여 평가 레벨을 평가한 후, 평가 레벨에 대응하는 평가정보를 출력한다(S125).

도 3은 본 발명에 따른 언어재활기반 발성 음성 평가 방법 중 음성 특징 추출 방법을 나타낸 흐름도이고, 도 4는 본 발명의 일실시예에 따른 장애 아동 및 정상 아동의 음성 파형 및 특징들을 나타낸 도면이다. 이하 도 3 및 도 4를 참조하여 설명한다. 도 4의 401은 6세 여아가 "목도리"를 발성한 경우의 음성 원신호(1), 파워 스펙트럼(Power Spectrum)(2), 속성별(RASTA-PLP, LPCC, MFCC) 에너지(3, 4, 5)를 나타낸 것이고, 402는 12세 여아가 "목도리"를 발성한 경우의 음성 원신호(1), 파워 스펙트럼(Power Spectrum)(2), 속성별(RASTA-PLP, LPCC, MFCC) 에너지(3, 4, 5)를 나타낸 것이며, 403은 정상인이 "목도리"를 발성한 경우의 음성 원신호(1), 파워 스펙트럼(Power Spectrum)(2), 속성별(RASTA-PLP, LPCC, MFCC) 에너지(3, 4, 5)를 나타낸 것이다.

제어부(50)는 음성 데이터가 획득되면 음성 전처리 과정을 수행한다(S210).

상기 음성 전처리 과정을 상세히 설명하면, 제어부(50)는 상기 음성 데이터를 (윈도우) 프레임으로 분할하고(S211), 분할한 프레임을 미리 정의된 샘플수로 샘플링을 수행하며(S213), 스플라인 보간법을 적용하여 정규화를 수행하고(S215), 정규화된 음성의 프레임에 단기 푸리에 변환(STFT)을 수행하여 도 4의 401 및 402의 2와 같이 전체 음성 데이터에 대한 파워 스펙트럼(Power Spectrum)을 계산한다(S217).

상술한 음성 전처리 과정이 완료되면 제어부(50)는 파워 스펙트럼으로부터 속성 별 특성을 추출하는 음성 특징 추출 과정(S220)을 수행한다.

상기 음성 특징 추출 과정을 구체적으로 설명하면, 제어부(50)는 파워 스펙트럼이 획득되면 상기 파워 스펙트럼에 속성별 필터뱅크를 적용하여 필터링을 수행하여 도 4의 401 및 402의 3, 4, 5와 같은 속성별 에너지를 계산한다(S221).

속성별 에너지가 계산되면 제어부(50)는 상기 속성별 에너지의 구간별로 로그를 취하여 로그값을 계산한다(S223). 여기서의 구간이란 프레임 구간을 의미한다.

로그값의 계산 후 제어부(50)는 속성별 로그값들에 대해 이산 코사인 변환(DCT)을 수행하여 속성별 이산 코사인 변환값을 계산하고 상기 이산 코사인 변환값을 특징값으로 출력한다(S227).

상기 속성별 특성값인 이산 코사인 변환값이 계산되면 제어부(50)는 속성별 특성과 표준 음성 DB(11)에 저장되어 있는 해당 어휘의 표준음성에 대한 속성별 기준 특성을 상기 수학식 1에 적용하여 속성별 유클리드 거리를 계산한다(S230).

상기 유클리드 거리가 계산되면 제어부(50)는 유클리드 거리 및 표준 음성 DB(11)에 해당 어휘에 대해 정의된 속성별 가중치를 수학식 2에 적용하여 평가값을 계산한다(S240). 평가값은 클수록 정상인에 가까우며, 작을수록 언어 장애가 있을 가능성이 커짐을 의미한다.

도 4의 401에 대한 유클리드 거리 및 평가값(Quality)은 하기 표 2와 같이 계산되며, 도 4의 402에 대한 유클리드 거리 및 평가값은 하기 표 3과 같이 계산된다.

6세 여아
LPCC	MFCC	RASTA-PLP	Quality
20.75	1190.4	15.45	0.045

12세 여아
LPCC	MFCC	RASTA-PLP	Quality
13.23	716.5	11.08	0.066

상기 표 2 및 표3에서 보이는 바와 같이 12세 여아의 경우 0.066으로 6세 여아에 비해 평가값이 높음을 알 수 있다. 따라서 6세 여아의 경우 평가 레벨이 낮으며 그에 따라 언어 장애 가능성이 높을 것이다.

한편, 본 발명은 전술한 전형적인 바람직한 실시예에만 한정되는 것이 아니라 본 발명의 요지를 벗어나지 않는 범위 내에서 여러 가지로 개량, 변경, 대체 또는 부가하여 실시할 수 있는 것임은 당해 기술분야에서 통상의 지식을 가진 자라면 용이하게 이해할 수 있을 것이다. 이러한 개량, 변경, 대체 또는 부가에 의한 실시가 이하의 첨부된 특허청구범위의 범주에 속하는 것이라면 그 기술사상 역시 본 발명에 속하는 것으로 보아야 한다.

10: 저장부 11: 표준음성 DB
12: 평가기준 DB 13: 평가 DB
20: 디스플레이부 30: 입력부
40: 오디오 처리부 50: 제어부
101: 발성 유도부 110: 음성신호 처리부
120: 음성 특징 추출부 121: 샘플링부
122: 에너지 스펙트럼 획득부 123: 속성별 특징 추출부
124: 제1특징(MFCC) 추출부 125: 제2특징(LPCC) 추출부
126: 제3특징(RASTA-PLP) 추출부 127: 로그부
128: 이산 코사인 변환부
130: 유클리드 거리 계산부 140: 평가값 계산부
150: 음성 평가부

Claims

표준음성에 대한 속성별 표준음성 특징정보를 저장하는 표준음성 DB 및 평가 기준 레벨값을 저장하는 평가 기준 DB를 포함하는 저장부;
발화자가 발성하는 음성을 입력받아 음성 데이터를 출력하는 오디오 처리부; 및
상기 음성 데이터를 입력받아 다수의 프레임으로 분할하고, 프레임 단위로 샘플링하여 정규화하며, 정규화된 프레임 단위의 복수의 속성별 특징을 검출하고, 검출된 속성별 특징과 상기 표준음성 DB에 미리 저장되어 있는 발성된 상기 음성에 대한 해당 표준음성의 속성별 특징정보의 특징간의 유클리드 거리(유사도)를 계산하고, 계산된 각 속성별 유클리드 거리를 복합적으로 반영한 평가값을 계산한 후, 계산된 상기 평가값과 상기 평가 기준 DB의 평가 기준 레벨값을 비교하여 상기 발화자의 발성 음성을 평가하는 제어부를 포함하되,
상기 제어부는,
상기 오디오 처리부를 통해 음성 데이터를 획득하여 출력하는 음성신호 처리부;
상기 음성신호 처리부로부터 음성 데이터를 입력받고, 다수의 프레임으로 분할하고, 프레임 단위로 샘플링하여 정규화하며, 정규화된 프레임 단위의 복수의 속성별 특징을 검출하는 음성 특징 추출부;
검출된 속성별 특징과 상기 표준음성 DB에 미리 저장되어 있는 표준음성에 대한 속성별 특징간의 거리(유사도)를 계산하는 유클리드 거리 계산부;
계산된 각 속성별 거리를 복합적으로 반영한 평가값을 계산하는 평가값 계산부; 및
계산된 상기 평가값과 상기 평가 기준 DB의 평가 기준 레벨값을 비교하여 상기 발화자의 발성 음성을 평가하는 음성 평가부를 포함하고,
상기 음성 특징 추출부는,
다수의 프레임으로 분할하고, 프레임 단위로 샘플링하여 정규화하는 샘플링부;
정규화된 프레임에 단기 푸리에 변환(Short Term Fourier Transform)을 수행하여 발성 음성에 대응하는 상기 음성 데이터에 대한 파워 스펙트럼을 구하는 에너지 스펙트럼 획득부;
상기 파워 스펙트럼에 대한 각 주파수 구간에서의 각각의 속성별 에너지를 추출하는 속성별 특징 추출부;
상기 각 속성의 구간별 에너지에 로그를 취하여 로그값을 계산하는 구간별 로그부; 및
각 속성에 대해 구간별 연속되는 로그값에 의해 표현되는 곡선에 대한 이산 코사인 변환을 수행하여 이산 코사인 변환값을 특징값으로 출력하는 이산 코사인 변환 계산부를 포함하며,
상기 속성별 특징 추출부는,
상기 파워 스펙트럼에 멜 스케일(Mel Scale)필터 뱅크를 적용하여 발성 음성에 대한 청각 기반 속성의 에너지를 계산하고, 계산된 에너지를 합하여 제1 특징을 추출하는 MFCC 특징 추출부;
상기 파워 스펙트럼에 선형 스케일(Linear Scale)필터 뱅크를 적용하여 발성 음성에 대한 성도 기반 속성의 에너지를 계산하고, 계산된 에너지를 합하여 제2 특징을 추출하는 LPCC 특징 추출부; 및
상기 파워 스펙트럼에 바크 스케일(Bark Scale)필터 뱅크 및 노이즈 필터를 적용하여 배경잡음이 제거된 발성 음성에 대한 에너지를 계산하고, 계산된 에너지를 합하여 제3 특징을 추출하는 RASTA-PLP(Relative Spectral-Perceptual Linear Prediction) 특징 추출부를 포함하고,
상기 평가값 계산부는,
MFCC, LPCC 및 RASTA-PLP 속성별 가중치(MFCC->w1, LPCC->w2, RASTA-PLP->w3) 및 속성별 유클리드 거리를 하기 수학식 2에 적용하여 평가값을 계산하는 것을 특징으로 하는 언어재활 기반 발성 음성 평가 장치.
[수학식 2]

여기서, Feature_similarity_i는 각 속성의 유클리드 거리이다.
삭제
삭제
삭제
제1항에 있어서,
상기 표준음성 DB는,
미리 정의된 어휘에 대한 표준음성 특징정보를 저장하고,
상기 제어부는,
미리 정의된 어휘 중 어느 하나 이상을 오디오 처리부의 스피커를 통해 순차적으로 출력하여 상기 발화자가 출력되는 어휘에 대한 음성을 발성하도록 유도하는 것을 특징으로 하는 언어재활 기반 발성 음성 평가 장치.
제5항에 있어서,
상기 어휘는 유탭(U-TAP) 어휘인 것을 특징으로 하는 언어재활 기반 발성 음성 평가 장치.
삭제
제1항에 있어서,
상기 표준음성 DB는,
미리 정의된 어휘에 대한 표준 음성 특징정보 및 어휘별 가중치를 저장하고,
상기 제어부는,
미리 정의된 어휘 중 어느 하나 이상을 오디오 처리부의 스피커를 통해 순차적으로 출력하여 상기 발화자가 출력되는 어휘에 대한 음성을 발성하도록 유도한 후, 발성 유도된 어휘에 따라 입력되는 음성의 어휘에 대응하는 가중치를 적용하는 것을 특징으로 하는 언어재활 기반 발성 음성 평가 장치.
제어부가 오디오 처리부를 통해 발화자가 발성한 음성에 대한 음성 데이터를 획득하는 음성 획득 과정;
상기 제어부가 상기 음성 데이터를 다수의 프레임으로 분할하고, 프레임 단위로 샘플링하여 정규화하며, 정규화된 프레임 단위의 복수의 속성별 특징을 검출하는 속성별 특징 검출 과정;
상기 제어부가 검출된 속성별 특징과 표준음성 DB에 미리 저장되어 있는 표준음성에 대한 속성별 특징간의 유클리드 거리(유사도)를 계산하는 유클리드 거리 계산 과정;
상기 제어부가 계산된 각 속성별 유클리드 거리를 복합적으로 반영한 평가값을 계산하는 평가값 계산 과정; 및
상기 제어부가 계산된 상기 평가값과 상기 평가 기준 DB의 평가 기준 레벨값을 비교하여 상기 발화자의 발성 음성을 평가하는 평가 과정을 포함하되,
상기 속성별 특징 검출 과정은,
다수의 프레임으로 분할하고, 프레임 단위로 샘플링하여 정규화하는 샘플링 단계;
정규화된 프레임에 단기 푸리에 변환(Short Term Fourier Transform)을 수행하여 발성 음성에 대응하는 상기 음성 데이터에 대한 파워 스펙트럼을 구하는 에너지 스펙트럼 획득 단계;
상기 파워 스펙트럼에 대한 각 주파수 구간에서의 각각의 속성별 특징(에너지값)을 추출하는 속성별 특징 추출 단계;
상기 각 속성의 구간별 특징에 로그를 취하여 로그값을 계산하는 구간별 로그값 계산 단계; 및
각 속성의 구간별 로그값에 이산 코사인 변환을 수행하여 이산 코사인 변환값을 계산하는 이산 코사인 변환 계산 단계를 포함하고,
상기 속성별 특징 추출 단계는,
상기 파워 스펙트럼에 멜 스케일(Mel Scale)필터 뱅크를 적용하여 발성 음성에 대한 청각 기반 속성의 에너지를 계산하고, 계산된 에너지를 합하여 제1 특징을 추출하는 MFCC 특징 추출 단계;
상기 파워 스펙트럼에 선형 스케일(Linear Scale)필터 뱅크를 적용하여 발성 음성에 대한 성도 기반 속성의 에너지를 계산하고, 계산된 에너지를 합하여 제2 특징을 추출하는 LPCC 특징 추출 단계; 및
상기 파워 스펙트럼에 바크 스케일(Bark Scale)필터 뱅크를 적용하여 발성 음성에 대한 억양 기반 속성의 에너지를 계산하고, 계산된 에너지를 합하여 제3 특징을 추출하는 RASTA-PLP(Relative Spectral-Packet Level Procedure) 특징 추출 단계를 포함하고.
상기 제어부는,
MFCC, LPCC 및 RASTA-PLP 속성별 가중치(MFCC->w1, LPCC->w2, RASTA-PLP->w3) 및 속성별 유클리드 거리를 하기 수학식 2에 적용하여 평가값을 계산하는 것을 특징으로 하는 언어재활 기반 발성 음성 평가 방법.
[수학식 2]

여기서, Feature_similarity_i는 각 속성의 유클리드 거리이다.
삭제
삭제
제9항에 있어서,
상기 제어부가 표준음성 DB에 미리 정의된 어휘 중 어느 하나 이상을 오디오 처리부의 스피커를 통해 순차적으로 출력하여 상기 발화자가 출력되는 어휘에 대한 음성을 발성하도록 유도하는 어휘 발성 유도 과정을 더 포함하는 것을 특징으로 하는 언어재활 기반 발성 음성 평가 방법.
제12항에 있어서,
상기 어휘는 유탭(U-TAP) 어휘인 것을 특징으로 하는 언어재활 기반 발성 음성 평가 방법.
삭제