KR101475894B1

KR101475894B1 - 장애 음성 개선 방법 및 장치

Info

Publication number: KR101475894B1
Application number: KR1020130071914A
Authority: KR
Inventors: 성명훈; 권택균; 김희진; 김욱은; 김우일; 성미영; 김동욱
Original assignee: 서울대학교산학협력단
Priority date: 2013-06-21
Filing date: 2013-06-21
Publication date: 2014-12-23
Also published as: US9646602B2; US20140379348A1

Abstract

장애 음성을 처리하기 위한 방법 및 장치가 제공된다. 본 발명의 일 실시예에 따른 장애 음성을 처리하기 위한 방법은 음성 신호를 수신하는 단계, 음성 신호를 음소 단위로 인식하는 단계, 음성 신호로부터 복수의 음성 성분을 추출하는 단계, 복수의 음성 성분 중 적어도 일부의 장애 음성 성분을 음소 단위로 처리하여 복원 음성 성분을 획득하는 단계, 적어도 복원 음성 성분을 기초로 복원 음성 신호를 합성하는 단계를 포함하는 것을 특징으로 한다.

Description

장애 음성 개선 방법 및 장치{METHOD AND APPARATUS FOR IMPROVING DISORDERED VOICE}

본 발명은 장애 음성을 처리하기 위한 방법 및 장치에 관한 것으로서, 보다 상세하게는 장애 음성을 정상 음성으로 복원하는 장애 음성 처리 방법 및 장치에 관한 것이다.

음성은 인체의 폐, 기관지, 기관 등으로 구성된 성문하시스템 (sub-glottal System) 에서 발생된 공기의 압력과 흐름이 성대, 비강, 구강내의 혀, 치아 및 입술 등에 의해 변조되어 공기 중으로 방사되면서 생성된 음향파 (Acoustic wave)로 볼 수 있다. 발성에서 성대의 떨림이 있을 경우 펄스 모양의 성문파 (Glottal Wave) 가 생성되며 이를 에너지원으로 하여 모음, 유성자음과 같은 유성음이 만들어지며 그렇지 않을 경우 무성음이 생성된다. 또한 성대로부터 나온 공기의 흐름이 비강 또는 구강내부의 조음기관들에 의해 방해 받을 경우 자음이 만들어 진다.

음성의 생성과정에서 성문파가 성도를 지나면서 여러 가지 요인에 의해 의도하지 않은 발음이 생성될 수 있다. 특히 인체의 해부학적 구조에 이상이 있을 경우 의도하지 않은 발음이 생성된다. 음성 생성 과정에 부정적인 영향을 끼칠수 있는 요소로서 입술, 치아, 혀, 구개, 비인강 등의 구조적 문제 등을 들 수 있다. 또한, 구순 구개열과 같은 선천적인 안면 장애에 있어서도 조음에 장애가 있을 수 있다.

이러한 해부학적인 이상에 의한 조음 장애는 그 동안 언어 치료, 물리적인 치료, 외과적 수술 등에 의해 다루어졌으나, 전술한 치료에도 불구하고 조음 장애에 의한 오조음이 나타난다.
[관련기술문헌]
1. 음성 신호에서 음소를 분절하는 방법 및 그 시스템 (한국특허출원번호 제2005-0131964호)

이에, 본 발명의 다양한 실시예가 해결하고자 하는 과제는 조음 장애로 인한 오조음 (misarticulation) 을 정조음으로 변환할 수 있는 장애 음성 처리 방법 및 장치를 제공하는 것이다.

본 발명의 다양한 실시예가 해결하고자 하는 다른 과제는 휴대 전화기 또는 유선 전화기를 통해 오조음을 정상 음성으로 변환함으로써, 통화 중 정확한 발성이 가능하여 양질의 음성 통화를 가능하게 하는 음성 처리 방법 및 장치를 제공하는 것이다.

본 발명의 다양한 실시예가 해결하고자 하는 다른 과제는 마이크와 스피커를 이용해 정상음성으로 변환된 소리를 상대방에게 들려줌으로써 원활한 의사소통이 가능하도록 음성 처리 방법 및 장치를 제공하는 것이다.

본 발명의 다양한 실시예에 의한 과제들은 이상에서 언급한 과제들로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

전술한 바와 같은 과제를 해결하기 위하여 본 발명의 일 실시예에 따른 장애 음성 처리 방법은 음성 신호를 수신하는 단계, 음성 신호를 음소 단위로 인식하는 단계, 음성 신호로부터 복수의 음성 성분을 추출하는 단계, 복수의 음성 성분 중 적어도 일부의 장애 음성 성분을 음소 단위로 처리하여 복원 음성 성분을 획득하는 단계, 및 적어도 복원 음성 성분을 기초로 복원 음성 신호를 합성하는 단계를 포함하는 것을 특징으로 한다.

본 발명의 또 다른 특징에 따르면, 복수의 음성 성분은 성도 성분 및 성문 성분을 포함하고, 장애 음성 성분은 성도 성분인 것을 특징으로 한다.

본 발명의 또 다른 특징에 따르면, 인식된 음성 신호를 정상 음성신호 및 장애 음성 신호로 분류하는 단계를 더 포함하고, 획득하는 단계는 장애 음성 신호에 대한 장애 음성 성분을 음소 단위로 처리하여 복원 음성 성분을 획득하는 단계인 것을 특징으로 한다.

본 발명의 또 다른 특징에 따르면, 장애 음성 신호를 분류하는 단계는 휴리스틱스 (heuristics) 를 적용하여 장애 음성 신호를 분류하는 단계를 포함하는 것을 특징으로 한다.

본 발명의 또 다른 특징에 따르면, 분류하는 단계는, 음소 단위로 음성 신호의 장애 여부를 결정하는 단계를 포함하는 것을 특징으로 한다.

본 발명의 또 다른 특징에 따르면, 분류하는 단계는, 추출된 복수의 음성 성분에 기초한 것을 특징으로 한다.

본 발명의 또 다른 특징에 따르면, 장애 음성 신호의 진폭 또는 길이를 조정하는 단계를 더 포함하는 것을 특징으로 한다.

본 발명의 또 다른 특징에 따르면, 장애 음성 성분은 자음에 대한 장애 음성 성분이고, 복원 음성 성분을 획득하는 단계는, 파열 자음, 마찰 자음, 또는 파찰 자음에 대한 장애 음성 성분에서 기식성 (aspiration), 긴장성 (tense), 또는 난기류 (turbulence) 중 적어도 하나와 연관된 조정, 또는 유음, 또는 비음 자음에 대한 장애 음성 성분에서 시간 및 주파수 영역에서의 조정을 통하여, 복원 음성 성분을 획득하는 단계를 포함하는 것을 특징으로 한다.

본 발명의 또 다른 특징에 따르면, 장애 음성 성분은 모음에 대한 장애 음성 성분이고, 복원 음성 성분을 획득하는 단계는 모음의 고유한 정상 포먼트 주파수의 위치로부터 벗어나 있는 장애 음성 성분의 포먼트 주파수를 정상 위치로 조정하거나, 있어서는 안되는 위치에 발생된 포먼트를 약화 또는 제거하는 조정을 함으로써, 복원 음성 성분을 획득하는 단계를 포함하는 것을 특징으로 한다.

본 발명의 또 다른 특징에 따르면, 장애 음성 성분은 자음, 모음 또는 자음 및 모음의 결합에 대한 장애 음성 성분인 것을 특징으로 한다.

본 발명의 또 다른 특징에 따르면, 복원 음성 신호를 합성하는 단계에서, 선형예측부호화 (LPC) 가 이용된 것을 특징으로 한다.

본 발명의 또 다른 특징에 따르면, 음성 신호는 구음 (口音) 신호 및 비음 (鼻音) 신호를 포함하는 것을 특징으로 한다.

본 발명의 또 다른 특징에 따르면, 추출하는 단계는 선형예측부호화 (LPC) 를 이용하여 복수의 음성 성분을 추출하는 단계를 포함하는 것을 특징으로 한다.

본 발명의 또 다른 특징에 따르면, 복원 음성 성분을 생성하는 단계는 장애 음소 특징 테이블에 기초하여 복원 음성 성분을 생성하는 단계를 포함하는 것을 특징으로 한다.

본 발명의 또 다른 특징에 따르면, 음소 특징 테이블은 사용자의 목소리 특성을 최대한 보존할 수 있는 음소 특징 파라미터로 구성된 것을 특징으로 한다.

본 발명의 또 다른 특징에 따르면, 복원 음성 성분을 보완하도록 복원 음성 신호를 필터링하는 단계를 더 포함하는 것을 특징으로 한다.

본 발명의 또 다른 특징에 따르면, 복원 음성 신호를 입술 방사 필터로 필터링하는 단계를 더 포함하는 것을 특징으로 한다.

전술한 바와 같은 과제를 해결하기 위하여 본 발명의 다른 실시예에 따른 장애 음성 처리 장치는 음성 신호를 수신하는 입력부; 음성 신호를 저장하는 메모리 및 음성 신호로부터 복원 음성 신호를 생성하도록 구성된 프로세서를 포함하고, 프로세서는, 음성 신호를 음소 단위로 인식하는 단계; 음성 신호로부터 복수의 음성 성분을 추출하고, 복수의 음성 성분 중 적어도 일부의 장애 음성 성분을 음소 단위로 처리하여 복원 음성 성분을 획득하고, 적어도 복원 음성 성분을 기초로 복원 음성 신호를 합성하도록 구성된 것을 특징으로 한다.

본 발명의 또 다른 특징에 따르면, 프로세서는, 음성 신호를 정상 음성 신호와 장애 음성 신호를 분류하도록 구성된 것을 특징으로 한다.

본 발명의 또 다른 특징에 따르면, 프로세서는, 장애 음성 신호의 진폭 또는 길이를 조정하도록 구성된 것을 특징으로 한다.

전술한 바와 같은 과제를 해결하기 위하여 본 발명의 일 실시예에 따른

전술한 바와 같은 과제를 해결하기 위하여 본 발명의 다른 실시예에 따른 통신 디바이스는 음성 신호를 입력 받고, 복원 음성 신호를 출력하는 장애 음성 처리 장치, 및 장애 음성 처리 장치의 복원 음성 신호를 음파로 변환시켜 출력하는 스피커를 포함하는 것을 특징으로 한다.

본 발명의 실시예들에 의하면 적어도 다음과 같은 효과가 있다.

조음 장애로 인한 오조음 (misarticulation) 을 정조음으로 변환할 수 있는 장애 음성 처리 방법 및 장치를 제공할 수 있다.

또한, 휴대 전화기 또는 유선 전화기에 입력된 오조음을 정상 음성으로 변환함으로써, 통화 중 정확한 발성이 가능하여 양질의 음성 통화를 가능하게 하는 음성 처리 방법 및 장치를 제공할 수 있다.

본 발명에 따른 효과는 이상에서 예시된 내용에 의해 제한되지 않으며, 더욱 다양한 효과들이 본 명세서 내에 포함되어 있다.

도 1은 본 발명의 일 실시예에 따른 장애 음성 처리 장치의 블록도이다.
도 2는 본 발명의 다른 실시예에 따른 장애 음성 처리 장치의 블록도이다.
도 3은 본 발명의 다른 실시예에 따른 장애 음성 처리 장치의 블록도이다.
도 4는 예시적으로 모음에 대한 장애 음성 성분의 분석을 설명하기 위해 작성된 도표를 도시한 것이다.
도 5a는 본 발명의 다른 실시예에 따른 장애 음성 처리 장치에서의 입력부를 설명하기 위한 개념도이다.
도 5b는 예시적으로, 모음에 대한 장애 음성 성분의 분석을 설명하기 위 해 작성된 도표를 도시한 것이다.
도 6은 예시적으로, 자음에 대한 장애 음성 성분의 분석을 설명하기 위해 작성된 도표를 도시한 것이다.
도 7은 예시적으로, 자음에 대한 장애 음성의 분석을 설명하기 위해 작성된 도표를 도시한 것이다.
도 8은 예시적으로, 비음과 관련한 장애 음성의 처리 결과를 설명하기 위해 작성된 도표를 도시한 것이다.
도 9는 본 발명의 다른 실시예에 따른 장애 음성 처리 장치의 블록도이다.
도 10은 본 발명의 일 실시예에 따른 장애 음성 처리 방법의 흐름도이다.

본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

비록 제1, 제2 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.

본 명세서에 있어서는 어느 하나의 구성요소가 다른 구성요소로 데이터 또는 신호를 '전송'하는 경우에는 구성요소는 다른 구성요소로 직접 데이터 또는 신호를 전송할 수 있고, 적어도 하나의 또 다른 구성요소를 통하여 데이터 또는 신호를 다른 구성요소로 전송할 수 있음을 의미한다.

첨부된 블록도의 각 블록과 흐름도의 각 단계의 조합들은 펌웨어 (firmware), 소프트웨어 (software) 또는 하드웨어 (hardware) 로 구성된, 알고리즘 또는 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수도 있다. 이들 알고리즘 또는 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 디지털 신호 처리 디바이스 (Digital Signal Processing Device) 의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능들을 수행하는 수단을 생성하게 된다.

또한, 각 블록 또는 각 단계는 특정된 논리적 기능 (들) 을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또한, 몇 가지 대체 실시예들에서는 블록들 또는 단계들에서 언급된 기능들이 본 명세서에 기재된 실시예들에서의 동작 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들 또는 단계들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.

본 발명의 여러 실시예들의 각각 특징들이 부분적으로 또는 전체적으로 서로 결합 또는 조합 가능하며, 당업자가 충분히 이해할 수 있듯이 기술적으로 다양한 연동 및 구동이 가능하며, 각 실시예들이 서로에 대하여 독립적으로 실시 가능할 수도 있고 연관 관계로 함께 실시 가능할 수도 있다.

본 발명의 다양한 실시예에 따른 장애 음성 처리 방법은 한국어에 제한되지 않고 다양한 언어에 적용될 수 있음을 당업자는 쉽게 인식할 수 있다. 또한, 본 발명의 다양한 실시예에 따른 장애 음성 처리 방법은 기재된 다양한 장애 외에도 오조음 (misarticulation) 을 유발할 수 있는 모든 장애에 대해서 적용될 수 있음을 당업자는 쉽게 인식할 수 있을 것이다.

도 1은 본 발명의 일 실시예에 따른 장애 음성 처리 장치의 블록도이다. 도 1을 참조하면, 본 발명의 일 실시예에 따른 장애 음성 처리 장치 (100) 는 입력부 (110), 음성 인식부 (120), 성분 추출부 (130), 복원부 (140), 합성부 (150) 를 포함한다.

장애 음성 처리 장치 (100) 는 장애에 의한 오조음의 성분을 분석하고 디지털 신호 처리하여 오조음을 정상조음으로 복원하여 출력하기 위한 장치로서, 음성 인식, 음성 분석, 및 음성 합성을 위한 구성들을 통해 구현될 수 있다.

이하에서, 장애 음성이란 장애에 의한 오조음을 의미하며, 정상 음성과 비교하여 적어도 일부의 성분에 있어서 정상음과 상이한 성분을 가지는 것을 의미한다. 장애 음성을 분석하고 복원하기 위한 구체적인 구성에 대해서는 도 1의 다른 구성과 함께 설명한다.

도 1에서 입력부 (110) 는 장애 음성 처리 장치 (100) 로 음성 신호를 입력 받는다. 음성 신호란 음성의 크기, 특색 등이 반영된 전기적 신호를 의미한다. 입력부 (110) 는 예컨대, 마이크를 통해서 아날로그 음성을 받고, 아날로그 음성 신호를 디지털 음성 신호로 변환하여 음성 신호를 수신할 수 있다. 또는 입력부 (110) 는 외부 장치로부터 디지털 음성 신호를 수신할 수도 있다. 이하에서 음성 신호란 다르게 참조하지 않는 한 디지털 음성 신호를 의미한다.

입력부 (110) 가 수신하는 음성 신호는 구음 (口音) 신호, 비음 (鼻音) 신호 또는 구음과 비음이 분리되지 않은 음성 신호일 수 있다. 음성 신호가 구음 신호 또는 비음 신호로 나누어 음성 신호를 수신하는 구체적인 구성에 대해서는 도 4 및 도 5를 참조하여 후술한다.

음성 인식부 (120) 는 수신된 음성을 인식한다. 음성 인식부 (120) 는 다양한 방법을 이용하여 수신된 음성을 인식할 수 있다. 음성 인식부 (120) 는, 예시적으로 NN (Neural Network) 인식 알고리즘, DTW (Dynamic Time warping) 인식 알고리즘, 서포트 벡터 머신 (Support Vector Machine, SVM) 또는 은닉 마르코프 모델 (Hidden Markov Model, HMM) 인식 알고리즘 등을 이용할 수 있으며, 이외에도 기존의 다양한 음성 인식 방법을 통해서도 구현될 수 있다.

NN (Neural Network) 인식 알고리즘은 인식시키려는 음소, 음절, 단어 특징 파라미터들 전체에 대한 인식 학습에 의해 큰 사이즈의 계수 행렬을 생성한 후, 새로이 입력된 음성 특징 파라미터를 기 생성한 계수 행렬에 직접 적용하여 출력 인덱스를 계산하는 방법이며, DTW (Dynamic Time warping) 인식 알고리즘 은 시간축 상에서의 비선형 신축을 허용하는 패턴매칭 알고리즘이며, HMM (Hidden Markov Model) 인식 알고리즘은 인식시키려는 개별적인 음성 신호 특징 파라미터에 대한 은닉 마르코브 모델들을 인식 학습에 의해 초기 생성한 후, 새로이 입력된 음성 특징 파라미터에 대해서도 유사한 은닉 마르코브 모델을 만들어 기 생성된 각각의 HMM 모델들과 비교하여 가장 유사한 모델을 찾도록 하는 방식이다.

본 발명의 일 실시예에 따른 장애 음성 처리 장치 (100) 의 음성 인식부 (120) 는 장애 음성에서 음소를 인식하기 위해 음성 코퍼스 (corpus) 를 참조하도록 구성될 수 있다. 음성 코퍼스는 다양한 장애 음성을 포함하는 음성 코퍼스일 수 있으며, 또는 특정 장애와 관련한 장애 음성 코퍼스일 수 있다.

음성 인식부 (120) 는 학습된 분류 알고리즘에 의해 현재 입력된 음성 신호를 음소 단위로 인식한다. 또한, 음성 인식부 (120) 는 음성을 음소 단위로 분리하고 분리된 음소 또는 음소의 구간을 포함하는 음소 정보를 성분 추출부 (130) 및 복원부 (140) 로 출력할 수 있다.

성분 추출부 (130) 는 입력부 (110) 로부터 수신된 음성 신호로부터 복수의 음성 성분을 추출한다. 성분 추출부 (130) 가 추출하는 음성 성분은 복원부 (140) 또는 합성부 (150) 에서 이용하는 필터 또는 알고리즘에 따라 상이할 수 있으며, 특정 필터 또는 알고리즘으로 제한되지 않는다. 성분 추출부 (130) 는 소스-필터 분해 알고리즘, 조음 합성 알고리즘, 포먼트 (formant) 합성 알고리즘, 선형예측부호화 (Linear Predictive Coding, LPC), MFCC (Mel-frequency cepstral coefficients), 이산 웨이브릿 변환 (DWT) 필터 등을 사용하여 음성 신호로부터 음성 성분을 추출하나 이에 제한되지 않으며 다양한 알고리즘을 사용할 수 있다. 성분 추출부 (130) 는 선형예측부호화 기법을 이용하여 음성 신호를 성문 (Glottis) 파라미터 또는 성도 (Vocal Tract) 필터 파라미터로 분해하여 추출할 수도 있다.

본 발명의 일 실시예에 따른 음성 처리 장치의 성분 추출부 (130) 는 소스-필터 분해 알고리즘을 통해 음성 신호로부터 소스 성분과 필터 성분을 추출한다. 음성 신호의 소스 성분은 예컨대 성문 성분 또는 성문 파라미터일 수 있으며, 필터 성분은 예컨대 성도 성분 또는 성도 필터 파라미터일 수 있다. 성분 추출부 (130) 는 추출된 음성 성분을 복원부 (140) 로 출력한다.

복원부 (140) 에서 장애 음성에 대한 복원 처리가 수행된다. 복원부 (140) 는 음성 인식부 (120) 로부터 분리된 음소 또는 음소의 구간을 포함하는 음소 정보 및 성분 추출부 (130) 로부터의 복수의 음성 성분을 수신한다. 복원부 (140) 는 수신된 음성 성분을 음소 단위로 처리하여 복원 음성 성분을 획득한다. 복원부 (140) 가 처리하는 음성 성분은 장애 음성 성분일 수 있다.

장애 음성 성분이란 음소를 구성하는 복수의 음성 성분 중에서 장애 음성을 구성하도록 하는 성분을 의미한다. 복수의 음성 성분에서 정상 음성 성분과 장애 음성 성분을 분류하는 구체적인 구성에 대해서는 도 2를 참조하여 구체적으로 설명한다. 장애 음성 성분은 그 장애의 종류에 따라 다양할 수 있다. 장애 음성에서 성문은 정상이나 조음의 위치나 에너지 등이 비정상적인 경우에는, 전술한 바와 같이 음성 성분이 성문 성분과 성도 성분으로 구분하고, 성도 성분을 장애 음성 성분으로 결정할 수도 있다. 반대로 성대에 장애가 있는 경우 장애 음성 성분은 성문 성분으로 간줄할 수 있다. 이하에서는 장애 음성 성분이 성도 성분인 것으로 설명한다.

나아가, 장애 음성 성분은 자음, 모음 또는 자음 및 모음의 결합에 대한 장애 음성 성분일 수 있다.

예컨대, 자음에 대한 음성 성분은 파열, 마찰, 파찰 등에서 기식성 (aspiration), 긴장성 (tense), 난기류 (turbulence) 등과 연관된 시간 및 주파수 영역에서의 음성 성분일 수 있으며, 유음, 비음 등의 자음에 대한 음성 성분은 주파수 대역 또는 시간 대역에서의 성분일 수 있다. 자음 또는 모음에 대한 음성 성분은 주파수 대역에서 복수의 포먼트 주파수, 대역폭 등이 표현가능한 음성 성분일 수 있다.

복원부 (140) 는 음소 특징 테이블 (170) 을 참조하여 장애 음성 성분을 정상 음성 성분으로 복원할 수 있다. 음소 특징 테이블 (170) 은 장애 음성 성분과 정상 음성 성분에 대한 복원 정보를 포함할 수 있다. 특히 음소 특징 테이블의 정상 음성 성분에 대한 복원 정보는 화자 본연의 목소리 특성을 최대한 보존하도록 구성된다. 즉, 복원된 음성의 명료성과 자연스러움이 향상되더라도 다른 사람의 목소리처럼 들리지 않도록 하는 것이 중요하다. 예컨데, 비교적 분명히 발음할 수 있는 문장을 천천히 발화하게 하여 추출한 음성 파라미터들이 테이블화되고, 오조음 발성 시, 또는 장애 음성 성분 복원 시에 참조될 수 있다. 또한, 과대비음과 같은 공명장애음의 경우 비음과 구음을 분리 수집하거나, 코를 약하게 막고 발음하는 등의 방법을 통해 비교적 정확하고 개인화된 음소 테이블이 구성될 수 있다.

복원부 (140) 는 장애 음성 성분의 포먼트 (formant) 주파수, 대역폭 등을 음소 특징 테이블 (170) 을 참조하여 조정함으로써, 장애 음성 성분을 정상 음성 성분으로 복원할 수 있다. 또는, 기식성 (aspiration), 긴장성 (tense), 난기류 (turbulence) 중 적어도 하나에 대한, 시간 대역 또는 주파수 대역의 장애 음성 성분을 조정함으로써, 장애 음성 성분은 정상 음성 성분으로 복원될 수 있다. 예컨대, 난기류에 대한 음성 성분은 시간 대역의 진폭 및 지속시간과 주파수 대역의 에너지 분포를 조정함으로써, 복원될 수 있다.

복원부 (140) 는 시간 영역에서 음소의 지속시간을 조정하거나 음소 단위를 연결하는 자음-모음 사이의 포먼트들의 전이 (Transition)를 조정할 수도 있다.

예컨대, 복원부 (140) 에서 장애 음성 성분의 조정은 구순 구개열 장애 음성에서 나타나는 과대비음과 같은 공명오류, 보상조음, 대치, 생략, 첨가 등의 조음 오류를 복원하기 위한 것일 수 있다. 복원부 (140) 는 장애 음성 성분을 다양한 방법으로 변환하여 복원 음성 성분을 획득함으로써 전술한 구현 목표를 이룰 수 있다. 복원부 (140) 가 장애 음성 성분을 복원하는 구체적인 구성에 대해서는 도 4 내지 도 8을 참조하여 후술한다.

합성부 (150) 는 복원부 (140) 로부터의 복원 음성 성분을 기초로 복원 음성 신호를 합성한다. 합성부 (150) 는 복원 음성 성분 및 다른 음성 성분들을 합성하여 복원 음성 신호를 생성할 수 있다.

합성부 (150) 는 다양한 알고리즘을 사용하여 복원 음성 신호를 합성할 수 있다. 합성부 (150) 는 성분 추출부 (130) 가 음성 성분을 추출하는데 이용한 알고리즘을 통해 음성을 합성할 수 있다. 예컨대, 합성부 (150) 는 조음합성, 포먼트 합성, 선형예측부호화 합성 등을 사용하여 복원 음성 신호를 합성할 수 있다.

조음합성 알고리즘은 음소 각각을 조음기관의 움직임, 조음기관의 위치, 성도 모양을 결정하는 정보로 변환하여 음성을 합성한다. 선형예측부호화 합성은 음성의 포먼트 성분을 선형예측부호화 필터의 계수로 사용한다. 이하에서는 설명의 편의를 위해 합성부 (150) 가 포먼트 합성을 사용하는 것으로 설명한다.

한편, 본 발명을 구현함에 있어, 다양한 음성 합성 알고리즘을 서로 결합 또는 조합하여 적용할 수 있으며, 기존의 다양한 음성 처리 방법들과 다양하게 연동 및 구동이 가능하며, 각 실시예들이 서로에 대하여 독립적으로 실시 가능할 수도 있고 연관 관계로 함께 실시 가능할 수도 있다는 것은 자명하다.

합성부 (150) 는 성문 성분인 여기 신호와 복원 음성 성분를 합성하여 복원 음성 신호를 출력한다. 예컨대, 합성부 (150) 는 과대비음에 의한 공명오류가 있는 장애 모음의 정상 성문 성분과 포먼트 주파수가 조정된 성도 성분을 재합성하여 복원 음성 신호를 합성할 수 있다. 복원 음성 신호에서는 장애 성분이 복원되었으므로, 조음 또는 발음이 보다 향상될 수 있다.

도 2는 본 발명의 다른 실시예에 따른 장애 음성 처리 장치의 블록도이다. 장애 음성 처리 장치 (200) 는 입력부 (210), 음성 인식부 (220), 성분 추출부 (230), 음소 특징 테이블 (270), 장애 음성 결정부 (240), 복원부 (250), 합성부 (260), 소스 보완 필터 (280) 및 입술 방사 필터 (290) 를 포함한다.

도 2의 입력부 (210), 음성 인식부 (220), 성분 추출부 (230) 및 합성부 (260) 는 도 1에서 설명된 입력부 (110), 음성 인식부 (120), 성분 추출부 (130) 및 합성부 (150) 와 실질적으로 동일하므로 중복 설명을 생략한다.

장애 음성 결정부 (240) 는 음성 신호의 복수의 음소 중 일부의 음소가 오조음 또는 장애 음성인지를 결정한다. 장애 음성 결정부 (240) 는 음성 인식부 (220) 로부터 음소, 음절 또는 단어 정보를 수신하고, 성분 추출부 (230) 로부터 복수의 음성 성분을 수신한다.

장애 음성 결정부 (240) 는 적어도 하나의 알고리즘을 이용하여 정상 음성과 장애 음성을 분류할 수 있다. 장애 음성 결정부 (240) 는 음성의 인식된 음소, 음절, 단어 중 적어도 하나 이상의 요소를 잘못 발음된 음소를 결정할 수 있다. 장애 음성 결정부 (240) 는 또한, 성분 추출부 (230) 로부터의 음성 성분 및 음소 특징 테이블 (270) 을 참조하여 장애 음성을 결정할 수 있다. 장애 음성 결정부 (240) 는 예컨대, 수신된 음성 성분을 음소 특징 테이블 (270) 의 음성 성분과 비교함으로써, 장애 음성을 결정할 수 있으며, 음소 특징 테이블 (270) 에는 특정 장애에 있어서 자주 잘못 발음되는 음소들이 포함되어 장애 음성 결정부 (240) 는 음소 특징 테이블 (270) 을 참조하여 장애 음성을 식별할 수도 있다.

나아가, 장애 음성 결정부 (240) 는 장애 음성의 어떠한 음성 성분이 정상 음성 성분이고 장애 음성 성분인지를 결정한다. 오조음 또는 장애 음성으로 판단된 음성에 있어서도, 음성의 성분을 분석하면, 일부의 음성 성분만이 장애를 유발하는 것일 수 있다. 예컨대, 성문 성분은 정상인 반면 성도 성분이 오조음의 원인일 수 있다. 장애 음성 결정부 (240) 는 음성 성분을 분석하여 어떠한 음성 성분이 장애 음성 성분인지를 결정할 수 있다. 장애 음성 결정부 (240) 가 장애 음성 성분을 결정하는 보다 구체적인 구성에 대해서는 도 5b 및 6을 참조하여 후술한다.

장애 음성 결정부 (240) 는 장애 음성 또는 장애 음성 성분을 결정하기 위하여 휴리스틱스 (heuristics) 를 사용할 수 있다. 휴리스틱스는 음소, 음절 단어를 분석하여 잘못 발음된 음소를 결정하기 위한 휴리스틱스, 음소 특징 테이블 (270) 을 참조하여 장애 음성을 결정하기 위한 휴리스틱스 등을 포함할 수 있다. 예컨대, 화자가 발음기호 /i/의 발음에 대하여 지속적으로 상이하게 발음하는 경우, 휴리스틱스는 발음기호 /i/를 의도하는 발음에 대응한다고 판단하기 위한 것일 수 있다. 또는, 휴리스틱스는 지속적으로 반복되는 비음을 장애 음성에 대응한다고 판단하기 위한 것일 수 있다.

복원부 (250) 는 장애 음성 결정부 (240) 가 장애 음성으로 결정한 음성의 장애 음성 성분을 처리하여 복원 음성 성분을 획득한다. 즉, 복원부 (250) 는 모든 음성 성분을 처리하는 것이 아니라 장애 음성 결정부 (240) 가 장애 음성이라고 결정된 음성에 대해서만 복원 음성 성분을 획득할 수 있다. 또한, 복원부 (250) 는 장애 음성의 복수의 음성 성분 중에서 장애 음성 성분만을 처리하여 복원 음성 성분을 획득한다. 전술한 바와 같이, 본 발명의 일 실시예에 따른 장애 음성 처리 장치 (200) 는 오조음의 원인이 되는 장애 음성 성분만을 선택적으로 복원하여 장애 음성을 복원하는데 있어서 왜곡을 저감할 수 있다.

합성부 (260) 는 복원부 (250) 로부터의 복원 음성 성분을 기초로 복원 음성 신호를 합성한다. 합성부 (260) 는 복원 음성 성분 및 장애 음성 성분 이외의 음성 성분들을 합성하여 복원 음성 신호를 생성할 수 있다.

본 발명의 다른 실시예에 따른 장애 음성 처리 장치 (200) 는 소스 보완 필터 (280) 및 입술 방사 필터 (290) 를 더 포함할 수 있다.

소스 보완 필터 (280) 는 복원 음성 신호를 처리하여 복원부 (250) 의 처리 과정에서 약해질 수 있는 성문 파라미터 또는 여기 신호를 보완하는 기능을 수행한다. 예시적으로, 소스 보완 필터 (280) 는 성문 모사 필터로 구현될 수 있다.

입술 방사 필터 (290) 는 소리가 입 밖으로 배출될 때 생기는 효과를 구현하기 위한 필터이다. 즉, 입 밖으로 방사된 소리는 공기 중에서 모든 방향으로 퍼지게 되므로, 이때 소리는 방사되면서 에너지가 감소하게 되는데 높은 주파수대 보다는 낮은 에너지대의 에너지 감소가 크다. 이러한 방사효과는 결국 높은 주파수대의 에너지만 받아들이는 ‘고주파필터 (high-pass filter)’의 역할을 할 수 있으므로, 입술 방사 필터 (290) 는 예컨대 1차 고주파 통과 필터로 구현될 수 있다.

합성부 (260) 로부터의 복원 음성 신호는 소스 보완 필터 (280) 및 입술 방사 필터 (290) 를 통해 처리되어 출력될 수 있다.

도 3은 본 발명의 다른 실시예에 따른 장애 음성 처리 장치의 블록도이다. 도 3을 참조하면 장애 음성 처리 장치 (300) 는 입력부 (310), 음성 인식부 (320), 장애 음성 결정부 (330), 성분 추출부 (340), 복원부 (350), 음소 특징 테이블 (370) 및 합성부 (360) 를 포함한다. 도 3의 복원부 (350) 및 합성부 (360) 는 도 1에서 설명된 복원부 (140), 합성부 (150) 와 실질적으로 동일하므로 중복 설명을 생략한다.

도 3을 참조하면, 입력부 (310) 로부터의 음성 신호는 음성 인식부 (320) 로 출력되고, 음성 인식부 (320) 에 의해 인식된 음성은 장애 음성 결정부 (330) 로 출력되고, 장애 음성 결정부 (330) 는 인식된 음성을 수신하여, 장애 음성을 결정하고, 장애 음성 및 정상 음성을 성분 추출부 (340) 로 출력한다.

도 3의 본 발명의 다른 실시예에 따른 장애 음성 처리 장치 (300) 는 입력부 (310) 로부터 성분 추출부 (340) 까지의 구성이 직렬로 연결되어 있다. 직렬로 구성된 장애 음성 처리 장치 (300) 는 입력된 음성이 인식되고 장애 음성으로 결정되는 음성에 대해서만 성분을 추출, 복원하고 복원 음성 신호를 합성한다.

도 1 및 도 2의 장애 음성 처리 장치 (100, 200) 는 입력부 (110, 210) 가 수신하는 음성 신호를 음성 인식부 (120, 220) 및 성분 추출부 (130, 230) 양쪽에 출력하는 병렬 구성이다. 여기서, 음성 인식부 (120, 220) 는 모든 음성 신호에 대해 인식을 수행하고, 성분 추출부 (130, 230) 도 모든 음성 신호에 대한 음성 성분을 추출한다.

다시 도 3을 참조하면, 본 발명의 다른 실시예에 따른 장애 음성 처리 장치 (300) 에서 입력부 (310) 로부터의 모든 음성 신호는 음성 인식부 (320) 에 의해 인식되지만, 음성 성분의 추출은 장애 음성에 대해서만 이루어진다는 차이점이 있다.

도 4는 예시적으로 모음에 대한 장애 음성 성분의 분석을 설명하기 위해 작성된 도표를 도시한 것이다. 도 4를 참조하면, (a) 에서 장애 음소 /i/에 대한 도표가 시간 영역, 주파수 영역으로 나뉘어 도시되고, 포먼트 주파수 및 대역에 대한 표가 도시된다. (b) 에서는 정상 음소 /i/에 대한 도표가 시간 영역, 주파수 영역으로 나뉘어 도시되고, 포먼트 주파수 및 대역에 대한 표가 도시된다.

장애 음성에 대한 (a) 를 참조하면, 시간 영역의 점선 내 구간에 대응하는 주파수 영역에서의 도표가 도시된다. 구간은 5 내지 40 밀리세컨드 (ms) 로 결정될 수 있다. 또한, 장애 음성에 대한 구간은 자음과 모음 각각에 대해서 상이하게 결정될 수 있다. 예컨대, 자음에 대한 구간은 모음에 대한 구간보다 짧을 수 있으며, 예컨대 5 내지 20ms 일 수 있다. 모음에 대한 구간은 10 내지 40ms로 결정될 수 있다. 점선 내 구간에 대한 주파수 영역에서의 도표를 참조하면, 첫번째 포먼트는 422Hz의 포먼트 주파수, 54Hz의 대역을 갖는다. 두번째 포먼트는 1579Hz의 포먼트 주파수, 140Hz의 대역을 가지며, 세번째 및 네번째 포먼트는 각각 2745Hz, 3269Hz의 포먼트 주파수, 208Hz, 181Hz의 대역을 갖는다. 일 구간에서의 4개의 포먼트 주파수 및 대역은 하나의 장애 음성 성분을 구성할 수도 있다.

정상 음성에 대한 (b) 를 참조하면, (a) 에서의 점선 내 구간에 대응되는 구간이 시간 영역 도표에 표시된다. 이 구간에 대한 주파수 영역에서의 도표를 분석하면, 첫번째 포먼트는 275Hz의 포먼트 주파수, 46Hz의 대역을 갖는다. 두번째 포먼트는 1294Hz의 포먼트 주파수, 475Hz의 대역을 가지며, 세번째 및 네번째 포먼트는 각각 3014Hz, 3053Hz의 포먼트 주파수, 614Hz, 124Hz의 대역을 갖는다.

그러나, 사람은 포먼트 성분을 인식할 때 약 300Hz 이하의 좁은 대역폭에 대해 민감하게 인식하며 그 이상일 경우 잘 느끼지 못하게 되고, 모음의 경우 첫번째 포먼트와 두번째 포먼트의 주파수가 그 모음을 결정짓는 요소가 된다. 이를 기준으로 살펴보면, 장애 음성에 대한 (a) 의 첫번째 포먼트 주파수는 422Hz이고 두번째 포먼트 주파수는 1579Hz가 된다. 반면 정상음성에 대한 (b)의 첫번째 포먼트는 275Hz이고 두번째 포먼트 주파수는 3053Hz로 판단할 수 있다. 성별과 나이에 따라 차이가 있지만 일반적으로 모음 /i/의 첫번째 포먼트 주파수는 300Hz ~ 400Hz이고 두번째 포먼트 주파수는 2200Hz ~ 3000Hz정도에 위치하며 첫번째 포먼트와 두번째 포먼트 사이에는 깊은 계곡이 형성된다. 즉 적어도 장애음성에 대한 (a)에서와 같이 1000Hz ~ 2000Hz사이에는 대역폭이 작은 강한 에너지가 나타나지 않는다는 것으로부터 정상음성과 장애음성을 구별할 수 있다.

전술한 바와 같이 본 발명의 일 실시예에 따른 장애 음성 처리 장치의 복원부는 음소 특징 테이블을 참조하여 장애 음성 성분을 복원할 수 있다. 예컨대, 정상 음성 /i/에 대한 포먼트 정보가 음소 특징 테이블에 저장되고, 복원부는 음소 특징 테이블을 참조하고 장애 음성 성분을 처리하여 복원 음성 성분을 생성할 수 있다. 예시적으로 복원부는 장애 음성 성분의 첫번째 포먼트에서 포먼트 주파수를 422Hz에서 약 275Hz로 조정하고, 두번째 포먼트에서 그 대역폭을 140Hz에서 약 475Hz로, 세번째 포먼트에서 대역폭을 208Hz에서 약 600Hz으로 조정할 수 있다. 복원부는 조정된 포먼트 주파수 및 대역폭을 기초로 복원 음성 성분을 생성하여 출력할 수 있다.

또한, 본 발명의 다른 실시예에 따른 장애 음성 처리 장치를 참조하면, 장애 음성 처리 장치는 입력부로부터 음성을 비음 및 구음으로 나뉘어 입력받고, 비음과 구음 각각에 대해 처리할 수 있다.

도 5a는 본 발명의 다른 실시예에 따른 장애 음성 처리 장치에서의 입력부를 설명하기 위한 개념도이다. 도 5a를 참조하면, 화자 (510), 제1 입력부 (520), 제2 입력부 (530) 및 분리 수단 (540) 이 도시된다. 본 발명의 다른 실시예에 따른 장애 음성 처리 장치의 입력부는 제1 입력부 (520) 및 제2 입력부 (530) 를 포함할 수 있다.

화자 (510) 의 음성은 구음과 비음으로 나뉠 수 있으며, 제1 입력부 (520) 는 화자 (510) 의 구음을 입력받도록 구성되고, 제2 입력부 (530) 는 화자 (510) 의 비음을 입력받도록 구성될 수 있다. 입력부는 화자 (510) 의 구음과 비음을 분리하여 입력 받도록 분리 수단 (540) 을 포함할 수 있다.

본 발명의 다른 실시예에 따른 장애 음성 처리 장치가 음성을 구음과 비음으로 분리하여 입력 받는 경우 장애 음성을 정상 음성으로 보다 효율적으로 복원할 수 있으며, 이하에서는 구음과 비음이 나뉘어서 처리되는 방법에 대해 보다 구체적으로 설명한다.

도 5b는 예시적으로 모음에 대한 장애 음성 성분의 분석을 설명하기 위 해 작성된 도표를 도시한 것이다. 도 5를 참조하면, 장애 음소 /i/와 정상 음소 /i/를 분석하기 위한 도표가 구음 및 비음으로 나뉘어 도시된다.

구음에 대한 음성 성분 (a), (b) 를 참조하면, 시간 영역의 점선 내 구간에 대응하는 주파수 영역의 도표가 도시된다. 점선 내 구간에 대한 주파수 영역의 도표를 분석하면, 포먼트 주파수는 세번째 포먼트의 포먼트 주파수가 2448Hz와 3024Hz로 상이한 것을 제외하고는 유사하다는 것이 이해될 수 있다. 포먼트 대역폭은 세번째와 네번째 포먼트에서 일부 차이가 있으나 전반적으로 유사하며, 주파수 영역의 도표를 비교하면, (a) 및 (b) 에서의 주파수 영역의 도표는 유사한 것으로 판단될 수 있다. 이와 같은 분석 방법을 통해, 전술한 장애 음성 결정부는 예컨대, 구음에 대한 음성 성분을 정상 음성 성분으로 결정할 수 있다.

한편, 비음에 대한 음성 성분 (c), (d) 를 참조하면, 시간 영역의 점선 내 구간에 대응하는 주파수 영역의 도표가 도시된다. 점선 내 구간에 대한 주파수 영역의 도표를 분석하면, 포먼트 주파수 및 대역폭 양쪽 모두가 상이하다는 것이 이해된다. 즉 비음의 공명오류가 1000Hz와 2000Hz 사이에 강하게 하나의 포먼트로 나타나고 있음을 알 수 있다.

장애 음성 결정부는 예컨대, 비음에 대한 음성 성분 (c) 를 장애 음성 성분으로 결정할 수 있으며, 복원부는 음소 특징 테이블을 참조하여 장애 음성 성분을 복원할 수 있다. 예컨대, 음소 특징 테이블에 저장된 정상 음성 /i/의 비음에 대한 포먼트 정보를 참조하여, 복원부는 비음에 대한 장애 음성 성분을 처리하여 복원 음성 성분을 생성할 수 있다. 또는, 복원부는 비음에 대한 장애 음성 성분을 조정하는 것이 아니라, 음소 특징 테이블에 저장된 포먼트 정보를 이용하여 새로운 복원 음성 성분을 생성할 수도 있다.

본 발명의 일 실시예에 따른 장애 음성 처리 장치는 정상 음성인 (a) 에서의 구음에 대한 음성 성분과 비음에 대한 복원 음성 성분을 합성하여 복원 음성 신호를 생성할 수 있다. 이러한 실시예에서는 비분리음에 대한 장애 음성 성분을 조정하는 것보다 보다 효과적으로 장애 음성 성분을 복원할 수 있다.

본 발명의 다양한 실시예에 따른 장애 음성 처리 방법은 다양한 메커니즘을 이용함으로써 한국어와는 상이한 음소에 적용될 수 있음을 당업자는 쉽게 인식할 수 있다.

도 6은 예시적으로 자음에 대한 장애 음성 성분의 분석을 설명하기 위해 작성된 도표를 도시한 것이다. 도 6에서 도시되어 있는 바와 같이, (a) 에서는 장애 음소 /ㅊ/에 대한 시간 영역 도표, 구간 A에 대한 소스 스펙트럼, 필터 응답, 신호 스펙트럼으로 나뉘어져 있고, (b) 에서는 정상 음소 /ㅊ/에 대한 시간 영역 도표, 구간 A’에 대한 소스 스펙트럼, 필터 응답, 신호 스펙트럼으로 나뉘어져 있다.

도 6의 (a) 및 (b) 의 시간 영역 도표에서 구간 A 및 구간 A’은 모두 발음/ㅊ/에 대한 구간이며, 소스 스펙트럼 및 필터 응답은 소스-필터 알고리즘에 의해 소스에 대한 성분과 필터에 대한 성분으로 분리되어 추출된 것이다.

먼저, (a) 및 (b) 의 신호 스펙트럼을 참조하면, (a) 의 장애 음소 /ㅊ/의 신호 스펙트럼과 (b) 의 장애 음소 /ㅊ/의 신호 스펙트럼은 유사하지 않아 다른 발음으로 인식될 가능성이 높다.

소스 스펙트럼과 필터 응답 각각을 별도로 살펴보면, (a) 의 장애 음소 /ㅊ/의 소스 스펙트럼과 (b) 의 정상 음소 /ㅊ/의 소스 스펙트럼은 진폭의 일부 차이 외에는 큰 차이가 없는 것으로 판단될 수 있다. 전술한 장애 음성 결정부는 예컨대, 소스에 대한 음성 성분을 정상 음성 성분으로 결정할 수 있다.

한편, (a) 의 장애 음소 /ㅊ/의 필터 응답과 (b) 의 정상 음소 /ㅊ/의 필터 응답은 포먼트 주파수 및 대역폭 양쪽 모두가 상이한 것이 이해될 수 있다. 장애 음성 결정부는 예컨대, 필터 응답에 대한 음성 성분을 장애 음성 성분으로 결정할 수 있으며, 복원부는 음소 특징 테이블을 참조하여 장애 음성 성분을 복원할 수 있다. 예컨대, 음소 특징 테이블에 저장된 정상 음성 /ㅊ/에 대한 필터 응답 정보를 참조하여, 복원부는 필터 응답에 대한 장애 음성 성분을 처리하여 복원 음성 성분을 생성할 수 있다.

본 발명의 일 실시예에 따른 장애 음성 처리 장치는 정상 신호인 (a) 에서의 소스에 대한 음성 성분과 필터 응답에 대한 복원 음성 성분을 합성하여 복원 음성 신호를 생성할 수 있다. 한편, 자음에 대해서는 일 구간이 아니라 자음의 종류에 따라 복수의 구간에 대한 복원이 요구될 수도 있다.

도 7은 예시적으로 자음에 대한 장애 음성의 분석을 설명하기 위해 작성된 도표를 도시한 것이다. 도 7에서는 음소 /ㅊ/에 대한 시간 영역 도표가 도시된다. 음소 /ㅊ/의 A구간은 난기류 (turbulance) 구간이고, B 구간은 기식성 (aspiration) 구간이고, C 구간은 모음과 연결되는 음성 구간을 나타낸다.

장애 음소 /ㅊ/을 정상 음소 /ㅊ/으로 복원시키기 위해서는 난기류 구간 A 및 기식성 구간 B 각각에 대한 복원 처리가 요구될 수 있다. 예컨대, 복원부는 난기류 구간 A에 대해서 6 내지 8 kHz 대역 폭의 2차 밴드패스 필터를 적용하고, 기식성 구간 B에 대해서 포먼트 조정을 수행할 수 있다. 또한, 모음과 연결되는 음성 구간에 대해서는 진폭을 조정할 수도 있다. 또는 복원부는 기식성 구간 B의 지속 시간 (duration) 을 조정함으로써, 장애 음성 성분에 기초하여 복원 음성 성분을 획득할 수도 있다.

도 8은 예시적으로 비음과 관련한 장애 음성의 처리 결과를 설명하기 위해 작성된 도표를 도시한 것이다. 도 8의 (a) 에서는 장애 음성 성분을 포함한 장애 음성 신호에 대한 도표, (b) 에서는 복원 음성 성분을 포함한 복원 음성 신호가 도시된다. 도 8의 (a) 에서는 파찰음에 대한 A구간 및 B구간이 도시되고, 도 8의 (b) 에서는 A 구간 및 B 구간에 대응되는 A’ 구간 및 B’ 구간이 도시된다.

본 발명의 일 실시예에 따른 장애 음성 처리 장치의 복원부는 포먼트의 조정, 필터링 등 이외에도 불필요한 음성을 제거함으로써 복원을 수행할 수 있다. 도 8의 (a) 는 장애 음성에 대한 도표로, 구간 A 및 B의 음성은 파열음 폐쇄기간 동안 발생된 비강음을 나타낸다. 복원부는 비강음을 제거함으로써, 장애 음성 성분을 제거한 복원 음성 성분을 획득할 수 있다. 도 8의 (b) 는 비강음이 제거된 복원 음성 신호에 대한 도표로, 구간 A’ 및 B’ 에서 진폭이 저감된 것을 나타낸다.

이외에도, 복원부는 예컨대 고주파 영역의 잡음을 제거함으로써, 장애 음성 성분을 복원할 수도 있다.

도 9는 본 발명의 다른 실시예에 따른 통신 디바이스의 블록도이다. 통신 디바이스 (900) 는 제1 입력부 (910), 아날로그 신호처리부 (920), 코덱 (930), 처리부 (940), 메모리부 (945), 동작 설정부, 전원 관리부 (955), 외부장치 인터페이스부 (960), 표시부 (970), 증폭부 (980) 및 음성 출력부 (990) 를 포함할 수 있다.

제1 입력부 (910) 는 발화시 입에서 나오는 구음 신호를 입력받은 다음 전기적 신호로 변환하여 출력한다. 통신 디바이스는 또한 제2 입력부 (912) 를 더 포함할 수 있다. 제2 입력부 (912) 는 발화시 코에서 나오는 비음 신호를 입력받은 다음 전기적 신호로 변환하여 출력한다. 전술한 바와 같이 비음 신호를 입력 받는 제2 입력부 (912) 는 선택적일 수 있으며, 제1 입력부 (910) 와 제2 입력부 (912) 모두 사용될 경우 도 5a에서 전술한 바와 같이 구음과 비음은 분리되어 수집될 수 있다.

아날로그 신호처리부 (920) 는 잡음제거 필터와 증폭기로 구성될 수 있으며, 제1 입력부 (910) 및 제2 입력부 (912) 로부터 입력된 신호에 기초하여 충분한 크기의 음성 신호를 생성할 수 있다.

코덱 (930) 은 처리된 아날로그 음성 신호를 디지털 신호로 변환시키거나 처리부 (940) 에서 복원된 디지털 음성을 음성 출력부 (990) 로 출력하기 위해 아날로그 신호로 변환시켜 출력한다.

증폭부 (980) 는 코덱 (930) 에서 아날로그 신호로 변환되어 인가되는 음성 신호를 동작설정부 (950) 에서 설정된 레벨로 증폭하여 출력한다.

음성 출력부 (990) 는 증폭부 (980) 를 통해 인가되는 아날로그 신호를 음성으로 변환시켜 출력한다.

동작설정부 (950) 는 하나 이상의 기능키를 포함하며, 기능키의 선택을 통해 음성 복원의 사용 모드, 복원 음성의 출력 크기 및 음질 조절을 위한 각종 동작 기능을 설정한다.

처리부 (940) 는 전술한 음성 인식, 성분 추출, 복원 및 합성 알고리즘이 구현되어 설정되며, 설정된 알고리즘을 통해 장애 발성음을 정상인의 음성에 근접하는 음성으로하는 복원 처리를 수행하며, 동작설정부 (950) 에서 선택된 모드에 따라 코덱 또는 외부장치 인터페이스부 (960) 로 복원 신호를 전달할 수 있다. 처리부 (940) 는 전술한 본 발명의 다양한 실시예에 따른 장애 음성 처리 장치의 일부, 전부 또는 조합으로 구현될 수 있다.

표시부 (970) 는 처리부 (940) 의 동작상태 및 동작설정부 (950) 로부터 설정된 제반적인 정보를 시각적으로 출력하다.

메모리부 (945) 는 처리부 (940) 의 운용에 필요한 알고리즘이 구현된 기계어 코드와 데이터, 음성 복원을 위해 요청되는 음소 특징 테이블 등이 저장한다.

외부장치 인터페이스부 (960) 는 장애 음성 처리 장치가 별도의 독립된 장치로 적용되는 경우, 통신 디바이스 (900) 와 접속되도록 구성된다.

본 발명의 다른 실시예에 따른 통신 디바이스 (900) 는 입력된 오조음을 정상 음성으로 변환함으로써, 통화 중 정확한 발성이 가능하여 양질의 음성 통화가 가능하다.

도 10은 본 발명의 일 실시예에 따른 장애 음성 처리 방법의 흐름도이다. 설명의 편의를 위해, 이하에서는 도 1의 장애 음성 처리 장치의 구성을 참조하여 설명한다. 또한, 모든 단계는 독립적으로 수행될 수 있으나 아래에서는 설명의 편의상 하나의 과정으로 설명한다.

장애 음성 처리 장치는 입력부를 통해 음성 신호를 수신한다 (S100). 장애 음성 처리 장치가 수신하는 음성 신호는 구음 신호, 비음 신호 또는 구음과 비음이 분리되지 않은 음성 신호일 수 있다.

장애 음성 처리 장치는 음성 인식부를 통해 수신된 음성을 인식한다 (S200). 장애 음성 처리 장치는 장애 음성에서 음소를 인식하기 위해 음성 코퍼스를 참조할 수 있다. 장애 음성 처리 장치는 학습된 분류 알고리즘에 의해 현재 입력된 음성 신호를 음소 단위로 인식할 수 있다.

장애 음성 처리 장치는 성분 추출부를 통해 입력부로부터 수신된 음성 신호로부터 복수의 음성 성분을 추출한다 (S300). 성분 추출부가 추출하는 음성 성분은 성분 분석부, 복원부 또는 합성부에서 이용하는 필터 또는 알고리즘에 따라 상이할 수 있으며, 제한되지 않는다. 음성 추출부는 추출된 음성 성분을 복원부로 출력한다.

장애 음성 처리 장치는 복원부를 통해 수신된 음성 성분을 음소 단위로 처리하여 복원 음성 성분을 획득한다 (S400). 복원부가 처리하는 음성 성분은 장애 음성 성분일 수 있다. 복원부는 장애 음성에 대한 복원 처리를 수행한다. 복원부는 음성 인식부로부터 분리된 음소 또는 음소의 구간을 포함하는 음소 정보 및 성분 추출부로부터의 복수의 음성 성분을 수신한다.

복원부는 예컨대 음소 특징 테이블을 참조하여 장애 음성 성분을 정상 음성 성분으로 복원할 수 있다. 음소 특징 테이블은 장애 음성 성분과 정상 음성 성분에 대한 복원 정보를 포함할 수 있다. 복원부는 장애 음성 성분의 포먼트 (formant) 주파수, 템플릿 대역폭 등을, 음소 특징 테이블을 참조하여 조정함으로써 장애 음성 성분을 정상 음성 성분으로 복원할 수 있다. 또는, 기식성, 긴장성, 난기류 중 적어도 하나에 기초하여 시간 대역 또는 주파수 대역의 장애 음성 성분을 조정함으로써, 장애 음성 성분을 정상 음성 성분으로 복원할 수 있다.

복원부는 시간 영역에서 음소의 지속시간을 조정하거나 음소 단위를 연결하는 자음-모음 사이의 상호작용 (Interaction) 에 의해 발생하는 자음의 로커스 주파수 천이 (Locus Frequency Transition) 를 통한 모음의 포먼트와의 연결을 조정할 수 있다.

장애 음성 처리 장치는 합성부를 통해 복원부로부터의 복원 음성 성분을 기초로 복원 음성 신호를 합성한다 (S500). 합성부는 복원 음성 성분 및 다른 음성 성분들을 합성하여 복원 음성 신호를 생성할 수 있다.

합성부는 성문 성분인 여기 신호와 복원 음성 성분를 합성하여 복원 음성 신호를 출력한다. 예컨대, 합성부는 정상 음성 성분인 성문 성분과 포먼트 주파수가 조정된 성도 성분을 합성하여 복원 음성 신호를 합성할 수 있다. 복원 음성 신호는 장애 성분이 복원되었으므로, 그 조음 또는 발음이 보다 향상될 수 있다.

첨부된 블록도의 각 블록과 흐름도의 각 단계의 조합들은 펌웨어 (firmware), 소프트웨어 (software) 또는 하드웨어 (hardware) 로 구성된다. 알고리즘 또는 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수도 있다. 이들 알고리즘 또는 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 디지털 신호 처리 디바이스 (Digital Signal Processing Device) 의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능들을 수행하는 수단을 생성하게 된다. 이들 알고리즘 또는 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 블록도의 각 블록 또는 흐름도 각 단계에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다. 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 블록도의 각 블록 및 흐름도의 각 단계에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.

또한, 각 블록 또는 각 단계는 특정된 논리적 기능 (들) 을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또한, 몇 가지 대체 실시예들에서는 블록들 또는 단계들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들 또는 단계들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.

이상으로 실시예를 들어 본 발명을 더욱 상세하게 설명하였으나, 본 발명은 반드시 이러한 실시예로 국한되는 것은 아니고, 본 발명의 기술사상을 벗어나지 않는 범위 내에서 다양하게 변형실시될 수 있다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

100, 200, 300 : 장애 음성 처리 장치
110, 210, 310 : 입력부
120, 220, 320 : 음성 인식부
130, 230, 340 : 성분 추출부
140, 250, 350 : 복원부
150 , 260, 360 : 합성부
170, 270, 370 : 음소 특징 테이블
240, 330 : 장애 음성 결정부
소스 보완 필터 : 280
입술 방사 필터 : 290
510 : 화자
520, 910 : 제1 입력부
530, 912 : 제2 입력부
540 : 분리 수단
900 : 통신 디바이스
920 : 아날로그 신호처리부
930 : 코덱
940 : 처리부
945 : 메모리부
950 : 동작설정부
955 : 전원관리부
960 : 외부장치 인터페이스부
970 : 표시부
980 : 증폭부
990 : 음성 출력부

Claims

음성 신호를 수신하는 단계;
상기 음성 신호를 음소 단위로 인식하는 단계;
상기 음성 신호로부터 복수의 음성 성분을 추출하는 단계;
상기 복수의 음성 성분 중 적어도 일부의 장애 음성 성분을 상기 음소 단위로 처리하여 복원 음성 성분을 획득하는 단계;
적어도 상기 복원 음성 성분을 기초로 복원 음성 신호를 합성하는 단계를 포함하는 것을 특징으로 하는, 장애 음성 처리 방법.
제1항에 있어서,
상기 복수의 음성 성분은 성도 성분 및 성문 성분을 포함하고,
상기 장애 음성 성분은 성도 성분인 것을 특징으로 하는, 장애 음성 처리 방법.
제1항에 있어서,
인식된 상기 음성 신호를 정상 음성신호 및 장애 음성 신호로 분류하는 단계를 더 포함하고, 상기 획득하는 단계는 상기 장애 음성 신호에 대한 상기 장애 음성 성분을 상기 음소 단위로 처리하여 상기 복원 음성 성분을 획득하는 단계인 것을 특징으로 하는, 장애 음성 처리 방법.
제3항에 있어서,
상기 장애 음성 신호를 분류하는 단계는 휴리스틱스 (heuristics) 를 적용하여 상기 장애 음성 신호를 분류하는 단계를 포함하는 것을 특징으로 하는, 장애 음성 처리 방법.
제3항에 있어서,
상기 분류하는 단계는, 상기 음소 단위로 상기 음성 신호의 장애 여부를 결정하는 단계를 포함하는 것을 특징으로 하는, 장애 음성 처리 방법.
제3항에 있어서,
상기 분류하는 단계는, 추출된 상기 복수의 음성 성분에 기초한 것을 특징으로 하는, 장애 음성 처리 방법.
제3항에 있어서,
상기 장애 음성 신호의 진폭 또는 길이를 조정하는 단계를 더 포함하는 것을 특징으로 하는, 장애 음성 처리 방법.
제1항에 있어서,
상기 장애 음성 성분은 자음에 대한 장애 음성 성분이고,
상기 복원 음성 성분을 획득하는 단계는, 파열 자음, 마찰 자음, 또는 파찰 자음에 대한 장애 음성 성분에서 기식성 (aspiration), 긴장성 (tense), 또는 난기류 (turbulence) 중 적어도 하나와 연관된 조정, 또는 유음, 또는 비음 자음에 대한 장애 음성 성분에서 시간 및 주파수 영역에서의 조정을 통하여, 상기 복원 음성 성분을 획득하는 단계를 포함하는 것을 특징으로 하는, 장애 음성 처리 방법.
제1항에 있어서,
상기 장애 음성 성분은 모음에 대한 장애 음성 성분이고,
상기 복원 음성 성분을 획득하는 단계는 상기 모음의 고유한 정상 포먼트 주파수의 위치로부터 벗어나 있는 상기 장애 음성 성분의 포먼트 주파수를 정상 위치로 조정하거나, 있어서는 안되는 위치에 발생된 포먼트를 약화 또는 제거하는 조정을 함으로써, 상기 복원 음성 성분을 획득하는 단계를 포함하는 것을 특징으로 하는, 장애 음성 처리 방법.
제1항에 있어서,
상기 장애 음성 성분은 자음, 모음 또는 자음 및 모음의 결합에 대한 장애 음성 성분인 것을 특징으로 하는, 장애 음성 처리 방법.
제1항에 있어서,
상기 복원 음성 신호를 합성하는 단계에서, 선형예측부호화 (LPC) 가 이용된 것을 특징으로 하는, 장애 음성 처리 방법.
제1항에 있어서,
상기 음성 신호는 구음 (口音) 신호 및 비음 (鼻音) 신호를 포함하는 것을 특징으로 하는, 장애 음성 처리 방법.
제1항에 있어서,
상기 추출하는 단계는 선형예측부호화 (LPC) 를 이용하여 상기 복수의 음성 성분을 추출하는 단계를 포함하는 것을 특징으로 하는, 장애 음성 처리 방법.
제1항에 있어서,
상기 복원 음성 성분을 생성하는 단계는 장애 음소 특징 테이블에 기초하여 상기 복원 음성 성분을 생성하는 단계를 포함하는 것을 특징으로 하는, 장애 음성 처리 방법.
제14항에 있어서,
상기 음소 특징 테이블은 사용자의 목소리 특성을 최대한 보존할 수 있는 음소 특징 파라미터로 구성된 것을 특징으로 하는, 장애 음성 처리 방법.
제1항에 있어서,
상기 복원 음성 성분을 보완하도록 상기 복원 음성 신호를 필터링하는 단계를 더 포함하는 것을 특징으로 하는, 장애 음성 처리 방법.
제1항에 있어서,
상기 복원 음성 신호를 입술 방사 필터로 필터링하는 단계를 더 포함하는 것을 특징으로 하는, 장애 음성 처리 방법.
음성 신호를 수신하는 입력부;
상기 음성 신호를 저장하는 메모리; 및
상기 음성 신호로부터 복원 음성 신호를 생성하도록 구성된 프로세서를 포함하고,
상기 프로세서는,
상기 음성 신호를 음소 단위로 인식하고;
상기 음성 신호로부터 복수의 음성 성분을 추출하고,
상기 복수의 음성 성분 중 적어도 일부의 장애 음성 성분을 상기 음소 단위로 처리하여 복원 음성 성분을 획득하고,
적어도 상기 복원 음성 성분을 기초로 복원 음성 신호를 합성하도록 구성된 것을 특징으로 하는, 장애 음성 처리 장치.
제18항에 있어서,
상기 복수의 음성 성분은 성도 성분 및 성문 성분을 포함하고,
상기 장애 음성 성분은 성도 성분인 것을 특징으로 하는, 장애 음성 처리 장치.
제18항에 있어서,
상기 프로세서는, 상기 음성 신호를 정상 음성 신호와 장애 음성 신호를 분류하도록 구성된 것을 특징으로 하는, 장애 음성 처리 장치.
제20항에 있어서,
상기 프로세서는, 상기 장애 음성 신호의 진폭 또는 길이를 조정하도록 구성된 것을 특징으로 하는, 장애 음성 처리 장치.
제20항에 있어서,
상기 음성 신호는 구음 (口音) 신호 및 비음 (鼻音) 신호를 포함하는 것을 특징으로 하는, 장애 음성 처리 장치.
음성 신호를 입력 받고, 복원 음성 신호를 출력하는 제18항 내지 제22항 중 어느 한 항에 기재된 장애 음성 처리 장치; 및
상기 장애 음성 처리 장치의 상기 복원 음성 신호를 음파로 변환시켜 출력하는 스피커를 포함하는 것을 특징으로 하는, 통신 디바이스.