KR20100036893A

KR20100036893A - 음성 신호를 분석하여 화자를 인식하는 장치 및 그 방법

Info

Publication number: KR20100036893A
Application number: KR1020080096315A
Authority: KR
Inventors: 김현수
Original assignee: 삼성전자주식회사
Priority date: 2008-09-30
Filing date: 2008-09-30
Publication date: 2010-04-08
Also published as: US20100082341A1

Abstract

음성 신호를 분석하여 화자를 인식하는 장치 및 그 방법이 개시된다. 본 발명은 음성 신호를 분석하여 통계적으로 분류되어 있는 화자들의 음성 신호 특성과 비교하여 화자를 인식하는 장치 및 그 방법에 관한 것이다. 본 발명은 음성 신호가 유성음인 경우와 무성음인 경우 또는 음성 신호에 대한 어떤 정보가 없는 경우에도 적용가능하며, 중간에 음성/비음성을 판단하는 과정을 거치기 때문에 확실하게 음성 신호에 대하여 화자를 인식 할 수 있는 장치 및 방법을 제공할 수 있다. 또한 계산량이 적고 간단하여 처리 과정이 빠르기 때문에 실시간 처리를 요하는 응용분야에 이용가능하며, 또한 전력 소모가 적기 때문이 휴대 기기에 다양하게 응용될 수 있는 효과가 있다.

화자 인식 장치, 음성신호, 유성음, 무성음, 주기, periodicity

Description

음성 신호를 분석하여 화자를 인식하는 장치 및 그 방법{Speaker cognition device using voice signal analysis and method thereof}

본 발명은 음성 신호를 분석하여 화자를 인식하는 장치 및 그 방법에 있어서, 음성 신호의 주기성을 이용하여 화자를 보다 쉽고 빠르게 인식하는 장치 및 그 방법에 관한 것이다.

보다 상세하게는 음성 프레임으로부터 특정 패턴 신호를 분리하고 분리된 특정 패턴 신호를 DB에 저장되어 있는 정보와 비교하여 음성 신호인지를 판단하고 음성 신호인 경우에 특정 패턴 신호를 이용하여 음성 프레임의 주기정보(periodicity)를 측정하여 저장되어 있는 화자별 음성 정보와 비교함으로써, 음성 프레임의 화자 인식을 보다 쉽고 빠르게 하는 장치 및 그 방법에 관한 것이다.

종래의 화자를 인식하기 위한 방법은 음성 신호로부터 pitch(음성신호의 주기) 정보 추출 방법을 이용하여 추출된 pitch 정보들 이용하여 화자를 인식하는 방법이 있다. 이때 pitch 정보 추출 방법들은 앞선 신호에 근거하여 다음의 신호를 예측하는 선형 예측 분석 (Linear Prediction analysis: LP)에 기반을 두고 있다. 선형 예측(LP) 분석법은 LP의 order에 따라 성능이 좌우되나 단지 order를 높이는 방법으로는 계산량이 많을 뿐 아니라 성능에도 한계가 있다.

가장 중요한 LP 분석 방법의 약점은 짧은 일정 시간 동안에는 신호가 안정적(stationary)이다는 가정 하에서 동작한다는 점이다. 이러한 방법은 특히 음성 신호의 transition 영역에서 급격하게 바뀌는 신호를 따라가지 못하고 분석을 실패하게 된다.

또 다른 LP 분석의 한계는 data windowing의 적용에 있다. 여기서 data windowing의 선택은 항상 시간과 주파수 축 resolution 간의 상관 관계(trade-off)속에 있게 된다. 예를 들어, 매우 높은 pitch의 음성의 경우, LP 분석 방법(대표적으로는 autocorrelation과 covariance 방법 둥이 있다.)에서는 하모닉 영역들의 넓은 거리 때문에 스펙트럼의 envelope보다는 개별적인 하모닉들을 따라가게 된다.

LP 분석은 vocal tract transfer function이 linear all-pole model에 의해 모델링 될 수 있다는 가정 하에서 동작한다. 이러한 경우 특히 여성이나 어린이 화자의 경우에 나쁜 성능을 보이는 경향이 많다.

종래의 화자를 인식하기 위한 Pitch 측정방법은 그 알고리즘에서 최선의 candidate이라고 여겨지는 주파수를 선택하였지만, 알고리즘의 성능의 한계로 인해 나타나는 fine error ratio (error 범위는 잡음이 커지면 같이 늘어나는 경향이 있다.)가 있으며, 입력된 전체 음성 프레임들에서 pitch doubling이나 pitch halving으로 인해 엄청난 error를 야기할 수 있다.

또한 종래의 화자를 인식하는 방법은 음성 신호와 유사하나 음성 신호가 아닌 비음성 신호를 음성 신호라고 판단하고 처리하는 비효율성을 가질 수 있다.

상기한 기존의 기술의 문제점을 해결하기 위해서, 본 발명은 계산량이 적으며확실한 음성 신호에 대해서만 분석을 하는 효율적인 장치 및 방법을 제공 하고자 한다.

또한 음성 신호의 주기성에 따라 보다 효율적인 분석 장치 및 방법을 제공 하고자 한다.

또한 음성과 비음성 신호에 대한 패턴 정보를 저장하여 분석된 신호의 패턴과저장된 음성/비음성 신호들의 패턴 정보를 비교함으로써 음성과 비음성을 구분하는 장치 및 방법을 제공하고자 한다.

또한 화자들의 음성 정보 특성을 저장하고 있어 분석된 음성 신호와 저장된 화자들의 음성 정보 특성과 비교하여 화자 인식을 하는 장치 및 방법을 제공 하고자 한다.

본 발명의 다른 목적들은 이하의 실시예에 대한 설명을 통해 쉽게 이해될 수 있을 것이다.

본 발명의 일 측면에 따르면, 신호를 분석하여 화자를 인식하는 방법에 있어서, 정보가 담겨 있는 프레임을 분석하여 상기 프레임으로부터 특정 패턴 신호를 분리하는 단계와 상기 특정 패턴 신호를 통계적으로 처리된 DB의 정보들과 비교하 여 음성신호인지 비음성 신호인지를 판단하는 단계와 상기 특정 패턴 신호가 음성 신호로 판단되는 경우에 상기 프레임의 주기성(periodicity)을 측정하는 단계 및 상기 측정된 주기성(periodicity)을 이용하여 상기 프레임의 화자를 인식하는 단계를 포함하는 것을 특징으로 하는 신호를 분석하여 화자를 인식하는 방법이 제공된다.

이때, 상기 프레임으로부터 특정 패턴의 신호를 분리하는 방법은 상기 프레임이 유성음인 경우에는 HND(Harmonic to Noise Decomposition) 방법을 이용하여 특정 신호를 분리하고, 상기 프레임이 무성음인 경우 또는 상기 프레임에 대한 정보가 없는 경우에는 SND(Sinusoidal to Non-sinusoidal Decomposition) 방법을 이용하여 특정 신호를 분리하는 것을 특징으로 하는 신호를 분석하여 화자를 인식하는 방법이 더 제공될 수 있다.

또한, 신호를 분석하여 화자를 인식하는 장치에 있어서, 음성 신호 프레임이 입력되는 입력부와 상기 음성 신호 프레임을 분석하여 특정 패턴 신호를 분리하는 처리부와 상기 특정 패턴 신호의 특성별 패턴 정보를 가지고 있는 데이터베이스(Data Base)와 상기 특정 패턴 신호와 상기 데이터베이스에 저장되어 있는 정보들을 비교하는 비교부와 상기 특정 패턴 신호의 신호로부터 상기 음성 신호 프레임의 주기성(periodicity)을 측정하는 periodicity 측정부 및 상기 주기성(periodicity)으로부터 상기 음성 신호 프레임의 화자를 판별하는 판별부를 포함하는 것을 특징으로 하는 신호를 분석하여 화자를 인식하는 장치가 제공된다.

본 발명에 따르면, 음성 신호를 분석하여 화자를 인식하는 장치 및 그 방법에 있어서, 음성 신호의 주기성에 따라 각각 최적의 알고리즘을 이용하여 음성 심호를 분리하는 효과가 있다.

또한 음성 신호의 주기성에 대한 정보가 없는 경우에도 음성 신호를 분석할 수 있는 효과가 있다.

또한 음성 신호를 검증하는 과정이 있으므로 확실한 음성 신호만을 분석 할 수 있는 효과가 있다.

또한 최적의 방법으로 음성 신호를 분리 할 수 있으므로 빠르고 전력 소모가적은 장치 및 방법을 구현 할 수 있는 효과가 있다.

또한 화자의 특성별 저장된 정보와 비교하여 화자를 인식하므로 모집단이 존재하는 화자들의 집단에서 보다 빠르고 정확하게 화자들을 인식하는 효과가 있다. 예를 들어 회의에 참석하는 화자들의 특성에 따라 실시간으로 화자를 인식 할 수 있으며, 화자들의 특성에 따라 음성 프레임이 저장되므로 화자별 발언 내용을 구분하여 들을 수 있는 효과가 있다.

본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발 명의 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

본 발명에서는 다양한 구성요소들을 설명하는 용어들이 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.

본 발명에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 발명에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

이하, 본 발명의 실시예를 첨부한 도면들을 참조하여 상세히 설명하기로 한다.

도1은 본 발명의 일 실시예로서 화자를 인식하는 장치의 구성을 나타낸 도면이다.

본 발명의 화자 인식 장치(10)의 구성은 입력부(100)와 분리부(200)와 처리 부(300)와 비교부(400)와 DB(500)와 periodicity 측정부(600)와 판별부(700)로 구성된다.

입력부(100)는 음성 프레임이 입력되는 부분이며 입력되는 음성 프레임이 시간 영역의 프레임이면 주파수 영역으로 변환하는 기능도 수행 할 수 있다. 음성 프레임을 주파수 영역으로 변환하는 방법은 푸리에 변환을 이용할 수 있다. 음성 프레임을 주파수 영역으로 변환하는 방법은 이미 공지된 기술이므로 자세한 설명은 생략하기로 한다.

분리부(200)는 입력되는 음성 프레임의 주파수 특성을 조사하여 음성 프레임이 유성음인지 무성음인지를 판단하여 분리하는 기능을 수행한다. 분리부(200)에는 주파수의 특성을 조사하는 DSP 칩이 더 포함될 수 있다. 분리부(200)는 DSP 처리를 통해서 입력되는 음성 프레임이 주기적인 특성을 가진 경우에는 유성음으로 판단하고 비주기적인 특성을 가지는 경우에는 무성음으로 판단한다. 만일 입력부(100)에서 입력되는 음성 프레임이 유성음과 무성음이 구분되어 입력되는 경우에는 분리부(200)는 포함되지 않을 수 있다.

처리부(300)는 음성 프레임을 분석하여 특정 패턴을 가지는 신호를 분리해 내는 기능을 수행한다. 처리부(300)는 음성 프레임의 종류에 따라 다른 처리과정을 거치는 DSP 처리부를 더 포함할 수 있다. 처리부(300)에 대한 자세한 설명은 도3에서 후술 하기로 한다.

DB(Data Base: 400)는 음성 프레임로부터 처리부(300)를 통해서 분리된 특정 패턴을 가지는 신호들을 통계적으로 각 패턴에 따른 신호 특성으로 분류하여 저장 된 정보를 포함하고 있다. 여기서 각 패턴에 따른 신호 특성은 다양한 정보를 포함할 수 있으며 특히, 음성 프레임이 순수한 음성 정보가 포함되어 있는 음성 프레임인지 아니면 음성 프레임과 유사하지만 음성 정보가 담겨 있지 않은 비음성 프레임인지를 구분하는 패턴 별 정보를 포함하고 있을 수 있다. 여기서 DB는 정보를 저장하는 저장 매체로 구성된다. 예를 들어 ROM/RAM/FROM 같은 메모리나 하드디스크나 SD/CF card/CD-ROM/SSD 같은 이동식 저장 매체일 수 있다.

비교부(500)는 처리부(300)로부터 분리된 특정 패턴 신호를 DB에 저장되어 있는 정보와 비교하여 상기 특정 패턴 신호가 음성 신호인지 비음성 신호인지를 구분하는 기능을 수행한다. 비교부(500)는 비교 결과 특정 패턴 신호가 음성신호라고 판된되는 경우에는 제어 신호를 발생 시킨다. 그리고 비교부(500)는 제어 신호를 처리부(300)로 전송하여 처리부(300)가 분리된 특정 패턴 신호를 periodicity 측정부(600)로 전송하도록 제어할 수 있다. 또한 비교부(500)는 비교 결과 상기 특정 패턴 신호가 비음성 신호로 판단되는 경우에는 특정 패턴 신호를 폐기 시키는 기능도 수행 할 수 있다.

periodicity 측정부(600)는 처리부(300)로부터 입력되는 특정 패턴 신호를 DSP 처리 과정을 거쳐서 음성 프레임의 periodicity 를 측정하는 기능을 수행한다. periodicity 측정부(600)는 DSP 처리를 수행하기 위한 DSP 칩을 포함 할 수 있다. periodicity 측정부(600)에 대한 자세한 설명은 도 4에서 후술하기로 한다.

판별부(700)는 음성 프레임의 periodicity 정보를 이용하여 상기 음성 프레임의 화자를 인식하는 기능을 수행한다. 판별부(700)는 상기 음성 프레임의 periodicity를 화자별 특성에 따른 periodicity 정보와 비교하여 화자를 인식하는 기능을 수행한다. 여기서 화자 별 특성에 따른 periodicity 정보는 저장 매체에 저장되어 있으며 상기 저장 매체는 판별부(700)에 포함되어 있을 수도 있고 독립적인 저장장치에 포함되어 있을 수도 있다.

도2는 본 발명의 일 실시예로서 분리부의 구성을 나타낸 도면이다.

분리부(200)는 디지털 신호처리를 하는 DSP(Digital Signal Processing) 칩(210)을 포함할 수 있다. DSP 칩(210)은 입력되는 음성 프레임을 디지털 신호 처리를 통해서 주기성을 판별하여 음성 프레임이 주기적인 특성인 경우에는 유성음으로 판단하고 비주기적인 특성인 경우에는 무성음으로 판단한다. 상술한 디지털 신호 처리와 주기성 유무의 판단은 DSP 칩에서 수행될 수 있다. 주기성 유무를 통한 유성음과 무성음의 판단과정은 공지된 기술이므로 자세한 설명은 생략하기로 한다.

도3는 본 발명의 일 실시예로서 처리부의 구성을 나타낸 도면이다.

처리부(300)는 HND(Harmonic to Noise Decomposition) 코덱(310)과 SND(Sinusoidal to Non-sinusoidal Decomposition) 코덱(320)을 포함하여 구성된다.

음성 프레임이 유성음인 경우에는 HND(Harmonic to Noise Decomposition) 코덱(310)을 통해서 음성 프레임으로부터 특정 패턴의 신호가 분리된다. 음성 프레임이 무성음인 경우에는 SND(Sinusoidal to Non-sinusoidal Decomposition) 코 덱(320)을 통해서 음성 프레임으로부터 특정 패턴의 신호가 분리된다. 즉, 처리부(300)는 입력되는 음성 프레임이 유성음인지 무성음인지에 따라 서로 다른 처리 과정을 수행한다.

상기 HND(Harmonic to Noise Decomposition) 코덱(310)과 상기 SND(Sinusoidal to Non-sinusoidal Decomposition) 코덱(320)은 하나의 DSP 칩으로 구성될 수 있으며 또는 각각 다른 DSP 칩으로 구성 될 수도 있다.

도4는 본 발명의 일 실시예로서 periodicity 측정부의 구성을 나타낸 도면이다.

periodicity 측정부(600)는 전처리부분(610)과 Fold and Sum 부분(620)과측정부분(630)으로 구성될 수 있다.

전처리부분(610)은 입력되는 특정 패턴 신호로부터 계단파 신호 부분을 제거하는 기능을 수행한다.

Fold and Sum 부분(620)은 전처리된 신호를 n배(fold) 하고 각각 n배된 신호들을 모두 더하는(sum) 연산 기능을 수행한다.

측정부분(630)은 Fold and Sum 연산을 수행하고 나온 신호의 최대 영역의 피크(peak)로부터 음성 신호 프레임의 대표 주기인 periodicity를 측정한다.

상술한 전처리부분(610)과 Fold and Sum 부분(620)과 측정부분(630)은 각각 다른 DSP 칩으로 구성될 수 있으며, 하나의 DSP 칩에 포함되어 구성될 수도 있다.

도5는 본 발명의 일 실시예로 음성 신호를 분석하여 화자를 인식하는 방법을나타낸 순서도이다.

음성 프레임이 입력되면 입력된 음성 프레임이 유성음인지 무성음인지를 판단한다(S510).

판단결과 유성음인 경우에는 HND(Harmonic to Noise Decomposition) 처리과정을 통해서 음성 프레임으로부터 특정 패턴의 신호를 추출하고(S520), 판단결과 무성음인 경우에는 SND(Sinusoidal to Non-sinusoidal Decomposition) 처리과정을 통해서 음성 프레임으로부터 특정 패턴의 신호를 추출한다(S530). 이때 입력되는 음성 프레임에 대한 아무런 정보를 갖고 있지 않은 경우에는 SND(Sinusoidal to Non-sinusoidal Decomposition) 처리과정을 통해서 음성 프레임으로부터 특정 패턴의 신호를 추출한다.

HND(Harmonic to Noise Decomposition) 처리과정과 SND(Sinusoidal to Non-sinusoidal Decomposition) 처리과정은 각각 도7, 도8에서 후술 하기로 한다.

HND(Harmonic to Noise Decomposition) 처리과정과 SND(Sinusoidal to Non-sinusoidal Decomposition) 처리과정을 통해서 음성 프레임으로부터 추출된 특정 패턴의 신호는 DB(Data Base)에 저장되어 있는 정보들과 비교된다(S540).

DB에 저장되어 있는 정보는 주파수 영역의 프레임 신호로부터 추출된 신호 패턴에 대한 정보로서, 음성 신호와 비음성 신호에 따른 통계적으로 분류된 패턴 정보에 대한 정보이다. 즉 프레임 신호가 음성 신호인 경우에 나타나는 패턴에 대한 정보와 프레임 신호가 비음성 신호인 경우에 나타나는 패턴에 대한 정보가 포함 되어 있다.

따라서 HND(Harmonic to Noise Decomposition) 처리과정과 SND(Sinusoidal to Non-sinusoidal Decomposition) 처리과정을 통해서 추출된 신호의 패턴 정보와 상기 DB에 저장되어 있는 음성/비음성 신호의 패턴을 비교하면 상기 추출된 신호가 음성 신호인지 비음성 신호인지를 판단할 수 있다(S550). 즉 음성 신호 프레임으로 생각하고 처리한 신호가 정말로 음성 신호가 맞는지 아니면 비음성 신호인지를 다시 한번 검증할 수 있다.

S550단계에서 판단 결과 비음성 신호인 경우는 추출된 특정 패턴의 신호는 폐기된다(S560).

S550단계에서 판단 결과 음성 신호인 경우는 추출된 특정 패턴의 신호로부터periodicity를 측정한다(S570).

상기 추출된 특정 패턴의 신호로부터 periodicity를 측정하는 방법은 상기 추출된 특정 패턴의 신호에서 계단파(cascade wave) 영역의 신호를 제거하는 전처리 과정(pre-processing)을 거치고 sum and fold 방법을 통해서 나온 신호 중 최대 영역의 피크 신호의 주기를 periodicity로 측정한다. 보다 자세한 방법은 기출원된 한국특허 10-2007-0007684를 참조하면 된다.

이후 S570단계를 통해 측정된 periodicity를 이용하여 음성 프레임의 화자에대한 특성 정보를 알아낸다(S580). 음성 신호의 periodicity를 통하여 화자에 대한 특성 정보를 알아낼 수 있는 이론적 배경은 다음과 같다. 사람들은 각각 자신의 특성에 따른 특정의 periodicity를 가지고 있다. 따라서 어떤 사람의 음성 신호의 periodicity를 알면 그 사람이 누구인지에 대한 정보를 알 수 있다. 즉, 화자 인식이 가능하다. 또한 남녀와 연령에 따라 음성 신호의 periodicity가 다르므로 음성 신호의 periodicity를 알면 화자의 성별과 연령도 추정 가능하다.

본 발명에서는 성별과 연령별에 따른 음성 신호의 periodicity를 DB에 저장하고 저장된 DB의 정보와 본 발명을 통해서 측정된 음성 신호의 periodicity를 비교하여 화자의 성별과 연령을 추정 할 수 있다.

또는 특정의 모집단 내의 사람들의 음성 신호 periodicity를 사람들에 따라 구분하여 저장하면, 상기 모집단 내의 사람들의 음성 신호의 periodicity를 측정하여 저장된 정보와 비교하여 화자가 누구 인지를 인식 할 수 있다. 따라서 회의를 하는 경우에 각 회의에 참석한 화자들의 특성에 따라 화자별 발언 내용을 따로 저장 가능하며, 각 화자에 따른 발언 내용도 구분하여 청취할 수 있다.

.

도6는 음성 신호에서 하모닉 부분이 주기적인 경우와 비주기적인 경우를 나타낸 도면이다.

음성신호에서 의미 있는 정보를 가지고 있는 부분을 하모닉 부분(A)이라고 하고 의미 없는 신호를 가지고 있는 부분을 노이즈 부분(B)이라고 한다.

도6의 a)는 하모닉 부분(A)이 주기적인 경우를 나타낸 도면이다. 도6의 a)를 보면 하모닉 부분(A)가 주파수 f0의 배수로 주기적인 것을 알 수 있다. 유성음인 경우에는 대부분 하모닉 부분(A)이 주기적인 특성을 가지고 있다. 따라서 음성 신호의 하모닉 부분(A)이 주기적인 경우에는 유성음이라고 판단 할 수 있다.

도6의 b)는 하모닉 부분(A)이 비주기적인 경우를 나타낸 도면이다. 도6의 b)를 보면 하모닉 부분(A)가 주파수 f0의 배수가 아닌 비주기적으로 형성되어 있다. 무성음인 경우에는 대부분 하모닉 부분(A)이 비주기적인 특성을 가지고 있다. 따라서 음성 신호의 하모닉 부분(A)이 비주기적인 경우에는 무성음이라고 판단 할 수 있다.

도7는 본 발명의 일 실시예로 HND(Harmonic to Noise Decomposition) 처리과정을 나타낸 순서도이다.

음성 프레임이 주기적인 신호(즉, 하모닉 부분이 주기적인 경우)인 경우 HND를 이용하여 특정 패턴 신호를 분리한다.

유성음이라고 판단되는 음성 신호가 입력되는 경우 HDA(Harmonic region Detection Algorithm)를 이용하여 하모닉 영역 후보(harmonic region candidate)를 선택한다(S710). 여기서 HDA(Harmonic region Detection Algorithm)는 음성신호에서 하모닉 영역을 찾기 위한 알고리즘으로 autocorrelation 기반 방법이나 종래의 다른 어떤 방법을 이용할 수 있다. 음성신호에서 유성음인 경우 하모닉 영역을 찾기 위한 알고리즘은 공지된 기술이므로 자세한 설명은 생략하기로 한다.

선택된 하모닉 영역 후보(harmonic region candidate)를 포함하는 음성신호로부터 하모닉 영역과 노이즈 영역을 분리한다(S720). 하모닉 영역과 노이즈 영역을 분리하는 방법은 다음과 같다.

노이즈 영역을 zero padding 한다. 이후 하모닉 영역들의 current 하모닉 샘 플들을 노이즈 영역들로 extrapolation 한다. 이후 초기 노이즈 샘플에서 노이즈 영역들의 extrapolation된 하모닉 샘플들을 빼서 나온 노이즈 샘플 추정치들을 하모닉 영역들로 extrapolation 한다.

이후에 분리된 하모닉 영역을 판단하는 단계를 거친다(S730). 판단하는 방법은 다음과 같다. 하모닉 영역과 노이즈 영역을 분리한 결과, 연속되는 하모닉 영역들의 에너지 차이가 정해진 역치값(threshold) 이하로 떨어지면 구해진 하모닉 영역과 노이즈 영역이 제대로 분리가 된 것으로 판단한다. 만일 연속되는 하모닉 영역들의 에너지 차이가 정해진 역치값(threshold) 이하가 아닌 경우에는 위와 같은 방법을 노이즈와 하모닉 영역을 바꾸어 가면서 반복 수행한다.

이후에 특정 패턴 신호를 결정하는 단계를 거친다(S740). S730 단계에서 판단결과 연속되는 하모닉 영역들의 에너지 차이가 정해진 역치값(threshold) 이하인 경우에 구해진 하모닉 영역의 신호를 특정 패턴 신호로 결정한다.

도8는 본 발명의 일 실시예로 SND(Sinusoidal to Non-sinusoidal Decomposition) 처리과정을 나타낸 순서도이다.

SND(Sinusoidal to Non-sinusoidal Decomposition) 처리과정은 HND에서 HDA(Harmonic region Detection Algorithm)를 이용하여 하모닉 영역 후보(harmonic region candidate)를 선택하는 방법 대신에 모폴로지(morphology)를 이용하여 하모닉 영역 후보를 선택한다(S810).

SND는 입력되는 음성 신호가 비주기적인 특성을 가지는 무성음이므로 음성 신호가 주기적인 특성을 가지는 유성음이라는 가정하에 이용되는 HDA(Harmonic region Detection Algorithm)을 사용할 수 없다. SND에서 사용되는 모폴로지(morphology) 방법은 신호가 주기적이든 비주기적이든 모두 이용될 수 있는 방법이므로 SND에서는 HAD 대신에 모폴로지(morphology) 방법을 사용한다. 단, 모폴로지(morphology) 방법을 이용하면 그만큼 계산량이 늘어나므로 시스템의 부하를 가져 올 수 있다. (하지만 모폴로지 방법 역시 기존의 LP 분석에 비하여 더 효율적인 방법이다.) 따라서 입력되는 신호가 유성음이 아닌 경우에만 SND방법을 이용한다.

모폴로지(morphology) 방법에 대해서는 기 출원된 한국 특허 10-2007-0007684를 참조한다.

SND에서는 HDA 대신에 모폴로지(morphology) 방법을 사용하는 것만 HND와 다르므로 이후의 과정은 HND에서 사용된 방법과 동일하다.

도9는 본 발명의 일 실시예로 HND나 SND에서 하모닉 영역과 노이즈 영역이 분리되기 전의 음성 신호를 나타낸 도면이다.

음성 신호 프레임은 의미 있는 정보를 가지고 있는 하모닉 부분과 의미 없는 노이즈 영역이 함께 혼재되어 있는 신호이다. 도9는 이와 같은 하모닉 영역과 노이즈 영역이 함께 혼재되어 있는 음성 프레임 신호를 표현하고 있다.

도10은 본 발명의 일 실시예로 HND나 SND을 이용하여 분리된 하모닉 영역의 신호를 나타낸 도면이다.

노이즈가 포함되어 있는 음성 신호 프레임에서부터 의미 있는 음성 정보를 찾기 위해서는 하모닉 영역과 노이즈 영역을 분리하여 의미 있는 정보를 포함하고 있는 하모닉 영역만을 분리해야 한다. 도10는 HND나 SND을 이용하여 분리된 하모닉 영역의 신호를 표현하고 있다.

도10을 보면 원래의 음성 프레임 신호에 비하여 하모닉 영역이 잘 나타나 있는 것을 알 수 있다.

도11은 본 발명의 일 실시예로 HND나 SND을 이용하여 분리된 노이즈 영역의 신호를 나타낸 도면이다.

도11은 HND나 SND을 이용하여 분리된 노이즈 영역의 신호를 표현하고 있는데 도11을 보면 노이즈가 음성 정보에 많은 영향을 주는 것을 알 수 있다.

상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야에서 통상의 지식을 가진 자라면 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

<도면의 주요부분에 대한 부호의 설명>

10 : 화자 인식 장치

100 ; 입력부

200 : 분리부

300 : 처리부

310 : HND 코텍

320 : SND 코텍

400 : DB

500 : 비교부

600 : periodicity 측정부

610 : 전처리부분

620 : Fold and Sum 부분

630 : 측정부분

700 : 판별부

Claims

신호를 분석하여 화자를 인식하는 방법에 있어서,

입력되는 프레임을 분석하여 상기 프레임으로부터 특정 패턴 신호를 분리하는 단계;

상기 특정 패턴 신호를 통계적으로 처리된 데이터베이스의 정보들과 비교하여 음성신호인지 비음성 신호인지를 판단하는 단계;

상기 특정 패턴 신호가 음성 신호로 판단되는 경우에 상기 프레임의 주기성(periodicity)를 측정하는 단계; 및

상기 측정된 프레임의 주기성(periodicity)을 이용하여 상기 프레임의 화자를 인식하는 단계를 포함하는 것을 특징으로 하는 신호를 분석하여 화자를 인식하는 방법.
제1항에 있어서,

상기 프레임으로부터 특정 패턴 신호를 분리하는 단계 이전에, 상기 프레임이 주기적인 신호를 가지고 있는 유성음인지, 비주기적인 신호를 가지고 있는 무성음인지를 구분하는 단계를 더 포함하는 것을 특징으로 하는 신호를 분석하여 화자를 인식하는 방법.
제1항에 있어서,

상기 프레임으로부터 특정 패턴의 신호를 분리하는 단계는, 상기 프레임이 유성음인 경우에는 HND(Harmonic to Noise Decomposition) 방법을 이용하여 특정 신호를 분리하고, 상기 프레임이 무성음인 경우 또는 상기 프레임에 대한 정보가 없는 경우에는 SND(Sinusoidal to Non-sinusoidal Decomposition) 방법을 이용하여 특정 신호를 분리하는 것을 특징으로 하는 신호를 분석하여 화자를 인식하는 방법.
제3항에 있어서,

상기 HND(Harmonic to Noise Decomposition) 방법은 상기 프레임의 하모닉 부분이 주기적인 경우에 HDA(Harmonic Detection Algorithm)을 이용하여 하모닉 영역 후보(harmonic region candidate)를 선택하고 선택한 상기 하모닉 영역 후보(harmonic region candidate)를 이용하여 상기 특정 패턴의 신호를 분리하는 것을 특징으로 하는 신호를 분석하여 화자를 인식하는 방법.
제3항에 있어서,

상기 SND(Sinusoidal to Non-sinusoidal Decomposition) 방법은 상기 프레임의 하모닉 부분이 비주기적인 경우에 모폴로지(morphology) 방법을 이용하여 상기 특정 패턴의 신호를 분리하는 것을 특징으로 하는 신호를 분석하여 화자를 인식하는 방법.
제5항에 있어서,

상기 모폴로지(morphology) 방법은 최적의 윈도우 사이즈를 선택하고 상기 최적의 윈도우 사이즈를 이용하여 상기 프레임 신호로부터 상기 특정 패턴 신호를 분리하는 것을 특징으로 하는 신호를 분석하여 화자를 인식하는 방법.
제1항에 있어서,

상기 데이터베이스(DB)는 상기 특정 패턴 신호의 통계적인 처리 결과를 저장하고 있는 데이터베이스인 것을 특징으로 하는 신호를 분석하여 화자를 인식하는 방법.
제7항에 있어서,

상기 통계적인 처리 결과는 상기 특정 패턴 신호를 각각의 신호 특성에 따라 패턴 별로 구분한 결과인 것을 특징으로 하는 신호를 분석하여 화자를 인식하는 방법.
제1항에 있어서,

상기 특정 패턴 신호를 음성 신호로 판단하는 방법은 상기 특정 패턴 신호를 상기 데이터베이스(DB)의 음성 신호와 비교하여 서로 유사한 패턴의 신호인 경우에 상기 특정 패턴의 신호를 음성 신호로 판단하는 것을 특징으로 하는 신호를 분석하여 화자를 인식하는 방법.
제1항에 있어서,

상기 프레임의 주기성(periodicity)를 측정하는 방법은 상기 특정 패턴 신호로부터 전처리 과정(Pre-processing)을 거치고 나온 신호를 배와합(fold and sum)의 방법을 하여 상기 주기성(periodicity)를 측정하는 것을 특징으로 하는 신호를 분석하여 화자를 인식하는 방법.
제10항에 있어서,

상기 전처리 과정(Pre-processing)은 상기 특정 패턴 신호로부터 계단형 파형을 제거하는 것을 특징으로 하는 신호를 분석하여 화자를 인식하는 방법.
제10항에 있어서,

상기 배와합(fold and sum)의 방법은 상기 전처리 과정(Pre-processing) 후의 신호를 n배한 신호들을 생성하고 상기 생성된 각각의 n배한 신호들을 더하여 가장 큰 영역을 주기를 상기 주기성(periodicity)으로 측정하는 것을 특징으로 하는 신호를 분석하여 화자를 인식하는 방법.
제1항에 있어서,

상기 주기성(periodicity)은 상기 프레임의 대표 신호의 주기인 것을 특징으로 하는 신호를 분석하여 화자를 인식하는 방법.
신호를 분석하여 화자를 인식하는 장치에 있어서,

음성 신호 프레임이 입력되는 입력부;

상기 음성 신호 프레임을 분석하여 특정 패턴 신호를 분리하는 처리부;

상기 특정 패턴 신호의 특성별 패턴 정보를 가지고 있는 데이터베이스(DB);

상기 특정 패턴 신호와 상기 데이터베이스(DB)에 저장되어 있는 정보들을 비교하는 비교부;

상기 특정 패턴 신호의 신호로부터 상기 음성 신호 프레임의 주기 성(periodicity)을 측정하는 주기성(periodicity)측정부; 및

상기 주기성(periodicity)으로부터 상기 음성 신호 프레임의 화자를 판별하는 판별부를 포함하는 것을 특징으로 하는 신호를 분석하여 화자를 인식하는 장치.
제14항에 있어서,

상기 음성 신호 프레임이 유성음인지 무성음인지를 분리하는 분리부를 더 포함하는 것을 특징으로 하는 신호를 분석하여 화자를 인식하는 장치.
제14항에 있어서,

상기 처리부는 상기 음성 신호 프레임이 유성음인 경우에 HND(Harmonic to Noise Decomposition) 코덱을 이용하여 상기 특정 패턴 신호를 분리하고, 상기 음성 신호 프레임이 무성음인 경우 또는 상기 음성 신호 프레임에 대한 정보가 없는 경우에는 SND(Sinusoidal to Non-sinusoidal Decomposition) 코덱을 이용하여 상기 특정 패턴 신호를 분리하는 것을 특징으로 하는 신호를 분석하여 화자를 인식하는 장치.
제14항에 있어서,

상기 데이터베이스(DB)는 정보를 저장하는 기억 매체로서 메모리(Memory) 소자, 하드디스크, 이동식 저장매체 중 어느 하나 이상인 것을 특징으로 하는 신호를 분석하여 화자를 인식하는 장치.
제14항에 있어서,

상기 비교부는 상기 특정 패턴 신호를 상기 데이터베이스(DB)에 저장되어 있는 정보와 비교하여 상기 특정 패턴 신호가 음성 정보를 가지고 있는 신호인지 음성이 아닌 신호인지를 구분하고, 상기 특정 패턴 신호가 음성 신호인 경우에 상기 특정 패턴 신호를 상기 주기성(periodicity)측정부로 전달하고 상기 특정 패턴 신호가 음성 신호가 아닌 경우에는 상기 특정 패턴 신호를 폐기하는 것을 특징으로 하는 신호를 분석하여 화자를 인식하는 장치.
제14항에 있어서,

상기 주기성(periodicity)측정부는 하나 이상의 디지털신호처리(Digital Signal Processing:DSP) 칩을 이용하여 상기 특정 패턴 신호로부터 상기 음성 신호 프레임의 주기성(periodicity)을 측정하는 것을 특징으로 하는 신호를 분석하여 화자를 인식하는 장치.
제19항에 있어서,

상기 디지털신호처리 칩은 상기 특정 패턴 신호로부터 전처리 과정을 수행하고 상기 전처리 과정을 거쳐서 나온 신호를 배와합(fold and sum)연산을 수행하고 상기 배와합(fold and sum)연산을 거쳐서 나온 최대 영역의 피크로부터 상기 음성 신호 프레임의 주기성(periodicity)을 측정하는 것을 특징으로 하는 신호를 분석하여 화자를 인식하는 장치.
제14항에 있어서,

상기 판별부는 상기 음성 신호 프레임의 주기성(periodicity) 특성에 따른 화자들의 특성을 저장하고 있는 데이터베이스(DB)로부터, 상기 데이터베이스(DB)의 정보와 상기 음성 신호 프레임의 주기성(periodicity)을 비교하여 상기 음성 신호 프레임의 화자를 인식하는 것을 특징으로 하는 신호를 분석하여 화자를 인식하는 장치.
제21항에 있어서,

상기 데이터베이스(DB)는 정보를 저장하는 기억 매체로서 메모리(Memory) 소자, 하드디스크, 이동식 저장매체 중 어느 하나 이상인 것을 특징으로 하는 신호를 분석하여 화자를 인식하는 장치.
제14항에 있어서,

상기 주기성(periodicity)은 상기 프레임의 대표 신호의 주기인 것을 특징으로 하는 신호를 분석하여 화자를 인식하는 장치.