KR20080036897A

KR20080036897A - 음성 끝점을 검출하기 위한 장치 및 방법

Info

Publication number: KR20080036897A
Application number: KR1020060103719A
Authority: KR
Inventors: 손백권; 권순일; 강상기; 박정훈
Original assignee: 삼성전자주식회사
Priority date: 2006-10-24
Filing date: 2006-10-24
Publication date: 2008-04-29
Also published as: US20080095384A1

Abstract

본 발명은 마이크로폰을 통해 신호를 입력받는 음성 솔루션 장치 및 방법에 관한 것으로, 특히 적어도 둘 이상의 마이크로폰을 구비한 장치에서 음성 끝점 검출 장치 및 방법에 관한 것이다.

본 발명에 따른 음성 끝점을 검출하기 위한 장치는, 음성 신호 및 잡음 신호가 포함된 신호를 입력받는 적어도 둘 이상의 마이크와, 상기 마이크를 통해 입력된 신호의 위상 차이를 이용하여 상기 음성 끝점을 검출하는 음성 끝점 검출부를 포함한다.

음성 끝점 검출(End Point Detection), 위상, 음성 솔루션, 잡음 제거

Description

음성 끝점을 검출하기 위한 장치 및 방법{APPARATUS AND METHOD FOR DETECTING VOICE END POINT}

도 1은 일반적인 하나의 마이크를 통해 입력된 신호의 음성 끝점을 검출하는 음성 끝점 검출기의 구성도,

도 2는 본 발명의 실시 예에 따른 다수의 마이크가 구비된 장치에서 음성 끝점을 검출하기 위한 음성 끝점 검출부가 구비된 장치의 블록 구성도,

도 3은 본 발명이 적용되는 다수의 마이크가 구비된 장치에서 음성 끝점을 검출하기 위해 마이크의 장착 위치에 따른 위상 보상 지연을 수행하는 방법을 설명하기 위한 도면,

도 4는 본 발명의 실시 예에 따른 음성 끝점 검출기에서 음성 끝점을 검출하는 방법 흐름도,

도 5는 본 발명의 이해를 돕기 위해 마이크 #1과 마이크 #2로 음성만 입력될 때, 잡음만 입력될 때, 음성과 잡음이 함께 입력될 때의 위상차를 각각 비교한 도면,

도 6은 본 발명의 실시 예에 따라 마이크를 통해 수신된 신호에서 음성 신호의 시작점과 끝점을 검출한 것을 보여주는 그래프.

본 발명은 마이크로폰(Microphone)을 통해 신호를 입력 받아 음성 솔루션을 제공하기 위한 장치 및 방법에 관한 것으로, 특히 적어도 두 개 이상의 마이크로폰을 구비하는 장치에서 음성 끝점 검출 장치 및 방법에 관한 것이다.

일반적으로 마이크로폰(이하 "마이크"라 칭하기로 한다)이 구비된 장치들에서 마이크를 통해 음성을 입력받아 음성 인식, 반향 제거, 잡음 제거, 음성 압축 등과 같은 다양한 음성 솔루션을 제공하는 기술들이 다양하게 개발되고 있다.

이러한 음성 솔루션들 중 대표적인 음성 솔루션인 음성 끝점 검출(Voice End Point Detection)은 마이크로부터 입력받은 신호에서 음성 구간과 비음성 구간을 구별하고, 음성 구간만 처리하거나 잡음 구간의 불필요한 정보를 제거하여줌으로써 연산량과 메모리의 효율적인 사용을 가능하게하고 성능 향상에도 기여하게 된다.

현재 대부분의 음성 입력 장치에 구비된 음성 끝점 검출기는 한 개의 마이크를 사용하고, 상기 마이크로 입력된 에너지 정보를 주요 인자로 이용하여 음성 구간과 비음성 구간을 구별한다.

일반적으로 음성 구간의 음성 신호는 유성음(Voiced sound)과 무성음(unvoiced sound)으로 나뉜다. 그리고 유성음은 무성음에 비해 에너지가 큰 반면에, 무성음은 파형이 잡음과 유사하기 때문에 영점 교차율(Zero Crossing Rate)이 유성음에 비해 큰 특성을 갖는다.

그리고 묵음 구간만 있는 초기구간에서 음성 끝점 검출기는 초기 구간에서 구한 평균 에너지와 평균 영점 교차율을 이용하여 묵음 구간의 문턱 값을 각각 설정한다. 이후에 마이크로 입력되는 프레임의 에너지와 초기 구간에서 구한 에너지 문턱 값과 비교하여 대략적인 음성의 시작점과 끝점을 검출한 후 초기 구간의 평균 영점 교차율을 비교하여 보다 정확한 음성 구간의 시작점과 끝점을 검출한다.

도 1은 일반적인 하나의 마이크를 통해 입력된 신호의 음성 끝점을 검출하는 음성 끝점 검출기의 구성을 도시한 것이다.

도 1을 참조하면 마이크(100)를 통해 입력된 신호를 A/D 변환기(102)가 디지털 신호로 변환하여 에너지 계산기(104) 및 영점 교차율 계산기(106)로 출력한다. 에너지 계산기(104)와 영점 교차율 계산기(106)는 각각 묵음 구간만 있는 초기 구간에서 평균 에너지와 영점 교차율을 계산하여 문턱 값 계산기(108)와 판단기(110)로 출력한다. 문턱 값 계산기(108)는 상기 평균 에너지와 영점 교차율을 이용하여 묵음 구간에서의 문턱 값을 계산하여 판단기(110)로 출력하며, 판단기(110)는 상기 에너지 계산기(104)로부터 입력된 에너지와 상기 문턱 값 계산기(108)로부터 입력된 에너지 문턱 값을 비교하여 초기 음성 구간을 설정한다. 그리고 상기 초기 구간에서 영점 교차율 계산기(106)로부터 입력된 영점 교차율과 상기 문턱 값 계산기(108)로부터 수신한 영점 교차율의 문턱 값과 비교하여 음성 구간을 찾아 시작점(112)과 끝점(114)을 출력한다.

그러나 종래 하나의 마이크를 통해 입력된 신호를 사용하는 음성 끝점 검출기에서 사용하는 에너지 정보는 잡음에 의해 왜곡되어 음성 신호의 위치를 검출하기가 어렵다. 특히 10dB이하의 신호 대 잡음비(Signal To Noise Ratio : 이하 "SNR"이라 함)에서 음성 끝점 검출기의 성능을 보장할 수 없는 문제점이 있다. 영점 교차율을 이용하여 음성 신호의 위치를 검출할 경우에는 음성과 같거나 유사한 특성을 가진 잡음일 경우 음성을 구분하기가 어렵고 작은 잡음에도 상당히 민감한 문제가 있다.

이렇듯, 종래 기술을 사용할 경우에는 잡음 환경하에서 마이크를 통해 입력된 신호에서 정확한 음성 신호의 위치를 찾아내기가 어렵다. 특정 잡음 환경에서만 정확히 동작한다고 가정하더라도 특성이 다른 잡음 환경하에서는 그 성능이 떨어지게 된다.

또한, 백화점, 터미널과 같은 공공장소에서 발생하는 군중 잡음인 배블(Babble) 잠음과 같이 음성 특성과 비슷한 잡음에 대해서는 잡음 레벨이 작아도 잡음 신호의 특성이 음성 신호의 특성과 유사하기 때문에 음성 구간 검출이 어렵게 된다.

현재 음성을 입력받기 위한 장치들은 대부분 하나의 마이크를 구비하고 있다. 하지만 하나의 마이크만이 구비된 장치들에서는 하나의 마이크를 통해 입력된 음성을 통해 음성의 끝점을 검출하는 기술은 음성의 끝점을 추출하는데 한계가 있다.

상술한 바와 같이 음성의 끝점을 검출하는 기술은 잡음을 제거하거나 음성을 인식, 음성 압축, 음성 코딩 등 여러 가지 기술들을 구현하는데 필수적인 기술이다. 따라서 음성 인식, 반향 제거, 잡음 제거, 음성 압축 등의 다양한 음성 솔루션을 다양한 잡음 환경하에서 효과적으로 이용하기 위한 기술이 필요하게 된다.

하지만 상술한 바와 같이 하나의 마이크만을 통해 입력된 신호만을 통해 음성 끝점을 검출하는 기술은 다양한 잡음 환경하에서는 성능의 한계로 인하여 사용자에게 정확한 음성 인식, 잡음 제거 등 사용의 편의성을 향상시킬 수 있는 기술로서 다수의 마이크를 구비하는 것이 바람직하다. 그러나 아직 다수의 마이크들을 구비하여 음성의 끝점을 검출하는 기술은 아직 구현되지 않고 있다.

본 발명은 적어도 두 개 이상의 마이크를 구비한 장치에서 음성의 끝점을 검출하기 위한 장치 및 방법을 제공한다.

본 발명은 적어도 두 개 이상의 마이크를 통해 입력된 신호들의 위상 차를 이용하여 음성의 끝점을 검출하기 위한 장치 및 방법을 제공한다.

본 발명에 따른 음성 끝점을 검출하기 위한 장치는, 음성 신호 및 잡음 신호가 포함된 신호를 수신하는 적어도 둘 이상의 마이크와, 상기 마이크를 통해 수신된 신호의 위상 차이를 이용하여 상기 음성 끝점을 검출하는 음성 끝점 검출부를 포함한다.

본 발명에 따른 음성 끝점을 검출하기 위한 방법은, 적어도 둘 이상의 마이크를 통해 음성 신호 및 잡음 신호가 포함된 신호를 입력받는 과정과, 상기 마이크를 통해 입력된 신호의 위상 차이를 이용하여 상기 음성 끝점을 검출하는 과정을 포함한다.

이하 본 발명의 실시 예를 첨부한 도면을 참조하여 상세히 설명하기로 하겠다. 도면들 중 동일한 구성들은 가능한 한 어느 곳에서든지 동일한 부호들을 나타내고 있음을 유의해야 한다. 하기에서 구체적인 특정사항들이 나타나고 있는데, 이는 본 발명의 보다 전반적인 이해를 돕기 위해 제공된 것이다. 그리고 본 발명을 설명함에 있어, 관련된 공지 기능 혹은 구성에 대한 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

도 2는 본 발명의 실시 예에 따른 다수의 마이크가 구비된 장치에서 음성 끝점을 검출하기위한 음성 끝점 검출 장치(260)가 구비된 장치(250)의 블록 구성도이다.

본 발명의 실시 예에서는 설명의 편의를 위해 마이크(MIC)가 두 개가 구비된 것으로 가정하여 설명하기로 한다. 본 발명에서 설명하는 적어도 두 개 이상의 마이크가 구비된 장치란, 셀룰러 폰이나 PDA(Personal Digital Assistants), 노트북 PC와 같은 이동 단말이 될 수 도 있으며, 텔레비전이나 캠코더와 같은 영상을 재생하거나 저장하는 매체가 될 수도 있다. 즉, 두 개 이상의 마이크를 구비하는 모든 장치에 본 발명이 적용될 수 있다.

먼저, 도 2에서 두 마이크(200, 202)는 음성을 입력받아 아날로그 신호를 변환하여 A/D 변환부(204, 206)로 출력한다. 그러면, A/D 변환부(204, 206)는 입력된 아날로그 신호를 디지털 신호로 변환하여 윈도우 처리부(208, 210)로 각각 출력한다.

윈도우 처리부(208, 210)에서는 상기 입력된 디지털 신호를 프레임화하고, 주파수 영역 변환부(212, 214)에서는 아래의 <수학식 1>을 통해 상기 윈도우 처리부(208, 210)로부터 입력된 시간 영역의 신호를 주파수 영역의 신호로 변환한다.

상기 <수학식 1>에서 x(n)은 시간 영역에서의 입력 신호의 샘플 값이고, X(k)는 x(n)을 주파수 영역으로 변환한 값이다. k는 FFT 포인트 값이며, N은 프레임 크기를 나타내며 한 프레임에 N개의 샘플이 존재하는 것을 나타낸다. 예를 들어 8khz 샘플링 율(sampling rate) 신호에서 프레임을 20ms 크기로 한다면 한 프레임 사이즈는 8khz*20ms = 160 samples 이 되며, N = 160이 된다.

그리고 상기 주파수 영역 변환부(212, 214)에서 주파수 영역으로 변환되어 출력된 신호를 위상 연산부(216, 218)는 아래의 <수학식 2>를 사용하여 주파수 영역 신호에서 상기 샘플 값의 위상 정보(∠X(k))를 추출한다.

마이크 장착 위치에 관계없이 화자의 음성에 대해서는 두 마이크(200, 202) 입력 신호 사이에 시간 지연을 최소화하기 위해 장치에 장착된 마이크 간격과 샘플링 주파수를 고려하여 사전에 정의된 위상 보상 지연 값을 설정한다. 즉, 마이크의 장착 위치에 따른 지연을 보상시키기 위한 값을 제조회사나 사용자가 미리 설정해 놓아야 한다. 도 2에서는 제어부(224)가 위상 보상 지연 값을 위상 보상부(220, 222)로 제공한다.

상기 마이크의 장착 위치에 따라 위상 보상 지연이 필요한 이유를 도 3을 참조하여 설명하기로 한다.

도 3은 본 발명이 적용되는 다수의 마이크가 구비된 장치에서 음성 끝점을 검출하기 위해 마이크의 장착 위치에 따른 위상 보상 지연을 수행하는 방법을 설명하기 위한 도면이다. 도 3a를 참조하면, 두 개의 마이크들(306, 308)이 장치(300)의 전면부(302)에 동일한 방향으로 구비된 것을 볼 수 있다. 도 3a와 같이 마이크가 구비될 경우 마이크(306, 308)가 음원(304)으로부터 신호를 각각 수신할 때 위상 차이가 없게 된다. 그러나 도 3b와 같이 마이크#1(306)은 장치(300)의 전면부(302)에 마이크#2(308)은 장치(300)의 후면부에 구비될 경우에는 음원(304)으로부터 상기 마이크(306, 308)로 각각 입력되는 신호의 위상 차이가 발생하게 됨으로 본 발명에서는 이러한 마이크의 장착 위치에 따른 위상을 보상해 주어 동일한 프레임의 동일한 시간 위치에서 음성과 잡음의 평균과 분산을 계산하여 시작점과 끝점을 검출한다.

도 3a와 같이 전면(302)에 마이크(306, 308)가 장착된 경우 음원(304)이 두 마이크 가운데 있을 때 두 마이크(306, 308)로 입력받는 신호는 동일한 시간에 들어오기 때문에 위상차가 발생하지 않는다. 그러나 도 3b와 같이 마이크 하나(306)는 전면, 다른 하나(308)는 후면에 장착된 경우 전면 마이크(306)로 신호를 먼저 받고 t 초 후에 후면 마이크(308)로 신호를 입력받기 때문에 두 마이크 신호 사이에는 t 초의 시간 지연이 발생하게 된다. 그래서 전면 마이크(306)의 신호를 인위적으로 t 초 지연시키면 두 신호 사이에는 시간지연은 발생하지 않게 된다. 다시 말해서 위상차이가 발생하지 않게 된다.

그리고 위상 보상부(220, 222)는 제어부(224)로 마이크간 장착 위치에 따른 음원이 마이크까지 수신되기 까지 시간 지연된 시간 지연을 보상하기 위한 위상 보상 지연 값을 수신하여 아래의 <수학식 3>을 사용하여 해당 지연 시간 만큼 수신된 신호의 위상 정보를 변환한다. 마이크가 구비된 위치가 서로 다름에 따라 동일한 음원으로부터 신호가 도달하기 까지 시간 차이가 발생하고 그에 따라 마이크로 수신된 각 신호의 위상이 달라짐으로 그 위상을 보상하기 위한 정보가 위상 보상 지연 값이다.

상기 <수학식 3>에서 ∠X'(k)는 보상된 위상 값이고, 2πk/N은 시간 단위인 delay 값을 주파수 스케일로 변화하기 위한 식이며, delay는 위상 보상 지연 값이다. 본 발명의 실시 예에서는 상기 두 개의 마이크들(200, 202)중에서 어느 한 마이크의 위치만을 변경할 수 있을 경우에는 변경 가능한 마이크의 위치에 따른 위상 보상만을 수행하면 되지만 두 마이크가 모두 가변적으로 위치를 변경할 수 있을 경우에는 두 마이크의 위치에 따른 위상 지연에 따른 보상을 모두 수행해야 한다.

상기 위상 보상부(220, 222)에 의해 위상 정보가 변환된 신호는 주파수별 위상차 계산부(226)로 입력된다.

주파수별 위상차 계산부(230)는 두 위상 보상부(220, 222)에서 출력된 위상 정보를 입력받아 주파수별로 차를 구하고, 구해진 주파수 k에서의 차를 아래의 <수학식 4> 내지 <수학식 6>을 사용하여 [-π ~ π] 범위로 매핑한다.

상기 <수학식 4>에서 ∠X'_mic1(k)는 상기 <수학식 3>에서 MIC#1(200)의 위상 보상된 위상 값이고, ∠X'_mic2(k)는 MIC#2(202)의 위상 보상된 위상 값이다.

본 발명에서는 상기 <수학식 4>를 사용하여 주파수 k에서의 위상 차를 구할 수 도 있지만, 계산의 편의를 위해 주파수 k에서의 위상차가 -π ~ π를 벗어날 수 있기 때문에 아래의 <수학식 5> 및 <수학식 6>을 사용하여 주파수 k에서의 위상 차를 구할 수 있다. 왜냐하면, 음성과 잡음 프레임의 위상 값을 주기 함수로 표현할 수 있기 때문에 -π ~ π이외의 위상 값들을 -π ~ π내로 매핑시켜도 동일한 값을 갖기 때문이다.

Phase_Diff(k)'는 상기 <수학식 4>에서 계산된 위상 차 Phase_Diff(k)를 -π ~ π로 매핑시킨 것이고, Phase_Diff(k)를 2π로 모듈로(Modulo) 연산을 수행한 값이며, 모듈로 연산을 수행하는 과정은 아래의 <수학식 6>과 같다.

주파수별 위상차 계산부(226)에서 구해진 주파수 별 위상차 정보는 화자의 음성 신호에 대해서는 두 마이크 입력간 시간 지연이 발생하지 않도록 위상 보상부(220, 222)에서 각각 보정하였기 때문에 주파수별 위상차가 작으며 따라서 아래의 <수학식 7>과 같이 주파수별 위상차의 편차도 작다. 이와 같은 내용은 첨부된 도 5를 참조하여 설명하기로 한다.

Phase_Diff_voice(k)는 마이크(200, 202)로 각각 수신된 음성(voice)신호간의 위상 차를 의미한다.

도 5는 본 발명의 이해를 돕기 위해 마이크 #1(200)과 마이크 #2(202)로 음성만 입력될 때, 잡음만 입력될 때, 음성과 잡음이 함께 입력될 때의 위상차를 각각 비교한 도면이다.

도 5a는 마이크(200, 202)들로 음성 프레임만이 입력될 때의 마이크#1(200) 과 마이크#2(202)로 입력된 신호의 위상차를 비교한 도면이다. 참조번호 500은 마이크#1(200)으로 입력되는 신호의 위상을, 참조번호 502는 마이크#2(202)로 입력되는 신호의 위상을, 참조번호 504는 상기 참조번호 500과 참조번호 502에 도시된 마이크#1(200)과 마이크#2(202)로 입력된 신호의 위상들 간의 차이를 도시한 것이다. 도 5a를 참조하면, 마이크#1(200)와 마이크#2(202)로 음성 신호만이 입력될 경우 상기 <수학식 7>과 같이 마이크#1(200)과 마이크#2(202)로 입력된 신호의 위상차는 0에 가까움을 알 수 있다.

반면, 반면에 화자의 위치이외에서 입력되는 잡음 신호에 대해서는 두 마이크(200, 202)로 입력된 신호간에 시간 지연이 발생하기 때문에 주파수별 위상차가 크게 발생하며 아래의 <수학식 8>과 같이 주파수별 위상차가 큼을 알 수 있다.

도 5b는 마이크(200, 202)들로 잡음(Noise) 프레임만이 입력될 때의 마이크#1(200)로 입력된 잡음 신호와 마이크#2(202)으로 입력된 잡음 신호의 위상차를 비교한 도면이다. 참조번호 506은 마이크#1(200)로 입력된 신호의 위상을, 참조번호 508은 마이크#2(202)로 입력된 신호의 위상을, 참조번호 510은 상기 참조번호 506과 참조번호 508에 도시된 마이크#1(200)과 마이크#2(202)로 각각 입력된 신호의 위상 차이를 도시한 것이다. 도 5b의 참조번호 510을 참조하면, 마이크#1(200)와 마이크#2(202)로 잡음 신호만이 입력될 경우 위상차는 매우 큼을 알 수 있으며, 이는 아래의 <수학식 8>과 나타낼 수 있다.

Phase_Diff_noise(k)는 잡음만이 입력된 신호들의 위상 차이다.

도 5c는 마이크(200, 202)들로 잡음(Noise)과 음성 프레임이 같이 입력될 때의 마이크#1(200)로 입력된 신호와 마이크#2(202)으로 입력된 신호의 위상차를 비교한 도면이다. 참조번호 512는 마이크#1(200)로 입력된 신호의 위상을, 참조번호 514는 마이크#2(202)로 입력된 신호의 위상을, 참조번호 516은 상기 참조번호 512와 참조번호 514에 도시된 마이크#1(200)과 마이크#2(202)로 각각 입력된 신호의 위상 차이를 도시한 것이다. 도 5c의 참조번호 516을 참조하면, 마이크#1(200)와 마이크#2(202)로 음성+잡음 신호가 입력될 경우 위상차는 음성만 입력된 신호들간의 위상 차보다 크지만 잡음만 입력된 신호들간의 위상차보다는 작음을 알 수 있다.

상기 도 5에서 설명한 바와 같이 주파수별 위상차 계산부(226)에서 계산된 위상 차 계산 결과 음성 구간과 비음성 구간에 대해서는 주파수별 위상차의 편차가 다르게 나타나기 때문에 위상차 분산 계산부(228)에서는 주파수별 위상차 분산을 계산하여 이 분산 값을 음성 구간과 비 음성 구간을 부별하는 주요 특성 값으로 사용하며, 아래의 <수학식 9>를 사용한다.

상기 <수학식 9>는 상기 <수학식 4>을 통해 계산한 위상 차에 대한 분산(Variance)인 PD_Var을 구하는 수학식이다.

위상차 분산 계산부(228)에서는 상기 <수학식 9>를 사용하여 주파수별 위상차 계산부(226)로부터 수신된 위상 차 값의 분산을 계산하여 출력한다.

그리고 평균 계산부(232)와 분산 계산부(234)는 마이크들(200, 202)로 신호를 입력받는 초기구간에는 묵음 구간만 존재함으로 상기 초기 구간의 묵음 구간으로부터 상기 위상차 분산 계산부(228)가 출력한 위상차 분산의 평균 값과 분산 값을 구한다.

평균 계산부(232)는 아래의 <수학식 10>을 사용하여 입력된 P개의 프레임들의 위상차 분산 값의 평균(M)을 P개만큼 계산하며, 분산 계산부(234)는 아래의 <수학식 11>을 사용하여 입력된 P개 프레임에 대한 위상차(Phase Differential : PD)분산의 평균, P개 프레임에 대한 위상차분산의 분산을 계산한다.

상기 <수학식 10>에서 P는 프레임 개수, i는 프레임 넘버(frame number)로서 현재 마이크(200, 202)로 입력된 프레임을 나타낸다.

상기 <수학식 11>에서 P는 프레임 개수, i는 프레임 넘버(frame number)로서 마이크(200, 202)로 입력된 현재 프레임을 나타낸다.

문턱 값 계산부(236)는 상기 <수학식 10> 과 <수학식 11>을 사용하여 평균 계산부(232)와 분산 계산부(234)에서 계산된 P개의 평균 M과 분산 V를 이용하여 문턱 값(Threshold)을 구한다. 상기 문턱 값 계산부(236)는 아래의 <수학식 12>를 사용하여 문턱 값을 계산한다.

상기 <수학식 12>에서 α는 필드 테스트나 실험값으로 미리 정해진 상수이다.

그리고 판단부(230)는 위상차 분산 계산부(228)로부터 출력된 위상차 분산 값과 상기 문턱 값 계산부(236)에서 계산된 문턱 값을 비교하여 현재 프레임이 음성 구간의 프레임(Voice_frame)인지 비음성 구간의 프레임(Noise_frame)인지를 판단한다.

즉, 마이크(200, 202)로 신호가 수신될 때 초기 구간에서 수신된 프레임을 이용하여 문턱 값을 구하고, 상기 초기 구간이 지난 후에는 상기 문턱 값과 상기 초기 구간 후에 입력된 프레임의 위상차 분산 값을 비교하여 현재 프레임 i가 음성 프레임인지 잡음 프레임인지 판단하게 된다.

상술한 판단부(230)가 위상차 분산 값과 문턱 값과 비교하여 현재 프레임이 음성 프레임인지 잡음 프레임인지 판단하는 방법은 아래의 <수학식 13>과 같이 수행한다.

상기 <수학식 13>에서 PD_var_i는 현재 프레임 i의 위상차 분산 값이고, 상기 위상차 분산 값이 문턱 값보다 작을 경우에는 현재 프레임 i는 음성 프레임(voice_frame)이고, 문턱 값보다 클 경우에는 현재 프레임 i는 잡음 프레임이다.

그리고 판단부(230)에서는 잡음 구간이 일정 프레임 이상 계속해서 나타난다면(continuous noise frames), 문턱 값 연산부(236)로 하여금 초기 묵음 구간에서 생성한 문턱 값 이외에 상기 반복된 잡음 구간의 위상차 분산 값을 이용하여 새로운 문턱 값을 생성하게끔 제어한다. 이와 같은 과정은 아래의 <수학식 14>와 같이 나타낼 수 있다. 판단부(230)는 상기 잡음 구간이 일정 기간 동안 일어나는지 알기 위해 카운터를 구비할 수도 있다.

상기 <수학식 14>에서 M'는 새로운 잡음 구간에서의 위상차 분산의 평균값이고, V'는 상기 새로운 잡음 구간에서의 위상차 분산의 분산 값이고, threshold_update는 새로 업데이트된 문턱 값이다.

상기에서 설명한 바와 같이 현재 프레임 i의 위상차 분산 값과 문턱 값의 비교 결과 현재 프레임이 음성 프레임(voice_frame_i)이고, 이전 프레임이 잡음 프레임(noise_frame_i-1)일 경우에는 판단부(230)는 i번째 프레임의 첫 번째 샘플인 0번째 샘플을 음성의 시작점(voice_start)(238)으로 설정하고, 현재 프레임 i가 잡음 프레임(noise_frame_i)이고, 이전 프레임이 음성 프레임(voice_frame_i-1)일 경우에는 i번째 프레임의 마지막 샘플(N번째)을 음성의 끝점(voice_end)(240)으로 설정한다. 위와 같이 판단부(230)가 음성의 끝점 및 시작점을 검출하는 과정은 아래의 <수학식 15>와 같이 표현할 수 있다.

상기 도 2에서 주파수별 위상차 계산부(226)내지 판단부(230)는 음성 끝점 검출부(260)라 칭하기로 한다.

도 4는 본 발명의 실시 예에 따른 음성 끝점 검출기에서 음성 끝점을 검출하 는 방법 흐름도이다.

400단계에서 마이크(200, 202)로 신호가 입력되어 A/D변환기(204, 206)에서 디지털 신호로 변환되면, 402단계에서 윈도우 처리부(208)에서는 디지털로 변환된 신호에 대해 윈도우잉을 수행한다. 404단계에서 주파수 영역 변환부(212, 214)는 상기 윈도우 처리부(208)에서 출력된 신호를 주파수 영역의 신호로 변환하고, 406단계에서 위상 연산부(216, 218)는 상기 주파수 영역으로 변환된 두 신호들의 주파수별 위상을 계산한다.

408단계에서 위상보상부(220, 222)는 상기 제어부(224)로부터 수신된 위상 지연 정보에 따라서 상기 위상 연산부(216, 218)에서 계산한 주파수별 위상 값들에 대해 지연된 위상만큼을 보상한다. 410단계에서 주파수별 위상차 계산부(226)는 상기 위상 연산부(216, 218)에서 위상 보상된 신호들을 수신 받아 두 신호의 주파수별 위상차를 계산한다.

412단계에서 위상차 분산 계산부(228)는 주파수별 위상차 계산부(226)에서 계산된 주파수별 위상차의 분산(PD_Var)을 계산한다. 그리고 414단계에서 판단부(230)는 초기 구간인지 판단하여 초기 구간이라면, 416단계로 진행하여 문턱 값 연산부(236)로 하여금 문턱 값을 계산하게 제어한다. 상기 414단계에서 판단부(230)는 마이크(200, 202)가 처음 작동되어 음성 신호가 입력되기 전까지의 구간으로 초기 구간을 판단한다.

416단계에서 문턱 값 연산부(236)가 문턱 값을 계산하기위해서 먼저 평균 계산부(232)와 분산 계산부(234)는 상기 <수학식 10>과 <수학식 11>을 사용하여 위상 차 분산 계산부(228)에서 출력한 위상차 분산을 이용하여 위상차 분산의 평균 값인 M과 위상차 분산의 분산 값인 V를 계산한다. 그리고 문턱 값 연산부(236)는 상기 <수학식 12>를 사용하여 문턱 값을 계산하여 판단부(230)로 출력한다.

반면, 상기 414단계에서 검사결과 초기 구간이 아니라면, 판단부(230)는 418단계로 진행하여 위상차 분산 계산부(228)에서 출력되는 현재 프레임i의 위상차 분산값과 상기 416단계에서 계산한 문턱 값을 비교한다.

418단계에서 판단부(230)는 위상차 분산 값이 문턱 값보다 작다면, 420단계로 진행하여 이전 프레임인 i-1번째 프레임이 잡음이었는지를 검사한다. 상기 420단계의 검사결과 이전 프레임이 잡음 프레임이었다면, 판단부(230)는 422단계로 진행하여 입력된 현재 프레임 i의 첫 번째 샘플(0번째)을 시작점(start point)으로 설정한다. 그러나 상기 420단계에서 이전 프레임이 잡음 프레임이 아니었다면, 이전 프레임이 음성 프레임이고 현재 프레임 또한 음성 프레임이므로 음성 구간이 계속 진행되고 있는 상태이므로 상기 400단계로 진행하여 현재 프레임 다음에 입력되는 프레임을 입력받는다.

반면, 상기 418단계에서 판단부(230)는 현재 프레임의 위상차 분산 값이 문턱 값보다 크다면, 424단계로 진행하여 이전 프레임(i-1)이 음성 프레임이었는지 검사한다. 상기 424단계의 검사결과 이전 프레임이 음성 프레임이었다면, 판단부(230)는 426단계로 진행하여 이전 프레임의 마지막 샘플(N-1번째)을 끝점(end point)으로 설정한다. 또한 상기 424단계의 검사결과 이전 프레임이 음성이 아니었다면, 판단부(230)는 428단계로 진행하여 미리 정해진 시간동안 계속되어 잡음 프 레임이 검출되는지 검사한다. 상기 428단계의 검사결과 계속 잡음 프레임이 검출될 경우 판단부(230)는 430단계로 진행하여 문턱 값 연산부(236)로 하여금 새로운 문턱 값을 계산하게 지시하고, 418단계로 진행하여 새로 입력된 프레임의 위상차 분산 값이 새로 계산된 문턱 값과 비교한다. 반면, 상기 428단계의 검사결과 연속 비음성 프레임이 아니라면, 상기 400단계로 회귀하여 다음 프레임을 입력받는다.

도 6은 본 발명의 실시 예에 따라 마이크를 통해 수신된 신호에서 음성 신호의 시작점과 끝점을 검출한 것을 보여주는 그래프이다.

도 6에서 참조번호 600은 음성 신호와 잡음 신호가 섞여서 마이크로 입력되었을 때의 신호 크기를 보여준다. 참조번호 600에서 보는 바와 같이 잡음과 음성 신호가 같이 수신되면 일반적인 음성 끝점 검출기에서는 잡음과 음성을 구별하지 못하여 끝점 검출을 수행할 수 없게 된다. 그러나 본 발명은 참조번호 604와 같이 위상차 분산 값을 이용하여 참조번호 602와 같이 음성 신호의 끝점을 검출할 수 있다. 즉, 본 발명은 참조번호 620a와 같이 마이크(200, 202)로 입력된 신호들의 위상차 분산이 클 경우에는 잡음 구간이라고 판단하고, 참조번호 620b와 같이 위상차 분산이 적을 경우에는 음성 구간이라고 판단함으로써, 음성의 끝점을 검출한다.

상술한 바와 같이 본 발명을 사용하면 적어도 둘 이상의 마이크를 구비한 장치에서 음성 끝점을 검출할 수 있어 효율적인 음성 솔루션을 제공할 수 있다.

Claims

음성 끝점을 검출하기 위한 장치에 있어서,

음성 신호 및 잡음 신호가 포함된 신호를 수신하는 적어도 둘 이상의 마이크와,

상기 마이크를 통해 수신된 신호의 위상 차이를 이용하여 상기 음성 끝점을 검출하는 음성 끝점 검출부를 포함함을 특징으로 하는 음성 끝점을 검출하기 위한 장치.
제1 항에 있어서,

상기 음성 끝점 검출부는,

상기 마이크로 입력된 신호의 위상차 분산값의 평균값과 분산 값을 사용하여 상기 위상차 분산 값과 비교할 문턱 값을 계산하고, 상기 위상차 분산 값이 상기 문턱 값보다 작을 경우 상기 마이크로 입력된 신호의 해당 프레임을 음성 프레임으로 판단함을 특징으로 하는 음성 끝점 검출 장치.
제2 항에 있어서,

상기 음성 끝점 검출부는,

상기 위상차 분산 값이 상기 문턱 값보다 작고, 상기 마이크로 입력된 신호의 해당 프레임의 이전 프레임이 잡음일 경우 상기 해당 프레임의 첫 번째 샘플을 시작점으로 판단함을 특징으로 하는 음성 끝점 검출 장치.
제2 항에 있어서,

상기 음성 끝점 검출부는,

상기 마이크로 입력된 신호의 위상차 분산값의 평균값과 분산 값을 사용하여 상기 위상차 분산 값과 비교할 문턱 값을 계산하고, 상기 위상차 분산 값이 상기 문턱 값보다 클 경우 상기 마이크로 입력된 신호의 해당 프레임을 잡음 프레임으로 판단함을 특징으로 하는 음성 끝점 검출 장치.
제4 항에 있어서,

상기 음성 끝점 검출부는,

상기 위상차 분산 값이 상기 문턱 값보다 크고, 상기 마이크로 입력된 신호의 해당 프레임의 이전 프레임이 음성일 경우 상기 해당 프레임의 이전 프레임의 마지막 번째 샘플을 끝점으로 판단함을 특징으로 하는 음성 끝점 검출 장치.
음성 끝점을 검출하기 위한 방법에 있어서,

적어도 둘 이상의 마이크를 통해 음성 신호 및 잡음 신호가 포함된 신호를 입력받는 과정과,

상기 마이크를 통해 입력된 신호의 위상 차이를 이용하여 상기 음성 끝점을 검출하는 과정을 포함함을 특징으로 하는 음성 끝점 검출 방법.
제6 항에 있어서,

상기 위상 차이를 이용하여 상기 음성 끝점을 검출하는 과정은,

상기 마이크로 입력된 신호의 위상차 분산값의 평균값과 분산 값을 사용하여 상기 위상차 분산 값과 비교할 문턱 값을 계산하는 과정과,

상기 위상차 분산 값이 상기 문턱 값보다 작을 경우 상기 마이크로 입력된 신호의 해당 프레임을 음성 프레임으로 판단하는 과정을 포함함을 특징으로 하는 음성 끝점 검출 방법.
제7 항에 있어서,

상기 위상차 분산 값이 상기 문턱 값보다 작을 경우 상기 마이크로 입력된 신호의 해당 프레임을 음성 프레임으로 판단하는 과정은,

상기 위상차 분산 값이 상기 문턱 값보다 작고, 상기 마이크로 입력된 신호 의 해당 프레임의 이전 프레임이 잡음일 경우 상기 해당 프레임의 첫 번째 샘플을 시작점으로 판단하는 과정을 포함함을 특징으로 하는 음성 끝점 검출 방법.
제6 항에 있어서,

상기 위상 차이를 이용하여 상기 음성 끝점을 검출하는 과정은,

상기 마이크로 입력된 신호의 위상차 분산값의 평균값과 분산 값을 사용하여 상기 위상차 분산 값과 비교할 문턱 값을 계산하는 과정과,

상기 위상차 분산 값이 상기 문턱 값보다 클 경우 상기 마이크로 입력된 신호의 해당 프레임을 잡음 프레임으로 판단하는 과정을 포함함을 특징으로 하는 음성 끝점 검출 방법.
제9 항에 있어서,

상기 위상차 분산 값이 상기 문턱 값보다 클 경우 상기 마이크로 입력된 신호의 해당 프레임을 잡음 프레임으로 판단하는 과정은,

상기 위상차 분산 값이 상기 문턱 값보다 크고, 상기 마이크로 입력된 신호의 해당 프레임의 이전 프레임이 음성일 경우 상기 해당 프레임의 이전 프레임의 마지막 번째 샘플을 끝점으로 판단하는 과정을 포함함을 특징으로 하는 음성 끝점 검출 방법.