KR20140117885A

KR20140117885A - 음성활동감지방법 및 그 방법을 채택한 통신장치

Info

Publication number: KR20140117885A
Application number: KR1020130032765A
Authority: KR
Inventors: 조정권; 김종현; 반재미
Original assignee: 주식회사 시그테크; 주식회사 크린컴
Priority date: 2013-03-27
Filing date: 2013-03-27
Publication date: 2014-10-08
Also published as: KR101451844B1

Abstract

두 개의 마이크로폰을 사용하는 통신장치에서 소음제거를 위하여 음성활동을 감지하는 방법 및 그 방법을 채택한 통신장치가 제공된다. 제1 마이크로폰과, 상기 제1 마이크로폰에 비해서 화자의 입에서 상대적으로 멀리 떨어져 있는 제2 마이크로폰을 포함하는 통신장치에서 소음제거를 위하여 음성활동을 감지하는 방법으로서, 상기 방법은 제1 마이크로폰으로 입력되는 신호전력의 변화량(이하, "제1 변화량"이라 함)과 제2 마이크로폰으로 입력되는 신호전력의 변화량(이하, "제2 변화량"이라 함)을 계산하는 단계와, 상기 제1 변화량과 상기 제2 변화량의 차이값에 기초하여 음성활동 유무를 판단하는 단계를 포함한다. 본 발명에 따르면, 두 개의 마이크로폰으로부터의 신호전력의 변화량의 차이를 이용하여 음성활동 유무를 판단하므로, 두 개의 마이크로폰에 들어오는 신호의 크기에 영향을 덜 받는다.

Description

음성활동감지방법 및 그 방법을 채택한 통신장치 {Method for voice activity detection and communication device implementing the same}

본 발명은 음성활동감지(Voice Activity Detection) 방법 및 그 방법을 채택한 통신장치에 관한 것으로서, 더욱 상세하게는 두 개의 마이크로폰을 사용하는 통신장치에서 소음제거를 위하여 음성활동을 감지하는 방법 및 그 방법을 채택한 통신장치에 관한 것이다.

휴대폰 등의 통신장치에서 배경 잡음을 감소시키기 위하여, 그리고 채널용량을 늘리거나 배터리 소모를 감소시키기 위하여 하나의 마이크를 사용한 음성활동감지(Voice Activity Detection, 이하, "VAD"라 함) 방법이 널리 사용되고 있다. 예를 들면, 일부 코드분할 다중액세스(CDMA) 시스템에서는 사용되는 유효 라디오 스펙트럼을 최소화하기 위해 VAD를 이용하고 있으며, 이에 의해 더 많은 시스템 용량을 얻을 수 있다. 또한, GSM 통신 시스템은 공통-채널 간섭을 줄이고 가입자 장치에서 배터리 소모를 감소하기 위해 VAD를 사용하고 있다.

그런데, 이러한 전형적인 단일-마이크로폰 VAD 시스템들은 단일 마이크로폰에 의해 수신되는 음향 정보를 분석하므로 그 용량이 크게 제한된다. 특히, 신호들이 낮은 신호-대-잡음 비율(SNR)을 지닐 때, 그리고 배경 잡음이 빠르게 변하는 곳에서는 단일-마이크로폰 VAD 시스템들의 성능 한계가 드러난다.

이러한 점을 해결하기 위하여 두 개의 마이크로폰을 사용하여 잡음을 제거하는 장치들이 제안되고 있다. 예를 들면, 대한민국 특허공개 제10-2004-0101373호에서는 소정 거리만큼 이격된 한 개의 전방향 마이크로폰과 한 개의 일방향 마이크로폰, 그리고 사용자 피부와 접촉하는 한 개 이상의 피부 표면 마이크로폰 센서를 포함하는 통신장치에서 피부 표면 마이크로폰 센서 음성 활동 신호를 처리하여 제어 신호를 출력하는 음성활동감지기를 제안하고 있다.

그러나, 이러한 구성은 하드웨어의 구성이 복잡하고 알고리즘도 이러한 하드웨어 구성에 종속되어 있어서, 일반적으로 적용하기에는 어려움이 있다.

본 발명은 이러한 점을 감안하여 이루어진 것으로서, 두 개의 마이크로폰을 사용하는 통신장치에 일반적으로 적용될 수 있으면서도 효율 좋은 음성활동 감지 방법 및 그 방법을 채택한 통신장치를 제공하는 것을 목적으로 한다.

본 발명의 바람직한 실시예에 따른 본 발명은, 제1 마이크로폰과, 상기 제1 마이크로폰에 비해서 화자의 입에서 상대적으로 멀리 떨어져 있는 제2 마이크로폰을 포함하는 통신장치에서 음성활동을 감지하는 방법에 관한 것이다. 통상적으로, 제1 마이크로폰은 통신장치의 하단부에 위치하며, 상기 제2 마이크로폰은 통신장치의 상단부에 위치한다. 상기 방법은 제1 마이크로폰으로 입력되는 신호전력의 변화량(이하, "제1 변화량"이라 함)과 제2 마이크로폰으로 입력되는 신호전력의 변화량(이하, "제2 변화량"이라 함)을 계산하는 단계와, 상기 제1 변화량과 상기 제2 변화량의 차이값에 기초하여 음성활동 유무를 판단하는 단계를 포함한다.

본 발명의 음성활동감지기는 제1 변화량과 제2 변화량의 차이값이 기준치보다 크면 음성활동이 있다고 판단하고 음성활동이 있음을 나타내는 신호를 출력한다.

일 실시예에서, 제1 변화량은 현 시점으로부터 이전의 제1 기간 동안 제1 마이크로폰으로 입력된 평균신호전력과, 현 시점으로부터 이전의 상기 제1 기간보다 긴 제2 기간 동안 제1 마이크로폰으로 입력된 평균신호전력과의 차이값이며, 제2 변화량은 현 시점으로부터 이전의 상기 제1 기간 동안 제2 마이크로폰으로 입력된 평균신호전력과, 현 시점으로부터 이전의 상기 제2 기간 동안 제2 마이크로폰으로 입력된 평균신호전력과의 차이값이다.

다른 실시예에서, 제1 변화량은 현 시점에 제1 마이크로폰으로 입력된 신호의 전력과, 현 시점으로부터 이전의 소정 기간 동안 제1 마이크로폰으로 입력된 평균전력과의 차이값이며, 제2 변화량은 현 시점에 제2 마이크로폰으로 입력된 신호의 전력과, 현 시점으로부터 이전의 소정 기간 동안 제2 마이크로폰으로 입력된 평균전력과의 차이값이다.

본 발명의 음성활동감지기는 음성활동이 있다고 판단된 이후에 제1 변화량과 제2 변화량의 차이값이 기준치보다 작아진 경우에도 소정 시간 동안에는 음성활동이 있음을 나타내는 신호를 계속 출력하는 것이 바람직하다.

본 발명에 따르면, 두 개의 마이크로폰으로부터의 신호전력의 변화량의 차이값을 이용하여 음성활동 유무를 판단하므로, 두 개의 마이크로폰에 들어오는 신호의 크기에 관계 없이 보다 정확한 음성활동감지가 가능하다. 즉, 먼거리의 잡음 신호는 잡음신호의 크기에 상관없이 두 마이크로폰에서 거의 비슷한 변화량을 가지게 되지만, 가까운 목적 신호(화자의 목소리)는 화자의 입에 더 가까운 제1 마이크로폰에 상대적으로 매우 크게 입력되므로 특히　중저주파 대역에서 제1 마이크로폰의　신호 변화량이 제2 마이크로폰의 신호 변화량보다 크게 되며,　따라서, 근거리의 목적신호가 있을 때에는 양 마이크로폰에서의 신호 변화량의 차가 크고, 원거리의 잡음 신호만 있을 때에는 이 차가 상대적으로 작게 된다.

또한, 본 발명에 따르면 두 개의 마이크로폰만을 사용하여 음성활동을 감지하므로, 두 개의 마이크로폰을 사용하는 통신장치에 일반적으로 적용될 수 있으면서도 효율 좋은 음성활동 감지 방법을 구현할 수 있다.

도 1은 본 발명의 음성활동감지방법이 적용되는 통신장치의 내부 구성을 보여주는 블록도이다.
도 2는 두 개의 마이크로폰을 갖는 통신장치에서 마이크로폰과 스피커의 배치예를 보여주는 도면이다.
도 3은 본 발명의 바람직한 실시예에 따른 음성활동감지방법의 동작을 보여주는 흐름도이다.

이하, 도면을 참고하여 본 발명의 바람직한 실시예에 대해서 상세히 설명한다.

도 1에 본 발명의 음성활동감지방법이 적용되는 통신장치의 내부 구성을 보여주는 블록도가 도시되어 있다.

본 발명의 음성활동감지방법은 적어도 두 개의 마이크로폰(11, 12)이 구비되는 통신장치에 적용된다. 제1 마이크로폰(11)은 화자(話者)의 입 근처에 위치하고, 제2 마이크로폰(12)은 제1 마이크로폰(11)에 비해서 화자(話者)의 입으로부터 더 멀리 떨어져 있다. 바람직하게는, 제1 마이크로폰(11)은 통신장치의 하단에 위치하고 제2 마이크로폰(12)은 통신장치의 상단에 위치한다.

각 마이크로폰(11,12)으로 입력되는 아날로그 신호는 적절한 크기로 증폭되어 아날로그-디지털 변환기(13, 14)에서 디지털 신호로 변환된 다음, 본 발명의 음성활동감지방법을 채택한 음성활동감지기(15)로 입력된다.

음성활동감지기(15)는 제1 마이크로폰(11)으로 입력되는 신호전력의 변화량(이하, "제1 변화량"이라 함)과 제2 마이크로폰(12)으로 입력되는 신호전력의 변화량(이하, "제2 변화량"이라 함)을 계산하고, 계산된 제1 변화량과 제2 변화량의 차이값에 기초하여 음성활동 유무를 판단한다.

잡음제거부(16)는 음성활동감지기(15)로부터의 음성활동 유무를 나타내는 신호와 각 마이크로폰(11,12)으로부터 입력되어 디지털로 변환된 신호를 이용하여 주변 잡음을 제거한 후에, 보코더(31)로 출력한다.

보코더(31)는 잡음제거부(16)에서 잡음이 제거된 신호를 인코딩하여 통신망 인터페이스(41)를 통해 통화상대방에게 전송하고, 통신망 인터페이스(41)를 통해 전송되어 오는 통화상대방의 음성을 디코딩한다. 디코딩된 음성신호는 디지털-아날로그 변환기(22)를 거쳐서 아날로그 신호로 변환된 다음에 적절한 레벨로 증폭되어 스피커를 통해 출력된다.

도 2는 두 개의 마이크로폰을 갖는 통신장치에서 마이크로폰과 스피커의 배치예를 보여주는 도면이다. 도 2에 도시된 것처럼, 제1 마이크로폰(11)은 화자의 입에 가까운 곳인 통신장치의 하단에 위치하고, 제2 마이크로폰(12)은 통신장치의 상단에 위치한다. 스피커(21)는 화자의 귀에 가까운 위치인 통신장치의 상부에 위치하고 있다.

다음으로, 도 3을 참조하여 본 발명의 본 발명의 바람직한 실시예에 따른 음성활동감지방법의 동작을 설명한다. 도 3의 동작은 프레임마다 수행하는 것이 바람직하지만, 본 발명은 이에 한정되는 것은 아니다.

먼저, 음성활동감지기(15)는 양 마이크로폰(11,12)으로부터 입력되는 신호전력의 변화량을 계산한다(단계 310).

신호전력의 변화량은 현 시점에 마이크로폰으로 입력된 신호의 전력과, 현 시점으로부터 이전의 소정 기간 동안 동일 마이크로폰으로 입력된 평균전력과의 차이값의 절대값으로 정의된다.

이를 수식으로 표현하면 수학식 1과 같다.

여기에서, M은 현재 샘플을 포함한 이전 소정 기간 동안의 샘플 수이다. 계산량을 줄이기 위해서 모든 오디오 데이터를 사용하지 않고 일정 시간마다 샘플링을 하여 사용할 수도 있다. 예를 들어, 신호전력의 평균치 계산을 위한 샘플링을 프레임마다 수행하도록 할 수도 있으며 이 경우에는 M은 현재 프레임을 포함한 이전 소정 기간 동안의 프레임 수이다.

한편, 다른 방법으로는, 신호전력의 변화량을, 현 시점으로부터 이전의 제1 기간 동안 마이크로폰으로 입력된 평균신호전력과, 현 시점으로부터 이전의 상기 제1 기간보다 긴 제2 기간 동안 마이크로폰으로 입력된 평균신호전력과의 차이값을 사용할 수도 있다.

이를 수식으로 표현하면 수학식 2와 같다.

여기에서, N은 현 시점으로부터 이전의 제1 기간 동안의 현재 샘플을 포함한 샘플 수이며, M은 현 시점으로부터 이전의 제2 기간 동안의 현재 샘플을 포함한 샘플 수이고, N < M이다. 예를 들어, N을 1 프레임 동안의 샘플수로 잡고, M을 10 프레임 동안의 샘플수로 잡으면, 신호전력의 변화량은 1 프레임 동안의 평균전력과 10 프레임 동안의 평균전력의 차이가 된다. N과 M은 통신기기의 구조와 마이크로폰의 특성 등에 따라서 달라지며, 실험에 의해 적절한 값을 구하면 된다.

다음으로, 제1 변화량과 제2 변화량의 차이값이 기준치보다 크면(단계 320의 'Yes') 음성활동감지기(15)는 음성활동이 있다고 판단하고 음성활동이 있음을 나타내는 신호를 출력한다(단계 340). 본 예에서는 음성활동이 있는 경우에 논리값 1을 출력하도록 하고 있다. 제1 변화량과 제2 변화량의 차이값은 제1 변화량에서 제2 변화량을 뺀 값으로 할 수 있다.

한편, 음성활동이 있다고 판단된 이후에 제1 변화량과 제2 변화량의 차이값이 기준치보다 작아진 경우에도 이후의 소정 시간 동안에는 음성활동이 있음을 나타내는 신호를 계속 출력하는 것이 바람직하다. 이를 위하여 음성활동감지기(15)는 유지시간(Hold time)을 나타내는 HT 값을 초기화시키고(도 3의 예에서는 HT=15)(단계 330), HT 값을 하나 감소시킨다(350). 예를 들어, 도 3의 동작이 매 프레임마다 수행되는 경우에는 유지시간은 1 프레임 시간 x 15가 되며, 1 프레임 시간이 20msec인 경우에는 도 3의 예에서 유지시간은 0.3초가 된다.

단계 320에서의 판단 결과, 제1 변화량과 제2 변화량의 차이값이 기준치보다 작으면(단계 320의 'No'), 단계 360에서 유지시간이 지났는지를 확인한다. 유지시간이 지나지 않은 경우에는, 즉 HT 값이 0보다 큰 경우에는 단계 340으로 가서 음성활동 유무를 나타내는 출력을 그대로 유지하고(즉, VAD=1로 계속 유지하고) HT 값을 하나 감소시킨다(350). 단계 360에서의 판단 결과, 유지시간이 지난 경우에는, 즉 HT 값이 0인 경우에는 음성활동이 없음을 나타내는 신호를 출력한다(단계 370). 본 예에서는 음성활동이 있는 경우에 논리값 0을 출력하도록 하고 있다.

이상, 본 발명을 몇가지 예를 들어 설명하였으나, 본 발명의 실시예를 구성하는 모든 구성 요소들이 하나로 결합하거나 결합하여 동작하는 것으로 설명되었다고 해서, 본 발명이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 그 모든 구성 요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다. 또한, 그 모든 구성 요소들이 각각 하나의 독립적인 하드웨어로 구현될 수 있지만, 각 구성 요소들의 그 일부 또는 전부가 선택적으로 조합되어 하나 또는 복수 개의 하드웨어에서 조합된 일부 또는 전부의 기능을 수행하는 프로그램 모듈을 갖는 컴퓨터 프로그램으로서 구현될 수도 있다. 그 컴퓨터 프로그램을 구성하는 코드들 및 코드 세그먼트들은 본 발명의 기술 분야의 당업자에 의해 용이하게 추론될 수 있을 것이다. 이러한 컴퓨터 프로그램은 컴퓨터가 읽을 수 있는 저장매체(Computer Readable Media)에 저장되어 컴퓨터에 의하여 읽혀지고 실행됨으로써, 본 발명의 실시예를 구현할 수 있다.

이상에서 기재된 "포함하다", "구성하다" 또는 "가지다" 등의 용어는, 특별히 반대되는 기재가 없는 한, 해당 구성 요소가 내재할 수 있음을 의미하는 것이므로, 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것으로 해석되어야 한다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

11 제1 마이크로폰,
12 제2 마이크로폰,
15 음성활동감지기,
16 잡음제거부.

Claims

제1 마이크로폰과, 상기 제1 마이크로폰에 비해서 화자의 입에서 상대적으로 멀리 떨어져 있는 제2 마이크로폰을 포함하는 통신장치에서의 음성활동감지방법으로서, 상기 방법은
제1 마이크로폰으로 입력되는 신호전력의 변화량(이하, "제1 변화량"이라 함)과 제2 마이크로폰으로 입력되는 신호전력의 변화량(이하, "제2 변화량"이라 함)을 계산하는 단계와,
상기 제1 변화량과 상기 제2 변화량의 차이값에 기초하여 음성활동 유무를 판단하는 단계
를 포함하는 음성활동감지방법.
제1항에 있어서,
상기 제1 변화량과 제2 변화량의 차이값이 기준치보다 크면 음성활동이 있다고 판단하고 음성활동이 있음을 나타내는 신호를 출력하는 것을 특징으로 하는 음성활동감지방법.
제2항에 있어서,
상기 제1 변화량은 현 시점으로부터 이전의 제1 기간 동안 제1 마이크로폰으로 입력된 평균신호전력과, 현 시점으로부터 이전의 상기 제1 기간보다 긴 제2 기간 동안 제1 마이크로폰으로 입력된 평균신호전력과의 차이값이며,
상기 제2 변화량은 현 시점으로부터 이전의 상기 제1 기간 동안 제2 마이크로폰으로 입력된 평균신호전력과, 현 시점으로부터 이전의 상기 제2 기간 동안 제2 마이크로폰으로 입력된 평균신호전력과의 차이값인 것을 특징으로 하는 음성활동감지방법.
제2항에 있어서,
상기 제1 변화량은 현 시점에 제1 마이크로폰으로 입력된 신호의 전력과, 현 시점으로부터 이전의 소정 기간 동안 제1 마이크로폰으로 입력된 평균전력과의 차이값이며,
상기 제2 변화량은 현 시점에 제2 마이크로폰으로 입력된 신호의 전력과, 현 시점으로부터 이전의 소정 기간 동안 제2 마이크로폰으로 입력된 평균전력과의 차이값인 것을 특징으로 하는 음성활동감지방법.
제2항 내지 제4항 중 어느 한 항에 있어서,
음성활동이 있다고 판단된 이후에 상기 제1 변화량과 제2 변화량의 차이값이 기준치보다 작아진 경우에도 소정 시간 동안에는 음성활동이 있음을 나타내는 신호를 계속 출력하는 것을 특징으로 하는 음성활동감지방법.
제1항 내지 제4항 중 어느 한 항에 있어서,
상기 제1 마이크로폰은 통신장치의 하단부에 위치하며, 상기 제2 마이크로폰은 통신장치의 상단부에 위치하는 것을 특징으로 하는 음성활동감지방법.
제1 마이크로폰과,
상기 제1 마이크로폰에 비해서 화자의 입에서 상대적으로 멀리 떨어져 있는 제2 마이크로폰과,
제1 마이크로폰으로 입력되는 신호전력의 변화량(이하, "제1 변화량"이라 함)과 제2 마이크로폰으로 입력되는 신호전력의 변화량(이하, "제2 변화량"이라 함)을 측정하고, 상기 제1 변화량과 상기 제2 변화량의 차이값에 기초하여 음성활동 유무를 판단하는 음성활동감지기
를 구비하는 통신장치.
제7항에 있어서,
상기 음성활동감지기는 상기 제1 변화량과 제2 변화량의 차이값이 기준치보다 크면 음성활동이 있다고 판단하고 음성활동이 있음을 나타내는 신호를 출력하는 것을 특징으로 하는 통신장치.
제8항에 있어서,
상기 제1 변화량은 현 시점으로부터 이전의 제1 기간 동안 제1 마이크로폰으로 입력된 평균신호전력과, 현 시점으로부터 이전의 상기 제1 기간보다 긴 제2 기간 동안 제1 마이크로폰으로 입력된 평균신호전력과의 차이값이며,
상기 제2 변화량은 현 시점으로부터 이전의 상기 제1 기간 동안 제2 마이크로폰으로 입력된 평균신호전력과, 현 시점으로부터 이전의 상기 제2 기간 동안 제2 마이크로폰으로 입력된 평균신호전력과의 차이값인 것을 특징으로 하는 통신장치.
제8항에 있어서,
상기 제1 변화량은 현 시점에 제1 마이크로폰으로 입력된 신호의 전력과, 현 시점으로부터 이전의 소정 기간 동안 제1 마이크로폰으로 입력된 평균전력과의 차이값이며,
상기 제2 변화량은 현 시점에 제2 마이크로폰으로 입력된 신호의 전력과, 현 시점으로부터 이전의 소정 기간 동안 제2 마이크로폰으로 입력된 평균전력과의 차이값인 것을 특징으로 하는 통신장치.
제8항 내지 제10항 중 어느 한 항에 있어서,
상기 음성활동감지기는 음성활동이 있다고 판단된 이후에 상기 제1 변화량과 제2 변화량의 차이값이 기준치보다 작아진 경우에도 이후의 소정 시간 동안에는 음성활동이 있음을 나타내는 신호를 계속 출력하는 것을 특징으로 하는 통신장치.
제7항 내지 제10항 중 어느 한 항에 있어서,
상기 제1 마이크로폰은 통신장치의 하단부에 위치하며, 상기 제2 마이크로폰은 통신장치의 상단부에 위치하는 통신장치.