KR20150017703A

KR20150017703A - 휴대 전화에 적용되는 음성 향상 방법 및 장치

Info

Publication number: KR20150017703A
Application number: KR1020147031212A
Authority: KR
Inventors: 송 리우; 보 리; 샤샤 로우
Original assignee: 고어텍 인크
Priority date: 2012-08-07
Filing date: 2013-08-01
Publication date: 2015-02-17
Also published as: EP2835958A1; US20150142426A1; EP2835958A4; CN102801861B; CN102801861A; DK2835958T3; KR101639933B1; JP5952434B2; WO2014023183A1; US9437209B2; JP2015517116A; EP2835958B1

Abstract

본 발명에 의해 제공되는 방법 및 장치에 의해, 사용자가 전화로 사용자가 이야기하고 있을 때 사용자의 휴대 전화 홀딩 상태가 검출됨으로써, 서로 다른 디노이징 솔루션이 휴대 전화를 홀딩하고 있는 사용자의 상태에 따라 적용될 것이다. 사용자가 휴대 전화를 정상적으로 홀딩하고 있을 때에는, 다중 마이크로폰 디노이징 및 단일 마이크로폰 디노이징을 통합한 솔루션이 정상 잡음과 비정상 잡음의 양쪽을 효과적으로 억제하기 위해 적용될 것이고; 사용자가 휴대 전화를 비정상적으로 홀딩하고 있을 때에는, 단일 마이크로폰 디노이징만이 장상 잡음을 억제하기 위해 적용될 것이다. 다중 마이크로폰 디노이징에 의한 음성의 왜곡이 회피되고, 음성 품질이 보장된다.

Description

휴대 전화에 적용되는 음성 향상 방법 및 장치 {VOICE ENHANCING METHOD AND APPARATUS APPLIED TO CELL PHONE}

본 발명은 음성 신호 처리의 기술분야에 관한 것으로, 특히 휴대 전화를 위한 음성 향상 방법 및 장치에 관한 것이다.

사람의 일상 생활과 일(work, 작업)의 양쪽에 광범위하게 적용되어 온 휴대 전화(mobile phone, 휴대폰)는 통신에 대한 공간적이고 시간적인 제약을 완화하고, 사람의 생활과 일에 커다란 편리함을 제공한다. 그러나, 통신 환경은 그 사이에 환경 잡음이 포함되어 있어 복잡하고 변화무쌍하다. 환경 잡음은 휴대 전화에서의 전화의 음성 품질(음질)을 심각하게 열화시킨다. 따라서, 음성 향상 기술은 휴대 전화에서의 잡음 억제를 위해 상당한 시사점(implication)을 가지고 있다.

현재, 일반적으로 사용되는 음성 향상 기술은, 단일 채널(single-channel) 스펙트럼 차감 음성 향상 기술이라고도 불리거나, 또는 단일 마이크로폰 디노이징 기술(single-microphone denoising technique)이라고 불릴 수 있는 단일 마이크로폰(single-microphone) 스펙트럼 차감 음성 향상 기술을 포함하고 있다. 이러한 기술은, 비정상 잡음(non-steady noise), 예를 들어 쇼핑 몰, 수퍼마켓 또는 레스토랑에 있어서 자신 주위의 사람들의 음성에 대한 충분한 억제 효과 없이 정상 잡음(steady noise)만을 억제할 수 있다.

또 다른 바람직한 디노이징 기술은, 다중 마이크로폰(multi-microphone) 디노이징 기술이라고도 불리는 다중 마이크로폰 어레이 음성 향상 기술이다. 이러한 기술은 다음과 같은 2가지 유형(type)을 더 포함하고 있다.

첫 번째 유형은, 다중 마이크로폰 신호 처리에 의해 고정된 방향성이 형성된다는 점이다. 즉 하나의 지정된 방향으로부터의 소리(sound)는 유지되고, 다른 방향으로부터의 소리는 억제된다. 방향성이 사용자의 입(mouth)으로의 그러한 처리점에 의해 형성되는 경우, 음성을 보호하고 주위의 잡음을 억제하는 목적이 실현된다.

두 번째 유형은, 음성이 디노이징을 목적으로 다수의 마이크로폰에 의해 수신된 신호의 에너지 차이(difference)에 의한 잡음과 구별된다는 점이다. 도 1은, 음성을, 디노이징을 목적으로 다수의 마이크로폰에 의해 수신된 신호의 에너지 차이에 의한 잡음과 구별하는 솔루션에 있어서, 다수의 마이크로폰이 실장된 위치를 나타내는 다이어그램(도면)이다. 도 1에 나타낸 바와 같이, 2개의 마이크로폰, 즉 메인 마이크로폰(1)과 보조 마이크로폰(2)이 있다. 메인 마이크로폰(1)은 사람의 입 근방의 휴대 전화의 밑바닥에 실장되어 있는바, 사용자로부터 메인 마이크로폰(1)에 의해 수신된 음성 신호의 에너지가 아주 높다. 보조 마이크로폰(2)은 사람의 입으로부터 멀리 떨어진 휴대 전화의 꼭대기에 실장되어 있는바, 사용자로부터 메인 마이크로폰(1)에 의해 수신된 음성 신호의 에너지가 낮다. 도 1에 나타낸 바와 같이, 2개의 마이크로폰에 의해 수신된 외부 환경 잡음의 에너지는 서로 매우 가깝다. 따라서, 이들 2개의 마이크로폰에 의해 수신된 신호의 에너지의 차이를 비교함으로써, 어떤 신호가 음성 신호인지 잡음 신호인지를 판단할 수 있다. 결과로서, 음성 성분은 유지되고, 반면에 잡음 성분은 억제되는 바, 따라서 신호대 잡음비(signal to noise ratio)가 증가된다.

단일 마이크로폰 디노이징 기술과 비교하여, 다중 마이크로폰 디노이징 기술은 비정상 잡음을 효과적으로 억제할 수 있다는 이점을 가진다. 그러나, 다중 마이크로폰 디노이징 기술은 사용자에 의해 휴대 전화를 사용하는 방법에 엄격한 제약을 가진다. 즉, 사용자에 의해 휴대 전화를 홀딩(holding, 보호·유지)하는 방법이 제약을 받게 될 것이다. 방향성을 이용하는 기술의 첫 번째 유형에 대해서는, 사용자는 사람의 입을 지시하는 방법으로 휴대 전화를 계속 홀딩해야 하고, 그렇지 않으면 사람의 입은 사용자가 다른 방법으로 휴대 전화를 홀딩하면 보호해야 할 지정된 방향에서 벗어날 것이다. 이 경우, 음성은 다른 방향으로부터의 잡음으로서 억제될 것이다. 에너지의 차이를 이용하는 기술의 두 번째 유형에 대해서도 마찬가지인바, 사용자가 일반적으로 휴대 전화를 홀딩할 때의 상태를 나타내는 다이어그램인 도 2에 나타낸 바와 같이, 사용자는 또한 메인 마이크로폰이 사람의 입 근방에 유지되는 반면에 보조 마이크로폰이 입으로부터 멀리 떨어져 유지되도록 휴대 전화를 홀딩하는 것을 필요로 한다. 사용자가 휴대 전화를 비정상적으로 유지하는 경우, 예를 들어 사용자가 휴대 전화를 비정상적으로 홀딩할 때의 상태를 나타내는 다이어그램인 도 3에 나타낸 바와 같이 휴대 전화가 수평으로 유지되는 경우에는, 메인 마이크로폰으로부터 입까지의 거리가 보조 마이크로폰으로부터 입까지의 거리에 가까워지기 때문에, 2개의 마이크로폰에 의해 수신된 음성의 에너지가 서로 가까워진다. 이 경우에는, 음성도 또한 잡음으로서 억제될 것이다.

이와 관련하여, 본 발명은 단일 마이크로폰 디노이징이 정상 잡음만을 억제할 수 있고 다중 마이크로폰 디노이징이 비정상 잡음을 억제할 수 있더라도, 사용자가 비정상적으로 휴대 전화를 홀딩할 때 음성 신호를 왜곡(distort)할 수 있다는 문제를 해결하기 위해, 휴대 전화를 위한 음성 향상 방법 및 장치를 제공한다.

상기의 목적을 달성하기 위해, 본 발명의 기술적인 솔루션은 다음과 같은 방식으로 구현된다.

본 발명은, 메인 마이크로폰이 휴대 전화의 밑바닥에 설치되고 하나 이상의 보조 마이크로폰이 메인 마이크로폰으로부터 멀리 떨어진 위치에서 휴대 전화 내에 설치되는 휴대 전화를 위한 음성 향상 방법으로서, 상기 방법은

메인 마이크로폰 및 보조 마이크로폰의 양쪽으로부터의 신호에 따라 사용자가 이야기(talking)하고 있는지 응답(answering)하고 있는지를 판단하는 단계;

사용자가 이야기하고 있다고 판단한 때에는 사용자의 휴대 전화 홀딩 상태, 즉 사용자가 휴대 전화를 정상적으로 또는 비정상적으로 홀딩하고 있는지를 더 검출하고, 사용자가 응답하고 있다고 판단한 때에는 이전의 음성 향상 솔루션을 그대로 유지하는 단계;

사용자가 휴대 전화를 정상적으로 홀딩하고 있다고 판단한 때에는, 음성 향상을 수행하기 위해 다중 마이크로폰 디노이징 및 단일 마이크로폰 디노이징을 통합한 솔루션을 적용하는 단계; 및

사용자가 휴대 전화를 비정상적으로 홀딩하고 있다고 판단한 때에는, 음성 향상을 수행하기 위해 단일 마이크로폰 디노이징만의 솔루션을 적용하는 단계를 포함하는 음성 향상 방법을 개시하고 있다.

본 발명은, 메인 마이크로폰이 휴대 전화의 밑바닥에 설치되고 하나 이상의 보조 마이크로폰이 메인 마이크로폰으로부터 멀리 떨어진 위치에서 휴대 전화 내에 설치되는 휴대 전화를 위한 음성 향상 장치로서, 상기 장치는 검출 유닛 및 디노이징 유닛을 포함하되,

검출 유닛은, 메인 마이크로폰 및 보조 마이크로폰의 양쪽으로부터의 신호에 따라 사용자가 이야기하고 있는지 응답하고 있는지를 판단하고; 사용자가 이야기하고 있다고 판단한 때에는, 사용자의 휴대 전화 홀딩 상태, 즉 사용자가 휴대 전화를 정상적으로 또는 비정상적으로 홀딩하고 있는지를 더 검출하고, 검출의 결과를 디노이징 유닛에 통지하며; 사용자가 응답하고 있다고 판단한 때에는, 더 이상의 연산(operation)을 하지 않고 디노이징 유닛이 이전의 음성 향상 솔루션을 그대로 유지하는 것을 허용하도록 구성되어 있고;

디노이징 유닛은, 사용자가 휴대 전화를 정상적으로 홀딩하고 있음을 지시하는 통지를 수신한 때에는, 음성 향상을 수행하기 위해 다중 마이크로폰 디노이징 및 단일 마이크로폰 디노이징을 통합한 솔루션을 적용하고; 사용자가 휴대 전화를 비정상적으로 홀딩하고 있음을 지시하는 통지를 수신한 때에는, 음성 향상을 수행하기 위해 단일 마이크로폰 디노이징만의 솔루션을 적용하도록 구성되어 있다.

장치에 있어서, 검출 유닛은 근거리장(near-field) 음성 검출 모듈 및 홀딩 상태 검출 모듈을 포함하고; 디노이징 유닛은 다중 마이크로폰 디노이징 모듈 및 단일 마이크로폰 디노이징 모듈을 포함하되;

근거리장 음성 검출 모듈은, 메인 마이크로폰 및 보조 마이크로폰의 양쪽으로부터 신호를 수신하고, 메인 마이크로폰 및 보조 마이크로폰의 양쪽으로부터의 신호에 따라 사용자가 이야기하고 있는지 응답하고 있는지를 판단하며, 사용자가 이야기하고 있다고 판단한 때에는 홀딩 상태 검출 모듈로 통지를 보내며, 사용자가 응답하고 있다고 판단한 때에는 홀딩 상태 검출 모듈로 통지를 보내지 않도록 구성되어 있고;

홀딩 상태 검출 모듈은, 메인 마이크로폰 및 보조 마이크로폰의 양쪽으로부터 신호를 수신하고, 근거리장 음성 검출 모듈로부터 통지를 수신한 때에, 사용자의 휴대 전화 홀딩 상태, 즉 사용자가 휴대 전화를 정상적으로 또는 비정상적으로 홀딩하고 있는지를 검출하며, 사용자가 휴대 전화를 정상적으로 홀딩하고 있음을 검출한 때에는 메인 마이크로폰 및 보조 마이크로폰의 양쪽으로부터의 신호를 다중 마이크로폰 디노이징 모듈로 보내고, 사용자가 휴대 전화를 비정상적으로 홀딩하고 있음을 검출한 때에는 메인 마이크로폰으로부터의 신호를 단일 마이크로폰 디노이징 모듈로 보내도록 구성되어 있으며;

다중 마이크로폰 디노이징 모듈은, 수신된 신호에 대해 다중 마이크로폰 디노이징을 수행하고, 그 다음에 디노이징된 신호를 단일 마이크로폰 디노이징 모듈로 보내도록 구성되어 있고;

단일 마이크로폰 디노이징 모듈은, 수신된 신호에 대해 단일 마이크로폰 디노이징을 수행하고 디노이징된 신호를 출력하도록 구성되어 있다.

결론적으로, 본 발명에 의해 제공되는 방법 및 장치에 의해, 사용자가 전화로 이야기하고 있을 때 사용자의 휴대 전화 홀딩 상태가 검출됨으로써, 서로 다른 디노이징 솔루션이 휴대 전화를 홀딩하고 있는 사용자의 상태에 따라 적용될 것이다. 사용자가 휴대 전화를 정상적으로 홀딩하고 있을 때에는, 다중 마이크로폰 디노이징 및 단일 마이크로폰 디노이징을 통합한 솔루션이 정상 잡음과 비정상 잡음의 양쪽을 효과적으로 억제하기 위해 적용될 것이고; 사용자가 휴대 전화를 비정상적으로 홀딩하고 있을 때에는, 단일 마이크로폰 디노이징만이 장상 잡음을 억제하기 위해 적용될 것이다. 다중 마이크로폰 디노이징에 의한 음성의 왜곡이 회피되고, 음성 품질이 보장된다.

도 1은 2중 마이크로폰 휴대 전화의 마이크로폰의 설치 위치의 개략적인 다이어그램이다.
도 2는 사용자가 휴대 전화를 정상적으로 홀딩하고 있을 때의 상태를 나타내는 개략적인 다이어그램이다.
도 3은 사용자가 휴대 전화를 비정상적으로 홀딩하고 있을 때의 상태를 나타내는 개략적인 다이어그램이다.
도 4는 본 발명의 실시예에 따른 휴대 전화를 위한 음성 향상 장치의 구조적인 다이어그램이다.

본 발명은 휴대 전화를 위한 음성 향상 기술에 관한 것이다. 본 발명은, 사용자가 휴대 전화를 정확히 홀딩하고 있을 때 최적의 디노이징 효과가 보장될 수 있도록 사용자가 휴대 전화를 정상적으로 홀딩하고 있을 때 다중 마이크로폰 디노이징을 단일 마이크로폰 디노이징과 통합한 솔루션이 적용되고; 사용자가 휴대 전화를 비정상적으로 홀딩하고 있을 때 정상 잡음만이 억제되고 다중 마이크로폰 디노이징에 의해 야기되는 음성의 왜곡이 회피되도록 단일 마이크로폰 디노이징이 적용되는 휴대 전화 홀딩 상태 검출 기술을 적용한다. 즉, 본 발명에서는, 서로 다른 디노이징 기술이 서로 다른 휴대 전화 홀딩 상태에 대해 적용될 수 있도록, 사용자의 휴대 전화 홀딩 상태에 대한 검출이 다중 마이크로폰 디노이징에 기초해서 추가되고, 이로써 음성 왜곡을 회피하면서 최적의 디노이징이 보장된다.

본 발명의 기술적인 솔루션은, 이하와 같이 상세히 분석되고 설명될 것이다.

소음으로 찬 환경(noisy environment)에서 휴대 전화에 의해 호출이 이루어진 때에는, 사용자는 종종 다음과 같은 상황, 즉 그/그녀의 자신의 음성이 주위의 잡음에 의해 다운(down)됨으로써 그/그녀와 이야기하고 있는 사람에 의해 분명히 들릴 수 없는 상황을 가진다. 본 발명에 의해 개시된 것은, 호출이 소음으로 찬 환경에서 조차 완만하게 그리고 분명하게 이루어질 수 있도록 잡음을 제거하고 분명한 음성을 남기기 위한 다중 마이크로폰 디노이징 기술이다. 여기에서 다수의 마이크로폰은 2개 이상의 마이크로폰을 포함한다. 그러므로, 이 기술은 2개 이상의 마이크로폰이 있는 휴대 전화에 적합하다. 도 1은, 메인 마이크로폰(1)이 휴대 전화의 밑바닥에 실장(mount)되는 반면에 보조 마이크로폰(2)이 휴대 전화의 이면 측의 상부(upper part)에 실장되는 2중 마이크로폰 휴대 전화의 마이크로폰의 설치 위치의 개략적인 다이어그램이다. 다른 상황에서는, 하나의 메인 마이크로폰만이 휴대 전화의 밑바닥에 실장되는 반면에 나머지 다수의 보조 마이크로폰이 메인 마이크로폰으로부터 멀리 떨어진 위치, 예를 들어 휴대 전화의 이면 측의 꼭대기 또는 상부에서 휴대 전화에 실장되는 3개 이상의 마이크로폰이 있을 수 있다.

사용자가 휴대 전화로 이야기할 때에는 일반적으로 2가지의 홀딩 방법이 있다:

1. 정상적으로 홀딩: 휴대 전화의 밑바닥의 메인 마이크로폰(1)이 도 2에 나타낸 바와 같이 사용자의 입 근방에 유지된다. 이 경우, 본 발명에 있어서는 다중 마이크로폰 디노이징을 단일 마이크로폰 디노이징과 통합한 솔루션에 의해, 음성 품질을 왜곡시키는 일없이 잡음을 비교적 좋게 제거할 수 있다.

2. 비정상적으로 홀딩: 휴대 전화의 밑바닥의 메인 마이크로폰(1)이 도 3에 나타낸 바와 같이 사용자의 입으로부터 멀리 떨어져서 유지된다. 이 경우, 다중 마이크로폰 디노이징 기술이 적용되면, 음성은 잡음을 제거하는 동안에 잡음으로서 제거될 것이다. 그러므로, 본 발명에 있어서는 단일 마이크로폰 디노이징만을 적용한다.

본 발명의 기술적인 솔루션은, 주로 2개의 유닛: 검출 유닛 및 디노이징 유닛을 포함하고 있다. 검출 유닛은 현재의 호출 상태를 검출하기 위해 사용된다. 이들 상태는, 사용자가 이야기하고 있거나 응답하고 있는 상태, 및 사용자가 휴대 전화를 정상적으로 또는 비정상적으로 홀딩하고 있는 상태를 포함하되, 사용자가 이야기하고 있거나 응답하고 있는 상태가 근거리장 음성 검출 모듈에 의해 검출되고; 사용자의 휴대 전화 홀딩 상태가 홀딩 상태 검출 모듈에 의해 더 검출된다.

근거리장 음성 검출 모듈의 원리는 다음과 같다. 즉, 사용자가 정상적으로 또는 비정상적으로 홀딩하는 것에 관계없이 휴대 전화를 사용할 때, 사용자의 입으로부터 휴대 전화의 마이크로폰까지의 거리는 20㎝ 이하로 될 것이고, 입은 근거리장 음원(near-field sound source)으로 간주될 수 있다. 주위의 잡음원(noise source)은 일반적으로 휴대 전화로부터 50㎝ 이상 떨어져 있고, 모두 원거리장 음원(far-field sound source)으로 간주될 수 있다. 그러므로, 음원의 거리를 검출함으로써, 사용자가 이야기하고 있는지 사용자가 주위의 잡음과만 이야기하고 있지 않은지를 판단할 수 있다. 근거리장 음원의 경우는, 2개의 마이크로폰에 의해 수신된 신호 사이의 상관관계(correlation)가 높다. 원거리장 음원의 경우는, 2개의 마이크로폰에 의해 수신된 신호 사이의 상관관계가 낮다. 그러므로, 메인 마이크로폰과 보조 마이크로폰으로부터의 신호 사이의 상관값(correlation value)을 계산함으로써, 신호가 사용자의 음성인지 주위의 잡음인지를 판단할 수 있다. 다음에는 특정의 검출 단계에 대해 설명한다:

1. 메인 마이크로폰으로부터의 신호와 보조 마이크로폰으로부터의 신호 사이의 상관값이 계산된다. 즉, 메인 마이크로폰으로부터의 신호와 보조 마이크로폰의 각각으로부터의 신호 사이의 상관값이 계산되고 평균 상관값을 얻기 위해 상관값이 평균화되거나, 또는 메인 마이크로폰으로부터의 신호와 보조 마이크로폰의 하나로부터의 신호 사이의 상관값이 계산된다.

2. 상관값이 설정된 임계값보다 작거나 같으면 신호가 원거리장 잡음 신호이고 사용자가 응답하고 있다고 판단하며, 상관값이 설정된 임계값보다 크면 신호가 근거리장 음성 신호이고 사용자가 이야기하고 있다고 판단한다.

사용자가 이야기하고 있으면, 사용자의 홀딩 상태가 더 검출된다. 본 발명에서는, 사용자의 홀딩 상태를 검출하기 위한 다음과 같은 2가지 방법이 있다:

첫 번째 방법: 다수의 마이크로폰에 의해 음성의 방향을 검출하고, 음성의 방향을 통해 사용자의 홀딩 상태를 판단하며, 음성이 휴대 전화의 밑바닥으로부터 나오면 사용자가 휴대 전화를 정상적으로 홀딩하고 있다고 결정하고, 음성이 휴대 전화의 측면 또는 꼭대기로부터 나오면 사용자가 휴대 전화를 비정상적으로 홀딩하고 있다고 결정하는 방법; 및

두 번째 방법: 다중 마이크로폰으로부터의 신호의 에너지 사이의 차이(difference)에 의해 사용자의 홀딩 상태를 판단하되, 메인 마이크로폰으로부터의 신호의 에너지와 보조 마이크로폰으로부터의 신호의 에너지의 비율이 설정 임계값보다 크면 사용자가 휴대 전화를 정상적으로 홀딩하고 있다고 결정하고, 에너지 비율이 설정 임계값보다 작거나 같으면 사용자가 휴대 전화를 비정상적으로 홀딩하고 있다고 결정하는 방법.

검출 유닛에 의한 판단 후에, 디노이징 유닛이 서로 다른 상태에 따라 대응하는 디노이징 솔루션을 적용한다:

1. 사용자가 정상적으로 홀딩하고 있으면 다중 마이크로폰 디노이징 모드가 적용된다. 즉, 다수의 잡음이 다중 마이크로폰 디노이징에 의해 먼저 억제되고, 그 다음에 나머지 정상 잡음이 단일 마이크로폰 디노이징에 의해 억제됨으로써, 최적의 디노이징이 얻어진다.

2. 사용자가 비정상적으로 홀딩하고 있으면 단일 마이크로폰 디노이징 모드가 적용된다. 즉, 다중 마이크로폰 디노이징 대신에, 정상 잡음이 단일 마이크로폰 디노이징에 의해서만 억제됨으로써, 최적의 음성 품질이 보장된다.

3. 사용자가 응답하고 있을 때에는, 디노이징 모드가 그대로 유지된다. 즉, 이전의 음성 향상 처리 모드가 그대로 유지된다. 사용자가 이야기하고 있지 않기 때문에, 사용자의 홀딩 상태를 결정할 수 없다. 이전에 검출된 홀딩 상태는 변경되지 않는 것으로 간주될 것이고, 이로써 디노이징 모드가 그대로 유지된다.

본 발명에 의해, 음성 신호를 왜곡하는 일없이 잡음이 효과적으로 제거되도록, 사용자가 휴대 전화를 사용하고 있는 홀딩 상태에 따라 서로 다른 디노이징 모드가 적용될 수 있다.

그 목적을 달성하기 위해, 본 발명의 기술적인 솔루션 및 이점이 더 명확해져, 본 발명에 의해 제공되는 휴대 전화를 위한 음성 향상 장치가 첨부도면을 참조하여 이하에 상세히 설명되는 바와 같이 설명될 것이다.

예로서 도 1에 나타낸 바와 같이 메인 마이크로폰(1)이 휴대 전화의 밑바닥에 배치되고 보조 마이크로폰(2)이 휴대 전화의 이면 측의 상부에 메인 마이크로폰(1)으로부터 멀리 떨어져서 배치되는 2개의 마이크로폰을 가진 휴대 전화를 취하는 것으로 한다. 도 2에 나타낸 바와 같이, 사용자가 휴대 전화를 정상적으로 홀딩하고 있을 때, 메인 마이크로폰(1)으로부터 입까지의 거리는 5㎝ 이하이고, 보조 마이크로폰(2)으로부터 입까지의 거리는 15㎝∼20㎝이다. 도 3에 나타낸 바와 같이, 사용자가 휴대 전화를 비정상적으로 홀딩하고 있을 때, 메인 마이크로폰(1)으로부터 입까지의 거리는 10㎝ 이상이고, 보조 마이크로폰(2)으로부터 입까지의 거리는 15㎝∼20㎝이다. 그러므로, 사용자가 휴대 전화를 정상적으로 홀딩하고 있을 때는, 메인 마이크로폰(1)에 의해 수신된 음성 에너지와 보조 마이크로폰(2)에 의해 수신된 음성 에너지 사이의 차이는 9dB 이상이고; 사용자가 휴대 전화를 비정상적으로 홀딩하고 있을 때는, 메인 마이크로폰(1)에 의해 수신된 음성 에너지와 보조 마이크로폰(2)에 의해 수신된 음성 에너지 사이의 차이는 3dB 이내이다. 어느 홀딩 방식이든지 메인 마이크로폰(1)에 의해 수신된 음성 에너지와 보조 마이크로폰(2)에 의해 수신된 음성 에너지 사이의 차이는 3dB 이내이다. 그러므로, 사용자가 휴대 전화를 정상적으로 홀딩하고 있을 때는, 음성은 2개의 마이크로폰 사이의 에너지의 차이에 의해 잡음과 구별될 수 있고, 잡음은 음성을 왜곡하는 일없이 다중 마이크로폰 디노이징에 의해 효과적으로 억제될 수 있다. 그렇지만, 사용자가 휴대 전화를 비정상적으로 홀딩하고 있을 때는, 음성은 2개의 마이크로폰 사이의 에너지의 차이에 의해 잡음과 구별될 수 없고, 음성은 다중 마이크로폰 디노이징이 적용되면 왜곡될 것이다. 이 경우에는, 음성을 보호하기 위하여, 단일 마이크로폰 디노이징만이 정상 잡음을 억제하는데 적용될 수 있다.

본 발명의 실시예에서는, 택일적으로, 하나의 메인 마이크로폰(1)이 휴대 전화의 밑바닥에 배치될 수 있고, 2개 이상의 보조 마이크로폰(2)이 예를 들어 휴대 전화의 이면 측의 꼭대기 또는 상부에 메인 마이크로폰의 설치 위치로부터 멀리 떨어져서 배치될 수 있다. 다수의 보조 마이크로폰은 휴대 전화의 이면 측의 꼭대기 또는 상부에 서로 아주 근접하여 배치될 수 있다.

이 실시예에서는, P개(P는 1 이상의 자연수)의 마이크로폰이 있는바, 메인 마이크로폰에 의해 수신된 시간 도메인(time domain) 신호(s₁) 및 다수의 보조 마이크로폰에 의해 수신된 시간 도메인 신호(s₂, …, s_p)가 먼저 고속 푸리에 변환(Fast Fourier Transform, FFT)에 의해 주파수 도메인(frequency domain) 신호(S₁, …, S_P)로 변환된다. 주파수 도메인 신호는 근거리장 음성 검출 모듈로 입력된다. 근거리장 음성 검출 모듈은, 메인 마이크로폰으로부터의 신호와 보조 마이크로폰으로부터의 신호 사이의 상관관계에 의해 입력 신호가 근거리장 신호인지 원거리장 신호인지를 판단한다. 근거리장 음성 검출 모듈이 입력 신호가 근거리장 신호라고 검출한 경우에는, 주파수 도메인 신호는 홀딩 상태 검출 모듈로 입력된다. 홀딩 상태 검출 모듈은 메인 마이크로폰으로부터의 신호의 총 에너지와 보조 마이크로폰으로부터의 신호의 총 에너지 사이의 차이에 의해 사용자가 휴대 전화를 정상적으로 또는 비정상적으로 홀딩하고 있는지를 판단하는바, 사용자가 휴대 전화를 정상적으로 홀딩하고 있다고 판단한 경우는, P개의 마이크로폰으로부터의 주파수 도메인 신호의 P개의 경로(path)는 디노이징을 위해 그리고 그 다음에 단일 마이크로폰 디노이징을 위해 다중 마이크로폰 디노이징 모듈로 입력되고, 디노이징된 주파수 도메인 신호의 경로가 최종적으로 출력된다. 사용자가 휴대 전화를 비정상적으로 홀딩하고 있는 경우는, 메인 마이크로폰으로부터의 주파수 도메인 신호(S₁)의 하나의 경로만이 디노이징을 위해 단일 마이크로폰 디노이징 모듈로 입력되고, 디노이징된 주파수 도메인 신호의 하나의 경로가 출력된다. 근거리장 음성 검출 모듈이 입력 신호가 원거리장 잡음 신호라고 검출한 경우에는, 홀딩 상태는 이 때에 결정될 수 없고, 그에 따라서 현재의 디노이징 모드가 그대로 유지된다. 디노이징된 주파수 도메인 신호는 역고속 푸리에 변환(Inverse Fast Fourier Transform, IFFT)에 의해 시간 도메인 신호로 변환되고, 그 다음에 출력된다. 상세한 처리 구조가 도 4에 나타내어진다.

도 4는 본 발명의 실시예에 따른 휴대 전화를 위한 음성 향상 장치의 구조 다이어그램이다. 도 4를 참조하면, 음성 향상 장치는 고속 푸리에 변환 모듈(41), 검출 유닛(42), 디노이징 유닛(43) 및 역고속 푸리에 변환 모듈(44)을 포함하되,

고속 푸리에 변환 모듈(41)은, 메인 마이크로폰 및 보조 마이크로폰의 양쪽으로부터의 신호에 대해 각각 고속 푸리에 변환을 수행하고 그 다음에 변환된 신호를 검출 모듈로 보내도록 구성되어 있고;

검출 유닛(42)은, 메인 마이크로폰 및 보조 마이크로폰의 양쪽으로부터의 신호에 따라 사용자가 이야기하고 있는지 응답하고 있는지를 판단하되; 사용자가 이야기하고 있다고 판단한 때에는, 사용자의 휴대 전화 홀딩 상태, 즉 사용자가 휴대 전화를 정상적으로 또는 비정상적으로 홀딩하고 있는지를 더 검출하고, 검출의 결과를 디노이징 유닛(43)에 통지하며; 사용자가 응답하고 있다고 판단한 때에는, 더 이상의 연산을 하지 않고 디노이징 유닛(43)이 이전의 음성 향상 솔루션을 그대로 유지하는 것을 허용하도록 구성되어 있으며;

디노이징 유닛(43)은, 사용자가 휴대 전화를 정상적으로 홀딩하고 있음을 지시하는 통지를 수신한 때에는, 음성 향상을 수행하기 위해 다중 마이크로폰 디노이징 및 단일 마이크로폰 디노이징을 통합한 솔루션을 적용하고; 사용자가 휴대 전화를 비정상적으로 홀딩하고 있음을 지시하는 통지를 수신한 때에는, 음성 향상을 수행하기 위해 단일 마이크로폰 디노이징만의 솔루션을 적용하도록 구성되어 있고;

역고속 푸리에 변환 모듈(44)은, 디노이징된 신호에 대해 역고속 푸리에 변환을 수행하고, 그 다음에 변환된 신호를 출력하도록 구성되어 있다.

도 4에 나타낸 바와 같이, 검출 유닛(42)은 근거리장 음성 검출 모듈(421) 및 홀딩 상태 검출 모듈(422)을 포함하고; 디노이징 유닛(43)은 다중 마이크로폰 디노이징 모듈(431) 및 단일 마이크로폰 디노이징 모듈(432)을 포함하되;

근거리장 음성 검출 모듈(421)은, 홀딩 상태 검출 모듈(422)이 아직 홀딩 상태 판단의 이전의 결과에 따라 대응하는 신호를 디노이징 유닛(43)으로 입력하고, 디노이징 유닛(43)이 아직 이전의 디노이징 모드를 그대로 유지하도록, 메인 마이크로폰 및 보조 마이크로폰의 양쪽으로부터 신호를 수신하고, 메인 마이크로폰 및 보조 마이크로폰의 양쪽으로부터의 신호에 따라 사용자가 이야기하고 있는지 응답하고 있는지를 판단하며, 사용자가 이야기하고 있다고 판단한 때에 홀딩 상태 검출 모듈(422)로 통지를 보내며, 사용자가 응답하고 있다고 판단한 때에 홀딩 상태 검출 모듈(422)로 통지를 보내지 않도록 구성되어 있고;

홀딩 상태 검출 모듈(422)은, 메인 마이크로폰 및 보조 마이크로폰의 양쪽으로부터 신호를 수신하고, 근거리장 음성 검출 모듈(421)로부터 통지를 수신한 때에, 사용자의 휴대 전화 홀딩 상태, 즉 사용자가 휴대 전화를 정상적으로 또는 비정상적으로 홀딩하고 있는지를 검출하며, 사용자가 휴대 전화를 정상적으로 홀딩하고 있음을 검출한 때에 메인 마이크로폰 및 보조 마이크로폰의 양쪽으로부터의 신호를 다중 마이크로폰 디노이징 모듈(431)로 보내고, 사용자가 휴대 전화를 비정상적으로 홀딩하고 있음을 검출한 때에 메인 마이크로폰으로부터의 신호를 단일 마이크로폰 디노이징 모듈(432)로 보내도록 구성되어 있으며;

다중 마이크로폰 디노이징 모듈(431)은, 수신된 신호에 대해 다중 마이크로폰 디노이징을 수행하고, 그 다음에 디노이징된 신호를 단일 마이크로폰 디노이징 모듈(432)로 보내도록 구성되어 있고;

단일 마이크로폰 디노이징 모듈(432)은, 수신된 신호에 대해 단일 마이크로폰 디노이징을 수행하고 디노이징된 신호를 출력하도록 구성되어 있다.

각 모듈의 특정의 처리 프로세스는 이하에 상세히 설명되는 바와 같이 설명될 것이다.

고속 푸리에 변환 모듈(41): 먼저 프레이밍(framing, 프레임화)이 S_i(i=1, …, P)에 대해 수행되고, 각 프레임에는 N개의 샘플링점(sampling point)이 있으며, m번째 프레임의 신호는 d_i(m,n)(여기서 0≤n≤N, 및 m≥0)이다. M개의 샘플링점의 에일리어싱(aliasing)은 2개의 인접한 프레임에서 나타나는바, 즉 현재의 프레임의 처음의 M개의 샘플링점은 이전 프레임의 최종의 M개의 샘플링점이고, 각 프레임에는 L=N-M개의 샘플링점만의 데이터가 있다. 그러므로, m번째 프레임 데이터는 d_i(m,n)=S_i(m*L+n)이다. 예를 들어, 이 실시예에서는, 프레임 길이 N=256인바, M=128의 에일리어싱, 즉 50%의 에일리어싱이라고 가정한다. 프레이밍 후에 윈도우 함수 win(n)에 의해 각 프레임의 신호에 대해 윈도잉(windowing)이 수행되고, 윈도잉된 데이터는 w_i(m,n)=win(n)*d_i(m,n)이다. 윈도우 함수는 해밍 윈도우(Hamming window), 해닝 윈도우(Hanning window) 또는 다른 윈도우 함수일 수 있다. 이 실시예에서는, 윈도우 함수는 해닝 윈도우이다:

윈도잉된 데이터는 최종적으로 FFT에 의해 주파수 도메인으로 변환된다:

여기서, 0≤k≤N/2는 주파수 서브밴드(subband)이고, A_i(m,k)는 진폭이며, φ_i(m,k)는 위상이다.

근거리장 음성 검출 모듈(421): 근거리장 음성 검출 모듈(421)은 메인 마이크로폰으로부터의 신호와 보조 마이크로폰의 각각으로부터의 신호 사이의 상관값을 계산하고, 상관값이 제1 임계값보다 크면 사용자가 이야기하고 있다고 판단하며, 상관값이 제1 임계값보다 작거나 같으면 사용자가 응답하고 있다고 판단하도록 구성되어 있다.

하나의 보조 마이크로폰만이 있는 경우에는, 메인 마이크로폰으로부터의 신호와 보조 마이크로폰으로부터의 신호 사이의 상관값이 직접 계산될 수 있다. 2개 이상의 보조 마이크로폰이 있는 경우에는, 근거리장 음성 검출 모듈(421)은 메인 마이크로폰으로부터의 신호와 보조 마이크로폰의 각각으로부터의 신호 사이의 상관값을 계산하고 그 다음에 평균 상관값을 얻기 위해 상관값을 평균하거나, 또는 메인 마이크로폰으로부터의 신호와 보조 마이크로폰의 하나로부터의 신호 사이의 상관값을 계산할 수 있다.

구체적으로는, 이 실시예에서는, 근거리장 음성 검출 모듈(421)은 각각의 주파수 서브밴드에 있어서, 메인 마이크로폰으로부터의 신호(S₁)와 하나의 보조 마이크로폰으로부터의 S₂와 같은 신호의 상관 함수 Coh₁₂(m,k)를 계산한다:

여기서, conj(·)은 공액 연산(conjugate operation)이고, abs(·)는 모듈로 연산(modulus operation)을 표시한다. 그 다음에, 모든 주파수 밴드의 상관 함수의 평균 Mcoh₁₂(m)이 계산된다:

마찬가지로, 메인 마이크로폰으로부터의 신호(S₁)와 다른 보조 마이크로폰으로부터의 S₃와 같은 신호 사이의 상관값 Mcoh₁₃(m) 등등이 계산될 수 있다. 최종적으로, 최종 상관값 MCoh(m)를 얻기 위해 메인 마이크로폰으로부터의 신호와 보조 마이크로폰으로부터의 신호 사이의 상관값이 평균화된다.

MCoh(m)이 커질수록, 음원으로부터 2개의 마이크로폰까지의 거리가 작아진다. 소리가 사용자의 음성 또는 주위 잡음(ambient noise)인지 여부를 더 결정하도록, MCoh(m)을 설정 임계값 Coh_th와 비교함으로써 소리가 근거리장 음원으로부터 나오는지 또는 원거리장 음원으로부터 나오는지를 결정한다. 예를 들어, Coh_th는 이 실시예에서는 0.5로 설정된다. MCoh(m)>Coh_th이면, 상관관계가 충분히 크고, 신호는 근거리장으로부터 나오며, 소리는 사용자의 음성이고, 사용자가 이야기하고 있음을 가리킨다. MCoh(m)≤Coh_th이면, 상관관계가 비교적 작고, 신호는 원거리장으로부터 나오며, 소리는 주위 잡음이고, 사용자가 응답하고 있음을 가리킨다.

홀딩 상태 검출 모듈(422): 홀딩 상태 검출 모듈(422)은 메인 마이크로폰으로부터의 신호의 에너지와 보조 마이크로폰으로부터의 신호의 에너지의 비율을 계산하고, 이 비율이 제2 임계값보다 크면 사용자가 휴대 전화를 정상적으로 홀딩하고 있다고 결정하며, 이 비율이 제2 임계값보다 작거나 같으면 사용자가 휴대 전화를 비정상적으로 홀딩하고 있다고 결정하도록 구성되어 있다.

구체적으로는, 홀딩 상태 검출 모듈(422)은 메인 마이크로폰으로부터의 신호(S₁)의 총 에너지(P₁(m))와 하나의 보조 마이크로폰으로부터의 S₂와 같은 신호의 총 에너지(P₂(m))를 계산한다:

그 다음에, 2개의 총 에너지의 비율

이 계산된다. 마찬가지 방법으로, 메인 마이크로폰으로부터의 신호(S₁)의 총 에너지와 또 다른 보조 마이크로폰으로부터의 S₃와 같은 신호의 총 에너지의 비율

등등이 계산될 수 있다. 최종적으로, 이들 총 에너지 비율이 최종 비율 Pr(m)을 얻기 위해 평균화된다. 본 발명의 다른 실시예에서는, 보조 마이크로폰으로부터의 신호의 에너지가 먼저 평균화될 수 있고, 그 다음에 메인 마이크로폰으로부터의 신호의 에너지를 평균에 의해 나눔으로써 비율 Pr(m)이 얻어진다.

Pr(m)이 커질수록 메인 마이크로폰이 사람의 입에 더 가까워지고 있음을 가리킨다. 반면에, Pr(m)이 작아질수록 메인 마이크로폰이 사람의 입으로부터 멀리 떨어지고 있음을 가리킨다. 휴대 전화 홀딩 상태는 Pr(m)을 임계값 Pr_th와 비교함으로써 결정된다. 예를 들어, Pr_th는 이 실시예에서는 2로 설정되는바, Pr(m)≥Pr_th이면, 사용자가 휴대 전화를 정상적으로 홀딩하고 있음을 가리킨다. Pr(m)≤Pr_th이면, 사용자가 휴대 전화를 비정상적으로 홀딩하고 있음을 가리킨다.

본 발명의 다른 실시예에서는, 홀딩 상태 검출 모듈(422)은 또한 다수의 마이크로폰에 의해 음성의 방향을 검출하고, 음성이 휴대 전화의 밑바닥으로부터 나오면 사용자가 휴대 전화를 정상적으로 홀딩하고 있다고 결정하며, 음성이 휴대 전화의 측면 또는 꼭대기로부터 나오면 사용자가 휴대 전화를 비정상적으로 홀딩하고 있다고 결정할 수 있다.

다중 마이크로폰 디노이징 모듈(431): 다중 마이크로폰 디노이징 모듈(431)은, 주파수 서브밴드의 각각에 있어서, 주파수 서브밴드에서 메인 마이크로폰으로부터의 신호의 에너지와 보조 마이크로폰으로부터의 신호의 에너지의 비율을 계산하고, 이 에너지의 비율에 따라 주파수 서브밴드에서 잡음 억제 함수의 값을 결정하며; 억제된 비정상 잡음이 있는 신호를 얻기 위해 메인 마이크로폰으로부터의 신호에 잡음 억제 함수를 곱하고, 억제된 비정상 잡음이 있는 신호를 단일 마이크로폰 디노이징 모듈(432)로 출력하도록 구성되어 있다.

구체적으로는, 다중 마이크로폰 디노이징 모듈(431)은, 주파수 서브밴드의 각각에서 메인 마이크로폰으로부터의 신호(S₁)의 에너지와 하나의 보조 마이크로폰으로부터의 S₂와 같은 신호의 에너지의 비율

을 계산한다. 마찬가지 방법로, 메인 마이크로폰으로부터의 신호(S₁)의 총 에너지와 다른 보조 마이크로폰으로부터의 S₃와 같은 신호의 총 에너지의 비율

이 계산될 수 있다. 이러한 유추에 의해, 메인 마이크로폰으로부터의 신호(S₁)의 총 에너지와 최종의 보조 마이크로폰으로부터의 S_P와 같은 신호의 총 에너지의 비율

이 계산될 수 있다. 최종적으로, 이들 총 에너지 비율이 최종 비율 Pr(m)을 얻기 위해 평균화된다. 다른 실시예에서는, 보조 마이크로폰으로부터의 신호의 에너지가 가산되어 먼저 평균화될 수 있고, 그 다음에 메인 마이크로폰으로부터의 신호의 에너지가 비율 Pb(m,k)를 얻기 위해 평균에 의해 나누어진다.

Pb(m,k)가 커질수록 k번째 주파수 서브밴드의 신호 성분이 음성일 확률이 더 커지고 있음을 가리킨다. 반면에, Pb(m,k)이 작아질수록 k번째 주파수 서브밴드의 신호 성분이 잡음일 확률이 더 작아지고 있음을 가리킨다. 이 실시예의 솔루션에 있어서는, Pb(m,k)를 에너지 비율 상한 Pb_U(k) 및 에너지 비율 하한 Pb_L(k)과 비교함으로써, k번째 주파수 서브밴드의 신호 성분이 음성일 확률이 판단된다. 예를 들어, 이 실시예의 솔루션에서는, Pb_U(k)는 4로 설정되고, Pb_L(k)는 2로 설정된다. Pb(m,k)≥Pb_U(k)이면, 주파수 서브밴드 내의 신호 성분이 음성일 확률이 1이고, 잡음 억제 함수 G_d(m,k)=1이며; Pb(m,k)≤Pb_L(k)이면, 주파수 서브밴드 내의 신호 성분이 음성일 확률이 0이고, 전부 잡음이며, G_d(m,k)=RL이다. RL<1은 가장 낮은 디노이징량을 결정한다. Pb_U(k)≥Pb(m,k)≥Pb_L(k)이면, 주파수 서브밴드 내의 신호 성분에는 음성 및 잡음이 있고, 연산(operation)이 수행되지 않으며, RL<G_d(m,k)<1이다. 최종적으로, G_d(m,k)*S₁(m,k) 연산에 의해, 각 주파수 서브밴드 내의 잡음 성분이 디노이징된 신호 S_d(m,k)를 얻기 위해 억제된다.

단일 마이크로폰 디노이징 모듈(432): 단일 마이크로폰 디노이징 모듈(432)은, 주파수 서브밴드의 각각에 있어서, 이동 평균 알고리즘에 의해 주파수 서브밴드에서 억제된 비정상 잡음이 있는 신호의 정상 잡음 에너지를 계산하고, 주파수 서브밴드에서 음성 성분 비례 함수의 값을 더 계산하며; 억제된 정상 잡음이 있는 신호를 얻기 위해 수신된 신호에 음성 성분 비례 함수를 곱하고, 그 다음에 억제된 정상 잡음이 있는 신호를 역고속 푸리에 변환 모듈(44)로 출력하도록 구성되어 있다.

이 실시예에서는, 다중 마이크로폰 디노이징 모듈(432)의 입력은 S_si(m,k)로 설정된다. 이 입력은 디노이징 모드에 따라 달라진다. 다중 마이크로폰 디노이징 모드의 경우에는, S_si(m,k)는 디노이징 후의 다중 마이크로폰 디노이징 모듈(431)의 출력 Sd(m,k)이고; 단일 마이크로폰 디노이징 모드의 경우에는, S_si(m,k)는 메인 마이크로폰으로부터의 신호 S₁(m,k)이다. 이 모듈은 이동 평균 알고리즘에 의해 각 주파수 밴드에서 S_si(m,k)의 정상 잡음의 에너지 P_n(m,k)를 계산한다:

여기서 α는 평활 파라미터(smoothing parameter)이다. 예를 들어, 이 실시예에서는 α=0.98이다. P_s(m,k)는 이 모듈의 입력 신호의 에너지 스펙트럼이다:

정상 잡음의 에너지는 과도하게 변화하지 않을 것이기 때문에, 정상 잡음의 에너지는 느리고 평활한 평균화(slow smooth averaging)에 의해 예측될 수 있다. 그러므로, 각 주파수 서브밴드 내의 음성 성분의 비율은:

이다.

최종적으로, G_s(m,k)*S_si(m,k)에 의해, 각 음성 성분은 잡음이 억제된 주파수 도메인 신호 S_so(m,k)를 얻기 위해 유지된다.

역고속 푸리에 변환 모듈(44): 단일 마이크로폰 디노이징 모듈(432)의 출력 주파수 도메인 신호 S_so(m,k)는 최종의 디노이징된 출력 신호 S_o(m,n)을 얻기 위해 역고속 푸리에 변환(IFFT)에 의해 시간 도메인 신호로 변환된다:

이 실시예에서는, 근거리장 음성 검출 모듈(421)이 현재의 신호에만 잡음이 있음을 검출한 경우에는, 사용자는 이야기하는 대신에 응답하고 있고, 그래서 사용자의 홀딩 방식을 판단할 수 없으며, 현재 사용되는 디노이징 모드를 정확히 판단할 수 없다. 그러므로, 본 발명에서는, 이전에 검출된 홀딩 방식은 현재까지 바뀌지 않고, 원래의 디노이징 모드는 사용자가 다음번에 이야기할 때를 사용자의 홀딩 방식이 정확히 판단할 수 있을 때까지 유지된다.

결론적으로, 본 발명에 의해 제공되는 방법 및 장치에 의해, 서로 다른 디노이징 솔루션이 휴대 전화를 홀딩하고 있는 사용자의 상태에 따라 적용될 수 있도록, 사용자가 전화로 이야기하고 있을 때 사용자의 휴대 전화 홀딩 상태가 검출된다. 사용자가 휴대 전화를 정상적으로 홀딩하고 있을 때에는, 다중 마이크로폰 디노이징 및 단일 마이크로폰 디노이징을 통합한 솔루션이 정상 잡음과 비정상 잡음의 양쪽을 효과적으로 억제하기 위해 적용될 것이고; 사용자가 휴대 전화를 비정상적으로 홀딩하고 있을 때에는, 단일 마이크로폰 디노이징만이 장상 잡음을 억제하기 위해 적용될 것이다. 다중 마이크로폰 디노이징에 의한 음성의 왜곡이 회피되고, 음성 품질이 보장된다.

상기한 바와 같은 설명은 단지 본 발명의 바람직한 실시예를 설명하는 것일뿐이고, 본 발명의 보호 범위를 한정하려고 하는 것은 아니다. 본 발명의 정신 및 원리 내에서 이루어지는 모든 변형, 등가 치환 및 개선은 본 발명의 보호 범위에 해당되는 것이다.

Claims

메인 마이크로폰이 휴대 전화의 밑바닥에 설치되고 하나 이상의 보조 마이크로폰이 메인 마이크로폰으로부터 멀리 떨어진 위치에서 휴대 전화 내에 설치되는 휴대 전화를 위한 음성 향상 방법으로서, 상기 방법은
메인 마이크로폰 및 보조 마이크로폰의 양쪽으로부터의 신호에 따라 사용자가 이야기하고 있는지 응답하고 있는지를 판단하는 단계;
사용자가 이야기하고 있다고 판단한 때에는 사용자의 휴대 전화 홀딩 상태, 즉 사용자가 휴대 전화를 정상적으로 또는 비정상적으로 홀딩하고 있는지를 더 검출하고, 사용자가 응답하고 있다고 판단한 때에는 이전의 음성 향상 솔루션을 그대로 유지하는 단계;
사용자가 휴대 전화를 정상적으로 홀딩하고 있다고 판단한 때에는, 음성 향상을 수행하기 위해 다중 마이크로폰 디노이징 및 단일 마이크로폰 디노이징을 통합한 솔루션을 적용하는 단계; 및
사용자가 휴대 전화를 비정상적으로 홀딩하고 있다고 판단한 때에는, 음성 향상을 수행하기 위해 단일 마이크로폰 디노이징만의 솔루션을 적용하는 단계를 포함하는 것을 특징으로 하는 음성 향상 방법.
제1항에 있어서, 메인 마이크로폰 및 보조 마이크로폰의 양쪽으로부터의 신호에 따라 사용자가 이야기하고 있는지 응답하고 있는지를 판단하는 단계가,
메인 마이크로폰으로부터의 신호와 보조 마이크로폰으로부터의 신호 사이의 상관값을 계산하는 단계, 상관값이 제1 임계값보다 크면 사용자가 이야기하고 있다고 판단하는 단계, 및 상관값이 제1 임계값보다 작거나 같으면 사용자가 응답하고 있다고 판단하는 단계를 구비하되;
메인 마이크로폰으로부터의 신호와 보조 마이크로폰으로부터의 신호 사이의 상관값을 계산하는 단계가, 메인 마이크로폰으로부터의 신호와 보조 마이크로폰의 각각으로부터의 신호 사이의 상관값을 계산하고 평균 상관값을 얻기 위해 상관값을 평균하거나, 또는 메인 마이크로폰으로부터의 신호와 보조 마이크로폰의 하나로부터의 신호 사이의 상관값을 계산하는 것을 특징으로 하는 음성 향상 방법.
제1항에 있어서, 사용자의 휴대 전화 홀딩 상태, 즉 사용자가 휴대 전화를 정상적으로 또는 비정상적으로 홀딩하고 있는지를 검출하는 단계가,
다수의 마이크로폰에 의해 음성의 방향을 검출하는 단계, 음성이 휴대 전화의 밑바닥으로부터 나오면 사용자가 휴대 전화를 정상적으로 홀딩하고 있다고 결정하는 단계, 및 음성이 휴대 전화의 측면 또는 꼭대기로부터 나오면 사용자가 휴대 전화를 비정상적으로 홀딩하고 있다고 결정하는 단계를 구비하거나;
또는 메인 마이크로폰으로부터의 신호의 에너지와 보조 마이크로폰으로부터의 신호의 에너지의 비율을 계산하는 단계, 이 비율이 제2 임계값보다 크면 사용자가 휴대 전화를 정상적으로 홀딩하고 있다고 결정하는 단계, 및 이 비율이 제2 임계값보다 작거나 같으면 사용자가 휴대 전화를 비정상적으로 홀딩하고 있다고 결정하는 단계를 구비하고 있는 것을 특징으로 하는 음성 향상 방법.
제1항에 있어서, 메인 마이크로폰 및 보조 마이크로폰의 양쪽으로부터의 신호에 따라 사용자가 이야기하고 있는지 응답하고 있는지를 판단하는 단계 이전에, 상기 방법은 메인 마이크로폰 및 보조 마이크로폰의 양쪽으로부터의 신호에 대해 고속 푸리에 변환을 수행하는 단계를 더 구비하고,
음성 향상 후에, 상기 방법은 디노이징된 신호에 대해 역고속 푸리에 변환을 수행하는 단계를 더 구비하는 것을 특징으로 하는 음성 향상 방법.
제4항에 있어서, 음성 향상을 수행하기 위해 다중 마이크로폰 디노이징 및 단일 마이크로폰 디노이징을 통합한 솔루션을 적용하는 단계가, 먼저 다중 마이크로폰 디노이징을 수행하는 단계와, 다음에 단일 마이크로폰 디노이징을 수행하는 단계를 구비하되;
먼저 다중 마이크로폰 디노이징을 수행하는 단계가, 주파수 서브밴드의 각각에 있어서, 주파수 서브밴드에서 메인 마이크로폰으로부터의 신호의 에너지와 보조 마이크로폰으로부터의 신호의 에너지의 비율을 계산하고, 이 에너지의 비율에 따라 주파수 서브밴드에서 잡음 억제 함수의 값을 결정하며; 억제된 비정상 잡음이 있는 신호를 얻기 위해 메인 마이크로폰으로부터의 신호에 잡음 억제 함수를 곱하도록 되어 있고;
다음에 단일 마이크로폰 디노이징을 수행하는 단계가, 주파수 서브밴드의 각각에 있어서, 이동 평균 알고리즘에 의해 주파수 서브밴드에서 억제된 비정상 잡음이 있는 신호의 정상 잡음 에너지를 계산하고, 주파수 서브밴드에서 음성 성분 비례 함수의 값을 더 계산하며; 억제된 비정상 잡음 및 억제된 정상 잡음의 양쪽이 있는 신호를 얻기 위해 억제된 비정상 잡음이 있는 신호에 음성 성분 비례 함수를 곱하도록 되어 있으며;
음성 향상을 수행하기 위해 단일 마이크로폰 디노이징만의 솔루션을 적용하는 단계가, 주파수 서브밴드의 각각에 있어서, 이동 평균 알고리즘에 의해 주파수 서브밴드에서 메인 마이크로폰으로부터의 신호의 정상 잡음 에너지를 계산하고, 주파수 서브밴드에서 음성 성분 비례 함수의 값을 더 계산하며; 억제된 정상 잡음이 있는 신호를 얻기 위해 메인 마이크로폰으로부터의 신호에 음성 성분 비례 함수를 곱하도록 되어 있는 것을 특징으로 하는 음성 향상 방법.
메인 마이크로폰이 휴대 전화의 밑바닥에 설치되고 하나 이상의 보조 마이크로폰이 메인 마이크로폰으로부터 멀리 떨어진 위치에서 휴대 전화 내에 설치되는 휴대 전화를 위한 음성 향상 장치로서, 상기 장치는 검출 유닛 및 디노이징 유닛을 포함하되,
검출 유닛은, 메인 마이크로폰 및 보조 마이크로폰의 양쪽으로부터의 신호에 따라 사용자가 이야기하고 있는지 응답하고 있는지를 판단하되; 사용자가 이야기하고 있다고 판단한 때에는, 사용자의 휴대 전화 홀딩 상태, 즉 사용자가 휴대 전화를 정상적으로 또는 비정상적으로 홀딩하고 있는지를 더 검출하고, 검출의 결과를 디노이징 유닛에 통지하며; 사용자가 응답하고 있다고 판단한 때에는, 더 이상의 연산을 하지 않고 디노이징 유닛이 이전의 음성 향상 솔루션을 그대로 유지하는 것을 허용하도록 구성되어 있고;
디노이징 유닛은, 사용자가 휴대 전화를 정상적으로 홀딩하고 있음을 지시하는 통지를 수신한 때에는, 음성 향상을 수행하기 위해 다중 마이크로폰 디노이징 및 단일 마이크로폰 디노이징을 통합한 솔루션을 적용하고; 사용자가 휴대 전화를 비정상적으로 홀딩하고 있음을 지시하는 통지를 수신한 때에는, 음성 향상을 수행하기 위해 단일 마이크로폰 디노이징만의 솔루션을 적용하도록 구성되어 있는 것을 특징으로 하는 음성 향상 장치.
제6항에 있어서, 검출 유닛은 근거리장 음성 검출 모듈 및 홀딩 상태 검출 모듈을 포함하고; 디노이징 유닛은 다중 마이크로폰 디노이징 모듈 및 단일 마이크로폰 디노이징 모듈을 포함하되;
근거리장 음성 검출 모듈은, 메인 마이크로폰 및 보조 마이크로폰의 양쪽으로부터 신호를 수신하고, 메인 마이크로폰 및 보조 마이크로폰의 양쪽으로부터의 신호에 따라 이야기하고 있는지 응답하고 있는지를 판단하며, 사용자가 이야기하고 있다고 판단한 때에는 홀딩 상태 검출 모듈로 통지를 보내며, 사용자가 응답하고 있다고 판단한 때에는 홀딩 상태 검출 모듈로 통지를 보내지 않도록 구성되어 있고;
홀딩 상태 검출 모듈은, 메인 마이크로폰 및 보조 마이크로폰의 양쪽으로부터 신호를 수신하고, 근거리장 음성 검출 모듈로부터 통지를 수신한 때에, 사용자의 휴대 전화 홀딩 상태, 즉 사용자가 휴대 전화를 정상적으로 또는 비정상적으로 홀딩하고 있는지를 검출하며, 사용자가 휴대 전화를 정상적으로 홀딩하고 있음을 검출한 때에는 메인 마이크로폰 및 보조 마이크로폰의 양쪽으로부터의 신호를 다중 마이크로폰 디노이징 모듈로 보내고, 사용자가 휴대 전화를 비정상적으로 홀딩하고 있음을 검출한 때에는 메인 마이크로폰으로부터의 신호를 단일 마이크로폰 디노이징 모듈로 보내도록 구성되어 있으며;
다중 마이크로폰 디노이징 모듈은, 수신된 신호에 대해 다중 마이크로폰 디노이징을 수행하고, 그 다음에 디노이징된 신호를 단일 마이크로폰 디노이징 모듈로 보내도록 구성되어 있고;
단일 마이크로폰 디노이징 모듈은, 수신된 신호에 대해 단일 마이크로폰 디노이징을 수행하고 디노이징된 신호를 출력하도록 구성되어 있는 것을 특징으로 하는 음성 향상 장치.
제7항에 있어서, 근거리장 음성 검출 모듈은, 메인 마이크로폰으로부터의 신호와 보조 마이크로폰의 각각으로부터의 신호 사이의 상관값을 계산하고, 상관값이 제1 임계값보다 크면 사용자가 이야기하고 있다고 판단하며, 상관값이 제1 임계값보다 작거나 같으면 사용자가 응답하고 있다고 판단하도록 구성되어 있고;
메인 마이크로폰으로부터의 신호와 보조 마이크로폰으로부터의 신호 사이의 상관값을 계산하는 것이, 메인 마이크로폰으로부터의 신호와 보조 마이크로폰의 각각으로부터의 신호 사이의 상관값을 계산하고 평균 상관값을 얻기 위해 상관값을 평균하거나, 또는 메인 마이크로폰으로부터의 신호와 보조 마이크로폰의 하나로부터의 신호 사이의 상관값을 계산하는 것을 특징으로 하는 음성 향상 장치.
제7항에 있어서, 홀딩 상태 검출 모듈은, 다수의 마이크로폰에 의해 음성의 방향을 검출하고, 음성이 휴대 전화의 밑바닥으로부터 나오면 사용자가 휴대 전화를 정상적으로 홀딩하고 있다고 결정하며, 음성이 휴대 전화의 측면 또는 꼭대기로부터 나오면 사용자가 휴대 전화를 비정상적으로 홀딩하고 있다고 결정하도록 구성되어 있거나;
또는
홀딩 상태 검출 모듈은, 메인 마이크로폰으로부터의 신호의 에너지와 보조 마이크로폰으로부터의 신호의 에너지의 비율을 계산하고, 이 비율이 제2 임계값보다 크면 사용자가 휴대 전화를 정상적으로 홀딩하고 있다고 결정하며, 이 비율이 제2 임계값보다 작거나 같으면 사용자가 휴대 전화를 비정상적으로 홀딩하고 있다고 결정하도록 구성되어 있는 것을 특징으로 하는 음성 향상 장치.
제7항에 있어서, 상기 장치가 고속 푸리에 변환 모듈 및 역고속 푸리에 변환 모듈을 더 구비하되,
고속 푸리에 변환 모듈은, 그 입력이 메인 마이크로폰 및 보조 마이크로폰에 접속되어 있고, 그 출력이 검출 유닛에 접속되어 있으며, 메인 마이크로폰 및 보조 마이크로폰의 양쪽으로부터의 신호에 대해 각각 고속 푸리에 변환을 수행하고, 그 다음에 변환된 신호를 근거리장 음성 검출 모듈 및 홀딩 상태 검출 모듈로 보내도록 구성되어 있고;
다중 마이크로폰 디노이징 모듈은, 주파수 서브밴드의 각각에 있어서, 주파수 서브밴드에서 메인 마이크로폰으로부터의 신호의 에너지와 보조 마이크로폰으로부터의 신호의 에너지의 비율을 계산하고, 이 에너지의 비율에 따라 주파수 서브밴드에서 잡음 억제 함수의 값을 결정하며; 억제된 비정상 잡음이 있는 신호를 얻기 위해 메인 마이크로폰으로부터의 신호에 잡음 억제 함수를 곱하고, 억제된 비정상 잡음이 있는 신호를 단일 마이크로폰 디노이징 모듈로 출력하도록 구성되어 있으며;
단일 마이크로폰 디노이징 모듈은, 주파수 서브밴드의 각각에 있어서, 이동 평균 알고리즘에 의해 주파수 서브밴드에서 억제된 비정상 잡음이 있는 신호의 정상 잡음 에너지를 계산하고, 주파수 서브밴드에서 음성 성분 비례 함수의 값을 더 계산하며; 억제된 정상 잡음이 있는 신호를 얻기 위해 수신된 신호에 음성 성분 비례 함수를 곱하고, 그 다음에 억제된 정상 잡음이 있는 신호를 역고속 푸리에 변환 모듈로 출력하도록 구성되어 있고;
역고속 푸리에 변환 모듈은, 그 출력이 디노이징 모듈에 접속되어 있으며, 디노이징된 신호에 대해 역고속 푸리에 변환을 수행하고, 그 다음에 변환된 신호를 출력하도록 구성되어 있는 것을 특징으로 하는 음성 향상 장치.