KR100785471B1

KR100785471B1 - 통신망을 통해 가입자 단말기로 전송되는 오디오 신호의출력 품질 개선을 위한 오디오 신호의 처리 방법 및 상기방법을 채용한 오디오 신호 처리 장치

Info

Publication number: KR100785471B1
Application number: KR1020060001901A
Authority: KR
Inventors: 정재웅; 박섭형; 유종규
Original assignee: 와이더댄 주식회사
Priority date: 2006-01-06
Filing date: 2006-01-06
Publication date: 2007-12-13
Also published as: WO2007078186A1; KR20070074132A; US8145479B2; US8359198B2; EP1977419A1; JP2009522914A; US8719013B2; US20120179459A1; US20130124198A1; JP5277368B2; US20090299740A1; JP2012234184A; JP5539446B2; EP1977419A4

Abstract

본 발명은 통신망을 통해 가입자 단말기로 전송되는 오디오 신호의 출력 개선을 위한 오디오 신호의 처리 방법 및 상기 방법을 채용한 오디오 신호의 처리 장치에 관한 것으로서, 더욱 상세하게는 통신망을 통해 가입자 단말기로 전송되는 오디오 신호를 처리하여 상기 오디오 신호를 부호화하는 코덱 모듈에서 상기 오디오 신호를 음성 신호로 판단할 수 있도록 함으로써, 가입자 단말기로 전송되는 오디오 신호의 음질 저하를 방지하는 오디오 신호의 처리 방법 및 상기 방법을 채용한 오디오 신호 처리 장치에 관한 것이다. 본 발명에 따른 통신망을 통해 가입자 단말기로 전송되는 오디오 신호를 하나 이상의 채널로 분리하고, 상기 분리된 채널 각각에 대한 채널 에너지를 측정하며, 상기 채널 에너지 중에 특정 채널 에너지를 선택하여 증폭함으로써, 코덱 모듈에서 상기 특정 채널 에너지가 증폭된 상기 오디오 신호를 음성 신호로 판단하여 부호화할 수 있다.

오디오 신호 처리 장치, 통신망, 음성 코덱, 오디오 신호, 음성 신호

Description

통신망을 통해 가입자 단말기로 전송되는 오디오 신호의 출력 품질 개선을 위한 오디오 신호의 처리 방법 및 상기 방법을 채용한 오디오 신호 처리 장치{METHOD OF PROCESSING AUDIO SIGNALS FOR IMPROVING THE QUALITY OF OUTPUT AUDIO SIGNAL WHICH IS TRANSFERRED TO SUBSCRIBER’S TERMINAL OVER NETWORKS AND AUDIO SIGNAL PROCESSING APPARATUS OF ENABLING THE METHOD}

도 1은 본 발명의 일실시예에 따른 오디오 신호의 출력 개선을 위한 오디오 신호의 처리 방법을 도시한 흐름도이다.

도 2는 본 발명의 다른 실시예에 따른 오디오 신호의 출력 개선을 위한 오디오 신호의 처리 방법을 도시한 흐름도이다.

도 3은 본 발명의 일실시예에 따른 오디오 신호 처리 장치의 내부 구성을 도시한 블록도이다.

도 4는 본 발명의 다른 실시예에 따른 오디오 신호 처리 장치의 내부 구성을 도시한 블록도이다.

<도면의 주요 부분에 대한 부호의 설명>

300: 오디오 신호 처리 장치

301: 채널 분리부

302: 채널 측정부

303: 채널 에너지 증폭부

본 발명은 통신망을 통해 가입자 단말기로 전송되는 오디오 신호의 출력 개선을 위한 오디오 신호의 처리 방법 및 상기 방법을 채용한 오디오 신호 처리 장치에 관한 것으로서, 더욱 상세하게는 통신망을 통해 가입자 단말기로 전송되는 오디오 신호를 처리하여 상기 오디오 신호를 부호화하는 코덱 모듈에서 상기 오디오 신호를 음성 신호로 판단할 수 있도록 함으로써, 가입자 단말기로 전송되는 오디오 신호의 음질 저하를 방지하는 오디오 신호의 처리 방법 및 상기 방법을 채용한 오디오 신호 처리 장치에 관한 것이다.

통신 단말기에서 제공하는 멀티미디어 서비스 중의 하나인 링백톤(RBT: ring back tone) 대체음 제공 서비스는 발신 단말기에서 가입자 단말기로 호 연결을 요청하거나 가입자 단말기에서 호 연결을 요청하는 경우, 가입자 단말기의 사용자로부터 선정된(predetermined) 오디오 신호를 통신망을 통해 발신 단말기 또는 가입자 단말기로 전송하는 서비스이다. 일례로, 상술한 링백톤 대체음 제공 서비스는 가입자 단말기에서 착신 단말기로 호 연결을 요청한 경우, 착신 단말기의 상기 제2 사용자가 훅 오프(hook off) 등의 착신 응답을 하기 전까지 상기 가입자 단말기로 상기 오디오 신호 "사랑합니다"를 상기 가입자 단말기로 전송하고, 발신 단말기에서 가입자 단말기로 호 연결을 요청한 경우, 가입자 단말기의 사용자가 훅 오프 (hook off) 등의 착신 응답을 하기 전까지 상기 발신 단말기로 상기 오디오 신호 "사랑합니다"를 전송하는 방식으로 동작한다.

일반적으로 통신망에서는 발신자 단말기 또는 착신자 단말기(가입자 단말기)로 전송되는 오디오 신호를 오디오 신호 전용 코덱을 이용하여 부호화하지 않고, 선형 예측 부호화(LPC: Linear Predictive Coding) 계열의 음성 코덱을 이용하여 부호화한다. 그러나, 오디오 신호를 LPC 계열의 음성 코덱으로 부호화하는 경우, 발신 단말기 또는 가입자 단말기에서 재생되는 오디오 신호는 아래의 이유로 인해 원본 오디오 신호에 비하여 왜곡되거나, 오디오 신호의 재생 중에 편안한 잡음(comfort noise)이 재생되는 경우가 발생한다.

이동 전화망에 사용되는 음성 채널의 대역폭은 64kbps인 유선 전화에 비해서 매우 좁기 때문에 음성 신호를 저 전송률(low-bitrate) 음성 코덱으로 압축하여 전송한다. 이동 전화망에 사용되는 대부분의 음성 코덱은 LPC 기반의 압축 방식들이다. LPC 계열의 음성 압축 방법은 사용자의 발성 구조에 최적화된 모델을 사용하고 있어서, 사용자의 음성 신호를 중, 저 전송률로 압축하는데 매우 효율적일 수 있으나, 이러한 LPC 계열의 음성 코덱으로 오디오 신호를 압축할 경우 음질 저하 문제가 발생할 수 있다. 그 이유는,

(1) LPC 계열의 음성 코덱이 음성 압축을 위해 추출하는 가장 중요한 파라미터인 포먼트(formant) 주파수와 피치(pitch) 주기가 오디오 신호에서는 제대로 추출되지 않을 수 있다는 것이다. 피치는 음성 기본 주파수(fundamental frequency: 기본 주기의 역수)에 해당하는 파라미터로 성대의 주기적인 떨림에 의해 생성되고, 음성 신호에 존재하는 피치의 경우 대략 50~500Hz에 존재하지만 오디오 신호의 경우 이보다 훨씬 넓은 주파수 영역에서 피치가 존재할 수도 있다. 또한, 음성 신호는 피치가 하나만 존재하지만 오디오 신호의 경우 피치가 여러 개 존재할 수 있다.

(2) 오디오 신호의 스펙트럼이 음성 신호의 스펙트럼에 비해 매우 복잡하기 때문이다. 스펙트럼이 단순한 음성 신호의 경우 파라미터 추출 후 남은 잔여 신호를 코드북(codebook)으로 상대적으로 충실하게 모델링 할 수 있지만 오디오 신호의 경우 그렇지 않다.

(3) LPC 계열의 음성 코덱에서 VAD(Voice Activity Detection) 및 DTX(Discontinuous Transmission)의 사용이 그 이유가 될 수 있다. 사용자가 단말기를 통해 대화하는 경우, 실제 음성 신호가 오고 가는 시간은 통계적으로 전체 통화 시간의 50%를 넘지 아니하므로, 음성 신호가 포함되지 않은 구간에서는 음성 신호를 전송하지 않기 위해 DTX를 사용한다. 이로 인해 가입자 단말기에서는 전력 소모를 줄일 수 있으며, 에어 인터페이스(air interface)에서 전체 간섭(interference) 레벨을 줄일 수 있어 주파수 효율을 향상시킬 수 있다. DTX는 VAD에 의해 동작 여부가 결정된다. VAD와 DTX의 동작을 설명하면, VAD는 상기 음성 코덱으로부터 추출된 상기 오디오 신호에 대한 하나 이상의 파라미터를 분석하고, 상기 하나 이상의 파라미터에 대한 음성 구간 또는 묵음 구간 여부를 판단하며, 1) 상기 판단 결과, 상기 음성 구간인 경우, DTX(Discontinuous Transmission)에서 상기 추출된 하나 이상의 파라미터를 수신측 복호화기로 전송하고, 상기 가입자 단말기에서는 상기 파라미터에 기초하여 상기 오디오 신호를 재생한다. 또한, 2) 판단 결과, 오디오 신호가 묵음 구간인 경우, DTX에서 최소한의 파라미터를 생성하여 수신측 복호화기로 전송하고, 상기 가입자 단말기에서는 상기 파라미터에 따른 편안한 잡음(comfort noise)을 재생한다. 이와 같이, 상기 음성 코덱에서 정상적인 오디오 신호를 묵음 구간으로 판단하는 경우, 가입자 단말기에서는 링백톤 구간에 전송되는 상기 오디오 신호를 편안한 잡음으로 재생하는 경우가 발생할 수 있다. 실제, 다수의 이동통신 사업자가 상술한 링백톤 대체음 제공 서비스를 하고 있지만, 이러한 링백톤 대체음 재생 구간에서 음질의 열화로 해당 오디오 신호가 들리지 않거나 크게 왜곡되어 가입자 단말기로 전송되는 경우가 많다.

VAD가 오디오 신호를 음성 신호가 아닌 것으로 판단하여 수신측에서 끊김 현상이 발생하거나 오디오 신호를 대신하여 편안한 잡음으로 재생하는 경우를 방지하기 위해 1) 기지국과 단말기의 코덱을 변경하는 방법, 2) 오디오 신호를 데이터망을 통해 전송하는 방법이 있을 수 있다. 그러나, 위 두 가지 경우는 현재 구축되어 있는 많은 시스템에 변경을 가져오게 되고, 그에 따른 비용의 문제가 발생한다.

따라서, 상술한 일례와 같이 통신망을 통하여 가입자 단말기로 링백톤 대체음을 전송하는 경우는 물론, 통신망을 통하여 소정의 오디오 신호를 전송하는 모든 응용례에 있어서, 통신망의 음성 코덱에서 특정 오디오 신호에 대한 부호화 수행 시 묵음 구간으로 판단하는 구간을 음성 구간으로 판단할 수 있게 하는 방법이 요구되고 있다.

본 발명은 상술한 종래기술의 문제점을 해결하기 위해 안출된 것으로서, 통 신망을 통하여 가입자 단말기로 링백톤 대체음 등의 오디오 신호를 전송하는 경우, 통신망의 음성 코덱에서 상기 오디오 신호의 프레임을 음성 구간으로 판단할 확률을 높임으로써, 가입자 단말기로 전송되는 오디오 신호의 음질을 높이는 것을 그 목적으로 한다.

또한, 본 발명은 통신망을 통하여 가입자 단말기로 링백톤 대체음 등의 오디오 신호를 전송하는 경우, 통신망의 음성 코덱에서 묵음 구간으로 판단하지 않도록 오디오 신호를 전처리(pre-processing)함으로써, 보다 좋은 음질의 링백톤 대체음을 제공하는 것을 그 목적으로 한다.

상기의 목적을 달성하고, 상술한 종래기술의 문제점을 해결하기 위하여, 본 발명의 일실시예에 따른 통신망을 통해 가입자 단말기로 전송되는 오디오 신호의 처리 방법은, 상기 오디오 신호를 하나 이상의 채널로 분리하는 단계; 상기 채널 각각에 대한 채널 에너지를 측정하고, 상기 채널 에너지 중 특정 채널 에너지를 선택하는 단계; 상기 특정 채널 에너지를 증폭하는 단계를 포함하는 것을 특징으로 한다.

또한, 본 발명의 다른 실시예에 따른 통신망을 통해 가입자 단말기로 전송되는 오디오 신호의 처리 방법은, 상기 오디오 신호를 하나 이상의 채널로 분리하는 단계; 상기 채널 각각에 대한 채널 에너지를 측정하고, 상기 채널 에너지 중 특정 채널 에너지를 선택하는 단계; 및 상기 특정 채널 에너지를 갖는 채널 이외의 채널 에너지를 감소시키는 단계를 포함하는 것을 특징으로 한다.

참고로 본 명세서에서 사용되는 단말기는 컴퓨터 단말기, PSTN(Public Switched Telephone Network) 단말기, VoIP, SIP(Session Initiation Protocol), Megaco, PDA(Personal Digital Assistant), 셀룰러폰, PCS(Personal Communication Service)폰, 핸드 헬드 PC(Hand-Held PC), CDMA-2000(1X, 3X)폰, WCDMA(Wideband CDMA)폰, 듀얼 밴드/듀얼 모드(Dual Band/Dual Mode)폰, GSM(Global Standard for Mobile)폰, MBS(Mobile Broadband System)폰, 또는 위성/지상파 DMB(Digital Multimedia Broadcasting)폰 중 어느 하나일 수 있다.

이하 첨부된 도면을 참조하여 본 발명에 따른 통신망을 통해 가입자 단말기로 전송되는 오디오 신호의 출력 개선을 위한 오디오 신호의 처리 방법 및 상기 방법을 채용한 오디오 신호 처리 장치에 대하여 상세히 설명한다.

도 1에 도시되어 있는 것과 같이, 본 발명에 따른 오디오 신호의 처리 방법은 크게 (1) 오디오 신호에 대한 전처리(pre-processing) 과정 및 (2) 전처리된 오디오 신호에 대한 부호화 과정으로 구성될 수 있다. 이러한 전처리 과정은 후술하는 단계(101) 내지 단계(104)로 구성될 수 있고, 전처리가 완료된 오디오 신호에 대한 부호화 과정은 후술하는 단계(105) 내지 단계(108)로 구성될 수 있다.

먼저, 단계(101)에서 오디오 신호 처리 장치는 상기 오디오 신호에 대한 주파수 분석을 통해 상기 오디오 신호를 하나 이상의 채널로 분리한다.

본 발명의 일실시예에 따르면, 오디오 신호 처리 장치는 FFT(Fast Fourier Transform) 알고리즘을 이용하여 상기 오디오 신호를 주파수 별로 하나 이상의 채널로 분리할 수 있다. 일례로, 상기 오디오 신호 처리 장치는 상기 오디오 신호를 상기 FFT 알고리즘을 이용하여 "16개"의 채널로 분리할 수 있다.

단계(102)에서 상기 오디오 신호 처리 장치는 상기 채널 각각에 대한 제1 채널 에너지를 측정한다.

단계(103)에서 상기 오디오 신호 처리 장치는 상기 측정된 하나 이상의 제1 채널 에너지 중 특정 채널 에너지를 선택한다. 일례로 에너지가 최대인 채널을 특정 채널로 선택 할 수 있다.

단계(104)에서 상기 오디오 신호 처리 장치는 선택된 특정 채널 에너지에 소정의 증폭 계수를 승산하여 상기 특정 채널 에너지를 증폭한다.

본 발명에 따르면, 상기 오디오 신호 처리 장치에서 상기 특정 채널 에너지를 증폭하는 경우, 후술하는 바와 같은 상기 채널에 대한 신호대잡음비를 증가시킴으로써, 코덱(CODEC) 모듈에서 상기 오디오 신호를 음성 신호로 판단할 확률을 높일 수 있다.

본 발명의 일실시예에 따르면, 상기 오디오 신호 처리 장치는 상기 채널 각각에 대한 제1 배경 잡음을 추정하고, 상기 추정된 제1 배경 잡음에 따라 선택적으로 상기 특정 채널 에너지에 소정의 증폭 계수를 승산하여 상기 특정 채널 에너지를 증폭할 수 있다. 일례로, 상기 추정된 제1 배경 잡음이 소정의 기준치 이하인 경우는 상기 특정 채널 에너지를 증폭하지 않고, 상기 제1 배경 잡음이 상기 기준치를 초과하는 경우에 상기 특정 채널 에너지를 증폭할 수 있다.

상술한 단계(101) 내지 단계(104)를 거친 오디오 신호는 본 발명에 따른 코덱모듈로 입력되어 통신망을 통해 전송되기 위해 부호화될 수 있다. 이러한 부호화 과정은 아래 단계(105) 내지 단계(108)로 구성될 수 있다.

단계(105)에서 상기 오디오 신호를 부호화하는 상기 코덱(CODEC) 모듈은 상기 제1 특정 채널 에너지가 증폭된 상기 오디오 신호에 대해, 상기 채널 각각에 대한 제2 채널 에너지를 측정하고, 상기 채널 각각에 대한 제2 배경 잡음을 추정(estimation)한다. 즉, 상기 제1 채널 에너지는 상기 오디오 신호에 대한 전처리 과정에서 측정된 채널 에너지이고, 상기 제2 채널 에너지는 상기 오디오 신호에 대한 전처리 이후의 각각의 채널에 대한 채널 에너지이다.

또한, 상기 제2 배경 잡음은 수학식 1과 같이 추정할 수 있다.

상기

는 프레임

에서

번째 채널의 채널 에너지이고, 상기

는 프레임

에서

번째 채널의 배경 잡음이며, 상기

는 채널의 개수이다.

본 발명의 일실시예에 따르면, 상기 코덱(CODEC) 모듈은 AMR VAD OPTION 2를 이용할 수 있다.

본 발명의 다른 실시예에 따르면, 상기 코덱(CODEC) 모듈은 상기 측정된 하나 이상의 제2 채널 에너지 중 제2 특정 채널 에너지와 상기 하나 이상의 제2 채널 에너지의 평균값을 비교하여 상기 제2 특정 채널 에너지가 상기 평균값보다 큰 경 우 상기 오디오 신호를 정현파로 판단할 수 있다. 당업자라면 주지하는 것과 같이, 소정의 신호가 정현파로 판단된다는 것은, 해당 신호가 특정 주파수 성분이 강한 신호로 해석될 수 있고, 이러한 신호는 음성 신호로 판단될 가능성이 높은 신호임을 의미한다.

상기 제2 특정 채널 에너지를 산출하기 위해서 아래의 수학식 2가 이용될 수 있다.

상기

는 프레임

에서

번째 채널의 채널 에너지이고, 상기

는 채널의 개수이며, 상기

는 상기 제2 채널 에너지의 평균값이다.

수학식 1을 참조하면, 상기 오디오 신호 처리 장치에서 상기 제1 특정 채널 에너지를 증폭하는 경우, 상기 제1 특정 채널 에너지를 갖는 채널의 배경 잡음도 함께 증폭된다. 본 발명에 따르면, 상술한 단계(101) 내지 단계(104)를 거쳐 전처리된 오디오 신호의 경우, 이미 특정 채널 에너지를 갖는 채널의 에너지가 증폭된 상태이므로, 상기 코덱(CODEC) 모듈에서는 수학식 2를 참조하여 산출한 상기 제2 특정 채널 에너지 및 다른 채널의 채널 에너지 평균값을 비교하여 상기 전처리된 오디오 신호를 정현파로 판단할 확률이 높아지게 된다.

상기 수학식 1을 참조하면, 채널 전체에 대한 평균 채널 에너지에 비해 특정 채널의 채널 에너지가 상당히 큰 경우, φ(m)은 커지게 되고, 평균 채널 에너지에 비해 특정 채널의 채널 에너지가 그리 크지 아니한 경우 φ(m)은 작아진다. 일례로, AMR VAD OPTION 2에서는 φ(m)이 10보다 클 경우 해당 오디오 신호를 정현파라고 가정하고, 정현파가 검출된 경우 AMR VAD OPTION 2는 배경 잡음을 증폭시키지 아니한다. 즉, 특정 채널의 채널 에너지를 증폭시킴으로써 전체 채널의 신호대잡음비를 크게 만들어 주고 배경 잡음은 갱신되지 않도록 할 수 있다. 또한, 상대적으로 특정 채널 에너지를 갖는 채널 에너지에 대해서만 증폭이 수행되므로, 상기 전처리된 오디오 신호에 대한 제2 채널 에너지 및 상기 제2 배경 잡음을 이용하여 측정되는 전체 채널의 신호대잡음비를 개선시킬 수 있다.

단계(106)에서 상기 코덱(CODEC) 모듈은 상기 채널 각각에 대한 제2 채널 에너지 및 상기 제2 배경 잡음을 이용하여 상기 채널 각각에 대한 신호대잡음비(SNR: signal-to-noise ratio)를 측정한다. 상기 신호대잡음비는 수학식 3과 같이 측정할 수 있다.

상기

는 프레임

에서

번째 채널의 채널 에너지이고, 상기

는 프레임

에서

번째 채널의 배경 잡음이며, 상기

는 채널의 개수이다.

단계(107)에서 상기 코덱(CODEC) 모듈은 상기 측정된 채널 각각에 대한 신호대잡음비에 기초하여 음성 거리를 산출한다. 본 발명의 일실시예에 따르면, 상기 음성 거리는 상기 채널 각각에 대한 상기 신호대잡음비를 합산하여 산출될 수 있다.

단계(108)에서 상기 코덱(CODEC) 모듈은 상기 음성 거리가 선정된(predetermined) 문턱값 이상인 경우, 상기 오디오 신호를 음성 신호로 판단하고 상기 오디오 신호를 부호화한다.

본 발명에 따르면, 상기 채널 각각에 대하여 합산된 신호대잡음비, 즉 음성 거리는 전처리 과정에서 증폭된 제1 특정 채널 에너지로 인해 전처리 이전의 오디오 신호에 대한 음성 거리 보다 증가된 음성 거리를 갖게 됨으로써, 상기 코덱(CODEC) 모듈에서 상기 오디오 신호를 음성 신호로 판단할 확률을 높일 수 있다.

본 발명의 일실시예에 따르면, 상기 문턱값은 상기 채널 각각에 대한 상기 신호대잡음비에 기초하여 장기 첨두 신호대잡음비(long term Peak Signal to Noise Ratio)를 측정하고, 상기 측정된 장기 첨두 신호대잡음비에 따라 상기 문턱값을 결정할 수 있다. 즉, 상기 문턱값은 상기 측정된 장기 첨두 신호대잡음비와 반비례 관계를 유지하고, 상기 장기 첨두 신호대잡음비가 소정의 기준치보다 큰 경우 선정된 제1 문턱값으로 결정하고, 상기 장기 첨두 신호대잡음비가 소정의 기준치보다 작은 경우 선정된 제2 문턱값으로 결정할 수 있다. 상기 제1 문턱값은 상기 제2 문턱값 보다 작다.

단계(201 내지 203) 및 단계(205 내지 208)은 도 1에서 도시한 단계(101 내지 103) 및 단계(106 내지 108)와 동일하므로 그 도시를 생략하고, 단계(204) 및 단계(205)만을 도시한다.

단계(204)에서 상기 오디오 신호 처리 장치는 상기 선택된 특정 채널 에너지를 갖는 채널 이외의 채널 에너지에 소정의 증폭 계수를 승산하여 상기 채널 에너지를 감소시킨다. 즉, 상기 오디오 신호 처리 장치에서 상기 선택된 특정 채널 에너지를 갖는 채널 이외의 채널 에너지에 상기 증폭 계수를 승산하여 상기 채널 에너지를 감소시키는 경우, 상기 특정 채널 에너지를 제외한 채널 에너지가 감소하기 때문에 상대적으로 상기 특정 채널 에너지가 증가하게 된다.

단계(205)에서 상기 오디오 신호를 부호화하는 코덱(CODEC) 모듈은 상기 특정 채널 에너지를 갖는 채널 이외의 채널의 상기 채널 에너지가 감소된 상기 오디오 신호에 대해, 상기 채널 각각에 대한 제2 채널 에너지를 측정하고, 상기 채널 각각에 대한 제2 배경 잡음을 추정(estimation)한다. 또한, 상기 제2 배경 잡음은 상기 수학식 1과 같이 추정할 수 있다.

도 3에서 도시된 바와 같이, 오디오 신호 처리 장치(300)는 채널 분리부(301), 채널 측정부(302), 채널 에너지 증폭부(303)를 포함한다.

채널 분리부(301)는 상기 오디오 신호에 대한 주파수 분석을 통해 상기 오디오 신호를 하나 이상의 채널로 분리한다. 본 발명에 일실시예에 따르면, 채널 분리부(301)는 FFT(Fast Fourier Transform) 알고리즘을 이용하여 상기 오디오 신호에 대한 주파수를 분석하고, 상기 분석을 통해 상기 오디오 신호를 하나 이상의 채 널로 분리할 수 있다.

채널 측정부(302)는 상기 채널 각각에 대한 제1 채널 에너지를 측정한다.

채널 에너지 증폭부(303)는 상기 측정된 하나 이상의 제1 채널 에너지 중 특정 채널 에너지를 선택하고, 상기 특정 채널 에너지에 소정의 증폭 계수를 승산하여 상기 특정 채널 에너지를 증폭한다.

상기 오디오 신호를 부호화하는 코덱(CODEC) 모듈(350)은 배경 잡음 추정부(351), 신호대잡음비 측정부(352), 정현파 판단부(353), 오디오 신호 부호화부(354)를 포함한다.

배경 잡음 추정부(351)는 상기 특정 채널 에너지가 증폭된 상기 오디오 신호에 대해, 상기 채널 각각에 대한 제2 채널 에너지를 측정하고, 상기 채널 각각에 대한 제2 배경 잡음을 추정(estimation)한다. 본 발명의 일실시예에 따르면, 상기 코덱(CODEC) 모듈(400)은 AMR VAD OPTION 2를 이용할 수 있다.

신호대잡음비 측정부(352)는 상기 채널 각각에 대한 제2 채널 에너지 및 상기 제2 배경 잡음을 이용하여 상기 채널 각각에 대한 신호대잡음비(SNR: signal-to-noise ratio)를 측정한다. 본 발명의 일실시예에 따르면, 신호대잡음비 측정부(352)는 정현파 판단부(353)를 포함하고, 정현파 판단부(353)는 상기 측정된 하나 이상의 제2 채널 에너지 중 제2 특정 채널 에너지와 상기 하나 이상의 제2 채널 에너지의 평균값을 비교하여 상기 제2 특정 채널 에너지가 상기 평균값보다 큰 경우 상기 오디오 신호를 정현파로 판단한다.

오디오 신호 부호화부(354)는 상기 측정된 채널 각각에 대한 신호대잡음비에 기초하여 음성 거리를 산출하고, 상기 음성 거리가 선정된(predetermined) 문턱값 이상인 경우, 상기 오디오 신호를 음성 신호로 판단하고 상기 오디오 신호를 부호화한다.

또한, 본 발명의 일실시예에 따르면, 오디오 신호 부호화부(354)는 상기 채널 각각에 대한 상기 신호대잡음비를 합산하여 상기 음성 거리를 산출할 수 있다.

또한, 본 발명의 다른 실시예에 따르면, 상기 문턱값은 상기 채널 각각에 대한 상기 신호대잡음비에 기초하여 장기 첨두 신호대잡음비를 측정하고, 상기 측정된 장기 첨두 신호대잡음비에 따라 상기 문턱값을 결정할 수 있다.

도 4에서 도시된 바와 같이, 오디오 신호 처리 장치(400), 채널 분리부(401), 채널 측정부(402), 채널 에너지 감소부(403)를 포함한다.

채널 분리부(401)는 상기 오디오 신호에 대한 주파수 분석을 통해 상기 오디오 신호를 하나 이상의 채널로 분리한다. 본 발명에 일실시예에 따르면, 채널 분리부(401)는 FFT(Fast Fourier Transform) 알고리즘을 이용하여 상기 오디오 신호에 대한 주파수 분석하고, 상기 분석을 통해 상기 오디오 신호를 하나 이상의 채널로 분리할 수 있다.

채널 측정부(402)는 상기 채널 각각에 대한 제1 채널 에너지를 측정한다.

채널 에너지 감소부(403)는 상기 측정된 하나 이상의 제1 채널 에너지 중 특정 채널 에너지를 선택하고, 상기 선택된 특정 채널 에너지를 갖는 채널 이외의 채 널 에너지에 소정의 증폭 계수를 승산하여 상기 채널 에너지를 감소시킨다.

상기 오디오 신호를 부호화하는 코덱(CODEC) 모듈(450)은 배경 잡음 추정부(451), 신호대잡음비 측정부(452), 정현파 판단부(453), 오디오 신호 부호화부(454)를 포함한다.

배경 잡음 추정부(451)는 상기 특정 채널 에너지를 갖는 채널 이외의 채널의 상기 채널 에너지가 감소된 상기 오디오 신호에 대해, 상기 채널 각각에 대한 제2 채널 에너지를 측정하고, 상기 채널 각각에 대한 제2 배경 잡음을 추정(estimation)한다. 본 발명의 일실시예에 따르면, 상기 코덱(CODEC) 모듈은 AMR VAD OPTION 2를 이용할 수 있다.

신호대잡음비 측정부(452)는 상기 채널 각각에 대한 제2 채널 에너지 및 상기 제2 배경 잡음을 이용하여 상기 채널 각각에 대한 신호대잡음비(SNR: signal-to-noise ratio)를 측정한다. 본 발명의 일실시예에 따르면, 신호대잡음비 측정부(452)는 정현파 판단부(453)를 포함하고, 정현파 판단부(453)는 상기 측정된 하나 이상의 제2 채널 에너지 중 제2 특정 채널 에너지와 상기 하나 이상의 제2 채널 에너지의 평균값을 비교하여 상기 제2 특정 채널 에너지가 상기 평균값보다 큰 경우 상기 오디오 신호를 정현파로 판단한다.

오디오 신호 부호화부(454)는 상기 측정된 채널 각각에 대한 신호대잡음비에 기초하여 음성 거리를 산출하고, 상기 음성 거리가 선정된(predetermined) 문턱값 이상인 경우, 상기 오디오 신호를 음성 신호로 판단하고 상기 오디오 신호를 부호화한다.

또한, 본 발명의 일실시예에 따르면, 오디오 신호 부호화부(454)는, 상기 채널 각각에 대한 상기 신호대잡음비를 합산하여 상기 음성 거리를 산출할 수 있다.

본 발명에 따른 통신망을 통해 가입자 단말기로 전송되는 오디오 신호의 출력 개선을 위한 오디오 신호의 처리 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 상기 매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 반송파를 포함하는 광 또는 금속선, 도파관 등의 전송 매체일 수도 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.

그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.

본 발명에 따른 통신망을 통해 가입자 단말기로 전송되는 오디오 신호를 하나 이상의 채널로 분리하고, 상기 분리된 채널 각각에 대한 채널 에너지를 측정하며, 상기 채널 에너지 중에 특정 채널 에너지를 선택하여 증폭함으로써, 코덱 모듈에서 상기 특정 채널 에너지가 증폭된 상기 오디오 신호를 음성 신호로 판단하여 부호화할 수 있다.

또한, 본 발명에 따르면, 통신망을 통해 가입자 단말기로 전송되는 오디오 신호를 하나 이상의 채널로 분리하고, 상기 분리된 채널 각각에 대한 채널 에너지를 측정하며, 상기 채널 에너지 중에 특정 채널 에너지를 선택하고, 상기 선택된 특정 채널 에너지를 갖는 채널 이외의 채널 에너지를 감소시킴으로써, 상기 채널 에너지가 감소된 상기 오디오 신호를 음성 신호로 판단하여 부호화할 수 있다.

Claims

통신망을 통해 가입자 단말기로 전송되는 오디오 신호의 처리 방법에 있어서,

상기 오디오 신호를 일정한 알고리즘에 따라 분석하여, 하나 이상의 채널로 분리하는 단계;

상기 채널 각각에 대한 채널 에너지를 측정하고, 상기 채널 에너지 중 특정 채널 에너지를 선택하는 단계;

상기 특정 채널 에너지를 증폭하는 단계

를 포함하고,

상기 오디오 신호를 일정한 알고리즘에 따라 분석하여, 하나 이상의 채널로 분리하는 상기 단계는,

FFT(Fast Fourier Transform) 알고리즘을 이용하여 상기 오디오 신호를 하나 이상의 채널로 분리하는 단계이며,

상기 특정 채널 에너지가 증폭된 상기 오디오 신호는 소정의 코덱 모듈에서 부호화(encoding) 되어 상기 가입자 단말기로 전송되고, 상기 코덱(CODEC) 모듈에서는,

상기 오디오 신호에 대해 상기 채널 각각에 대한 채널 에너지를 측정하고, 상기 채널 각각에 대한 배경 잡음을 추정(estimation)하는 단계;

상기 채널 에너지 및 상기 배경 잡음을 이용하여 상기 채널 별 신호대잡음비(SNR: signal-to-noise ratio)를 측정하는 단계; 및

상기 채널 별 신호대잡음비에 기초하여 음성 거리를 산출하고, 상기 산출된 음성 거리에 따라 상기 오디오 신호를 부호화하는 단계

가 수행되며,

상기 코덱(CODEC) 모듈은,

AMR(Adaptive Multi Rate) 코덱의 VAD(Voice Activity Detection)의 옵션 중에서, 제2 옵션(OPTION 2)을 이용하는 것을 특징으로 하는 오디오 신호의 처리 방법.
통신망을 통해 가입자 단말기로 전송되는 오디오 신호의 처리 방법에 있어서,

상기 오디오 신호를 일정한 알고리즘에 따라 분석하여, 하나 이상의 채널로 분리하는 단계;

상기 채널 각각에 대한 채널 에너지를 측정하고, 상기 채널 에너지 중 특정 채널 에너지를 선택하는 단계; 및

상기 특정 채널 에너지를 갖는 채널 이외의 채널 에너지를 감소시키는 단계

를 포함하고,

상기 오디오 신호를 일정한 알고리즘에 따라 분석하여, 하나 이상의 채널로 분리하는 상기 단계는,

FFT(Fast Fourier Transform) 알고리즘을 이용하여 상기 오디오 신호를 하나 이상의 채널로 분리하는 단계이며,

상기 특정 채널 에너지가 감소된 상기 오디오 신호는 소정의 코덱 모듈에서 부호화(encoding) 되어 상기 가입자 단말기로 전송되고, 상기 코덱(CODEC) 모듈에서는,

상기 오디오 신호에 대해 상기 채널 각각에 대한 채널 에너지를 측정하고, 상기 채널 각각에 대한 배경 잡음을 추정(estimation)하는 단계;

상기 채널 에너지 및 상기 배경 잡음을 이용하여 상기 채널 별 신호대잡음비(SNR: signal-to-noise ratio)를 측정하는 단계; 및

상기 채널 별 신호대잡음비에 기초하여 음성 거리를 산출하고, 상기 산출된 음성 거리에 따라 상기 오디오 신호를 부호화하는 단계

가 수행되며,

상기 코덱(CODEC) 모듈은,

AMR(Adaptive Multi Rate) 코덱의 VAD(Voice Activity Detection)의 옵션 중에서, 제2 옵션(OPTION 2)을 이용하는 것을 특징으로 하는 오디오 신호의 처리 방법.
제1항 또는 제2항에 있어서,

상기 특정 채널 에너지는 상기 채널 각각의 채널 에너지 중 최대값을 갖는 채널 에너지인 것을 특징으로 하는 오디오 신호의 처리 방법.
삭제
제1항 또는 제2항에 있어서,

상기 코덱 모듈은,

상기 신호대잡음비를 기초로 음성 거리를 산출하는 단계; 및

상기 음성 거리가 선정된(predetermined) 문턱값(threshold) 이상인 경우, 상기 오디오 신호를 음성 신호로 판단하고, 상기 오디오 신호를 부호화 하는 단계

를 더 수행하는 것을 특징으로 하는 오디오 신호의 처리 방법
제1항 또는 제2항에 있어서,

상기 오디오 신호에 대해 상기 채널 각각에 대한 상기 채널 에너지를 측정하고, 상기 채널 각각에 대한 상기 배경 잡음을 추정(estimation)하는 상기 단계는,

상기 측정된 채널 에너지 중 특정 채널 에너지와 상기 채널 에너지의 평균값을 비교하여 상기 특정 채널 에너지가 상기 평균값보다 큰 경우 상기 오디오 신호를 정현파로 판단하는 단계

를 포함하는 것을 특징으로 하는 오디오 신호의 처리 방법.
제5항에 있어서,

상기 음성 거리를 산출하는 상기 단계는,

상기 채널 각각에 대한 상기 신호대잡음비를 합산하여 상기 음성 거리를 산출하는 것을 특징으로 하는 오디오 신호의 처리 방법.
제5항에 있어서,

상기 문턱값은 상기 채널 각각에 대한 상기 신호대잡음비에 기초하여 장기 첨두 신호대잡음비(long term Peak Signal to Noise Ratio)를 측정하고, 상기 측정된 장기 첨두 신호대잡음비에 따라 상기 문턱값이 결정되는 것을 특징으로 하는 오디오 신호의 처리 방법.
삭제
삭제
제1항 또는 제2항 중 어느 한 항의 방법을 실행하기 위한 프로그램이 기록되어 있는 것을 특징으로 하는 컴퓨터에서 판독 가능한 기록 매체.
통신망을 통해 가입자 단말기로 전송되는 오디오 신호의 처리 장치에 있어서,

상기 오디오 신호를 일정한 알고리즘에 따라 분석하여, 하나 이상의 채널로 분리하는 채널 분리부;

상기 채널 각각에 채널 에너지를 측정하는 채널 측정부; 및

상기 측정된 채널 에너지 중 특정 채널 에너지를 선택하고, 상기 특정 채널 에너지를 증폭하는 채널 에너지 증폭부

를 포함하고,

상기 채널 분리부는,

상기 일정한 알고리즘으로 FFT(Fast Fourier Transform) 알고리즘을 이용하여 상기 오디오 신호를 하나 이상의 채널로 분리하며,

상기 특정 채널 에너지가 증폭된 상기 오디오 신호는 소정의 코덱 모듈에서 부호화(encoding) 되어 상기 가입자 단말기로 전송되고, 상기 코덱(CODEC) 모듈에서는,

상기 오디오 신호에 대해 상기 채널 각각에 대한 채널 에너지를 측정하고, 상기 채널 각각에 대한 배경 잡음을 추정(estimation)하는 단계;

상기 채널 에너지 및 상기 배경 잡음을 이용하여 상기 채널 별 신호대잡음비(SNR: signal-to-noise ratio)를 측정하는 단계; 및

상기 채널 별 신호대잡음비에 기초하여 음성 거리를 산출하고, 상기 산출된 음성 거리에 따라 상기 오디오 신호를 부호화하는 단계

가 수행되며,

상기 코덱(CODEC) 모듈은,

AMR(Adaptive Multi Rate) 코덱의 VAD(Voice Activity Detection)의 옵션 중에서, 제2 옵션(OPTION 2)을 이용하는 것을 특징으로 하는 오디오 신호의 처리 장치.
제12항에 있어서,

상기 특정 채널 에너지는 상기 채널 각각의 채널 에너지 중 최대값을 갖는 채널 에너지인 것을 특징으로 하는 오디오 신호 처리 장치.
제12항에 있어서,

상기 특정 채널 에너지는 상기 채널 각각의 채널 에너지 중 최대값을 갖는 채널 에너지이고,

상기 채널 에너지 증폭부는,

상기 특정 채널 에너지를 갖는 채널 이외의 채널 에너지를 감소시켜서 상기 특정 채널 에너지를 상대적으로 증폭하는 것을 특징으로 하는 오디오 신호 처리 장치.
제12항에 있어서,

상기 분리부는,

FFT(Fast Fourier Transform) 알고리즘을 이용하여 상기 오디오 신호를 하나 이상의 채널로 분리하는 것을 특징으로 하는 오디오 신호 처리 장치.
제8항에 있어서,

상기 장기 첨두 신호대잡음비(long term Peak Signal to Noise Ratio)는,

2회 이상 측정된 PSNR값의 데이터 베이스를 의미하는 것을 특징으로 하는 오디오 신호의 처리 방법.
제1항 또는 제2항에 있어서,

상기 AMR(Adaptive Multi Rate) 코덱은,

ETSI(European Telecommunications Standards Institute)에서 GSM(Global System for Mobile communication)용으로 정의한 음성 코덱을 의미하는 것을 특징으로 하는 오디오 신호의 처리 방법.
제1항 또는 제2항에 있어서,

상기 코덱 모듈은, AMR(Adaptive Multi Rate) 코덱의 VAD(Voice Activity Detection)의 옵션 중에서, 제2 옵션(OPTION 2)을 이용하여, 상기 특정 채널 에너지가 증폭된 상기 오디오 신호에 대해, 상기 채널 각각에 대한 채널 에너지를 측정하고, 상기 채널 각각에 대한 상기 배경 잡음을 추정하며,

상기 배경 잡음은 하기 수학식 4을 이용하여 추정되는 것을 특징으로 하는 오디오 신호의 처리 방법.

(상기
는 프레임
에서
번째 채널의 채널 에너지이고, 상기
는 프레임
에서
번째 채널의 배경 잡음이며, 상기
는 채널의 개수.)
제1항 또는 제2항에 있어서,

상기 코덱 모듈은, AMR(Adaptive Multi Rate) 코덱의 VAD(Voice Activity Detection)의 옵션 중에서, 제2 옵션(OPTION 2)을 이용하여, 상기 측정된 채널 에니지와 상기 특정 채널 에너지의 평균값을 비교하여 상기 특정 채널 에너지가 상기 평균값보다 큰 경우 상기 오디오 신호를 정현파로 판단하며,

상기 특정 채널 에너지는 하기 수학식 5를 이용하여 추정되는 것을 특징으로 하는 오디오 신호의 처리 방법.

(상기
는 프레임
에서
번째 채널의 채널 에너지이고, 상기
는 채널의 개수이며, 상기
는 상기 제2 채널 에너지의 평균값.)
제1항 또는 제2항에 있어서,

상기 코덱 모듈은, AMR(Adaptive Multi Rate) 코덱의 VAD(Voice Activity Detection)의 옵션 중에서, 제2 옵션(OPTION 2)을 이용함으로써, 상기 채널 각각에 대한 채널 에너지 및 상기 배경 잡음을 이용하여 상기 채널 각각에 대한 신호대잡음비를 측정하며,

상기 신호대잡음비는 하기 수학식 6을 이용하여 측정되는 것을 특징으로 하는 오디오 신호의 처리 방법.

(상기
는 프레임
에서
번째 채널의 채널 에너지이고, 상기
는 프레임
에서
번째 채널의 배경 잡음이며, 상기
는 채널의 개수.)
제12항에 있어서,

상기 코덱 모듈은, AMR(Adaptive Multi Rate) 코덱의 VAD(Voice Activity Detection)의 옵션 중에서, 제2 옵션(OPTION 2)을 이용하여, 상기 특정 채널 에너지가 증폭된 상기 오디오 신호에 대해, 상기 채널 각각에 대한 채널 에너지를 측정하고, 상기 채널 각각에 대한 상기 배경 잡음을 추정하며,

상기 배경 잡음은 하기 수학식 7을 이용하여 추정되는 것을 특징으로 하는 오디오 신호의 처리 장치.

(상기
는 프레임
에서
번째 채널의 채널 에너지이고, 상기
는 프레임
에서
번째 채널의 배경 잡음이며, 상기
는 채널의 개수.)
제12항에 있어서,

상기 코덱 모듈은, AMR(Adaptive Multi Rate) 코덱의 VAD(Voice Activity Detection)의 옵션 중에서, 제2 옵션(OPTION 2)을 이용하여, 상기 측정된 채널 에니지와 상기 특정 채널 에너지의 평균값을 비교하여 상기 특정 채널 에너지가 상기 평균값보다 큰 경우 상기 오디오 신호를 정현파로 판단하며,

상기 특정 채널 에너지는 하기 수학식 8를 이용하여 추정되는 것을 특징으로 하는 오디오 신호의 처리 장치.

(상기
는 프레임
에서
번째 채널의 채널 에너지이고, 상기
는 채널의 개수이며, 상기
는 상기 제2 채널 에너지의 평균값.)
제12항에 있어서,

상기 코덱 모듈은, AMR(Adaptive Multi Rate) 코덱의 VAD(Voice Activity Detection)의 옵션 중에서, 제2 옵션(OPTION 2)을 이용함으로써, 상기 채널 각각에 대한 채널 에너지 및 상기 배경 잡음을 이용하여 상기 채널 각각에 대한 신호대잡음비를 측정하며,

상기 신호대잡음비는 하기 수학식 9을 이용하여 측정되는 것을 특징으로 하는 오디오 신호의 처리 장치.

(상기
는 프레임
에서
번째 채널의 채널 에너지이고, 상기
는 프레임
에서
번째 채널의 배경 잡음이며, 상기
는 채널의 개수.)