KR101038964B1

KR101038964B1 - 에코 제거/억제 방법 및 장치

Info

Publication number: KR101038964B1
Application number: KR1020097005531A
Authority: KR
Inventors: 빈시 카오; 도석 김; 아흐메드 에이 타라프; 도날드 조셉 유쿠스
Original assignee: 알카텔-루센트 유에스에이 인코포레이티드
Priority date: 2006-09-19
Filing date: 2007-09-18
Publication date: 2011-06-03
Also published as: CN101542600A; EP2070085A1; US7852792B2; CN101542600B; WO2008036246B1; KR20090051760A; WO2008036246A1; JP5232151B2; JP2010503325A; EP2070085B1; US20080069016A1

Abstract

에코 억제 또는 제거 방법에서, 기준 음성 패킷은 목표 음성 패킷 및 다수의 기준 음성 패킷 각각과 관련된 적어도 하나의 인코딩된 음성 파라미터에 기초하여 다수의 기준 음성 패킷으로부터 선택된다. 목표 패킷에서의 에코는 선택된 기준 음성 패킷에 기초하여 억제되거나 제거된다.

Description

에코 제거/억제 방법 및 장치{PACKET BASED ECHO CANCELLATION AND SUPPRESSION}

본 발명은 패킷 기반 에코 억제/제거 방법 및 장치에 관한 것이다.

통상적인 통신 시스템에서, 인코더는 음성 또는 데이터 트래픽을 나타내는 정보 비트의 스트림을 생성한다. 이러한 비트 스트림은 세분되어 분류되고, 다양한 제어 비트와 연결되며, 전송에 적합한 포맷으로 패키징된다. 음성 및 데이터 트래픽은, 예를 들어, 프레임, 패킷, 서브패킷 등과 같은 적절한 통신 메커니즘에 따라 다양한 포맷으로 전송될 수 있다. 명료성을 위해, 용어 "전송 프레임"은 본 명세서에서 트래픽이 실제로 전송되는 전송 포맷을 설명하는 데 사용될 것이다. 용어 "패킷"은 본 명세서에서 스피치 코더(a speech coder)의 출력을 설명하는 데 사용될 것이다. 스피치 코더는 음성 코더, 즉, "보코더(vocoders)"를 지칭하기도 하며, 그 용어는 본 명세서에서 호환하여 사용될 것이다.

보코더는 (인간의 스피치와 같은) 음성 정보의 생성 모델에 관한 파라미터를 추출하고, 추출된 파라미터를 사용하여 전송을 위해 음성 정보를 압축한다. 보코 더는, 일반적으로, 인코더와 디코더를 포함한다. 보코더는 입력 음성 정보(예를 들어, 아날로그 음성 신호)를 블록으로 분할하고, 입력 음성 블록을 분석하여 소정의 관련 파라미터를 추출하며, 그 파라미터를 이진 표시 또는 비트 표시로 양자화한다. 비트 표시는 패킷으로 패키징되고, 패킷은 전송 프레임으로 포맷되며, 전송 프레임은 통신 채널을 통해 디코더를 구비한 수신기로 전송된다. 수신기에서, 패킷은 전송 프레임으로부터 추출되고, 디코더는 패킷 내에 전달된 비트 표시를 양자화하여 코딩 파라미터 세트를 생성한다. 그 후, 디코더는 음성 세그먼트를 재합성하고, 후속으로, 양자화되지 않은 파라미터를 사용하여 오리지널 음성 정보를 재합성한다.

상이한 유형의 보코더는, 흔히, 다양한 압축 기술을 이용하여 기존의 다양한 무선 및 유선 통신 시스템 내에 배치된다. 또한, 한 가지 특정 표준에 의해 정의된 전송 프레임 포맷 및 프로세싱은 다른 표준에 의해 정의된 전송 프레임 포맷 및 프로세싱과 현저히 상이할 수도 있다. 예를 들어, CDMA 표준은 확산 스펙트럼 환경에서 가변 레이트 보코더 프레임(variable-rate vocoder frames)의 사용을 지원하는 반면, GSM 표준은 고정 레이트 및 멀티 레이트 보코더 프레임(fixed-rate and multi-rate vocoder frames)의 사용을 지원한다. 유사하게, UMTS(Universal Mobile Telecommunications Systems) 표준도 고정 레이트 및 멀티 레이트 보코더를 지원하지만, 가변 레이트 보코더를 지원하는 것은 아니다. 이들 통신 시스템 사이의 호환성 및 상호 운용 가능성(interoperability)에 대해, GSM 및 UMTS 시스템 내에서의 가변 레이트 보코더 프레임의 지원과, CDMA 시스템 내에서의 비가변 레이트 보코더 프레임(non-variable rate vocoder frames)의 지원을 가능하게 하는 것이 바람직할 수 있다. 모든 통신 시스템 도처에서의 한 가지 공통 사건이 에코의 발생이다. 어쿠스틱 에코 및 전기적 에코가 예시적인 유형의 에코이다.

어쿠스틱 에코는 핸드셋 및/또는 핸드프리 디바이스의 이어폰과 마이크로폰 사이의 불량한 음성 커플링에 의해 발생한다. 전기적 에코는 PSTN 네트워크 내의 4 대 2 와이어 커플링(4-to-2 wire coupling)으로부터 초래된다. 음성 압축 보코더(voice-compressing vocoders)는 핸드셋 및 무선 네트워크 내에서 에코를 포함하는 음성을 처리하여, 고도의 가변 특성을 갖는 반송 에코 신호가 되게 한다. 에코 신호는 음성 호출 품질을 열화시킨다.

어쿠스틱 에코의 한 가지 실례에서, 확성기로부터의 소리는, 의도한 바와 같이, 근거리 측의 청취자에 의해 들린다. 그러나, 근거리 측에서의 동일한 소리는, 또한, 반사된 후, 직접적으로 또한 간접적으로, 마이크로폰에 의해 획득된다. 에코가 제거되지 않는 경우에, 원거리 측으로 반송되고 원거리 측의 화자에 의해 들리는 에코의 생성이 그러한 반사의 결과이다.

도 1은 에코 신호를 제거하는 데 사용되는 통상적인 에코 제거기/억제기를 포함한 VoP 네트워크(a voce over packet network)의 도면이다.

통상적인 에코 제거기/억제기(100)가 패킷 교환형 네트워크에서 사용된다면, 통상적인 에코 제거기는 모든 통상적인 에코 제거 동작이 선형 비압축 스피치와 함께 작용하기 때문에 양 방향으로 전송된 음성 신호와 관련된 보코더 패킷을 완전하게 디코딩하여 에코 제거 파라미터를 획득해야 한다. 즉, 통상적인 에코 제거기/억제기(100)는 송신 프레임으로부터 패킷을 추출하고, 패킷 내에 전달된 비트 표시를 양자화하여 코딩 파라미터 세트를 생성하며, 에코를 제거하기 전에 음성 세그먼트를 재합성한다. 통상적인 에코 제거기/억제기는 재합성된 음성 세그먼트를 사용하여 에코를 제거한다.

송신된 음성 정보가 송신 이전에 (예를 들어, 매개 도메인(the parametric domain)에서) 파라미터 내에 인코딩되고 통상적인 에코 억제기/제거기가 선형 스피치 도메인에서 동작하기 때문에, 패킷 교환형 네트워크 내의 통상적인 에코 제거/억제는 비교적 어렵고 복잡해지며, 예를 들어, 수반된 추가 연계 코딩 때문에 인코딩 및/또는 디코딩 지연의 추가 및/또는 음성 품질의 열화를 가져올 수 있다.

예시적인 실시예는 패킷 기반 에코 억제/제거용 방법 및 장치에 관한 것이다. 예시적인 일 실시예는 에코 억제/제거 방법을 제공한다. 이 예시적인 실시예에서, 기준 음성 패킷은 목표 음성 패킷 및 다수의 기준 음성 패킷 각각과 관련된 적어도 하나의 인코딩된 음성 파라미터에 기초하여 다수의 기준 음성 패킷으로부터 선택된다. 목표 음성 패킷의 에코는 선택된 기준 음성 패킷에 기초하여 억제/제거된다.

본 발명은 이하의 상세한 설명 및 첨부한 도면으로부터 보다 완전히 이해될 것이다. 도면에서, 동일한 구성요소는 동일한 참조 번호로 표시된다. 이러한 모든 사항은 오로지 예시로서 주어지며, 그에 따라 본 발명의 제한 사항이 아니다.

도 1은 통상적인 에코 제거기/억제기를 포함하는 VoP 네트워크의 도면,

도 2는 예시적인 실시예에 따른 에코 제거기/억제기를 예시한 도면,

도 3은 예시적인 실시예에 따른 에코 제거/억제 방법을 예시한 도면이다.

예시적인 실시예에 따른 방법 및 장치는, 예를 들어, 패킷 교환형 통신 시스템 내의 특정 애플리케이션에 의존하여 에코 제거 및/또는 에코 억제를 수행할 수 있다. 예시적인 실시예는 본 명세서에서 에코 제거/억제, 에코 제거기/억제기 등으로서 설명될 것이다.

이하, 예시적인 목적으로, 에코형 음성 정보(예를 들어, 근거리 측에서 수신되고 원거리 측으로 에코되는 음성 정보)를 전달하는 것으로 짐작되는 보코더 패킷은 목표 패킷이라 지칭되고, 이들 목표 패킷과 관련된 코딩 파라미터는 목표 패킷 파라미터라 지칭될 것이다. 목표 패킷이 에코 음성 정보를 포함하는가의 여부를 판별하는 데 사용되는 근거리 측으로부터의 최초 송신 음성 정보(예를 들어, 잠재적인 에코 음성 정보)는 기준 패킷이라 지칭될 것이다. 기준 패킷과 관련된 코딩 파라미터는 기준 패킷 파라미터라고 지칭될 것이다.

전술한 바와 같이, 도 1은 통상적인 에코 제거기/억제기를 포함하는 VoP 네트워크의 도면을 예시한다. 예시적인 실시예에 따른 방법은, 도 1에 도시한 에코 제거기/억제기와 같은 기존의 에코 제거기/억제기에서 구현될 수 있다. 예를 들어, 예시적인 실시예는 기존의 DSP(Digital Signal Processors), FPGA(Field Programmable Gate Arrays) 등 상에 구현될 수 있다. 또한, 예시적인 실시예는, VoIP 네트워크, VoATM 네트워크, TrFO네트워크 등과 같은 임의의 유형의 지상 또는 무선 패킷 교환형 네트워크와 결합하여 사용될 수 있다.

음성 정보를 인코딩하는 데 사용되는 한 가지 예시적인 보코더가 CELP(Code Excited Linear Prediction) 기반 보코더이다. CELP 기반 보코더는 디지털 음성 정보를 코딩 파라미터 세트 내에 인코딩한다. 이들 파라미터는, 예를 들어, 적응적 코드북 및 고정 코드북 이득, 피치/적응적 코드북, LSP(Linear Spectrum Pairs) 및 고정 코드북을 포함한다. 이들 파라미터 각각은 다수의 비트에 의해 표시될 수 있다. 예를 들어, 잘 알려진 보코더인 EVRC(Enhanced Variable Rate CODEC) 보코더의 전-레이트 패킷(a full-rate packet)의 경우, LSP는 28 비트에 의해 표시되고, 피치 및 그것의 대응 델타는 12 비트에 의해 표시되며, 적응적 코드북 이득은 9비트에 의해 표시되고, 고정 코드북 이득은 15 비트에 의해 표시된다. 고정 코드북은 120 비트에 의해 표시된다.

계속해서 도 1을 기준하면, 에코 스피치 신호가 근거리 측에서의 CELP 보코더에 의한 음성 정보의 인코딩 동안에 나타난다면, 송신 보코더 패킷의 적어도 일부분은 에코 음성 정보를 포함할 수 있다. 에코 음성 정보는 최초 송신 음성 정보와 동일하거나 유사할 수 있으며, 그에 따라 근거리 측으로부터 원거리 측으로 송신 음성 정보를 전달하는 보코더 패킷은 최초 인코딩 음성 정보를 원거리 측으로부 터 근거리 측으로 전달하는 보코더 패킷과 유사하거나 실질적으로 유사하며, 또는 그와 동일할 수 있다. 즉, 예를 들어, 최초 보코더 패킷의 비트는, 에코 음성 정보를 전달하는 대응 보코더 패킷 내의 비트와 유사하거나 실질적으로 유사하며, 또는 그와 동일할 수 있다.

예시적인 실시예에 따른 패킷 도메인 에코 제거기/억제기 및/또는 동일물에 대한 방법은 송신 패킷과 관련된 코딩 파라미터를 적응적으로 조절함으로써 소신 신호 내의 에코 제거/억제에 이러한 유사성(similarity)을 활용한다.

예시적인 목적으로, 예시적인 실시예는 EVRC 보코더와 같은 CELP 기반 보코더에 관해 설명될 것이다. 그러나, 예시적인 실시예에 따른 방법 및/또는 장치는 임의의 적합한 보코더와 결합하여 사용될 수 있고 및/또는 사용되도록 적응될 수 있다.

도 2는 예시적인 실시예에 따른 에코 제거기/억제기를 예시한다. 도시한 바와 같이, 도 2의 에코 제거기/억제기는 원거리 측으로부터 수신된 최초 보코더 패킷(기준 패킷)을 기준 패킷 버퍼 메모리(202) 내에 버퍼링할 수 있다. 에코 제거기/억제기는 근거리 측으로부터의 목표 패킷을 목표 패킷 버퍼 메모리(204)에 버퍼링할 수 있다. 도 2의 에코 제거기/억제기는 에코 제거/억제 모듈(206) 및 메모리(208)를 더 포함할 수 있다.

에코 제거/억제 모듈(206)은 기준 패킷 버퍼 메모리(202) 내에 저장된 적어도 하나의 기준 패킷 및 목표 패킷 버퍼(204)에 저장된 적어도 하나의 목표 패킷과 관련된 적어도 하나의 인코딩된 음성 파라미터에 기초하여 (예를 들어, 송신 및/또는 수신) 신호로부터 에코를 제거/억제할 수 있다. 에코 제거/억제 모듈(206) 및 그들 내부에서 수행되는 방법이 아래에서 보다 상세히 논의될 것이다.

메모리(208)는 음성 패킷 유사성 메트릭, 대응하는 기준 음성 패킷, 목표 음성 패킷 등과 같은 음성 패킷 및/또는 매개 값을 저장할 수 있다. 적어도 하나의 예시적인 실시예에서, 메모리(208)는 개별적인 유사성 메트릭 및/또는 전체적인 유사성 메트릭을 저장할 수 있다. 메모리(208)는 아래에서 보다 상세히 설명될 것이다.

도 2를 참조하면, 버퍼 메모리(204)의 길이는 궤적 검색/정합 동작(a trajectory searching/matching operation)에 대한 궤적 정합 길이(a trajectory match length)에 기초하여 판정될 수 있으며, 이는 아래에서 보다 상세히 설명될 것이다. 예를 들어, 각각의 보코더 패킷이 20 ms의 음성 세그먼트를 전달하고, 궤적 정합 길이가 120 ms라면, 버퍼 메모리(204)는 6개의 목표 패킷을 보유할 수 있다.

버퍼 메모리(202)의 길이는 에코 후부(the echo tail) 길이, 네트워크 지연 및 궤적 정합 길이에 기초하여 판정될 수 있다. 예를 들어, 각각의 보코더 패킷이 20 ms의 음성 세그먼트를 전달하고, 에코 후부 길이가 180 ms이며, 궤적 정합 길이가 120 ms(예를 들어, 6개의 패킷)라면, 버퍼 메모리(202)는 15 개의 기준 패킷을 보유할 수 있다. 기준 패킷으로서 버퍼(202) 내에 저장될 수 있는 최대 개수의 패킷은 m에 의해 표시될 수 있다.

도 2가 2개의 버퍼(202, 204)를 예시하고 있지만, 이들 버퍼는 단일 메모리 에 결합될 수도 있다.

적어도 한 가지 실례에서, 에코 후부 길이는 에코 경로의 알려진 네트워크 파라미터에 의해 판정 및/또는 정의될 수도 있고, 또는 실제 검색 프로세스를 이용하여 획득될 수도 있다. 에코 후부 길이를 판정하는 방법은 본 분야에서 잘 알려져 있다. 에코 후부 길이를 판정한 후, 적어도 몇 가지 예시적인 실시예에 따른 방법이 에코 후부 길이와 동일한 시간 윈도우 내에서 수행될 수 있다. 시간 윈도우 폭은, 예를 들어, 길이 면에서 하나 또는 여러 개의 송신 프레임과 동등할 수도 있고, 또는 길이 면에서 하나 또는 여러 개의 패킷과 동등할 수도 있다. 예시적인 목적으로, 에코 후부 길이가 단일 송신 프레임에서 송신된 스피치 신호의 길이와 동등하다는 전제의 예시적인 실시예가 설명될 것이다.

예시적인 실시예는 버퍼(202)에 저장된 기준 패킷과 에코 음성 정보를 전달하는 목표 패킷을 정합시킴으로써 어떠한 에코 후부 길이에도 적용될 수 있다. 목표 패킷이 에코 음성 정보를 포함하는지의 여부는 목표 패킷을 버퍼(202) 내에 저장된 m개의 기준 패킷 각각과 비교함으로써 판정될 수 있다.

도 3은 예시적인 실시예에 따른 에코 제거/억제 방법을 예시한 흐름도이다. 도 3에 도시한 방법은 도 2에 도시한 에코 제거/억제 모듈(206)에 의해 수행될 수 있다.

도 3을 참조하면, 단계(S302)에서, 카운터 값 j가 1로 초기화될 수 있다. 단계(S304)에서, 기준 패킷 R_j가 버퍼(202)로부터 검색될 수 있다. 단계(S306)에서, 에코 제거/억제 모듈(206)은 카운터 값 j를 임계 값 m과 비교할 수 있다. 전술한 바와 같이, m은 버퍼(202) 내에 저장된 기준 패킷의 수와 동일할 수 있다. 이 실례에서는, 버퍼(202) 내에 저장된 기준 패킷의 개수 m이 단일 송신 프레임 내에서 송신된 기준 패킷의 개수와 동일하기 때문에, 임계 값 m은 단일 송신 프레임 내에서 송신된 패킷의 개수와 동일할 수 있다. 이 경우, 값 m은 본 분야에서 잘 알려진 바와 같이 송신 프레임 내에 포함된 송신 프레임 헤더로부터 추출될 수 있다.

단계(S306)에서, 카운터 값 j가 임계값 m보다 적거나 그와 같다면, 단계(S308)에서 에코 제거/억제 모듈(206)은 인코딩된 파라미터를 기준 패킷 R_j로부터 추출한다. 동시에, 단계(S308)에서, 에코 제거/억제 모듈(206)은 인코딩된 코딩 파라미터를 목표 패킷 T로부터 추출한다. 이들 파라미터를 추출하는 방법은 본 분야에서 잘 알려져 있다. 따라서, 상세한 논의는 간결성을 위해 생략된다. 전술한 바와 같이, 예시적인 실시예는 본 명세서에서 CELP 기반 보코더에 관해 설명된다. CELP 기반 인코더의 경우, 기준 패킷 파라미터 및 목표 패킷 파라미터는 고정 코드북 이득 G_f, 적응적 코드북 이득 G_a, 피치 P 및 LSP를 포함할 수 있다.

계속해서 도 3을 참조하면, 단계(S309)에서, 에코 제거/억제 모듈(206)은 목표 패킷 T 및 기준 패킷 R_j로부터 추출된 인코딩된 코딩 파라미터의 일부분에 기초하여 이중 토크 검출(double talk detection)을 수행하여, 이중 토크가 기준 패킷 R_j 내에 존재하는지의 여부를 판정할 수 있다. 이중 토크를 포함하는 음성 세그먼트 동안에는, 에코된 원거리 측 음성 정보가 근거리 측 음성 정보에 묻히기 때문에 에코 제거/억제가 수행될 필요가 없고, 그에 따라 원거리 측에서는 지각할 수 없다.

이중 토크 검출은 기준 패킷 R_j가 이중 토크를 포함하는지의 여부를 판정하는 데 사용될 수 있다. 예시적인 실시예에서, 이중 토크는 목표 패킷 T로부터 추출된 인코딩된 파라미터와 기준 패킷 R_j로부터 추출된 인코딩된 파라미터를 비교함으로써 검출될 수 있다. 전술한 CELP 보코더의 실례에서, 인코딩된 파라미터는 고정 코드북 이득 G_f 및 적응적 코드북 이득 G_a일 수 있다.

에코 제거/억제 모듈(206)은 이중 토크가 수학식(1)에 도시한 조건에 따라 존재하는지의 여부를 판정할 수 있다.

수학식(1)에 따르면, 기준 패킷 R_j에 대한 고정 코드북 이득 G_fR 과 목표 패킷 T에 대한 고정 코드북 이득 G_fT 사이의 차이가 고정 코드북 이득 임계 값 △_f보다 작다면, 이중 토크는 기준 패킷 R_j에 존재하며, 이중 토크 검출 플래그 DT는 1로 설정될 수 있다(예를 들어, DT=1). 유사하게, 기준 패킷 R_j에 대한 적응적 코드북 이득 G_aR과 목표 패킷 T에 대한 적응적 코드북 이득 G_aT 사이의 차이가 적응적 코드 북 이득 임계 값 △_a보다 작다면, 이중 토크는 기준 패킷 R_j 내에 존재하며, 이중 토크 검출 플래그 DT는 1로 설정될 수 있다(예를 들어, DT=1). 그렇지 않다면, 이중 토크는 기준 패킷 R_j 내에 존재하지 않으며 이중 토크 검출 플래그는 설정되지 않을 수 있다(예를 들어, DT=0).

도 3을 다시 참조하면, 이중 토크 검출 플래그 DT가 단계(S310)에서 설정되지 않는다면(예를 들어, DT=0), 목표 패킷 T로부터 추출된 인코딩된 파라미터와 기준 패킷 R_j로부터 추출된 인코딩된 파라미터 사이의 유사성 평가는 단계(S312)에서 수행될 수 있다. 유사성 평가는 목표 패킷 T로부터 추출된 인코딩된 파라미터, 기준 패킷 R_j로부터 추출된 인코딩된 파라미터, 및 유사성 임계 값에 기초하여 다수의 유사성 플래그 각각을 설정할 것인지를 판정하는 데 사용될 수 있다.

유사성 플래그는 유사성 표시자로서 지칭될 수도 있다. 유사성 플래그 또는 유사성 표시자는, 예를 들어 피치 유사성 플래그(또는 표시자) PM 및 다수의 LSP 유사성 플래그(또는 표시자)를 포함할 수 있다. 다수의 LSP 유사성 플래그는 다수의 대역폭 유사성 플래그 BM_i 및 다수의 주파수 유사성 정합 플래그 FM_i를 포함할 수 있다.

도 3의 단계(S312)를 계속해서 참조하면, 제거/억제 모듈(206)은 수학식(2)에 따라 기준 패킷 R_j에 대해 피치 유사성 플래그 PM을 설정할 것인지를 판정할 수 있다.

수학식(2)에 도시한 바와 같이, P_T는 목표 패킷과 관련된 피치이고, P_R은 기준 패킷 R_j와 관련된 피치이며, △_P는 피치 임계 값이다. 피치 임계 값 △_P는 사용된 특정 유형의 보코더에 따라 획득된 실험적 데이터에 기초하여 판정될 수 있다. 수학식(2)에 도시한 바와 같이, 피치 P_T와 피치 P_R 사이의 차이의 절대 값이 임계 값 △_P보다 작거나 그와 동일하다면, 피치 P_T는 피치 P_R과 유사하고, 피치 유사성 플래그 PM은 1로 설정될 수 있다. 그렇지 않다면, 피치 유사성 플래그 PM은 0으로 설정될 수 있다.

도 3의 단계(S312)를 계속해서 참조하면, 전술한 피치 유사성 평가 방법과 유사하게, LSP 유사성 평가는 기준 패킷 R_j가 목표 패킷 T와 유사한가를 판정하는 데 이용될 수 있다.

일반적으로, CELP 보코더는 벡터 양자화를 이용하여 10개의 LSP 값을 인코딩하는 10차 LPC 예측 필터(a 10th order Linear Predictive Coding Predictive filter)를 활용한다. 또한, 각각의 LSP 쌍은 대응하는 스피치 스펙트럼 포먼트(a corresponding speech spectrum formant)를 규정한다. 포먼트는 임의의 어쿠스틱 시스템의 공진 주파수로부터 초래한 어쿠스틱 주파수 스펙트럼의 피크이다. 각각의 특정 포먼트는 수학식(3)에 의해 주어진 대역폭 B_i 및 수학식(4)에 의해 주어진 중심 주파수 F_i에 의해 표현될 수 있다.

수학식(3) 및 (4)에 도시한 바와 같이, B_i는 i번째 포먼트의 대역폭이고, F_i는 i번째 포먼트의 중심 주파수이며, LSP_2i 및 LSP_2i-1은 i번째 쌍의 LSP 값이다.

이 실례에서, 10차 LPC 예측 필터의 경우, 5쌍의 LSP 값이 생성될 수 있다.

첫 번째 3개의 포먼트 각각은 음성 세그먼트에 대한 현저한 또는 비교적 현저한 스펙트럼 엔벨로프 정보를 포함할 수 있다. 그 결과, LSP 유사성 평가는 첫 번째 3개의 포먼트 i=1, 2, 3에 기초하여 수행될 수 있다.

i=1, 2, 3인 경우, 각각의 포먼트마다, 목표 패킷 T와 관련된 대역폭 B_Ti가 기준 패킷 R_j와 관련된 대역폭 B_Ri와 유사한지를 표시하는 대역폭 유사성 플래그 BM_i는 수학식(5)에 따라 설정될 수 있다.

수학식(5)에 도시한 바와 같이, B_Ti는 목표 패킷 T와 관련된 i번째 대역폭이고, B_Ri는 기준 패킷 R_j와 관련된 i번째 대역폭이며, △_Bi는 대역폭 B_Ti및 B_Ri가 유사한지를 판정하는 데 사용되는 i번째 대역폭 임계이다. BM_i=1이면, i번째 대역폭 B_Ti 및 B_Ri 모두는 서로의 소정 범위 내에 있으며, 유사하게 간주될 수 있다. 그렇지 않다면, BM_i=0일 때, i번째 대역폭 B_Ti 및 B_Ri는 유사한 것으로 간주되지 않을 수 있다. 피치 임계와 유사하게, 각각의 대역폭 임계는 사용된 특정 유형의 보코더에 따라 획득된 실험적 데이터에 기초하여 판정될 수 있다.

도 3의 단계(S312)를 계속해서 참조하면, 목표 패킷 T와 관련된 i번째 주파수가 기준 패킷 R_j와 관련된 대응 i번째 주파수와 유사한지는 주파수 유사성 플래그 FM_i에 의해 표시될 수 있다. 주파수 유사성 플래그 FM_i는 수학식(6)에 따라 설정될 수 있다.

수학식(6)에서, F_Ti는 목표 패킷 T와 관련된 i번째 중심 주파수이고, F_Ri는 기준 패킷 R_j와 관련된 i번째 중심 주파수이며, △_Fi는 i번째 중심 주파수 임계이다. i번째 중심 주파수 임계 △_Fi는 i=1, 2, 3인 경우에 i번째 목표 주파수와 기준 중심 주파수 F_Ti 및 F_Ri 사이의 유사성을 표시할 수 있다. 피치 임계 및 대역폭 임계와 유사하게, 주파수 임계는 사용된 특정 유형의 보코더에 따라 획득된 실험적 데이터에 기초하여 판정될 수 있다.

FMi는 대응하는 LSP 쌍에 대한 i번째 대역폭의 중심 주파수 유사성 플래그이다. 수학식(6)에 따르면, FM_i=1은 F_Ti와 F_Ri가 유사함을 나타내는 반면, FM_i=0은 F_Ti 와 F_Ri가 유사하지 않음을 나타낸다.

도 3을 참조하면, 단계(S314)에서, 다수의 파라미터 유사성 플래그 PM, BM_i 및 FM_i 각각이 1과 동일하게 설정된 것으로 판정된다면, 기준 패킷 R_j은 목표 패킷 T와 유사한 것으로 간주될 수 있다. 다시 말해, 기준 패킷 R_j는 파라미터 유사성 표시자 PM, BM_i 및 FM_i 각각이 그러한 것을 나타내는 경우에 목표 패킷 T와 유사하다.

그 후, 에코 제거/억제 모듈(206)은 단계(S316)에서 전체 음성 패킷 유사성 메트릭을 계산할 수 있다. 전체 음성 패킷 유사성 메트릭은, 예를 들어, 전체 유사성 메트릭 S_j일 수 있다. 전체 유사성 메트릭 S_j은 목표 패킷 T와 기준 패킷 R_j 사이의 전체 유사성을 나타낼 수 있다.

적어도 한 가지 예시적인 실시예에서, 기준 패킷 R_j와 관련된 전체 유사성 메트릭 S_j는 다수의 개별적인 음성 패킷 유사성 메트릭에 기초하여 계산될 수 있다. 다수의 개별적인 음성 패킷 유사성 메트릭은 개별적인 유사성 메트릭일 수 있다.

다수의 개별적인 유사성 메트릭은 목표 패킷 T 및 기준 패킷 R_j로부터 추출된 인코딩된 파라미터의 적어도 일부분에 기초하여 계산될 수 있다. 이 예시적인 실시예에서, 다수의 개별적인 유사성 메트릭은 i=1, 2, 3인 경우에 피치 유사성 메트릭 S_P, 대역폭 유사성 메트릭 S_Bi, 및 주파수 유사성 메트릭 S_Fi를 포함할 수 있 다. 다수의 개별적인 유사성 메트릭 각각은 동시에 계산될 수 있다.

예를 들어, 피치 유사성 메트릭 S_P은 수학식(7)에 따라 계산될 수 있다.

i개의 포먼트 각각에 대해 대역폭 유사성 S_Bi가 수학식(8)에 따라 계산될 수 있다.

수학식(8)에 도시하고 전술한 바와 같이, B_Ti는 목표 패킷 T에 대한 i번째 포먼트의 대역폭이고, B_Ri는 기준 패킷 R_j에 대한 i번째 포먼트의 대역폭이다.

유사하게, i개의 포먼트 각각에 대한 중심 주파수 유사성 S_Fi는 수학식(9)에 따라 계산될 수 있다.

수학식(9)에 도시하고 전술한 바와 같이, F_Ti는 목표 패킷 T에 대한 i번째 포먼트의 중심 주파수이고, F_Ri는 기준 패킷 R_j에 대한 i번째 포먼트의 중심 주파수이다.

다수의 개별적인 유사성 메트릭을 획득한 후, 전체 유사성 정합 메트릭 S_j가 수학식(10)에 따라 계산될 수 있다.

수학식(10)에서, 각각의 개별적인 유사성 메트릭은 대응하는 가중 함수에 의해 가중될 수 있다. 도시한 바와 같이, α_P는 피치 유사성 메트릭 S_P에 대한 유사성 가중 상수이고, α_LSP는 LSP 스펙트럼 유사성 메트릭 S_Bi에 대한 전체 유사성 가중 상수(an overall similarity weighting constant)이며, β_Bi는 대역폭 유사성 메트릭 S_Bi에 대한 개별적인 유사성 가중 상수이고, β_Fi는 주파수 유사성 메트릭 S_Fi에 대한 개별적인 유사성 가중 상수이다.

아래의 수학식(11)을 만족시키도록 유사성 가중 상수 α_P 및 α_Fi가 결정될 수 있다.

유사하게, 아래의 수학식(12)을 만족시키도록 개별적인 유사성 가중 상수 β_Bi 및 β_Fi가 결정될 수 있다.

적어도 몇 가지 예시적인 실시예에 따르면, 가중 상수는 수학식(11) 및 수학식(12)이 충족되도록 실험적인 데이터에 기초하여 판정 및/또는 조절될 수 있다.

도 3을 참조하면, 단계(S318)에서, 에코 제거/억제 모듈(206)은 계산된 전체 유사성 메트릭 S_j를 도 2의 메모리(208)에 저장할 수 있다. 메모리(208)는 버퍼 메모리와 같은 임의의 잘 알려진 메모리일 수 있다. 카운터 값 j는 단계(S320)에서 j=j+1로 증가하고, 방법은 단계(S304)로 되돌아간다.

도 3의 단계(314)로 되돌아가면, 파라미터 유사성 플래그 중 임의의 것이 설정되지 않은 경우, 에코 제거/억제 모듈(206)은, 기준 패킷 R_j가 목표 패킷 T와 유사하지 않은 것으로 판정하고, 그에 따라 목표 패킷 T는 기준 패킷 R_j에 의해 전달된 최초 음성 정보에 대응하는 에코된 음성 정보를 전달하지 않는다. 이 경우, 카운터 값 j는 증가할 수 있고(j=j+1), 방법은 전술한 바와 진행된다.

도 3의 단계(S310)로 되돌아가면, 이중 토크가 기준 패킷 R_j에서 검출되지 않는다면, 단계(S311)에서 기준 패킷 R_j가 폐기될 수 있고, 단계(S320)에서 카운터 값 j가 j=j+1로 증가할 수 있으며, 단계(S304)에서 에코 제거/억제 모듈(206)이 버퍼(202)로부터 다음 기준 패킷 R_j를 검색한다. 버퍼(202)로부터 다음 기준 패킷 R_j를 검색한 후, 프로세스는 단계(S306)로 진행하여 반복될 수 있다.

단계(S306)로 되돌아가면, 카운터 값 j가 임계 m보다 큰 경우, 단계(S321)에서 벡터 궤적 정합 동작이 수행될 수 있다. 궤적 정합은 목표 패킷의 고정 코드북 이득과 저장된 기준 패킷의 각 고정된 코드북 이득 사이에 상관도를 위치시키는 데 사용될 수 있다. 궤적 정합은, 또한, 목표 패킷의 적응적 코드북 이득과 각 기준 패킷 벡터의 적응적 코드북 이득 사이에 상관도를 위치시키는 데에도 사용될 수 있다. 적어도 한 가지 예시적인 실시예에 따르면, 벡터 궤적 정합은 LMS(Least Mean Square) 및/또는 상호 상관 알고리즘(cross-correlation algorithm)을 이용하여 목표 패킷과 각각의 유사한 기준 패킷 아이의 상관도를 판정하도록 수행될 수 있다. LMS 및 상호 상관 알고리즘은 본 분야에 잘 알려져 있기 때문에 이에 대한 상세한 설명은 간결성을 위해 생략되었다.

적어도 한 가지 예시적인 실시예에서, 벡터 궤적 정합은 목표 패킷과 각각의 저장된 유사 기준 패킷 사이의 유사성을 증명하는 데 사용될 수 있다. 적어도 한 가지 예시적인 실시예에서, 단계(S321)에서의 궤적 벡터 정합은 상관도 임계에 부족한 유사 기준 패킷을 걸러내는 데 사용될 수 있다. 상관도 임계에 부족한 저장된 유사 기준 패킷과 관련된 전체 유사성 메트릭 S_j가 메모리(208)로부터 제거될 수 있다. 상관 임계는 본 분야에서 잘 알려진 바와 같이 실험적 데이터에 기초하여 판정될 수 있다.

도 3의 방법이 단계(S321)에서 벡터 궤적 정합을 예시하고 있지만, 이 단계는 당업자의 희망에 따라 생략될 수도 있다.

단계(S322)에서, 메모리(208) 내의 나머지 저장된 전체 유사성 메트릭 S_j는 에코된 음성 정보를 포함하는 유사 기준 패킷을 판정하도록 검색될 수 있다. 다시 말해, 유사 기준 패킷이 검색되어 목표 패킷과 일치하는 기준 패킷이 판정될 수 있다. 예시적인 실시예에서, 목표 패킷과 일치하는 기준 패킷은 최소의 관련된 전체 유사성 메트릭 S_j를 갖는 기준 패킷일 수 있다.

유사성 메트릭 S_j가 목표 패킷 T 및 기준 패킷 R_j에 의해 메모리(잘 알려져 있지만 간결성을 위해 설명이 생략된 방법)에서 색인 표시된 경우, 전체 유사성 메트릭은 j=1, 2, 3, ..., m에 대해 S(T, R_j)로서 표현될 수 있다.

j=1, 2, 3, ..., m에 대해 전체 유사성 메트릭을 S(T, R_j)로 표현한다면, 수학식(13)을 이용하여 최소의 전체 유사성 메트릭 S_min이 획득될 수 있다.

다시 도 3을 참조하면, 정합 기준 패킷을 위치시킨 후, 단계(S324)에서 에코 제거/억제 모듈(206)은 정합 기준 패킷으로부터 추출된 인코딩된 파라미터의 일부분에 기초하여 에코를 제거/억제할 수 있다. 예를 들어, 에코는 목표 패킷 T와 관련된 이득을 조절함으로써(예를 들어, 감쇄시킴으로써) 제거/억제될 수 있다. 이득 조절은 정합된 기준 패킷, 이득 가중 상수, 및 정합 기준 패킷과 관련된 전체 유사성 메트릭에 기초하여 수행될 수 있다.

예를 들어, 에코는 아래의 수학식(14)에 도시한 적응적 코드북 이득 및 아래의 수학식(15)에 도시한 고정 코드북 이득을 감쇄시킴으로써 제거/억제될 수 있다.

수학식(14)에 도시한 바와 같이, G_fR'은 기준 패킷과 관련된 고정 코드북의 조절된 이득이고, W_f는 고정 코드북의 이득 가중치이다.

수학식(15)에 도시한 바와 같이, G_aR'은 기준 패킷과 관련된 적응적 코드북 의 조절된 이득이고, W_a는 적응적 코드북의 이득 가중치이다. 초기에, W_f 및 W_a는 모두 1일 수 있다. 그러나, 이들 값은, 예를 들어, 스피치 특성(예를 들어, 음성 또는 비음성) 및/또는 기준 패킷에 대해 상대적인 목표 패킷에서의 에코 비율에 따라 적응적으로 조절될 수 있다.

예시적인 실시예에 따르면, 목표 패킷의 적응적 코드북 이득 및 고정 코드북 이득이 감쇄한다. 예를 들어, 기준 패킷 및 목표 패킷의 유사성에 기초하여, 목표 패킷 내의 적응적 코드북 및 고정 코드북의 이득이 조절될 수 있다.

예시적인 실시예에 따르면, 에코는 목표 음성 신호를 디코딩 및 재인코딩하지 않고 매개 영역에서 추출된 파라미터를 사용하여 제거/억제될 수 있다.

위에서는 도 3에 도시한 방법의 1회 반복만이 설명되었지만, 도 3의 반복은 버퍼(202) 내에 저장된 각각의 기준 패킷 R_j 및 버퍼(204) 내에 저장된 각각의 목표 패킷 T에 대해 수행될 수 있다. 즉, 예를 들어, 버퍼(202) 내에 저장된 다수의 기준 패킷은 버퍼(204) 내의 각각의 목표 패킷과 일치하는 기준 패킷을 찾도록 검색될 수 있다.

본 발명이 이와 같이 설명되고 있지만, 다양한 방법으로 변형될 수도 있음이 명백할 것이다. 이러한 변형은 본 발명과는 다른 것으로서 간주되어서는 아니 되며, 그러한 변형 모두는 본 발명의 범주 내에 포함되는 것으로 의도된다.

Claims

에코를 억제하는 방법으로서,

목표 음성 패킷(a targeted voice packet) 및 다수의 기준 음성 패킷(a plurality of reference voice packets) 각각과 관련된 적어도 하나의 인코딩된 음성 파라미터(at least one encoded voice parameter)에 기초하여, 상기 다수의 기준 음성 패킷으로부터 기준 음성 패킷을 선택하는 단계와,

상기 선택된 기준 음성 패킷에 기초하여 상기 목표 음성 패킷에서의 에코를 억제하는 단계를 포함하되,

상기 선택 단계는,

상기 목표 음성 패킷 및 상기 다수의 기준 음성 패킷 각각으로부터 적어도 하나의 인코딩된 음성 파라미터를 추출하는 단계와,

상기 다수의 기준 음성 패킷 내의 복수의 기준 음성 패킷 각각에 대해, 상기 목표 음성 패킷 및 상기 다수의 기준 음성 패킷 각각으로부터 추출된 상기 인코딩된 음성 파라미터에 기초하여 적어도 하나의 음성 패킷 유사성 메트릭(at least one voice packet similarity metric)을 계산하는 단계와,

상기 계산된 음성 패킷 유사성 메트릭에 기초하여 상기 기준 음성 패킷을 선택하는 단계를 포함하는

방법.
제 1 항에 있어서,

상기 선택된 기준 음성 패킷과 관련된 상기 적어도 하나의 인코딩된 음성 파라미터에 기초하여 상기 목표 음성 패킷과 관련된 상기 적어도 하나의 인코딩된 음성 파라미터의 값을 조절함으로써 상기 에코가 억제되는

방법.
제 2 항에 있어서,

상기 선택된 기준 음성 패킷과 관련된 대응하는 다수의 인코딩된 음성 파라미터에 기초하여 상기 목표 음성 패킷과 관련된 다수의 인코딩된 음성 파라미터의 값을 조절함으로써 상기 에코가 억제되는

방법.
제 1 항에 있어서,

상기 선택된 기준 음성 패킷과 관련된 대응하는 적어도 하나의 인코딩된 음성 파라미터에 기초하여 상기 목표 음성 패킷과 관련된 상기 적어도 하나의 인코딩된 음성 파라미터의 이득의 값을 조절함으로써 상기 에코가 억제되는

방법.
삭제
제 1 항에 있어서,

상기 적어도 하나의 음성 패킷 유사성 메트릭을 계산할 상기 복수의 기준 음성 패킷을 생성하기 위해, 각각의 기준 음성 패킷 및 상기 목표 음성 패킷과 관련된 상기 인코딩된 음성 파라미터에 기초하여 상기 다수의 기준 음성 패킷 중에서 상기 목표 음성 패킷과 유사한 기준 음성 패킷을 판정하는 단계를 더 포함하는

방법.
에코를 억제하는 방법에 있어서,

목표 음성 패킷 및 다수의 기준 음성 패킷 각각과 관련된 적어도 하나의 인코딩된 음성 파라미터에 기초하여, 상기 다수의 기준 음성 패킷으로부터 기준 음성 패킷을 선택하는 단계와,

상기 선택된 기준 음성 패킷에 기초하여 상기 목표 음성 패킷에서의 에코를 억제하는 단계를 포함하되,

상기 선택 단계는,

기준 음성 패킷 세트(a set of reference voice packets)를 생성하기 위해, 상기 목표 음성 패킷 및 상기 다수의 기준 음성 패킷 각각과 관련된 상기 적어도 하나의 인코딩된 음성 파라미터를 기초로 상기 다수의 기준 음성 패킷 중에서 상기 목표 음성 패킷과 유사한 기준 음성 패킷을 판정하는 단계와,

상기 기준 음성 패킷 세트로부터 상기 기준 음성 패킷을 선택하는 단계를 포함하는

방법.
제 7 항에 있어서,

상기 판정 단계는,

각각의 기준 음성 패킷에 대해,

상기 목표 음성 패킷과 관련된 상기 적어도 하나의 인코딩된 음성 파라미터 및 상기 기준 음성 패킷과 관련된 상기 적어도 하나의 인코딩된 음성 파라미터에 기초하여 적어도 하나의 유사성 표시자(at least one similarity indicator)를 설정하는 단계와,

상기 유사성 표시자에 기초하여 상기 기준 음성 패킷이 상기 목표 음성 패킷과 유사한지를 판정하는 단계를 포함하는

방법.
에코를 억제하는 방법에 있어서,

목표 음성 패킷 및 다수의 기준 음성 패킷 각각과 관련된 적어도 하나의 인코딩된 음성 파라미터에 기초하여, 상기 다수의 기준 음성 패킷으로부터 기준 음성 패킷을 선택하는 단계와,

상기 선택된 기준 음성 패킷에 기초하여 상기 목표 음성 패킷에서의 에코를 억제하는 단계를 포함하되,

상기 선택 단계는,

상기 목표 음성 패킷 및 상기 기준 음성 패킷 각각으로부터 다수의 인코딩된 음성 파라미터를 추출하는 단계와,

각각의 기준 음성 패킷과 관련된 각각의 인코딩된 음성 파라미터에 대해,

상기 기준 음성 패킷 및 상기 목표 음성 패킷에 대한 상기 인코딩된 음성 파라미터에 기초하여 개별적인 유사성 메트릭을 판정하는 단계와,

각각의 기준 음성 패킷에 대해,

상기 기준 음성 패킷과 관련된 상기 개별적인 유사성 메트릭에 기초하여 전체 유사성 메트릭을 판정하는 단계와,

각각의 기준 음성 패킷과 관련된 상기 전체 유사성 메트릭에 기초하여 상기 기준 음성 패킷을 선택하는 단계를 포함하는

방법.
제 9 항에 있어서,

상기 선택 단계는,

최소의 전체 유사성 메트릭을 판정하기 위해, 상기 전체 유사성 메트릭을 서로 비교하는 단계와,

상기 최소의 전체 유사성 메트릭과 관련된 기준 음성 패킷을 선택하는 단계를 더 포함하는

방법.