KR20040104701A

KR20040104701A - 패킷 네트워크 환경에서 음성의 트랜스코딩

Info

Publication number: KR20040104701A
Application number: KR10-2004-7017694A
Authority: KR
Inventors: 아딜 벤야씬; 에얄 슬로모트; 휴안-유 수; 제스 씨이쎈; 양 가오
Original assignee: 마인드스피드 테크놀로지 인크
Priority date: 2002-05-13
Filing date: 2003-02-26
Publication date: 2004-12-10
Also published as: JP2005531017A; EP1504441A1; EP1504441A4; WO2003098598A1; AU2003217859A1; IL165147A0; CN1653515A

Abstract

패킷 네트워크 환경에서 음성을 트랜스코딩하는 방법이 제공된다. 디코더는 제1 코딩 체계에 따라 인코드된 제1 비트-스트림을 수신하도록 구성된다. 디코더는 제1 코딩 체계에 따라 비트-스트림을 디코드하고, 다수의 제1 음성 샘플을 생성하고, 스펙트럼 특성, 에너지, 피치 및/또는 피치 이득을 포함할 수 있는 다수의 제1 음성 파라미터를 추출한다. 그 다음, 컨버터는 제2 코딩 체계에 따라 사용하기 위해, 다수의 제1 음성 샘플 및 다수의 제1 음성 파라미터를 다수의 제2 음성 샘플 및 다수의 제2 음성 파라미터로 변환한다. 제1 및 제2 코딩 체계는 예를 들어, G.711, G.723.1, G.726 또는 G.729일 수 있고, 파라미터 또는 비-파라미터일 수 있다. 인코더는 다수의 제2 음성 샘플 및 다수의 제2 음성 파라미터를 수신하고, 제2 코딩 체계에 따라 제2 비트-스트림을 생성한다.

Description

패킷 네트워크 환경에서 음성의 트랜스코딩{Transcoding of speech in a packet network environment}

본 발명은 일반적으로 음성 코딩, 특히 패킷 네트워크 환경에서의 음성의 트랜스코딩 분야에 관한 것이다.

인터넷의 폭발적 성장으로 인해 보이스-오버-패킷("VoP")에 따른 음성 통신을 위한 전통적 데이터 지향 네트워크의 사용에 대한 관심이 커지게 된다. 패킷 네트워크에 걸친 통신을 위한 음성 신호의 패킷화는 저렴하고, 효과적이며, 전통적 전화 서비스에 대안적인 것으로서 인식되어 왔다. 용어 VoP는 예를 들어, VoIP 및 패킷화된 음성 데이터를 사용하는 다른 유형의 서비스를 포함할 수 있는 포괄적 용어이다.

VoP의 확장에 직면한 한가지 목표는 보다 큰 유효성을 갖는 다양한 형태의 네트워크들을 접속할 필요가 있다는 것이다. 특히, 다른 네트워크들이 음성을 인코드시키고, 압축시키며, 패키지화하기 위해 다른 표준을 사용할 수 있기 때문에,트랜스코딩 절차는 네트워크들 간의 의미있는 접속이 달성되도록 수행되어야 한다. 전형적으로, 하나의 네트워크 내에서 전송 참가자 통신으로부터 하나의 표준에 따라 인코드된 음성 데이터는 다른 네트워크의 가이드라인에 따라 수신 참가자 전송에 의해 사용된 표준으로 변환되어야 한다. 예를 들면, 전송 참가자의 음성은 G.723.1 명세서에 따라 인코드될 수 있고, 반면에 수신 참가자는 G.729를 사용한다. 전송 참가자로부터의 데이터가 수신 참가자에 의해 이해될 수 있기 위해서는, 전송 참가자로부터의 비트-스트림이 G.723.1 포맷으로부터 G.729 포맷으로 변환되어야 한다.

종래의 트랜스코딩 방법에 있어서는, 전송 참가자로부터의 인코드된 전송 참가자에 의해 사용된 코딩 방법에 따라 디코드된다. 그 다음, 디코드된 데이터는 수신 참가자에 의해 사용된 코딩 방법에 따라 재-인코드된다. 재-인코드된 형태로, 데이터는 수신 참가자로 전송된다. 그러나, 공지된 트랜스코딩 체계는 여러가지 심각한 부적합한 일들을 겪게 된다. 예를 들면, 음성 신호의 디코딩 및 재-인코딩 ("이중(tandem)" 공정)은 음성 품질을 떨어뜨린다. 특히, 저 비트율 음성 디코더에서 공통인 포스트-필터(post-filter)의 이중 동작은 부당한 스펙트럼 왜곡을 발생할 수 있고, 음성 품질을 상당히 떨어뜨릴 수 있다.

공지된 트랜스코딩 체계의 다른 결점은 재-인코딩 단계로부터 야기되는 바람직하지 않은 지연이다. 전형적으로, 디코드된 비트-스트림의 재-인코딩은 음성 신호 특징이 평가되기를 요구한다. 이와 같이, 예를 들어, 에너지, 스펙트럼 특성 및 피치를 포함하는 파라미터는 비트-스트림으로부터 추출되어 신호를 재-인코드하는데 사용되어야 한다. 더우기, 지연 이외에도, 재-인코딩 단계의 일부로서 이들 파라미터를 추출할 필요성은 시스템을 더 복잡하게 만든다.

따라서, 공지된 트랜스코딩 체계의 결점을 극복할 수 있고, 네트워크 간의 트랜스코딩이 달성될 수 있는 좀 더 효율적인 수단을 제공할 수 있는 트랜스코딩 방법, 및 관련 시스템이 본 분야에서 강력히 요구된다.

본 출원은 본 명세서에서 전적으로 참고용으로 채택된, 1999년 4월 12일 출원된 임시 미국 출원 번호 제60/128,873호의 이익을 청구하는 2000년 4월 12일 출원된 미국 출원 번호 제09/547,832호의 부분 연속 출원이다.

본 발명의 특징 및 장점은 다음의 상세한 설명 및 첨부된 도면을 참조하면 본 분야의 숙련자들에게는 쉽게 이해되어질 것이다.

도 1은 본 발명의 다양한 특징이 구현될수 있는 패킷-기반 네트워크의 블록도이다.

도 2는 한 실시예에 따른 트랜스코딩 시스템의 블록도이다.

도 3은 한 실시예에 따른 트랜스코딩 시스템을 이용하는 컨퍼런스 브리지의 블록도이다.

도 4는 한 실시예에 따른 트랜스코딩 시스템을 이용하는 컨퍼런스 브리지의 한 구성 요소의 블록도이다.

도 5는 도 2의 트랜스코딩 시스템을 이용하는 트랜스코딩 방법의 예시적 흐름도이다.

본 명세서에서 광범위하게 기술된 본 발명의 목적에 따르면, 패킷 네트워크 환경에서의 음성 트랜스코딩 방법이 제공된다. 본 발명의 한 예시적 특징에서는, 음성 신호로부터 발생된 제1 비트-스트림을 트랜스코딩할 수 있는 음성 트랜스코더가 공개된다. 트랜스코더는 제1 코딩 체계에 기초하여 인코드된 제1 비트-스트림을 수신하도록 구성된 디코더를 포함한다. 예를 들면, 음성 신호는 G.711, G.723.1, G726 또는 G.729에 따라 인코드될 수 있고, 변수적이거나 변수적이지 않을 수 있다. 디코더는 제1 비트-스트림으로부터, 예를 들어, 음성 신호의 스펙트럼 특성, 에너지, 피치 및/또는 피치 이득과 관련된 파라미터를 포함할 수 있는 다수의 제1 음성 파라미터를 추출한다. 디코더는 또한, 제1 코딩 체계에 따라 제1 비트-스트림을 디코드하고, 다수의 제1 음성 샘플을 생성한다. 특정 구성에서, 디코더는 시스템 복잡성을 감소시키고, 후속 재-인코딩 공정에 의해 생성된 음성 신호의 음성 품질을 향상시키도록 디스에이블될 수 있는 포스트-필터 요소를 포함할 수 있다.

그 다음, 다수의 제1 음성 샘플 및 다수의 제1 음성 파라미터들은 다수의 제1 음성 샘플 및 다수의 제1 음성 파라미터들을 제2 코딩 체계에 따라 사용하기 위한 다수의 제2 음성 샘플 및 다수의 제2 음성 파라미터들로 변환할 수 있는 컨버터로 전송된다. 제2 코딩 체계는 예를 들어, G.711, G.723.1, G726 또는 G.729일 수 있고, 변수적이거나 변수적이지 않을 수 있다. 컨버터에 의한 변환에 이어서, 다수의 제2 음성 샘플 및 다수의 제2 음성 파라미터들은 인코더에 전송된다. 인코더는 다수의 제2 음성 샘플 및 다수의 음성 파라미터들을 수신하여 제2 비트-스트림을 생성하는데, 이 제2 비트-스트림은 제2 코딩 체계에 기초하여 인코드된다. 특정 구성에서, 인코더는 잡음 억제 요소를 포함할 수 있는데, 이는 시스템의 복잡성을 감소시키고 음성 신호의 음성 품질을 향상시키도록 디스에이블될 수 있다. 제1 비트-스트림으로부터 음성 파라미터를 추출하고, 이 음성 파라미터를 변환하고, 이 변환된 음성 파라미터를 인코더에 제공함으로써, 인코딩 공정 중에 음성 파라미터의 재-평가를 피할 수 있고, 이로써 시스템의 복잡도 감소 및 지연 감소와 같은 많은 장점을 달성할 수 있다.

본 발명의 이들 및 다른 특징은 본 명세서의 도면 및 설명을 참조하면 보다 명확해진다. 그러한 모든 추가적 시스템, 방법, 특징 및 장점은 본 명세서에 포함되고 본 발명의 범위 내에 있으며 첨부된 청구범위에 의해 보호되도록 되어 있다.

본 발명은 기능적 블록 요소 및 다양한 프로세싱 단계의 견지에서 설명될 수 있다. 그러한 기능적 블록은 특화된 기능을 수행하도록 구성된 소정의 하드웨어 요소 및/또는 소프트웨어 요소에 의해 실현될 수 있음을 알 수 있다. 예를 들면, 본 발명은 다양한 집적회로 요소, 예를 들면 메모리 요소, 디지탈 신호 처리 요소, 논리 요소 등을 채택할 수 있고, 이들은 하나 이상의 마이크로프로세서 또는 다른 제어 장치의 제어하에 다양한 기능들을 실행할 수 있다. 더우기, 본 발명이 데이터 전송, 신호화, 신호 처리 및 컨디셔닝, 음조 생성 및 검출 등을 위한 소정의 종래 기술을 채택함을 주지해야 한다. 본 분야의 숙련자들에게 공지될 수 있는 그러한 일반적 기술은 본 명세서에서 기술되지 않는다.

본 명세서에서 도시되고 기술된 특별한 구현은 단지 예시적이고, 어떠한 방식으로도 본 발명의 범위를 제한하기 위한 것은 아니다. 실제로, 간략성을 위해서, 통신 시스템의 종래의 데이터 전송, 신호화 및 신호 처리, 및 다른 기능적 및 기술적 특징 (그리고 시스템의 개별 동작 요소의 요소)은 상세하게 기술되지 않을 수도 있다. 더구나, 본 명세서에 포함된 여러 도면에 도시된 접속 라인은 여러 요소들 간의 예시적 기능적 관계 및/또는 물리적 결합을 제시하기 위한 것이다. 많은 대안적 또는 부가적 관계 또는 물리적 접속은 실질적인 통신 시스템에서 제시될 수 있다.

도 1은 패킷화된 음성 정보의 전송을 지원할 수 있는 예시적 통신 환경(100)을 도시한다. 패킷 네트워크(102), 예를 들면, 인터넷 프로토콜("IP")에 부합되는 네트워크는 종래의 보이스-오버-패킷 기술에 따른 음성 통화를 다수의 참가자들이 행하게 하는 인터넷 전화 응용을 지원할 수 있다. 실제적 환경(100)에서, 패킷 네트워크(102)는 다른 통신 장치 및 다른 통신 서비스 제공자를 포함할 수 있는 사용자에 의한 참가를 가능케 하는 방식으로 종래의 전화 네트워크, 근거리 네트워크, 광역 네트워크, 공중 기지 교환국, 및/또는 가정용 네트워크와 통신할 수 있다. 예를 들면, 도 1에서, 참가자 1 및 참가자 2는 음성 데이터를 포함하는 패킷의 전송을 통해 패킷 네트워크(102)와 (직접적으로 또는 간접적으로) 통신한다. 참가자 3은 게이트웨이(104)를 통해 패킷 네트워크(102)와 통신하는 반면, 참가자 4는 게이트웨이(106)를 통해 패킷 네트워크(102)와 통신한다.

이러한 설명의 전후관계를 살펴보면, 게이트웨이는 음성 데이터를 패킷 데이터로 변환하는 기능적 요소이다. 따라서, 게이트웨이는 패킷 네트워크를 통해 전송될 수 있는 패킷화된 형태로 종래의 음성 정보를 변환하는 변환 요소일 수 있다.게이트웨이는 중앙국 내에서, 주변 장치 (전화기와 같은) 내에서, 지역 스위치 (예를 들면, 공중 지역 교환국과 관련된), 또는 기타 유사한 장치 내에서 구현될 수 있다. 그러한 게이트웨이의 기능성 및 동작은 본 분야의 숙련자들에게는 잘 알려져 있고, 따라서 상세하게 기술되지는 않는다. 본 발명은 다양한 종래의 게이트웨이 디자인과 관련하여 구현될 수 있다.

환경(100)은 다른 음성 코딩 표준을 사용하는 참가자들 간의 통신을 가능케 하는 소정 수의 트랜스코더를 포함할 수 있다. 예를 들면, 트랜스코더(108)는 패킷 네트워크(102) 내에 포함될 수 있다. 트랜스코더(108)는 중앙국 내에서 구현되거나, 인터넷 서비스 제공자("ISP")에 의해 유지될 수 있다. 이러한 방식으로, 다수의 패킷-기반(packet-based) 참가자, 예를 들면, 참가자 1 및 2로부터의 음성 데이터는 게이트웨이에 의해 보통 수행된 변환을 수행하지 않고도 트랜스코더(108)에 의해 처리될 수 있다.

다른 예로서, 트랜스코더(110)는 보이스-오버-패킷 데이터 및 종래의 음성 신호를 수신 및 처리할 수 있다. 결국, 게이트웨이(104)는 트랜스코더(110)를 통해, 참가자 3을 패킷 네트워크(102) 및 이 패킷 네트워크(102)에 결합된 참가자, 예를 들면 참가자 1 또는 2와 통신가능하게 한다.

본 발명에 따르면, 패킷-기반 트랜스코더는 전화 시스템 내에서 배치되어, 음성 코딩의 다른 표준 또는 기술을 사용하는 참가자들 간의 통신을 용이하게 할 수 있다. 알려진 바와 같이, 예를 들어 소정의 패킷-기반 음성 채널은 여러 다른 음성 코딩/압축 표준들 중 하나를 사용할 수 있다. 다양한 음성 코딩 표준은 일반적으로 본 분야의 숙련자들에게는 알려져 있고, 예를 들어 G.711, G.726, G.728, G.729(A), G.723.1, 이동 통신용 글로벌 시스템("GSM"), 선택가능한 모드 보코더(selectable mode vocoder)("SMV"), 및 적응성 다중 레이트("AMR") 코딩을 포함할 수 있는데, 그러한 명세서는 여기서 참고용으로 채택된다.

소정의 통화에 사용된 특별한 표준은 참가자의 인터넷 서비스 제공자, 전화 서비스 제공자, 참가자의 주변 장치의 디자인 및 다른 요인에 의해 좌우될 수 있다. 결과적으로, 트랜스코더(108 또는 110)과 같은 실질적인 트랜스코더는 다양한 표준에 의해 인코드된 음성을 처리할 수 있다. 또한, 그러한 트랜스코더는 인코드되지 않은 음성을 처리할 수 있다.

도 2는 본 발명의 한 실시예에 따른 트랜스코딩을 위한 예시적 통신 시스템(200)을 도시한다. 통신 시스템(200)에서 도시된 바와 같이, 제1 참가자(즉, 참가자 1)는 트랜스코더(206)를 통해 제2 참가자(즉, 참가자 2)와 통신한다. 참가자 1은 채널(204)을 통해 트랜스코더(206)에 결합되고, 참가자 2는 채널(216)를 통해 트랜스코더(206)에 결합된다.

도시된 실시예에서, 참가자 1로부터의 음성 데이터는 인코더(202)에 의해 인코드되어 채널(204)을 통해 트랜스코더(206)에 전송될 수 있다. 상술한 바와 같이, 예를 들어, 참가자의 인터넷 서비스 또는 전화 서비스와 같은 그러한 요인에 따라, 참가자 1로부터의 음성 데이터는 압축되고, 적절한 코딩 표준을 사용하는 인코더(202)에 의해 인코드될 필요가 있다. 예를 들면, 채널(204)은 인터넷-기반 패킷 네트워크일 수 있는데, 여기서 케이스 인코더(202)는 음성 데이터를 패킷화하기위해 적절한 패킷 포맷을 사용할 수 있다. 이런 경우, 채널(204)을 통해 전송된 인코더(202)로부터의 출력 데이터는 인코드된 디지털 데이터를, 하나 이상의 인코딩 표준, 예를 들면 G.723.1 또는 G.729에 따라, 비트-스트림의 형태로 포함할 수있다. 대안적으로, 채널(204)은 지역 링크로서 기능할 수있고, 참가자 1을 트랜스코더(206)에 결합시킬 수 있으며, 여기서 케이스 인코더(202)는 인코딩 없이 참가자 1로부터의 음성 데이터를 디지털화시킬 수 있고, 이 디지털화된 데이터는 채널(204)을 통해 전송된다.

채널(204)을 통해 트랜스코더(206)에 도달하는 참가자 1로부터의 비트-스트림은 초기에 디코더(208) 내에 입력되어, 디코더(208)에 의해 처리되는데, 이 디코더(208)는 전송 참가자, 즉 참가자 1을 위한 코딩 방법에 따라 비트-스트림을 디코드하도록 구성된다. 따라서, 참가자 1로부터의 음성 데이터가 예를 들어, G.723.1을 사용하는 인코더(202)에 의해 인코드되었다면, 디코더(208)는 그에 따라 비트-스트림을 디코드한다. 한 실시예에서, 디코더(208)의 포스트-필터 요소(도시안됨)는 디스에이블되거나 그 역량이 감소될 수 있어, 포스트-필터링을 사용하는 종래의 디코딩 알고리즘으로 자주 발견되는 성능 저하를 최소화시킨다.

비트-스트림(즉, 디코드된 비트-스트림)으로부터 음성 샘플을 생성하는 것 이외에, 디코더(208)는 또한 비트-스트림으로부터 특정 음성 파라미터를 추출하도록 구성된다. 본 명세서에서 "사이드 정보(side information)"로 인용되는 음성 파라미터는 예를 들어, 음성 신호의 에너지, 스펙트럼 특성, 피치 및 피치 이득을 포함할 수 있다. 그 후, 음성 샘플 이외에도, 음성 파라미터 (또는 사이드 정보)는 디코더(208)에 의해 컨버터(212)로 전송된다.

도 2에 계속하여, 컨버터(212)에 입력된 음성 샘플 및 음성 파라미터는 수신 참가자에 적합한 표준에 따른 인코더에 의한 최종 인코딩을 위해 적절히 처리 및 변환된다. 컨버터(212)에 의해 수행된 변환은 예를 들어, 디코더(208)로부터 수신된 적어도 하나의 파라미터들 및/또는 음성 샘플에 기초할 수 있다. 변환 공정의 일부로서, 음성 샘플은 인코더(214)에 의한 재-인코딩에 적합한 포맷으로 변형될 수 있다. 예를 들면, 참가자 1 및 2가 다른 프레임 구조를 갖는 코딩 표준을 사용하는 경우에, 컨버터(212)는 인코더(214)에 의한 사용에 적절한 프레임 사이즈에 따른 음성 샘플을 제공하기 위해 프레임의 사이즈를 다시 잴 수 있다. 컨버터(212)에 의한 변환에 이어서, 변환된 음성 샘플 및 음성 파라미터를 포함하는 음성 정보는 인코더(214)에 전송된다. 몇몇 실시예에서, 디코더(208)는 컨버터(212)에 음성 샘플을 제공하기만 하고, 음성 파라미터 (또는 사이드 정보)는 제공하지 않을 수 있다는 것은 주지의 사실이다. 예를 들면, 음성 신호가 G.711, G.726, G.728 등과 같은 비-파라미터 코딩 체계에 따라 코드될 때, 컨버터(212)는 디코더(208)로부터 음성 샘플을 수신하고, 이 음성 샘플을 변환하여, 이들을 인코더(214)에 의한 사용에 적절한 프레임 사이즈에 따라 제공한다.

인코더(214)는 본 예에서 수신 참가자, 즉 참가자 2에 의해 사용된 표준에 따라 음성 정보를 인코드하도록 구성된다. 따라서, 참가자 2가 예를 들어, 선택적인 모드 보코더("SMV")를 사용하면, 인코더(214)는 SMV 표준에 따라 비트-스트림을 인코드한다. 본 발명에 따르면, 인코더(214)는 디코더(208)에 의해 추출되고 컨버터(212)에 의해 처리된 음성 파라미터를 사용하여 음성 정보를 인코드하도록 구성될 수 있다. 이러한 방식에서는, 보통 인코더(214)에 의해 음성 정보를 재-인코드하는데 필요한 음성 신호의 에너지, 스펙트럼 특성, 피치 및 피치 이득과 같은 파라미터는 스펙트럼 분석, 피치 분석 등과 같은 파라미터 추정 타스크를 수행하지 못하고, 인코더(214)는 오직 복잡도가 낮은 파라미터 추정 타스크를 수행할 수 있다. 그 결과, 본 발명의 다양한 실시예의 트랜스코딩 체계는 종래의 트랜스코딩 체계에 비해, 처리 전력을 거의 감소시키고, 지연을 최소화하며, 전체 시스템 복잡도를 감소시킨다. 추가로, 재-인코딩 단계 중에 사용하기 위한 초기 디코딩 단계 중에 음성 파라미터가 추출되기 때문에, 예를 들어 스펙트럼 및 피치 재-평가로부터 야기되는 신호의 감쇠가 방지된다. 인코더(214)에 의한 코딩에 이어서, 비트-스트림은 비트-스트림을 디코드하는 디코더(218)에 의한 사용에 적절한 포맷으로 채널(216)을 통해 수신 참가자, 즉 참가자 2에 전송된다.

도 3을 참조하면, 예시적 통신 시스템(300)은 한 실시예에 따라, 본 발명의 트랜스코딩 기술을 사용하는 컨퍼런스 브리지(conference bridge)를 도시하는데 사용된다. 특히, 통신 시스템(300)은 각 전송 참가자가 다른 곳으로부터 다른 코딩 체계를 사용할 수 있는 경우에, 본 발명이 2 이상의 전송 참가자로부터 수신 참가자로 음성 신호를 트랜스코드하고 혼합하는데 사용될 수 있는 방법을 도시한다. 통신 시스템(300)에서, 참가자 1, 2 및 3은 각각 채널(304, 316 및 322)을 통해 컨퍼런스 브리지(306)에 결합된다. 본 예에서, 참가자 1 및 3 둘 다는 동시에 참가자 2와 통신함을 알 수 있다.

도 3에 계속하여, 참가자 1로부터의 음성은 채널(304)을 통한 디코더(308)로의 전송에 적절한 포맷으로 인코더(302)에 의해 인코드된다. 마찬가지로, 인코더(320)는 참가자 3으로부터의 음성을 채널(322)을 통한 디코더(324)로의 전송에 적절한 포맷으로 인코드한다. 디코더(308 및 324) 둘 다는 전송 참가자에 의해 사용된 코딩 체계에 따라, 참가자 1 및 3으로부터 도달하는 것과 같은 인입 비트-스트림을 디코드하고, 비트-스트림으로부터 음성 샘플을 생성하도록 구성될 수 있다. 디코더(308 및 324)는 또한 비트-스트림으로부터 음성 파라미터를 추출하고, 또는 음성이 비-파라미터 표준에 따라 본래 인코드되었을 경우에 음성 파라미터를 생성할 수 있다.

디코딩에 이어서, 참가자 1 및 3 둘 다에 대한 음성 샘플 및 음성 파라미터는 컨버터/믹서(312)에 입력된다. 컨버터/믹서(312)는 입력된 음성 샘플 및 음성 파라미터를 변환, 결합 및 혼합하여, 수신 참가자, 즉 참가자 2에 의해 사용된 코딩 체계에 따라 인코딩하기에 적절한 단일 음성 정보를 생성한다.

전송 참가자에 의해 사용된 다양한 코딩 방법에 따라, 컨버터/믹서(312)는 수신 참가자에 의한 인코딩에 적합한 비트-스트림을 생성하기 위해서 프레임 사이즈 및 다른 요인을 고려할 필요가 있다. 예를 들면, G.723.1은 30 ms의 프레임 사이즈를 사용하고, G.729는 10 ms의 프레임 사이즈를 사용한다. 따라서, 공통 프레임 구조는 디코더(308 및 324)로부터의 음성 샘플을 효과적으로 혼합할 수 있게 설정될 수 있다. 예를 들면, 적어도 하나의 입력 채널이 G.723.1을 사용하여 인코드되면, 30 ms 프레임이 설정될 수 있다. 대안적으로, 최소 공통 배수와 동등한 프레임 사이즈가 사용될 수 있다. 하나의 채널이 예를 들어, G.723.1 (30ms 프레임)을 사용하여 인코드되고, 다른 하나는 G.4k (20 ms 프레임)을 사용하여 인코드되는 경우에, 60 ms 프레임이 설정될 수 있다. 프레임 사이즈가 일단 결정되면, 음성 샘플 및 음성 파라미터는 혼합 중에 적절히 보간되고 정렬될 수 있다.

본 명세서에 참고로 채택된, 2000년 4월 12일자로 출원된 미국 출원번호 09/547,832호는, 음성 파라미터가 혼합되고 보간되는 것을 공개하고, 디코더(308 및 324)로부터 입력된 음성 파라미터를 혼합하기 위해 컨버터/믹서(312)에 의해 사용될 수 있는 방법을 공개한다. 예를 들면, 2개의 신호의 스펙트럼은 가중 가산을 이용하여 합산될 수 있다. 유사한 방법이 피치 및 에너지와 같은 다른 파라미터를 혼합하는데 사용될 수 있다.

컨버터/믹서(312)가 일단 디코더(308)로부터의 신호를 변환하고 디코더(324)로부터의 신호와 혼합하여, 결합된 비트-스트림을 생성하면, 비트-스트림은 인코더(314)로 전송된다. 컨버터/믹서(312)는 또한, 입력된 음성 신호로부터 추출된 음성 파라미터를 인코더(314)에 제공할 수 있다. 인코더(314)는 참가자 2에 의해 사용된 동일한 코딩 표준에 따라 비트-스트림을 재-인코드하도록 구성될 수 있다. 예를 들면, 참가자 2가 G.726을 사용하면, 인코더(314)는 G.726에 따라 음성 정보를 재-인코드한다. 인코더(314)는 음성 정보를 재-인코드하기 위해서 디코더(308 및 324)에 의해 추출된 파라미터를 사용할 수 있고, 따라서 재-인코딩 공정 중에 스펙트럼 및 피치 재-평가에 대한 필요성을 회피할 수 있다. 이러한 방식에서, 그러한 재-평가 단계와 관련된 복잡도, 처리 요구 및 시간 지연이 방지된다. 인코더(314)에 의한 재-인코딩에 이어서, 음성 신호는 디코더(318)가 신호를 디코드하는 경우에, 채널(316)을 통해 참가자 2로 전송된다.

도 4를 참조하면, 예시적 통신 시스템(400)은 한 실시예에 따라, 본 발명의 트랜스코딩 기술을 사용하여 컨퍼런스 브리지의 구성을 설명하는데 사용된다. 특히, 통신 시스템(400)은 어떻게 본 발명이 예를 들어, G.711, G.726 및 G.728과 같은 비-파라미터 코딩 표준에 따라 인코드된 입력 음성 신호를 트랜스코딩하기 위한 효과적인 수단을 제공하는 지를 나타낸다. 도 4에 도시된 바와 같이, 통신 시스템(400)은 채널(404), 컨퍼런스 브리지(406) 및 채널(416)을 포함한다. 채널(404 및 416) 각각은 도 2에 도시된 통신 시스템(200)의 채널(204 및 216)과 동등하다.

도시된 바와 같이, 채널(404)을 통해 컨퍼런스 브리지(406)에 전송된 음성 신호는 디코더(408)에 의해 디코드되어, 인입 비트-스트림으로부터 음성 샘플을 생성한다. 디코더(408)는 음성이 본래 G.729 또는 G.723.1과 같은 파라미터 표준을 사용하여 인코드된 경우에 음성 파라미터를 생성하기 위해 비트-스트림으로부터 음성 파라미터를 추출할 수도 있다. 그러나, 비-파라미터 음성 코딩 표준, 예를 들면 G.711, G.726 및 G.728은 전형적으로 신호 피치 및 스펙트럼과 같은 다양한 음성-관련 파라미터를 양자화시키지 않는다. 그 결과, 이들 파라미터는 디코딩 공정 중에 비트-스트림으로부터 직접 디코더(408)에 의해 추출되지 않을 수 있다. 그런 경우, 도 4에 도시된 바와 같이, 음성 샘플은 후술하는 바와 같이, 인코더(414)에 의해 차후에 사용하기 위한 바람직한 음성-관련 파라미터 (또는 사이드 정보)를 추출하는 파라미터 추출 모듈(410)로 전환될 수 있다. 따라서, 파라미터 추출 모듈(410)은 신호 에너지, 스펙트럼 특성, 피치 및 피치 이득 등과 관련된 데이터를 추출하고, 그러한 파라미터를 컨버터/믹서(412)에 제공하도록 구성될 수 있다.

디코더(408)로터의 디코드된 음성 샘플 및 디코더(408) 또는 파라미터 추출 모듈(410)로부터의 음성 파라미터는 컨버터/믹서(412)에 입력된다. 도 4에 도시된 바와 같이, 컨버터/믹서(412)는 또한, 음성 샘플 및 음성 파라미터 (또는 사이드 정보)(420)를 다른 디코딩 장치(도시안됨)로부터 수신한다. 컨버터/믹서(412)는 재-인코딩 공정 시에 인코더(414)에 의한 사용에 적합한 결합된 비트-스트림 형태로 디코더(408) 및 파라미터 추출 모듈(410)로부터의 음성 샘플 및 음성 파라미터를 음성 샘플 및 음성 파라미터(420)과 결합 및 혼합하도록 구성될 수 있다. 예를 들면, 신호를 결합 및 혼합하기 위해서, 컨버터/믹서는 인코더(414)에 적합한 공통 프레임 구조를 설정하기 위해 음성 샘플의 프레임을 다시 사이즈 잴 수 있다. 컨버터/믹서(412)는 비트-스트림의 재-인코딩 시에 사용하기 위한 음성 파라미터 (또는 사이드 정보)를 인코더(414)에 제공할 수도 있다.

컨버터/믹서(412)에 의해 제공된 결합된 음성 샘플 및 추출된 파라미터는 수신 참가자(도시안됨)에 의해 사용된 코딩 표준에 따라 음성 신호를 재-인코드하기 위해 인코더(414)에 의해 사용될 수 있다. 따라서, 컨버터/믹서(412)에 의해 제공된 음성 파라미터 (또는 사이드 정보)를 사용함으로써, 인코더(414)는 재-인코딩 공정 중에 스펙트럼 및 피치 재-평가에 대한 필요성을 회피한다. 이러한 방식에서, 그러한 재-평가 단계와 관련된 복잡도, 처리 요구 및 시간 지연이 방지된다. 코딩 단계에 이어서, 인코드된 신호는 채널(416)을 통해 수신 참가자로 전송된다.

도 5를 참조하면, 한 실시예에 따른 예시적 트랜스코딩 방법(500)이 도시된다. 트랜스코딩 방법(500)은 예를 들어, 도 2의 트랜스코더(206)와 같은 트랜스코더에 의해 수행될 수 있다. 도시된 바와 같이, 트랜스코딩 방법(500)은 단계(510)에서 시작하여 단계(512)로 이어지는데, 여기서 제1 참가자로부터의 비트-스트림이 수신된다.

다음, 단계(514)에서, 파라미터 세트는 비트-스트림으로부터 추출된다. 예를 들면, 파라미터 세트는 신호 에너지, 스펙트럼 특성, 피치 및 피치 이득 등을 포함할 수 있다. 다음, 단계(516)에서, 비트-스트림은 제1 참가자에 의해 사용된 코딩 체계에 따라 디코드되고, 음성 샘플이 생성된다. 예를 들면, 수신된 비트-스트림은 G.723.1에 따라 인코드될 수 있는데, 여기서 비트-스트림은 G.723.1에 따라 단계(516)에서 디코드된다.

음성 샘플이 단계(516)에서 생성된 후에, 트랜스코딩 방법(500)은 단계(518)로 진행하고, 여기서 음성 샘플 및 파라미터 세트는 재-인코딩에 적합한 형태로 변환된다. 음성 샘플 및 파라미터 세트가 변환되는 형태는 수신 참가자에 의해 사용된 특별한 코딩 체계에 좌우될 수 있다. 단계(520)에서, 변환된 음성 샘플은 수신 참가자, 즉 본 실시예에서는 제2 참가자에 의해 사용된 코딩 체계에 따라 재-인코드된다. 그와 같이, 본 설명에서 제2 참가자가 예를 들어, G.729를 사용하면, 단계(520)에서 수행된 재-인코딩은 G.729에 따라 수행된다. 단계(520)에서 수행된 재-인코딩은 단계(516)에서 비트-스트림으로부터 추출된 파라미터 세트를 이용할 수 있다. 따라서, 단계(520)에서, 재-인코딩은 정보가 이미 이용가능하기 때문에, 예를 들어 스펙트럼 및 피치 재-평가를 수행하지 않고도, 효과적으로 달성될 수 있다. 이러한 방식에서, 트랜스코딩 방법(500)은 처리 요구가 낮고 지연이 최소이며 전체 시스템 복잡도가 감소된 다수의 장점들을 종래의 트랜스코딩 방법에 제공한다.

상기 방법 및 시스템은 장치 상의 소프트웨어, 하드웨어 또는 펌웨어 내에 상주하는데, 이는 본 발명의 정신을 벗어나지 않고도, 마이크로프로세서, 디지털 신호 프로세서, 특정 응용 IC, 또는 필드 프로그램가능 게이트 어레이("FPGA"), 또는 이들 소정의 결합 상에서 구현될 수 있다. 더구나, 본 발명은 그 정신 및 본질적인 특성을 벗어나지 않고도, 다른 특정 형태로 구체화될 수 있다. 기술된 실시예는 모든 면에서 단지 예시적이지 제한적인 것은 아니다.

Claims

음성 신호로부터 생성된 제1 비트-스트림을 트랜스코딩할 수 있는 음성 트랜스코더에 있어서,

제1 코딩 체계에 기초하여 인코드된 상기 제1 비트-스트림을 수신하도록 구성되며, 상기 제1 비트-스트림으로부터 제1의 다수의 음성 파라미터를 추출하고, 상기 제1 코딩 체계에 따라 상기 제1 비트-스트림을 디코드하고 다수의 제1 음성 샘플을 생성하는 디코더;

상기 다수의 제1 음성 샘플 및 상기 다수의 제1 음성 파라미터를 수신하도록 구성되며, 제2 코딩 체계에 따라 사용하기 위해, 상기 다수의 제1 음성 샘플을 다수의 제2 음성 샘플로 변환하고, 상기 다수의 제1 음성 파라미터를 다수의 제2 음성 파라미터로 변환하는 컨버터; 및

상기 다수의 제2 음성 샘플 및 상기 다수의 제2 음성 파라미터를 수신하도록 구성되며, 상기 제2 코딩 체계에 기초하여 인코드된 제2 비트-스트림을 생성하는 인코더

를 포함하는 것을 특징으로 하는 음성 트랜스코더.
제 1항에 있어서, 상기 컨버터는 상기 다수의 제1 음성 샘플의 제1 프레임 사이즈를 제2 프레임 사이즈로 변환하고, 상기 인코더는 상기 제2 프레임 사이즈를 사용하여 상기 제2 코딩 체계에 따라 상기 제2 비트-스트림을 생성하는 것을 특징으로 하는 음성 트랜스코더.
제 1항에 있어서, 상기 컨버터는 상기 다수의 제2 음성 파라미터를 상기 인코더에 전송하여 상기 인코더에 의한 파라미터의 재-평가를 회피하고, 이에 의해 지연을 감소시키는 것을 특징으로 하는 음성 트랜스코더.
제 1항에 있어서, 상기 디코더는 포스트-필터 요소(post-filter element)를 포함하며, 상기 포스트-필터 요소가 디스에이블되는 것을 특징으로 하는 음성 트랜스코더.
제 1항에 있어서, 상기 인코더는 잡음 억제기를 포함하며, 상기 잡음 억제기가 디스에이블되는 것을 특징으로 하는 음성 트랜스코더.
제 1항에 있어서, 상기 다수의 제2 음성 파라미터는 상기 음성 신호의 에너지와 관련된 적어도 하나의 파라미터를 포함하는 것을 특징으로 하는 음성 트랜스코더.
제 1항에 있어서, 상기 다수의 제1 음성 파라미터는 상기 음성 신호의 스펙트럼 특성과 관련된 적어도 하나의 파라미터를 포함하는 것을 특징으로 하는 음성 트랜스코더.
제 1항에 있어서, 상기 다수의 제1 음성 파라미터는 상기 음성 신호의 피치와 관련된 적어도 하나의 파라미터를 포함하는 것을 특징으로 하는 음성 트랜스코더.
제 1항에 있어서, 상기 다수의 제1 음성 파라미터는 상기 음성 신호의 피치 이득과 관련된 적어도 하나의 파라미터를 포함하는 것을 특징으로 하는 음성 트랜스코더.
제 1항에 있어서, 상기 컨버터는 상기 다수의 제2 음성 파라미터를 상기 인코더에 전송하여 상기 인코더에 의한 파라미터의 재-평가(re-evaluation)를 회피하고, 이에 의해 상기 제2 비트-스트림으로부터 생성된 음성 신호의 감쇠(degradation)를 감소시키는 것을 특징으로 하는 음성 트랜스코더.
음성 신호로부터 생성된 제1 비트-스트림을 트랜스코딩하는 방법에 있어서,

상기 제1 비트-스트림으로부터 다수의 제1 음성 파라미터를 추출하는 단계;

다수의 제1 음성 샘플을 생성하기 위해 제1 코딩 체계에 따라 상기 제1 비트-스트림을 디코드하는 단계;

상기 다수의 제1 음성 샘플을 제2 코딩 체계에 따라 사용하기 위해 다수의 제2 음성 샘플로 변환하는 단계;

상기 다수의 제1 음성 파라미터를 제2 코딩 체계에 따라 사용하기 위해 다수의 제2 음성 파라미터로 변환하는 단계; 및

상기 제2 코딩 체계에 기초하여 인코드된 제2 비트-스트림을 생성하기 위해 상기 다수의 제2 음성 파라미터에 기초하여 상기 다수의 제2 음성 샘플을 인코드하는 단계

를 포함하는 것을 특징으로 하는 트랜스코딩 방법.
제 11항에 있어서, 상기 다수의 제1 음성 샘플의 제1 프레임 사이즈를 상기 제2 코딩 체계에 따라 사용하기 위해 제2 프레임 사이즈로 변환하는 단계를 더 포함하는 것을 특징으로 하는 트랜스코딩 방법.
제 11항에 있어서, 상기 다수의 제1 음성 파라미터를 상기 다수의 제2 음성 파라미터로 변환하는 상기 단계는 상기 인코딩 중에 파라미터의 재-평가를 회피하여 지연 및 복잡도를 감소시키도록 수행되는 것을 특징으로 하는 트랜스코딩 방법.
제 11항에 있어서, 상기 디코딩 중에 포스트-필터링을 디스에이블시키는 단계를 더 포함하는 것을 특징으로 하는 트랜스코딩 방법.
제11항에 있어서, 상기 인코딩 중에 잡음 제거를 디스에이블시키는 것을 특징으로 하는 트랜스코딩 방법.
제 11항에 있어서, 상기 다수의 제2 음성 파라미터는 상기 음성 신호의 에너지와 관련된 적어도 하나의 파라미터를 포함하는 것을 특징으로 하는 트랜스코딩 방법.
제 11항에 있어서, 상기 다수의 제1 음성 파라미터는 상기 음성 신호의 스펙트럼 특성과 관련된 적어도 하나의 파라미터를 포함하는 것을 특징으로 하는 트랜스코딩 방법.
제 11항에 있어서, 상기 다수의 제1 음성 파라미터는 상기 음성 신호의 피치와 관련된 적어도 하나의 파라미터를 포함하는 것을 특징으로 하는 트랜스코딩 방법.
제 11항에 있어서, 상기 다수의 제1 음성 파라미터는 상기 음성 신호의 피치 이득과 관련된 적어도 하나의 파라미터를 포함하는 것을 특징으로 하는 트랜스코딩 방법.
제 11항에 있어서, 상기 다수의 제1 음성 파라미터를 상기 다수의 제2 음성 파라미터로 변환하는 상기 단계는 상기 인코딩 중에 파라미터의 재-평가를 회피하고, 이에 의해 상기 제2 비트-스트림으로부터 생성된 음성 신호의 감쇠를 감소시키도록 수행되는 것을 특징으로 하는 트랜스코딩 방법.
음성 신호로부터 생성된 제1 비트-스트림을 트랜스코딩할 수 있는 음성 트랜스코더에 있어서,

제1 코딩 체계에 기초하여 인코드된 상기 제1 비트-스트림을 수신하도록 구성되며, 상기 제1 코딩 체계에 따라 상기 제1 비트-스트림을 디코드하고 다수의 제1 음성 샘플을 생성하는 디코더;

상기 다수의 제1 음성 샘플을 수신하도록 구성되며, 상기 다수의 제1 음성 샘플로부터 제1 다수의 음성 파라미터를 추출하는 파라미터 추출기 모듈;

상기 다수의 제1 음성 샘플 및 상기 다수의 제1 음성 파라미터를 수신하도록 구성되며, 제2 코딩 체계에 따라 사용하기 위해, 상기 다수의 제1 음성 샘플을 변환 및 혼합하여 다수의 제2 음성 샘플을 생성하고, 상기 다수의 제1 음성 파라미터를 변환 및 혼합하여 다수의 제2 음성 파라미터를 생성하는 컨버터/믹서; 및

상기 다수의 제2 음성 샘플 및 상기 다수의 제2 음성 파라미터를 수신하도록 구성되며, 상기 제2 코딩 체계에 기초하여 인코드된 제2 비트-스트림을 생성하는 인코더

를 포함하는 것을 특징으로 하는 음성 트랜스코더.
제 21항에 있어서, 상기 컨버터는 상기 다수의 제2 음성 파라미터를 상기 인코더에 전송하여 상기 인코더에 의한 파라미터의 재-평가를 회피하고, 이에 의해지연을 감소시키는 것을 특징으로 하는 음성 트랜스코더.
제 21항에 있어서, 상기 디코더는 포스트-필터 요소를 포함하며, 상기 포스트-필터 요소가 디스에이블되는 것을 특징으로 하는 음성 트랜스코더.
제 21항에 있어서, 상기 인코더는 잡음 억제기를 포함하며, 상기 잡음 억제기가 디스에이블되는 것을 특징으로 하는 음성 트랜스코더.
제 21항에 있어서, 상기 다수의 제2 음성 파라미터는 상기 음성 신호의 에너지와 관련된 적어도 하나의 파라미터를 포함하는 것을 특징으로 하는 음성 트랜스코더.
제 21항에 있어서, 상기 다수의 제1 음성 파라미터는 상기 음성 신호의 스펙트럼 특성과 관련된 적어도 하나의 파라미터를 포함하는 것을 특징으로 하는 음성 트랜스코더.
제 21항에 있어서, 상기 다수의 제1 음성 파라미터는 상기 음성 신호의 피치와 관련된 적어도 하나의 파라미터를 포함하는 것을 특징으로 하는 음성 트랜스코더.
제 21항에 있어서, 상기 다수의 제1 음성 파라미터는 상기 음성 신호의 피치 이득과 관련된 적어도 하나의 파라미터를 포함하는 것을 특징으로 하는 음성 트랜스코더.
제 21항에 있어서, 상기 컨버터는 상기 다수의 제2 음성 파라미터를 상기 인코더에 전송하여 상기 인코더에 의한 파라미터의 재-평가를 회피하고, 이에 의해 상기 제2 비트-스트림으로부터 생성된 음성 신호의 감쇠를 감소시키는 것을 특징으로 하는 음성 트랜스코더.
음성 신호로부터 생성된 제1 비트-스트림을 트랜스코딩할 수 있는 음성 트랜스코더에 있어서,

제1 코딩 체계에 기초하여 인코드된 상기 제1 비트-스트림을 수신하도록 구성되며, 상기 제1 코딩 체계에 따라 상기 제1 비트-스트림을 디코드하고 상기 비트-스트림으로부터 다수의 제1 음성 샘플을 생성하는 디코더;

상기 다수의 제1 음성 샘플을 수신하도록 구성되며, 상기 다수의 제1 음성 샘플을 제2 코딩 체계에 따라 사용하기 위해 다수의 제2 음성 샘플로 변환하는 컨버터; 및

상기 다수의 제2 음성 샘플을 수신하도록 구성되며, 상기 제2 코딩 체계에 기초하여 인코드된 제2 비트-스트림을 생성하는 인코더

를 포함하는 것을 특징으로 하는 음성 트랜스코더.
제 30항에 있어서, 상기 컨버터는 상기 다수의 제1 음성 샘플의 제1 프레임 사이즈를 제2 프레임 사이즈로 변환하고, 상기 인코더는 상기 제2 프레임 사이즈를 사용하여 상기 제2 코딩 체계에 따라 상기 제2 비트-스트림을 생성하는 것을 특징으로 하는 음성 트랜스코더.