KR20070051920A

KR20070051920A - 인코딩된 신호의 처리

Info

Publication number: KR20070051920A
Application number: KR1020077006635A
Authority: KR
Inventors: 주하 오잔페래
Original assignee: 노키아 코포레이션
Priority date: 2004-08-26
Filing date: 2005-08-02
Publication date: 2007-05-18
Also published as: EP1782418B1; TW200623027A; KR100945219B1; EP1782418A1; TWI390502B; CN101031961B; CN101031961A; US8423372B2; HK1105476A1; KR20090018873A; WO2006021862A1; KR100899141B1; US20060047523A1

Abstract

본 발명은 일반적으로 적어도 두 개의 신호원으로부터 주파수 도메인 인코딩된 신호들을 결합하기 위한 방법에 관련된다. 신호들을 전체 신호를 디코딩하는 것 없이 결합하도록 하기 위해, 본 발명은 양자화된 스펙트럼 성분을 얻도록 인코딩된 신호를 디코딩하고, 윈도우 시퀀스를 얻도록 상기 디코딩된 신호의 상기 양자화된 스펙트럼 성분을 역양자화하고, 및 결합된 신호를 얻도록 상기 적어도 역양자화된 신호를 결합한다.

윈도우 시퀀스, 오디오 신호 인코딩, 신호 합성, 신호 압축, 페이딩

Description

인코딩된 신호의 처리{Processing of encoded signals}

본 발명은 일반적으로 적어도 두 개의 신호원으로부터 주파수 도메인 인코딩된 신호들을 결합하기 위한 방법에 관한 것이다. 본 발명은 또한 오디오 콘텐트 프로세싱 시스템과 상세하게는 압축 오디오 콘텐트 프로세싱 시스템에 관한 것이다. 본 발명은 또한 압축된 오디오 신호를 위해 볼륨 페이딩을 제공하는 것에 관련된다.

오디오 신호에 대한 압축 방법은 입력 신호의 스펙트럼 표시를 코딩함으로써 지각있는 오디오 코딩의 전통적인 패러다임을 신봉하는 기술에서 확립되어 왔다. 이 접근 방법은 신호의 시간 도메인에서 보다는 주파수 도메인에서 코딩을 적용한다. 하지만, 비디오 신호와 같은 다른 신호에 대해서도 스펙트럼 주파수 도메인 코딩은 가능하다.

예를 들면, MPEG 1 - 혹은 MPEG 2 - 계층 3(mp3) 오디오 포맷에 따른 코딩이 적어도 오디오 파일의 배포와 획득에 관한 한 인터넷에서의 사실 상의 표준으로 확립되어 왔다. 하지만, MPEG -4의 고급 오디오 코딩(AAC), 돌비의 AC - 3 및 다른 주파수 도메인 인코딩 방법과 같은 것들도 표준으로 또한 확립되어 왔다. 이러한 압축 방법의 성공은 또한 이러한 압축 오디오 파일을 재생하기 위한 전용 이동 장 치에 대한 새로운 시장을 만들어 내었다.

압축 방법의 좀더 자세한 설명은 K. Brandenburg, G. Stoll 저(著) "ISO - MPEG - 1 audio: a generic standard for coding of high-quality digital audio", J. Audio. Eng. Soc., Vol. 42, No. 10, Oct. 1994, pp. 780-792에 나와 있다.

이동 통신 장치나 이동 소비자 전자 장치와 같은 이동 장치에서는, 압축 표준 mp3가 개연성있는 오디오 포맷의 하나로 지지되어 지고 있다. 오디오 포맷을 적용하는 하나의 예는 벨 곡조일 것이다. 압축된 오디오 파일은 예를 들면 벨 곡조로 사용될 수 있을 것이다. 벨 곡조는 일반적으로 그 유지 시간이 짧기 때문에, 사용자는 압축된 오디오 파일로부터 직접 추출된 오디오 클립과는 반대로 개별 벨 곡조를 만들고 싶을 것이다. 다른 예로는, 현존하는 오디오 콘텐트 데이타베이스로부터 개별화된 사용자 콘텐츠를 만들어 내기 위한 오디오 편집기 애플리케이션일 것이다.

이동 장치 내에서, 데이타베이스는 압축된 오디오 파일의 콜렉션을 포함할 수 있다. 하지만, 개별화는 오디오 콘텐트 생성 툴을 필요로 할 것이다. 이는 예를 들어 오디오 콘텐트를 편비하도록 하는 편집 툴일 것이다. 하지만, 주파수 도메인 압축 방법에 따라 압축된 특정 파일에서 압축된 파일을 편집하는 것은 불가능하다. 표준 툴로 압축된 도메인에서 편집하는 것은 주파수 도메인 압축 신호의 특성 때문에 지원되지 않는다. 압축 도메인에서 비트 스트림이 시간 도메인에서 지각있는 오디오 파일의 표시가 아니기 때문에, 디코딩 없이 서로 다른 신호를 믹스하는 것은 불가능하다.

더불어, 시간 도메인 신호에 대해 페이드-인 및 페이드-아웃 메커니즘의 구현은 용이하다. 하지만, 압축 오디오 신호를 디코딩하는 연산의 복잡성은 페이딩을 적용하는데 제한이다. 디코딩과 인코딩 모두 시간 도메인 페이딩 방법이 사용되어야 하는 경우에 구현되어야만 한다. 단점은 MPEG 오디오 포맷과 같은 압축 오디오 비트 스트림은 일반적으로 상당한 연산 복잡도를 필요로 한다는 것이다. 예를 들면, 특별하게는 연산 자원이 일반적으로 제한되는 것과 같이 이동 장치에서 디코딩은 많은 프로세싱 양을 차지하게 된다.

하지만, 특별하게는 주파수 도메인에서 압축 비트 스트림을 취급하는 것이 바람직할 것이다. 현 시스템에서의 단점은 주파수 도메인에서의 편집 가능성의 결여이다. 편집 전에 압축 데이터 스트림을 완벽하게 디코딩하기 위한 필요는 연산 시간과 구현 비용을 증가시킨다. 압축 해제의 필요없이 압축 파일을 편집할 필요가 있다. 예를 들면, 다른 신호들을 하나의 파일로 믹스하는 것이 바람직할 것이다.

게다가, 페이드-인 및 페이드-아웃과 같은 페이딩 효과를 제공하는 것이 압축 데이터에서도 바람직할 것이다. 예를 들면, 이동 설비에서 압축 오디오 신호를 위한 이러한 편집 툴이 요망된다.

이러한 단점을 극복하기 위해서 실시예는 양자화된 스펙트럼 성분을 얻기 위해 인코딩된 신호를 디코딩하고, 윈도우 시퀀스를 얻기 위해 디코딩된 신호의 양자화된 스펙트럼 성분을 역양자화하고, 그리고 결합된 신호를 얻기 위해 적어도 역양자화된 신호를 결합하는 것을 수반하는, 적어도 두 신호원으로부터의 주파수 도메인 인코딩된 신호들을 결합하기 위한 방법을 제공한다.

둘 이상의 신호의 결합을 구현하기 위한 가장 간단한 경우는 직접 원 비트 스트림을 조작하는 것일 것이다. 하지만, 이는 각각의 데이터 프레임이 특정 신호를 위해 최적화되기 때문에 실제에서는 효력을 발휘하지 못한다. 스펙트럼 샘플에 변경을 가하는 것은 코딩 때문에 어렵다. 더군다나, 비트 스트림 포맷팅은 매우 어려운 작업인데, 왜냐하면 원 비트 스트림 조작에 제한을 가하는 압축 표준에 의해 구성(syntax)이 정의되기 때문이다.

그리하여, 비트 스트림의 디코딩이 필요하다. 그럼에도 불구하고, 본 발명에 따르면 연산의 복잡성이 상식적인 한도 내에서 유지될 것이다.

본 발명 상의 방법은 비트 스트림 전체를 압축 해제할 필요없이 둘 이상의 압축된 비트 스트림을 하나의 압축된 비트 스트림으로 믹스하도록 한다. 오직 부분적인 압축 해제만이 필요하다.

리던던시를 줄이기 위해서, 압축 신호에 엔트로피 코딩이 적용된다. 예를 들면, 이는 호프만 코딩을 적용하여 이루어질 수 있을 것이다. 여기서, 양자화된 스펙트럼은 세 개의 다른 영역으로 나누어지고 개별적인 호프만 테이블이 각각 영역에 할당될 것이다. 처리되어야 할 양자화된 신호 스펙트럼을 생성하기 위해, 인코딩된 비트 스트림은 일단 디코드되어야 할 필요가 있다. 예를 들면, 디코딩은 역 호프만 디코딩을 적용함으로써 이루어질 수 있을 것이다. 결과적인 비트 스트림은 신호의 양자화된 스펙트럼 성분을 표시할 수 있을 것이다.

믹스를 위한 첫번째 개연성있는 지점은 디코딩 후일 것이다. 하지만, 이러한 접근 방법의 단점은 신호의 진폭 스케일링이 알려지지 않았다는 것이다. 더군다나, 신호원은 서로 다른 도메인에 있을 것이다. 예를 들면, AAC 코딩된 신호에서, 일시적 노이즈 쉐이핑(temporal noise shaping)은 양 신호원 모두에서 가능하지 않을 수도 있을 것이다. 그러므로, 신호의 품질은 예측 불가할 것이다. 다른 단점은 믹스되어야 할 신호원은 서로 다른 주파수 분해능을 사용할 수 있다는 것이다. 이는 상당히 심각한 품질 문제를 동반한다.

믹스를 위한 두번째로 가능한 지점은 역양자화 이후이다. 여기서의 유일한 제한은 주파수 분해능이다. 주파수 분해능이 모든 시간에 걸쳐 동일하다고 가정할 수 없다. 주파수 도메인 압축 신호에서, 데이터 블럭의 블럭 길이는 주파수 분해능을 정의할 수 있을 것이다. 다른 블럭 길이에 대해서는, 다른 윈도우 시퀀스가 적용된다. 이 윈도우 시퀀스는 길기도 하고, 짧기도 하고, 길다가 짧고(long-to-short) 그리고 짧다가 길 것(short-to-long)이다.

압축 동안, 필터뱅크 프로세싱이 신호에 적용된다. 예를 들면, 수정 이산 코사인 변환(MDCT)을 사용하는 동적 윈도우 스위칭이 적용된다. 이 윈도우는 스펙트럼 분해와 리던던시 감소를 얻도록 한다. 짧은 윈도우는 시간에 따라 그 특성이 급격히 변하는 전이 신호를 취급하는데 사용된다.

대부분의 경우에 대부분의 신호에 대해 주파수 분해능이 동일하기 때문에, 서로 다른 신호의 윈도우 시퀀스가 믹스될 수 있다. 신호를 믹스하기 위해 어떤 완벽한 압축 해제가 필요하지는 않다.

본 발명 방법은 필터뱅크 연산을 생략할 수 있도록 한다. 합성 다중 상(phase) 필터 뱅크는 연산적으로 가장 비싸다. 전체 디코딩 시간의 반 이상이 합성 필터뱅크 블럭에 사용된다고 알려져 있다. 그러므로, 두 개의 신호를 합칠 때에 이 단계를 생략하는 것은 반 이상으로 연산 복잡도를 줄이는 것이 될 것이다.

실시예는 부 대역 신호를 얻기 위해 적어도 하나 이상의 윈도우 시퀀스를 역변환하고, 상기 부 대역 신호를 주파수 분해능이 역변환되지 않은 적어도 제2의 신호로부터 온 윈도우 시퀀스의 주파수 분해능과 일치하는 주파수 분해능을 갖는 수정된 윈도우 시퀀스로 재변환하는 것을 제공한다.

다른 주파수 도메인 압축 방법과 함께 mp3와 AAC 오디오 포맷들은 더 짧은 변환 길이를 본질적으로 전이상태의 신호 세그먼트에 적용한다. 이는 서로 다른 주파수 분해능을 야기한다. 하지만 서로 다른 주파수 분해능을 갖는 신호들은 결과적인 신호의 품질이 예측 가능하지 않기 때문에 서로 믹스되어서는 안된다. 보통, 긴 윈도우 시퀀스가 사용된다. 짧은 윈도우 시퀀스는 전이 신호를 위해 사용된다. 하지만 이러한 시퀀스들은 보통은 거의 발생하지 않는다. 제1 비트 스트림을 디코딩한 후에, 시퀀스는 아마도 제2 비트 스트림에서처럼 동일한 윈도우 스트림을 가질 것이다. 그러한 경우에, 제2 신호의 윈도우 시퀀스와 일치시키기 위해 제1 신호의 윈도우 시퀀스를 재연산할 필요는 없다.

두 신호의 윈도우 시퀀스가 다른 경우에만 일치(matching)가 계산될 필요가 있을 것이다. 윈도우 시퀀스의 변환은 동일한 윈도우 시퀀스를 가지지 않는 프레임에 대해서만 이루어지고, 그럼으로써 연산양이 줄어든다. 하지만, 상기 변환이 이웃 윈도우에 대한 정보를 필요로 할 것이기 때문에 일시적으로 이웃 윈도우를 저장할 필요가 있을 것이다. 변환 작업을 수행하기 위해서, 이전, 현재 및 이후의 프레임으로부터의 코딩 프레임들이 저장될 필요가 있을 것이다. 이유는 전환이 겹치기 방법을 사용하기 때문일 것이다. 이는 일시적으로 이웃하는 윈도우의 50% 겹침 결과를 낳을 것이다. 예를 들면, MDCT는 블럭들 간의 겹치기를 제공하고 MDCT 코딩된 프레임들은 IMDCT를 적용한 후에 현재 프레임의 전반부가 이전 프레임의 후반부에 부가될 수 있도록 재구성된다. 현재 프레임은 이전 프레임의 후반부를 현재 프레임의 전반부에 더하고, 현재 프레임의 후반부를 다음 프레임의 전반부에 더함에 의해 포워드 MDCT를 위해 복원될 수 있을 것이다. 이 후에, 결합을 위해 적절한 신호를 얻기 위해 두 번째 mp3 비트 스트림의 윈도우 시퀀스를 사용하는 포워드 MDCT가 적용될 수 있을 것이다.

본 실시예는 하나 이상의 신호를 부대역 신호로 디코딩하는 것을 제공한다. MDCT를 적용하기 전에, 필터뱅크 이후에 인코딩 동안 얻어지는 것은 하나의 신호일 것이다. 부대역 신호와 결합될 다른 신호의 윈도우 길이가 얻어진다. 이 윈도우 길이에 대한 이해와 함께 부대역 신호를 재변환하는 것이 적용될 수 있다. 재변환은 다른 신호의 주파수 분해능을 감시하기 위해 주파수 분해능을 조정하는 것을 허용한다. 그러한 경우에, 윈도우 시퀀스는 동일 길이를 갖는다. 이 두 신호를 결합하는 것은 서로 다른 주파수 분해능 때문에 제한없이 가능하다.

또 다른 실시예는 둘 이상의 윈도우 시퀀스를 역변환하고 상기 변환된 윈도우 시퀀스들을 동일 변환 도메인 내에서 결합하는 것을 제공한다. 이 실시예는 둘 이상의 윈도우 시퀀스를 부대역 신호로 각각 역변환하는 것으로써 신호들을 믹스하고 둘 이상의 부대역 신호들을 결합된 단일 부대역 신호로 결합하는 것을 제공한다. 이 경우에, 결합되어야 할 신호는 부대역 신호가 사용가능할 때까지 압축 해제될 필요가 있다. 이는 역 수정 코사인 변환(IMDT) 후에 일어나는 상황일 것이다.

결합되어야 할 신호의 크기 레벨은 실시예에 따라 조정될 수 있을 것이다. 이는 각각의 결합된 신호의 신호 강도를 정의하도록 한다. 예를 들면, 신호들 중 하나는 다른 신호의 배경으로 믹스될 수 있을 것이다.

실시예는 신호들을 결합하기에 앞서 신호들 중 적어도 하나를 대역 제한하는 것을 제공한다. 하나 이상의 신호를 대역 제한하는 것은 전체 디코딩 복잡도 규모를 축소할 것이다. 믹스 단계에서 실제적으로 필요한 스펙트럼의 일부만이 디코딩되고 처리된다. 예를 들면, 만약 첫번째 신호에 스펙트럼의 반만이 더해진다면, IMDCT + MDCT + 에일리어스 감소 처리는 두번째 신호의 첫번째 16 부대역에만 적용될 필요가 있다. 스테레오 신호의 경우에는, 모노 신호가 추가적인 처리 시간을 줄이기 위해서처럼 두번째 신호를 믹스하는 것이 가능할 것이다.

결합된 신호의 스펙트럼 성분을 주파수 도메인 인코딩된 출력 신호로 인코딩하는 것이 실시예에 따라 또한 제공된다. 결합된 신호는 시간 도메인 신호를 모두 압축하는데 비해 덜한 연산 복잡도로 압축될 수 있을 것이다.

믹스된 신호의 인코딩을 위해서, 입력 프레임에서 이미 제공되는 코딩 정보를 사용하는 것이 유리하다. 이는 연산 복잡도를 줄여준다. 예를 들어, MDCT 도메인에서 믹싱이 적용되면, 양자화, 호프만 코딩, 및 비트-스트림 포맷팅 만이 필요할 것이다.

양자화 단계는 입력 프레임으로부터 이미 있는 스케일링 값이 적어도 부분적으로라도 사용된다면 단순화될 수 있다. mp3 프레임은 3가지 섹션으로 나누어진다. 헤더, 부속 정보 및 패이로드 부분이 그것이다. 헤더는 주로 프레임 동기화와 프레임의 패이로드 색션의 채널과 코딩 설정을 결정하기 위해 사용된다. 패이로드 부분은 스펙트럼과 호프만 코딩 스펙트럼 샘플에 대한 스케일링 값을 담고 있다. 몇몇 부속 정보는 패이로드 부분과 연계될 필요가 있다. 이 부속 정보는 예를 들어 스펙트럼 샘플, 패이로드 부분의 길이, 블럭 종류 등을 위해 사용되는 호프만 테이블 수를 기술한다.

부대역 도메인에서 믹스되는 신호를 인코딩하는 것은 추가적인 MDCT 프로세싱을 필요로 한다. 그럼에도 불구하고, 인코딩 프로세스는 동일하게 남아있다. 상당한 복잡도 감소가 얻어질 수 있는데 이는 압축 기간 동안 폴리페이즈(polyphase) 필터뱅크 단계가 필요하지 않기 때문이다. 전체 인코딩 시간의 60% 정도가 심리 음향(psychoacoustics) 및 폴리페이즈 필터뱅크 분해에 사용되는 것으로 측정되고 있다. 이 단계를 생략하는 것은 연산 시간을 상당한 정도로 줄여준다.

본 발명의 다른 양태는 적어도 두 개의 신호원으로부터 주파수 도메인 인코딩 신호를 결합하도록 되어있는 시스템으로서, 양자화된 스펙트럼 성분을 얻도록 인코딩된 신호를 디코드하도록 되어 있는 디코더, 윈도우 시퀀스를 얻기 위해 디코딩된 신호의 양자화된 스펙트럼 성분을 역양자화하도록 되어 있는 역양자화기, 결합된 신호를 얻기 위해 적어도 역양자화된 신호들을 결합하기 위한 결합기를 포함한다.

본 발명의 추가적인 측면은 그러한 시스템을 포함하는 모듈이고 소비자 전자 장치 혹은 이동 통신 장치에서 그러한 장치의 사용이다.

본 발명의 다른 측면은 적어도 두 개의 신호원으로부터 주파수 도메인 인코딩된 신호를 결합하기 위해 저장된 컴퓨터 프로그램을 포함하는 컴퓨터 프로그램 제품에 있어서, 상기 프로그램은 프로세서로 하여금 양자화된 스펙트럼 성분을 얻도록 상기 인코딩된 신호를 디코드하고, 윈도우 시퀀스를 얻도록 상기 디코딩된 신호의 상기 양자화된 스펙트럼 성분을 역양자화하고, 및 결합된 신호를 얻도록 상기 적어도 역양자화 신호를 결합하도록 하는 명령을 포함한다.

다른 측면에 따르면, 주파수 도메인 인코딩된 오디오 신호로부터 범용 크기 레벨 값을 나타내는 비트 스트림 성분을 얻고, 변경값으로 상기 인코딩된 오디오 신호의 프레임과 채널에 대해 상기 범용 크기 레벨 값을 나타내는 상기 비트 스트림 성분을 변경하되, 상기 변경값은 매 n번째 프레임마다 변하고, n은 페이드(fade) 레벨의 수와 페이딩의 길이로부터 결정되는, 주파수 도메인 인코딩된 오디오 신호 내에 페이딩(fading)을 제공하기 위한 방법이 제공된다.

이 방법은 압축된 신호를 압축 해제할 필요없이 인코딩된 오디오 신호에 페이딩 효과를 제공할 수 있다. 예를 들면, MP3 오디오 파일 혹은 AAC 오디오 파일은 제한을 처리할 필요없이 편집될 수 있다. 이 실시예는 페이딩 효과가 요구되는 때에 오디오 파일을 압축 해제하고 재압축할 필요성을 없앤다.

글로벌 크기 레벨을 나타내는 비트 스트림 성분은 예를 들어, MP3 및 AAC 오디오 스트림 내에서 제공되는 global_gain 파라미터일 수 있다. 이 global_gain 파라미터는 MP3 파일에서 스케일팩터(scalefactor)들과는 별개로, 그리고 AAC 파일에서는 스케일팩터에 대한 시작값으로서 사용된다. 적절히 이 비트 스트림 성분을 단지 수정함에 의해서, 페이드-인 및 페이드-아웃 효과가 얻어질 수 있다.

실시예는 페이딩의 길이와 페이드 레벨 수의 지수(quotient)로부터 값 n을 결정하는 것을 제공한다. 예를 들면, 페이드 레벨의 수는 페이드 볼륨, 즉, 볼륨 레벨에서의 상대적 변화로부터 결정될 수 있다. 더불어, 예를 들면 프레임의 수, 페이딩에 관한 길이는

로부터 결정된다.

어떤 수의 프레임 후에 변경값이 변경되어야 하는지를 결정하는 값 n은 프레임 카운트와 페이드 레벨로부터 결정될 것이다. 예를 들면, 값 n은 로그 차수에서 선택될 수 있을 것이고 혹은 다른 곡선 차수에서 얻어질 수도 있을 것이다. 하지만, 변경값은 일정할 것이다. 볼륨에서의 변화는 축적이 매 n 프레임마다 이루어지는 축적된 변경값으로부터 결정될 수도 있을 것이다. 예를 들면, 첫번째 열 개의 프레임에 대해서는 축적 변경값은 2이고, 다음 열 개의 프레임에 대해서는 4, 다음 열 개의 프레임에 대해서는 6 등으로 될 것이다.

실시예는 인코딩된 오디오 신호의 페이딩 주기 내에서 각각의 프레임과 각각의 채널에 대해 글로벌 크기 레벨 값을 나타내는 비트 스트림 요소를 변경하는 것을 제공한다. 하지만 대체값은 n 프레임 주기 내에서 모든 프레임에 대해 일정하다. 채널의 수는 비트 스트림으로부터 결정될 것이다.

추가적으로, 볼륨 레벨은 MP3 파일 내의 매 단위 정보(granule)마다 변경된다. 단위 정보의 수는 역시 비트 스트림으로부터 결정된다. AAC 인코딩된 파일에 대해서는, 볼륨 레벨은 매 신택틱(syntactic) AAC 요소마다 변경될 수 있는데, 이는 프레임 단위로 비트 스트림으로부터 결정될 수 있다.

원하는 페이딩 볼륨으로 페이딩을 수정하기 위해, 실시예는 초기 크기 레벨 혹은 원 크기 레벨에 상대적인 최종 크기 레벨로부터 페이드 볼륨을 결정하는 것을 제공한다.

디코딩 없이 페이딩 효과를 가능하도록 하기 위해, 실시예는 비트 스트림으로부터 글로벌 크기 레벨을 나타내는 비트 스트림 요소를 추출하고, 글로벌 크기 레벨을 나타내는 비트 스트림 요소를 변경하고, 및 글로벌 크기 레벨을 나타내는 변경된 비트 스트림 요소를 비트 스트림으로 삽입하는 것을 제공한다.

본 발명의 다른 측면은 주파수 도메인 인코딩된 오디오 신호 내에서 페이딩을 제공하기 위한 장치로서, 상기 주파수 도메인 인코딩된 오디오 신호의 비트 스트림으로부터 글로벌 크기 레벨값을 나타내는 비트 스트림 성분을 얻기 위한 파서, 변경값으로 상기 인코딩된 오디오 신호의 프레임과 채널을 위해 상기 글로벌 크기 레벨값을 나타내는 상기 비트 스트림 성분을 변경하기 위한 프로세싱 유닛을 포함하되, 상기 프로세싱 유닛은 매 n번째 프레임마다 상기 변경값을 바꾸도록 되어 있고, n은 페이드 레벨의 수와 페이딩의 길이로부터 결정된다.

본 발명의 또 다른 측면은 주파수 도메인 인코딩된 오디오 신호 내에 페이딩을 제공하기 위한 컴퓨터 프로그램 제품으로서 컴퓨터 프로그램을 포함하고, 상기 컴퓨터 프로그램은 프로세서로 하여금 상기 주파수 도메인 인코딩된 오디오 신호의 비트 스트림으로부터 글로벌 크기 레벨값을 나타내는 비트 스트림 성분을 얻고, 변경값으로 상기 인코딩된 오디오 신호의 프레임과 채널을 위해 상기 글로벌 크기 레벨값을 나타내는 상기 비트 스트림 성분을 변경하되, 매 n번째 프레임마다 상기 변경값을 변경하고, n은 페이드 레벨의 수와 페이딩의 길이로부터 결정되도록 동작하는 명령을 포함한다.

본 발명의 추가적인 측면은 전자 장치 혹은 이동 통신 장치 내에서 그러한 방법을 사용하는 것이다.

본 발명의 다른 목적과 특징은 수반되는 도면과 연결되어 아래의 상세한 설명에서 더욱 명확해질 것이다. 하지만, 도면은 예시의 목적 만을 위해 제시되었을 뿐 부가된 충구항에서 이루어진 본 발명의 제한을 정하는 것으로서 제시된 것은 아님을 이해하여야 한다. 또한 도면은 수치 크기가 제시되지 않았고 또한 도면은 단지 여기서 기술된 구조와 과정을 개념적으로 나타내기 위해 의도되었다는 것을 이해하여야 한다.

도 1은 MP3 인코딩, 디코딩 시스템의 블럭도를 도식적으로 보여준다.

도 2는 AAC 인코딩, 디코딩 시스템의 블럭도를 도식적으로 보여준다.

도 3은 mp3 압축 신호를 믹스하기 위한 제 1 발명 믹싱 시스템의 블럭도를 도식적으로 보여준다.

도 4는 mp3 압축 신호를 믹스하기 위한 제 2 발명 믹싱 시스템의 블럭도를 도식적으로 보여준다.

도 5는 믹스된 mp3 압축 신호를 인코딩하기 위한 인코딩 시스템의 블럭도를 도식적으로 보여준다.

도 6은 AAC 압축 신호를 믹스하기 위한 제 3 발명 믹싱 시스템의 블럭도를 도식적으로 보여준다.

도 7는 믹스된 AAC 압축 신호를 인코딩하기 위한 인코딩 시스템의 블럭도를 도식적으로 보여준다.

도 8은 페이딩 효과를 구현하기 위한 제 1 의사-코드이다.

도 9는 페이딩 효과를 구현하기 위한 제 2 의사-코드이다.

도 10은 페이딩 효과를 구현하기 위한 제 3 의사-코드이다.

도 11은 페이딩을 구현하기 위한 방법의 흐름도이다.

도 12는 본 발명 시스템의 블럭도를 도식적으로 보여준다.

아래 도면을 걸쳐서 동일 번호는 유사한 기능을 갖는 동일 구성요소를 나타낸다.

오디오 압축은 오디오 데이터 파일의 크기를 줄이도록 설계된 데이터 압축의 한 형태이다. 오디오 압축 알고리즘은 일반적으로 오디오 코덱으로 불려진다. 다른 특정 형태의 데이터 압축과 같이, 많은 무손실 알고리즘이 있다. 더불어, 압축 효과를 거두기 위해 신호에 손실을 가져오는 알고리즘도 기술계에서 잘 알려져 있다. 손실 코덱의 예로서는 MPEG-1, MPEG-2 (MP2)을 위한 레이어 2 오디오 코덱, MPEG-1, MPEG-2를 위한 레이어 3 오디오 코덱과 non-ISO MPEG-2.5(MP3), 뮤즈팩(MPC), Ogg Vorbis, MPEG-2 및 MPEG-4를 위한 AAC(Advanced Audio Coding), 돌비를 위한 AC-3 혹은 윈도우 미디어 오디오(WMA) 등이다.

손실 알고리즘 때문에, 파일이 압축 해제되고 그 이후 다시 재압축될 때는 오디오 품질이 손상받는다(생성 손실). 그러므로, 손실 알고리즘으로 압축되는 신호 편집은 신호를 완전히 압축 해제하는 것을 막아야 한다. 편집 목적을 위해 오디오 파일을 압축 해제, 편집, 및 그 이후 압축하는 일은 없어야 한다.

도 1은 MP3 포맷에서 오디오 파일을 압축하기 위한 코딩, 디코딩 시스템을 보여준다. 자세한 설명은 ISO/IEC JTC1/SC29/WG11 (MPEG-1), Coding of Moving Pictures and Associated Audio for Digital Storage Media at up to about 1.5 Mbit/s, Part 3 : Audio, International Standard 11172-3, ISO/IEC, 1993,

D. Pan, "A tutorial on MPEG/Audio compression," IEEE Multimedia, Vol. 2, 1995, pp. 60-74, 그리고

S. Shlien, "Guide to MPEG-1 Audio standard," IEEE Trans. on Broadcasting, Vol. 40, No. 4, Dec. 1996. pp. 206-218에서 찾아볼 수 있다.

PCM(Pulse code modulated) 입력 신호(2)를 인코딩하기 위한 시스템은 분해 필터 뱅크 블럭(4)로 구성된다. 분해 뱅크 블럭(4)은 입력 신호를 폴리페이즈 인터폴레이션을 사용하여 동일 대역폭의 32 부대역으로 분해한다. 코딩을 위해서는, 부대역 샘플은 18x32 샘플로 그룹화된다.

PQF(Polyphase Quadrature Filter)는 필터 뱅크를 나타내는데, 필터 뱅크는 입력 신호를 주어진 N개의 동일 거리의 부대역으로 나눈다. 이 부대역은 N 팩터(factor)에 의해 부-샘플될 것이다.

이 샘플링은 에일리어싱으로 유발할 것이다. MDCT 시간 도메인 에일리어스 제거와 유사하게, PQF의 에일리어싱은 이웃 부대역에 의해 제거되는데, 즉, 신호들은 일반적으로 두 개의 부대역에 저장된다. PQF 필터는 MPEG 레이어 I, II, 부가적인 MDCT가 있는 MPEG 레이어 III, 4 개의 대역 PQF 뱅크를 위한 AAC-SSR MPEG-4에서 , 그리고 상위 스펙트럼 복제 대역의 분해를 위해 MPEG-4 고효율 AAC(HE AAC)에서 사용된다.

PQF 필터 뱅크는 로우패스(low-pass)인 베이스 필터를 사용하여 구성된다. 이 로우-패스는 N 코사인 함수에 의해 변조되고 N 밴드-패스로 변환된다.

부대역 신호는 MDCT 및 윈도우잉(MDCT and Windowing) 블럭(6)에 의해 처리될 것이다. 이 MDCT 및 윈도우잉 블럭(6)은 18- 혹은 36- 포인트 MDCT를 각각의 32 부대역에 적용함으로써 코딩 효율과 스펙트럼 분해능을 증가시킬 것이다.

수정 이산 코사인 변환(MDCT)은 겹쳐지는 추가적인 속성과 함께, 타입-IV 이산 코사인 변환(DCT-IV)에 기초하여 주파수 변환된다. 이는 더 큰 데이터세트의 연속되는 블럭에서 실행되도록 설계되는데, 여기서 후속적인 블럭들은 50% 겹쳐진다. 또한 다른 종류의 DCT에 기초한 다른 형태의 MDCT와 함께 이산 싸인 변환에 기초한 연속 변환, 수정 이산 싸인 변환 MDST가 있다.

MP3에서, MDCT는 블럭 4의 32 대역 폴리페이즈 직교 필터(PQF) 뱅크의 출력 에 적용된다. 이 MDCT 및 윈도우잉 블럭(6)의 출력은 PQF 필터 뱅크의 전형적인 에일리어싱을 줄이기 위해 도 3과 4에서 보여지는 바와 같이 에일리어스 버터플라이 블럭(7) 내에서 에일리어스 감소 블럭에 의해 후처리될 것이다.

압축을 하기 위해서, 심리 음향 모델(8)이 제공된다. 이 블럭은 입력 신호(2)를 고속 푸리에 변환 블럭(8a)에 의해 신호의 스펙트럼 성분으로 변환한다. MDCT와 윈도우잉 블럭(6)을 위해 최적의 실행 변환 길이를 결정하기 위해 신호 분석이 스펙트럼 샘플에 적용될 수 있다. 또한 마스킹 문턱(masking threshold)(8b)은 어떤 가청의 인위적 산물을 신호에 끼워넣는 것 없이 양자화 블럭(10)에 의해 각각의 주파수 밴드에 삽입되어질 수 있는 노이즈의 양을 정의하기 위해 주파수 밴드 마다 스펙트럼 샘플에 대해 결정되어질 수 있다.

MDCT와 윈도우잉 블럭(6)에 의해 산출되는 윈도우 시퀀스는 스케일러 양자화(Scaler Quantizer) 블럭(10)으로 전해진다. 잡음률(SNR)은 실제의 양자화 프로세스가 발생하기 전에 입력 샘플을 3/4 파워만큼 올림으로써 윈도우에 걸쳐서 일정하게 유지된다. 양자화 블럭(10)은 임계 대역에 근접하는 22 주파수 밴드에 대해 동작할 것이다. 스케일팩터(scalefactor)는 주어진 비트레이트(bitrate)를 맞추기 위해 조정되는 각각의 대역에 할당될 것이다.

이 스켈일러 양자화 블럭(10)의 출력은 호프만 코더 블럭(12)으로 전해진다. 호프만 코더 블럭(12) 내에서, 양자화된 스펙트럼은 3 개의 특정 영역으로 나누어지고 개별 호프만 테이블(호프만 코드북)이 각 영역별로 할당된다. 각각의 코드북이 나타낼 수 있는 최고값은 15로 제한될 것이다.

호프만 코더 블럭(12)의 출력 신호는 멀티플렉서(14)로 전해진다. 추가로, 스케일러 양자화 블럭(10)의 스케일링 값과 같은 부속 정보(side information)는 코딩 블럭(16)에서 코딩되고 멀티플렉서(14)로 전해진다. 멀티플렉서(14)는 수신 디멀티플렉서(20)의 디지털 채널(18)을 통해 전송되어야 할 신호를 계산한다.

디코더 편에서는, 동작은 역으로 행해진다. 샘플은 모든 블럭 22-30을 거쳐 진행하고 각각의 블럭은 신호에 대해 역 동작을 수행한다.

첫번째 블럭은 호프만 디코딩 블럭(24)이다. 호프만 디코딩 블럭(24)의 출력은 양자화된 스펙트럼 신호이다. 디코딩, 역양자화, inverse MDCT 및 역윈도우잉을 위해서, 부속 정보 디코딩 블럭(22)이 제공되고, 인코딩된 부속 정보를 디코딩한다.

호프만 디코더 블럭(24)의 출력은 역양자화(dequantizer) 블럭(26)으로 전해진다. 역양자화 블럭(26) 내에서, 양자화된 스펙트럼 신호는 윈도우 시퀀스로 변환된다.

윈도우 시퀀스는 inverse MDCT 및 윈도우잉 블럭(28)으로 전해진다. inverse MDCT는 IMDCT로 알려져 있다. 서로 다른 수의 입력과 출력이 있다. 하지만, 오류를 줄이고 원 데이터가 복구되도록 하는 겹쳐진 IMDCT의 후속 겹침 블럭이 추가됨으로써 완벽한 역변환이 얻어진다.

IMDCT 및 역윈도우잉 블럭(28)의 출력은 부대역 신호이다. 이 부대역 신호는 합성 필터 뱅크 블럭(30)으로 전달되는데, 이 블럭은 어느 정도의 손실이 있는 입력 입력 PCM 신호(32)를 표시하는 출력 PCM 신호(32)를 계산한다. 손실은 마스킹 문턱 블럭(8b)과 MDCT 및 윈도우잉 블럭(6)에 의해 입력 신호(2)에 삽입될 것이다.

도 2는 AAC 인코더와 디코더를 나타낸다. 자세한 설명은

ISO/IEC JTC1/SC29/WG11 (MPEG-2 AAC), Generic Coding of Moving Pictures and Associated Audio, Advanced Audio Coding, International Standard 13818-7, ISO/IEC, 1997

ISO/IEC JTC1/SC29/WG11 (MPEG-4), Coding of Audio-Visual Objects: Audio, International Standard 144963-3, ISO/IEC, 1999, 그리고

M.Bosi, K. Brandenburg, S. Quackenbush, L. Fielder, K. Akagiri, H. Fuchs, M. Dietz, J. Herre, G. Davidson, Y. Oikawa, "ISO/IEC MPEG-2 advanced audio coding," 101st AES Convention, Los Angeles 1996.

MPEG AAC에서 사용되는 기술은 MEPG 레이어-3에서의 기술과 매우 가깝다. MPEG AAC의 코딩 커널은 약간의 파라미터 범위만 다를 뿐 레이어-3에서 사용된 코딩 커널과 거의 완전히 동일하다.

하지만, MPEG AAC는 레이어-3와 역호환되지 않고 코딩 효율은 AAC 특정 코딩 블럭으로 증가된다. 인코더는 후속 코딩 블럭으로 구성되는데, 몇몇은 선택적이어서, 각각의 프레임에서 그 블럭을 사용할 것인지가 결정된다.

입력 신호(2)는 MDCT 필터 뱅크 블럭(34)에 전해진다. 이 MDCT 필터 뱅크 블럭(34)은 윈도우 길이 2048에서 256 비트로 스위칭하는 동적 윈도우로 MDCT를 계산한다. 이는 스펙트럼 분해와 리던던시 감소를 얻게 한다. 짧은 윈도우는 전이 신호를 다루는데 사용될 것이다. MDCT 필터 뱅크 블럭(34)의 출력은 윈도우 시퀀스이 다.

윈도우 시퀀스는 일시적 노이즈 형상화(TNS : Temporal Noise Shaping)로 전해지는데, 이 TNS는 선택적인 블럭이다. 이 TNS 블럭(36)은 시간 도메인에서 양자화 노이즈를 형성하기 위해 주파수 도메인에서 잘 알려진 선형 예측 기술을 적용한다. 이는 시간 도메인에서 양자화 노이즈의 비균등 분포를 낳게 되는데, 이는 특히 음성 신호에 대해서는 유용한 특징이다.

MDCT 필터 뱅크 블럭(34)과 TNS 블럭(36)으로 심리 음향 모델(38)의 출력이 흘러들어가는데, 심리 음향 모델 출력은 윈도우 결정 블럭(38a)과 지각(知覺) 모델 블럭(38b) 내에서 입력 신호(2)를 분석한다.

여전히 윈도우 시퀀스인 TNS 블럭(36)의 출력은 선택적인 MS-스테레오 및/또는 인텐서티 스테레오(IS: Intensity stereo) 예측 블럭(40)으로 전해진다. 채널 쌍에 대해서는, MS, IS 혹은 양쪽 모두가 사용될 수 있다. MS-스테레오는 좌우 채널의 합과 차를 전송하는데 반해, 인텐서티 스테레오에 대해서는, 오직 하나의 채널만이 전송된다. 인텐서티 스테레오에서, 두 채널 표시는 인코더에 의해 전달된 정보에 따라 전송된 채널을 스케일링함에 의해 얻어진다. (좌우 채널은 서로 다른 스케일링 팩터를 가진다.)

MS-스테레오 및/또는 인텐서티 스테레오(IS) 예측 블럭(40)의 출력은 스케일러 양자화 블럭(42)으로 전달되는데, 이 스케일러 양자화 블럭 42는 스케일러 양자화 블럭 10과 유사하게 동작한다. 스케일러 양자화 블럭 40은 비균등 양자화를 제공한다. 또한 스캐일러팩터를 통해 노이즈 쉐이핑이 제공되는데, 이는 무노이즈 코 딩 블럭(44) 및/또는 스케일러 양자화기 블럭(42)의 일부일 것이다. 스케일러팩터는 각각의 주파수 대역으로 할당될 것이다. 스케일팩터 값은 잡음률(SNR)과 대역의 비트-할당을 수정하기 위해 증가되거나 혹은 감소될 것이다.

스케일러 스펙트럼 성분은 호프만 코딩으로 전해지는데, 호프만 코딩은 무(無)노이즈 블럭(44)의 일부일 수 있다. 코딩 게인은 스케일팩터들을 차등적으로 호프만 코딩함으로써 얻을 수 있을 것이다. 다중 코드북은 동적 코드북 할당과 결합될 것이다. 코드북은 특정 주파수 대역에서만 사용되도록 혹은 이웃하는 대역 사이에서 공유되도록 할당될 것이다.

부속 정보와 함께, 부속 정보 코딩 블럭(16) 내에서 코딩된 신호는 멀티플렉서(14)로 전해진다.

디멀티플렉서(20)의 출력은 무노이즈 디코딩 블럭(50)과 부속 정보 디코딩 블럭(48)로 인가된다. 디코딩된 신호는 역양자화기(dequantizer) 블럭(52)으로 전해지는데, 이것의 출력은 윈도우 시퀀스이다. 신호는 선택적으로 역 MS-스테레오 및/또는 인텐서티 스테레오(IS) 예측 블럭(54), 역 TNS 필터 블럭(56) 및 출력이 PCM 오디오 신호(32)인 역 MDCT(inverse MDCT) 및 윈도우잉 블럭(58)로 선택적으로 전해진다.

도 3은 신호들을 결합하는 제 1 방법을 보여준다. 두 개의 오디오 신호 A, B는 디멀티플렉서 블럭(20)과 부속 정보 디코딩 블럭(22)에 독립적으로 인가된다. 신호들은 호프만 디코더 블럭(24) 및 역양자화기(dequantizer) 블럭(26)에 의해 독립적으로 처리된다. 결과적으로 나오는 신호들은 윈도우 시퀀스이다.

신호 A의 윈도우 시퀀스는 에일리어스 감소 블럭(27)과 역 MDCT(inverse MDCT) 블럭(28)에 전해진다. 결과로 나오는 신호는 부대역 신호이다.

신호 A의 부대역 신호는 MDCT 블럭(6)에 전해지는데, 여기서 윈도우 시퀀스가 생성된다. MDCT 블럭(6)은 추가적으로 신호 B에 대한 부속 정보를 받는다. 이 부속 정보는 신호 B 프레임과 일시적으로 일치하는 윈도우 크기를 결정하도록 한다. 이 정보를 이용하여, MDCT 블럭(6)은 신호 B의 윈도우 시퀀스와 동일한 윈도우 크기를 갖는 신호 A의 윈도우 시퀀스를 계산한다. 결과로서 나오는 윈도우 시퀀스는 에일리어스 버터플라이 블럭(7)에 전해진다. 이 것의 출력인 윈도우 시퀀스는 믹서(60)에 전해진다.

믹서(60) 내에서, 신호 A 및 신호 B의 윈도우 시퀀스가 결합된다. 윈도우 시퀀스가 크기 면에서 일치하기 때문에, 제한없이 결합이 가능하다. 만일 x가 신호 B의 역 양자화된 스펙트럼을 나타내고 y가 신호 A의 MDCT 출력을 나타내는 것이라면, 믹스된 신호 z는 다음과 같이 표현될 것이다.

여기서 N은 믹스되어야 할 스펙트럼 샘플의 수이고, a와 b는 믹스된 신호에 대한 크기 레벨 조정을 기술하는 상수이다. 이 크기 레벨 조정 신호 a, b는 신호 62로써 믹서(60)에 전해질 것이다. 크기 레벨을 조정함으로써, 신호 A, B는 볼륨의 견지에서 서로 고르게 조정될 것이다.

결합된 신호는 도 5에서 나타난 것처럼 인코딩될 것이다.

도 4는 특별히 mp3-압축 신호와 같은 압축된 오디오 신호를 결합하기 위한, 제 2의 가능한 방법을 보여준다. 입력 신호 A, B는 도 1의 20, 22, 24, 26, 27, 28 블럭과 유사한 20, 22, 24, 26, 27, 28 블럭들에 의해 독립적으로 처리된다. 도 3에 따른 방법의 차이점은 신호 B의 역양자화 블럭(26), 에일리어스 감소 블럭(27) 및 역 MDC 블럭(28)이다. 결과적으로, 양 신호 A, B는 부대역 신호에 연결된다. IMDCT 블럭(28)의 출력은 부대역 신호이다. 신호 A, B의 부대역 신호는 믹서(60)에 전해지는데, 여기서 신호들이 결합된다. 크기 레벨 조정은 신호(62)에 의해 역시 가능할 것이다.

믹서의 출력은 MDCT 블럭(6) 및 에일리어스 버터플라이 블럭(7)에 전해진다. 윈도우잉에 관해 이미 알려진 부속 정보를 사용하기 위해, 신호 B로부터의 부속 정보는 MDCT 블럭(6)에 전해질 것이다. 하지만, 믹서(60)가 한 프레임의 시간 이동을 이끌어 내듯이, 지연 블럭(64)에 의해 구현되는, 한 프레임의 부속 정보에 대한 시간 지연이 필요하다.

결과적인 신호 C는 결합된 신호의 윈도우 시퀀스인데, 도 5에서 보는 것 처럼 인코딩될 것이다.

도 5는 인코더(66)를 보여준다. 인코더(66)는 양자화기 루프일 것이다. 입력 신호 C는 양자화기(quantizer) 블럭(10)에서 양자화되고, 호프만 코더 블럭(12)에서 호프만 코딩된다. 포맷팅 블럭(68)은 비트 스트림을 포맷팅하는 것을 제공한다. 출력 신호들은 멀티플렉서(14)에 의해 계산되고 믹스된 mp3 비트 스트림은 신호 E로 나타난다.

도 6은 AAC 압축 신호 F, G의 믹스를 보여준다. 신호들은 도 2,3의 조합에서 기술되는 것과 유사한, 20, 46, 50, 52, 54 블럭에 의해 독립적으로 계산된다.

결과로 나오는 신호는 각각의 신호 F, G의 윈도우 시퀀스이다. 신호 F는 블럭 56 및 58에 의해 추가 처리된다. 결과적인 신호는 블럭 34에서 처리된다. 블럭 34에서의 처리 동안, 신호 G의 일시 병렬 윈도우의 크기에 관한 부속 정보는 부속 정보 디코더(46)로부터 사용된다. 이 부속 정보를 사용하는 것은 신호 F, G의 윈도우 시퀀스의 윈도우 크기를 동일하게 할 수 있게 한다. 결과적인 신호은 블럭 36에 전해지는데, 여기서 신호 G의 윈도우 시퀀스와 믹서(60)에서 결합되어 결합된 신호 H가 된다.

도 7은 결합된 신호 H의 인코딩을 보여준다. 신호는 MS-스테레오 및/또는 인텐서티 스테레오(IS) 예측 블럭(40)에 전해진다. 출력 신호는 양자화기(quantizer) 루프(70)로 전해진다. 신호는 양자화기 블럭(42)에서 양자화되고 무노이즈 인코딩 블럭(44)에서 인코딩된다. 양자화와 인코딩을 위해서, 도 6에서 도시된 바와 같이, 부속 정보 디코딩 블럭(46)에 의해 얻어진 부속 정보 I가 사용될 것이다. 부속 정보를 사용하는 것은 결합된 신호가 분해될 필요가 없기 때문에, 연산 부담을 줄여줄 것이다. 포맷팅 블럭(68) 내에서 비트 스트림은 포맷된다. 출력 신호는 멀티플렉서(14)에 의해 계산되고 믹스된 AAC 비트 스트림은 신호 K로서 나온다.

소프트웨어와 전용 하드웨어 솔루션이 사용될 수 있을 것이다. 하지만, 이 방법은 오디오 콘텐트 생성 패키지의 일부일 수 있다. 오디오 콘텐트 생성 패키지는 일정 이동 단말의 부가 툴(플러그인)일 수 있다.

부가적인 구현 대체 장점은 mp3 혹은 AAC 플레이 믹서에 관련된다. 만약 양 mp3 혹은 AAC 스트림이 동시에 플레이될 필요가 있다면, 예를 들면, 출력 장치가 아닌 디코딩 동안 이미 오디오 샘플을 믹스하는 것이 바람직할 것이다. 플레이 믹서를 위해서는 인코딩 동작은 필요 없다. 인코딩 동안의 믹스는 결합된 신호의 재압축없이 상기한 바와 같이 이루어질 수 있을 것이다.

mp3와 AAC 오디오 포맷은 스펙트럼 샘플을 양자화하기 위해 비균등 양자화기를 사용한다. 디코더 편에서는, 역 비균등 양자화가 수행될 필요가 있다.

페이딩 효과에 대해서는, 역양자화된 스펙트럼 지수들의 크기 레벨을 조정할 필요가 있다. 페이딩 효과를 적용할 때는, 일부 혹은 전체의 입력 역양자화 파라미터들이 수정될 필요가 있다. 페이딩 효과를 구현하는데 사용되는 이른 바 global_gain인 비트 스트림 성분을 오디오 포맷이 정의하는 것이 밝혀졌다.

mp3에서는, global_gain은 스케일팩터와 독립된 값인데 반해, AAC에서는, global_gain은 실제상으로는 스케일팩터에 대한 시작값인데, 스케일팩터들은 전송을 위해 독립적으로 인코딩된다. 그럼에도 불구하고, 단지 이 하나의 비트 스트림 성분을 수정함으로써, 페이드-인 및 페이드-아웃 효과가 실시예에 따라 쉽고 효율적으로 구현될 수 있을 것이다.

global_gain 값은 스펙트럼 도메인 샘플에 인가된다는 것이 알려졌다. 페이딩 효과를 만들기 위해, 수정 프로세스에서 몇몇 제한이 관여된다. 페이딩 레벨이 도달될 때까지 각각의 프레임에 대해 global_gain 값을 단지 변경하는 것은 효과적이지 않다. 이 접근법이 실패하는 이유는 출력 볼륨 레벨이 점진적으로 증가하지 않고 대신 페이드-인 영역에서 긴 시간 동안의 휴지기가 있고 그리고 나서 급작스럽게 페이드-인이 발생하기 때문이다.

출력 볼륨 레벨에서 점진적인 증가 혹은 감소를 만들기 위해서, 실시예는 주파수 도메인 인코딩된 오디오 신호의 비트 스트림으로부터 글로벌 크기 레벨 값을 나타내는 비트 스트림 성분을 얻기 위해, 변경값과 함께 인코딩된 오디오 신호의 프레임 및 채널에 대해 글로벌 크기 레벨 값을 나타내는 비트 스트림을 변경하는 것을 제공하는데, 여기서 변경값은 매 n번째 프레임마다 변경되고, n은 페이드 레벨의 수와 페이딩 길이로부터 결정된다.

도 8에서 도 10까지의 의사 코드(pseudo-code)는 실시예에 따라 비트 스트림을 디코딩하는 것 없이 압축된 오디오 신호에 대해 어떻게 페이딩 효과가 구현될 수 있는지를 보여준다. 실시예에 따르면, 오직 몇몇 단순 비트 스트림 파싱 만이 요구된다.

몇몇 글로벌 파라미터들은 페이딩이 의도된 데로 동작하기 위해 특정화될 것이다. 도 8에 따른 의사 코드는 필요한 파라미터의 사양을 기술한다.

fadeVolume, frameCount, fadeMode 값들은 예들 들어 사용자 입력으로부터의 입력값들일 것이다. frameCount 파라미터는 연속적인 오디오 프레임의 수를 기술하는데, 이 프레임에서 페이딩 동작이 적용되어야만 한다. 이 값은 원하는 페이딩 길이 및 오디오 프레임의 길이로부터 계산될 수 있을 것이다. 각각의 오디오 프레임은 어떤 길이를 갖는데, 일반적으로 밀리 초(milliseconds)로 측정되고, 이 파라미터는 페이딩 영역이 알려지기만 하면 쉽게 얻어질 수 있다. 이 값은 일반적으로는 사용자 특정 값일 것이다.

fadeVolume 값은 원 레벨과 비교하여 초기(페이드-인) 혹은 최종(페이드-아웃) 볼륨 레벨을 기술할 것이다. 이 파라미터의 범위는 0과 100 혹은 어떤 다른 상위 문턱값 사이에서 변할 것이다.

FADEZEROLEVEL 값은 MP3와 AAC를 위한 구현 특화 파라미터이나, 값 30은 예를 들면 MP3와 AAC 모두에 사용될 수 있을 것이다. gainDec 값은 global_gain에서의 변화를 특정화할 수 있을 것이다. 이는 변경값일 것이다. incStep 값은 정의된 n개의 연속되는 프레임이 현재의 gainDec 값으로 변경되기만 하면 gainDec의 변경을 정의한다.

실시예에 따르면, global_gain은 도 9의 의사 코드에 따라 프레임 별로 수정된다.

num_mp3_granules 값은 하나의 mp3 프레임에서 단위 정보의 수(1 혹은 2)일 것이고, num_mp3_channels 값은 mp3 단위 정보에 있는 채널(모노 혹은 스테레오)의 수일 것이다. 이 파라미터들은 디코딩 시작 시점에서 mp3 비트 스트림으로부터 결정된다.

num_syntactic_aac_elements 값은 AAC 프레임에서

비록 바람직한 실시예에 따라 응용된 바와 같이 본 발명의 기본적인 신규한 특징들이 보여지고 기술되었으며 지적되었지만, 본 발명의 사상에서 벗어남 없이 이 기술분야에서 통상의 지식을 가진 자라면 장치기술된 장치와 방법에서 형태와 상세한 부분에 있어 다양한 생략 및 대체와 변경이 가능하리라는 것을 이해할 수 있을 것이다. 예를 들면, 동일한 결과를 얻기 위해 상당한 정도의 유사한 방법으로 동일 기능을 상당한 정도로 수행하는 구성 요소 및/또는 단계들의 모든 조합이 본 발명의 범위에 속하도록 명시적으로 의도되었다. 더군다나, 본 발명에서 개시된 형태 혹은 실시예와 연결되어 보여진 구조 및/또는 구성 요소 및/또는 방법 단계는 설계 상의 선택으로서 일반적 문제로서 다른 어떤 개시되거나 기술되거나 혹은 제안된 형태 혹은 실시예에 더해질 수 있다. 그러므로, 여기 첨부된 청구항의 범위에서 제시되는 것에 의해서만 본 의도가 제한되어야 할 것이다.

Claims

적어도 두개의 신호원으로부터 주파수 도메인 인코딩된 신호들을 결합하기 위한 방법에 있어서,

양자화된 스펙트럼 성분을 얻도록 상기 인코딩된 신호들을 디코딩하는 단계;

윈도우 시퀀스를 얻도록 상기 디코딩된 신호들의 양자화된 스펙트럼 성분을 역양자화하는 단계; 및

결합된 신호를 얻도록 상기 하나 이상의 역양자화된 신호를 결합하는 단계를 포함하는 주파수 도메인 인코딩된 신호들을 결합하기 위한 방법.
제1항에 있어서, 상기 윈도우 시퀀스의 적어도 하나에 에일리어스(alias) 감소를 제공하는 것을 더 포함하는 주파수 도메인 인코딩된 신호들을 결합하기 위한 방법.
제1항에 있어서,

부대역(sub-band) 신호를 얻도록 상기 윈도우 시퀀스 중 적어도 하나를 역변환시키고, 상기 부대역 신호를 역변환되지 않은 신호로부터의 윈도우 시퀀스의 주파수 분해능에 정합하는 주파수 분해능을 가진 수정된 윈도우 시퀀스로 재변환하는 것을 더 포함하는 것을 특징으로 하는, 주파수 도메인 인코딩된 신호들을 결합하기 위한 방법.
제3항에 있어서, 상기 수정된 윈도우 시퀀스를, 결합된 윈도우 시퀀스로 역변환되지 않은 신호의 윈도우 시퀀스와 결합시키는 것을 더 포함하는 것을 특징으로 하는 주파수 도메인 인코딩된 신호들을 결합하기 위한 방법.
제4항에 있어서, 겹쳐진 직교 변환에 따라 상기 결합된 윈도우 시퀀스를 변환, 재변환 혹은 변환 및 재변환하는 것을 더 포함하는 것을 특징으로 하는 주파수 도메인 인코딩된 신호들을 결합하기 위한 방법.
제1항에 있어서, 상기 적어도 두개의 윈도우 시퀀스를 역변환하고, 동일한 변환 도메인 내에서 상기 변환된 윈도우 시퀀스들을 결합하는 것을 더 포함하는 것을 특징으로 하는 주파수 도메인 인코딩된 신호들을 결합하기 위한 방법.
제1항에 있어서, 적어도 두개의 원도우 시퀀스들을 부대역 신호로 각각 역변환하고, 적어도 두개의 상기 부대역 신호를 결합된 부대역 신호로 결합하는 것을 더 포함하는 것을 특징으로 하는 주파수 도메인 인코딩된 신호들을 결합하기 위한 방법.
제7항에 있어서, 상기 결합된 부대역 신호를 결합된 윈도우 시퀀스로 재변환하는 것을 더 포함하는 것을 특징으로 하는 주파수 도메인 인코딩된 신호들을 결합 하기 위한 방법.
제8항에 있어서, 겹쳐진 직교 변환에 따라 상기 결합된 윈도우 시퀀스를 변환, 재변환 혹은 변환 및 재변환하는 것을 더 포함하는 것을 특징으로 하는 주파수 도메인 인코딩된 신호들을 결합하기 위한 방법.
제1항에 있어서, 결합되어야 할 상기 신호들에게 크기 레벨 조정을 제공하는 것을 더 포함하는 것을 특징으로 하는 주파수 도메인 인코딩된 신호들을 결합하기 위한 방법.
제1항에 있어서, 상기 신호들을 결합하는 것에 앞서 상기 신호들 중 적어도 하나를 대역 제한함을 제공하는 것을 더 포함하는 것을 특징으로 하는 주파수 도메인 인코딩된 신호들을 결합하기 위한 방법.
제1항에 있어서, 상기 결합된 신호를 스팩트럼 성분으로 양자화하는 것을 더 포함하는 것을 특징으로 하는 주파수 도메인 인코딩된 신호들을 결합하기 위한 방법.
제12항에 있어서, 상기 결합된 신호의 상기 스펙트럼 성분을 주파수 도메인 인코딩된 출력 신호로 인코딩하는 것을 더 포함하는 것을 특징으로 하는 주파수 도 메인 인코딩된 신호들을 결합하기 위한 방법.
제12항에 있어서, 상기 주파수 도메인 인코딩된 출력 신호의 비트 스트림을 포맷팅하는 것을 더 포함하는 것을 특징으로 하는 주파수 도메인 인코딩된 신호들을 결합하기 위한 방법.
제1항에 있어서, 디코딩, 역양자화 혹은 디코딩 및 역양자화 모두에 대해 상기 인코딩된 신호 중 적어도 하나로부터 얻어진 부속 정보를 이용하는 것을 더 포함하는 것을 특징으로 하는 주파수 도메인 인코딩된 신호들을 결합하기 위한 방법.
제1항에 있어서, 결합으로부터 MPEG - 1, 2, 2.5, 레이어 - 3 인코딩된 신호, 고급 오디오 코딩 인코딩된 신호, MPC Musepack 인코딩된 신호, Ogg Vorbis 인코딩된 신호, 윈도우 미디어 오디오 인코딩된 신호 혹은 AC3 인코딩된 신호를 제공하는 것을 더 포함하는 것을 특징으로 하는 주파수 도메인 인코딩된 신호들을 결합하기 위한 방법.
적어도 두 개의 신호원으로부터 주파수 도메인 인코딩된 신호를 결합하기 위해 구성된 시스템으로서,

양자화된 스펙트럼 성분들을 얻도록 상기 인코딩된 신호를 디코드하기 위한 디코더;

윈도우 시퀀스를 얻도록 상기 디코딩된 신호의 상기 양자화된 스펙트럼 성분을 역양자화하기 위한 역양자화기; 및

결합된 신호를 얻도록 상기 적어도 역양자화 신호들을 결합하기 위한 결합기를 포함하는 것을 특징으로 하는 적어도 두 개의 신호원으로부터 주파수 도메인 인코딩된 신호를 결합하기 위해 구성된 시스템.
제17항의 시스템을 포함하는 모듈.
소비자 전자 장치 혹은 이동 통신 장치에서 제17항의 시스템의 사용.
적어도 두 개의 신호원으로부터 주파수 도메인 인코딩된 신호를 결합하기 위해 저장된 컴퓨터 프로그램을 포함하는 컴퓨터 프로그램 제품에 있어서, 상기 프로그램은 프로세서로 하여금

양자화된 스펙트럼 성분을 얻도록 상기 인코딩된 신호를 디코드하고;

윈도우 시퀀스를 얻도록 상기 디코딩된 신호의 상기 양자화된 스펙트럼 성분을 역양자화하고; 및

결합된 신호를 얻도록 상기 적어도 역양자화 신호를 결합;하도록 하는 명령을 포함하는 것을 특징으로 하는 컴퓨터 프로그램 제품.
주파수 도메인 인코딩된 오디오 신호 내에 페이딩(fading)을 제공하기 위한 방법에 있어서,

상기 주파수 도메인 인코딩된 오디오 신호로부터 범용 크기 레벨 값을 나타내는 비트 스트림 성분을 얻는 단계;

변경값으로 상기 인코딩된 오디오 신호의 채널과 프레임에 대해 상기 범용 크기 레벨 값을 나타내는 상기 비트 스트림 성분을 변경하되,

상기 변경값은 매 n번째 프레임마다 변하고, n은 페이드(fade) 레벨의 수와 페이딩의 길이로부터 결정되는 것을 특징으로 하는 주파수 도메인 인코딩된 오디오 신호 내에 페이딩(fading)을 제공하기 위한 방법.
제21항에 있어서, 페이드 레벨의 수와 상기 페이딩의 길이의 지수(quotient)로부터 n을 결정하는 것을 더 포함하는 것을 특징으로 하는 주파수 도메인 인코딩된 오디오 신호 내에 페이딩(fading)을 제공하기 위한 방법.
제21항에 있어서, 상기 인코딩된 오디오 신호의 페이딩 주기 내에서 각각의 프레임과 각각의 채널에 대해 글로벌 크기 레벨 값을 나타내는 상기 비트 스트림 성분을 변경하는 것을 더 포함하는 것을 특징으로 하는 주파수 도메인 인코딩된 오디오 신호 내에 페이딩(fading)을 제공하기 위한 방법.
제21항에 있어서, 초기 크기 레벨 혹은 원 크기 레벨에 대비하여 최종 크기 레벨로부터 페이드 볼륨을 결정하는 것을 더 포함하는 것을 특징으로 하는 주파수 도메인 인코딩된 오디오 신호 내에 페이딩(fading)을 제공하기 위한 방법.
제21항에 있어서, 상기 비트 스트림으로부터 상기 글로벌 크기 레벨을 나타내는 상기 비트 스트림 성분을 추출하고, 상기 상기 글로벌 크기 레벨을 나타내는 비트 스트림 성분을 변경하고, 및 상기 글로벌 크기 레벨을 나타내는 상기 변경된 비트 스트림을 상기 비트 스트림에 삽입하는 것을 더 포함하는 것을 특징으로 하는 주파수 도메인 인코딩된 오디오 신호 내에 페이딩(fading)을 제공하기 위한 방법.
주파수 도메인 인코딩된 오디오 신호 내에 페이딩을 제공하기 위한 장치에 있어서,

상기 주파수 도메인 인코딩된 오디오 신호의 비트 스트림으로부터 글로벌 크기 레벨값을 나타내는 비트 스트림 성분을 얻기 위한 파서;

변경값으로 상기 인코딩된 오디오 신호의 프레임과 채널을 위해 상기 글로벌 크기 레벨값을 나타내는 상기 비트 스트림 성분을 변경하기 위한 프로세싱 유닛을 포함하되,

상기 프로세싱 유닛은 매 n번째 프레임마다 상기 변경값을 바꾸도록 되어 있고, n은 페이드 레벨의 수와 페이딩의 길이로부터 결정되는 것을 특징으로 하는 주파수 도메인 인코딩된 오디오 신호 내에 페이딩을 제공하기 위한 장치
주파수 도메인 인코딩된 오디오 신호 내에 페이딩을 제공하기 위한 컴퓨터 프로그램 제품으로서 컴퓨터 프로그램을 포함하고, 상기 컴퓨터 프로그램은 프로세서로 하여금

상기 주파수 도메인 인코딩된 오디오 신호의 비트 스트림으로부터 글로벌 크기 레벨값을 나타내는 비트 스트림 성분을 얻고;

변경값으로 상기 인코딩된 오디오 신호의 프레임과 채널을 위해 상기 글로벌 크기 레벨값을 나타내는 상기 비트 스트림 성분을 변경하되, 매 n번째 프레임마다 상기 변경값을 변경하고, n은 페이드 레벨의 수와 페이딩의 길이로부터 결정되도록; 동작하는 명령을 포함하는 것을 특징으로 하는 주파수 도메인 인코딩된 오디오 신호 내에 페이딩을 제공하기 위한 컴퓨터 프로그램 제품.
제1항에 있어서, 전자 장치 혹은 이동 통신 장치 내에서 실행하기 위한 적어도 두개의 신호원으로부터 주파수 도메인 인코딩된 신호들을 결합하기 위한 방법
제1항에 있어서, 상기 결합된 신호를 양자화, 인코딩, 혹은 양자화 및 인코딩하기 위해 상기 인코딩된 신호 중 적어도 하나로부터 부속 정보를 이용하는 것을 더 포함하는 것을 특징으로 하는 적어도 두개의 신호원으로부터 주파수 도메인 인코딩된 신호들을 결합하기 위한 방법.