KR20140091595A

KR20140091595A - 클립핑 아티팩트를 피하기 위한 장치, 방법 및 컴퓨터 프로그램

Info

Publication number: KR20140091595A
Application number: KR1020147015972A
Authority: KR
Inventors: 알버트 호이베르거; 베른트 에들러; 니콜라우스 레텔바흐; 슈테판 게에르슈베르거; 요하네스 힐페르트
Original assignee: 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date: 2011-12-15
Filing date: 2012-12-14
Publication date: 2014-07-21
Also published as: MX349398B; CA2858925A1; EP2791938A2; AU2012351565B2; US20140297293A1; MX2014006695A; CN104081454A; AU2012351565A1; CA2858925C; WO2013087861A2; CN104081454B; EP2791938B1; IN2014KN01222A; BR112014015629B1; JP2015500514A; US9633663B2; KR101594480B1; JP5908112B2; EP2791938B8; ES2565394T3

Abstract

오디오 인코딩 장치는 대응 인코딩된 신호 세그먼트를 얻기 위해 인코딩된 입력 오디오 신호의 시간 세그먼트를 인코딩하기 위한 인코더를 포함한다. 오디오 인코딩 장치는 재-디코딩된 신호 세그먼트를 얻기 위해 인코딩된 신호 세그먼트를 디코딩하기 위한 디코더를 더 포함한다. 대응 클리핑 경고를 발생시키기 위한 그리고 실제 신호 클리핑 또는 지각적 신호 클리핑 중 적어도 하나에 관한 재-디코딩된 신호 세그먼트를 분석하기 위한 클리핑 감지기가 제공된다. 상기 인코더는 클리핑 경고에 대응하여 감소된 클리핑 개연성을 도출하는 적어도 하나의 수정된 인코딩 매개변수와 함께 오디오 신호의 시간 세그먼트를 다시 인코딩하도록 더 구성된다.

Description

클립핑 아티팩트를 피하기 위한 장치, 방법 및 컴퓨터 프로그램{APPARATUS, METHOD AND COMPUTER PROGRAMM FOR AVOIDING CLIPPING ARTEFACTS}

실시예에 따라, 오디오 인코딩 장치가 제공된다.

현재 오디오 컨텐츠 재생 및 전달 체인들에서 디지털적으로 이용가능한 마스터 컨텐츠 (PCM 스트림)가 예를 들어, 컨텐츠 생성 사이트에서 전문 AAC 인코더에 의해 인코딩된다. 결과 AAC 비트스트림은 예를 들어, 애플 아이튠즈 뮤직 스토어를 통해 구매할 수 있도록 된다. 드문 경우들에서 몇몇 디코딩된 PCM 샘플들은 "클리핑(clipping)"되며 이는 둘 이상의 연속적인 샘플들이 출력 파장 형태에 대해 균일하게 양자화되고 고정된 포인트 표현(PCM)의 내포된 비트 해상도(예를 들어 16비트)에 의해 표현될 수 있는 최대 레벨에 도달한다는 것을 의미한다. 이는 들을 수 있는 아티팩트들(artifacts)을 이끌 수 있다(클릭들 또는 짧은 왜곡). 이는 디코더 측면에서 일어나기 때문에, 컨텐츠가 전달된 후에 문제를 해결할 수 있는 방법은 없다. 디코더 측면에서 이 문제를 다룰 수 있는 유일한 방법은 디코더들에 안티-클리핑 기능을 위한 플러그-인을 생성하는 것일 것이다. 기술적으로 이는 부대역들에서 에너지 분포의 수정을 의미할 것이다(그러나 포워드 모드에서만이며, 즉 음향심리학 모델을 설명하는 반복은 아닐 것이다...) 클리핑의 임계 밑에 있는 인코더들의 입력에서 오디오 신호를 가정하면, 현대의 지각적 오디오 인코더에서의 클리핑을 위한 이유들은 다양하다. 무엇보다도, 오디오 인코더는 양자화를 전송 데이터 레이트를 감소시키기 위해 입력 파장 형태의 주파수 분해에서 이용가능한 전송된 신호에 적용한다. 주파수 영역에서 양자화 에러들은 원래의 파형에 관해 신호의 진폭 및 위상의 작은 편차를 도출한다. 진폭 또는 위상 에러들이 건설적으로 더해지는 경우, 시간 영역에서 결과 진폭은 원래 파형보다 일시적으로 더 높을 수 있다. 두번째로 매개변수(파라미터) 코딩 방법들 (예를 들어, 스펙트럼 대역 복사, SBR) 은 다소 거칠은 방법으로 신호 파워를 매개변수화(파라미터화)한다. 위상 정보는 생략된다. 결과적으로 리시버 측면에서 신호는 파형 보존 없이 정확한 파워로 재생성될 뿐이다. 풀 스케일에 근접한 진폭을 갖는 신호들은 클리핑되기 쉽다.

압축된 비트스트림 표현에서 주파수 분해의 동적 범위가 일반적인 16-비트 PCM 범위보다 훨씬 크기 때문에, 비트스트림은 더 높은 신호 레벨들을 운반할 수 있다. 결과적으로 실제 클리핑이 나타나는 것은, 오직 디코더 출력 신호가 고정 포인트 PCM 표현으로 전환 (및 제한) 될 때 뿐이다.

실시예에 따라, 오디오 인코딩 장치가 제공된다. 오디오 인코딩 장치는 인코더, 디코더 및 클리핑 감지기를 포함한다. 인코더는 대응 인코딩된 신호 세그먼트를 얻기 위해 인코딩될 입력 오디오 신호의 시간 세그먼트를 인코딩하도록 적용된다. 디코더는 재-디코딩된 신호 세그먼트를 얻기 위해 인코딩된 신호 세그먼트를 디코딩하도록 적용된다. 클리핑 감지기는 지각가능한 신호 클리핑 또는 실제 신호 클리핑 중 적어도 하나에 관해 재-디코딩된 신호 세그먼트를 분석하도록 적용된다. 클리핑 감지기는 또한 대응 클리핑 경고를 발생시키도록 적용된다. 인코더는 클리핑 경고에 대응하여 감소된 클리핑 개연성을 도출하는 적어도 하나의 수정된 인코딩 매개변수(파라미터) 중 적어도 하나를 갖는 오디오 신호의 시간 세그먼트를 다시 인코딩하도록 더 구성된다.

본 발명의 실시예들은 모든 인코딩된 시간 세그먼트가 시간 세그먼트를 다시 디코딩하는 것에 의해 거의 즉시 발생하는 잠재적 클리핑에 관해 확인될 수 있다는 점에 착안한다. 그래서, 추가 디코딩에 의해 야기되는 상기 처리(프로세싱) 오버헤드는 일반적으로 수용가능하다. 추가 디코딩에 의해 도입되는 지연(delay)는 또한 일반적으로 수용가능하고, 예를 들어 미디어 어플리케이션들을 스트리밍하는 예에 대해서이며 (예를 들어, 인터넷 라디오) : 시간 세그먼트의 반복된 인코딩이 필요하지 않는 한, 입력 오디오 신호의 재-디코딩된 시간 세그먼트에서 잠재적인 클리핑이 감지되지 않는 한, 상기 지연은 대략 하나의 시간 세그먼트이거나, 하나의 시간 세그먼트보다 약간 더 많다. 시간 세그먼트가 다시 인코딩되어야 할 경우에 잠재적 클리핑 문제가 시간 세그먼트에서 식별되었기 때문에, 상기 지연은 증가한다. 그럼에도 불구하고, 예상되고 고려되어야 할 일반적인 최대 지연은 일반적으로 여전히 상대적으로 짧다.

도 1은 본 발명의 적어도 몇몇 실시예에 따른 오디오 인코딩 장치의 개략적 블록도를 나타낸다.
도 2는 본 발명의 추가 실시예들에 따른 오디오 인코딩 장치의 개략적 브록도를 나타낸다.
도 3은 본 발명의 적어도 몇몇 실시예들에 따른 오디오 인코딩 방법의 개략적 흐름도를 나타낸다.
도 4는 디코더에 의해 출력되는 전체 신호에 최대 에너지를 기여하는 주파수 영역을 수정하는 것에 의해 주파수 영역에서 클리핑 방지 개념을 개략적으로 도시한다.
도 5는 지각적으로 가장 덜 관련된 주파수 영역을 수정하는 것에 의해 주파수 영역에서 클리핑 방지 개념을 개략적으로 도시한다.

클리핑을 나타내지 않는 디코더에 인코딩된 신호를 제공하는 것에 의해 디코더에서 클리핑의 발생을 방지하는 것이 바람직하며 그래서 디코더에서 클리핑 예방을 실행할 필요가 없다. 다른 말로, 디코더가 클리핑 예방에 관해 신호를 처리할 필요 없이 기본적인 디코딩을 수행할 수 있다면 바람직할 것이다. 특히, 많은 디코더들이 이미 요즘 이용되고 있으며 이러한 디코더들은 디코더-측면 클리핑 예방으로부터 이점을 가지기 위해 업그레이드되어야 한다. 게다가, 한번 클리핑이 발생하면 (즉, 인코딩될 오디오 신호가 클리핑이 발생하기 쉬운 방법으로 인코딩되었다면), 몇몇 정보는 회복불가능하게 손실될 수 있고 그래서 클리핑 방지-가능 인코더라 할지라도 선행 및/또는 후행 신호 부분들에 기반하여 클리핑된 신호 부분을 외삽 또는 내삽하는 것에 의지해야 할 수도 있다.

추가 실시예에서, 오디오 인코딩 방법이 제공된다. 상기 방법은 대응하는 인코딩된 신호 세그먼트를 얻기 위해 인코딩될 입력 오디오 신호의 시간 세그먼트를 인코딩하는 것을 포함한다. 상기 방법은 재-디코딩된 신호 세그먼트를 얻기 위해 상기 인코딩된 신호 세그먼트를 디코딩하는 것을 더 포함한다. 재-디코딩된 신호 세그먼트는 실제 또는 지각적 신호 클리핑 중 적어도 하나에 관해 분석된다. 실제 또는 지각적 신호 클리핑이 분석된 재-디코딩된 신호 세그먼트 내에서 감지되는 경우, 대응 클리핑 경고가 발생된다. 클리핑 경고에 의존하여 시간 세그먼트의 인코딩은 감소된 클리핑 개연성을 도출하는 적어도 하나의 수정된 인코딩 매개변수와 함께 반복된다.

추가 실시예는 컴퓨터 또는 신호 프로세서에서 실행될 때 상기 방법을 실행하기 위한 컴퓨터 프로그램을 제공한다.

본 발명의 바람직한 실시예들은 다음에서 설명될 것이다:

위에서 설명된 것처럼, 현재 지각적 오디오 인코더에서 클리핑을 위한 이유는 다양하다. 인코더의 입력에서 오디오 신호가 클리핑의 임계 밑에 있다고 가정할 때라도, 디코딩된 신호는 그럼에도 불구하고 클리핑 거동을 보일 수 있다. 전송 데이터 레이트를 감소시키기 위해, 오디오 인코더는 입력 파형의 주파수 분해에서 이용가능한 전송된 신호에 양자화를 적용할 수 있다. 주파수 영역에서 양자화 에러들은 원래 파형에 관해 디코딩된 신호의 진폭 및 위상의 작은 편차를 도출한다. 원래 신호 및 디코딩된 신호 사이의 차이들에 대한 또다른 가능한 소스는 신호 파워(signal power)를 다소 거친(coarse) 방법으로 매개변수화하는 매개변수화 코딩 방법들 (예를 들어, 스펙트럼 대역 복제, SBR) 일 수 있다. 결과적으로 수신측에서 디코딩된 신호는 오직 정확한 파워와 함께 파형 보존 없이 재생될 수 있다. 풀 스케일(full scale)에 근접한 진폭을 갖는 신호들은 클리핑하기 쉽다.

문제에 대한 새로운 솔루션은 양쪽 인코더 및 디코더를 상기 설명된 "클리핑"이 제거되는 방식에 기반하여 세그먼트/프레임 당 인코딩 프로세스를 자동적으로 조정하는 "codec"에 결합시키는 것이다. 이 새로운 시스템은 이 비트스트림이 출력되기 전에 비트스트림을 인코딩하는 인코더로 구성되며, 어떤 "클리핑"이 발생하는 경우를 모니터링하기 위해 디코더는 지속적으로 이 비트스트림을 병렬로 디코딩한다. 만약 클리핑이 일어나는 경우, 상기 디코더는 클리핑이 더 이상 일어나지 않도록 상이한 파라미터들을 갖는 세그먼트/프레임 (또는 몇몇 연속 프레임들)의 재-인코딩을 수행하기 위해 인코더를 트리거링할 것이다.

도 1은 실시예들에 따른 오디오 인코딩 장치(100)의 개략적 블록도를 보여준다. 도 1은 수신단(receiving end)에서 네트워크 (160) 및 디코더(170)를 개략적으로 도시한다. 오디오 인코딩 장치(100)는 원래 오디오 신호를, 특히 입력 오디오 신호의 시간 세그먼트를 수신하도록 구성된다. 예를 들어, 펄스 코드 모듈레이션 (PCM) 포맷에서, 원래 오디오 신호가 제공될 수 있고, 그러나 원래 오디오 신호의 다른 표현 또한 가능하다. 오디오 인코딩 장치(100)는 대응하는 인코딩된 신호 세그먼트를 생성하기 위해 그리고 시간 세그먼트를 인코딩하기 위한 인코더(122)를 포함한다. 인코딩된 (122) 것에 의해 수행되는 시간 세그먼트의 인코딩은, 일반적으로 오디오 신호를 전송하거나 저장하기 위해 요구되는 데이터량을 감소시키기 위한 목적으로, 오디오 인코딩 알고리즘에 기반될 수 있다. 시간 세그먼트는 원래 오디오 신호의 프레임에, 원래 오디오 신호의 "윈도우(window)"에, 원래 오디오 신호의 블록에, 또는 원래 오디오 신호의 또다른 시간적 섹션에 대응할 수 있다. 두개 또는 그 이상의 세그먼트들은 서로 중첩될 수 있다.

인코딩된 신호 세그먼트는 수신단에서 디코더(170)에 대해 네트워크(160)를 통해 일반적으로 보내질 수 있다. 디코더(170)는, 디지털-to-오디오 변환, 증폭, 및 출력 장치(확성기, 헤드폰, 등등)처럼 추가 프로세싱에 대해 보내질 수 있는 대응하는 디코딩된 신호 세그먼트를 제공하도록 그리고 수신된 인코딩된 신호 세그먼트를 디코딩하도록 구성된다.

인코더(122)의 출력은 디코더(132)의 입력에 또한 연결되고, 추가로 네트워크(160)와 함께 오디오 인코딩 장치(100)에 연결하기 위해 네트워크 인터페이스에 연결된다. 디코더(132)는 대응하는 재-디코딩된 신호 세그먼트를 발생시키도록 그리고 상기 인코딩된 신호 세그먼트를 디-코딩하도록 구성된다. 이상적으로는, 재-디코딩된 신호 세그먼트는 원래 신호의 시간 세그먼트에 동일해야 한다. 그러나, 인코더(122)가 데이터량을 상당히 감소시키도록 구성될 수 있고, 또한 다른 이유로, 재-디코딩된 신호 세그먼트는 입력 오디오 신호의 시간 세그먼트와 다를 수 있다. 대부분의 경우에, 이러한 차이들은 알아채기 어렵고, 그러나 몇몇 케이스들에서 차이들은 재-디코딩된 신호 세그먼트 내에 청취간으한 방해들을 도출할 수 있고 특히 재-디코딩된 신호 세그먼트에 의해 표현되는 오디오 신호가 클리핑 거동을 나타낼 때이다.

클리핑 감지기(142)는 디코더(132)의 출력에 연결된다. 클리핑 감지기(132)가 클리핑될 때 해석될 수 있는 하나 이상의 샘플들을 포함하는 재-디코딩된 오디오 신호를 찾아내는 경우, 그것은 인코더(122)가 원래 오디오 신호의 시간 세그먼트를 다시 인코딩하는 것을 야기하는 인코더(122)에 점선으로 그려진 연결을 통해 클리핑 경고를 발생시킨다. 인코더(122)는 이전 인코딩된 신호 세그먼트를 대체하는 제2인코딩된 신호 세그먼트를 출력한다. 네트워크(160)를 통해 이전에 인코딩된 신호 세그먼트의 전송은 클리핑 감지기(142)가 대응하는 재-디코딩된 신호 세그먼트를 분석하고 잠재적 클리핑이 발견되지 않을 때까지 지연될 수 있다. 이러한 방식으로, 오직 인코딩된 신호 세그먼트들은 잠재적 클리핑의 발생에 관해 확인된 수신단에 보내진다.

선택적으로, 디코더(132) 또는 클리핑 감지기(142)는 그러한 클리핑의 가청도를 측정할 것이다. 클리핑의 효과가 가청도의 특정 임계 밑에 있는 경우, 디코더는 수정없이 진행할 것이다. 매개변수들을 변화시키는 다음 방법들이 실현 가능하다 :

·단순 방법 : 디코더들의 출력에서 클리핑을 피하는 일정 주파수 독립 인수에 의해 인코더 입력 스테이지에서 세그먼트/프레임 (또는 몇몇 연속 프레임들)의 이득을 조금 감소시킨다. 상기 이득은 신호 특성들에 따라 모든 프레임에서 적용될 수 있다. 만약 필요하다면, 그것이 인코더 입력에서 레벨의 감소가 디코더 출력에서 레벨의 감소를 언제나 이끄는데 결정적이지 않을 수 있다면, 하나 이상의 반복들은 이득들을 감소시키는 것과 함께 수행될 수 있다 : 상기 경우가 가능하기 때문에, 상기 인코더는 클리핑에 관해 불리한 효과를 가질 수 있는 상이한 양자화 단계들을 선택할 수 있다.

·발전된 방법 #1 : 지각적인 가장 덜 관련된 주파수들에서 또는 전체 신호에 대해 최대 에너지를 기여하는 그러한 주파수 영역들에서 주파수 영역에서의 양자화를 수행한다. 상기 클리핑이 양자화 에러들에 의해 야기된다면, 두개의 방법들이 적절하다:

a) 클리핑 문제에 최대로 기여하게 되는 주파수 대역에서 가장 높은 파워 기여를 수행하는 주파수 계수에 대해 더 작은 양자화 임계를 선택하기 위해 양자화기에서 라운딩 절차(rounding procedure)를 수정한다

b) 양자화 에러량을 감소시키기 위해 특정 주파수 대역에서 양자화 정확도를 증가시킨다

c) 클리핑 없는 거동이 인코더에서 결정될 때까지 단계 a) 및 b) 를 반복한다.

·향상된 방법 #2 : (이러한 방법은 OFDM (대각 주파수 분할 멀티플렉싱) 기반 시스템에서 크레스트 인수 감소에 유사하다) :

a) 피크 진폭을 감소시키는 모든 부대역 / 또는 부분집합의 진폭 및 위상에서 작은 (청취가능한) 변화를 도입한다

b) 도입된 변화의 가청도를 측정한다

c) 시간 영역에서 피크 진폭의 감소를 확인한다

d) 시간 신호의 피크 진폭이 요구되는 임계 밑에 있을 때까지 a) 내지 c) 단계를 반복한다

제안된 오디오 인코딩 장치의 관점에 따라, "오토매틱" 솔루션이 일어나는 상기 설명된 에러를 방지하기 위해 사람의 상호작용이 더 이상 필요하지 않는 문제에 제공된다. 완전한 신호의 전체 음량을 감소시키는 대신에, 음량은 완전한 신호의 전체 음량에서 변화를 제한하고, 신호의 짧은 세그먼트들에 대해서만 감소된다.

도 2는 추가 가능한 실시예들에 따라 오디오 인코딩 장치(200)의 개략적 블록도를 나타낸다. 오디오 인코딩 장치(200)는 도 1에서 개략적으로 도시되는 오디오 인코딩 장치에 유사하다. 도 1에서 도시되는 구성요소들에 더하여, 도 2에서 오디오 인코딩 장치(200)는 분할기(112), 오디오 신호 세그먼트 버퍼(152), 및 인코딩된 세그먼트 버퍼(154)를 포함한다. 분할기(142)는 시간 세그먼트들에서 들어오는 원래 오디오 신호를 분할하도록 구성된다. 인코더(122)에 그리고 개별 시간 세그먼트들은 인코더(122)에 의해 현재 처리되는 시간 세그먼트(들)을 일시적으로 저장하도록 구성되는 오디오 신호 세그먼트 버퍼(152)에도 제공된다. 분할기의 출력 (142) 및 인코더의 입력 (122) 사이에서 상호연결된 오디오 신호 버퍼(152)는 인코더(122)의 입력에 오디오 신호 세그먼트 버퍼에 의해 제공되는 이전 시간 세그먼트, 저장된 또는 분할기(142)에 의해 제공된 시간 세그먼트 중 하나를 선택하도록 구성된다. 선택기(116)는 재-디코딩된 신호 세그먼트가 잠재적 클리핑 거동을 드러내는 경우에, 선택기(116)가 적어도 하나의 수정된 인코딩 매개변수를 이용하여 다시 인코딩될 이전 시간 세그먼트에 대해 순서대로 오디오 신호 세그먼트 버퍼(142)의 출력을 선택한다.

인코더(122)의 출력은 디코더(132)의 입력에 (도 1에서 개략적으로 도시된 오디오 인코딩 장치(100)에 대한 경우에서처럼) 또는 인코딩된 세그먼트 버퍼(154)의 입력에 대해 연결된다. 인코딩된 세그먼트 버퍼 (154)는 클리핑 감지기(142)에 의해 수행되는 클리핑 분석 및 디코더(132)에 의해 수행되는 그것의 디코딩이 있을 때까지 인코딩 신호 세그먼트를 일시적으로 저장하도록 구성된다. 오디오 인코딩 장치(200)는 오디오 인코딩 장치(200)의 네트워크 인터페이스 및 인코딩된 세그먼트 버퍼 (154)의 출력에 연결되는 릴리즈 요소(release element) 또는 스윗치(156)를 더 포함한다. 스위치(156)는 클리핑 감지기(142)에 의해 발행되는 추가 제어 신호에 의해 제어된다. 추가 제어 신호는 선택기(116)을 제어하기 위해 제어 신호와 동일할 수 있고, 또는 추가 제어 신호는 상기 제어 신호로부터 유도될 수 있고, 또는 제어 신호는 추가 제어 신호로부터 유도될 수 있다.

다른 말로, 도 2에서 오디오 인코딩 장치(200)는 적어도 시간 세그먼트를 획득하기 위해 입력 오디오 신호를 분할하기 위한 분할기(112)를 포함할 수 있다. 시간 세그먼트가 인코더에 의해 인코딩되고 대응하는 인코딩된 신호 세그먼트가 디코더에 의해 재-디코딩되는 동안 오디오 인코딩 장치는 버퍼링된 세그먼트로 입력 오디오 신호의 시간 세그먼트를 버퍼링하기 위한 오디오 신호 세그먼트 버퍼(152)를 더 포함할 수 있다. 클리핑 경고는 적어도 하나의 수정된 인코딩 매개변수와 함께 인코딩되기 위해 인코더에 다시 입력될 입력 오디오 신호의 버퍼링된 세그먼트를 조건적으로 야기할 수 있다. 오디오 인코딩 장치는 클리핑 감지기(142)로부터 제어 신호를 수신하고 제어 신호에 의존하여 버퍼링된 세그먼트 및 시간 세그먼트 중 하나를 선택하도록 구성되는 인코더에 대한 입력 선택기를 더 포함할 수 있다. 따라서, 선택기(116)는 몇몇 실시예들에 따라, 인코더(122)의 부분일 수도 있다. 오디오 인코딩 장치는 오디오 인코딩 장치에 의해 출력되기 전에 디코더에 의해 재-디코딩되는 동안 인코딩된 신호 세그먼트를 버퍼링하기 위한 인코딩된 세그먼트 버퍼(154)를 더 포함할 수 있고 그것은 적어도 하나의 수정된 인코딩 매개변수를 이용하여 인코딩된 잠재적 이후 인코딩된 신호 세그먼트에 의해 중첩될 수 있다.

도 3은 인코딩될 입력 오디오 신호의 시간 세그먼트를 인코딩하는 단계(31)를 포함하는 오디오 인코딩 방법의 개략적 흐름도를 보여준다. 단계 31의 결과로, 대응하는 인코딩된 신호 세그먼트가 얻어진다. 여전히 전송단(transmitting end)에서, 인코딩된 신호 세그먼트는 상기 방법의 단계 32에서, 재-디코딩된 신호 세그먼트를 얻기 위해 다시 디코딩된다. 재-디코딩된 신호 세그먼트는 단계 34에서 개략적으로 표시된 것처럼, 실제 또는 지각적 신호 클리핑 중 적어도 하나에 관해 분석된다. 상기 방법은 재-디코딩된 신호 세그먼트가 하나 이상의 잠재적 클리핑 오디오 샘플들을 포함하는 단계 34 동안 발견된 경우에 대응하는 클리핑 경고가 발생되는 단계(36) 또한 포함한다. 클리핑 경고에 의존하여, 입력 오디오 신호의 시간 세그먼트의 인코딩은 상기 방법의 단계 38에서, 클리핑 개연성을 감소시키는 적어도 하나의 수정된 인코딩 매개변수와 함께 반복된다.

상기 방법은 적어도 입력 오디오 신호의 시간 세그먼트를 획득하기 위해 입력 오디오 신호를 분할하는 것을 더 포함할 수 있다. 상기 방법은 시간 세그먼트가 인코딩되고 대응 인코딩된 신호 세그먼트가 재-디코딩되는 동안 입력 오디오 신호의 시간 세그먼트를 버퍼링된 세그먼트로 버퍼링하는 것을 더 포함할 수 있다. 상기 클리핑 감지기가 클리핑의 개연성이 일정 임계 이상이라는 것을 표시하는 경우 상기 버퍼링된 세그먼트는 적어도 하나의 수정된 인코딩 매개변수와 조건적으로 인코딩될 수 있다.

상기 방법은 그것이 재-디코딩되는 동안 그것이 출력되기 전에 인코딩된 신호 세그먼트를 버퍼링하는 것을 더 포함할 수 있고 그것은 적어도 하나의 수정된 인코딩 매개변수를 이용하여 다시 시간 세그먼트를 인코딩하는 것으로부터 도출되는 잠재적 다음 인코딩된 신호 세그먼트에 의해 대체될 수 있다. 인코딩을 반복하는 동작은 인코더에 의해 시간 세그먼트에 대해 전체 이득을 적용하는 것을 포함할 수 있고, 여기서 전체 이득은 수정된 인코딩 매개변수에 기반하여 결정된다.

인코딩을 반복하는 동작은 적어도 하나의 선택된 주파수 영역에서 주파수 영역의 재-양자화를 수행하는 것을 포함할 수 있다. 적어도 하나의 선택된 주파수 영역은 전체 이득에서의 최대 에너지에 기여할 수 있고 또는 지각적으로 가장 덜 관련된다. 오디오 인코딩 방법의 추가 실시예에 따라, 적어도 하나의 수정된 인코딩 매개변수는 인코딩의 양자화 동작에서 라운딩 절차의 수정을 야기한다. 라운딩 절차(rounding procedure)는 가장 높은 파워 기여(highest power contribution)를 수행하는 주파수 영역에 대해 수정될 수 있다.

라운딩 절차는 더 작은 양자화 임계를 선택하는 것 및 양자화 정확도를 높이는 것 중 적어도 하나에 의해 수정될 수 있다. 상기 방법은 피크 진폭을 감소시키기 위해 적어도 하나의 주파수 영역에 진폭 및 위상 중 적어도 하나에서 작은 변화를 도입하는 것을 더 포함할 수 있다. 대안적으로, 또는 추가적으로, 도입된 수정의 가청도가 측정될 수 있다. 상기 방법은 시간 영역에서 피크 진폭의 감소를 확인하는 디코더의 출력에 관한 피크 진폭 결정을 더 포함할 수 있다. 상기 방법은 피크 진폭이 요구되는 임계보다 낮을 때까지 시간 영역에서 피크 진폭의 감소의 확인 및 진폭 및 위상 중 적어도 하나에서의 작은 변화의 도입의 반복을 더 포함할 수 있다. 도 4는 몇몇 실시예들에 따라 적어도 하나의 수정된 인코딩 매개변수의 영향 및 시간 세그먼트의 주파수 영역 표현을 개략적으로 도시한다. 신호 세그먼트는 다섯개의 주파수 대역들에 의해 주파수 영역에서 표현된다. 이것이 설명적 예라는 것을 숙지하고, 오직 주파수 대역의 실제 숫자는 다를 수 있다. 게다가, 개별 주파수 대역들은 대역폭에서 동일할 필요가 없으나, 예를 들어 증가하는 주파수와 함께 증가하는 대역폭을 가질 수 있다. 도 4에서 개략적으로 도시된 예에서처럼, 주파수들 f₂ and f₃ 사이의 주파수 영역 또는 대역은 가까이에 있는 신호 세그먼트에서 가장 높은 진폭 및/또는 파워를 갖는 주파수 대역이다. 만약 인코딩된 신호 세그먼트가 디코더(170)의 수단에 의해 거기에 수신되고 디코딩된 것에 대해 있는 그대로 전송된다면 우리는 상기 클리핑 감지기(142)가 클리핑의 기회가 있다는 것을 발견한다고 가정한다. 그래서, 하나의 전략에 따르면, 가장 높은 신호 진폭/파워를 갖는 주파수 영역은 ,도 4에서 아래방향 화살표 및 빗금쳐진 영역에 의해 표시되는 것처럼, 일정량이 감소된다. 비록 신호 세그먼트의 이 수정이, 원래 오디오 신호와 비교하여, 최종 출력 오디오 신호를 조금 바꿀수 있지만, 그것은 클리핑 이벤트보다 덜 들릴 수 있다 (특히 원래 오디오 신호에 대한 직접적 비교 없이).

도 5는 몇몇 대안적 실시예들에 따른 적어도 하나의 수정된 인코딩 매개변수의 영향 및 신호 세그먼트의 주파수 영역 표현을 개략적으로 도시한다. 이러한 경우에, 그것은 오디오 신호 세그먼트의 반복된 인코딩에 선행하여 수정의 대상이 되는 가장 강한 주파수 영역이 아니라, 예를 들어, 음향심리학 이론 또는 모델에 따른, 지각적으로 가장 덜 중요한 주파수 영역이다. 설명되는 경우에서, 주파수들 f₃ 및 f₄ 사이의 주파수 영역/대역은 f₂ 및 f₃ 사이의 상대적으로 강한 주파수 영역/대역 옆이다. 그래서, f₃ 및 f₄ 사이의 주파수 영역은 상당히 더 높은 신호 기여를 포함하는 인접한 두개의 주파수 영역들에 의해 마스킹(masked) 되도록 일반적으로 고려된다. 그럼에도 불구하고, f₃ 및 f₄ 사이의 주파수 영역은 디코딩된 신호 세그먼트에서 클리핑 이벤트의 발생에 기여할 수 있다. f₃ 및 f₄ 사이의 마스킹된 주파수 영역에 대한 신호 진폭/파워를 감소시키는 것에 의해, 클리핑 개연성은 청취자에 대한 과도하게 들릴 수 있거나 지각될 수 있는 수정 없이 요구되는 임계 아래에서 감소될 수 있다.

비록 몇몇 관점들이 장치의 관점에서 설명되었지만, 이러한 관점들은 또한 대응하는 방법의 묘사도 나타낸다는 것이 명백하며, 여기서 블록 또는 장치는 방법 단계 또는 방법 단계의 특징에 대응한다. 유사하게, 방법 단계의 문맥에서 설명된 관점들은 대응하는 장치의 대응하는 블록 또는 아이템 또는 특징의 설명 또한 나타낸다.

상기 발명의 분해된 신호는 디지털 저장 매체에 저장될 수 있거나 인터넷 같은 유선 전송 매체 무선 전송 매체처럼 전송 매체에서 전송될 수 있다.

특정한 실행의 요구들에 의존하여, 이 발명의 실시 예들은 하드웨어 또는 소프트웨어에서 실행될 수 있다. 실행들은 전자적으로 읽을 수 있는 컨트롤 신호들을 그곳에 저장하고 있는 디지털 저장매체, 예를 들어 플로피 디스크, DVD, CD, ROM, PROM, EPROM, EEPROM 또는 플래시 메모리,를 이용하여 수행될 수 있고 그것은, 각 방법이 수행되는, 프로그래밍 가능한 컴퓨터 시스템과 연동한다. 그래서, 디지털 저장 매체는 컴퓨터 판독가능할 수 있다.

본 발명에 따른 몇몇 실시 예들은 전자적 판독 가능한 컨트롤 신호들을 갖는 비-일시적 데이터 캐리어를 포함하며, 그것은 여기서 설명된 방법 중 하나가 수행되는 프로그래밍 가능한 컴퓨터 시스템과 연동 가능하다.

일반적으로 본 발명의 실시 예들은 프로그램 코드로 컴퓨터 프로그램 결과물에서 실행될 수 있으며, 상기 프로그램 코드는 컴퓨터 프로그램 결과물이 컴퓨터에서 수행될 때 상기 방법 중 하나를 수행하도록 작동되는 것이다. 프로그램 코드는 예시적으로 기계 판독가능 캐리어에 저장될 수도 있다.

다른 실시 예들은 여기에 설명되고, 기계 판독가능 캐리어에 저장된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.

다른 말로, 발명의 방법의 실시 예는, 컴퓨터 프로그램이 컴퓨터에서 운영될 때 여기서 설명된 방법 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.

발명의 방법의 또 다른 실시 예는, 여기서 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 그 자체에 포함하는 데이터 캐리어이다.(또는 디지털 저장 매체, 또는 컴퓨터 판독가능 매체). 데이터 캐리어, 디지털 저장 매체 또는 저장된 매체는 일반적으로 유형이고 그리고/또는 비-일시적일 수 있다.

발명의 방법의 또 다른 실시 예는, 여기서 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 신호들의 순서 또는 데이터 스트림이다. 데이터 스트림 또는 신호들의 순서는, 예를 들어 인터넷 같은 데이터 통신 연결을 통해 전송되기 위해 예시적으로 구성될 수 있다.

또다른 실시 예는 여기서 설명된 방법 중 하나를 수행하기 위해 구성되거나 적응되기 위하여 프로세싱 수단, 예를 들어 컴퓨터 또는 프로그래밍 가능한 논리 장치를 포함한다.

또다른 실시 예는 여기서 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램이 그 자체에 설치된 컴퓨터를 포함한다.

몇몇 실시 예에서, 프로그래밍 가능한 논리 장치(예를 들어 필드 프로그래밍 가능한 게이트 어레이)는 여기서 설명된 방법 중 모든 기능 또는 몇몇을 수행하도록 사용될 수 있다. 몇몇 실시 예에서, 필드 프로그래밍 가능한 게이트 어레이는 여기서 설명된 방법 중 하나를 수행하기 위해 마이크로 프로세서와 연동될 수 있다. 일반적으로, 상기 방법들은 바람직하게는 어떠한 하드웨어 장치에 의해서도 수행된다.

상기 설명된 실시 예들은 단지 본 발명의 원리를 위해 예시적일 뿐이다. 본 상기 배열의 변형, 변화, 그리고 여기서 설명된 자세한 내용들을 기술분야의 다른 숙련자에게 명백하다고 이해되어야 한다. 그것의 의도는, 따라서, 여기의 실시 예의 설명 또는 묘사의 방법에 의해 표현된 특정 세부사항들에 의해 제한되는 것이 아닌 오직 목전의 특허 청구항의 범위에 의해서만 제한된다는 것이다.

Claims

대응하는 인코딩된 신호 세그먼트를 얻기 위해 인코딩될 입력 오디오 신호의 시간 세그먼트를 인코딩하기 위한 인코더;
재-디코딩된 신호 세그먼트를 얻기 위해 상기 인코딩된 신호 세그먼트를 디코딩하기 위한 디코더; 및
대응하는 클리핑 경고를 발생시키기 위한 그리고 실제 신호 클리핑 또는 지각 가능한 신호 클리핑 중 적어도 하나에 관한 재-디코딩된 신호 세그먼트를 분석하기 위한 클리핑 감지기;를 포함하며,
상기 인코더는 상기 클리핑 경고에 응답하여 감소된 클리핑 개연성을 도출하는 적어도 하나의 수정된 인코딩 매개변수를 갖는 상기 오디오 신호의 시간 세그먼트를 다시 인코딩하도록 더 구성되는, 오디오 인코딩 장치.
제1항에 따른 오디오 인코딩 장치에 있어서,
적어도 상기 시간 세그먼트를 얻기 위해 상기 입력 오디오 신호를 분할하기 위한 분할기(segmenter);를 더 포함하는 오디오 인코딩 장치.
제1항 또는 제2항에 따른 오디오 인코딩 장치에 있어서,
상기 시간 세그먼트가 상기 인코더에 의해 인코딩되고 상기 대응하는 인코딩된 신호 세그먼트가 상기 디코더에 의해 재-디코딩되는 동안 버퍼링된 세그먼트로 입력 오디오 신호의 시간 세그먼트를 버퍼링하기 위한 오디오 신호 세그먼트 버퍼;를 더 포함하며,
상기 클리핑 경고는 적어도 하나의 수정된 인코딩 매개변수와 인코딩되기 위해 상기 인코더에 다시 입력될 입력 오디오 신호의 버퍼링된 세그먼트를 조건적으로 야기하는 오디오 인코딩 장치.
제3항에 따른 오디오 인코딩 장치에 있어서,
상기 클리핑 감지기로부터 제어 신호를 수신하고 상기 제어 신호에 의존하여 상기 버퍼링된 세그먼트 및 상기 시간 세그먼트 중 하나를 선택하도록 구성되는 인코더에 대한 입력 선택기를 더 포함하는 오디오 인코딩 장치.
상기 선행 청구항들 중 어떠한 하나에 따른 오디오 인코딩 장치에 있어서,
상기 적어도 하나의 수정된 인코딩 매개변수를 이용하여 인코딩된 잠재적 다음 인코딩된 신호 세그먼트에 의해 대체될 수 있도록 그것이 상기 디코더에 의해 재-디코딩되는 동안 그리고 그것이 상기 오디오 인코딩 장치에 의해 출력되기 전에 상기 인코딩 신호 세그먼트를 버퍼링하기 위한 인코딩된 세그먼트 버퍼;를 더 포함하는 오디오 인코딩 장치.
상기 선행 청구항들 중 어느 하나에 따른 오디오 인코딩 장치에 있어서,
상기 적어도 하나의 수정된 인코딩 매개변수가 상기 인코더에 의해 상기 시간 세그먼트에 적용되는 전체 이득을 포함하는 오디오 인코딩 장치.
상기 선행 청구항들 중 어느 하나에 따른 상기 오디오 인코딩 장치에 있어서,
상기 적어도 하나의 수정된 인코딩 매개변수는 상기 인코더가 상기 주파수 영역의 적어도 하나의 선택된 주파수 영역에서 재-양자화를 수행하도록 야기하는 오디오 인코딩 장치.
제7항에 따른 오디오 인코딩 장치에 있어서,
상기 적어도 하나의 선택된 주파수 영역은 상기 전체 신호에서 최대 에너지에 기여하거나 또는 지각적으로 가장 덜 관련되는 오디오 인코딩 장치.
선행 청구항들 중 어느 하나에 따른 오디오 인코딩 장치에 있어서,
상기 적어도 하나의 수정된 인코딩 매개변수가 상기 인코더가 양자화기에서 라운딩(rounding) 절차를 수정하는 것을 야기하는 오디오 인코딩 장치.
제9항에 따른 오디오 인코딩 장치에 있어서,
상기 라운딩 절차는 상기 가장 높은 파워 기여를 수행하는 주파수 영역에 대해 수정되는 오디오 인코딩 장치.
제9항 또는 제10항에 따른 오디오 인코딩 장치에 있어서,
상기 라운딩 절차는 더 작은 양자화 임계를 선택하고 양자화 정확성을 증가시키는 것 중 적어도 하나에 의해 수정되는 오디오 인코딩 장치.
상기 선행 청구항들 중 어떤 하나에 따른 오디오 인코딩 장치에 있어서,
상기 수정된 인코딩 매개변수는 상기 인코더가 피크 진폭을 감소시키기 위한 적어도 하나의 주파수 영역에 대한 진폭 및 위상 중 적어도 하나에 작은 변화를 도입하도록 야기하는 오디오 인코딩 장치.
제12항에 따른 오디오 인코딩 장치에 있어서,
상기 도입된 수정의 가청도(audibility)를 측정하기 위한 가청도 분석기를 더 포함하는 오디오 인코딩 장치.
제12항 또는 제13항에 따른 오디오 인코딩 장치에 있어서,
상기 시간 영역에서 상기 피크 진폭의 감소를 확인하기 위해 상기 디코더의 출력에 연결되는 피크 진폭 결정기를 더 포함하는 오디오 인코딩 장치.
제14항에 따른 오디오 인코딩 장치에 있어서,
상기 피크 진폭이 요구되는 임계 아래일 때까지 상기 시간 영역에서 상기 피크 진폭의 감소의 확인 및 진폭 및 위상 중 적어도 하나의 작은 변화의 도입을 반복하도록 구성되는 오디오 인코딩 장치.
대응하는 인코딩된 신호 세그먼트를 얻기 위해 인코딩된 입력 오디오 신호의 시간 세그먼트를 인코딩하는 단계;
재-디코딩된 신호 세그먼트를 얻기 위해 상기 인코딩된 신호 세그먼트를 디코딩하는 단계;
실제 또는 지각적 신호 클리핑 중 적어도 하나에 대한 상기 재-디코딩된 신호 세그먼트를 분석하는 단계;
대응하는 클리핑 경고를 발생시키는 단계; 및
상기 클리핑 경고에 의존하여 감소된 클리핑 개연성을 도추하기 위해 적어도 하나의 수정된 인코딩 매개변수를 갖는 상기 시간 세그먼트의 인코딩을 반복하는 단계;를 포함하는 오디오 인코딩 방법.
제16항에 따른 방법에 있어서,
상기 입력 오디오 신호의 최소 시간 세그먼트를 얻기 위해 상기 입력 오디오 신호를 분할하는 단계;를 더 포함하는 오디오 인코딩 방법.
제16항 또는 제17항에 따른 방법에 있어서,
상기 시간 세그먼트가 인코딩되고 상기 대응하는 인코딩된 신호 세그먼트가 재-디코딩되는 동안 상기 입력 오디오 신호의 시간 세그먼트를 버퍼링된 세그먼트로 버퍼링하는 단계;
상기 적어도 하나의 수정된 인코딩 매개변수와 함께 상기 버퍼링된 세그먼트를 인코딩하는 단계;를 더 포함하는 오디오 인코딩 방법.
제16항 내지 제18항 중 어느 한 항에 따른 방법에 있어서,
적어도 하나의 수정된 인코딩 매개변수를 이용하여 상기 시간 세그먼트를 다시 인코딩하는 것으로부터 도출되는 잠재적 다음 인코딩된 신호 세그먼트에 의해 대체될 수 있도록 그것이 재-디코딩되는 동안 그리고 그것이 출력되기 전에 상기 인코딩된 신호 세그먼트를 버퍼링하는 단계;를 더 포함하는 오디오 인코딩 방법.
제16항 내지 제19항 중 어느 한 항에 따른 방법에 있어서,
상기 인코딩을 반복하는 단계는 상기 인코더에 의해 상기 시간 세그먼트에 대해 전체 이득을 적용하는 것을 포함하며, 여기서 상기 전체 이득은 상기 수정된 인코딩 매개변수에 기반하여 결정되는 오디오 인코딩 방법.
제16항 내지 제20항 중 어느 한 항에 따른 방법에 있어서,
상기 인코딩을 반복하는 단계는 상기 주파수 영역의 적어도 하나의 선택된 주파수 영역에서 재-양자화를 수행하는 것을 포함하는 오디오 인코딩 방법.
제21항에 따른 방법에 있어서,
상기 적어도 하나의 선택된 주파수 영역은 상기 전체 신호에서 최대 에너지에 기여하거나 지각적으로 가장 덜 관련있는 오디오 인코딩 방법.
제16항 내지 제22항 중 어느 한 항에 따른 방법에 있어서,
상기 적어도 하나의 수정된 인코딩 매개변수는 상기 인코딩 동작을 양자화하는 데 있어 라운딩 절차의 수정을 야기하는 오디오 인코딩 방법.
제23항에 따른 방법에 있어서,
상기 라운딩 절차는 최고 파워 기여를 수행하는 주파수 영역에 대해 수정되는 오디오 인코딩 방법.
제23항 또는 제24항에 따른 방법에 있어서,
상기 라운딩 절차는 더 작은 양자화 임계를 선택하고 양자화 정확성을 증가시키는 것 중 적어도 하나에 의해 수정되는 오디오 인코딩 방법.
제16항 내지 제25항 중 어느 한 항에 따른 방법에 있어서,
피크 진폭을 감소시키기 위해 적어도 하나의 주파수 영역에 진폭 및 위상 중 적어도 하나의 작은 변화를 도입하는 단계;를 더 포함하는 오디오 인코딩 방법.
제26항에 따른 방법에 있어서,
상기 도입된 수정의 가청도를 측정하는 단계;를 더 포함하는 오디오 인코딩 방법.
제26항 또는 제27항 중 한 항에 따른 방법에 있어서,
상기 시간 영역에서 상기 피크 진폭의 감소를 확인하기 위한 디코더의 출력에 연결되는 피크 진폭 결정기를 더 포함하는 오디오 인코딩 방법.
제28항에 따른 방법에 있어서,
상기 피크 진폭이 요구되는 임계보다 낮을 때까지 상기 시간 영역에서 상기 피크 진폭의 감소를 확인하고 진폭 및 위상 중 적어도 하나의 작은 변화를 도입하는 것을 반복하는 단계;를 더 포함하는 오디오 인코딩 방법.
컴퓨터 또는 신호 프로세서에서 수행될 때 제16항 내지 제29항 중 어느 한 항의 방법을 실행하기 위한 컴퓨터 프로그램.