KR20040004647A

KR20040004647A - 오디토리 이벤트에 기초한 특성을 사용하여 오디오 신호를타임 정렬시키는 방법

Info

Publication number: KR20040004647A
Application number: KR10-2003-7015335A
Authority: KR
Inventors: 브레트 지. 크로켓; 마이클 제이. 스미터즈
Original assignee: 돌비 레버러토리즈 라이쎈싱 코오포레이션
Priority date: 2001-05-25
Filing date: 2002-02-25
Publication date: 2004-01-13
Also published as: CN1620684A; KR20040004648A; JP4763965B2; MXPA03010751A; DE60236648D1; ES2400700T3; JP2004528601A; HK1066087A1; CN1272765C; EP2549475A1; MXPA03010750A; KR20040004646A; CN1511311A; EP1390942A1; JP4906230B2; KR100871607B1; HK1066902A1; KR100873396B1; EP1390942B1; JP2004528600A

Abstract

하나의 신호가 다른 신호에서 도출되었거나 또는 양측 신호가 또 다른 신호에서 도출된, 오디오 신호를 타임 정렬하는 방법은 오디오 신호들의 감쇄된 정보 특성을 도출하는, 오디토리 신 분석을 포함한다. 하나의 특성을 계산된 다른 특성에 관한 타임 오프셋과, 오디오 신호들을 서로에 관한 시간적 관계는 타임 오프셋에 응답하여 수정되므로 오디오 신호들은 서로 부합하게 된다. 이러한 원리들은 또한 차분 타임 오프셋에 적용되는 비디오 신호와 오디오 신호를 타임 정렬시키기 위한 방법에 적용된다.

Description

오디토리 이벤트에 기초한 특성을 사용하여 오디오 신호를 타임 정렬시키는 방법{METHOD FOR TIME ALIGNING AUDIO SIGNALS USING CHARACTERIZATIONS BASED ON AUDITOR EVENTS}

별개로 인지되는 단위체로의 사운드 분리는 때때로 "오디토리 이벤트 분석(auditory event analysis)" 또는 "오디토리 신 분석(auditory scene analysis)"("ASA")으로서 언급된다. 오디토리 신 분석의 광범위한 논의는 알버트 에스. 브레그맨의 저서에 진술되어 있다.Auditory Scene Analysis - The Perceptual Organization of Sound, 메사츄세츠 인스터튜트 오브 테크날러지,1991, 4판, 2001, 제 2 MIT 출판부. 또한, Bhadkamkar 등의 1999년 12월 14일자 미국 특허 제6,002,776호는 "오디토리 신 분석에 의한 사운드 분리에 관한 종래 기술 연구"로서 1976년까지의 공보를 인용한다. 그러나, Bhadkamkar 등의 특허는 오디토리 신 분석의 실제 사용을 낙담시켜, "오디토리 신 분석을 포함하는 기술들이, 비록 과학적 관점에서 사람의 오디토리 프로세싱의 모델로서 중요하더라도, 현재는 너무 계산적 요구가 지나치며 특별히 기초적인 발전이 이루어질 때까지는 사운드 분리를 위한 실제 기술로 고려되지 않는다"고 결론을 내린다.

브레그맨은 "우리는 사운드가 음색, 피치, 소리 세기, 또는 (더 작은 의미로) 공간에서의 위치에서 갑자기 변동할 때 이산 단위체를 듣는다"고 어느 한 페이지에 언급한다. (Auditory Scene Analysis - The Perceptual Organization of Sound,페이지 469). 브레그맨은, 예를 들면, 다중 동시 사운드 스트림들이 주파수에서 구별될 때 그 스트림의 인식을 또한 논의한다.

오디오에서 특징 또는 특색을 추출하는 수많은 상이한 방법들이 있다. 특색 또는 특징이 적절하게 정의내려진다면, 그 추출은 자동 프로세스를 사용하여 실행될 수 있다. 예를 들면, "ISO/IEC JTC 1/SC 29/WG 11"(MPEG)가 현재 다양한 오디오 기술어(descriptor)를 MPEG-7 표준의 부분으로서 표준화하고 있다. 그러한 방법들의 공통적인 결함은 그것들이 ASA를 무시한다는 것이다. 그러한 방법들은, 피치, 진폭, 파워, 화성 구조 및 스펙트럼 평탄도와 같은 일정한 "규격" 신호 프로세싱 파라미터를 주기적으로 측정하고자 한다. 그러한 파라미터들은, 유용한 정보를 제공하더라도, 사람의 인지에 따른 개별적인 것으로서 인식되는 엘리먼트로 오디오신호들을 분석 및 특징 지우지 못한다.

오디토리 신 분석은 사람의 인식과 유사한 방식으로 사람의 인지에 따른 개별적인 엘리먼트들을 식별하여 오디오 신호들을 특징 지우고자 한다. 그러한 방법들을 개발하여, 이전에는 사람의 보조를 요구하여왔던 임무를 정확하게 실행하는 자동 프로세스들을 구현할 수 있다.

개별적으로 인식된 엘리먼트들의 식별은 전체 신호 자체보다도 대체로 적은 정보를 사용하여 오디오 신호의 독특한 식별을 허용한다. 오디토리 이벤트에 기초한 컴팩트하며 독특한 식별은, 예를 들면, 또 다른 신호에서 복사된(또는 또 다른 신호로서 동일한 오리지날 신호에서 복사된) 신호를 식별하기 위해 사용된다.

본 발명은 오디오 신호들에 관한 것이다. 더 상세하게는, 본 발명은 오디오 신호를 특성 지우는 것과 오디오 신호들을 타임 정렬 또는 동기화시키기 위해 특성을 사용하는 것에 관한 것으로, 하나의 신호가 다른 신호에서 도출되었거나 또는 양측 신호가 동일한 다른 신호에서 도출되었다. 그러한 동기화는, 예를 들면, 텔레비젼 오디오를 비디오 동기화(립-싱크)에 저장시 그리고 오디오 신호에 삽입된 워터마크(워터마크된 신호가 신호의 워터마크되지 않은 버전과 비교된다)를 검출시 유용하다. 본 발명은, 낮은 프로세싱 파워 프로세스가 그러한 오디오 신호들을 실질적인 시간적 정렬로 이르게 하도록 구현될 수 있다.

도 1A는 본 발명에 따라 오디오 신호에서 시그너쳐의 추출 프로세스를 나타내는 순서도이다. 오디오 신호는, 예를 들면, 음악(예를 들면, 음악 저작물 또는 "노래")을 나타낸다.

도 1B는 본 발명에 따라 2개 오디오 신호의 타임 정렬을 위한 프로세스를 도시하는 순서도이다.

도 2는 본 발명에 따라 오디오 신호에서 지배적인 서브대역의 선택적 추출과 오디오 이벤트 위치의 추출 프로세스를 도시하는 순서도이다.

도 3은 본 발명에 따라 스펙트럼 분석의 단계를 도시하는 개략적인 개념도이다.

도 4A와 4B는 본 발명에 따라 다수의 오디토리 이벤트 위치와 오디토리 이벤트 경계를 나타내는 이상적인 오디오 파형이다.

개시되는 방법은 오디오 신호를 식별하기 위해 사용되는 오디오 신호의 독특한 감소된 정보 특징을 발생시킨다. 상기 특징은 오디오 신호의 "시그너쳐(signature)" 또는 "핑거프린트(fingerprint)"라고 한다. 본 발명에 따르면, 오디토리 신 분석(ASA)은 오디오 신호를 특징 지우기 이한 기초로서 오디토리 이벤트를 식별하도록 실행된다. 이상적으로, 오디토리 신 분석은, 오디오가 로우 비트 레이트 코딩 또는 라우드스피커를 통한 음향 전송과 같은 프로세싱을 겪은 이후에 조차도 청취자에 의해 가장 인식되기 쉬운 오디토리 이벤트를 식별한다. 오디오 신호는 오디토리 이벤트의 경계 위치에 의해 그리고 선택적으로는 각 오디토리 이벤트의 지배적인 주파수 서브밴드에 의해 특징 지워진다. 결과적인 정보 패턴은, 빠르게 및/또는 낮은 프로세싱 파워로 오리지날 오디오 신호들간의 타임 오프셋을결정하기 위해 관련 오디오 신호의 핑거프린트 또는 시그너쳐에 비교되는 컴팩트 오디오 핑거프린트 또는 시그너쳐를 구성한다. 감축된 정보 특성은 대체로 동일한 상대적 타이밍들을 그것들이 표시하는 오디오 신호들로서 갖는다.

본 발명에 따른 오디토리 신 분석 방법은, 오디토리 이벤트 정보를 포함한 시그너쳐들을 비교함으로써 2개의 오디오 신호, 특히 음악을 타임 정렬시키는 빠르면서 정확한 방법을 제공한다. ASA는 오디오 신호들(이를테면 피치 진폭, 파워, 및 화성 구조)간의 유사성을 인지하는데 덜 중요한 특색을 추출하는 종래의 방법들에 대조적으로 유사성의 인지를 강조하는 정보를 추출한다. ASA의 사용은 중요한 프로세싱, 이를테면 로우 비트 코딩 또는 라우드스피커를 통한 음향 전송을 겪었던 제재(material)에서 유사성을 발견하는, 그리고 타임 정렬시키는 기회를 개선시킨다.

하기에 논의 실시예들에서, 논의되는 2개의 오디오 신호가 공통 소스에서 도출된다고 추정한다. 본 발명의 방법은 하나의 오디오 신호를 다른 신호에 관해 오프셋을 결정하여 그 신호들이 서로에 관해 거의 정확한 동시 발생하게 된다.

비록 원칙적으로 본 발명이 아날로그 또는 디지털 도메인(또는 그 2개의 조합)중 어느 하나에서 실행되더라도, 발명의 일 실시예에서 오디오 신호들은 데이터 블럭의 샘플로 표현되며 프로세싱은 디지털 도메인에서 행하여진다.

도 1A를 참조하면, 오디토리 신 분석(2)은 오디오 신호에 관련한 "시그너쳐" 또는 "핑거프린트"를 생성시키기 위해 오디오 신호에 적용된다. 이 경우, 2개 오디오 신호가 중요하다. 그것들은 하나가 다른 하나에서 도출되거나 또는 둘 모두 동일한 오리지날 신호에서 이미 도출되었다는 점에서 유사하다. 그러므로, 오디토리신 분석은 양측 신호에 적용된다. 간략하게 하기 위해, 도 1A는 하나의 신호에 ASA의 적용만을 나타낸다. 도 1B에 나타난 것처럼, 2개 오디오 신호의 시그너쳐, 시그너쳐 1과 시그너쳐 2가 2개 시그너쳐간의 상대적 타임 오프셋의 척도인 "오프셋(offset)" 출력을 계산하는 타임 오프셋 계산 함수부(4)에 적용된다.

시그너쳐들이 오디오 신호들을 대표하지만 그것들이 도출되었던 오디오 신호들보다도 대체로 더 짧으므로(즉, 그것들은 더 컴팩트하거나 또는 더 적은 비트를 가짐), 시그너쳐간의 타임 오프셋은 오디오 신호들간의 타임 오프셋을 결정하는 것보다 더 빠르게 결정될 수 있다. 게다가, 시그너쳐들은 그것들이 도출되는 오디오 신호들로서 대체로 동일한 상대적 타이밍 관계를 유지하므로, 시그너쳐간의 오프셋의 계산은 오리지날 오디오 신호들을 타임 정렬할 수 없다. 그러므로, 함수부(4)의 오프셋 출력이 타임 정렬 함수부(6)에 적용된다. 타임 정렬 함수부는 또한 2개 오디오 신호, 오디오 신호 1과 오디오 신호 2를 수신하고(여기서 시그너쳐 1과 2가 도출된다), 2개 오디오 신호 출력, 오디오 신호 3과 오디오 신호 4를 제공한다. 오디오 신호들이 타임 정렬(동기)에 있거나 또는 거의 타임 정렬에 있도록 오디오 신호 1의 상대적 타이밍을 오디오 신호 2에 대해 조정하는 것이 바람직하다. 이를 달성하기 위해서, 하나의 신호가 다른 신호에 대해 타임 시프트되거나 또는 원칙적으로 양측 신호가 타임 시프트된다. 사실상, 오디오 신호중 하나는 오디오 신호 1 또는 오디오 신호 2의 "패스 쓰로우(pass through)"이며(즉, 대체로 동일 신호이다) 다른 신호는 오디오 신호 3과 오디오 신호 4가 오프셋 계산과 타임 정렬 함수부의 분해능 정확성에 따라 타임 동기에 있거나 또는 거의 타임 동기에 있도록 시간적으로 수정되어왔던 다른 오디오 신호의 타임 시프트된 버전이다. 더 큰 정렬 정확성이 요구된다면, 부가적인 프로세싱은 본 발명의 아닌 부분을 형성하는 1개 이상의 다른 프로세스에 의해 오디오 신호 3 및/또는 오디오 신호 4에 적용될 것이다.

신호들의 타임 정렬은, 예를 들면, 텔레비전 오디오를 비디오 동기화(리-싱크)에 재저장시 그리고 오디오 신호에 있는 워터마크를 검출시 유용하다. 전자의 경우에, 오디오의 시그너쳐는 동기를 벗어나는 오디오 및 비디오의 결과를 나타내는 전송 또는 저장 이전의 비디오 신호에 삽입된다. 복제점에서, 시그너쳐는 오디오 신호에서 도출되며 그 동기를 저장하기 위해서 비디오 신호에 내장된 시그너쳐에 비교된다. 오디토리 신 분석에 기초한 특성을 사용하지 않는 그런 유형의 시스템은 미국 특허 Re 33,535, 5,202,761, 6,211,919 및 6,246,439 에 기술되어있으며, 이 모두는 본문에 참조로 포함된다. 후자의 경우에 있어서, 오디오 신호의 오리지날 버전은 워터마크를 복원하기 위해서 오디오 신호의 워터마킹된 버전에 비교된다. 그러한 복원은 2개 오디오 신호의 근접한 시간적 정렬을 요구한다. 이는, 본문에 설명된 것처럼, 오리지날 오디오 신호들의 타임 정렬에 조력하도록 각 오디오 신호의 시그너쳐를 도출함으로써 적어도 제 1 정렬의 정도로 달성될 것이다. 도 1A와 1B의 상세한 사항은 하기에 진술된다.

몇몇 어플리케이션을 위해, 도 1A와 1B의 프로세스들은 실시간이어야 한다. 다른 어플리케이션을 위해, 프로세스들은 실시간일 필요는 없다. 실시간 어플리케이션에서, 프로세스는 각 입력 신호에 대한 오디토리 신 분석의 히스토리(예를 들면, 몇 초)를 저장한다. 주기적으로, 그 이벤트 히스토리는 타임 오프셋을 지속적으로 정장하기 위해서 오프셋 계산을 갱신하는데 사용된다. 각각의 입력 신호들에 대한 오디토리 신 분석 정보는 실시간으로 발생되거나, 또는 신호들중 어느 하나에 대한 정보가 이미 존재한다(몇몇 오프라인 오디토리 신 분석 프로세싱이 이미 실행된 것으로 추정한다). 실시간 시스템의 한가지 사용예는, 예를 들면, 상기 언급된 것처럼 오디오/비디오 정렬기이다. 일련의 이벤트 경계들은 오디오에서 도출된다; 다른 일련의 이벤트 경계들은 비디오에서 복원된다(비디오로 오디오 이벤트 경계들의 사전 삽입을 추정). 2개 이벤트 경계 시퀀스들은 예를 들면 립 싱크를 개선하기 위해서 오디오와 비디오간의 타임 오프셋을 결정하도록 주기적으로 비교될 수 있다.

그러므로, 양측 시그너쳐는, 시그너쳐들의 타임 오프셋이 그들의 실제적 부합을 달성하기 위해 오디오 신호들의 정렬을 수정하데 계산 및 사용되는 오디오 신호들에서 거의 동시에 발생된다. 이와 달리, 비교되는 시그너쳐중 하나는, 예를 들면, 시그너쳐를 또 다른 신호에, 이를테면 방금 기술된 것처럼 오디오 및 비디오의 경우에 비디오 신호에 삽입시킴으로써, 그것이 도출되었던 오디오 신호와 함께 전송된다. 다른 대안으로서, 양측 시그너쳐가 미리 발생되고 단지 비교와 타이밍 수정이 실시간으로 실행된다. 예를 들면, 동일한 텔레비젼 프로그램의 2개 소스(비디오와 오디오)의 경우에, 오디오 시그너쳐들이 함께 삽입되어, 각각의 텔레비젼 신호들(동반하는 오디오와 함께)은 복원된 시그너쳐를 비교하여 동기화될 수 있다(비디오 및 오디오). 각 텔레비젼 신호에서 비디오와 오디오의 상대적인 타이밍 관계는 변경되지 않고 유지된다. 텔레비젼 신호 동기화는 실시간으로 발생하지만, 어느시그너쳐도 그 시간에 또는 동시에 발생되지 않는다.

본 발명의 양태에 따르면, 오디오를 개별적으로 인식되는 임시 세그먼트 또는 "오디토리 이벤트"로 분할하기 위한 계산적으로 효율적인 프로세스가 제공된다.

인지된 오디토리 이벤트의 시작부 또는 말단부의 유력한 지시자는 스펙트럼 콘텐츠에서 변동이 있는 것으로 여겨진다. 음색과 피치(스펙트럼 콘텐츠)에서의 변동과, 부수적 결과로서, 진폭에서의 일정한 변동을 검출하기 위해서, 본 발명의 양태에 따른 오디오 이벤트 검출 프로세스는 시간에 따른 스펙트럼 콘텐츠에서의 변동을 검출한다. 선택적으로, 본 발명의 다른 양태에 따라, 프로세스는 시간에 따른 스펙트럼 조합에서의 변동을 검출함으로써 검출되지 않은 시간에 따른 진폭에서의 변동을 검출한다.

최소한의 계산적 요구를 하는 구현예에서, 프로세스는, 오디오 신호의 전체 주파수 대역(전체 대역폭 오디오) 또는 대체로 전체 주파수 대역을 분석하고(실제 구현예에서, 스펙트럼 종단에서 대역 제한 필터링이 종종 사용됨) 가장 큰 가중을 가장 시끄러운 오디오 신호 성분에 둠으로써 오디오를 타임 세그먼트로 분할한다. 이러한 접근법은 소형 타임 스케일(20msec)에서 귀가 일정한 시간에 단일 오디토리 이벤트에 집중하는 경향이 있는 심리음향 현상을 이용한다. 이는 다수의 이벤트가 동시에 발생하며, 하나의 성분이 지각적으로 가장 현저한 경향이 있으며 마치 이벤트만이 발생하는 것처럼 개별적으로 프로세싱됨을 의미한다. 이러한 효과를 이용하는 것은 또한 오디토리 이벤트 검출이 프로세싱되는 오디오의 복잡도로 스케일하도록 한다. 입력 보이스 신호와 유사하게 스피치의 개별 성분들, 자음과 모음은 예를들면 개별 오디오 엘리먼트로서 식별될 것이다. 오디오(이를테면, 드럼비트 또는 다수의 기기와 보이스를 갖는 음악)의 복잡성이 증가함에 따라, 오디토리 이벤트 검출은 임의의 순간에 가장 현저한(즉, 가장 시끄러운) 오디오 엘리먼트를 식별한다. 이와 달리, "가장 현저한" 오디오 엘리먼트는 가청 임계와 주파수 응답을 고려하여 결정된다.

선택적으로, 본 발명의 다른 양태에 따르면, 커다란 계산적 복잡성에 비하여, 프로세스는 전체 대역폭보다는 이산 주파수 대역들(고정 또는 동적으로 결정된, 또는 고정 및 동적으로 결정된 대역들)의 시간에 따른 스펙트럼 조합에서의 변동을 고려한다. 이러한 대안적 접근법은, 단일 스펙트럼만이 특정 시간에 인식될 수 있다는 추정보다는 서로 다른 주파수 대역의 1개 이상의 오디오 스트림을 고려한다.

심지어 오디오를 세그먼트하기 위한 본 발명의 양태에 따른 간다하며 계산적으로 효율적인 프로세스는 오디토리 이벤트를 식별하는데 유용한 것으로 밝혀져왔다.

본 발명의 오디토리 이벤트 검출 프로세스는, 타임 도메인 오디오 파형을 시간 간격 또는 블럭들로 분할하고 그후 각 블럭의 데이터를 필터 뱅크 또는 시간-주파수 변환, 이를테면 이산 퓨리에 변환(DFT)을 사용하여 주파수 도메인으로 컨버트함으로써 구현된다(속도를 위해 패스트 퓨리에 변환(FFT)으로서 구현된다). 각 블럭의 스펙트럼 콘텐츠의 진폭은 진폭 변동의 효과를 제거 또는 감소시키기 위해 정규화된다. 각각의 결과적인 주파수 도메인 표시는 특정 블럭에 있는 오디오의 스펙트럼 콘텐츠의 지시(진폭을 주파수 함수로서)를 제공한다. 연속 블럭들의 스펙트럼 콘텐츠가 비교되고 임계보다 더 큰 변동은 오디토리 이벤트의 시간적 시작점 또는 시간적 종단점을 지시하도록 취하여 질 것이다.

계산적 복잡성을 최소화시키기 위해서, 타임 도메인 오디오 파형의 주파수중 단일 대역만이, 바람직하게는 스펙트럼의 전체 주파수 대역(이는 평균 품질 음악 시스템의 경우에, 약 50Hz 내지 15kHz이다) 또는 대체로 전체 주파수 대역(예를 들면, 대역 제한 필터가 고주파수와 저주파수 극한을 제외한다)이 프로세싱된다.

바람직하게는, 주파수 도메인 데이터가 하기에 기술된 것처럼 정규화된다. 주파수 도메인 데이터가 정규화될 필요가 있는 정도가 진폭의 지시를 제공한다. 그러므로, 이러한 정도의 변동이 소정의 임계를 초과하면, 그것은 또한 이벤트 경계를 지시하도록 취하여진다. 스펙트럼 변동으로부터 그리고 진폭 변동으로부터 야기되는 이벤트 시작점과 종단점들이 함께 OR되어 양측 유형의 변동으로부터 야기되는 이벤트 경계가 식별된다.

오디오가 블럭들로 분할된 샘플들로 표시되는 실제 실시예에서, 각 오디토리 이벤트 시간적 시작점과 종단점 경계는 타임 도메인 오디오 파형이 분할되는 블럭의 경계와 일치한다. 실시간 프로세싱 요건(대형 블럭들이 적은 프로세싱 오버헤드를 요구)과 이벤트 위치의 분해능(소형 블럭들이 오디토리 이벤트에 대한 더 상세한 정보를 제공)간의 트레이드 오프이다.

부가적인 선택으로서, 상기에 제시된 것처럼, 그러나 커다란 계산적 복잡성을 희생시켜가며, 단일 대역의 주파수의 타임 도메인 파형의 스펙트럼 콘텐츠를 프로세싱하는 대신에, 주파수 도메인 컨버젼 이전의 타임 도메인 파형의 스펙트럼이 2개 이상의 주파수 대역으로 분할된다. 각각의 주파수 대역들이 주파수 도메인으로 컨버트되고 그후 마치 독립 채널인 냥 프로세싱된다. 결과적인 이벤트 경계들은 그후 그 채널에 대한 이벤트 경계를 규정하도록 함께 OR된다. 다수의 주파수 대역들은 고정형, 적응형, 또는 고정형과 적응형의 조합이다. 오디오 노이즈 감쇄에 사용된 트랙킹 필터 기술들과 기타 기술들은, 예를 들면, 적응형 주파수 대역을 규정하도록 사용된다(예를 들면, 800Hz와 2kHz에서 지배적인 동시 사인파들이 2개의 주파수에 집중되는 2개의 적응적으로 결정되는 대역의 결과로 나타날 수 있다).

오디토리 신 분석을 제공하기 위한 다른 기술들은 본 발명의 오디토리 이벤트를 식별하는데 사용된다.

발명의 실제 실시예에서, 오디오 신호는 512 샘플의 블럭으로 프로세싱되는 샘플로 표시되며, 이는 44.1kHz의 샘플링 레이트에서 약 11.6msec의 입력 오디오에 해당한다. 가장 짧은 인식 가능한 오디토리 이벤트의 기간(약 20msec)보다 적은 시간을 갖는 블럭 길이가 바람직하다. 본 발명의 양태들은 그러한 실제 실시예로 제한되지 않음이 이해될 것이다. 발명의 원리들은 오디토리 이벤트를 결정하기 이전에 오디오를 샘플 블럭들로 정렬하는 것을 요구하지 않을 뿐만 아니라, 그렇더라도, 일정한 길이의 블럭들을 제공하는 것을 요구하지 않는다. 그러나, 복잡성을 최소화하기 위해서, 512 샘플의 고정 블럭 길이(또는 샘플중 2개 수자의 다른 멱(power))가 3가지 주요 이유 때문에 유용하다. 첫째, 상기 길이는 실시간 프로세싱 어플리케이션에 허용가능한 낮은 충분한 지연을 제공한다. 둘째, 상기 길이는 샘플중 2개 수자의 멱으로, 패스트 퓨리에 변환(FFT) 분석에 유용하다. 셋째, 상기 길이는 유용한 오디토리 신 분석을 실행하도록 적절한 대형 윈도우 사이즈를 제공한다.

하기 논의에서는, 입력 신호들이 [-1, +1] 범위의 진폭값을 갖는 데이터인 것으로 추정된다.

오디토리 신 분석(2) 1A)

오디오 입력 데이터 블럭킹(도시되지 않음)에 이어, 입력 오디오 신호가 오디토리 이벤트로 분할되며, 그 각각은 도 1A의 프로세스(2)("오디토리 신 분석")에서, 개별적인 것으로서 인식되는 경향이 있다. 오디토리 신 분석은 상기 논의된 오디토리 신 분석(ASA) 프로세스에 의해 달성될 수 있다. 비록 오디토리 신 분석을 실행하기 위한 한가지 적절한 프로세스가 하기에 더 상세히 기술되어 있더라도, 본 발명은 ASA를 실행하기 위한 다른 유용한 기술이 사용될 수 있음을 고려한다.

도 2는 도 1A의 오디토리 신 분석 프로세스로서 사용되는 본 발명의 기술에 따른 프로세스를 약술한다. ASA 단계 또는 프로세스(2)는 3개의 일반적인 프로세싱 서브단계로 이루어진다. 제 1 서브단계(2-1)("스펙트럼 분석을 실행")는 오디오 신호를 취득하여, 그것을 블럭들로 분할하고 각각의 블럭에 대해 스펙트럼 프로파일 또는 스펙트럼 콘텐츠를 계산한다. 스펙트럼 분석은 오디오 신호를 단기 주파수 도메인으로 변환시킨다. 이는 임의의 필터뱅크; 대역-통과 필터의 변환 또는 뱅크중 어느 하나에 기초하여, 그리고 선형 또는 왜곡된(warped) 주파수 스페이스(이를테면 바크 스케일(Bark scale) 또는 임계 대역, 이것이 사람 귀의 특성에 더 잘 근접하다)에서 사용하여 실행될 수 있다. 임의의 필터뱅크에는 시간과 주파수간에 트레이드오프가 있다. 시간 분해능이 클 수록, 그리고 시간 간격이 짧을 수록 더 낮은 주파수 분해능을 야기한다. 주파수 분해능이 클 수록, 그리고 서브대역일 더 협소할 수록 더 긴 시간 간격을 야기한다.

제 1 서브단계(2-1)는 오디오 신호의 연속 타임 세그먼트의 스펙트럼 콘텐츠를 계산한다. 하기된 실시예에서, ASA 블럭 사이즈는 512 샘플의 입력 오디오 신호이다(도 3). 제 2 서브단계(2-2)에서, 블럭간 스펙트럼 콘텐츠의 차가 결정된다("스펙트럼 프로파일 차 측정을 실행"). 그러므로, 제 2 서브단계는 오디오 신호의 연속 타임 세그먼트간에 스펙트럼 콘텐츠의 차를 계산한다. 제 3 서브단계(2-3)("오디토리 이벤트 경계의 위치를 식별")에서, 하나의 스펙트럼-프로파일 블럭과 다음 블럭간의 스펙트럼 차가 임계보다 클 때, 블럭 경계는 오디토리 이벤트 경계로 여겨진다. 그러므로, 제 3 서브단계는, 그러한 연속 타임 세그먼트간의 스펙트럼 프로파일 콘텐츠의 차가 임계를 초과할 때 연속 타임 세그먼트간에 오디토리 이벤트 경계를 설정한다. 상기 논의된 것처럼, 인식된 오디토리 이벤트의 시작부와 말단부의 유력한 지시자는 스펙트럼 콘텐츠에 변동이 있는 것으로 여겨진다. 이벤트 경계의 위치들이 시그너쳐로서 저장된다. 선택적 프로세스 단계(2-4)("지배적 서브대역을 식별")는 시그너쳐의 부분으로서 또한 저장되는 지배적인 주파수 서브대역을 식별하기 위해 스펙트럼 콘텐츠를 사용한다.

본 실시예에서, 오디토리 이벤트 경계들은 최소 길이의 1개 스펙트럼 프로파일 블럭을 갖는 정수 배수의 스펙트럼 프로파일 블럭들인 길이를 갖는 오디토리 이벤트를 규정한다(본 예에서, 512 샘플). 원칙적으로, 이벤트 경계들은 그렇게 제한될 필요가 없다.

오디오의 중첩 또는 비중첩 세그먼트들이 윈도우되며 입력 오디오의 스펙트럼 프로파일을 연산하는데 사용된다. 중첩은 오디토리 이벤트의 위치에 관해 더 미세한 분해능을 야기하며 또한 과도현상과 같은 이벤트를 덜 놓치기 쉽게 한다. 그러나, 시간 분해능이 증가함에 따라, 주파수 분해능이 감소한다. 중첩 또한 연산 복잡성을 증가시킨다. 그러므로, 중첩이 생략될 수 있다. 도 3은 이산 퓨리에변환(DFT)에 의해 주파수 도메인으로 윈도우 및 변환되는 비-중첩 512 샘플 블럭의 개략도를 나타낸다. 각 블럭은 이를테면 DFT를 사용하여 윈도우 및 변환되며, 바람직하게는 스피드를 위해 패스트 퓨리에 변환(FFT)으로서 구현된다.

하기 변수들은 입력 블럭의 스펙트럼 프로파일을 연산하는데 사용된다:

N = 입력 신호에서의 샘플 개수

M = 스펙트럼 프로파일을 연산하는데 사용된 윈도우된 샘플의 개수

P = 스펙트럼 연산 중첩의 샘플 개수

Q = 연산된 스펙트럼 윈도우/영역 개수

일반적으로, 임의의 정수들이 상기 변수로 사용될 수 있다. 그러나, 구현예는 만일 M이 2의 멱으로 설정되어 표준 FFT가 스펙트럼 프로파일 계산을 위해 사용된다면 더 효율적일 것이다. 오디토리 이벤트 신 분석 프로세스의 실시예에서, 목록에 나타난 파라미터들이 다음과 같이 설정될 수 있다:

M = 512 샘플(또는 44.1kHz에서 11.6msec)

P = 0 샘플(중첩없음)

상기 목록의 값들은 실험적으로 결정되었으며 일반적으로 오디토리 이벤트의 위치와 기간을 충분한 정확도로 식별하는 것으로 밝혀졌다. 그러나, P의 값을 256 샘플(50% 중첩)로 설정하면 일부 찾기 어려운 이벤트들을 식별하는데 유용한 것으로 밝혀졌다. 수많은 서로 다른 유형의 윈도우들은 윈도우잉으로 인한 스펙트럼 가공물을 최소화시키는데 사용되지만, 스펙트럼 프로파일 연산에 사용된 윈도우는 M-포인트 해닝, 카이저-베셀 또는 다른 적절한, 바람직하게는 비-지각, 윈도우이다.상기 지시된 값들과 해닝 윈도우형은 폭넓은 실험 분석후 선택된 것으로서 그것들은 넓은 범위의 오디오 재제에 대한 우수한 결과를 제공하는 것으로 나타낸다. 비-직각 윈도우잉은 주로 저주파수 콘텐츠를 지닌 오디오 신호의 프로세싱을 위해 바람직하다. 직각 윈도우잉은 이벤트의 부정확한 검출을 야기하는 스펙트럼 가공물을 생성한다. 일정한 코덱 어플리케이션과 달리 전반적인 중첩/부가 프로세스가 일정한 레벨을 제공하여야 하지만, 그러한 제약은 본문에 적용되지 않으며 윈도우는 그 시간/주파수 분해능과 저지-대역 삭제와 같은 특성을 위해 선택된다.

서브단계(2-1)에서, 각 M-샘플 블럭의 스펙트럼은 데이터를 M-포인트 해닝, 카이저-베셀 또는 다른 적절한 윈도우로 윈도우잉하며, M-포인트 패스트 퓨리에 변환을 사용하여 주파수 도메인으로 컨버트하고, FFT 계수의 크기를 계산하여 연산된다. 결과적인 데이터가 정규화되어 최대 진폭이 단위체로 설정되고, M개의 정규화된 어레이가 로그 도메인으로 컨버트된다. 상기 어레이는 로그 도메인으로 컨버트될 필요가 없지만, 컨버젼은 서브단계(2-2)에서 차 측정의 계산을 간략하게 한다. 더욱이, 로그 도메인이 사람 청각 시스템의 로그 도메인 진폭 특성에 더 밀접히 일치한다. 결과적인 로그 도메인 값들은 마이너스 무한대에서 제로의 범위를 갖는다. 실시예에서, 낮은 제한이 값들의 범위에 부가될 수 있다; 상기 제한이, 예를 들면 -60dB로 고정되거나 또는 주파수 의존적이어서 저주파수 또는 매우 고주파수에서 조용한 사운드의 더 낮은 가청도를 반영한다. (FFT가 네거티브 뿐만 아니라 포지티브 주파수를 표시한다는 점에서 어레이의 사이즈를 M/2로 감소시키는 것이 가능함에 유의한다).

서브단계(2-2)는 인접한 블럭들의 스펙트럼간의 차 측정을 계산한다. 각 블럭에 대해, 서브단계(2-1)에서 각각의 M(log) 스펙트럼 계수들이 선행 블럭에 대해 해당 계수에서 감하여지고, 차이의 크기가 계산된다(부호는 무시됨). 이러한 M 차이가 그후에는 하나의 수로 합산된다. 그러므로, 전체 오디오 신호에 대해, 상기 결과는 Q 포지티브 개수의 어레이이다; 수가 클 수록 블럭이 선행 블럭의 스펙트럼과 더 상이하다. 이러한 차 측정은 또한 차 측정을 합산에 사용된 스펙트럼 계수(이 경우 M 계수)의 수로 나누어 스펙트럼 계수당 평균 차로서 표현될 수 있다.

서브단계(2-3)는 임계값을 갖는 서브단계(2-2)로부터 차 측정치의 어레이에 임계치를 적용하여 오디토리 이벤트 경계의 위치를 식별한다. 차 측정치가 임계를 초과할 때, 스펙트럼의 변동이 새로운 이벤트의 신호에 충분한 것으로 간주되고 변동의 블럭 넘버가 이벤트 경계로서 저장된다. 상기 주어진 M과 P값에 대해 그리고 dB 단위로 표현된 로그 도메인 값(서브단계(2-1))에 대해, 임계치는 만일 완전한 크기의 FFT(거울상 부분을 포함)가 비교된다면 2500으로 설정되거나 또는 만일 FFT의 1/2이 비교된다면 1250으로 설정된다(상기 언급된 것처럼, FFT는 네거티브 이외에 포지티브 주파수를 표시한다 - FFT의 크기에 대해, 하나는 다른 것의 거울상이다). 이 값은 실험적으로 선택되었으며 그것은 양호한 오디토리 이벤트 경계 검출을 제공한다. 이 파라미터 값은 이벤트의 검출을 감소(임계를 증가) 또는 증가(임계를 감소)시키도록 변동된다. 본 실시예의 상세한 사항들이 중요하지는 않다. 오디오 신호의 연속 타임 세그먼트의 스펙트럼 콘텐츠를 계산하며, 연속 타임 세그먼트간의 차를 계산하고, 그러한 연속 타임 세그먼트간에 스펙트럼 프로파일 콘텐츠의 차가 임계를 초과할 때 연속 타임 세그먼트간의 각 경계에서 오디토리 이벤트 경계를 설정하는 다른 방식들이 사용될 수 있다.

Q 블럭들(사이즈 M 블럭들)로 이루어진 오디오 신호에 대해, 도 1A의 함수부(2)의 오디토리 신 분석 프로세스의 출력이 오디토리 이벤트 경계의 위치를 나타내는 정보의 B(q) 어레이이며, 여기서 q = 0, 1, .., Q-1이다. M=512 샘플의 블럭 사이즈, P = 0 샘플의 중첩 및 44.1kHz의 신호-샘플링 레이트에 대해, 오디토리 신 분석 함수부(2)는 1초당 대략 86값을 출력한다. 바람직하게는, 어레이 B(q)가 시그너쳐로서 저장되므로, 그 기본적 형태에서, 선택적인 지배적 서브대역 주파수 정보없이, 오디오 신호의 시그너쳐는 오디토리 이벤트 경계의 스트링을 표시하는 어레이 B(q)이다.

2개의 차동 신호에 대한 오디토리 신 분석의 결과의 예가 도 4A와 4B에 나타나 있다. 도 4A는, 오디토리 이벤트 경계들이 샘플 1024와 1536에서 식별되었을 경우의 오디토리 신 프로세싱의 결과를 나타낸다. 도 4B는 샘플 1024, 2048 및 3072에서 이벤트 경계의 식별을 나타낸다.

지배적인 서브대역을 식별(선택적임)

각 블럭에 대해, ASA 프로세싱의 선택적 부가 단계(도 2에 나타남)는 블럭의 지배적인 주파수 "서브대역"을 지시하는 오디오 신호에서 정보를 추출하는 것이다(주파수 도메인으로 각 블럭에 있는 데이터의 컨버젼이 주파수 서브대역으로 분할된 정보의 결과를 나타낸다). 이 블럭 기반 정보가 오디토리 이벤트 기반 정보로 컨버트되므로, 지배적인 주파수 서브대역이 매 오디토리 이벤트로 식별된다. 매 오디토리 이벤트에 대한 이 정보는 오디토리 이벤트 경계 정보에 더하여 부가적인 정보를 지닌 상관 프로세싱(하기 기술됨)을 제공한다.

지배적인(가장 큰 진폭) 서브대역은 다수의 서브대역들, 3 또는 4에서 선택되며, 예를 들면, 그것은 사람 귀가 가장 민감한 주파수의 범위 또는 대역내에 있다. 이와 달리, 서브대역들을 선택하기 위해 다른 기준이 사용될 수 있다. 스펙트럼은, 예를 들면, 3개 서브대역으로 분할될 수 있다. 서브대역의 바람직한 주파수 범이는 다음과 같다:

서브대역 1301Hz 내지 560Hz

서브대역 2560Hz 내지 1938Hz

서브대역 31938Hz 내지 9948Hz

지배적인 서브대역을 결정하기 위해서, 크기 스펙트럼(또는 파워 크기 스펙트럼)의 제곱이 각 서브대역에 대해 합산된다. 각 서브대역에 대한 합산 결과가 계산되고 가장 큰 합이 선택된다. 서브대역들은 또한 가장 큰 합산을 선택하기 이전에 가중될 수 있다. 상기 가중 단계는 각 서브대역에 대한 합산을 서브대역의 스펙트럼 값의 수로 나누는 형태를 취하거나, 또는 이와 달리 덧셈 또는 곱셈의 형태를 취하여 다른 것보다 대역의 중요성을 강조한다. 이는 일부 서브대역들이 다른 서브대역들보다도 평균하여 더 많은 에너지를 갖지만 지각적으로 덜 중요하다.

Q 블럭으로 이루어진 오디오 신호를 고려하면, 지배적인 서브대역 프로세싱의 출력은 각 블럭의 지배적인 서브대역을 나타내는 정보의DS(q)어레이이다(q=0, 1,.., Q-1). 바람직하게는, 어레이 DS(q)가 어레이 B(q)와 함께 시그너쳐에 저장된다. 그러므로, 선택적인 지배적인 서브대역 정보와 함께, 오디오 신호의 시그너쳐는 2개 어레이 B(q)와 DS(q)이며, 각각 오디토리 이벤트 경계의 스트링과 각 서브대역내의 지배적인 주파수 서브대역을 나타낸다. 그러므로, 이상적인 예에서, 상기 2개 어레이는 다음의 값을 가질 수 있다(본 케이스에 대해 3개의 가능한 지배적인 서브대역이 있다).

1 0 1 0 0 0 1 0 0 1 0 0 0 0 0 1 0 (이벤트 경계)

1 1 2 2 2 2 1 1 1 3 3 3 3 3 3 1 1 (지배적인 서브대역)

대부분의 경우에, 지배적인 서브대역은 본 예에 나타난 것처럼 각 오디토리 이벤트내에 동일하게 남거나, 또는 이벤트내의 모든 블럭에 대해 균일하지 않다면 평균값을 갖는다. 그러므로, 지배적인 서브대역은 각 오디토리 이벤트에 대해 결정되며 어레이 DS(q)는 동일한 지배적인 서브대역이 이벤트내의 각 블럭에 할당됨을 제공하도록 수정된다.

오프셋 계산

시그너쳐 추출의 출력(도 1A)은 상기된 것처럼 시그너쳐로서 저장되는 오디토리 신 분석 정보의 1개 이상의 어레이이다. 타임 오프셋 계산 함수부(도 1B)는 2개 시그너쳐를 취득하고 그 타임 오프셋의 척도를 계산한다. 이는 공지된 교차 상관 방법을 사용하여 실행된다.

S₁(길이 N₁)이 시그너쳐 1의 어레이이며 S₂(길이 N₂)가 시그너쳐 2의 어레이이다. 우선 상관-관계 어레이를 계산한다(예를 들면, 존 지. 프로아키스, 디미트리스 지. 마노라키스, Digital Signal Processing:Principles, Algorithms, and Applications, 맥밀란 출판사, 1992, ISBN 0-02-396815-X 참조).

(1)

실시예에서, 교차-상관은 실행 시간을 감소시키기 위해 표준 FFT 기반 기술을 사용하여 실행된다.

S₁과 S₂가 유한 길이이므로,의 비-제로 구성요소는 Q₁+Q²-1의 길이를 갖는다. S₁과 S₂가 유사하다고 추정하면,에서 최대 엘리먼트에 해당하는 지연(l)은 S₁에 비례하는 S₂의 타임 오프셋을 표시한다.

, MAX((l))(2)

이러한 오프셋은 동일 유니트를 시그너쳐 어레이 S₁과 S₂로서 갖는다. 실시예에서, S₁과 S₂의 엘리먼트는 어레이를 발생시키는데 사용된 오디오 블럭 사이즈 마이너스 인접한 블럭들의 중첩에 대응하는 갱신율을 갖는다: 즉, M-P=512-0=512 샘플. 따라서, 오프세슨 512 오디오 샘플의 유니트를 갖는다.

타임 정렬

타임 정렬 함수부(6)(도 1B)는 계산된 오프셋을 사용하여 2개 오디오 신호를 타임 정렬시킨다. 입력으로 오디오 신호 1과 2(2개 시그너쳐를 발생시키는데 사용됨)를 취득하고 하나를 다른 하나와 관련하여 오프셋시켜 그 신호들이 시간에서 더밀접하게 정렬된다. 2개의 정렬된 신호들은 오디오 신호 3과 4로서 출력된다. 적용되는 딜레이 또는 오프셋의 양은 샘플에서 시그너쳐의 분해능(M-P)과 시그너쳐(S₁과 S₂)간의 상대적인 시그너쳐 딜레이(l_peak)의 곱이다.

2개 소스에 공통 통로(passage)만이 중요한 어플리케이션에 대해(마킹되지 않은 신호와 마킹된 신호가 직접적으로 비교되는 워터마크 검출의 경우에서 처럼), 2개 소스가 절단되어 그 공통 통로만을 유지한다.

어떠한 정보도 손실되지 않는 어플리케이션에 대해, 하나의 신호는 선두 샘플의 삽입에 의해 오프셋된다. 예를 들면, x₁(n)은 N₁샘플의 길이를 갖는 오디오 신호 1의 샘플이며 x₂(n)는 N₂샘플의 길이를 갖는 오디오 신호 2라고 하자. 또한 l_peak는 M-P 오디오 샘플의 단위로 S₁에 비례하는 S₂의 오프셋을 표시한다.

오디오 신호 1에 비례하는 오디오 신호 2의 샘플 오프셋(D₂₁)은 시그너쳐 오프셋 l_peak와 M-P의 곱이다.

D₂₁= l_peakㆍ(M-P)(3)

만일 D₂₁이 제로라면, 양측 입력 신호들은 신호 3과 4처럼 수정되지 않은 채 출력된다(도 1B 참조). 만일 D₂₁이 포지티브라면 입력 신호 x1(n)은 선두 샘플들을 삽입시킴으로써 수정된다.

(4)

신호 x'₁(n)과 x₂(n)이 신호 3과 4처럼 출력된다(도 1B 참조). 만일 D₂₁이 네거티브라면 입력 신호 x₂(n)은 선두 샘플들을 삽입시킴으로써 수정된다.

(5)

연산 복잡성과 정확성

오프셋을 계산하는데 요구되는 연산적 파워는 시그너쳐 어레이의 길이, Q₁과 Q₂에 비례한다. 개시된 프로세스는 몇몇 오프셋 에러를 가지므로, 본 발명의 타임 정렬 프로세스에 이어 시그너쳐 보다는 오디오 신호와 직접적으로 작동하는 미세한 분해능을 갖는 종래 프로세스가 이어진다. 예를 들면, 그러한 프로세스는 정렬된 오디오 신호들의 섹션들을 취득하고 상기 섹션들을 직접적으로 교차 상관하여 정확한 샘플 에러 또는 미세한 오프셋을 결정한다.

시그너쳐 어레이들은 샘플 오프셋을 계산하는데 사용되므로, 타임 정렬 방법의 정확성은 시그너쳐를 발생시키는데 사용된 오디오 블럭 사이즈로 제한된다: 본 구현예에서, 512 샘플. 다시 말해서, 본 방법은 블럭 사이즈의 대략 +/- 1/2의 샘플 오프셋에 에러를 갖는다: 본 구현예에서 ±256 샘플.

이러한 에러는 시그너쳐들의 분해능을 증가시킴으로써 감쇄될 수 있다; 그러나, 정확성과 연산 복잡성간에 트레이드오프가 있을 수 있다. 하위 오프셋 에러는 시그너쳐 어레이(더 많은 어레이 엘리먼트)에서 미세한 분해능을 요구하며 이는 교차 상관을 연산시 높은 프로세싱 파워를 요구한다. 상위 오프셋 에러는 시그너쳐 어레이(적은 어레이 엘리먼트)에서 조잡한 분해능을 요구하며 이는 교차 상관을 연산히 낮은 프로세싱 파워를 요구한다.

어플리케이션

워터마킹은, 다른 신호들의 부가를 포함하여, 소정의 방식으로 신호를 변경하여 신호에 정보를 삽입하는 단계를 수반하여 마킹된 신호를 생성한다. 삽입된 정보의 검출 또는 추출은 종종 오리지날 소스와 마킹된 신호의 비교에 좌우한다. 또한 마킹된 신호는 종종 오디오 코딩 및 스피커/마이크로폰 음향 경로 전송을 포함하는 다른 프로세싱을 겪는다. 본 발명은 마킹된 신호를 정렬하는 방법을 오리지날 소스에 제공하여 삽입된 정보의 추출을 용이하게 한다.

오디오 코더 품질을 결정하는 주관적 및 객관적 방법은, 신호 저하의 척도를 생성하기 위해서, 코딩된 신호를 발생시키는데 사용된, 오리지날 소스와 코딩된 신호를 비교한다(예를 들면, ITU-R 5 포인트 손상 스코어).

상기 비교는 코딩된 오디오 신호와 오리지날 소스 신호의 타임 정렬에 좌우한다. 이러한 방법은 소스와 코딩된 신호들을 타임 정렬하는 수단을 제공한다.

본 발명의 다른 어플리케이션들은, 예를 들면, 상기 언급된 것처럼 오디오 및 비디오 신호의 립-싱크를 개선시키는 것이다.

본 발명의 다른 변형 및 수정들과 그 다양한 양태들의 구현예가 당업자에게자명할 것이며, 본 발명이 개시된 특정 실시예로 제한되지 않음이 이해되어야 한다. 따라서, 본 발명과 모든 수정, 변형, 또는 본문에 개시 및 청구된 기본적인 주요 원리의 사상 및 범위내에 있는 등가물에 의해 보호됨이 고려된다.

본 발명과 그 다양한 양태들은 디지털 신호 프로세서에서 실행되는 소프트웨어 함수, 프로그래밍된 범용 디지털 컴퓨터, 및/또는 특정 디지털 컴퓨터로서 구현될 수 있다. 아날로그와 디지털 신호 스트림간의 인터페이스는 적절한 하드웨어로 및/또는 소프트웨어 및/또는 펌웨어의 함수로 실행될 수 있다.

Claims

하나의 신호가 다른 신호에서 도출되었거나 또는 양측 신호가 또 다른 신호에서 도출된, 오디오 신호를 타임 정렬시키기 위한 방법에 있어서,

오디토리 신 분석에 기초한, 상기 오디오 신호들의 감쇄된 정보 특성을 도출하는 단계,

하나의 특성을 다른 특성에 관하여 타임 오프셋을 결정하는 단계,

상기 오디오 신호들이 대체로 서로 부합하도록 상기 타임 오프셋에 응답하여 상기 오디오 신호들을 서로에 관하여 시간적 관계를 수정하는 단계

를 포함하는 것을 특징으로 하는 방법.
제 1 항에 있어서, 상기 감쇄된 정보 특성들은 상기 오디오 신호들에서 도출되며 상기 계산 및 수정 단계이전에 그것들이 도출되었던 오디오 신호들과 함께 전달된 각각의 다른 신호들에 삽입되는 것을 특징으로 하는 방법.
제 2 항에 있어서, 상기 다른 신호들은 텔레비젼 신호의 비디오 부분이며 상기 오디오 신호는 각각의 텔레비젼 신호의 오디오 부분인 것을 특징으로 하는 방법.
오디오 신호와 다른 신호를 타임 정렬시키기 위한 방법에 있어서,

오디토리 신 분석에 기초한, 오디오 신호의 감쇄된 정보 특성을 도출하고 오디오 신호와 다른 오디오 신호와 다른 신호가 대체로 동기성일 때, 다른 신호에 상기 특성을 삽입하는 단계,

상기 오디오 신호의 삽입된 특성을 상기 다른 신호에서 복원시키고, 상기 오디오 신호와 상기 다른 신호가 차분 타임 오프셋에 적용된 이후 오디오 신호의 삽입된 특성이 오디토리 신 분석에 기초하여 도출되는 방식으로 상기 오디오 신호의 감쇄된 정보 특성을 상기 오디오 신호에서 도출시키는 단계,

하나의 특성을 다른 특성에 관하여 타임 오프셋을 계산하는 단계,

오디오 신호와 비디오 신호가 대체로 서로 동기성이도록 상기 타임 오프셋에 응답하여 오디오 신호를 다른 신호에 관하여 시간적 관계를 수정하는 단계

를 포함하는 것을 특징으로 하는 방법.
제 4 항에 있어서, 상기 다른 신호가 비디오 신호인 것을 특징으로 하는 방법.
제 1 항 또는 제 4 항중 어느 한 항에 있어서, 타임 오프셋을 계산하는 단계는 상기 특성의 교차-상관을 실행하는 단계를 포함하는 것을 특징으로 하는 방법.
제 1 항 내지 제 6 항중 어느 한 항에 있어서, 오디토리 신 분석에 기초한 상기 감쇄된 정보 특성들은 오디토리 이벤트 경계의 최소한의 위치를 표시하는 정보의 어레이인 것을 특징으로 하는 방법.
제 7 항에 있어서, 상기 오디토리 이벤트 경계들은

상기 오디오 신호의 연속 타임 세그먼트의 스펙트럼 콘텐츠를 계산하는 단계,

상기 오디오 신호의 연속 타임 세그먼트간의 스펙트럼 콘텐츠에서 차를 계산하는 단계, 및

그러한 연속 타임 세그먼트간의 스펙트럼 콘텐츠에서의 차가 임계를 초과할 때 연속 타임 세그먼트간의 경계로서 오디토리 이벤트 경계를 식별하는 단계

를 포함하는 것을 특징으로 하는 방법.
제 7 항 또는 제 8 항에 있어서, 상기 정보 어레이는 또한 각각의 상기 오디토리 이벤트의 지배적인 주파수 서브대역을 표시하는 것을 특징으로 하는 방법.