KR100911679B1

KR100911679B1 - 오디오 신호를 오디토리 이벤트로 세그먼트하는 방법

Info

Publication number: KR100911679B1
Application number: KR1020037015336A
Authority: KR
Inventors: 브레트 지. 크로켓
Original assignee: 돌비 레버러토리즈 라이쎈싱 코오포레이션
Priority date: 2001-05-25
Filing date: 2002-02-26
Publication date: 2009-08-10
Also published as: MXPA03010751A; HK1066902A1; KR20040004647A; CN1272765C; EP2549475A1; DE60236648D1; EP1390942A1; ES2400700T3; KR100871607B1; JP4763965B2; JP2004528600A; KR100873396B1; WO2002097791A1; JP4906230B2; EP1390942B1; HK1066087A1; CN1620684A; CN1511311A; MXPA03010750A; ATE470927T1

Abstract

일 양태에 있어서, 본 발명은, 오디오 신호의 연속 타임 블럭의 스펙트럼 콘텐츠를 계산하며(5-1), 오디오 신호의 연속 타임 블럭간에 스펙트럼 콘텐츠의 차를 계산하고(5-2), 그리고 그러한 연속 타임 블럭간에 스펙트럼 콘텐츠의 차가 임계를 초과할 때 연속 타임 블럭간의 경계로서 오디토리 이벤트 경계를 식별(5-3)하여, 오디오 신호를 오디토리 이벤트로 분할하며, 그 각각이 개별 및 별개로 인식되는 경향이 있다. 다른 양태에서, 본 발명은 오디오 신호를 개별 및 별개로 인식되는 경향이 있는 오디토리 이벤트로 분할하며, 오디토리 이벤트에 관한 정보를 포맷 및 저장하여(5-4) 오디오 신호의 감축된 정보 표시를 발생시킨다. 선택적으로, 본 발명은 또한 특성을 1개 이상의 오디토리 이벤트로 할당한다(5-5).

Description

오디오 신호를 오디토리 이벤트로 세그먼트하는 방법{SEGMENTING AUDIO SIGNALS INTO AUDITORY EVENTS}

본 발명은 오디오 신호들의 심리음향 프로세싱의 분야에 관한 것이다. 특히, 본 발명은 오디오 신호를 "오디토리 이벤트"로 분할 또는 세그먼팅하는 양태에 관한 것으로, 그 각각은 개별 및 별개로서 인지되는 경향이 있으며, 그리고 오디토리 이벤트에 기초하여, 선택적으로는, 그러한 오디토리 이벤트내에 있는 오디오 신호의 특성 또는 특색에 기초하여 오디오 신호의 감쇄된 정보 표시를 발생시키는 양태에 관한 것이다. 오디토리 이벤트는 "ISO/IEC JTC 1/SC 29/WG 11"에 의해 제안된 것으로서 MPEG-7 "오디오 세그먼트"를 규정하는데 유용하다.

별개 및 개별로 인지되는 단위체 또는 세그먼트로의 사운드 분리는 때때로 "오디토리 이벤트 분석(auditory event analysis)" 또는 "오디토리 신 분석(auditory scene analysis)"("ASA")으로서 언급된다. 오디토리 신 분석의 광범위한 논의는 알버트 에스. 브레그맨의 저서에 진술되어 있다. Auditory Scene Analysis - The Perceptual Organization of Sound, 메사츄세츠 인스터튜트 오브 테크날러지, 1991, 4판, 2001, 제 2 MIT 출판부. 또한, Bhadkamkar 등의 1999년 12월 14일자 미국 특허 제6,002,776호는 "오디토리 신 분석에 의한 사운드 분리에 관 한 종래 기술 연구"로서 1976년까지의 공보를 인용한다. 그러나, Bhadkamkar 등의 특허는 오디토리 신 분석의 실제 사용을 낙담시켜, "오디토리 신 분석을 포함하는 기술들이, 비록 과학적 관점에서 사람의 오디토리 프로세싱의 모델로서 중요하더라도, 현재는 너무 계산적 요구가 지나치며 특별히 기초적인 발전이 이루어질 때 까지는 사운드 분리를 위한 실제 기술로 고려되지 않는다"고 결론을 내린다.

오디오에서 특징 또는 특색을 추출하는 수많은 상이한 방법들이 있다. 특색 또는 특징이 적절하게 정의내려진다면, 그 추출은 자동 프로세스를 사용하여 실행될 수 있다. 예를 들면, "ISO/IEC JTC 1/SC 29/WG 11"(MPEG)가 현재 다양한 오디오 기술어(descriptor)를 MPEG-7 표준의 부분으로서 표준화하고 있다. 그러한 방법들의 공통적인 결함은 그것들이 ASA를 무시한다는 것이다. 그러한 방법들은, 피치, 진폭, 파워, 화성 구조 및 스펙트럼 평탄도와 같은 일정한 "규격" 신호 프로세싱 파라미터를 주기적으로 측정하고자 한다. 그러한 파라미터들은, 유용한 정보를 제공하더라도, 사람의 인지에 따른 개별 및 별개로서 인식되는 엘리먼트로 오디오 신호들을 분석 및 특징지우지 못한다. 그러나, MPEG-7 디스크립터는 본 발명의 양태에 따라 식별된 오디토리 이벤트를 특성지울시 유용하다.

본 발명의 양태에 따르면, 오디오를 개별 및 별개로 인식되는 임시 세그먼트 또는 "오디토리 이벤트"로 분할하기 위한 계산적으로 효율적인 프로세스가 제공된다. 이러한 오디토리 이벤트의 경계들의 위치들(그것들은 시간에 따라 시작 및 종결한다)은 오디오 신호를 기술하는데 사용될 수 있는 가치있는 정보를 제공한다. 오디토리 이벤트 경계들의 위치는 감쇄된 정보 표시, 다른 유사하게 발생된 시그너쳐와의 비교 분석시(예를 들면, 공지된 작업의 데이터베이스에서), 사용을 위해 저장될 수 있는 오디오 신호의 "시그너쳐" 또는 "핑거프린트"를 발생시키도록 어셈블될 수 있다.

브레그맨은 "우리는 사운드가 음색, 피치, 소리 세기, 또는 (더 작은 의미로) 공간에서의 위치에서 갑자기 변동할 때 이산 단위체를 듣는다"고 어느 한 페이지에 언급한다. (Auditory Scene Analysis - The Perceptual Organization of Sound, 페이지 469). 브레그맨은, 예를 들면, 다중 동시 사운드 스트림들이 주파수에서 구별될 때 그 스트림의 인식을 또한 논의한다.

음색과 피치에서의 변동과, 진폭에서의 일정한 변동을 검출하기 위해서, 본 발명의 양태에 따른 오디오 이벤트 검출 프로세스는 시간에 따른 스펙트럼 콘텐츠에서의 변동을 검출한다. 채널들이 스페이스에서 방향을 표시하는 다중채널 사운드 어레이지먼트에 적용될 때, 본 발명의 양태에 따른 프로세스는 시간에 관해 공간적 위치에서의 변동으로부터 야기하는 오디토리 이벤트를 또한 검출한다. 선택적으로, 본 발명의 다른 양태에 따라, 프로세스는 시간에 따른 스펙트럼 조합에서의 변동을 검출함으로써 검출되지 않은 시간에 따른 진폭에서의 변동을 검출한다.

최소한의 계산적 요구를 하는 구현예에서, 프로세스는, 전체 주파수 대역(전체 대역폭 오디오) 또는 대체로 전체 주파수 대역을 분석하고(실제 구현예에서, 스펙트럼 종단에서 대역 제한 필터링이 종종 사용됨) 가장 큰 가중을 가장 시끄러운 오디오 신호 성분에 둠으로써 오디오를 타임 세그먼트로 분할한다. 이러한 접근법 은 소형 타임 스케일(20msec)에서 귀가 일정한 시간에 단일 오디토리 이벤트에 집중하는 경향이 있는 심리음향 현상을 이용한다. 이는 다수의 이벤트가 동시에 발생하며, 하나의 성분이 지각적으로 가장 현저한 경향이 있으며 마치 이벤트만이 발생하는 것처럼 개별적으로 프로세싱됨을 의미한다. 이러한 효과를 이용하는 것은 또한 오디토리 이벤트 검출이 프로세싱되는 오디오의 복잡도로 스케일하도록 한다. 입력 보이스 신호와 유사하게 스피치의 개별 성분들, 자음과 모음은 예를 들면 개별 오디오 엘리먼트로서 식별될 것이다. 오디오(이를 테면, 드럼비트 또는 다수의 기기와 보이스를 갖는 음악)의 복잡성이 증가함에 따라, 오디토리 이벤트 검출은 임의의 순간에 가장 현저한(즉, 가장 시끄러운) 오디오 엘리먼트를 식별한다. 이와 달리, "가장 현저한" 오디오 엘리먼트는 가청 임계와 주파수 응답을 고려하여 결정된다.

전체 대역폭 오디오로부터 계산된 오디토리 이벤트 경계들의 위치들이 오디오 신호의 콘텐츠에 관한 유용한 정보를 제공하더라도, 오디오 신호 분석에 사용하기 위한 오디토리 이벤트의 콘텐츠를 더 기술하는 부가 정보를 제공하는 것이 바람직하다. 예를 들면, 오디오 신호는 2개 이상의 주파수 서브대역에 교차하여 분석될 수 있으며 주파수 서브대역 오디토리 이벤트의 위치는 오디토리 이벤트의 콘텐츠의 성질에 대한 더 상세한 정보를 전달하도록 결정 및 사용될 수 있다. 그러한 상세한 정보는 광대역 분석으로부터 이용가능하지 않은 부가 정보를 제공할 수 있다.

그러므로, 선택적으로, 본 발명의 다른 양태에 따르면, 커다란 계산적 복잡성에 비하여, 프로세스는 전체 대역폭 보다는 이산 주파수 대역들(고정 또는 동적 으로 결정된, 또는 고정 및 동적으로 결정된 대역들)의 시간에 따른 스펙트럼 조합에서의 변동을 고려한다. 이러한 대안적 접근법은, 단일 스펙트럼만이 특정 시간에 인식될 수 있다는 추정보다는 서로 다른 주파수 서브대역의 1개 이상의 오디오 스트림을 고려한다.

심지어 본 발명의 양태에 따른 간다하며 계산적으로 효율적인 프로세스는 오디토리 이벤트를 식별하는데 유용한 것으로 밝혀져왔다.

본 발명의 오디토리 이벤트 검출 프로세스는, 타임 도메인 오디오 파형을 시간 간격 또는 블럭들로 분할하고 그후 각 블럭의 데이터를 필터 뱅크 또는 시간-주파수 변환, 이를 테면 FFT를 사용하여 주파수 도메인으로 컨버트함으로써 구현된다. 각 블럭의 스펙트럼 콘텐츠의 진폭은 진폭 변동의 효과를 제거 또는 감소시키기 위해 정규화된다. 각각의 결과적인 주파수 도메인 표시는 특정 블럭에 있는 오디오의 스펙트럼 콘텐츠의 지시(진폭을 주파수 함수로서)를 제공한다. 연속 블럭들의 스펙트럼 콘텐츠가 비교되고 임계보다 더 큰 변동은 오디토리 이벤트의 시간적 시작점 또는 시간적 종단점을 지시하도록 취하여 질 것이다. 도 1은 오디토리 이벤트를 도시하는 오케스트라 음악의 단일 채널의 이상적인 파형을 나타낸다. 새로운 음으로서 발생하는 스펙트럼 변동은 각각 샘플 2048과 2560에서 새로운 오디토리 이벤트 2와 3을 트리거시키도록 연주된다.

상기 언급된 것처럼, 계산적 복잡성을 최소화시키기 위해서, 타임 도메인 오디오 파형의 주파수중 단일 대역만이, 바람직하게는 스펙트럼의 전체 주파수 대역(이는 평균 품질 음악 시스템의 경우에, 약 50Hz 내지 15kHz이다) 또는 대체로 전체 주파수 대역(예를 들면, 대역 제한 필터가 고주파수와 저주파수 극한을 제외한다)이 프로세싱된다.

바람직하게는, 주파수 도메인 데이터가 하기에 기술된 것처럼 정규화된다. 주파수 도메인 데이터가 정규화될 필요가 있는 정도가 진폭의 지시를 제공한다. 그러므로, 이러한 정도의 변동이 소정의 임계를 초과하면, 그것은 또한 이벤트 경계를 지시하도록 취하여진다. 스펙트럼 변동으로부터 그리고 진폭 변동으로부터 야기되는 이벤트 시작점과 종단점들이 함께 OR되어 어느 하나 유형의 변동으로부터 야기되는 이벤트 경계가 식별된다.

스페이스에서 방향을 각각 표시하는, 다중 오디오 채널의 경우에 있어서, 각 채널은 독립적으로 처리되며, 모든 채널에 대한 결과적인 이벤트 경계들은 그후 함께 OR된다. 그러므로, 예를 들면, 방향을 갑작스럽게 스위치하는 오디토리 이벤트는 하나의 채널에서 "이벤트 경계의 종결"과 또 다른 채널에서 "이벤트 경계의 시작"의 결과를 나타낼 것이다. 함께 OR될 때, 2개 이벤트가 식별된다. 그러므로, 본 발명의 오디토리 이벤트 검출 프로세스는 스펙트럼(음색과 피치), 진폭 및 방향성 변동에 기초한 오디토리 이벤트를 검출할 수 있다.

오디오가 블럭들로 분할된 샘플들로 표시되는 실제 실시예에서, 각 오디토리 이벤트 시간적 시작점과 종단점 경계는 타임 도메인 오디오 파형이 분할되는 블럭의 경계와 일치한다. 실시간 프로세싱 요건(대형 블럭들이 적은 프로세싱 오버헤드를 요구)과 이벤트 위치의 분해능(소형 블럭들이 오디토리 이벤트에 대한 더 상세한 정보를 제공)간의 트레이드 오프이다.

부가적인 선택으로서, 상기에 제시된 것처럼, 그러나 커다란 계산적 복잡성을 희생시켜가며, 단일 대역의 주파수의 타임 도메인 파형의 스펙트럼 콘텐츠를 프로세싱하는 대신에, 주파수 도메인 컨버젼 이전의 타임 도메인 파형의 스펙트럼이 2개 이상의 주파수 대역으로 분할된다. 각각의 주파수 대역들이 주파수 도메인으로 컨버트되고 상기 개시된 방식으로 그후 마치 독립 채널인 냥 프로세싱된다. 결과적인 이벤트 경계들은 그후 그 채널에 대한 이벤트 경계를 규정하도록 함께 OR된다. 다수의 주파수 대역들은 고정형, 적응형, 또는 고정형과 적응형의 조합이다. 오디오 노이즈 감쇄에 사용된 트랙킹 필터 기술들과 기타 기술들은, 예를 들면, 적응형 주파수 대역을 규정하도록 사용된다(예를 들면, 800Hz와 2kHz에서 지배적인 동시 사인파들이 2개의 주파수에 집중되는 2개의 적응적으로 결정되는 대역의 결과로 나타날 수 있다). 비록 주파수 도메인으로의 컨버젼이전에 데이터를 필터링하는 것이 성취될 수 있는 것이더라도, 더욱 최적인 것으로는 전체 대역폭 오디오가 주파수 도메인으로 컨버트되고 그후 주요 주파수 서브대역 성분들이 프로세싱되는 것이다. FFT를 사용하여 전체 대역폭 오디오를 컨버트하는 경우에 있어서, 중요 주파수 서브대역에 해당하는 서브-빈스(sub-bins)만일 함께 처리될 것이다.

이와 달리, 다중 서브대역 또는 다중 채널의 경우에, 정보의 일부 손실을 야기하는 오디토리 이벤트 경계를 함께 OR하는 대신에, 이벤트 경계 정보가 보존될 것이다.

도 2에 나타난 것처럼, 디지털 오디오 신호의 주파수 도메인 크기는 Fs/2의 주파수까지 유용한 주파수 정보를 포함한다. Fs는 디지털 오디오 신호의 샘플링 주 파수이다. 오디오 신호의 주파수 스펙트럼을 2개 이상의 서브대역으로 분할함으로써(동일한 대역폭일 필요가 없으며 Fs/2 Hz의 주파수까지 올릴 필요가 없음), 주파수 서브대역은 전체 주파수 오디토리 이벤트 검출 방법에 유사한 방식으로 시간에 따라 분석된다.

서브대역 오디토리 이벤트 정보는 신호를 좀더 정확히 기술하며 신호를 다른 오디오 신호와 구별짓는 오디오 신호에 대한 부가 정보를 제공한다. 이러한 향상된 구별 능력은, 오디오 시그너쳐 정보가 다수의 오디오 시그너쳐에서 오디오 신호를 매칭하는 것을 식별하는데 사용되는 것이라면 유용할 것이다. 예를 들면, 도 2에 예시된 것처럼, 주파수 서브대역 오디토리 이벤트 분석(512 샘플의 오디토리 이벤트 경계 분해능을 가짐)은 샘플 1024와 1536에서 다양하게 시작하며 샘플 2560, 3072 및 3584에서 다양하게 종결하는 다중 서브대역 오디토리 이벤트를 발견한다. 이러한 레벨의 신호 사항은 단일 광대역 오디토리 신 분석으로부터 이용 가능하다는 것이 쉽지 않다.

서브대역 오디토리 이벤트 정보는 각 서브대역에 대한 오디토리 이벤트 시그너쳐를 도출하는데 사용된다. 이는 오디오 신호의 시그너쳐의 사이즈를 증가시키며 다중 시그너쳐를 비교하는데 요구되는 연산 시간을 증가시키지만 2개 시그너쳐를 동일한 것으로서 거짓 분류하는 가능성을 또한 상당히 감소시킬 수 있다. 시그너쳐 사이즈간의 트레이드오프, 계산적 복잡성 및 신호 정확성은 어플리케이션에 좌우하여 수행될 수 있다. 이와 달리, 각 서브대역에 대한 시그너쳐를 제공하기 보다는, 오디토리 이벤트들은 "결합된(combined)" 오디토리 이벤트 경계들의 단일 세트(샘 플 1024, 1536, 2560, 3072 및 3584)를 제공하도록 함께 OR된다. 비록 이는 정보의 손실을 약간 야기하지만, 단일 서브대역 또는 광대역 분석의 정보보다 더 많은 정보를 제공하는, 결합된 오디토리 이벤트를 표시하는, 이벤트 경계의 단일 세트를 제공한다.

그 자체에 대한 주파수 서브대역 오디토리 이벤트 정보가 유용한 신호 정보를 제공하더라도, 서브대역 오디토리 이벤트의 위치간의 관계는 오디오 신호의 성질에 더 많은 통찰력을 제공하도록 분석 및 사용된다. 예를 들면, 서브대역 오디토리 이벤트의 위치와 세기는 오디오 신호의 음색(주파수 콘텐츠)의 지시로서 사용된다. 서로 화성음적으로 관련되어 있는 서브대역에 나타나는 오디토리 이벤트들은 또한 오디오의 화성음적 성질에 관한 유용한 통찰력을 제공한다. 단일 서브대역에 오디토리 이벤트의 존재는 또한 오디오 신호의 톤형(tone-like) 성질에 대한 정보를 제공한다. 다중 채널들간에 주파수 서브대역 오디토리 이벤트의 관계를 분석하는 것은 또한 공간적 콘텐츠 정보를 제공할 수 있다.

다중 오디오 채널을 분석하는 경우에, 각 채널은 독립적으로 분석되며 각각의 오디토리 이벤트 경계 정보가 개별적으로 보유되거나 결합된 이벤트 정보를 제공하도록 결합될 것이다. 이는 다중 서브대역의 경우에 다소 아날로그적이다. 결합된 오디토리 이벤트들은 2개 채널 오디오 신호에 대한 오디토리 신 분석 결과를 나타내는 도 3에 관련하여 더 잘 이해될 것이다. 도 3은 2개 채널에 있는 오디오의 타임 동시발생 세그먼트를 나타낸다. 제 1 채널에서 ASA 프로세싱, 도 3의 상부 파형은 다수의 512 샘플 스펙트럼 프로파일 블럭 사이즈가 있는 샘플에서, 본 예에서 1024 및 1536 샘플에서 오디토리 이벤트 경계를 식별한다. 도 3의 하부 파형은 제 2 채널이며 ASA 프로세싱은 또는 다수의 스펙트럼 프로파일 블럭 사이즈가 있는 샘플에서, 본 예에서 샘플 1024, 2048 및 3072에서 이벤트 경계의 결과를 나타낸다. 양측 채널에 대한 결합된 오디토리 이벤트 분석은 샘플 1024, 1536, 2048 및 3072에서 경계를 갖는 결합된 오디토리 이벤트 세그먼트의 결과를 나타낸다(채널들의 오디토리 이벤트 경계들이 함께 OR된다). 사실상 오디토리 이벤트 경계의 정확성이 스펙트럼 프로파일 블럭 사이즈의 사이즈에 좌우함이 이해되는데(N은 본 예에서 512 샘플) 왜냐하면 이벤트 경계가 블럭 경계에서만 발생할 수 있기 때문이다. 그럼에도 불구하고, 512 샘플의 블럭 사이즈는 만족스러운 결과를 제공하는 것에 대해 충분한 정확성을 갖는 오디토리 이벤트 경계를 결정하는 것으로 밝혀져왔다.

도 3A는 오디토리 이벤트를 나타낸다. 이러한 이벤트들은 (1)과도현상 이전에 오디오의 조용한 부분, (2)과도현상 이벤트, 및 (3)오디오 과도현상의 에코/지지(echo/sustain) 부분을 포함한다. 스피치 신호는 주로 고주파수 치찰음 이벤트를 갖는 도 3B에 도시되어 있으며, 이벤트는 치찰음으로서 모음, 모음의 전반부와 모음의 후반부로 전개 또는 모프(morph)한다.

도 3은 2개 채널의 시간 동시발생 데이터 블럭들간에 오디토리 이벤트 데이터가 공유될 때의 결합된 이벤트 경계를 나타낸다. 그러한 이벤트 세그먼트화는 5개 결합된 이벤트 영역을 제공한다(이벤트 경계가 함께 OR된다).

도 4는 4개 채널 입력 신호의 예를 나타낸다. 채널 1과 4는 각각 3개 오디토리 이벤트를 포함하며 채널 2와 3은 각각 2개 오디토리 이벤트를 포함한다. 4개 채 널에 교차하여 동시발생 데이터 블럭에 대한 결합된 오디토리 이벤트 경계들이 도 4의 하부에 지시된 것처럼 샘플 번호 512, 1024, 1536, 2560 및 3072에 위치된다.

원칙적으로, 프로세싱된 오디오는 디지털 또는 아날로그이며 블럭으로 분할될 필요가 없다. 그러나, 실제 어플리케이션에서, 입력 신호들은 각 채널의 연속적인 샘플들이 예를 들면 4096 샘플의 블럭들로 분할되는 샘플로 표시된 디지털 오디오의 1개 이상의 채널들이다(상기 도 1, 3 및 4의 예에서처럼). 본문에 진술된 실시예에서, 오디토리 이벤트들은 대략 20ms 이하의 오디오를 바람직하게 표시하는 오디오 샘플 데이터의 블럭들을 검사하여 결정되며, 이는 사람귀에 의해 인식될 수 있는 가장 짧은 오디토리 이벤트로 여겨진다. 그러나, 사실상, 오디토리 이벤트들은 예를 들면 오디오 샘플 데이터의 더 큰 블럭내에서 44.1kHz의 샘플링 레이트로 입력 오디오의 약 11.6ms에 해당하는 512 샘플의 블럭들을 검사하여 결정되기 쉽다. 그러나, 본 문헌 참조를 통하여 오디토리 이벤트 경계들을 검출할 목적으로 오디오 데이터의 세그먼트의 검사를 언급할 때에는 "서브블럭"보다는 "블럭"으로 이루어진다. 오디오 샘플 데이터가 블럭에서 검사되기 때문에, 사실상, 오디토리 이벤트 시간적 시작 및 정지점 경계들이 반드시 블럭 경계와 각각 부합한다. 실시간 프로세싱 요건(대형 블럭들이 적은 프로세싱 오버헤드를 요구한다)과 이벤트 위치의 분해능(소형 블럭들이 오디토리 이벤트의 위치에 대해 더 상세한 정보를 제공한다)간의 트레이드오프가 있다.

오디토리 신 분석을 제공하기 위한 다른 기술들은 본 발명의 오디토리 이벤트를 식별하는데 사용된다.

도 1은 오디토리를 도시하는 오케스트라 음악의 단일 채널의 이상적인 파형이다.

도 2는 서브대역 오디토리 이벤트를 식별하기 위해서 전체 대역폭 오디오를 주파수 서브대역으로 분할하는 개념을 도시하는 이상적인 개념도이다. 수평축은 샘플이며 수직축은 주파수이다.

도 3은 2개 오디오 채널의 일련의 이상적인 파형이며, 이는 각 채널에 오디오 이벤트와 2개 채널간에 결합된 오디오 이벤트를 나타낸다.

도 4는 4개 오디오 채널의 일련의 이상적인 파형이며, 이는 각 채널에 오디오 이벤트와 4개 채널간에 결합된 오디오 이벤트를 나타낸다.

도 5는 본 발명에 따라 오디오 신호로부터 지배적인 서브대역의 선택적 추출과 오디오 이벤트 위치의 추출을 나타내는 순서도이다.

도 6은 본 발명에 따라 스펙트럼 분석을 도시하는 개략적인 도면이다.

본 발명의 일 양태의 실시예에 따르면, 오디토리 신 분석은 도 5의 일부분에 나타난 것처럼 3개의 일반적인 프로세싱 단계로 이루어진다. 제 1 서브단계(5-1)("스펙트럼 분석을 실행")는 오디오 신호를 취득하여, 그것을 블럭들로 분할하고 각각의 블럭에 대해 스펙트럼 프로파일 또는 스펙트럼 콘텐츠를 계산한다. 스펙트럼 분석은 오디오 신호를 단기 주파수 도메인으로 변환시킨다. 이는 임의의 필터뱅크; 대역-통과 필터의 변환 또는 뱅크중 어느 하나에 기초하여, 그리고 선형 또는 왜곡 된(warped) 주파수 스페이스(이를 테면 바크 스케일(Bark scale) 또는 임계 대역, 이것이 사람 귀의 특성에 더 잘 근접하다)에서 사용하여 실행될 수 있다. 임의의 필터뱅크에는 시간과 주파수간에 트레이드오프가 있다. 시간 분해능이 클 수록, 그리고 시간 간격이 짧을 수록 더 낮은 주파수 분해능을 야기한다. 주파수 분해능이 클 수록, 그리고 서브대역일 더 협소할 수록 더 긴 시간 간격을 야기한다.

제 1 서브단계는, 도 6에 개념적으로 도시된 것처럼, 오디오 신호의 연속 타임 세그먼트의 스펙트럼 콘텐츠를 계산한다. 하기된 실시예에서, ASA 블럭 사이즈는 512 샘플의 입력 오디오 신호이다. 제 2 서브단계(5-2)에서, 블럭간 스펙트럼 콘텐츠의 차가 결정된다("스펙트럼 프로파일 차 측정을 실행"). 그러므로, 제 2 서브단계는 오디오 신호의 연속 타임 세그먼트간에 스펙트럼 콘텐츠의 차를 계산한다. 상기 논의된 것처럼, 인식된 오디토리 이벤트의 시작부와 말단부의 유력한 지시자는 스펙트럼 콘텐츠에 변동이 있는 것으로 여겨진다. 제 3 서브단계(5-3)("오디토리 이벤트 경계의 위치를 식별")에서, 하나의 스펙트럼-프로파일 블럭과 다음 블럭간의 스펙트럼 차가 임계보다 클 때, 블럭 경계는 오디토리 이벤트 경계로 여겨진다. 연속 경계들간의 오디오 세그먼트가 오디토리 이벤트를 구성한다. 그러므로, 제 3 서브단계는, 그러한 연속 타임 세그먼트간의 스펙트럼 프로파일 콘텐트의 차가 임계를 초과할 때 연속 타임 세그먼트간에 오디토리 이벤트 경계를 설정하여, 오디토리 이벤트를 규정한다. 본 실시예에서, 오디토리 이벤트 경계들은 최소 길이의 1개 스펙트럼 프로파일 블럭을 갖는 정수 배수의 스펙트럼 프로파일 블럭들인 길이를 갖는 오디토리 이벤트를 규정한다(본 예에서, 512 샘플). 원칙적으로, 이벤 트 경계들은 그렇게 제한될 필요가 없다. 본문에 논의된 실제 실시예에 대안으로서, 입력 블럭 사이즈는 예를 들면 본질적으로 오디토리 이벤트의 사이즈이도록 변동한다.

이벤트 경계들의 위치들은 감축된 정보 특성 또는 "시그너쳐"로서 저장되며 단계(5-4)에 나타난 것처럼 바람직하게 포맷된다. 선택적 프로세스 단계(5-5)("지배적인 서브대역을 식별")는 시그너쳐의 부분으로서 또한 저장되는 지배적인 주파수 서브대역을 식별하기 위해 스펙트럼 분석 단계(5-1)를 사용한다. 상기 지배적인 서브대역 정보는 각 오디토리 이벤트의 특색을 규정하기 위해서 오디토리 이벤트 경계 정보와 결합된다.

오디오의 중첩 또는 비중첩 세그먼트들이 윈도우되며 입력 오디오의 스펙트럼 프로파일을 연산하는데 사용된다. 중첩은 오디토리 이벤트의 위치에 관해 더 미세한 분해능을 야기하며 또한 과도현상과 같은 이벤트를 덜 놓치기 쉽게 한다. 그러나, 중첩 또한 연산 복잡성을 증가시킨다. 그러므로, 중첩이 생략될 수 있다. 도 6은 이산 퓨리에 변환(DFT)에 의해 주파수 도메인으로 윈도우 및 변환되는 비-중첩 512 샘플 블럭의 개략도를 나타낸다. 각 블럭은 이를 테면 DFT를 사용하여 윈도우 및 변환되며, 바람직하게는 스피드를 위해 패스트 퓨리에 변환(FFT)으로서 구현된다.

하기 변수들은 입력 블럭의 스펙트럼 프로파일을 연산하는데 사용된다:

N = 입력 신호에서의 샘플 개수

M = 스펙트럼 프로파일을 연산하는데 사용된 윈도우된 샘플의 개수

P = 스펙트럼 연산 중첩의 샘플 개수

Q = 연산된 스펙트럼 윈도우/영역 개수

일반적으로, 임의의 정수들이 상기 변수로 사용될 수 있다. 그러나, 구현예는 만일 M이 2의 멱으로 설정되어 표준 FFT가 스펙트럼 프로파일 계산을 위해 사용된다면 더 효율적일 것이다. 게다가, N, M 및 P는 Q가 정수이도록 선택된다면, 이는 N 샘플의 종단부에서 언더-러닝(under-running) 또는 오버-러닝(over-running)을 회피시킬 것이다. 오디토리 이벤트 신 분석 프로세스의 실시예에서, 목록에 나타난 파라미터들이 다음과 같이 설정될 수 있다:

M = 512 샘플(또는 44.1kHz에서 11.6msec)

P = 0 샘플(중첩없음)

상기 목록의 값들은 실험적으로 결정되었으며 일반적으로 오디토리 이벤트의 위치와 기간을 충분한 정확도로 식별하는 것으로 밝혀졌다. 그러나, P의 값을 제로 샘플(중첩없음) 보다도 256 샘플(50% 중첩)로 설정하면 일부 찾기 어려운 이벤트들을 식별하는데 유용한 것으로 밝혀졌다. 수많은 서로 다른 유형의 윈도우들은 윈도우잉으로 인한 스펙트럼 가공물을 최소화시키는데 사용되지만, 스펙트럼 프로파일 연산에 사용된 윈도우는 M-포인트 해닝, 카이져-베셀 또는 다른 적절한, 바람직하게는 비-지각, 윈도우이다. 상기 지시된 값들과 해닝 윈도우형은 폭넓은 실험 분석후 선택된 것으로서 그것들은 넓은 범위의 오디오 재제에 대한 우수한 결과를 제공하는 것으로 나타낸다. 비-직각 윈도우잉은 주로 저주파수 콘텐츠를 지닌 오디오 신호의 프로세싱을 위해 바람직하다. 직각 윈도우잉은 이벤트의 부정확한 검출을 야기하는 스펙트럼 가공물을 생성한다. 일정한 인코더/디코더(코덱) 어플리케이션과 달리 전반적인 중첩/부가 프로세스가 일정한 레벨을 제공하여야 하지만, 그러한 제약은 본문에 적용되지 않으며 윈도우는 그 시간/주파수 분해능과 저지-대역 삭제와 같은 특성을 위해 선택된다.

서브단계(5-1)에서, 각 M-샘플 블럭의 스펙트럼은 데이터를 M-포인트 해닝, 카이저-베셀 또는 다른 적절한 윈도우로 윈도우잉하며, M-포인트 패스트 퓨리에 변환을 사용하여 주파수 도메인으로 컨버트하고, FFT 계수의 크기를 계산하여 연산된다. 결과적인 데이터가 정규화되어 최대 진폭이 단위체로 설정되고, M개의 정규화된 어레이가 로그 도메인으로 컨버트된다. 상기 어레이는 로그 도메인으로 컨버트될 필요가 없지만, 컨버젼은 서브단계(5-2)에서 차 측정의 계산을 간략하게 한다. 더욱이, 로그 도메인이 사람 청각 시스템의 특성에 더 밀접히 일치한다. 결과적인 로그 도메인 값들은 마이너스 무한대에서 제로의 범위를 갖는다. 실시예에서, 낮은 제한이 값들의 범위에 부가될 수 있다; 상기 제한이, 예를 들면 -60dB로 고정되거나 또는 주파수 의존적이어서 저주파수 또는 매우 고주파수에서 조용한 사운드의 더 낮은 가청도를 반영한다. (FFT가 네거티브뿐만 아니라 포지티브 주파수를 표시한다는 점에서 어레이의 사이즈를 M/2로 감소시키는 것이 가능함에 유의한다).

서브단계(5-2)는 인접한 블럭들의 스펙트럼간의 차 측정을 계산한다. 각 블럭에 대해, 서브단계(5-1)에서 각각의 M(log) 스펙트럼 계수들이 선행 블럭에 대해 해당 계수에서 감하여지고, 차이의 크기가 계산된다(부호는 무시됨). 이러한 M 차이가 그후에는 하나의 수로 합산된다. 그러므로, 오디오의 인접 타임 세그먼트에 대해, Q 블럭들을 포함한다면, 상기 결과는, 각 블럭에 대해 하나씩, Q 포지티브 개수의 어레이이다. 수가 클 수록 블럭이 선행 블럭의 스펙트럼과 더 상이하다. 이러한 차 측정은 또한 차 측정을 합산에 사용된 스펙트럼 계수(이 경우 M 계수)의 수로 나누어 스펙트럼 계수당 평균 차로서 표현될 수 있다.

서브단계(5-3)는 임계값을 갖는 서브단계(5-2)로부터 차 측정치의 어레이에 임계치를 적용하여 오디토리 이벤트 경계의 위치를 식별한다. 차 측정치가 임계를 초과할 때, 스펙트럼의 변동이 새로운 이벤트의 신호에 충분한 것으로 간주되고 변동의 블럭 넘버가 이벤트 경계로서 저장된다. 상기 주어진 M과 P값에 대해 그리고 dB 단위로 표현된 로그 도메인 값(서브단계(5-1))에 대해, 임계치는 만일 완전한 크기의 FFT(거울상 부분을 포함)가 비교된다면 2500으로 설정되거나 또는 만일 FFT의 1/2이 비교된다면 1250으로 설정된다(상기 언급된 것처럼, FFT는 네거티브 이외에 포지티브 주파수를 표시한다 - FFT의 크기에 대해, 하나는 다른 것의 거울상이다). 이 값은 실험적으로 선택되었으며 그것은 양호한 오디토리 이벤트 경계 검출을 제공한다. 이 파라미터 값은 이벤트의 검출을 감소(임계를 증가) 또는 증가(임계를 감소)시키도록 변동된다.

Q 블럭들(사이즈 M 블럭들)로 이루어진 오디오 신호에 대해, 도 5의 단계(5-3)의 출력이 단계(5-4)에서 오디토리 이벤트 경계의 위치를 나타내는 정보의 B(q) 어레이로서 저장 및 포맷되며, 여기서 q = 0, 1, .., Q-1이다. M=512 샘플의 블럭 사이즈, P = 0 샘플의 중첩 및 44.1kHz의 신호-샘플링 레이트에 대해, 오디토리 신 분석 함수부(2)는 1초당 대략 86값을 출력한다. 바람직하게는, 어레이 B(q)가 시그 너쳐로서 저장되므로, 그 기본적 형태에서, 단계(5-5)의 선택적인 지배적 서브대역 주파수 정보없이, 오디오 신호의 시그너쳐는 오디토리 이벤트 경계의 스트링을 표시하는 어레이 B(q)이다.

지배적인 서브대역을 식별(선택적임)

각 블럭에 대해, 도 5의 프로세싱에서 선택적 부가 단계는 블럭의 지배적인 주파수 "서브대역"을 지시하는 오디오 신호에서 정보를 추출하는 것이다(주파수 도메인으로 각 블럭에 있는 데이터의 컨버전이 주파수 서브대역으로 분할된 정보의 결과를 나타낸다). 이 블럭 기반 정보가 오디토리 이벤트 기반 정보로 컨버트되므로, 지배적인 주파수 서브대역이 매 오디토리 이벤트로 식별된다. 매 오디토리 이벤트에 대한 그러한 정보는 오디토리 이벤트 자체에 관한 정보를 제공하며 오디오 신호의 더 상세하며 독특한 감축된 정보 표시를 제공시 유용하다. 지배적인 서브대역 정보의 이용은 오디오가 서브대역으로 쪼개지고 오디토리 이벤트들이 각 서브대역에 대해 결정되는 경우보다도 전체 대역폭 오디오의 오디토리 이벤트를 결정하는 경우에 더 적절하다.

지배적인(가장 큰 진폭) 서브대역은 다수의 서브대역들, 3 또는 4에서 선택되며, 예를 들면, 그것은 사람 귀가 가장 민감한 주파수의 범위 또는 대역내에 있다. 이와 달리, 서브대역들을 선택하기 위해 다른 기준이 사용될 수 있다. 스펙트럼은, 예를 들면, 3개 서브대역으로 분할될 수 있다. 서브대역의 바람직한 주파수 범이는 다음과 같다(이러한 특정 주파수들이 중요하지는 않다):

서브대역 1 301Hz 내지 560Hz

서브대역 2 560Hz 내지 1938Hz

서브대역 3 1938Hz 내지 9948Hz

지배적인 서브대역을 결정하기 위해서, 크기 스펙트럼(또는 파워 크기 스펙트럼)의 제곱이 각 서브대역에 대해 합산된다. 각 서브대역에 대한 합산 결과가 계산되고 가장 큰 합이 선택된다. 서브대역들은 또한 가장 큰 합산을 선택하기 이전에 가중될 수 있다. 상기 가중 단계는 각 서브대역에 대한 합산을 서브대역의 스펙트럼 값의 수로 나누는 형태를 취하거나, 또는 이와 달리 덧셈 또는 곱셈의 형태를 취하여 다른 것보다 대역의 중요성을 강조한다. 이는 일부 서브대역들이 다른 서브대역들보다도 평균하여 더 많은 에너지를 갖지만 지각적으로 덜 중요하다.

Q 블럭으로 이루어진 오디오 신호를 고려하면, 지배적인 서브대역 프로세싱의 출력은 각 블럭의 지배적인 서브대역을 나타내는 정보의 DS(q) 어레이이다(q=0, 1,.., Q-1). 바람직하게는, 어레이 DS(q)가 어레이 B(q)와 함께 시그너쳐에 포맷 및 저장된다. 그러므로, 선택적인 지배적인 서브대역 정보와 함께, 오디오 신호의 시그너쳐는 2개 어레이 B(q)와 DS(q)이며, 각각 오디토리 이벤트 경계의 스트링과 각 서브대역내의 지배적인 주파수 서브대역을 나타내며, 이로부터 각 오디토리 이벤트에 대한 지배적인 주파수 서브대역이 결정된다. 그러므로, 이상적인 예에서, 상기 2개 어레이는 다음의 값을 가질 수 있다(본 케이스에 대해 3개의 가능한 지배적인 서브대역이 있다).

1 0 1 0 0 0 1 0 0 1 0 0 0 0 0 1 0 (이벤트 경계)

1 1 2 2 2 2 1 1 1 3 3 3 3 3 3 1 1 (지배적인 서브대역)

대부분의 경우에, 지배적인 서브대역은 본 예에 나타난 것처럼 각 오디토리 이벤트내에 동일하게 남거나, 또는 이벤트내의 모든 블럭에 대해 균일하지 않다면 평균값을 갖는다. 그러므로, 지배적인 서브대역은 각 오디토리 이벤트에 대해 결정되며 어레이 DS(q)는 동일한 지배적인 서브대역이 이벤트내의 각 블럭에 할당됨을 제공하도록 수정된다.

도 5의 프로세스는 도 7, 8 및 9의 등가 어레인지먼트에 의해 더 일반적으로 표시될 수 있다. 도 7에서, 오디오 신호는, 그 각각이 개별 및 별개로 인식되는 경향이 있는, 오디오 신호를 오디토리 이벤트로 분할하는 "오디토리 이벤트를 식별" 함수 또는 단계(7-1)에 그리고 선택적인 "오디토리 이벤트의 특성을 식별" 함수 또는 단계(7-2)에 병렬로 적용된다. 도 5의 프로세스는 오디오 신호를 오디토리 이벤트로 분할하는데 사용되거나 또는 몇몇 기타 적절한 프로세스가 사용될 수 있다. 오디토리 이벤트 정보는, 함수 또는 단계(7-1)에 의해 결정된 오디토리 이벤트 경계의 식별표로, 바람직하다면 "저장 및 포맷" 함수 또는 단계(7-3)에 의해 저장 및 포맷된다. 선택적인 "특성 식별" 함수 또는 단계(7-3)는 또한 오디토리 이벤트 정보를 수신한다. 상기 "특성 식별" 함수 또는 단계(7-3)는 오디토리 이벤트의 일부 또는 모두를 1개 이상의 특성으로 특성화시킨다. 그러한 특성은 도 5의 프로세스와 관련하여 기술된 것처럼 오디토리 이벤트의 지배적인 서브대역의 식별표를 포함한다. 상기 특성은, 예를 들면, 오디토리 이벤트의 파워의 척도, 오디토리 이벤트의 크기 척도, 오디토리 이벤트의 스펙트럼 평탄도의 척도, 및 오디토리 이벤트가 대체로 조용한지를 포함하는 1개 이상의 MPEG-7 오디오 디스크립터를 또한 포함한다. 상기 특성은 오디토리 이벤트가 과도현상을 포함하는지와 같은 다른 특성을 또한 포함할 수 있다. 1개 이상의 오디토리 이벤트의 특성들은 또한 "저장 및 포맷" 함수 또는 단계(7-3)에 의해 수신되며 오디토리 이벤트 정보와 함께 포맷된다.

도 7의 어레인지먼트에 대한 대안이 도 8과 9에 나타나있다. 도 8에서, 오디오 입력 신호는 "특성 식별" 함수 또는 단계(8-3)에 직접적으로 적용되지 않지만, "오디토리 이벤트 식별" 함수 또는 단계(8-1)로부터 정보를 수신한다. 도 5의 어레인지먼트는 그러한 어레인지먼트의 특정예이다. 도 9에서, 함수 또는 단계(9-1, 9-2 및 9-3)가 직렬로 배열되어 있다.

이러한 실시예들의 상세한 사항이 중요하지는 않다. 오디오 신호의 연속 타임 세그먼트의 스펙트럼 콘텐츠를 계산하며, 연속 타임 세그먼트간의 차를 계산하고, 그러한 연속 타임 세그먼트간의 스펙트럼 프로파일 콘텐츠의 차가 임계를 초과할 때 연속 타임 세그먼트간의 각 경계에서 오디토리 이벤트 경계를 설정하는 다른 방식이 사용될 수 있다.

본 발명의 다른 변형 및 수정들과 그 다양한 양태들의 구현예가 당업자에게 자명할 것이며, 본 발명이 개시된 특정 실시예로 제한되지 않음이 이해되어야 한다. 따라서, 본 발명과 모든 수정, 변형, 또는 본문에 개시 및 청구된 기본적인 주요 원리의 사상 및 범위내에 있는 등가물에 의해 보호됨이 고려된다.

본 발명과 그 다양한 양태들은 디지털 신호 프로세서에서 실행되는 소프트웨어 함수, 프로그래밍된 범용 디지털 컴퓨터, 및/또는 특정 디지털 컴퓨터로서 구현될 수 있다. 아날로그와 디지털 신호 스트림간의 인터페이스는 적절한 하드웨어로 및/또는 소프트웨어 및/또는 펌웨어의 함수로 실행될 수 있다.

Claims

다중 채널의 디지털 오디오 신호들 각각을 오디토리 이벤트들(auditory events)로 분할하는 방법으로서, 상기 오디토리 이벤트들 각각은 개별적이고 별개로 인식되는 경향이 있는 분할 방법에 있어서,

상기 채널들 각각에서 오디오 신호의 시간에 대한 스펙트럼 콘텐츠(spectral content)에서의 변화들을 검출하는 단계; 및

각각의 채널에서, 오디오 신호에 있는 오디토리 이벤트 경계들의 연속적인 연속물(continuous succession)을 식별하는 단계로서, 임계를 초과하는 시간에 대한 스펙트럼 콘텐츠에서의 모든 변화들이 경계를 규정하고, 여기서 각각의 오디토리 이벤트는 인접 경계들 사이에 있는 오디오 세그먼트이고 그러한 인접 경계들 사이에는 하나의 오디토리 이벤트만이 있으며, 각각의 경계는 선행 이벤트의 종결과 다음 이벤트의 시작을 나타내어 오디토리 이벤트들의 연속적인 연속물이 획득되고, 여기서 오디토리 이벤트 경계들, 오디토리 이벤트들 및 오디토리 이벤트의 특성들 중 어느 것도 오디토리 이벤트 경계들의 연속적인 연속물을 식별하고 오디토리 이벤트들의 연속적인 연속물을 획득하기 전에 알려지지 않는 식별 단계;

를 포함하는 것을 특징으로 하는 분할 방법.
제1항에 있어서, 임의의 채널에서 오디토리 이벤트 경계의 식별에 응답하여 채널들에 관한 결합된 오디토리 이벤트 경계를 식별하는 단계를 더 포함하는 것을 특징으로 하는 분할 방법.
제2항에 있어서, 각각의 채널의 오디오가 공간에서 각각의 방향을 표시하는 것을 특징으로 하는 분할 방법.
제2항에 있어서, 각각의 채널의 오디오가 오디오 신호의 주파수 대역을 표시하는 것을 특징으로 하는 분할 방법.
제1항에 있어서, 각각의 채널의 오디오가 공간에서 각각의 방향을 표시하는 것을 특징으로 하는 분할 방법.
제1항에 있어서, 각각의 채널의 오디오가 오디오 신호의 주파수 대역을 표시하는 것을 특징으로 하는 분할 방법.
제1항 내지 제6항 중 어느 한 항에 있어서, 각각의 채널의 오디오 신호의 시간에 대한 스펙트럼 콘텐츠에서의 변화들을 검출하는 상기 검출 단계는 상기 오디오 신호를 시간 블록들로 분할하는 단계와 각각의 블록의 데이터를 주파수 영역으로 변환하는 단계를 포함하는 것을 특징으로 하는 분할 방법.
삭제
삭제
제7항에 있어서, 각각의 채널의 오디오 신호의 시간에 대한 스펙트럼 콘텐츠에서의 변화들을 검출하는 상기 검출 단계는 각각의 채널의 상기 오디오 신호의 연속 시간 블록들 사이의 스펙트럼 콘텐츠에서의 변화들을 검출하는 것을 특징으로 하는 분할 방법.
제10항에 있어서, 연속 시간 블록들의 오디오 데이터가 계수들로 표시되고, 상기 각각의 채널의 오디오 신호의 연속 시간 블록들 사이의 스펙트럼 콘텐츠에서의 변화들을 검출하는 것은 인접 블록의 해당 계수들에서 블록의 계수들을 공제하는 것을 포함하는 것을 특징으로 하는 분할 방법.
제11항에 있어서, 상기 각각의 채널의 오디오 신호의 연속 시간 블록들 사이의 스펙트럼 콘텐츠에서의 변화들을 검출하는 것은 인접 블록의 해당 계수들의 크기에서 블록의 계수들의 크기를 공제하여 산출된 차이들의 크기들을 합산하는 것과 상기 합산된 크기들을 임계와 비교하는 것을 더 포함하는 것을 특징으로 하는 분할 방법.
제12항에 있어서, 상기 합산된 크기들이 상기 임계를 초과할 때 오디토리 이벤트 경계가 식별되는 것을 특징으로 하는 분할 방법.
제7항에 있어서, 하나 이상의 오디토리 이벤트에 특성을 할당하는 단계를 더 포함하는 것을 특징으로 하는 분할 방법.
제14항에 있어서, 하나 이상의 오디토리 이벤트에 할당되는 특성은 상기 오디토리 이벤트의 주파수 스펙트럼의 지배적인 서브대역, 상기 오디토리 이벤트의 파워의 척도, 상기 오디토리 이벤트의 진폭의 척도, 상기 오디토리 이벤트의 스펙트럼 평탄도의 척도, 상기 오디토리 이벤트가 조용한지 여부 및 상기 오디토리 이벤트가 과도현상을 포함하는지 여부 중에서 하나 이상을 포함하는 것을 특징으로 하는 분할 방법.
제15항에 있어서, 상기 오디토리 이벤트에 할당되는 특성들의 식별과 오디토리 이벤트 경계들을 포맷하고 저장하는 단계를 더 포함하는 것을 특징으로 하는 분할 방법.
제7항에 있어서, 상기 오디토리 이벤트 경계들을 포맷하고 저장하는 단계를 더 포함하는 것을 특징으로 하는 분할 방법.
제7항에 있어서, 상기 주파수 영역 데이터를 정규화시키는 단계를 더 포함하는 것을 특징으로 하는 분할 방법.
제18항에 있어서, 각각의 채널의 오디오 신호의 시간에 대한 스펙트럼 콘텐츠에서의 변화들을 검출하는 상기 검출 단계는 각각의 채널의 상기 오디오 신호의 연속 시간 블록들 사이의 스펙트럼 콘텐츠에서의 변화들을 검출하는 것을 특징으로 하는 분할 방법.
제19항에 있어서, 각각의 채널의 오디오 신호의 연속 시간 블록들 사이의 진폭에서의 변화들을 검출하는 단계를 더 포함하는 것을 특징으로 하는 분할 방법.
제20항에 있어서, 상기 진폭에서의 변화들은 주파수 영역 데이터가 정규화되는 정도에 따라 검출되는 것을 특징으로 하는 분할 방법.
제7항에 있어서, 각각의 채널의 오디오 신호의 시간에 대한 스펙트럼 콘텐츠에서의 변화들을 검출하는 상기 검출 단계는 주파수 영역 데이터를 정규화하는 단계와 상기 정규화된 데이터를 로그 영역으로 변환하는 단계를 더 포함하는 것을 특징으로 하는 분할 방법.
삭제
제22항에 있어서, 각각의 채널의 오디오 신호의 시간에 대한 스펙트럼 콘텐츠에서의 변화들을 검출하는 상기 단계는 각각의 채널의 상기 오디오 신호의 연속 시간 블록들 사이의 진폭에서의 변화들을 검출하는 단계를 더 포함하는 것을 특징으로 하는 분할 방법.
제24항에 있어서, 상기 진폭에서의 변화들은 주파수 영역 데이터가 정규화되는 정도에 따라 검출되는 것을 특징으로 하는 분할 방법.