KR101243687B1

KR101243687B1 - 오디오 데이터를 처리하기 위한 디바이스 및 방법, 컴퓨터프로그램 요소 및 컴퓨터-판독가능한 매체

Info

Publication number: KR101243687B1
Application number: KR1020077014295A
Authority: KR
Inventors: 다니엘 쇼벤; 마치엘 룬; 마틴 맥키니
Original assignee: 코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date: 2004-11-23
Filing date: 2005-11-16
Publication date: 2013-03-14
Also published as: DE602005009244D1; WO2006056910A1; JP5144272B2; JP2008521046A; EP1817938A1; CN101065988B; US20090157575A1; ATE406075T1; US7895138B2; CN101065988A; EP1817938B1; KR20070086580A

Abstract

오디오 데이터 처리 디바이스(100)는 제 2 수의 오디오 데이터 입력 신호들(103; x₁ ... x_N)에 기초하여 제 1 수의 오디오 데이터 출력 신호들(102; z₁ ... z_M)을 생성하도록 적응된 오디오 재분배기(101), 및 제 2 수의 오디오 데이터 입력 신호들(103; x₁ ... x_N)로부터 제 1 수의 오디오 데이터 출력 신호들(102; z₁ ... z_M)을 생성하는 오디오 재분배기(101)를 제어하기 위한, 점진적으로 변화하는 제어 신호들(P)을 제 2 수의 오디오 데이터 입력 신호들(103; x₁ ... x_N)이 분류되는 오디오 콘텐트의 유형들에 대한 점진적으로 변화하는 의존성에 따라 생성하도록 적응된 오디오 분류기(104)를 포함한다.

오디오 데이터, 분류, 스피커

Description

오디오 데이터를 처리하기 위한 디바이스 및 방법, 컴퓨터 프로그램 요소 및 컴퓨터-판독가능한 매체{A DEVICE AND A METHOD TO PROCESS AUDIO DATA, A COMPUTER PROGRAM ELEMENT AND A COMPUTER-READABLE MEDIUM}

본 발명은 오디오 데이터 처리 디바이스에 관한 것이다.

본 발명은 또한 오디오 데이터를 처리하는 방법에 관한 것이다.

또한 본 발명은 프로그램 요소에 관한 것이다.

또한, 본 발명은 컴퓨터-판독가능한 매체에 관한 것이다.

많은 오디오 녹음들은 오늘날 스테레오 또는 소위 5.1-서라운드 포맷으로 이용 가능하다. 이들 녹음들의 재생을 위해서는 특정 표준 스피커 설정뿐만 아니라, 스테레오의 경우 두 개의 라우드스피커(loudspeaker)들, 또는 5.1-서라운드의 경우 6개의 라우드스피커들이 필요하다.

그러나, 많은 실제의 경우들에서, 라우드스피커들의 수 또는 설정은 고품질 오디오 재생을 달성하기 위한 요구사항들을 충족하지 않는다. 그러한 이유로 인해, 오디오 재분배(redistribution) 시스템들이 개발되고 있다. 그러한 오디오 재분배 시스템은 다수의 N개의 입력 채널들과 다수의 M개의 출력 채널들을 갖고 있다. 따라서, 세 가지 경우들이 가능하다:

제 1 경우에서, M은 N보다 크다. 이것은 저장된 오디오 채널들보다 더 많은 라우드스피커들이 재생을 위해 사용되는 것을 의미한다.

제 2 경우에서, M과 N은 동일하다. 이 경우, 동일한 수의 입력 및 출력 채널들이 존재한다. 그러나, 출력을 재생하기 위한 스피커 설정은 입력으로서 제공된 데이터를 따르지 않으며, 이는 재분배를 필요로 한다.

제 3 시나리오에 따르면, M은 N보다 작다. 이 경우, 재생 채널들보다 많은 오디오 채널들이 이용가능하다.

제 1 경우의 예는 스테레오에서 5.1-서라운드로의 변환이다. 알려진 이러한 유형으로 시스템들로는 Dolby Pro Logic^TM(Gundry, Kenneth "A new active matrix decoder for surround sound", In Proc. AES, 19^th International Conference on Surround Sound, June 2001 참조) 및 Circle Surround^TM(US 6,198,827: 5-2-5 matrix system 참조)가 있다. 이러한 유형의 또 다른 기술은 미국 특허 US 6,496,584에 개시되어 있다.

제 2 경우의 예는 중앙(center) 신호를 좌/우 채널에 부가함으로써, 5.1-시스템에서 중앙 스피커의 폭을 개선한다. 이는 Dolby Pro Logic II^TM의 음악 모드에서 이루어진다. 또 다른 예는 스테레오-확장(stereo-widening)이며, 여기서는 작은 스피커 베이스(speaker base)가 사용된다(예, 텔레비젼 시스템들에서). Philips^TM 사 내에서는 이러한 목적을 위해 Incredible Stereo^TM로 불리는 기술이 개발되고 있다.

제 3 경우에서는, 소위 다운-믹싱(down-mixing)이 이용된다. 이러한 다운-믹싱은 가능한 한 본래의 공간 이미지를 유지하기 위해, 스마트한 방법으로 행해질 수 있다. 이러한 기술의 예로는 Philips^TM사의 Incredible Surround Sound^TM가 있으며, 여기서 5.1-서라운드 오디오는 두 개의 라우드 스피커들을 통해 재생된다.

두 개의 상이한 접근들이 상기 예들에서 언급한 바와 같이, 재분배로 알려져 있다. 먼저, 재분배는 고정된 매트릭스에 기초할 수 있다. 둘째로, 재분배는 예컨대, 상관관계(correlation)와 같은 채널간(inter-channel) 특성들에 의해 제어될 수 있다.

Incredible Stereo^TM와 같은 기술은 제 1 경우의 예이다. 이러한 접근의 단점은 스피치(speech) 신호들과 같이 중앙에서 패닝(pan)된 특정 오디오 신호들이 부정적으로 영향을 받는다는 것이다. 즉, 이에 따라 재생된 오디오의 품질이 불충분할 수 있다. 이러한 오디오 품질의 저하를 방지하기 위해, 채널들 간의 상관관계에 기초한 새로운 기술이 개발되었다(WO 03/049497 A2 참조). 이 기술은 중앙에서 패닝된 스피치가 좌/우 채널간에 강한 상관관계를 가진다고 가정한다.

Dolby Pro Logic Ⅱ^TM는 채널간 특성들에 기초하여 입력 신호들을 재분배한다. 그러나, Dolby Pro Logic Ⅱ^TM는 두 개의 상이한 모드들, 영화 및 음악을 가진다. 상이한 재분배들은 사용자에 의해 선택된 설정에 의존하여 제공된다. 이들 상이한 모드들은 상이한 오디오 콘텐트들이 상이한 최적 설정들을 가지기 때문에 이용 가능하다. 예를 들어, 영화의 경우 종종 중앙 채널에서만 스피치를 갖는 것이 바람직하지만, 음악의 경우 중앙 채널에서만 보컬(vocals)을 갖는 것은 바람직하지 않다. 여기서는 팬텀 중앙(phantom center) 소스가 선호된다.

따라서, 재분배 기술들에 관한 논의된 종래 기술은 상이한 설정들이 상이한 오디오 콘텐트들에 유리하다는 단점이 있다.

일본 특허 JP-08037700은 음악 신호들의 음악 카테고리를 특정하는 음악 카테고리 구별부를 가진 음장(sound field) 보정 회로를 개시하고 있다. 지정된 음악 카테고리에 기초하여, 모드-설정 마이크로 컨트롤러는 대응하는 시뮬레이션 모드를 설정한다.

미국 특허 US 2003/0210794 Al은 스테레오 소스의 유형을 결정하는 마이크로컴퓨터를 가진 매트릭스 서라운드 디코딩 시스템을 개시하고 있으며, 마이크로컴퓨터의 출력은 매트릭스 서라운드 디코더의 출력 모드를 이에 따라 결정된 스테레오포닉(stereophonic) 소스의 유형에 대응하는 모드로 스위칭하기 위해 매트릭스 서라운드 디코더로 입력된다.

그러나, JP-08037700 및 US 2003/0210794 Al에 따르면, 오디오 콘텐트의 카 테고리는 이항형(binary-type) 결정("예" 또는 "아니오")에 의해 추정된다. 즉, 오디오 발췌(expert)는 상이한 음악 장르들로부터의 요소들을 가지는 시나리오에서조차도 복수의 오디오 장르들 중에서 특정 하나가 존재하는 것으로 간주된다. 이는 JP-08037700 및 US 2003/0210794 Al 중 임의의 것에 따라 처리된 오디오 데이터의 재생 품질의 저하를 가져올 수 있다.

본 발명의 목적은 보다 높은 정도의 유연성을 가진 오디오 데이터 처리를 제공하는 것이다.

전술한 목적을 달성하기 위해, 독립 청구항에 따른 오디오 데이터 처리 디바이스, 오디오 데이터 처리 방법, 프로그램 요소, 및 컴퓨터-판독 가능한 매체가 제공된다.

오디오 데이터 처리 디바이스는 제 2 수의 오디오 데이터 입력 신호들에 기초하여 제 1 수의 오디오 데이터 출력 신호들을 생성하도록 적응된 오디오 재분배기를 포함한다. 또한, 오디오 데이터 처리 디바이스는 오디오 재분배기들을 제어하기 위한 점진적으로 변화하는 제어 신호들(gradually sliding control signals)을 생성하도록 적응된 오디오 분류기를 포함하며, 이는 그에 따라 제 2 수의 오디오 데이터 입력 신호들이 분류되는 오디오 콘텐트의 유형들에 대한 점진적으로 변화하는 의존성에 따라, 제 2 수의 오디오 데이터 입력 신호들로부터 제 1 수의 오디오 데이터 출력 신호들을 생성한다.

또한, 본 발명은 제 2 수의 오디오 데이터 입력 신호들에 기초하여 제 1 수의 오디오 데이터 출력 신호들을 생성함으로써, 오디오 데이터 입력 신호들을 재분배하는 단계; 및 제 2 수의 오디오 데이터 입력 신호들로부터 제 1 수의 오디오 데이터 출력 신호들을 생성하기 위해 재분배를 제어하기 위한, 오디오 데이터 입력 신호들(103; x₁ ... x_N)이 분류되는 오디오 콘텐트의 유형들에 대한 점진적으로 변화하는 의존성에 따라, 점진적으로 변화하는 제어 신호들을 생성하도록 상기 오디오 데이터 입력 신호들을 분류하는 단계를 포함하는 오디오 데이터를 처리하는 방법을 제공한다.

이 외에도, 프로그램 요소가 제공되는데, 이것은 프로세서에 의해 실행될 때, 전술한 방법 단계들을 포함하는 오디오 데이터 처리하는 방법을 실행하도록 적응된다.

또한, 컴퓨터-판독가능한 매체가 제공되며, 이는 컴퓨터 프로그램이 저장되어 프로세서에 의해 실행될 때, 전술한 방법 단계들을 갖는 오디오 데이터를 처리하는 방법을 실행하도록 적응된다.

본 발명에 따른 오디오 처리는 컴퓨터 프로그램, 즉 소프트웨어, 또는 하나 이상의 특별한 전자 최적 회로들 즉, 하드웨어로, 또는 하이브리드 형태로 즉, 소프트웨어 및 하드웨어 구성요소들에 의해 실현될 수 있다.

본 발명의 특징적 특성들은 특히 본 발명에 따른 오디오 재분배가 특정 오디오 발췌가 어느 분류(예컨대, "클래식" 음악, "재즈", "팝", "스피치" 등)를 갖는지에 대해, 부정확한 이항형 "예"-"아니오" 결정을 제거함으로써 관련 기술과 비교하여 상당히 개선된다는 장점을 갖는다. 대신, 오디오 재분배기는 점진적으로 변화하는 제어 신호들에 의해 제어되는데, 이 점진적으로 변화하는 제어 신호들은 오디오 데이터 입력 신호들의 세밀한 분류에 의존한다. 본 발명에 따른 디바이스들 및 방법은 오디오 발췌를 가장 잘 맞지만, 오디오 신호들의 상이한 양상들 및 특성들, 예를 들면 클래식 음악 특성들과 팝 음악 특성들의 기여들을 고려하는, 다수의 고정된 유형들의 오디오 콘텐트로 간략하게 분류하지 않는다.

따라서, 오디오 발췌는 복수의 상이한 유형들의 오디오 콘텐트(상이한 오디오 종류들)로 분류될 수 있으며, 여기서 가중 인자(weighting factor)들은 복수의 유형들의 오디오 콘텐트 각각의 양적 기여들을 정의할 수 있다. 따라서, 오디오 발췌는 복수의 오디오 클래스들에 할당될 수 있다.

그러므로, 제어 신호들은 상이한 유형들의 오디오 콘텐트 중 2개 이상의 그러한 기여들을 반영하고, 오디오 신호들이 상이한 유형들의 콘텐트, 예컨대, 상이한 오디오 장르들에 속하는 정도에 또한 의존한다. 본 발명에 따르면, 제어 신호들은 연속적/무한대 변수이며, 오디오 입력의 속성들에서의 약간의 변화는 항상 제어 신호(들)의 값(들)의 작은 변화를 야기한다.

즉, 본 발명은 어떤 특정한 콘텐트 유형 또는 장르가 현재의 오디오 데이터 입력 신호들에 할당되는지 조악한 이항 결정을 취하지 않는다. 대신, 오디오 입력 신호들의 상이한 특성들이 제어 신호들에서 점진적으로 고려된다. 따라서, "재즈" 요소들 및 "팝" 요소들의 기여들을 가진 음악 발췌는 순수 "재즈" 음악 또는 순수 "팝" 음악으로서 취급되지 않고, "팝" 음악 요소 기여들 및 "재즈" 음악 요소 기여들의 정도에 의존할 것이며, 오디오 재분배기를 제어하기 위한 제어 신호는 입력 신호들의 "재즈" 및 "팝" 음악 특성 모두를 반영할 것이다. 이러한 측정으로 인해, 제어 신호들은 인입하는 오디오 신호들의 특성에 대응할 것이며, 따라서, 오디오 재분배기는 이들 오디오 신호들을 정확히 처리할 수 있다. 점진적으로 스케일링되는 제어 신호들의 공급은 오디오 재분배기의 기능이 처리될 오디오 입력 데이터의 상세한 특성과 일치하게 하며, 이들 일치는 오디오 신호의 특성의 매우 작은 변화에도 민감하게 제어하도록 해준다. 따라서 본 발명에 따른 측정들은 오디오 입력 데이터의 매우 민감한 실시간 분류를 제공하며, 이는 확률들, 백분율들, 가중 인자들 또는 오디오 콘텐트의 유형을 특성화하는 다른 파라미터들이 오디오 재분배기에 제어 정보로서 제공되어 오디오 데이터의 재분배가 오디오 데이터의 유형에 맞춰질 수 있도록 한다.

분류기는 현재의 오디오 발췌의 특징적 특성들을 결정하기 위해 오디오 입력 데이터를 자동으로 분석할 수 있다(예컨대, 분광 분석을 수행). 미리 결정된(예컨대, 엔지니어의 노-하우에 기초하여) 또는 애드-혹 규칙들(예컨대, 전문가 규칙들)은 어떻게 오디오 발췌가 분류되는지, 즉 오디오 발췌가 어떤 유형들의 오디오 콘텐트로(및 그 연관 부분들이 얼마인지) 분류되어야 하는지에 대한 결정을 위한 기초로서 오디오 분류기에 도입될 수 있다.

오디오 부분의 특성은 단일의 발췌 안에서 빠르게 변화할 수 있기 때문에, 점진적으로 변화하는 제어 신호들은 오디오 데이터의 전송 및 흐름 동안 계속해서 조정되거나 또는 업데이트될 수 있고, 따라서 음악의 특성의 변경들은 제어 신호들의 변경들을 초래한다. 본 발명에 따른 시스템은 음악이 장르 A, 장르 B, 또는 장르 C로서 분류되어야 하는지 여부에 대한 예리한 선택 결정을 하지 않는다. 대신, 확률 값들은 본 발명에 따라 추정되며, 이 확률 값들은 현재의 오디오 데이터가 특정 장르(예컨대, "팝" 음악, "재즈" 음악, "클랙식" 음악, "스피치" 등)로 분류될 수 있는 정도를 반영한다. 따라서, 제어 신호는 "비례하는(pro rata)"에 기초하여 생성되며, 여기서 상이한 기여들은 오디오 부분의 상이한 특성들로부터 유도된다.

따라서, 본 발명은 오디오 분류기에 의해 제어된 오디오 재분배 시스템을 제공하며, 여기서 상이한 오디오 콘텐트들은 상이한 설정들을 산출하고, 따라서 오디오 분류기는 오디오 콘텐트의 차이들에 의존하여 오디오 재분배기 기능을 최적화한다.

재분배는 오디오 분류기에 의해 제어되며, 예컨대, McKinney, Martin, Breebaart, Jeroen에 의한, "Features for Audio and Music Classification", 4th International Conference on Music Information Retrieval, Izmir, 2003 에 의해 개시된 것과 같은 오디오 분류기에 의해 제어된다. 그러한 분류기는 오디오 콘텐트의 상이한 클래스들을 구별하기 위해, 기준 오디오 신호들 또는 오디오 데이터 입력 신호들에 의해 (사용 전 및/또는 사용 동안) 연습(train)될 수 있다. 그러한 클래스들은 예컨대, "팝" 음악, "클래식" 음악, "스피치" 등을 포함한다. 즉, 본 발명에 따른 분류기는 발췌가 상이한 클래스들에 속하는 확률을 결정한다.

그러한 분류기는 오디오 데이터 입력 신호들의 콘텐트 유형에 대해 최적이도록 재분배기를 구현할 수 있다. 이는 채널간 특성들 및 알고리즘 디자이너의 애드-혹 선택들에 기초하는 관련 기술에 따른 접근과 상이하다. 이들 특성들은 저-레벨 특징들의 예들이다. 본 발명에 따른 분류기는 또한 이들 특성들의 종류들을 결정할 수 있지만, 클래스들 간을 구별하기 위해 이들 특성들을 사용하여, 다양한 콘텐트들에 대해 연습될 수 있다.

본 발명의 일 양상은 N개의 입력 신호들(이 입력 신호들은 MP3 데이터와 같이 압축될 수 있다)을 가지며, 이들 입력 신호들을 M개의 출력들에 걸쳐 재분배하는 오디오 재분배기를 제공하며, 여기서 재분배는 오디오를 분류하는 오디오 분류기에 의존한다는 것이 발견된다. 이 분류는 점진적으로 변화하는 방법으로 수행되어야 하며, 따라서 특정 유형의 콘텐트에 대한 부정확하고 때로는 맞지 않는 할당이 회피된다. 대신, 오디오 콘텐트의 상이한 특징들 간을 구별하는, 재분배기를 제어하기 위한 제어 신호들이 점진적으로 생성된다. 그러한 오디오 분류기는 오디오(예로서, 음악, 스피치)의 클래스들 간의 관계에 의존하는 시스템이며, 이는 콘텐트 분석으로부터 자동-적응적 방법으로 학습될 수 있다.

본 발명에 따른 오디오 분류기는 N개의 오디오 입력들로부터 나오는 분류 정보 P를 생성하도록 구성될 수 있으며, M개의 오디오 출력들에 대한 이들 N개의 오디오 입력들의 재분배는 그러한 분류 정보 P에 의존하며, 여기서 분류 정보 P는 확률이 될 수 있다.

본 발명에 따른 오디오 재분배기는 M>N, M<N 또는 M=N이도록 변환을 유연하게 실행하도록 적응될 수 있다. 재분배기는 액티브 매트릭스 시스템일 수 있고, 재분배기는 오디오 디코더가 될 수 있다. 본 발명은 또한 현재의 재분배기들의 다운스트림을 사용하기 위한 개선 요소(retrofit element)로서 구현될 수도 있다.

본 발명의 대표적인 애플리케이션들은 예컨대, Dolby Pro Logic^TM 및 Circle Surround^TM와 같은 기존의 업-믹스 시스템들을 업그레이드하는 것에 관한 것이다. 본 발명에 따른 시스템은 오디오 데이터 처리 능력 및 기능성을 향상시키기 위해 기존의 시스템에 추가될 수 있다. 본 발명의 또 다른 애플리케이션은 화상 스크린과 결합하여 사용하기 위한 새로운 업-믹스 알고리즘들에 관한 것이다. 다른 애플리케이션은 Incredible Surround Sound^TM와 같은 기존의 다운-믹스 시스템들의 개선에 관한 것이다. 이것에 더하여, 본 발명은 기존의 스테레오-확장 알고리즘들을 개선하기 위해 구현될 수 있다.

결과적으로, 오디오 재분배는 현재의 콘텐트 유형에 최적인 그러한 방법으로 행해질 수 있다.

본 발명의 중요한 양상은 시스템의 동작이 시간-의존적일 수 있다는 사실에 관련되며, 이는 예컨대 매일 매일의 콘텐트들 및 메타 데이터(예를 들면, 텔레텍스트)에 기초하여 자체로 최적화를 유지할 수 있기 때문이다. 또한, 오디오 발췌의 상이한 부분들은(예컨대 상이한 데이터 프레임들) 시간-의존적 방법으로 제어 신호들을 업데이트하기 위해 개별적으로 분류될 수 있다. 이러한 기능을 가진 오디오 데이터 처리 디바이스는 모든 사용자에 대해 최적이며, 새로운 콘텐트는 최적화된 방법으로 처리될 수 있다.

본 발명의 또 다른 중요한 양상은 본 발명의 시스템은 예컨대, 채널 업-컨버터를 제어하기 위해, 오디오 콘텐트의 클래스들 또는 유형들을 사용한다는 사실과 관련된다는 것이며, 이들 각각은 특정한 물리적 또는 음향심리적 의미 또는 본성(예, 장르)을 가진다. 그러한 클래스들은 예컨대, 음악과 스피치 간의 구별 또는 예컨대 "팝" 음악, "클래식" 음악, "재즈" 음악, " 민속" 음악 등 간의 훨씬 더 상세한 구별을 포함할 수 있다.

본 발명의 일 양상은 프레임-와이즈(frame- wise) 또는 블록-와이즈(block- wise) 분석을 수행하는 멀티-채널 오디오 재생 시스템과 관련된다. 오디오 분류기에 의해 생성된 오디오 재분배기를 제어하기 위한 제어 정보는 콘텐트 유형에 기초하여 생성된다. 이는 자동적, 최적화 및 오디오의 클래스-특정 재분배를 가능하게 하며, 오디오 종류/장르 정보에 의해 제어된다.

종속 청구항들을 참조하여, 본 발명의 보다 바람직한 실시예들을 이하에서 설명하고자 한다.

다음으로, 본 발명에 따른 오디오 데이터 처리 디바이스의 바람직한 실시예들이 설명될 것이다. 이들 실시예들은 또한 오디오 데이터의 처리 방법, 프로그램 요소, 및 컴퓨터-판독가능한 매체를 위해 사용될 수 있다.

제 1 수의 오디오 데이터 출력 신호들 및/또는 제 2 수의 오디오 데이터 입력 신호들은 1보다 클 수 있다. 즉, 오디오 데이터 처리 디바이스는 멀티-채널 입력 및/또는 멀티-채널 출력 처리를 수행할 수 있다.

본 실시예에 따르면, 제 1 수는 제 2 수보다 크거나 작거나 같을 수 있다. 제 1 수는 N으로, 제 2 수는 M으로 나타내며, 모든 세가지 경우들(M>N, M=N, 및 M<N)이 커버된다. M>N 인 경우, 재생을 위해 사용된 출력 채널들의 수는 입력 채널들의 수보다 크다. 이러한 시나리오의 예는 스테레오에서 5.1 서라운드의 변환이다. M=N 인 경우, 동일한 수의 입력 및 출력 채널들이 존재한다. 그러나, 이 경우에는 제공된 콘텐트는 개별 채널들 중에 재분배된다. M<N인 경우, 재생 채널들보다 많은 입력 채널들이 이용 가능하다. 예컨대, 5.1 서라운드 오디오는 두 개의 라우드스피커들을 통해 재생될 수 있다.

오디오 분류기는 시간-의존적 방법으로 점진적으로 변화하는 제어 신호들을 생성하도록 적응될 수 있다. 본 실시예에 따르면, 제어 신호들은 오디오 데이터 입력 신호들의 전송 동안, 고려되는 오디오 발췌의 상이한 부분들의 특징 또는 속성들의 가능한 변경들에 응답하여 연속적으로 또는 단계적으로(step-wise) 업데이트 될 수 있다. 이러한 제어 신호들의 시간-의존적 예측은 오디오 재분배기의 보다 세밀한 제어를 가능하게 해주며, 이는 처리 및 재생된 오디오 데이터의 품질을 개선한다. 또한, 일반적으로 시스템의 동작은 시간-의존적으로 구현될 수 있으며, 따라서 예컨대, 매일 매일의 콘텐트들 및/또는 메타데이터(텔레텍스트와 같은)에 기초하여, 자체로 최적화를 유지하도록 한다.

오디오 분류기는 프레임당 또는 블록당 점진적으로 변화하는 제어 신호들을 생성하도록 적응될 수 있다. 따라서, 오디오 입력 데이터의 상이한 다음 블록들 또는 상이한 다음 프레임들은 오디오 재분배기의 제어를 세밀하게 하기 위해, 그들이(부분적으로) 관련하는 오디오 콘텐트의 유형(들)의 특성화에 관해서 개별적으로 처리될 수 있다.

또한, 오디오 데이터 처리 디바이스는 가산 유닛을 포함할 수 있으며, 이는 오디오 데이터 입력 신호들을 가산함으로써 입력 합신호(sum signal)를 생성하도록 적응되며, 이는 오디오 분류기에 입력 합 신호를 제공하기 위해 연결된다. 가산 유닛은 상이한 오디오 데이터 입력 채널들로부터의 모든 오디오 입력 데이터를 간단히 더하여, 평균된 오디오 속성들을 가진 신호를 생성할 수 있으며, 이에 따라 분류는 낮은 계산 부하를 가진 통계적으로 보다 광범위하게 행해질 수 있다. 대안적으로, 각 오디오 데이터 입력 채널은 개별적으로 또는 공동으로 분류될 수 있고, 고-해상도 제어 신호들을 초래한다.

오디오 분류기는 오디오 데이터 입력 신호들의 물리적 의미에 대한 점진적으로 변화하는 의존성(gradually sliding dependence on the physical meaning)에 따라 점진적으로 변화하는 제어 신호들(gradually sliding control signals)을 생성하도록 적응될 수 있다. 특히, 오디오 콘텐트의 상이한 유형들은 상이한 오디오 장르들에 대응할 수 있다.

이들 실시예들에 따르면, 오디오 데이터 입력 신호들의 물리적 의미들 또는 음향심리적 특징들이 고려될 수 있다. 미리-정해진 수의 오디오 콘텐트 유형들이 미리-선택될 수 있다. 이들 상이한 오디오 콘텐트 유형들(예컨대, "음악 또는 스피치", "'팝' 음악, '재즈' 음악, '클래식' 음악")에 기초하여, 오디오 발췌에서 이들 유형들의 개별적 기여들이 산출될 수 있고, 따라서 예컨대 오디오 재분배기는 현재의 오디오 발췌가 60%의 "클래식" 음악, 30%의 "재즈", 및 10%의 "스피치" 기여들을 가진다는 정보에 기초하여 제어될 수 있다. 예컨대, 다음의 두 개의 대표적인 유형들의 분류들 중 하나가 구현될 수 있으며, 한 유형은 한 세트의 5개의 일반적인 오디오 클래스들 상에, 두 번째 유형은 한 세트의 대중 음악 장르들 상에 구현될 수 있다. 일반적 오디오 클래스들은 "클래식" 음악, "대중" 음악(비-클래식 장르), "스피치"(남자 및 여자, 영어, 네덜란드어, 독일어, 프랑스어), "대중 소음"(박수 또는 환호), 및 "소음"(교통, 팬, 음식점, 자연을 포함한 배경 소음들)이다. 대중 음악 클래스는 7개의 장르들, "재즈", "민속", "전자", "R&B", "록", "레게", 및 "보컬"로부터의 음악을 포함할 수 있다.

물리적 의미들 또는 본성들은 오디오 콘텐트의 상이한 유형들, 특히 오디오 데이터 입력 신호들이 속하는 상이한 오디오 장르들에 대응할 수 있다.

오디오 분류기는 제어 신호들로서, 0과 1 사이의 범위에서 임의의(무단계) 값을 가질 수 있는 하나 이상의 확률들을 생성하도록 적응될 수 있으며, 여기서, 각각의 값은 오디오 데이터 입력 신호들이 대응하는 오디오 콘텐트의 유형에 속하는 확률을 반영한다. 단지 100% 또는 0%의 결정이 취해지는(예컨대, 오디오 콘텐트는 순수한 "클래식" 음악에 관련됨) 종래 기술과는 달리, 본 발명에 따른 시스템은 이것은 오디오 콘텐트의 상이한 유형들 간을 구별하므로(예컨대: "현재의 오디오 발췌는 60% 확률의 "클래식" 음악, 40% 확률의 "재즈" 음악과 관련됨") 보다 정확하다.

오디오 분류기는 이들 확률들의 선형 결합에 기초하여 오디오 데이터 출력 신호들을 생성하도록 적응될 수 있다. 만약 오디오 분류기가 예컨대, 오디오 콘텐트가 제 1 장르에 대한 p 확률로, 제 2 장르에 대한 1-p 확률로 관련되어 있는 것으로 결정한다면, 그 후 오디오 분류기는 각각 p와 1-p의 확률을 가진 제 1 장르와 제 2 장르의 선형 결합에 의해 제어된다.

오디오 분류기는 매트릭스로서, 특히 액티브 매트릭스로서 점진적으로 변화하는 제어 신호들을 생성하도록 적응될 수 있다. 이 매트릭스의 요소들은 하나 이상의 확률 값들에 의존할 수 있으며, 이는 미리 추정된다. 매트릭스의 요소들은 또한 오디오 데이터 입력 신호들에 직접 의존할 수도 있다. 매트릭스 요소들의 각각은 오디오 분배기를 제어하기 위한 제어 신호로서 역할을 하기 위해 개별적으로 산출되거나 조정될 수 있다.

오디오 분류기는 자체-적응적 오디오 분류기가 될 수 있으며, 이는 기준 오디오 데이터를 제공받는다는 점에서, 오디오 콘텐트의 상이한 유형들을 구별하기 위해 사용 전에 연습된다. 본 실시예에 따르면, 오디오 분류기는 오디오 데이터 처리 디바이스가 시장에 출시되기 전에 충분히 많은 양의 기준 오디오 신호들(예컨대, 상이한 장르로부터의 100시간의 오디오 콘텐트)을 제공받는다. 이러한 많은 양의 오디오 데이터를 제공받는 동안, 오디오 분류기는 예컨대, 특정 종류들의 콘텐트 유형들의 특징으로 알려진(드러난) 오디오 데이터의 특정(분광) 특성들을 검출함으로써 상이한 종류들의 오디오 콘텐트를 구별하는 방법을 학습한다. 이러한 연습 과정은 많은 수의 계수들을 얻게 하며, 이 계수들은 오디오 콘텐트를 정확히 구별 및 결정 즉, 분류하기 위해 사용될 수 있다.

추가적으로 또는 대안적으로, 오디오 분류기는 사용 동안에 오디오 데이터 입력 신호들을 제공받는 것을 통해 오디오 콘텐트의 상이한 유형들을 구별하도록 연습된 자체-적응적 오디오 분류기일 수 있다. 이것은 오디오 데이터 처리 디바이스에 의해 처리된 오디오 데이터가 제품으로서 이러한 오디오 데이터 처리 디바이스의 실제 사용 동안에 그 오디오 분류기를 추가 연습시키기 위해 사용된다는 것을 의미하며, 따라서 그 분류 능력을 또한 개선할 수 있다. 메타데이터(예컨대, 텔레텍스트로부터의)는 이를 위해 사용될 수 있으며, 예컨대, 자체-학습을 지원하는데 사용된다. 콘텐트가 영화 콘텐트로 알려진 경우, 수반하는 멀티-채널 오디오는 분류기를 또한 연습시키는데 사용될 수 있다.

오디오 데이터 처리 디바이스의 일 실시예에 따른 오디오 재분배기는 제 1 서브-유닛 및 제 2 서브-유닛을 포함할 수 있다. 제 1 서브-유닛은 오디오 분류기의 제어 신호들과는 독립적으로, 제 2 수의 오디오 데이터 입력 신호들에 기초하여 제 1 수의 오디오 데이터 중간(intermediate) 신호들을 생성하도록 적응될 수 있다. 제 2 서브-유닛은 오디오 분류기의 제어 신호들에 의존하여, 제 1 수의 오디오 데이터 중간 신호들에 기초하여 제 1 수의 오디오 데이터 출력 신호들을 생성하도록 적응될 수 있다. 이 구성은 종래 오디오 재분배기인, 이미 존재하는 제 1 서브-유닛을, 오디오 데이터를 재분배하기 위한 제어 신호들을 고려하는 후-처리 유닛으로서 제 2 서브-유닛과 결합하여 사용하는 것을 가능하게 한다.

본 발명에 따른 오디오 데이터 처리 디바이스는 집적 회로, 특히 반도체 집적 회로로 구현될 수 있다. 특히, 시스템은 모놀리식 IC(monolithic IC)로 구현 가능하며, 이는 실리콘 기술로 제조될 수 있다.

본 발명에 따른 오디오 데이터 처리 디바이스는 버추얼라이저(virtualizer) 또는 휴대용 오디오 플레이어 또는 DVD 플레이어 또는 MP3 플레이어 또는 인터넷 무선 디바이스로서 구현될 수 있다.

오디오 콘텐트의 유형들에 의존하여 제어 신호들을 생성하는 오디오 분류기의 대안으로서, 여기서 오디오 데이터 입력 신호들은 애드-혹 규칙들(엔지니어의 지식 또는 경험에 직접 의존하는)을 따르는 오디오 신호들의 해석에 기초하여 분류되며, 오디오 재분배기를 제어하기 위한 제어 신호들은 또한 엔지니어에 의해 디자인된 것보다 기계-학습될 수 있는 시스템 동작을 도입함으로써, 전체적으로 자동으로(엔지니어의 지식의 해석 또는 도입 없이) 생성될 수도 있으며, 이것은 사운드 특징으로부터 오디오가 특정 클래스에 속하는 확률로의 매핑에 있어서 많은 파라미터들의 양을 전체적으로 자동 분석한다. 이러한 목적을 위해, 오디오 분류기는 오디오 분류기가 오디오 재분배기를 제어하기 위한 제어 신호들의 기초로서 최적 파라미터들을 자동으로 찾도록 하기 위해, 기준 오디오 음악과 함께 미리(예컨대, 100시간) 연습될 수 있는 자동-적응적 기능(예컨대, 신경 네트워크, 신경-퍼지 기계, 등)의 몇몇 종류가 제공될 수 있다. 제어 신호들의 기초로서 역할을 할 수 있는 파라미터들은 인입하는 오디오 데이터 입력 신호들로부터 학습될 수 있으며, 이 오디오 데이터 입력 신호들은 사용 전 및/또는 사용 동안에 시스템에 제공될 수 있다. 따라서, 오디오 분류기는 자체로, 그 오디오 콘텐트에 관한 오디오 입력 데이터의 분류가 수행될 수 있는 것에 기초한 분석 정보를 유도할 수 있다. 예컨대, 오디오 데이터 입력 신호들을 오디오 데이터 출력 신호들로 변환하기 위한 변환 매트릭스의 매트릭스 계수들은 미리 연습될 수 있다. 예컨대, DVD들은 종종 스테레오와 5.1 채널 오디오 믹스들을 모두 포함한다. 2로부터 5.1 채널들로의 완벽한 변환이 일반적으로 존재하지 않지만, 이는 알고리즘이 몇몇 주파수 대역들에서 독립적으로 동작하도록 사용될 때, 비교적 잘 정의된다. 2- 및 5.1 채널 오디오 믹스들을 분석하는 것은 이들 관계들을 나타낸다. 그러면 이들 관계들은 2-채널 오디오의 속성들로부터 자동으로 학습될 수 있다.

따라서, 오디오 데이터 입력 신호들은 임의의 해석 단계를 포함할 필요 없이 자동으로 분류될 수 있다. 예컨대, 그러한 연습은 오디오 데이터 처리 디바이스가 시장에 출시되기 전에 실험실에서 미리 행해질 수 있다. 이것은 최종 제품이 오디오 분류기가 인입하는 오디오 데이터를 정확한 방법으로 분류할 수 있게 하는 많은 파라미터들을 포함하는 연습된 오디오 분류기를 이미 가질 수 있음을 의미한다. 그러나 대안적으로 또는 추가적으로, 준비 제품으로서 시장에 출시되는 오디오 데이터 처리 디바이스의 오디오 분류기에 포함된 파라미터들이 사용 동안에 오디오 데이터 입력 신호들로 연습됨으로써 여전히 개선될 수 있다.

그러한 연습은 분광 거칠기(roughness)/분광 평탄도(flatness) 즉, 리플들(ripples) 등의 발생과 같은 오디오 데이터 입력 신호들의 많은 분광 특성들의 분석을 포함할 수 있다. 따라서, 콘텐트의 상이한 유형들을 특징짓는 특성들이 발견될 수 있고, 현재의 오디오 부분들은 이러한 특성들에 기초하여 특징화될 수 있다.

본 발명의 전술한 또는 다른 양상들은 이하에서 설명되는 실시예들로부터 명백해질 것이며, 이들 실시예들을 참조하여 설명된다.

본 발명은 실시예들을 참조하여 보다 상세히 설명되지만, 본 발명은 결코 이에 한정되지 않는다.

도 1은 본 발명의 제 1 실시예에 따른 오디오 데이터 처리 디바이스를 도시한다.

도 2A는 본 발명의 제 2 실시예에 따른 오디오 데이터 처리 디바이스를 도시한다.

도 2B는 제 2 실시예에 따라, 오디오 데이터 입력 신호들 및 제어 신호들에 기초하여 오디오 데이터 출력 신호들을 산출하기 위한 매트릭스-기반 산출 방법을 도시한다.

도 3A는 본 발명의 제 3 실시예에 따른 오디오 데이터 처리 디바이스를 도시한다.

도 3B는 제 3 실시예에 따라, 오디오 데이터 입력 신호들 및 제어 신호들에 기초하여 오디오 데이터 출력 신호들을 산출하기 위한 매트릭스-기반 산출 방법을 도시한다.

도 4A는 제 4 실시예에 따른 오디오 데이터 처리 디바이스를 도시한다.

도 4B는 제 4 실시예에 따라, 오디오 데이터 입력 신호들 및 제어 신호들에 기초하여 오디오 데이터 출력 신호들을 산출하기 위한 매트릭스-기반 산출 방법을 도시한다.

도면의 설명은 개략적이다. 상이한 도면들에서, 유사 또는 동일한 요소들에는 동일한 참조부호들이 제공된다.

이하, 도 1을 참조하면, 본 발명의 제 1 실시예에 따른 오디오 데이터 처리 디바이스(100)가 설명될 것이다.

도 1은 6개의 오디오 데이터 입력 신호들에 기초하여 2개의 오디오 데이터 출력 신호들을 생성하도록 적응된 오디오 재분배기를 포함하는 오디오 데이터 처리 디바이스(100)를 도시한다. 오디오 데이터 입력 신호들에는 오디오 재분배기(101)의 6개의 데이터 신호 입력들(105)에 결합되는 6개의 데이터 입력 채널들에 제공된다. 오디오 재분배기(101)의 2개의 데이터 신호 출력들(109)은 그들의 오디오 데이터 출력 신호들을 제공하기 위해 2개의 오디오 데이터 출력 채널들(102)과 결합된다.

또한, 오디오 분류기(104)가 도시되며, 오디오 데이터 입력 신호들(6개의 오디오 데이터 입력 채널들(103)에 결합된 6개의 데이터 신호 입력들(106)을 통해 오디오 분류기(104)에 제공됨)이 오디오 콘텐트의 유형들에 따라 분류되고 그 유형들에 대한 점진적으로 변화하는 의존성에 따라, 6개의 오디오 데이터 입력 신호들로부터 2개의 오디오 데이터 출력 신호들의 생성에 관련하는 오디오 재분배기(101)를 제어하기 위해 점진적으로 변화하는 제어 신호들(P)을 생성하도록 적응된다. 따라서, 오디오 분류기(104)는 인입하는 오디오 입력 신호들이 상이한 유형들의 오디오 콘텐트에 관하여 어느 정도까지 분류되어야 하는지를 결정한다.

오디오 분류기(104)는 점진적으로 변화하는 제어 신호들(P)을 시간-의존적 방법으로 생성하도록 적응된다. 즉, 이는 함수 P(t)로서, 여기서 t는 시간이다. 오디오 신호들의 프레임들(각각 블록들로 구성됨)의 시퀀스가 오디오 데이터 입력 채널들(103)에서 시스템(100)에 인가될 때, 입력 데이터에서의 오디오 속성들의 변경은 제어 신호들(p)의 변경을 초래하다. 따라서, 시스템(100)은 오디오 데이터 입력 채널들(103)을 통해 제공된 오디오 콘텐트의 유형에서의 변경들에 유연하게 반응한다. 즉, 오디오 데이터 입력 채널들(103)에서 제공된 상이한 프레임들 또는 블록들은 오디오 분류기(104)에 의해 개별적으로 취급되며, 이에 따라 개별 및 시간-의존적 오디오 데이터 분류 제어 신호들(P)은 6개의 입력 채널들에 제공된 오디오 신호들을 2개의 출력 채널들(102)에서의 오디오 신호들로 변환하기 위해 오디오 재분배기(101)를 제어하도록 생성된다. 오디오 분류기(104)는 오디오 데이터 입력 신호들의 상이한 유형들의 오디오 콘텐트(예컨대 물리적/음향심리적 의미들)에 대한 점진적으로 변화하는 의존성에 따라, 점진적으로 변화하는 제어 신호들(P)을 생성하도록 적응된다. 즉, 상이한 유형들의 오디오 콘텐트, 특히 상이한 오디오 장르 간을 구별하기 위한 한 세트의 구별 규칙들은 오디오 분류기(104) 내에 미리 저장된다. 이러한 구별 규칙들(애드-혹 규칙들 또는 전문가 규칙들)에 기초하여, 오디오 분류기(104)는 오디오 데이터 입력 신호들이 상이한 장르의 오디오 콘텐트의 각각에 어느 정도까지 속하는지를 추정한다.

이하, 도 2A를 참조하여, 본 발명의 제 2 실시예에 따른 오디오 데이터 처리 디바이스(200)가 설명될 것이다.

오디오 데이터 처리 디바이스(200)는 N개의 오디오 데이터 입력 신호들(x1,...,x_N)을 M개의 오디오 데이터 출력 신호들(z1,...,z_M)로 변환하기 위한 오디오 재분배기(201)를 포함한다. 오디오 재분배기(201)는 N-to-M 재분배 유닛(202) 및 후-처리 유닛(203)을 포함한다. N-to-M 재분배 유닛(202)은 오디오 분류기(104)의 제어 신호들과 관계없이, N개의 오디오 데이터 입력 신호들(x1,...,x_N)에 기초하여 M개의 오디오 데이터 중간 신호들(y1,...,y_M)을 생성하도록 적응된다. 후-처리 유닛(203)은 오디오 데이터 입력 신호들(x1,...,x_N)의 분석에 기초하여, 오디오 분류기(104)에 의해 생성된 제어 신호들(P)에 의존하여, 중간 신호들(y1,...,y_M)로부터 M개의 오디오 데이터 출력 신호들(z1,...,z_M)을 생성하도록 적응된다.

오디오 데이터 처리 디바이스(200)는 오디오 분류기(104)에 입력 합 신호를 제공하도록 오디오 데이터 입력 신호들(x1,...,x_N)을 함께 더함으로써, 입력 합 신호를 생성하도록 적응된 가산 유닛(204)을 포함한다.

도 2A, 도 2B에 도시된 구현예는 분류기(104) 및 후-처리 유닛(203)을 업그레이드시킨 기존의 재분배 시스템(102)을 이용한 것으로, 여기서 후-처리 유닛(203)은 분류기(104)에서 수행된 산출 결과들에 의해 제어될 수 있다. 따라서, 오디오 데이터 처리 디바이스(200)는 기존의 재분배 시스템(202)을 업그레이드하는 역할을 한다.

"N-to-M" 블록(202)은 기존의 재분배 시스템으로서, 예컨대, Dolby Pro Logic Ⅱ^TM(이 경우, N=2, M=6)이다. N개의 입력 채널들은 가산 유닛(204)에 의해 r가산되고, 오디오 분류기(104)에 제공되며, 오디오 분류기(104)는 원하는 오디오 콘텐트의 클래스들 간을 구별하도록 연습된다. 분류기(104)의 출력은 오디오 데이터 입력 신호들(x1,...,x_N)이 특정 클래스의 오디오 콘텐트에 속할 확률(P)이다. 이들 확률들은 후-처리 블록인 "M-to-M" 블록(203)을 조절하는데 사용된다.

이 시나리오의 흥미있는 애플리케이션은 다음이 될 수 있다: Dolby Pro Logic Ⅱ^TM는 두 개의 상이한 모들들, 즉 영화 및 음악을 가지고, 이것은 상이한 설정들을 가지고 수동으로 선택된다. 하나의 주요 차이는 중앙 이미지의 폭이다. 영화 모드에서는 중앙에서 패닝된 (오디오) 소스들이 모두 중앙 라우드스피커에 제공된다. 음악 모드에서, 중앙 신호는 또한 좌/우 라우드스피커로 제공되어 스테레오 이미지를 확장한다. 그러나, 이것은 수동으로 변경되어야 한다. 이는 사용자가 예컨대 텔레비전을 시청하고, MTV와 같은 음악 채널로부터 CNN과 같은 뉴스 채널로 스위칭하고자 할 때, 사용자에게 편리하지 않다. 따라서, 영화들이 음악 부분들을 포함하는 시나리오에서는, 영화/음악 모드들의 수동 선택은 최적이 아니다. MTV의 음악 비디오들은 음악 모드를 요구할 것이지만, CNN의 스피치는 영화 설정을 요구할 것이다. 이 시나리오가 적용될 때 본 발명은 설정을 자동으로 조절할 것이다.

따라서, 도 2A는 오디오 분류기(104)를 가진 현재의 재분배 시스템(2O2)을 업그레이드시킨 블록도를 도시한다.

종래 N-to-M 재분배 유닛(202)을 가진 본 발명의 구현예는 설명된 실시예에 서 다음과 같이 수행된다:

N-to-M 블록(202)은 영화 모드에서 Dolby Pro Logic Ⅱ^TM 디코더를 포함한다. 분류기(104)는 두 개의 클래스들, 즉 음악 및 영화를 포함한다. 파라미터 P는 입력 오디오(x1,...,x_N)가 음악일 확률이다(P는 전체 범위[0; 1]에 대한 연속 변수이다).

이제, N-to-M 블록(203)은 도 2B에 도시된 기능을 수행하도록 구현될 수 있다.

도 2B에서, L_f는 좌전방 신호, R_f는 우전방 신호, C는 중앙 신호, L_s는 좌측 서라운드 신호, R_s는 우측 서라운드 신호, LFE는 저-주파 효과 신호(서브우퍼)이다. 파라미터 a는 예컨대, 0.5의 값을 가진 상수이다. 파라미터 a는 음악 모드에서 중앙 소스 폭을 정의한다.

파라미터 P는 프레임들에서 결정되며, 따라서 이는 시간에 따라 변한다. 오디오의 콘텐트가 시간에 따라 변할 때, 중앙 신호의 재생은 P에 의존하여 변한다. 따라서, 오디오 분류기(104)는 점진적으로 변화하는 제어 신호들, 특히 파라미터 P를 시간-의존적 방법으로 생성하도록 적응된다. 또한, 오디오 분류기(104)는 프레임당 또는 블록당 점진적으로 변화하는 제어 신호들을 생성하도록 적응된다. 따라서, 오디오 분류기는 그 제어 신호로서 확률 P를 생성하도록 적응되며, 이 확률 P는 0과 1 사이의 임의의 값을 가질 수 있고, 이는 오디오 데이터 입력 신호들이 음악에 속할 가능성 및 오디오 데이터 입력 신호들이 영화에 속할 가능성(1-P)을 반영한다.

도 2B로부터 또한 명백한 바와 같이, 오디오 분류기(104)는 확률들 P 및 (1-P)의 선형 결합에 기초하여 오디오 데이터 출력 신호들을 생성하도록 적응된다.

이후, 도 3A, 및 도 3B를 참조하면, 본 발명의 제 3 실시예에 따른 오디오 데이터 처리 디바이스(300)가 설명될 것이다.

오디오 데이터 처리 디바이스(300)는 하나의 빌딩 블록(building block)인 N-to-M 재분배기(301)에 통합된 재분배 유닛(202) 및 후-처리 유닛(203)을 갖는다. 따라서, 오디오 데이터 처리 디바이스(300)는 재분배 및 분류를 통합한다.

N-to-M 재분배기(301)는 다음과 같이 구현될 수 있다. M개의 출력 채널들(102)은 N개의 입력 채널들(103)의 선형 결합들이다. 매트릭스 파라미터들

은 분류기(302)에서 나오는 확률들 P의 함수이다. 이것은 프레임들에서 수행될 수 있는데(신호 샘플들의 블록들인), 이는 확률들 P가 또한 설명된 실시예에서 프레임들에서 결정되기 때문이다.

도 3A에 도시된 시스템의 실제적인 애플리케이션은 5.1 서라운드 변환 시스템에 대한 스테레오이다. 오디오-믹싱은 콘텐트-의존적이기 때문에, 고-품질의 결과들은 그러한 시스템이 적용되었을 때 얻어진다. 예를 들어, 스피치는 중앙 스피커에 패닝된다. 보컬은 중앙에서 패닝되어 좌/우로 분리된다. 박수는 후방 스피커들에서 패닝된다. 이러한 입력 신호들(x1,...,x_N)을 출력 신호들(y1,...,y_M)로 변환하는 것은 변환 매트릭스

에 기초하여 수행되며, 그것의 순서는 확률들 P에 의존한다.

이하, 도 4A 및 도 4B를 참조하여, 제 4 실시예에 따른 오디오 데이터 처리 디바이스(400)가 설명될 것이다.

도 4A 및 도 4B는 오디오 분류기(401)에 의해 생성된 매트릭스

가 N-to-M 재분배기(301)를 위한 제어 신호들의 소스로 역할하는 구성을 도시하고 있다. 따라서, 오디오 데이터 처리 디바이스(400)의 경우, 매트릭스

의 요소들은 오디오 데이터 입력 신호들(x_i, i=l,..,N, 즉, x1,...,x_N)에 의존한다. 따라서, 제 4 실시예에서 산출되어야 하는 확률 P(매트릭스 요소의 다음 산출을 위한 기초로서 사용되는)는 없다. 대신, 제 4 실시예에 따른 오디오 분류기(401)는 오디오 데이터 입력 신호들(x_i)로부터 변환 매트릭스

의 요소들을 자동으로 그리고 직접 유도하기 위해 미리-연습된 자체-적응적 오디오 분류기(401)로서 구현된다. 그러므로 오디오 특징들은 오디오 데이터 입력 신호들(x_i)로부터 유도될 수 있다. 그 후, 매핑 함수가 학습될 수 있고, 이는 이러한 특징들의 (학습된) 함수로서 액티브 매트릭스 계수들을 제공한다. 즉, 제 4 실시예에 따르면, 액티브 변환 매트릭스의 요소들은 개별적으로 결정된 확률 값 P에 의존하여 생성되는 대신에, 입력 신호들에 직접 의존할 수 있다.

"포함하는"의 용어는 그들이 특정된 것 이외의 다른 구성들 및 단계들을 배제하지 않으며, "a" 또는 "an"은 복수를 배제하지 않는 것으로 이해되어야 한다. 또한, 상이한 실시예들과 연관되어 설명된 구성들은 결합될 수 있다.

청구항들에서의 참조 부호들은 청구항들의 범위를 한정하는 것으로 해석되어서는 안됨을 주의해야 한다.

Claims

오디오 데이터 처리 디바이스에 있어서,

제 2 수의 입력 채널들로부터 수신되는 제 2 수의 오디오 데이터 입력 신호들(x₁ ... x_N)에 기초하고, 상기 제 2 수의 오디오 데이터 입력 신호들(x₁ ... x_N)에 응답하여, 제 1 수의 출력 채널들에서 출력될 제 1 수의 오디오 데이터 출력 신호들(z₁ ... z_M)을 생성하는 오디오 재분배기; 및

상기 제 2 수의 오디오 데이터 입력 신호들에 응답하는 오디오 분류기로서, 상기 제 2 수의 오디오 데이터 입력 신호들(x₁ ... x_N)이 분류되는 오디오 콘텐트의 유형들에 대한 점진적으로 변화하는 의존성에 따라, 점진적으로 변화하는 제어 신호들(P)을 생성하는 상기 오디오 분류기를 포함하고,

상기 오디오 재분배기는 상기 점진적으로 변화하는 제어 신호들에 응답하여 상기 제 2 수의 오디오 데이터 입력 신호들(x₁ ... x_N)로부터 상기 제 1 수의 오디오 데이터 출력 신호들(z₁ ... z_M)을 생성하는, 오디오 데이터 처리 디바이스.
제 1 항에 있어서,

상기 오디오 분류기는, 상기 오디오 분류기가 기준 오디오 데이터를 미리 제공받는다는 점에서 오디오 콘텐트의 상이한 유형들을 구별하도록 사용하기 전에 연습되는 자체-적응적 오디오 분류기인, 오디오 데이터 처리 디바이스.
제 1 항에 있어서,

상기 오디오 분류기는 상기 오디오 분류기에 오디오 데이터 입력 신호들을 제공하는 것을 통해 오디오 콘텐트의 상이한 유형들을 구별하도록 사용 동안에 연습되는 자체-적응적 오디오 분류기인, 오디오 데이터 처리 디바이스.
제 1 항에 있어서,

상기 제 1 수 또는 상기 제 2 수는 1 보다 큰, 오디오 데이터 처리 디바이스.
제 1 항에 있어서,

상기 제 1 수는 상기 제 2 수보다 큰, 오디오 데이터 처리 디바이스.
제 1 항에 있어서,

상기 오디오 분류기는 시간-의존적 방법으로 상기 점진적으로 변화하는 제어 신호들(P)을 생성하도록 적응되는, 오디오 데이터 처리 디바이스.
제 1 항에 있어서,

상기 오디오 분류기는 프레임 단위로 또는 블록 단위로 상기 점진적으로 변화하는 제어 신호들(P)을 생성하도록 적응되는, 오디오 데이터 처리 디바이스.
제 1 항에 있어서,

상기 오디오 분류기는 상기 오디오 데이터 입력 신호들(x₁ ... x_N)의 물리적 의미에 대한 점진적으로 변화하는 의존성에 따라, 상기 점진적으로 변화하는 제어 신호들(P)을 생성하도록 적응되는, 오디오 데이터 처리 디바이스.
제 1 항에 있어서,

오디오 콘텐트의 상이한 유형들은 상이한 오디오 장르들에 대응하는, 오디오 데이터 처리 디바이스.
제 1 항에 있어서,

상기 오디오 분류기는 상기 제어 신호들(P)로서, 0 과 1 사이에 임의의 값을 가질 수 있는 하나 이상의 확률들을 생성하도록 적응되며, 각각의 확률은 오디오 데이터 입력 신호들(x₁ ... x_N)이 대응하는 유형의 오디오 콘텐트에 속하는 가능성을 반영하는, 오디오 데이터 처리 디바이스.
제 10 항에 있어서,

상기 오디오 재분배기는 상기 확률들의 선형 결합에 기초하여 상기 오디오 데이터 출력 신호들(z₁ ... z_M)을 생성하도록 적응되는, 오디오 데이터 처리 디바이스.
제 1 항에 있어서,

상기 오디오 분류기는 상기 제어 신호들(P)로서, 0 과 1 사이의 임의의 값을 가질 수 있는 하나 이상의 확률들을 생성하도록 적응되고, 각각의 확률은 오디오 데이터 입력 신호들(x₁ ... x_N)이 대응하는 유형의 오디오 콘텐트에 속하는 가능성을 반영하며, 상기 오디오 분류기는 액티브 매트릭스의 형태로 상기 점진적으로 변화하는 제어 신호들(P)을 생성하도록 적응되는, 오디오 데이터 처리 디바이스.
제 12 항에 있어서,

상기 매트릭스의 요소들은 상기 하나 이상의 확률들에 종속하는, 오디오 데이터 처리 디바이스.
제 12 항에 있어서,

상기 매트릭스 요소들은 상기 오디오 데이터 입력 신호들(x₁ ... x_N)에 종속하는, 오디오 데이터 처리 디바이스.
제 1 항에 있어서,

상기 오디오 재분배기는 제 1 서브-유닛 및 제 2 서브-유닛을 포함하고,

상기 제 1 서브-유닛은 상기 오디오 분류기의 제어 신호들(P)과 상관없이, 상기 제 2 수의 오디오 데이터 입력 신호들(x₁ ... x_N)에 기초하여 제 1 수의 오디오 데이터 중간 신호들(y₁ ...y_M)을 생성하도록 적응되며;

상기 제 2 서브-유닛은 상기 오디오 분류기의 제어 신호들(P)에 따라 상기 제 1 개의 오디오 데이터 중간 신호들(y₁ ...y_M)에 기초하여 상기 제 1 수의 오디오 데이터 출력 신호들(z₁ ... z_M)을 생성하도록 적응되는, 오디오 데이터 처리 디바이스.
제 1 항에 있어서,

상기 오디오 데이터 처리 디바이스는 집적 회로로 구현되는, 오디오 데이터 처리 디바이스.
제 1 항에 있어서,

상기 오디오 데이터 처리 디바이스는 버추얼라이저(virtualizer) 또는 휴대용 오디오 플레이어 또는 DVD 플레이어 또는 MP3 플레이어 또는 인터넷 무선 디바이스로 구현되는, 오디오 데이터 처리 디바이스.
오디오 데이터 처리 방법에 있어서,

제 2 수의 입력 채널들로부터 수신되는 제 2 수의 오디오 데이터 입력 신호들(x₁ ... x_N)에 기초하고, 상기 제 2 수의 오디오 데이터 입력 신호들(x₁ ... x_N)에 응답하여, 제 1 수의 출력 채널들에서 출력될 제 1 수의 오디오 데이터 출력 신호들(z₁ ... z_M)을 생성함으로써 오디오 데이터 입력 신호들을 재분배하는 단계; 및

상기 제 2 수의 오디오 데이터 입력 신호들에 응답하여 수행되는 단계로서, 상기 제 2 수의 오디오 데이터 입력 신호들(x₁ ... x_N)이 분류되는 오디오 콘텐트의 유형들에 대한 점진적으로 변화하는 의존성에 따라, 점진적으로 변화하는 제어 신호들(P)을 생성하도록 상기 오디오 데이터 입력 신호들을 분류하는 단계를 포함하고,

상기 재분배하는 단계에서는 상기 점진적으로 변화하는 제어 신호들에 응답하여 상기 제 2 수의 오디오 데이터 입력 신호들(x₁ ... x_N)로부터 상기 제 1 수의 오디오 데이터 출력 신호들(z₁ ... z_M)을 생성하는, 오디오 데이터 처리 방법.
삭제
프로세서에 의해 실행될 때, 오디오 데이터를 처리하는 방법을 수행하도록 적응되는 컴퓨터 프로그램이 저장된, 컴퓨터-판독 가능한 매체에 있어서, 상기 방법은,

제 2 수의 입력 채널들로부터 수신되는 제 2 수의 오디오 데이터 입력 신호들(x₁ ... x_N)에 기초하고, 상기 제 2 수의 오디오 데이터 입력 신호들(x₁ ... x_N)에 응답하여, 제 1 수의 출력 채널들에서 출력될 제 1 수의 오디오 데이터 출력 신호들(z₁ ... z_M)을 생성함으로써 오디오 데이터 입력 신호들을 재분배하는 단계; 및

상기 제 2 수의 오디오 데이터 입력 신호들에 응답하여 수행되는 단계로서, 상기 제 2 수의 오디오 데이터 입력 신호들(x₁ ... x_N)이 분류되는 오디오 콘텐트의 유형들에 대한 점진적으로 변화하는 의존성에 따라, 점진적으로 변화하는 제어 신호들(P)을 생성하도록 상기 오디오 데이터 입력 신호들을 분류하는 단계를 포함하고,

상기 재분배하는 단계에서는 상기 점진적으로 변화하는 제어 신호들에 응답하여 상기 제 2 수의 오디오 데이터 입력 신호들(x₁ ... x_N)로부터 상기 제 1 수의 오디오 데이터 출력 신호들(z₁ ... z_M)을 생성하는, 컴퓨터-판독 가능한 매체.