KR101243687B1 - 오디오 데이터를 처리하기 위한 디바이스 및 방법, 컴퓨터프로그램 요소 및 컴퓨터-판독가능한 매체 - Google Patents

오디오 데이터를 처리하기 위한 디바이스 및 방법, 컴퓨터프로그램 요소 및 컴퓨터-판독가능한 매체 Download PDF

Info

Publication number
KR101243687B1
KR101243687B1 KR1020077014295A KR20077014295A KR101243687B1 KR 101243687 B1 KR101243687 B1 KR 101243687B1 KR 1020077014295 A KR1020077014295 A KR 1020077014295A KR 20077014295 A KR20077014295 A KR 20077014295A KR 101243687 B1 KR101243687 B1 KR 101243687B1
Authority
KR
South Korea
Prior art keywords
audio
audio data
data input
signals
input signals
Prior art date
Application number
KR1020077014295A
Other languages
English (en)
Other versions
KR20070086580A (ko
Inventor
다니엘 쇼벤
마치엘 룬
마틴 맥키니
Original Assignee
코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코닌클리케 필립스 일렉트로닉스 엔.브이. filed Critical 코닌클리케 필립스 일렉트로닉스 엔.브이.
Publication of KR20070086580A publication Critical patent/KR20070086580A/ko
Application granted granted Critical
Publication of KR101243687B1 publication Critical patent/KR101243687B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)
  • Stereo-Broadcasting Methods (AREA)
  • Traffic Control Systems (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

오디오 데이터 처리 디바이스(100)는 제 2 수의 오디오 데이터 입력 신호들(103; x1 ... xN)에 기초하여 제 1 수의 오디오 데이터 출력 신호들(102; z1 ... zM)을 생성하도록 적응된 오디오 재분배기(101), 및 제 2 수의 오디오 데이터 입력 신호들(103; x1 ... xN)로부터 제 1 수의 오디오 데이터 출력 신호들(102; z1 ... zM)을 생성하는 오디오 재분배기(101)를 제어하기 위한, 점진적으로 변화하는 제어 신호들(P)을 제 2 수의 오디오 데이터 입력 신호들(103; x1 ... xN)이 분류되는 오디오 콘텐트의 유형들에 대한 점진적으로 변화하는 의존성에 따라 생성하도록 적응된 오디오 분류기(104)를 포함한다.
오디오 데이터, 분류, 스피커

Description

오디오 데이터를 처리하기 위한 디바이스 및 방법, 컴퓨터 프로그램 요소 및 컴퓨터-판독가능한 매체{A DEVICE AND A METHOD TO PROCESS AUDIO DATA, A COMPUTER PROGRAM ELEMENT AND A COMPUTER-READABLE MEDIUM}
본 발명은 오디오 데이터 처리 디바이스에 관한 것이다.
본 발명은 또한 오디오 데이터를 처리하는 방법에 관한 것이다.
또한 본 발명은 프로그램 요소에 관한 것이다.
또한, 본 발명은 컴퓨터-판독가능한 매체에 관한 것이다.
많은 오디오 녹음들은 오늘날 스테레오 또는 소위 5.1-서라운드 포맷으로 이용 가능하다. 이들 녹음들의 재생을 위해서는 특정 표준 스피커 설정뿐만 아니라, 스테레오의 경우 두 개의 라우드스피커(loudspeaker)들, 또는 5.1-서라운드의 경우 6개의 라우드스피커들이 필요하다.
그러나, 많은 실제의 경우들에서, 라우드스피커들의 수 또는 설정은 고품질 오디오 재생을 달성하기 위한 요구사항들을 충족하지 않는다. 그러한 이유로 인해, 오디오 재분배(redistribution) 시스템들이 개발되고 있다. 그러한 오디오 재분배 시스템은 다수의 N개의 입력 채널들과 다수의 M개의 출력 채널들을 갖고 있다. 따라서, 세 가지 경우들이 가능하다:
제 1 경우에서, M은 N보다 크다. 이것은 저장된 오디오 채널들보다 더 많은 라우드스피커들이 재생을 위해 사용되는 것을 의미한다.
제 2 경우에서, M과 N은 동일하다. 이 경우, 동일한 수의 입력 및 출력 채널들이 존재한다. 그러나, 출력을 재생하기 위한 스피커 설정은 입력으로서 제공된 데이터를 따르지 않으며, 이는 재분배를 필요로 한다.
제 3 시나리오에 따르면, M은 N보다 작다. 이 경우, 재생 채널들보다 많은 오디오 채널들이 이용가능하다.
제 1 경우의 예는 스테레오에서 5.1-서라운드로의 변환이다. 알려진 이러한 유형으로 시스템들로는 Dolby Pro LogicTM(Gundry, Kenneth "A new active matrix decoder for surround sound", In Proc. AES, 19th International Conference on Surround Sound, June 2001 참조) 및 Circle SurroundTM(US 6,198,827: 5-2-5 matrix system 참조)가 있다. 이러한 유형의 또 다른 기술은 미국 특허 US 6,496,584에 개시되어 있다.
제 2 경우의 예는 중앙(center) 신호를 좌/우 채널에 부가함으로써, 5.1-시스템에서 중앙 스피커의 폭을 개선한다. 이는 Dolby Pro Logic IITM의 음악 모드에서 이루어진다. 또 다른 예는 스테레오-확장(stereo-widening)이며, 여기서는 작은 스피커 베이스(speaker base)가 사용된다(예, 텔레비젼 시스템들에서). PhilipsTM 사 내에서는 이러한 목적을 위해 Incredible StereoTM로 불리는 기술이 개발되고 있다.
제 3 경우에서는, 소위 다운-믹싱(down-mixing)이 이용된다. 이러한 다운-믹싱은 가능한 한 본래의 공간 이미지를 유지하기 위해, 스마트한 방법으로 행해질 수 있다. 이러한 기술의 예로는 PhilipsTM사의 Incredible Surround SoundTM가 있으며, 여기서 5.1-서라운드 오디오는 두 개의 라우드 스피커들을 통해 재생된다.
두 개의 상이한 접근들이 상기 예들에서 언급한 바와 같이, 재분배로 알려져 있다. 먼저, 재분배는 고정된 매트릭스에 기초할 수 있다. 둘째로, 재분배는 예컨대, 상관관계(correlation)와 같은 채널간(inter-channel) 특성들에 의해 제어될 수 있다.
Incredible StereoTM와 같은 기술은 제 1 경우의 예이다. 이러한 접근의 단점은 스피치(speech) 신호들과 같이 중앙에서 패닝(pan)된 특정 오디오 신호들이 부정적으로 영향을 받는다는 것이다. 즉, 이에 따라 재생된 오디오의 품질이 불충분할 수 있다. 이러한 오디오 품질의 저하를 방지하기 위해, 채널들 간의 상관관계에 기초한 새로운 기술이 개발되었다(WO 03/049497 A2 참조). 이 기술은 중앙에서 패닝된 스피치가 좌/우 채널간에 강한 상관관계를 가진다고 가정한다.
Dolby Pro Logic ⅡTM는 채널간 특성들에 기초하여 입력 신호들을 재분배한다. 그러나, Dolby Pro Logic ⅡTM는 두 개의 상이한 모드들, 영화 및 음악을 가진다. 상이한 재분배들은 사용자에 의해 선택된 설정에 의존하여 제공된다. 이들 상이한 모드들은 상이한 오디오 콘텐트들이 상이한 최적 설정들을 가지기 때문에 이용 가능하다. 예를 들어, 영화의 경우 종종 중앙 채널에서만 스피치를 갖는 것이 바람직하지만, 음악의 경우 중앙 채널에서만 보컬(vocals)을 갖는 것은 바람직하지 않다. 여기서는 팬텀 중앙(phantom center) 소스가 선호된다.
따라서, 재분배 기술들에 관한 논의된 종래 기술은 상이한 설정들이 상이한 오디오 콘텐트들에 유리하다는 단점이 있다.
일본 특허 JP-08037700은 음악 신호들의 음악 카테고리를 특정하는 음악 카테고리 구별부를 가진 음장(sound field) 보정 회로를 개시하고 있다. 지정된 음악 카테고리에 기초하여, 모드-설정 마이크로 컨트롤러는 대응하는 시뮬레이션 모드를 설정한다.
미국 특허 US 2003/0210794 Al은 스테레오 소스의 유형을 결정하는 마이크로컴퓨터를 가진 매트릭스 서라운드 디코딩 시스템을 개시하고 있으며, 마이크로컴퓨터의 출력은 매트릭스 서라운드 디코더의 출력 모드를 이에 따라 결정된 스테레오포닉(stereophonic) 소스의 유형에 대응하는 모드로 스위칭하기 위해 매트릭스 서라운드 디코더로 입력된다.
그러나, JP-08037700 및 US 2003/0210794 Al에 따르면, 오디오 콘텐트의 카 테고리는 이항형(binary-type) 결정("예" 또는 "아니오")에 의해 추정된다. 즉, 오디오 발췌(expert)는 상이한 음악 장르들로부터의 요소들을 가지는 시나리오에서조차도 복수의 오디오 장르들 중에서 특정 하나가 존재하는 것으로 간주된다. 이는 JP-08037700 및 US 2003/0210794 Al 중 임의의 것에 따라 처리된 오디오 데이터의 재생 품질의 저하를 가져올 수 있다.
본 발명의 목적은 보다 높은 정도의 유연성을 가진 오디오 데이터 처리를 제공하는 것이다.
전술한 목적을 달성하기 위해, 독립 청구항에 따른 오디오 데이터 처리 디바이스, 오디오 데이터 처리 방법, 프로그램 요소, 및 컴퓨터-판독 가능한 매체가 제공된다.
오디오 데이터 처리 디바이스는 제 2 수의 오디오 데이터 입력 신호들에 기초하여 제 1 수의 오디오 데이터 출력 신호들을 생성하도록 적응된 오디오 재분배기를 포함한다. 또한, 오디오 데이터 처리 디바이스는 오디오 재분배기들을 제어하기 위한 점진적으로 변화하는 제어 신호들(gradually sliding control signals)을 생성하도록 적응된 오디오 분류기를 포함하며, 이는 그에 따라 제 2 수의 오디오 데이터 입력 신호들이 분류되는 오디오 콘텐트의 유형들에 대한 점진적으로 변화하는 의존성에 따라, 제 2 수의 오디오 데이터 입력 신호들로부터 제 1 수의 오디오 데이터 출력 신호들을 생성한다.
또한, 본 발명은 제 2 수의 오디오 데이터 입력 신호들에 기초하여 제 1 수의 오디오 데이터 출력 신호들을 생성함으로써, 오디오 데이터 입력 신호들을 재분배하는 단계; 및 제 2 수의 오디오 데이터 입력 신호들로부터 제 1 수의 오디오 데이터 출력 신호들을 생성하기 위해 재분배를 제어하기 위한, 오디오 데이터 입력 신호들(103; x1 ... xN)이 분류되는 오디오 콘텐트의 유형들에 대한 점진적으로 변화하는 의존성에 따라, 점진적으로 변화하는 제어 신호들을 생성하도록 상기 오디오 데이터 입력 신호들을 분류하는 단계를 포함하는 오디오 데이터를 처리하는 방법을 제공한다.
이 외에도, 프로그램 요소가 제공되는데, 이것은 프로세서에 의해 실행될 때, 전술한 방법 단계들을 포함하는 오디오 데이터 처리하는 방법을 실행하도록 적응된다.
또한, 컴퓨터-판독가능한 매체가 제공되며, 이는 컴퓨터 프로그램이 저장되어 프로세서에 의해 실행될 때, 전술한 방법 단계들을 갖는 오디오 데이터를 처리하는 방법을 실행하도록 적응된다.
본 발명에 따른 오디오 처리는 컴퓨터 프로그램, 즉 소프트웨어, 또는 하나 이상의 특별한 전자 최적 회로들 즉, 하드웨어로, 또는 하이브리드 형태로 즉, 소프트웨어 및 하드웨어 구성요소들에 의해 실현될 수 있다.
본 발명의 특징적 특성들은 특히 본 발명에 따른 오디오 재분배가 특정 오디오 발췌가 어느 분류(예컨대, "클래식" 음악, "재즈", "팝", "스피치" 등)를 갖는지에 대해, 부정확한 이항형 "예"-"아니오" 결정을 제거함으로써 관련 기술과 비교하여 상당히 개선된다는 장점을 갖는다. 대신, 오디오 재분배기는 점진적으로 변화하는 제어 신호들에 의해 제어되는데, 이 점진적으로 변화하는 제어 신호들은 오디오 데이터 입력 신호들의 세밀한 분류에 의존한다. 본 발명에 따른 디바이스들 및 방법은 오디오 발췌를 가장 잘 맞지만, 오디오 신호들의 상이한 양상들 및 특성들, 예를 들면 클래식 음악 특성들과 팝 음악 특성들의 기여들을 고려하는, 다수의 고정된 유형들의 오디오 콘텐트로 간략하게 분류하지 않는다.
따라서, 오디오 발췌는 복수의 상이한 유형들의 오디오 콘텐트(상이한 오디오 종류들)로 분류될 수 있으며, 여기서 가중 인자(weighting factor)들은 복수의 유형들의 오디오 콘텐트 각각의 양적 기여들을 정의할 수 있다. 따라서, 오디오 발췌는 복수의 오디오 클래스들에 할당될 수 있다.
그러므로, 제어 신호들은 상이한 유형들의 오디오 콘텐트 중 2개 이상의 그러한 기여들을 반영하고, 오디오 신호들이 상이한 유형들의 콘텐트, 예컨대, 상이한 오디오 장르들에 속하는 정도에 또한 의존한다. 본 발명에 따르면, 제어 신호들은 연속적/무한대 변수이며, 오디오 입력의 속성들에서의 약간의 변화는 항상 제어 신호(들)의 값(들)의 작은 변화를 야기한다.
즉, 본 발명은 어떤 특정한 콘텐트 유형 또는 장르가 현재의 오디오 데이터 입력 신호들에 할당되는지 조악한 이항 결정을 취하지 않는다. 대신, 오디오 입력 신호들의 상이한 특성들이 제어 신호들에서 점진적으로 고려된다. 따라서, "재즈" 요소들 및 "팝" 요소들의 기여들을 가진 음악 발췌는 순수 "재즈" 음악 또는 순수 "팝" 음악으로서 취급되지 않고, "팝" 음악 요소 기여들 및 "재즈" 음악 요소 기여들의 정도에 의존할 것이며, 오디오 재분배기를 제어하기 위한 제어 신호는 입력 신호들의 "재즈" 및 "팝" 음악 특성 모두를 반영할 것이다. 이러한 측정으로 인해, 제어 신호들은 인입하는 오디오 신호들의 특성에 대응할 것이며, 따라서, 오디오 재분배기는 이들 오디오 신호들을 정확히 처리할 수 있다. 점진적으로 스케일링되는 제어 신호들의 공급은 오디오 재분배기의 기능이 처리될 오디오 입력 데이터의 상세한 특성과 일치하게 하며, 이들 일치는 오디오 신호의 특성의 매우 작은 변화에도 민감하게 제어하도록 해준다. 따라서 본 발명에 따른 측정들은 오디오 입력 데이터의 매우 민감한 실시간 분류를 제공하며, 이는 확률들, 백분율들, 가중 인자들 또는 오디오 콘텐트의 유형을 특성화하는 다른 파라미터들이 오디오 재분배기에 제어 정보로서 제공되어 오디오 데이터의 재분배가 오디오 데이터의 유형에 맞춰질 수 있도록 한다.
분류기는 현재의 오디오 발췌의 특징적 특성들을 결정하기 위해 오디오 입력 데이터를 자동으로 분석할 수 있다(예컨대, 분광 분석을 수행). 미리 결정된(예컨대, 엔지니어의 노-하우에 기초하여) 또는 애드-혹 규칙들(예컨대, 전문가 규칙들)은 어떻게 오디오 발췌가 분류되는지, 즉 오디오 발췌가 어떤 유형들의 오디오 콘텐트로(및 그 연관 부분들이 얼마인지) 분류되어야 하는지에 대한 결정을 위한 기초로서 오디오 분류기에 도입될 수 있다.
오디오 부분의 특성은 단일의 발췌 안에서 빠르게 변화할 수 있기 때문에, 점진적으로 변화하는 제어 신호들은 오디오 데이터의 전송 및 흐름 동안 계속해서 조정되거나 또는 업데이트될 수 있고, 따라서 음악의 특성의 변경들은 제어 신호들의 변경들을 초래한다. 본 발명에 따른 시스템은 음악이 장르 A, 장르 B, 또는 장르 C로서 분류되어야 하는지 여부에 대한 예리한 선택 결정을 하지 않는다. 대신, 확률 값들은 본 발명에 따라 추정되며, 이 확률 값들은 현재의 오디오 데이터가 특정 장르(예컨대, "팝" 음악, "재즈" 음악, "클랙식" 음악, "스피치" 등)로 분류될 수 있는 정도를 반영한다. 따라서, 제어 신호는 "비례하는(pro rata)"에 기초하여 생성되며, 여기서 상이한 기여들은 오디오 부분의 상이한 특성들로부터 유도된다.
따라서, 본 발명은 오디오 분류기에 의해 제어된 오디오 재분배 시스템을 제공하며, 여기서 상이한 오디오 콘텐트들은 상이한 설정들을 산출하고, 따라서 오디오 분류기는 오디오 콘텐트의 차이들에 의존하여 오디오 재분배기 기능을 최적화한다.
재분배는 오디오 분류기에 의해 제어되며, 예컨대, McKinney, Martin, Breebaart, Jeroen에 의한, "Features for Audio and Music Classification", 4th International Conference on Music Information Retrieval, Izmir, 2003 에 의해 개시된 것과 같은 오디오 분류기에 의해 제어된다. 그러한 분류기는 오디오 콘텐트의 상이한 클래스들을 구별하기 위해, 기준 오디오 신호들 또는 오디오 데이터 입력 신호들에 의해 (사용 전 및/또는 사용 동안) 연습(train)될 수 있다. 그러한 클래스들은 예컨대, "팝" 음악, "클래식" 음악, "스피치" 등을 포함한다. 즉, 본 발명에 따른 분류기는 발췌가 상이한 클래스들에 속하는 확률을 결정한다.
그러한 분류기는 오디오 데이터 입력 신호들의 콘텐트 유형에 대해 최적이도록 재분배기를 구현할 수 있다. 이는 채널간 특성들 및 알고리즘 디자이너의 애드-혹 선택들에 기초하는 관련 기술에 따른 접근과 상이하다. 이들 특성들은 저-레벨 특징들의 예들이다. 본 발명에 따른 분류기는 또한 이들 특성들의 종류들을 결정할 수 있지만, 클래스들 간을 구별하기 위해 이들 특성들을 사용하여, 다양한 콘텐트들에 대해 연습될 수 있다.
본 발명의 일 양상은 N개의 입력 신호들(이 입력 신호들은 MP3 데이터와 같이 압축될 수 있다)을 가지며, 이들 입력 신호들을 M개의 출력들에 걸쳐 재분배하는 오디오 재분배기를 제공하며, 여기서 재분배는 오디오를 분류하는 오디오 분류기에 의존한다는 것이 발견된다. 이 분류는 점진적으로 변화하는 방법으로 수행되어야 하며, 따라서 특정 유형의 콘텐트에 대한 부정확하고 때로는 맞지 않는 할당이 회피된다. 대신, 오디오 콘텐트의 상이한 특징들 간을 구별하는, 재분배기를 제어하기 위한 제어 신호들이 점진적으로 생성된다. 그러한 오디오 분류기는 오디오(예로서, 음악, 스피치)의 클래스들 간의 관계에 의존하는 시스템이며, 이는 콘텐트 분석으로부터 자동-적응적 방법으로 학습될 수 있다.
본 발명에 따른 오디오 분류기는 N개의 오디오 입력들로부터 나오는 분류 정보 P를 생성하도록 구성될 수 있으며, M개의 오디오 출력들에 대한 이들 N개의 오디오 입력들의 재분배는 그러한 분류 정보 P에 의존하며, 여기서 분류 정보 P는 확률이 될 수 있다.
본 발명에 따른 오디오 재분배기는 M>N, M<N 또는 M=N이도록 변환을 유연하게 실행하도록 적응될 수 있다. 재분배기는 액티브 매트릭스 시스템일 수 있고, 재분배기는 오디오 디코더가 될 수 있다. 본 발명은 또한 현재의 재분배기들의 다운스트림을 사용하기 위한 개선 요소(retrofit element)로서 구현될 수도 있다.
본 발명의 대표적인 애플리케이션들은 예컨대, Dolby Pro LogicTM 및 Circle SurroundTM와 같은 기존의 업-믹스 시스템들을 업그레이드하는 것에 관한 것이다. 본 발명에 따른 시스템은 오디오 데이터 처리 능력 및 기능성을 향상시키기 위해 기존의 시스템에 추가될 수 있다. 본 발명의 또 다른 애플리케이션은 화상 스크린과 결합하여 사용하기 위한 새로운 업-믹스 알고리즘들에 관한 것이다. 다른 애플리케이션은 Incredible Surround SoundTM와 같은 기존의 다운-믹스 시스템들의 개선에 관한 것이다. 이것에 더하여, 본 발명은 기존의 스테레오-확장 알고리즘들을 개선하기 위해 구현될 수 있다.
결과적으로, 오디오 재분배는 현재의 콘텐트 유형에 최적인 그러한 방법으로 행해질 수 있다.
본 발명의 중요한 양상은 시스템의 동작이 시간-의존적일 수 있다는 사실에 관련되며, 이는 예컨대 매일 매일의 콘텐트들 및 메타 데이터(예를 들면, 텔레텍스트)에 기초하여 자체로 최적화를 유지할 수 있기 때문이다. 또한, 오디오 발췌의 상이한 부분들은(예컨대 상이한 데이터 프레임들) 시간-의존적 방법으로 제어 신호들을 업데이트하기 위해 개별적으로 분류될 수 있다. 이러한 기능을 가진 오디오 데이터 처리 디바이스는 모든 사용자에 대해 최적이며, 새로운 콘텐트는 최적화된 방법으로 처리될 수 있다.
본 발명의 또 다른 중요한 양상은 본 발명의 시스템은 예컨대, 채널 업-컨버터를 제어하기 위해, 오디오 콘텐트의 클래스들 또는 유형들을 사용한다는 사실과 관련된다는 것이며, 이들 각각은 특정한 물리적 또는 음향심리적 의미 또는 본성(예, 장르)을 가진다. 그러한 클래스들은 예컨대, 음악과 스피치 간의 구별 또는 예컨대 "팝" 음악, "클래식" 음악, "재즈" 음악, " 민속" 음악 등 간의 훨씬 더 상세한 구별을 포함할 수 있다.
본 발명의 일 양상은 프레임-와이즈(frame- wise) 또는 블록-와이즈(block- wise) 분석을 수행하는 멀티-채널 오디오 재생 시스템과 관련된다. 오디오 분류기에 의해 생성된 오디오 재분배기를 제어하기 위한 제어 정보는 콘텐트 유형에 기초하여 생성된다. 이는 자동적, 최적화 및 오디오의 클래스-특정 재분배를 가능하게 하며, 오디오 종류/장르 정보에 의해 제어된다.
종속 청구항들을 참조하여, 본 발명의 보다 바람직한 실시예들을 이하에서 설명하고자 한다.
다음으로, 본 발명에 따른 오디오 데이터 처리 디바이스의 바람직한 실시예들이 설명될 것이다. 이들 실시예들은 또한 오디오 데이터의 처리 방법, 프로그램 요소, 및 컴퓨터-판독가능한 매체를 위해 사용될 수 있다.
제 1 수의 오디오 데이터 출력 신호들 및/또는 제 2 수의 오디오 데이터 입력 신호들은 1보다 클 수 있다. 즉, 오디오 데이터 처리 디바이스는 멀티-채널 입력 및/또는 멀티-채널 출력 처리를 수행할 수 있다.
본 실시예에 따르면, 제 1 수는 제 2 수보다 크거나 작거나 같을 수 있다. 제 1 수는 N으로, 제 2 수는 M으로 나타내며, 모든 세가지 경우들(M>N, M=N, 및 M<N)이 커버된다. M>N 인 경우, 재생을 위해 사용된 출력 채널들의 수는 입력 채널들의 수보다 크다. 이러한 시나리오의 예는 스테레오에서 5.1 서라운드의 변환이다. M=N 인 경우, 동일한 수의 입력 및 출력 채널들이 존재한다. 그러나, 이 경우에는 제공된 콘텐트는 개별 채널들 중에 재분배된다. M<N인 경우, 재생 채널들보다 많은 입력 채널들이 이용 가능하다. 예컨대, 5.1 서라운드 오디오는 두 개의 라우드스피커들을 통해 재생될 수 있다.
오디오 분류기는 시간-의존적 방법으로 점진적으로 변화하는 제어 신호들을 생성하도록 적응될 수 있다. 본 실시예에 따르면, 제어 신호들은 오디오 데이터 입력 신호들의 전송 동안, 고려되는 오디오 발췌의 상이한 부분들의 특징 또는 속성들의 가능한 변경들에 응답하여 연속적으로 또는 단계적으로(step-wise) 업데이트 될 수 있다. 이러한 제어 신호들의 시간-의존적 예측은 오디오 재분배기의 보다 세밀한 제어를 가능하게 해주며, 이는 처리 및 재생된 오디오 데이터의 품질을 개선한다. 또한, 일반적으로 시스템의 동작은 시간-의존적으로 구현될 수 있으며, 따라서 예컨대, 매일 매일의 콘텐트들 및/또는 메타데이터(텔레텍스트와 같은)에 기초하여, 자체로 최적화를 유지하도록 한다.
오디오 분류기는 프레임당 또는 블록당 점진적으로 변화하는 제어 신호들을 생성하도록 적응될 수 있다. 따라서, 오디오 입력 데이터의 상이한 다음 블록들 또는 상이한 다음 프레임들은 오디오 재분배기의 제어를 세밀하게 하기 위해, 그들이(부분적으로) 관련하는 오디오 콘텐트의 유형(들)의 특성화에 관해서 개별적으로 처리될 수 있다.
또한, 오디오 데이터 처리 디바이스는 가산 유닛을 포함할 수 있으며, 이는 오디오 데이터 입력 신호들을 가산함으로써 입력 합신호(sum signal)를 생성하도록 적응되며, 이는 오디오 분류기에 입력 합 신호를 제공하기 위해 연결된다. 가산 유닛은 상이한 오디오 데이터 입력 채널들로부터의 모든 오디오 입력 데이터를 간단히 더하여, 평균된 오디오 속성들을 가진 신호를 생성할 수 있으며, 이에 따라 분류는 낮은 계산 부하를 가진 통계적으로 보다 광범위하게 행해질 수 있다. 대안적으로, 각 오디오 데이터 입력 채널은 개별적으로 또는 공동으로 분류될 수 있고, 고-해상도 제어 신호들을 초래한다.
오디오 분류기는 오디오 데이터 입력 신호들의 물리적 의미에 대한 점진적으로 변화하는 의존성(gradually sliding dependence on the physical meaning)에 따라 점진적으로 변화하는 제어 신호들(gradually sliding control signals)을 생성하도록 적응될 수 있다. 특히, 오디오 콘텐트의 상이한 유형들은 상이한 오디오 장르들에 대응할 수 있다.
이들 실시예들에 따르면, 오디오 데이터 입력 신호들의 물리적 의미들 또는 음향심리적 특징들이 고려될 수 있다. 미리-정해진 수의 오디오 콘텐트 유형들이 미리-선택될 수 있다. 이들 상이한 오디오 콘텐트 유형들(예컨대, "음악 또는 스피치", "'팝' 음악, '재즈' 음악, '클래식' 음악")에 기초하여, 오디오 발췌에서 이들 유형들의 개별적 기여들이 산출될 수 있고, 따라서 예컨대 오디오 재분배기는 현재의 오디오 발췌가 60%의 "클래식" 음악, 30%의 "재즈", 및 10%의 "스피치" 기여들을 가진다는 정보에 기초하여 제어될 수 있다. 예컨대, 다음의 두 개의 대표적인 유형들의 분류들 중 하나가 구현될 수 있으며, 한 유형은 한 세트의 5개의 일반적인 오디오 클래스들 상에, 두 번째 유형은 한 세트의 대중 음악 장르들 상에 구현될 수 있다. 일반적 오디오 클래스들은 "클래식" 음악, "대중" 음악(비-클래식 장르), "스피치"(남자 및 여자, 영어, 네덜란드어, 독일어, 프랑스어), "대중 소음"(박수 또는 환호), 및 "소음"(교통, 팬, 음식점, 자연을 포함한 배경 소음들)이다. 대중 음악 클래스는 7개의 장르들, "재즈", "민속", "전자", "R&B", "록", "레게", 및 "보컬"로부터의 음악을 포함할 수 있다.
물리적 의미들 또는 본성들은 오디오 콘텐트의 상이한 유형들, 특히 오디오 데이터 입력 신호들이 속하는 상이한 오디오 장르들에 대응할 수 있다.
오디오 분류기는 제어 신호들로서, 0과 1 사이의 범위에서 임의의(무단계) 값을 가질 수 있는 하나 이상의 확률들을 생성하도록 적응될 수 있으며, 여기서, 각각의 값은 오디오 데이터 입력 신호들이 대응하는 오디오 콘텐트의 유형에 속하는 확률을 반영한다. 단지 100% 또는 0%의 결정이 취해지는(예컨대, 오디오 콘텐트는 순수한 "클래식" 음악에 관련됨) 종래 기술과는 달리, 본 발명에 따른 시스템은 이것은 오디오 콘텐트의 상이한 유형들 간을 구별하므로(예컨대: "현재의 오디오 발췌는 60% 확률의 "클래식" 음악, 40% 확률의 "재즈" 음악과 관련됨") 보다 정확하다.
오디오 분류기는 이들 확률들의 선형 결합에 기초하여 오디오 데이터 출력 신호들을 생성하도록 적응될 수 있다. 만약 오디오 분류기가 예컨대, 오디오 콘텐트가 제 1 장르에 대한 p 확률로, 제 2 장르에 대한 1-p 확률로 관련되어 있는 것으로 결정한다면, 그 후 오디오 분류기는 각각 p와 1-p의 확률을 가진 제 1 장르와 제 2 장르의 선형 결합에 의해 제어된다.
오디오 분류기는 매트릭스로서, 특히 액티브 매트릭스로서 점진적으로 변화하는 제어 신호들을 생성하도록 적응될 수 있다. 이 매트릭스의 요소들은 하나 이상의 확률 값들에 의존할 수 있으며, 이는 미리 추정된다. 매트릭스의 요소들은 또한 오디오 데이터 입력 신호들에 직접 의존할 수도 있다. 매트릭스 요소들의 각각은 오디오 분배기를 제어하기 위한 제어 신호로서 역할을 하기 위해 개별적으로 산출되거나 조정될 수 있다.
오디오 분류기는 자체-적응적 오디오 분류기가 될 수 있으며, 이는 기준 오디오 데이터를 제공받는다는 점에서, 오디오 콘텐트의 상이한 유형들을 구별하기 위해 사용 전에 연습된다. 본 실시예에 따르면, 오디오 분류기는 오디오 데이터 처리 디바이스가 시장에 출시되기 전에 충분히 많은 양의 기준 오디오 신호들(예컨대, 상이한 장르로부터의 100시간의 오디오 콘텐트)을 제공받는다. 이러한 많은 양의 오디오 데이터를 제공받는 동안, 오디오 분류기는 예컨대, 특정 종류들의 콘텐트 유형들의 특징으로 알려진(드러난) 오디오 데이터의 특정(분광) 특성들을 검출함으로써 상이한 종류들의 오디오 콘텐트를 구별하는 방법을 학습한다. 이러한 연습 과정은 많은 수의 계수들을 얻게 하며, 이 계수들은 오디오 콘텐트를 정확히 구별 및 결정 즉, 분류하기 위해 사용될 수 있다.
추가적으로 또는 대안적으로, 오디오 분류기는 사용 동안에 오디오 데이터 입력 신호들을 제공받는 것을 통해 오디오 콘텐트의 상이한 유형들을 구별하도록 연습된 자체-적응적 오디오 분류기일 수 있다. 이것은 오디오 데이터 처리 디바이스에 의해 처리된 오디오 데이터가 제품으로서 이러한 오디오 데이터 처리 디바이스의 실제 사용 동안에 그 오디오 분류기를 추가 연습시키기 위해 사용된다는 것을 의미하며, 따라서 그 분류 능력을 또한 개선할 수 있다. 메타데이터(예컨대, 텔레텍스트로부터의)는 이를 위해 사용될 수 있으며, 예컨대, 자체-학습을 지원하는데 사용된다. 콘텐트가 영화 콘텐트로 알려진 경우, 수반하는 멀티-채널 오디오는 분류기를 또한 연습시키는데 사용될 수 있다.
오디오 데이터 처리 디바이스의 일 실시예에 따른 오디오 재분배기는 제 1 서브-유닛 및 제 2 서브-유닛을 포함할 수 있다. 제 1 서브-유닛은 오디오 분류기의 제어 신호들과는 독립적으로, 제 2 수의 오디오 데이터 입력 신호들에 기초하여 제 1 수의 오디오 데이터 중간(intermediate) 신호들을 생성하도록 적응될 수 있다. 제 2 서브-유닛은 오디오 분류기의 제어 신호들에 의존하여, 제 1 수의 오디오 데이터 중간 신호들에 기초하여 제 1 수의 오디오 데이터 출력 신호들을 생성하도록 적응될 수 있다. 이 구성은 종래 오디오 재분배기인, 이미 존재하는 제 1 서브-유닛을, 오디오 데이터를 재분배하기 위한 제어 신호들을 고려하는 후-처리 유닛으로서 제 2 서브-유닛과 결합하여 사용하는 것을 가능하게 한다.
본 발명에 따른 오디오 데이터 처리 디바이스는 집적 회로, 특히 반도체 집적 회로로 구현될 수 있다. 특히, 시스템은 모놀리식 IC(monolithic IC)로 구현 가능하며, 이는 실리콘 기술로 제조될 수 있다.
본 발명에 따른 오디오 데이터 처리 디바이스는 버추얼라이저(virtualizer) 또는 휴대용 오디오 플레이어 또는 DVD 플레이어 또는 MP3 플레이어 또는 인터넷 무선 디바이스로서 구현될 수 있다.
오디오 콘텐트의 유형들에 의존하여 제어 신호들을 생성하는 오디오 분류기의 대안으로서, 여기서 오디오 데이터 입력 신호들은 애드-혹 규칙들(엔지니어의 지식 또는 경험에 직접 의존하는)을 따르는 오디오 신호들의 해석에 기초하여 분류되며, 오디오 재분배기를 제어하기 위한 제어 신호들은 또한 엔지니어에 의해 디자인된 것보다 기계-학습될 수 있는 시스템 동작을 도입함으로써, 전체적으로 자동으로(엔지니어의 지식의 해석 또는 도입 없이) 생성될 수도 있으며, 이것은 사운드 특징으로부터 오디오가 특정 클래스에 속하는 확률로의 매핑에 있어서 많은 파라미터들의 양을 전체적으로 자동 분석한다. 이러한 목적을 위해, 오디오 분류기는 오디오 분류기가 오디오 재분배기를 제어하기 위한 제어 신호들의 기초로서 최적 파라미터들을 자동으로 찾도록 하기 위해, 기준 오디오 음악과 함께 미리(예컨대, 100시간) 연습될 수 있는 자동-적응적 기능(예컨대, 신경 네트워크, 신경-퍼지 기계, 등)의 몇몇 종류가 제공될 수 있다. 제어 신호들의 기초로서 역할을 할 수 있는 파라미터들은 인입하는 오디오 데이터 입력 신호들로부터 학습될 수 있으며, 이 오디오 데이터 입력 신호들은 사용 전 및/또는 사용 동안에 시스템에 제공될 수 있다. 따라서, 오디오 분류기는 자체로, 그 오디오 콘텐트에 관한 오디오 입력 데이터의 분류가 수행될 수 있는 것에 기초한 분석 정보를 유도할 수 있다. 예컨대, 오디오 데이터 입력 신호들을 오디오 데이터 출력 신호들로 변환하기 위한 변환 매트릭스의 매트릭스 계수들은 미리 연습될 수 있다. 예컨대, DVD들은 종종 스테레오와 5.1 채널 오디오 믹스들을 모두 포함한다. 2로부터 5.1 채널들로의 완벽한 변환이 일반적으로 존재하지 않지만, 이는 알고리즘이 몇몇 주파수 대역들에서 독립적으로 동작하도록 사용될 때, 비교적 잘 정의된다. 2- 및 5.1 채널 오디오 믹스들을 분석하는 것은 이들 관계들을 나타낸다. 그러면 이들 관계들은 2-채널 오디오의 속성들로부터 자동으로 학습될 수 있다.
따라서, 오디오 데이터 입력 신호들은 임의의 해석 단계를 포함할 필요 없이 자동으로 분류될 수 있다. 예컨대, 그러한 연습은 오디오 데이터 처리 디바이스가 시장에 출시되기 전에 실험실에서 미리 행해질 수 있다. 이것은 최종 제품이 오디오 분류기가 인입하는 오디오 데이터를 정확한 방법으로 분류할 수 있게 하는 많은 파라미터들을 포함하는 연습된 오디오 분류기를 이미 가질 수 있음을 의미한다. 그러나 대안적으로 또는 추가적으로, 준비 제품으로서 시장에 출시되는 오디오 데이터 처리 디바이스의 오디오 분류기에 포함된 파라미터들이 사용 동안에 오디오 데이터 입력 신호들로 연습됨으로써 여전히 개선될 수 있다.
그러한 연습은 분광 거칠기(roughness)/분광 평탄도(flatness) 즉, 리플들(ripples) 등의 발생과 같은 오디오 데이터 입력 신호들의 많은 분광 특성들의 분석을 포함할 수 있다. 따라서, 콘텐트의 상이한 유형들을 특징짓는 특성들이 발견될 수 있고, 현재의 오디오 부분들은 이러한 특성들에 기초하여 특징화될 수 있다.
본 발명의 전술한 또는 다른 양상들은 이하에서 설명되는 실시예들로부터 명백해질 것이며, 이들 실시예들을 참조하여 설명된다.
본 발명은 실시예들을 참조하여 보다 상세히 설명되지만, 본 발명은 결코 이에 한정되지 않는다.
도 1은 본 발명의 제 1 실시예에 따른 오디오 데이터 처리 디바이스를 도시한다.
도 2A는 본 발명의 제 2 실시예에 따른 오디오 데이터 처리 디바이스를 도시한다.
도 2B는 제 2 실시예에 따라, 오디오 데이터 입력 신호들 및 제어 신호들에 기초하여 오디오 데이터 출력 신호들을 산출하기 위한 매트릭스-기반 산출 방법을 도시한다.
도 3A는 본 발명의 제 3 실시예에 따른 오디오 데이터 처리 디바이스를 도시한다.
도 3B는 제 3 실시예에 따라, 오디오 데이터 입력 신호들 및 제어 신호들에 기초하여 오디오 데이터 출력 신호들을 산출하기 위한 매트릭스-기반 산출 방법을 도시한다.
도 4A는 제 4 실시예에 따른 오디오 데이터 처리 디바이스를 도시한다.
도 4B는 제 4 실시예에 따라, 오디오 데이터 입력 신호들 및 제어 신호들에 기초하여 오디오 데이터 출력 신호들을 산출하기 위한 매트릭스-기반 산출 방법을 도시한다.
도면의 설명은 개략적이다. 상이한 도면들에서, 유사 또는 동일한 요소들에는 동일한 참조부호들이 제공된다.
이하, 도 1을 참조하면, 본 발명의 제 1 실시예에 따른 오디오 데이터 처리 디바이스(100)가 설명될 것이다.
도 1은 6개의 오디오 데이터 입력 신호들에 기초하여 2개의 오디오 데이터 출력 신호들을 생성하도록 적응된 오디오 재분배기를 포함하는 오디오 데이터 처리 디바이스(100)를 도시한다. 오디오 데이터 입력 신호들에는 오디오 재분배기(101)의 6개의 데이터 신호 입력들(105)에 결합되는 6개의 데이터 입력 채널들에 제공된다. 오디오 재분배기(101)의 2개의 데이터 신호 출력들(109)은 그들의 오디오 데이터 출력 신호들을 제공하기 위해 2개의 오디오 데이터 출력 채널들(102)과 결합된다.
또한, 오디오 분류기(104)가 도시되며, 오디오 데이터 입력 신호들(6개의 오디오 데이터 입력 채널들(103)에 결합된 6개의 데이터 신호 입력들(106)을 통해 오디오 분류기(104)에 제공됨)이 오디오 콘텐트의 유형들에 따라 분류되고 그 유형들에 대한 점진적으로 변화하는 의존성에 따라, 6개의 오디오 데이터 입력 신호들로부터 2개의 오디오 데이터 출력 신호들의 생성에 관련하는 오디오 재분배기(101)를 제어하기 위해 점진적으로 변화하는 제어 신호들(P)을 생성하도록 적응된다. 따라서, 오디오 분류기(104)는 인입하는 오디오 입력 신호들이 상이한 유형들의 오디오 콘텐트에 관하여 어느 정도까지 분류되어야 하는지를 결정한다.
오디오 분류기(104)는 점진적으로 변화하는 제어 신호들(P)을 시간-의존적 방법으로 생성하도록 적응된다. 즉, 이는 함수 P(t)로서, 여기서 t는 시간이다. 오디오 신호들의 프레임들(각각 블록들로 구성됨)의 시퀀스가 오디오 데이터 입력 채널들(103)에서 시스템(100)에 인가될 때, 입력 데이터에서의 오디오 속성들의 변경은 제어 신호들(p)의 변경을 초래하다. 따라서, 시스템(100)은 오디오 데이터 입력 채널들(103)을 통해 제공된 오디오 콘텐트의 유형에서의 변경들에 유연하게 반응한다. 즉, 오디오 데이터 입력 채널들(103)에서 제공된 상이한 프레임들 또는 블록들은 오디오 분류기(104)에 의해 개별적으로 취급되며, 이에 따라 개별 및 시간-의존적 오디오 데이터 분류 제어 신호들(P)은 6개의 입력 채널들에 제공된 오디오 신호들을 2개의 출력 채널들(102)에서의 오디오 신호들로 변환하기 위해 오디오 재분배기(101)를 제어하도록 생성된다. 오디오 분류기(104)는 오디오 데이터 입력 신호들의 상이한 유형들의 오디오 콘텐트(예컨대 물리적/음향심리적 의미들)에 대한 점진적으로 변화하는 의존성에 따라, 점진적으로 변화하는 제어 신호들(P)을 생성하도록 적응된다. 즉, 상이한 유형들의 오디오 콘텐트, 특히 상이한 오디오 장르 간을 구별하기 위한 한 세트의 구별 규칙들은 오디오 분류기(104) 내에 미리 저장된다. 이러한 구별 규칙들(애드-혹 규칙들 또는 전문가 규칙들)에 기초하여, 오디오 분류기(104)는 오디오 데이터 입력 신호들이 상이한 장르의 오디오 콘텐트의 각각에 어느 정도까지 속하는지를 추정한다.
이하, 도 2A를 참조하여, 본 발명의 제 2 실시예에 따른 오디오 데이터 처리 디바이스(200)가 설명될 것이다.
오디오 데이터 처리 디바이스(200)는 N개의 오디오 데이터 입력 신호들(x1,...,xN)을 M개의 오디오 데이터 출력 신호들(z1,...,zM)로 변환하기 위한 오디오 재분배기(201)를 포함한다. 오디오 재분배기(201)는 N-to-M 재분배 유닛(202) 및 후-처리 유닛(203)을 포함한다. N-to-M 재분배 유닛(202)은 오디오 분류기(104)의 제어 신호들과 관계없이, N개의 오디오 데이터 입력 신호들(x1,...,xN)에 기초하여 M개의 오디오 데이터 중간 신호들(y1,...,yM)을 생성하도록 적응된다. 후-처리 유닛(203)은 오디오 데이터 입력 신호들(x1,...,xN)의 분석에 기초하여, 오디오 분류기(104)에 의해 생성된 제어 신호들(P)에 의존하여, 중간 신호들(y1,...,yM)로부터 M개의 오디오 데이터 출력 신호들(z1,...,zM)을 생성하도록 적응된다.
오디오 데이터 처리 디바이스(200)는 오디오 분류기(104)에 입력 합 신호를 제공하도록 오디오 데이터 입력 신호들(x1,...,xN)을 함께 더함으로써, 입력 합 신호를 생성하도록 적응된 가산 유닛(204)을 포함한다.
도 2A, 도 2B에 도시된 구현예는 분류기(104) 및 후-처리 유닛(203)을 업그레이드시킨 기존의 재분배 시스템(102)을 이용한 것으로, 여기서 후-처리 유닛(203)은 분류기(104)에서 수행된 산출 결과들에 의해 제어될 수 있다. 따라서, 오디오 데이터 처리 디바이스(200)는 기존의 재분배 시스템(202)을 업그레이드하는 역할을 한다.
"N-to-M" 블록(202)은 기존의 재분배 시스템으로서, 예컨대, Dolby Pro Logic ⅡTM(이 경우, N=2, M=6)이다. N개의 입력 채널들은 가산 유닛(204)에 의해 r가산되고, 오디오 분류기(104)에 제공되며, 오디오 분류기(104)는 원하는 오디오 콘텐트의 클래스들 간을 구별하도록 연습된다. 분류기(104)의 출력은 오디오 데이터 입력 신호들(x1,...,xN)이 특정 클래스의 오디오 콘텐트에 속할 확률(P)이다. 이들 확률들은 후-처리 블록인 "M-to-M" 블록(203)을 조절하는데 사용된다.
이 시나리오의 흥미있는 애플리케이션은 다음이 될 수 있다: Dolby Pro Logic ⅡTM는 두 개의 상이한 모들들, 즉 영화 및 음악을 가지고, 이것은 상이한 설정들을 가지고 수동으로 선택된다. 하나의 주요 차이는 중앙 이미지의 폭이다. 영화 모드에서는 중앙에서 패닝된 (오디오) 소스들이 모두 중앙 라우드스피커에 제공된다. 음악 모드에서, 중앙 신호는 또한 좌/우 라우드스피커로 제공되어 스테레오 이미지를 확장한다. 그러나, 이것은 수동으로 변경되어야 한다. 이는 사용자가 예컨대 텔레비전을 시청하고, MTV와 같은 음악 채널로부터 CNN과 같은 뉴스 채널로 스위칭하고자 할 때, 사용자에게 편리하지 않다. 따라서, 영화들이 음악 부분들을 포함하는 시나리오에서는, 영화/음악 모드들의 수동 선택은 최적이 아니다. MTV의 음악 비디오들은 음악 모드를 요구할 것이지만, CNN의 스피치는 영화 설정을 요구할 것이다. 이 시나리오가 적용될 때 본 발명은 설정을 자동으로 조절할 것이다.
따라서, 도 2A는 오디오 분류기(104)를 가진 현재의 재분배 시스템(2O2)을 업그레이드시킨 블록도를 도시한다.
종래 N-to-M 재분배 유닛(202)을 가진 본 발명의 구현예는 설명된 실시예에 서 다음과 같이 수행된다:
N-to-M 블록(202)은 영화 모드에서 Dolby Pro Logic ⅡTM 디코더를 포함한다. 분류기(104)는 두 개의 클래스들, 즉 음악 및 영화를 포함한다. 파라미터 P는 입력 오디오(x1,...,xN)가 음악일 확률이다(P는 전체 범위[0; 1]에 대한 연속 변수이다).
이제, N-to-M 블록(203)은 도 2B에 도시된 기능을 수행하도록 구현될 수 있다.
도 2B에서, Lf는 좌전방 신호, Rf는 우전방 신호, C는 중앙 신호, Ls는 좌측 서라운드 신호, Rs는 우측 서라운드 신호, LFE는 저-주파 효과 신호(서브우퍼)이다. 파라미터 a는 예컨대, 0.5의 값을 가진 상수이다. 파라미터 a는 음악 모드에서 중앙 소스 폭을 정의한다.
파라미터 P는 프레임들에서 결정되며, 따라서 이는 시간에 따라 변한다. 오디오의 콘텐트가 시간에 따라 변할 때, 중앙 신호의 재생은 P에 의존하여 변한다. 따라서, 오디오 분류기(104)는 점진적으로 변화하는 제어 신호들, 특히 파라미터 P를 시간-의존적 방법으로 생성하도록 적응된다. 또한, 오디오 분류기(104)는 프레임당 또는 블록당 점진적으로 변화하는 제어 신호들을 생성하도록 적응된다. 따라서, 오디오 분류기는 그 제어 신호로서 확률 P를 생성하도록 적응되며, 이 확률 P는 0과 1 사이의 임의의 값을 가질 수 있고, 이는 오디오 데이터 입력 신호들이 음악에 속할 가능성 및 오디오 데이터 입력 신호들이 영화에 속할 가능성(1-P)을 반영한다.
도 2B로부터 또한 명백한 바와 같이, 오디오 분류기(104)는 확률들 P 및 (1-P)의 선형 결합에 기초하여 오디오 데이터 출력 신호들을 생성하도록 적응된다.
이후, 도 3A, 및 도 3B를 참조하면, 본 발명의 제 3 실시예에 따른 오디오 데이터 처리 디바이스(300)가 설명될 것이다.
오디오 데이터 처리 디바이스(300)는 하나의 빌딩 블록(building block)인 N-to-M 재분배기(301)에 통합된 재분배 유닛(202) 및 후-처리 유닛(203)을 갖는다. 따라서, 오디오 데이터 처리 디바이스(300)는 재분배 및 분류를 통합한다.
N-to-M 재분배기(301)는 다음과 같이 구현될 수 있다. M개의 출력 채널들(102)은 N개의 입력 채널들(103)의 선형 결합들이다. 매트릭스 파라미터들
Figure 112007045470786-pct00001
은 분류기(302)에서 나오는 확률들 P의 함수이다. 이것은 프레임들에서 수행될 수 있는데(신호 샘플들의 블록들인), 이는 확률들 P가 또한 설명된 실시예에서 프레임들에서 결정되기 때문이다.
도 3A에 도시된 시스템의 실제적인 애플리케이션은 5.1 서라운드 변환 시스템에 대한 스테레오이다. 오디오-믹싱은 콘텐트-의존적이기 때문에, 고-품질의 결과들은 그러한 시스템이 적용되었을 때 얻어진다. 예를 들어, 스피치는 중앙 스피커에 패닝된다. 보컬은 중앙에서 패닝되어 좌/우로 분리된다. 박수는 후방 스피커들에서 패닝된다. 이러한 입력 신호들(x1,...,xN)을 출력 신호들(y1,...,yM)로 변환하는 것은 변환 매트릭스
Figure 112010074595678-pct00002
에 기초하여 수행되며, 그것의 순서는 확률들 P에 의존한다.
이하, 도 4A 및 도 4B를 참조하여, 제 4 실시예에 따른 오디오 데이터 처리 디바이스(400)가 설명될 것이다.
도 4A 및 도 4B는 오디오 분류기(401)에 의해 생성된 매트릭스
Figure 112010074595678-pct00003
가 N-to-M 재분배기(301)를 위한 제어 신호들의 소스로 역할하는 구성을 도시하고 있다. 따라서, 오디오 데이터 처리 디바이스(400)의 경우, 매트릭스
Figure 112010074595678-pct00004
의 요소들은 오디오 데이터 입력 신호들(xi, i=l,..,N, 즉, x1,...,xN)에 의존한다. 따라서, 제 4 실시예에서 산출되어야 하는 확률 P(매트릭스 요소의 다음 산출을 위한 기초로서 사용되는)는 없다. 대신, 제 4 실시예에 따른 오디오 분류기(401)는 오디오 데이터 입력 신호들(xi)로부터 변환 매트릭스
Figure 112010074595678-pct00005
의 요소들을 자동으로 그리고 직접 유도하기 위해 미리-연습된 자체-적응적 오디오 분류기(401)로서 구현된다. 그러므로 오디오 특징들은 오디오 데이터 입력 신호들(xi)로부터 유도될 수 있다. 그 후, 매핑 함수가 학습될 수 있고, 이는 이러한 특징들의 (학습된) 함수로서 액티브 매트릭스 계수들을 제공한다. 즉, 제 4 실시예에 따르면, 액티브 변환 매트릭스의 요소들은 개별적으로 결정된 확률 값 P에 의존하여 생성되는 대신에, 입력 신호들에 직접 의존할 수 있다.
"포함하는"의 용어는 그들이 특정된 것 이외의 다른 구성들 및 단계들을 배제하지 않으며, "a" 또는 "an"은 복수를 배제하지 않는 것으로 이해되어야 한다. 또한, 상이한 실시예들과 연관되어 설명된 구성들은 결합될 수 있다.
청구항들에서의 참조 부호들은 청구항들의 범위를 한정하는 것으로 해석되어서는 안됨을 주의해야 한다.

Claims (20)

  1. 오디오 데이터 처리 디바이스에 있어서,
    제 2 수의 입력 채널들로부터 수신되는 제 2 수의 오디오 데이터 입력 신호들(x1 ... xN)에 기초하고, 상기 제 2 수의 오디오 데이터 입력 신호들(x1 ... xN)에 응답하여, 제 1 수의 출력 채널들에서 출력될 제 1 수의 오디오 데이터 출력 신호들(z1 ... zM)을 생성하는 오디오 재분배기; 및
    상기 제 2 수의 오디오 데이터 입력 신호들에 응답하는 오디오 분류기로서, 상기 제 2 수의 오디오 데이터 입력 신호들(x1 ... xN)이 분류되는 오디오 콘텐트의 유형들에 대한 점진적으로 변화하는 의존성에 따라, 점진적으로 변화하는 제어 신호들(P)을 생성하는 상기 오디오 분류기를 포함하고,
    상기 오디오 재분배기는 상기 점진적으로 변화하는 제어 신호들에 응답하여 상기 제 2 수의 오디오 데이터 입력 신호들(x1 ... xN)로부터 상기 제 1 수의 오디오 데이터 출력 신호들(z1 ... zM)을 생성하는, 오디오 데이터 처리 디바이스.
  2. 제 1 항에 있어서,
    상기 오디오 분류기는, 상기 오디오 분류기가 기준 오디오 데이터를 미리 제공받는다는 점에서 오디오 콘텐트의 상이한 유형들을 구별하도록 사용하기 전에 연습되는 자체-적응적 오디오 분류기인, 오디오 데이터 처리 디바이스.
  3. 제 1 항에 있어서,
    상기 오디오 분류기는 상기 오디오 분류기에 오디오 데이터 입력 신호들을 제공하는 것을 통해 오디오 콘텐트의 상이한 유형들을 구별하도록 사용 동안에 연습되는 자체-적응적 오디오 분류기인, 오디오 데이터 처리 디바이스.
  4. 제 1 항에 있어서,
    상기 제 1 수 또는 상기 제 2 수는 1 보다 큰, 오디오 데이터 처리 디바이스.
  5. 제 1 항에 있어서,
    상기 제 1 수는 상기 제 2 수보다 큰, 오디오 데이터 처리 디바이스.
  6. 제 1 항에 있어서,
    상기 오디오 분류기는 시간-의존적 방법으로 상기 점진적으로 변화하는 제어 신호들(P)을 생성하도록 적응되는, 오디오 데이터 처리 디바이스.
  7. 제 1 항에 있어서,
    상기 오디오 분류기는 프레임 단위로 또는 블록 단위로 상기 점진적으로 변화하는 제어 신호들(P)을 생성하도록 적응되는, 오디오 데이터 처리 디바이스.
  8. 제 1 항에 있어서,
    상기 오디오 분류기는 상기 오디오 데이터 입력 신호들(x1 ... xN)의 물리적 의미에 대한 점진적으로 변화하는 의존성에 따라, 상기 점진적으로 변화하는 제어 신호들(P)을 생성하도록 적응되는, 오디오 데이터 처리 디바이스.
  9. 제 1 항에 있어서,
    오디오 콘텐트의 상이한 유형들은 상이한 오디오 장르들에 대응하는, 오디오 데이터 처리 디바이스.
  10. 제 1 항에 있어서,
    상기 오디오 분류기는 상기 제어 신호들(P)로서, 0 과 1 사이에 임의의 값을 가질 수 있는 하나 이상의 확률들을 생성하도록 적응되며, 각각의 확률은 오디오 데이터 입력 신호들(x1 ... xN)이 대응하는 유형의 오디오 콘텐트에 속하는 가능성을 반영하는, 오디오 데이터 처리 디바이스.
  11. 제 10 항에 있어서,
    상기 오디오 재분배기는 상기 확률들의 선형 결합에 기초하여 상기 오디오 데이터 출력 신호들(z1 ... zM)을 생성하도록 적응되는, 오디오 데이터 처리 디바이스.
  12. 제 1 항에 있어서,
    상기 오디오 분류기는 상기 제어 신호들(P)로서, 0 과 1 사이의 임의의 값을 가질 수 있는 하나 이상의 확률들을 생성하도록 적응되고, 각각의 확률은 오디오 데이터 입력 신호들(x1 ... xN)이 대응하는 유형의 오디오 콘텐트에 속하는 가능성을 반영하며, 상기 오디오 분류기는 액티브 매트릭스의 형태로 상기 점진적으로 변화하는 제어 신호들(P)을 생성하도록 적응되는, 오디오 데이터 처리 디바이스.
  13. 제 12 항에 있어서,
    상기 매트릭스의 요소들은 상기 하나 이상의 확률들에 종속하는, 오디오 데이터 처리 디바이스.
  14. 제 12 항에 있어서,
    상기 매트릭스 요소들은 상기 오디오 데이터 입력 신호들(x1 ... xN)에 종속하는, 오디오 데이터 처리 디바이스.
  15. 제 1 항에 있어서,
    상기 오디오 재분배기는 제 1 서브-유닛 및 제 2 서브-유닛을 포함하고,
    상기 제 1 서브-유닛은 상기 오디오 분류기의 제어 신호들(P)과 상관없이, 상기 제 2 수의 오디오 데이터 입력 신호들(x1 ... xN)에 기초하여 제 1 수의 오디오 데이터 중간 신호들(y1 ...yM)을 생성하도록 적응되며;
    상기 제 2 서브-유닛은 상기 오디오 분류기의 제어 신호들(P)에 따라 상기 제 1 개의 오디오 데이터 중간 신호들(y1 ...yM)에 기초하여 상기 제 1 수의 오디오 데이터 출력 신호들(z1 ... zM)을 생성하도록 적응되는, 오디오 데이터 처리 디바이스.
  16. 제 1 항에 있어서,
    상기 오디오 데이터 처리 디바이스는 집적 회로로 구현되는, 오디오 데이터 처리 디바이스.
  17. 제 1 항에 있어서,
    상기 오디오 데이터 처리 디바이스는 버추얼라이저(virtualizer) 또는 휴대용 오디오 플레이어 또는 DVD 플레이어 또는 MP3 플레이어 또는 인터넷 무선 디바이스로 구현되는, 오디오 데이터 처리 디바이스.
  18. 오디오 데이터 처리 방법에 있어서,
    제 2 수의 입력 채널들로부터 수신되는 제 2 수의 오디오 데이터 입력 신호들(x1 ... xN)에 기초하고, 상기 제 2 수의 오디오 데이터 입력 신호들(x1 ... xN)에 응답하여, 제 1 수의 출력 채널들에서 출력될 제 1 수의 오디오 데이터 출력 신호들(z1 ... zM)을 생성함으로써 오디오 데이터 입력 신호들을 재분배하는 단계; 및
    상기 제 2 수의 오디오 데이터 입력 신호들에 응답하여 수행되는 단계로서, 상기 제 2 수의 오디오 데이터 입력 신호들(x1 ... xN)이 분류되는 오디오 콘텐트의 유형들에 대한 점진적으로 변화하는 의존성에 따라, 점진적으로 변화하는 제어 신호들(P)을 생성하도록 상기 오디오 데이터 입력 신호들을 분류하는 단계를 포함하고,
    상기 재분배하는 단계에서는 상기 점진적으로 변화하는 제어 신호들에 응답하여 상기 제 2 수의 오디오 데이터 입력 신호들(x1 ... xN)로부터 상기 제 1 수의 오디오 데이터 출력 신호들(z1 ... zM)을 생성하는, 오디오 데이터 처리 방법.
  19. 삭제
  20. 프로세서에 의해 실행될 때, 오디오 데이터를 처리하는 방법을 수행하도록 적응되는 컴퓨터 프로그램이 저장된, 컴퓨터-판독 가능한 매체에 있어서, 상기 방법은,
    제 2 수의 입력 채널들로부터 수신되는 제 2 수의 오디오 데이터 입력 신호들(x1 ... xN)에 기초하고, 상기 제 2 수의 오디오 데이터 입력 신호들(x1 ... xN)에 응답하여, 제 1 수의 출력 채널들에서 출력될 제 1 수의 오디오 데이터 출력 신호들(z1 ... zM)을 생성함으로써 오디오 데이터 입력 신호들을 재분배하는 단계; 및
    상기 제 2 수의 오디오 데이터 입력 신호들에 응답하여 수행되는 단계로서, 상기 제 2 수의 오디오 데이터 입력 신호들(x1 ... xN)이 분류되는 오디오 콘텐트의 유형들에 대한 점진적으로 변화하는 의존성에 따라, 점진적으로 변화하는 제어 신호들(P)을 생성하도록 상기 오디오 데이터 입력 신호들을 분류하는 단계를 포함하고,
    상기 재분배하는 단계에서는 상기 점진적으로 변화하는 제어 신호들에 응답하여 상기 제 2 수의 오디오 데이터 입력 신호들(x1 ... xN)로부터 상기 제 1 수의 오디오 데이터 출력 신호들(z1 ... zM)을 생성하는, 컴퓨터-판독 가능한 매체.
KR1020077014295A 2004-11-23 2005-11-16 오디오 데이터를 처리하기 위한 디바이스 및 방법, 컴퓨터프로그램 요소 및 컴퓨터-판독가능한 매체 KR101243687B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP04106009 2004-11-23
EP04106009.6 2004-11-23
PCT/IB2005/053780 WO2006056910A1 (en) 2004-11-23 2005-11-16 A device and a method to process audio data, a computer program element and computer-readable medium

Publications (2)

Publication Number Publication Date
KR20070086580A KR20070086580A (ko) 2007-08-27
KR101243687B1 true KR101243687B1 (ko) 2013-03-14

Family

ID=36061695

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020077014295A KR101243687B1 (ko) 2004-11-23 2005-11-16 오디오 데이터를 처리하기 위한 디바이스 및 방법, 컴퓨터프로그램 요소 및 컴퓨터-판독가능한 매체

Country Status (8)

Country Link
US (1) US7895138B2 (ko)
EP (1) EP1817938B1 (ko)
JP (1) JP5144272B2 (ko)
KR (1) KR101243687B1 (ko)
CN (1) CN101065988B (ko)
AT (1) ATE406075T1 (ko)
DE (1) DE602005009244D1 (ko)
WO (1) WO2006056910A1 (ko)

Families Citing this family (99)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9384196B2 (en) 2005-10-26 2016-07-05 Cortica, Ltd. Signature generation for multimedia deep-content-classification by a large-scale matching system and method thereof
US11019161B2 (en) 2005-10-26 2021-05-25 Cortica, Ltd. System and method for profiling users interest based on multimedia content analysis
US9953032B2 (en) 2005-10-26 2018-04-24 Cortica, Ltd. System and method for characterization of multimedia content signals using cores of a natural liquid architecture system
US10193990B2 (en) 2005-10-26 2019-01-29 Cortica Ltd. System and method for creating user profiles based on multimedia content
US9191626B2 (en) 2005-10-26 2015-11-17 Cortica, Ltd. System and methods thereof for visual analysis of an image on a web-page and matching an advertisement thereto
US10585934B2 (en) 2005-10-26 2020-03-10 Cortica Ltd. Method and system for populating a concept database with respect to user identifiers
US10949773B2 (en) 2005-10-26 2021-03-16 Cortica, Ltd. System and methods thereof for recommending tags for multimedia content elements based on context
US10380164B2 (en) 2005-10-26 2019-08-13 Cortica, Ltd. System and method for using on-image gestures and multimedia content elements as search queries
US10742340B2 (en) 2005-10-26 2020-08-11 Cortica Ltd. System and method for identifying the context of multimedia content elements displayed in a web-page and providing contextual filters respective thereto
US8312031B2 (en) 2005-10-26 2012-11-13 Cortica Ltd. System and method for generation of complex signatures for multimedia data content
US9477658B2 (en) 2005-10-26 2016-10-25 Cortica, Ltd. Systems and method for speech to speech translation using cores of a natural liquid architecture system
US11003706B2 (en) 2005-10-26 2021-05-11 Cortica Ltd System and methods for determining access permissions on personalized clusters of multimedia content elements
US9767143B2 (en) 2005-10-26 2017-09-19 Cortica, Ltd. System and method for caching of concept structures
US11604847B2 (en) 2005-10-26 2023-03-14 Cortica Ltd. System and method for overlaying content on a multimedia content element based on user interest
US10180942B2 (en) 2005-10-26 2019-01-15 Cortica Ltd. System and method for generation of concept structures based on sub-concepts
US10360253B2 (en) 2005-10-26 2019-07-23 Cortica, Ltd. Systems and methods for generation of searchable structures respective of multimedia data content
US8266185B2 (en) 2005-10-26 2012-09-11 Cortica Ltd. System and methods thereof for generation of searchable structures respective of multimedia data content
US10621988B2 (en) 2005-10-26 2020-04-14 Cortica Ltd System and method for speech to text translation using cores of a natural liquid architecture system
US11032017B2 (en) 2005-10-26 2021-06-08 Cortica, Ltd. System and method for identifying the context of multimedia content elements
US10776585B2 (en) 2005-10-26 2020-09-15 Cortica, Ltd. System and method for recognizing characters in multimedia content
US10614626B2 (en) 2005-10-26 2020-04-07 Cortica Ltd. System and method for providing augmented reality challenges
US10191976B2 (en) 2005-10-26 2019-01-29 Cortica, Ltd. System and method of detecting common patterns within unstructured data elements retrieved from big data sources
US9529984B2 (en) 2005-10-26 2016-12-27 Cortica, Ltd. System and method for verification of user identification based on multimedia content elements
US9747420B2 (en) 2005-10-26 2017-08-29 Cortica, Ltd. System and method for diagnosing a patient based on an analysis of multimedia content
US8818916B2 (en) 2005-10-26 2014-08-26 Cortica, Ltd. System and method for linking multimedia data elements to web pages
US8326775B2 (en) * 2005-10-26 2012-12-04 Cortica Ltd. Signature generation for multimedia deep-content-classification by a large-scale matching system and method thereof
US10535192B2 (en) 2005-10-26 2020-01-14 Cortica Ltd. System and method for generating a customized augmented reality environment to a user
US9031999B2 (en) 2005-10-26 2015-05-12 Cortica, Ltd. System and methods for generation of a concept based database
US10380267B2 (en) 2005-10-26 2019-08-13 Cortica, Ltd. System and method for tagging multimedia content elements
US11216498B2 (en) 2005-10-26 2022-01-04 Cortica, Ltd. System and method for generating signatures to three-dimensional multimedia data elements
US9218606B2 (en) 2005-10-26 2015-12-22 Cortica, Ltd. System and method for brand monitoring and trend analysis based on deep-content-classification
US10372746B2 (en) 2005-10-26 2019-08-06 Cortica, Ltd. System and method for searching applications using multimedia content elements
US10691642B2 (en) 2005-10-26 2020-06-23 Cortica Ltd System and method for enriching a concept database with homogenous concepts
US9646005B2 (en) 2005-10-26 2017-05-09 Cortica, Ltd. System and method for creating a database of multimedia content elements assigned to users
US11386139B2 (en) 2005-10-26 2022-07-12 Cortica Ltd. System and method for generating analytics for entities depicted in multimedia content
US11620327B2 (en) 2005-10-26 2023-04-04 Cortica Ltd System and method for determining a contextual insight and generating an interface with recommendations based thereon
US11403336B2 (en) 2005-10-26 2022-08-02 Cortica Ltd. System and method for removing contextually identical multimedia content elements
US11361014B2 (en) 2005-10-26 2022-06-14 Cortica Ltd. System and method for completing a user profile
US10635640B2 (en) 2005-10-26 2020-04-28 Cortica, Ltd. System and method for enriching a concept database
US9372940B2 (en) 2005-10-26 2016-06-21 Cortica, Ltd. Apparatus and method for determining user attention using a deep-content-classification (DCC) system
US10387914B2 (en) 2005-10-26 2019-08-20 Cortica, Ltd. Method for identification of multimedia content elements and adding advertising content respective thereof
US10607355B2 (en) 2005-10-26 2020-03-31 Cortica, Ltd. Method and system for determining the dimensions of an object shown in a multimedia content item
US10380623B2 (en) 2005-10-26 2019-08-13 Cortica, Ltd. System and method for generating an advertisement effectiveness performance score
US10848590B2 (en) 2005-10-26 2020-11-24 Cortica Ltd System and method for determining a contextual insight and providing recommendations based thereon
US10698939B2 (en) 2005-10-26 2020-06-30 Cortica Ltd System and method for customizing images
RU2454825C2 (ru) * 2006-09-14 2012-06-27 Конинклейке Филипс Электроникс Н.В. Манипулирование зоной наилучшего восприятия для многоканального сигнала
US10733326B2 (en) 2006-10-26 2020-08-04 Cortica Ltd. System and method for identification of inappropriate multimedia content
EP2083584B1 (en) 2008-01-23 2010-09-15 LG Electronics Inc. A method and an apparatus for processing an audio signal
KR100998913B1 (ko) * 2008-01-23 2010-12-08 엘지전자 주식회사 오디오 신호의 처리 방법 및 이의 장치
WO2009093867A2 (en) 2008-01-23 2009-07-30 Lg Electronics Inc. A method and an apparatus for processing audio signal
US8351629B2 (en) 2008-02-21 2013-01-08 Robert Preston Parker Waveguide electroacoustical transducing
US8295526B2 (en) 2008-02-21 2012-10-23 Bose Corporation Low frequency enclosure for video display devices
US8351630B2 (en) 2008-05-02 2013-01-08 Bose Corporation Passive directional acoustical radiating
EP2327072B1 (en) * 2008-08-14 2013-03-20 Dolby Laboratories Licensing Corporation Audio signal transformatting
KR101073407B1 (ko) * 2009-02-24 2011-10-13 주식회사 코아로직 오디오 데이터 믹싱 제어 방법 및 장치
EP2532178A1 (en) * 2010-02-02 2012-12-12 Koninklijke Philips Electronics N.V. Spatial sound reproduction
DE102010009745A1 (de) * 2010-03-01 2011-09-01 Gunnar Eisenberg Verfahren und Vorrichtung zur Verarbeitung von Audiodaten
US8139774B2 (en) * 2010-03-03 2012-03-20 Bose Corporation Multi-element directional acoustic arrays
US8265310B2 (en) 2010-03-03 2012-09-11 Bose Corporation Multi-element directional acoustic arrays
RU2551792C2 (ru) * 2010-06-02 2015-05-27 Конинклейке Филипс Электроникс Н.В. Система и способ для обработки звука
US8553894B2 (en) 2010-08-12 2013-10-08 Bose Corporation Active and passive directional acoustic radiating
CN102802112B (zh) * 2011-05-24 2014-08-13 鸿富锦精密工业(深圳)有限公司 具有音频文件格式转换功能的电子装置
US9729992B1 (en) 2013-03-14 2017-08-08 Apple Inc. Front loudspeaker directivity for surround sound systems
CN105075117B (zh) * 2013-03-15 2020-02-18 Dts(英属维尔京群岛)有限公司 根据多个音频主干进行自动多声道音乐混合的系统和方法
CN104079247B (zh) * 2013-03-26 2018-02-09 杜比实验室特许公司 均衡器控制器和控制方法以及音频再现设备
CN104078050A (zh) 2013-03-26 2014-10-01 杜比实验室特许公司 用于音频分类和音频处理的设备和方法
CN104080024B (zh) 2013-03-26 2019-02-19 杜比实验室特许公司 音量校平器控制器和控制方法以及音频分类器
US9628868B2 (en) 2014-07-16 2017-04-18 Crestron Electronics, Inc. Transmission of digital audio signals using an internet protocol
DE102014012184B4 (de) * 2014-08-20 2018-03-08 HST High Soft Tech GmbH Vorrichtung und Verfahren zur automatischen Erkennung und Klassifizierung von akustischen Signalen in einem Überwachungsbereich
US9451355B1 (en) 2015-03-31 2016-09-20 Bose Corporation Directional acoustic device
US10057701B2 (en) 2015-03-31 2018-08-21 Bose Corporation Method of manufacturing a loudspeaker
US10306392B2 (en) * 2015-11-03 2019-05-28 Dolby Laboratories Licensing Corporation Content-adaptive surround sound virtualization
US11195043B2 (en) 2015-12-15 2021-12-07 Cortica, Ltd. System and method for determining common patterns in multimedia content elements based on key points
US11760387B2 (en) 2017-07-05 2023-09-19 AutoBrains Technologies Ltd. Driving policies determination
WO2019012527A1 (en) 2017-07-09 2019-01-17 Cortica Ltd. ORGANIZATION OF DEPTH LEARNING NETWORKS
US10846544B2 (en) 2018-07-16 2020-11-24 Cartica Ai Ltd. Transportation prediction system and method
US10255898B1 (en) * 2018-08-09 2019-04-09 Google Llc Audio noise reduction using synchronized recordings
TWI689819B (zh) * 2018-09-27 2020-04-01 瑞昱半導體股份有限公司 音訊播放裝置及其運作方法
US11126870B2 (en) 2018-10-18 2021-09-21 Cartica Ai Ltd. Method and system for obstacle detection
US20200133308A1 (en) 2018-10-18 2020-04-30 Cartica Ai Ltd Vehicle to vehicle (v2v) communication less truck platooning
US10839694B2 (en) 2018-10-18 2020-11-17 Cartica Ai Ltd Blind spot alert
US11181911B2 (en) 2018-10-18 2021-11-23 Cartica Ai Ltd Control transfer of a vehicle
US11223340B2 (en) 2018-10-24 2022-01-11 Gracenote, Inc. Methods and apparatus to adjust audio playback settings
US11126869B2 (en) 2018-10-26 2021-09-21 Cartica Ai Ltd. Tracking after objects
US10748038B1 (en) 2019-03-31 2020-08-18 Cortica Ltd. Efficient calculation of a robust signature of a media unit
US10789535B2 (en) 2018-11-26 2020-09-29 Cartica Ai Ltd Detection of road elements
US11643005B2 (en) 2019-02-27 2023-05-09 Autobrains Technologies Ltd Adjusting adjustable headlights of a vehicle
US11285963B2 (en) 2019-03-10 2022-03-29 Cartica Ai Ltd. Driver-based prediction of dangerous events
US11694088B2 (en) 2019-03-13 2023-07-04 Cortica Ltd. Method for object detection using knowledge distillation
US11132548B2 (en) 2019-03-20 2021-09-28 Cortica Ltd. Determining object information that does not explicitly appear in a media unit signature
US10776669B1 (en) 2019-03-31 2020-09-15 Cortica Ltd. Signature generation and object detection that refer to rare scenes
US11222069B2 (en) 2019-03-31 2022-01-11 Cortica Ltd. Low-power calculation of a signature of a media unit
US10796444B1 (en) 2019-03-31 2020-10-06 Cortica Ltd Configuring spanning elements of a signature generator
US10789527B1 (en) 2019-03-31 2020-09-29 Cortica Ltd. Method for object detection using shallow neural networks
US11593662B2 (en) 2019-12-12 2023-02-28 Autobrains Technologies Ltd Unsupervised cluster generation
US10748022B1 (en) 2019-12-12 2020-08-18 Cartica Ai Ltd Crowd separation
US11590988B2 (en) 2020-03-19 2023-02-28 Autobrains Technologies Ltd Predictive turning assistant
US11827215B2 (en) 2020-03-31 2023-11-28 AutoBrains Technologies Ltd. Method for training a driving related object detector
US11756424B2 (en) 2020-07-24 2023-09-12 AutoBrains Technologies Ltd. Parking assist

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003067399A (ja) 2001-08-27 2003-03-07 Nec Corp オーディオ信号からの分類データの抽出方法と機械学習のためのオーディオ信号の表現方法、記録媒体、装置

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0837700A (ja) 1994-07-21 1996-02-06 Kenwood Corp 音場補正回路
JP3059350B2 (ja) * 1994-12-20 2000-07-04 旭化成マイクロシステム株式会社 オーディオ信号ミキシング装置
US6198827B1 (en) 1995-12-26 2001-03-06 Rocktron Corporation 5-2-5 Matrix system
US6044343A (en) 1997-06-27 2000-03-28 Advanced Micro Devices, Inc. Adaptive speech recognition with selective input data to a speech classifier
US20010044719A1 (en) * 1999-07-02 2001-11-22 Mitsubishi Electric Research Laboratories, Inc. Method and system for recognizing, indexing, and searching acoustic signals
EP2299735B1 (en) 2000-07-19 2014-04-23 Koninklijke Philips N.V. Multi-channel stereo-converter for deriving a stereo surround and/or audio center signal
TW576122B (en) 2000-08-31 2004-02-11 Dolby Lab Licensing Corp Method for apparatus for audio matrix decoding
JP2002215195A (ja) * 2000-11-06 2002-07-31 Matsushita Electric Ind Co Ltd 音楽信号処理装置
WO2004019656A2 (en) * 2001-02-07 2004-03-04 Dolby Laboratories Licensing Corporation Audio channel spatial translation
US7177432B2 (en) * 2001-05-07 2007-02-13 Harman International Industries, Incorporated Sound processing system with degraded signal optimization
DE10148351B4 (de) * 2001-09-29 2007-06-21 Grundig Multimedia B.V. Verfahren und Vorrichtung zur Auswahl eines Klangalgorithmus
JP2003333699A (ja) 2002-05-10 2003-11-21 Pioneer Electronic Corp マトリックス・サラウンドデコード装置
KR100988293B1 (ko) * 2002-08-07 2010-10-18 돌비 레버러토리즈 라이쎈싱 코오포레이션 오디오 채널 공간 트랜스레이션
WO2004049188A1 (en) * 2002-11-28 2004-06-10 Agency For Science, Technology And Research Summarizing digital audio data
JP4185770B2 (ja) * 2002-12-26 2008-11-26 パイオニア株式会社 音響装置および音響特性の変更方法および音響補正用プログラム
JP2004286894A (ja) * 2003-03-20 2004-10-14 Toshiba Corp 音声処理装置、放送受信装置、再生装置、音声処理システム、音声処理方法、放送受信方法、再生方法
US8311821B2 (en) * 2003-04-24 2012-11-13 Koninklijke Philips Electronics N.V. Parameterized temporal feature analysis
US7022907B2 (en) * 2004-03-25 2006-04-04 Microsoft Corporation Automatic music mood detection

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003067399A (ja) 2001-08-27 2003-03-07 Nec Corp オーディオ信号からの分類データの抽出方法と機械学習のためのオーディオ信号の表現方法、記録媒体、装置

Also Published As

Publication number Publication date
DE602005009244D1 (de) 2008-10-02
WO2006056910A1 (en) 2006-06-01
JP5144272B2 (ja) 2013-02-13
JP2008521046A (ja) 2008-06-19
EP1817938A1 (en) 2007-08-15
CN101065988B (zh) 2011-03-02
US20090157575A1 (en) 2009-06-18
ATE406075T1 (de) 2008-09-15
US7895138B2 (en) 2011-02-22
CN101065988A (zh) 2007-10-31
EP1817938B1 (en) 2008-08-20
KR20070086580A (ko) 2007-08-27

Similar Documents

Publication Publication Date Title
KR101243687B1 (ko) 오디오 데이터를 처리하기 위한 디바이스 및 방법, 컴퓨터프로그램 요소 및 컴퓨터-판독가능한 매체
US9282417B2 (en) Spatial sound reproduction
CN105074822B (zh) 用于音频分类和处理的装置和方法
KR102074135B1 (ko) 볼륨 레벨러 제어기 및 제어 방법
JP4913038B2 (ja) 音声レベル制御
CA2745842C (en) Method and apparatus for maintaining speech audibility in multi-channel audio with minimal impact on surround experience
CN101569092A (zh) 用于处理音频数据的系统
WO2019165038A1 (en) Content based dynamic audio settings
GB2550877A (en) Object-based audio rendering
US10389323B2 (en) Context-aware loudness control
US20220059102A1 (en) Methods, Apparatus and Systems for Dual-Ended Media Intelligence
CN110536225B (zh) 数据处理装置及数据处理方法
US8620012B2 (en) Apparatus and method for providing stereo effect in portable terminal
CN114420158A (zh) 模型训练方法及装置、目标频响信息确定方法及装置
JP2023539121A (ja) オーディオコンテンツの識別
US8370356B2 (en) Music search system, music search method, music search program and recording medium recording music search program
JP6954905B2 (ja) オーディオ信号を出力するためのシステム及びそれぞれの方法と設定装置
US20240029755A1 (en) Intelligent speech or dialogue enhancement
CN102726066B (zh) 空间声音再现
GB2620978A (en) Audio processing adaptation
JP2024509254A (ja) メディアタイプに基づく残響除去

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20160303

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20170308

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee