KR20130121173A

KR20130121173A - 시맨틱 오디오 트랙 믹서

Info

Publication number: KR20130121173A
Application number: KR1020137022973A
Authority: KR
Inventors: 크리스티안 율레; 위르겐 헤어레; 헤럴드 포프; 팔코 리더르부쉬
Original assignee: 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date: 2011-02-03
Filing date: 2012-01-11
Publication date: 2013-11-05
Also published as: TW201238279A; CA2826052A1; MX2013008919A; BR112013019792A2; HK1191131A1; WO2012104119A1; RU2013140574A; KR101512259B1; US20140037111A1; CN103597543A; AU2012213646A1; US9532136B2; JP2014508460A; RU2573228C2; CA2826052C; EP2485213A1; ES2561534T3; AU2012213646B2; EP2659485B8; BR112013019792B1

Abstract

복수의 오디오 트랙을 혼합 신호에 혼합하는 오디오 믹서는 시맨틱 혼합 명령을 수신하고, 상기 시맨틱 혼합 명령으로부터 상기 복수의 오디오 트랙에 대한 복수의 혼합 매개 변수를 도출하는 시맨틱 명령 인터프리터(30; 35); 상기 복수의 혼합 매개 변수에 따라 상기 복수의 오디오 트랙을 처리하는 오디오 트랙 프로세서(70; 75); 및 상기 오디오 트랙 프로세서에 의해 처리되는 상기 복수의 오디오 트랙을 상기 혼합 신호(MS)로 조합하는 오디오 트랙 조합기(76)를 포함한다. 상응하는 방법은 시맨틱 혼합 명령을 수신하는 단계; 상기 시맨틱 혼합 명령으로부터 상기 복수의 오디오 트랙에 대한 복수의 혼합 매개 변수를 도출하는 단계; 상기 복수의 혼합 매개 변수에 따라 상기 복수의 오디오 트랙을 처리하는 단계; 및 상기 혼합 신호를 형성하도록 상기 복수의 오디오 트랙의 처리로부터 생성되는 상기 복수의 오디오 트랙을 조합하는 단계를 포함한다.

Description

시맨틱 오디오 트랙 믹서{SEMANTIC AUDIO TRACK MIXER}

본 발명의 분야는 사용자의 사양에 따라 멀티 트랙 신호를 혼합하는 오디오 믹서에 관한 것이다. 본 발명의 분야는 오디오 신호 처리, 특히 사용자 정의된 기준의 세트에 따라 멀티 트랙 레코딩을 혼합하는 태스크에 관한 것이다. 본 발명의 분야는 혼합 신호와 복수의 오디오 트랙을 혼합하는 방법에 추가로 관련되어 있다. 본 발명의 분야는 또한 복수의 오디오 트랙을 혼합하는 방법을 수행하기 위해 컴퓨터에 명령하는 컴퓨터 프로그램에 관련되어 있다.

멀티미디어 콘텐츠의 계속 늘어나는 가용성이 사용자가 음악을 즐기고 음악과 상호 작용하는 새로운 방식을 가져온다. 이러한 가능성은 이러한 활동에서 사용자를 지원하기 위한 도구를 개발하는 도전을 동반한다.

정보 검색의 관점에서, 이러한 도전은 10년도 더 전에 취해졌고, 음악 정보 검색 및 수많은 상업적 애플리케이션의 활발한 연구 영역으로 이어졌다.

이 정도까지 다루어지지 않은 다른 측면은 멀티 트랙 형식으로 이용할 수 있는 콘텐츠와의 상호 작용이다. 멀티 트랙 형식은 각 사운드 객체(SO) 또는 객체의 그룹(스템(stem))에 대한 별도의 신호 및 시간 정렬된 신호(또한 단일 트랙(ST)으로 알려짐)로 구성될 수 있다. 하나의 정의에 따르면, 스템은 리믹스(remix)에서 이용하기 위해 (일반적으로 디스크 또는 테이프에) 별도로 저장된 믹스의 개별적인 구성 요소이다.

통상적인 음악 제작 프로세스에서, 다수의 단일 트랙은 세련된 방식으로 최종 사용자에게 전송되는 혼합 신호(MS)에 조합된다. 디지털 오디오 기술의 진행 중인 진화, 예를 들어 파라메트릭 객체 기반 오디오에 대한 새로운 오디오 형식의 개발은 훨씬 큰 정도까지 음악과의 상호 작용을 가능하게 한다. 사용자는 멀티 트랙 레코딩에 대한 액세스를 가지고, 혼합 프로세스를 능동적으로 제어할 수 있다. 일부 예술가가 자신의 노래 중 일부에 대한 스템을 해제하기 시작하였고, 이러한 의도는 청취자가 원하는 어떤 방식으로 음악을 자유롭게 리믹스하고 재사용할 수 있다는 것이다.

멀티 트랙 형식에서 해제된 음악 또는 오디오 작품(work)은 수많은 방식으로 이용될 수 있다. 사용자는 상이한 트랙에 대한 혼합 매개 변수를 제어하여, 다른 트랙을 감쇠하면서 선택된 트랙을 강조할 수 있다. 하나 이상의 트랙은 예를 들어 가라오케 또는 플레이어롱(play-along)을 위해 음소거(mute)될 수 있다. 에코, 잔향, 왜곡, 코러스 등과 같은 사운드 효과는 다른 트랙에 영향을 주지 않고 선택된 트랙에 적용될 수 있다. 하나 이상의 트랙은 멀티 트랙 형식에서 발췌될 수 있으며, 다른 음악 작품, 또는 오디오 북, 강의(lecture), 팟캐스트(podcast) 등과 같은 오디오 작품의 다른 형태로 이용될 수 있다. 다음의 설명에서, 여기에 개시된 가르침(teachings)의 적용은 예시적인 방식으로 녹음된 음악 작품의 마스터링(mastering)을 논의한다. 그러나, 복수의 단일 오디오 트랙을 혼합하는 것을 수반하는 임의의 녹음된 사운드의 처리가 여기에 개시된 가르침에 의해 동등하게 다루어지고 커버되도록 하기 위한 것으로 이해되어야 한다.

자동 혼합은 다수의 연구 프로젝트의 중심에 있다. 2009년에, Perez-Gonzalez 등은 멀티 트랙 신호의 자동 등화 방법을 설명하였다(E. Perez-Gonzalez and J. Reiss, "Automatic Equalization of Multi-Channel Audio Using Cross-Adaptive Methods", Proc. of the AES 127^th Conv., 2009). 저자는 멀티 트랙 신호의 각 신호에 대한 감쇠를 자동으로 설정하는 방법을 제시한다. 이득은 각 신호의 음량(loudness)이 모든 신호의 평균 음량과 동일하도록 결정된다. 동일한 저자에 의한 다른 논문은 "Automatic Gain and Fader Control for Live Mixing"를 다루고, Proc. of WASPAA, 2009에 발표되었다.

시맨틱(semantic) HiFi는 European Project IST-507913 (H. Vinet et al., "Semantic HiFi Final Report", Final Report of IST-507913, 2006)의 이름이다. 그것은 주로 멀티미디어 콘텐츠의 검색, 브라우징 및 공유에 관련되어 있다. 이것은 데이터베이스에서의 브라우징 및 내비게이팅, 플레이리스트(playlist) 생성, (절-코러스(verse-chorus) 식별과 같은 구조적 분석을 이용하는) 내부 트랙 내비게이션, 및 메타 데이터 공유를 포함한다. 그것은 또한 상호 작용/제작/편집을 다루며: 동기화(즉, 멀티 트랙 신호를 혼합하지 않고 오디오 신호를 "연결하는(concatenating)" 것), 음성 변환, 리듬 변환, 음성 제어 악기, 및 효과ff 포함하는 혼합을 생성한다.

다른 프로젝트는 "Structured Audio" 또는 MPEG 4 명칭 하에 알려져 있다. 구조화된 오디오는 신호의 상징적 및 시맨틱 설명((semantic description)을 이용하는 음파 데이터의 조작 및 액세스에 지각적으로 기반하여 낮은 비트 속도로 오디오 신호의 전송을 가능하게 한다(참조, B.L. Vcrcoc and W.G. Gardner and E.D. Scheirer, "Structured Audio: Creation. Transmission, and Rendering of Parametric 사운드 Representations", Proc. of IEEE, vol. 86, pp. 922-940, 1998). 그것은 다수의 스트림을 혼합하고 오디오 효과를 추가하는 파라메트릭 사운드 포스트 프로덕션(parametric 사운드 post-production)에 대한 기술을 특징으로 한다. 파라메트릭 설명(parametric description)은 사운드가 어떻게 합성되는지를 판단한다. 구조화된 오디오는 오디오 신호의 합성에 관련되어 있다.

국제 공개 번호 WO 2010/111373 A1 하에 공개된 국제 특허 출원에서, 상황 지각 음성 제어 인터페이스 및 시스템이 개시되어 있다. 음성 지향 사용자 인터페이스 시스템은 오디오 신호를 사용자에게 전달하는 적어도 하나의 스피커, 및 사용자의 음성 발화(speech utterance)를 캡처하는 적어도 하나의 마이크를 포함한다. 인터페이스 장치는 스피커 및 마이크와 인터페이스하고, 사용자가 들을 수 있도록 복수의 오디오 신호를 스피커에 제공한다. 제어 회로는 인터페이스 장치와 동작 가능하게 결합되고, 스피커를 통해 사용자에게 전달하기 위한 전경 오디오 신호로서 복수의 오디오 신호 중 적어도 하나를 선택하기 위해 구성된다. 제어 회로는 사용자의 음성 발화를 지각하고, 전경 오디오 신호의 선택을 제어하도록 지각된 음성 발화를 이용하기 위해 동작할 수 있다.

미국 특허 출원 공개 번호 US 2002/0087310 A1은 사용자와의 음성 대화를 처리하는 컴퓨터 구현 방법 및 시스템을 개시한다. 사용자의 음성 입력은 복수의 개념에 대한 단어를 포함한다. 사용자의 음성 입력은 수행될 서비스에 대한 요청을 포함한다. 사용자의 음성 입력의 음성 지각은 지각된 단어를 생성하는 데 사용된다. 대화 템플릿은 지각된 단어에 적용된다. 대화 템플릿은 미리 정해진 개념과 관련된 노드를 갖는다. 노드는 서로 다른 요청 처리 정보를 포함한다. 개념적 영역은 어느 노드가 지각된 단어의 개념과 거의 일치하는 개념과 관련되어 있는지에 따라 대화 템플릿 내에서 식별된다. 사용자의 요청은 식별된 개념적 영역 내에 포함된 노드의 요청 처리 정보를 이용하여 처리된다.

M. Kwong 및 R. Lel'ebvrc에 의한 논문 "Transient Detection of Audio Signals Based on an Adaptive Comb Filter in the Frequency Domain"은 음악 신호의 리듬 탐지에 적절한 과도 현상 탐지 알고리즘(transient detection algorithm)을 제공한다. 많은 오디오 신호에서, 저 에너지 과도 현상(energy transients)은 고 에너지 정상음(stationary 사운드s)에 의해 마스크된다. 이러한 마스크된 과도 현상 뿐만 아니라 높은 에너지 및 더욱 가시적인 과도 현상은 음악 신호의 리듬 및 시간 분할(time segmentation)에 대한 중요한 정보를 전달한다. 제안된 분할 알고리즘은 사운드 신호의 고정 구성 요소를 제거하기 위해 주파수 영역에서 적응 콤 필터링(adaptive comb filtering)과 조합된 정현파 모델을 이용한다. 필터링 후에, 잔여 신호의 시간 포락선(time envelope)은 과도 현상 구성 요소를 찾도록 분석된다. 그 결과는 제안된 알고리즘이 가장 낮은 에너지 과도 현상을 정확히 탐지할 수있다는 것을 보여준다.

멀티 트랙 레코딩의 혼합은 일반적으로 보통 전문가, 즉 믹싱 엔지니어에 의해 행해지는 제작 작업(authoring task)이다. 대화형 오디오 포맷과 같은 멀티미디어의 현재의 개발은 멀티 트랙 레코딩이 자동 방식으로 혼합되거나 비전문가에 의해 안내되는 반자동 방식으로 혼합될 필요가 있는 응용으로 이어진다. 자동으로 도출된 혼합 신호는 인간 전문가에 의해 생성된 혼합 신호에 비교할 만한 주관적인 음질을 갖기를 원한다.

여기에 개시된 가르침은 일반적인 목표를 다룬다. 가르침은 오디오 신호 처리, 특히 (궁극적인) 청취를 위해 사용자 정의된 레코딩 기준의 세트에 따라 멀티 트랙을 혼합하는 작업에 관련되어 있다. 여기에 개시된 가르침에 따라 복수의 오디오 트랙을 혼합 신호에 혼합하는 오디오 믹서 및 방법은 비전문가의 실질적 심미적인 아이디어와 생성된 혼합 신호 사이의 연결을 설정한다.

이러한 목표 및/또는 가능한 다른 목표 중 적어도 하나는 청구항 1 또는 청구항 16에 따른 오디오 믹서, 청구항 14 또는 청구항 17에 따른 복수의 오디오 트랙을 혼합하는 방법, 및 청구항 15 또는 청구항 18에 따른 컴퓨터 프로그램에 의해 달성된다.

여기에 개시된 가르침에 따르면, 복수의 오디오 트랙을 혼합 신호에 혼합하는 오디오 믹서는 시맨틱 명령 인터프리터(command interpreter), 오디오 트랙 프로세서 및 오디오 트랙 조합기를 포함한다. 시맨틱 명령 인터프리터는 시맨틱 혼합 명령을 수신하고, 시맨틱 혼합 명령으로부터 복수의 오디오 트랙에 대한 복수의 혼합 매개 변수를 도출하기 위해 구성된다. 오디오 트랙 프로세서는 복수의 혼합 매개 변수에 따라 복수의 오디오 트랙을 처리하기 위해 구성된다. 오디오 트랙 조합기는 오디오 트랙 프로세서에 의해 처리되는 복수의 오디오 트랙을 혼합 신호로 조합하기 위해 구성된다.

개시된 가르침에 따라 복수의 오디오 트랙을 혼합 신호에 혼합하는 방법은 시맨틱 혼합 명령을 수신하는 단계; 시맨틱 혼합 명령으로부터 복수의 오디오 트랙에 대한 복수의 혼합 매개 변수를 도출하는 단계; 복수의 혼합 매개 변수에 따라 복수의 오디오 트랙을 처리하는 단계; 및 혼합 신호를 형성하도록 복수의 오디오 트랙의 처리로부터 생성되는 복수의 오디오 트랙을 조합하는 단계를 포함한다.

컴퓨터 프로그램은 컴퓨터 또는 프로세서가 복수의 오디오 트랙을 혼합하는 방법을 수행하도록 하기 위한 명령어를 포함하거나 나타낸다. 컴퓨터 프로그램은 컴퓨터 상에서 실행할 때 청구항 14에 따른 방법을 수행하기 위해 상기 컴퓨터 프로그램을 저장한 컴퓨터 판독 가능한 매체에서 실시될 수 있다.

시맨틱 혼합 명령은 원하는 생성된 혼합 신호의 시맨틱 설명을 제공하는 사용자 정의된 기준에 기초할 수 있다. 여기에 개시된 가르침에 따르면, 시맨틱 오디오 분석, 음향 심리학, 및 오디오 신호 처리는 시맨틱 설명에 기초하여 혼합 신호를 자동으로 도출하기 위해 서로 통합될 수 있다. 이러한 프로세스는 "시맨틱 혼합(Semantic Mixing)"이라고 할 수 있다.

시맨틱 혼합은 컴퓨터가 사용자에 의해 주어진 사양에 따라 멀티 트랙 레코딩을 혼합하도록 할 수 있는 방법으로 간주될 수 있다. 사양은 일반적으로 시맨틱 설명의 형식으로 제공된다. 이러한 시맨틱 설명이 주어지면, 혼합 매개 변수는 단일 트랙 및 인간 청각의 특성을 고려하여 결정될 수 있다.

따라서, 여기에 개시된 가르침에 따른 오디오 믹서는 일반적으로 컴퓨터 또는 프로세서를 포함하거나, 컴퓨터/프로세서와 상호 작용한다. 오디오 트랙 프로세서 및 오디오 트랙 조합기는 하나의 유닛으로 조합될 수 있다.

시맨틱 혼합 명령으로부터 복수의 혼합 매개 변수를 도출하는 단계는 시맨틱 혼합 명령 또는 이의 부분의 의미를 분석하는 단계를 포함할 수 있다. 시맨틱 혼합 명령의 부분은 단어 또는 단어의 그룹과 같은 시맨틱 표현(expression)일 수 있다. 그 다음, 시맨틱 표현은 복수의 오디오 트랙에 대한 특정 혼합 매개 변수의 세트로 번역될 수 있다. 따라서, 시맨틱 혼합 명령은 시맨틱 혼합 명령의 의미에 상응하는 특정 혼합 매개 변수에 의해 구현된다. 시맨틱 혼합 명령을 번역하는 동작 및/또는 시맨틱 표현을 구성하는 동작은 예를 들어 번역 기능을 평가하거나 룩업 테이블에 대해 질의하는 단계를 포함할 수 있다. 룩업 테이블에서의 번역 기능 또는 데이터 레코드의 매개 변수는 일반적으로 미리 정의되고, 예를 들어 경험이 풍부한 믹싱 엔지니어의 전문 지식의 컬렉션(collection)을 나타낸다. 전문 지식은 예를 들어 예술가 또는 음악 프로듀서에 의해 자신의 믹싱 엔지니어에 제공되는 구두 지시(oral instructions) 뿐만 아니라, 믹싱 엔지니어에 의해 수행된 설정을 로그인하여 시간이 지남에 따라 모여질 수 있다. 따라서, 번역 기능 및/또는 룩업 테이블은 전문가의 믹싱 엔지니어에 의해 훈련될 수 있다.

여기에 개시된 가르침의 양태에 따르면, 시맨틱 명령 인터프리터는 시맨틱 혼합 명령 내에서 시맨틱 표현을 식별하는 어휘 데이터베이스를 포함할 수 있다. 어휘 데이터베이스에 의해, 시맨틱 명령 인터프리터는 예를 들어 동의어를 식별할 수 있다. 또한, 시맨틱 혼합 명령에 포함된 단어 또는 단어의 그룹을 특정 값으로 매핑할 수 있다. 예를 들면, 악기("기타")를 식별하는 단어는 악기가 기록된 특정 채널 번호 또는 식별자에 매핑될 수 있다. 어휘 데이터베이스는 시작(예를 들어 "인트로(Intro)"), 코러스("Chorus)") 또는 끝(예를 들어 "코다(Coda)" 또는 "아웃트로(Outro)")와 같은 음악 부분의 어떤 부분을 식별하는 엔트리를 추가로 포함할 수 있다. 어휘 데이터베이스의 또 다른 가능한 용도는 "라우드(loud)", "소프트", "클리어", "머플드(muffled)", "디스턴트(distant)", "클로즈" 등과 같이 시맨틱 표현된 혼합 매개 변수 또는 스타일을 지각하고 지정하기 위한 것이다.

여기에 개시된 가르침의 실시예에서, 오디오 믹서는 복수의 오디오 트랙 중에서 타겟 오디오 트랙을 식별하는 오디오 트랙 식별자를 추가로 포함할 수 있다. 타겟 오디오 트랙은 오디오 트랙 식별 표현에 의해 시맨틱 혼합 명령 내에 나타낼 수 있다. 오디오 트랙 식별자는 복수의 오디오 트랙이 이들이 포함하는 어느 부분 또는 스템에 관해 명확하게 표시 또는 식별되지 않을 경우에 유용할 수 있다. 예를 들면, 오디오 트랙은 "트랙 1", "트랙 2", ... "트랙 N"로 단순히 번호가 매겨질 수 있다. 그 다음, 오디오 트랙 식별자는 트랙 식별 표현에 의해 식별된 오디오 트랙과 일치하는 것으로 보이는 하나 이상의 오디오 트랙 또는 오디오 트랙이 없음을 판단하기 위해 복수의 오디오 트랙의 각각을 분석할 수 있다.

오디오 트랙 식별자는 오디오 트랙 템플릿 데이터베이스로부터 오디오 트랙 식별 표현에 상응하는 데이터 레코드를 검색하고, 복수의 오디오 트랙 중에서 적어도 하나의 오디오 트랙의 트랙 이름, 트랙 식별자, 음색, 리듬 구조, 주파수 범위, 사운드 샘플, 및 하모닉 밀도 중 적어도 하나의 분석을 수행하고, 적어도 하나의 매칭 스코어(matching score)를 생성하는 데이터 레코드와 분석의 결과를 비교하며, 적어도 하나의 오디오 트랙과 데이터 레코드 사이의 적어도 하나의 매칭 스코어에 기초하여 타겟 오디오 트랙을 결정하도록 구성될 수 있다. 오디오 트랙 식별자에 의해 수행되는 태스크는 복수의 오디오 트랙 중에서 타겟 오디오 트랙을 식별하기 위한 것이다. 타겟 오디오 트랙은 오디오 트랙 식별 표현에 상응하며, 즉, 오디오 트랙 식별 표현이 "기타"인 경우에, 오디오 트랙 식별자에 의한 성공적인 식별 다음에 타겟 오디오 트랙이 일반적으로 음악 작품의 기타 부분을 포함해야 한다. 오디오 트랙 템플릿 데이터베이스는 악기 "기타"에 상응하는 데이터 레코드를 포함할 수 있으며, 데이터 레코드 자체는 기타에 특징적인 값 및/또는 정보를 포함한다. 예를 들면, 데이터 레코드는 전형적인 기타 사운드의 주파수 모델 및/또는 전형적인 기타 사운드의 발성-소멸(attack-decay) 모델을 포함할 수 있다. 데이터 레코드는 또한 오디오 트랙 식별자에 의해 유사성 분석을 위해 이용될 수 있는 기타의 사운드 샘플을 포함할 수 있다.

여기에 개시된 가르침의 양태에 따르면, 오디오 믹서는 복수의 오디오 트랙 내에서 타겟 시간 섹션을 식별하는 시간 섹션 식별자를 추가로 포함할 수 있으며, 타겟 시간 섹션은 시간 섹션 식별 표현에 의해 시맨틱 혼합 명령 내에 나타낸다. 사용자가 오디오 신호의 제 1 섹션(예를 들어 음악 작품)을 동일한 오디오 신호의 제 2 섹션과 상이하게 혼합하기를 원하는 경우에, 오디오 믹서는 일반적으로 특정 혼합 매개 변수를 오디오 신호의 이러한 섹션에 적용하기 위해 오디오 신호의 다양한 섹션이 시작하고 끝나는지를 알 필요가 있다.

시간 섹션 식별자는 복수의 오디오 트랙을 복수의 시간 섹션으로 구조화하도록 구성될 수 있다. 특히 음악 작품은 종종 음악 컨벤션(musical convention), 예를 들어 교대 절(alternating verse) 및 코러스 섹션을 가진 노래 형식에 의해 영향을 받는 어떤 구조를 갖는다. 이러한 지식은 먼저 복수의 오디오 트랙에 의해 나타내는 오디오 신호가 어떤 음악 구조를 따르는지를 판단하여, 오디오 신호의 시간 섹션을 음악 구조의 시간 섹션에 지정하도록 시간 섹션 식별자에 의해 활용될 수 있다. 이를 위해, 시간 섹션 식별자는 오디오 신호 내에서 순환 및/또는 유사한 패턴을 지각하는 패턴 지각기를 포함할 수 있다. 패턴 지각은 두서너 가지 예만 들면 멜로디 분석, 하모닉 분석 및 리듬 분석에 기초할 수 있다.

시간 섹션 식별자는 복수의 오디오 트랙에 의해 나타내는 오디오 신호의 특징적인 특성의 변경이 일어나는 적어도 한번의 시간 순간(time instant)을 결정하고, 적어도 한번의 결정된 시간 순간을 두 인접한 시간 섹션 사이의 적어도 하나의 경계로 이용하기 위한 복수의 오디오 트랙의 분석을 수행하도록 구성될 수 있다.

오디오 믹서는 복수의 오디오 트랙에 관한 메타 데이터를 수신하는 메타 데이터 인터페이스를 추가로 포함할 수 있으며, 메타 데이터는 트랙 이름, 트랙 식별자, 시간 구조 정보, 강도 정보, 오디오 트랙 또는 이의 부분의 공간적 속성, 음색 특성 및 리듬 특성 중 적어도 하나를 나타낸다. 메타 데이터는 복수의 오디오 트랙의 프로듀서에 의해 생성되어, 복수의 오디오 트랙을 혼합하는 오디오 믹서 또는 방법에 유용한 정보를 제공할 수 있다. 메타 데이터의 가용성은 다양한 오디오 트랙 및/또는 시간 섹션을 식별하기 위해 오디오 믹서 및 방법가 오디오 신호의 광범위한 분석을 수행하지 않게 한다. 메타 데이터 인터페이스는 또한 향후 재사용을 위해 분석의 결과(악기, 시간 구조, ...)를 저장하는 데 이용될 수 있다. 따라서, 복수의 오디오 트랙의 잠재적으로 긴 분석은 한 번만 수행될 필요가 있다. 더욱이, 자동으로 결정된 분석 결과에 대한 임의의 수동 정정은 또한 사용자가 동일한 문제를 반복해서 정정할 필요가 없도록 저장될 수 있다. 저장된 분석 결과를 가까이에 두고, 사용자는 동일한 메타 데이터를 이용하여 동일한 복수의 오디오 트랙으로부터 서로 다른 믹스 버전을 생성할 수 있다.

여기에 개시된 가르침의 양태에 따르면, 오디오 믹서는 언어 포맷의 시맨틱 혼합 명령을 수신하기 위한 명령 인터페이스를 추가로 포함할 수 있다. 언어 포맷은 사용자가 정상적인 언어에 의해 실질적으로 오디오 믹서에 의해 수행된 혼합의 결과에 대한 자신의 바램을 표현하도록 한다. 언어 포맷의 시맨틱 혼합 명령은 마이크를 이용한 구어(spoken language) 또는 예를 들어 키보드를 이용한 문어(written language)로 오디오 믹서에 입력될 수 있다.

여기에 개시된 가르침의 양태에 따르면, 오디오 믹서는 예시적인 혼합 신호를 수신하기 위한 예시적인 인터페이스, 및 예시적인 혼합 신호를 분석하고, 예시적인 혼합 신호의 분석에 기초하여 시맨틱 혼합 명령을 생성하기 위한 혼합 신호 분석기를 추가로 포함할 수 있다. 예시적인 인터페이스를 통해 제공되는 예시적인 혼합 신호를 이용하여, 혼합 신호 분석기는 어떤 특징이 예시적인 혼합 신호를 특성화하는지를 판단할 수 있다. 예를 들면, 혼합 신호 분석기는 (강하게 반복적인) 드럼 부분 및 베이스(bass) 부분에 엠퍼시스(emphasis)를 지각할 수 있지만, 멜로디는 덜 강조된다. 이러한 탐지된 특징은 소위 댄스-믹스(Dance-Mix), 즉 어떤 스타일의 혼합을 제시한다. 이러한 정보는 혼합 신호 분석기에서 시맨틱 명령 인터프리터에 제공될 수 있다. 이러한 정보에 기초하여, 시맨틱 명령 인터프리터는 예를 들어 드럼 부분 및 다른 부분에 대한 베이스 부분의 볼륨을 증가시킬 수 있다. 시맨틱 명령 인터프리터는 심지어 이러한 드럼 부분을 예를 들어 일반적으로 원하는 댄스 믹스 스타일에 이용되는 합성 드럼 부분으로 대체할 수 있다.

예시적인 인터페이스는 예시적인 혼합 신호가 획득된 복수의 예시적인 오디오 트랙을 수신하도록 추가로 구성될 수 있다. 생성된 예시적인 혼합 신호를 획득하기 위해 이용된 혼합 매개 변수를 결정하기 위해 혼합 신호 분석기는 예시적인 혼합 신호와 예시적인 오디오 트랙을 비교하도록 구성될 수 있다. 그 후, 혼합 신호 분석기에 의해 생성된 시맨틱 혼합 명령은 예시적인 오디오 트랙이 예시적인 혼합 신호를 형성하기 위해 함께 혼합되기 전에 수정되는 방법에 대한 설명을 포함할 수 있다. 예를 들면, 시맨틱 혼합 명령은 "드럼을 상당히 더 크게, 보컬을 적당히 더 부드럽게, 더욱 멀리, 고역 통과 필터로 필터링(drums significantly louder; vocals moderately softer, more distant, filtered with high pass filter)"과 같은 표현을 포함할 수 있다. 그리고 나서, 시맨틱 명령 인터프리터는 이러한 시맨틱 혼합 명령으로부터 복수의 혼합 매개 변수를 도출할 수 있다.

여기에 개시된 가르침의 다른 양태에 따르면, 시맨틱 명령 인터프리터는 혼합 신호의 청각 관련 특성의 지각 모델에 따라 시맨틱 혼합 명령을 복수의 혼합 매개 변수로 변환하는 지각 프로세서를 포함할 수 있다. 지각 모델은 일반적으로 어떤 혼합 매개 변수가 청취자에 대한 원하는 효과를 달성하기 위해 선택되어야 하는 방법을 나타내는 음향 심리학 규칙을 구현한다. 예를 들면, 거리의 느낌을 전달하기 위해, 잔향, 주파수 필터링 및 감쇠와 같은 여러 사운드 처리 동작이 수반될 수 있다. 일반적으로 음향 심리학 연구 결과에 기초하는 지각 모델은 원하는 효과의 실현을 위한 적절한 혼합 매개 변수의 결정을 용이하게 한다.

여기에 개시된 가르침의 다른 양태에 따르면, 시맨틱 명령 인터프리터는 시맨틱 명령 인터프리터에 의해 시맨틱 혼합 명령으로부터 도출된 적어도 하나의 퍼지 규칙을 수신하고, 적어도 하나의 퍼지 규칙에 기초하여 복수의 혼합 매개 변수를 생성하는 퍼지 논리 프로세서를 포함한다. 퍼지 논리 프로세서는 적어도 하나의 퍼지 규칙의 형식으로 시맨틱 혼합 명령을 처리하는데 적합하다. 적어도 하나의 퍼지 규칙은 실질적으로 시맨틱 영역에서 퍼지 논리 프로세서의 입력 수량을 퍼지 논리 프로세서의 출력 수량에 맵핑하며, 즉 제 1 시맨틱 포맷의 수량에서 제 2 시맨틱 포맷의 수량으로 매핑한다.

퍼지 논리 프로세서는 시맨틱 명령 인터프리터에 의해 준비된 적어도 두 개의 동의하는 퍼지 규칙을 수신하도록 구성될 수 있으며, 오디오 믹서는 적어도 두 개의 동의하는 퍼지 규칙 중 하나의 동의하는 퍼지 규칙을 선택하는 무작위 선택기를 추가로 포함한다. 둘 이상의 동의하는 퍼지 규칙으로부터의 퍼지 규칙의 선택을 무작위화함으로써, 예술적 자유의 환상(illusion of artistic freedom)은 오디오 믹서에 의해 생성된 혼합 신호가 오디오 믹서가 퍼지 규칙에 대해 더욱 엄격한 방식을 따를 경우일 수 있는 혼합 스타일이 관계하는 한 실질적으로 동일하게 소리내지 않는 경향이 있도록 생성될 수 있다.

복수의 오디오 트랙을 혼합하는 방법의 측면에서, 시맨틱 혼합 명령 내에서 시맨틱 표현을 식별하기 위한 어휘 데이터베이스가 질의를 받을 수 있다.

방법은 추가 또는 대안적으로 복수의 오디오 트랙 중 타겟 오디오 트랙의 식별을 포함할 수 있으며, 타겟 오디오 트랙은 오디오 트랙 식별 표현에 의해 시맨틱 혼합 명령 내에 나타낸다. 이를 위해, 오디오 트랙 템플릿 데이터베이스로부터 오디오 트랙 식별 표현에 상응하는 데이터 레코드가 검색될 수 있다. 그 다음, 복수의 오디오 트랙 중에서 적어도 하나의 오디오 트랙의 트랙 이름, 트랙 식별자, 음색, 리듬 구조, 주파수 범위, 사운드 샘플, 및 하모닉 밀도 중 적어도 하나의 분석이 수행될 수 있다. 분석의 결과는 적어도 하나의 매칭 스코어를 생성하는 데이터 레코드와 비교될 수 있다. 그 다음, 적어도 하나의 오디오 트랙과 데이터 레코드 사이의 적어도 하나의 매칭 스코어에 기초하여 타겟 오디오 트랙이 결정될 수 있다.

방법은 또한 복수의 오디오 트랙 내에서 타겟 시간 섹션을 식별하는 동작을 포함할 수 있으며, 타겟 시간 섹션은 시간 섹션 식별 표현에 의해 시맨틱 혼합 명령 내에 나타낸다. 타겟 시간 섹션을 식별하는 동작은 복수의 오디오 트랙을 복수의 시간 섹션으로 구조화하도록 구성될 수 있다. 시간 섹션 식별자는 복수의 오디오 트랙에 의해 나타내는 오디오 신호의 특징적인 특성의 변경이 일어나는 적어도 한번의 시간 순간을 결정하고, 적어도 한번의 결정된 시간 순간을 두 인접한 시간 섹션 사이의 적어도 하나의 경계로 이용하기 위한 복수의 오디오 트랙의 분석을 수행하는 것을 포함할 수 있다.

여기에 개시된 가르침의 다른 양태에 따르면, 방법은 메타 데이터 인터페이스에서 복수의 오디오 트랙에 관한 메타 데이터를 수신하는 단계를 추가로 포함할 수 있다. 메타 데이터는 트랙 이름, 트랙 식별자, 시간 구조 정보, 강도 정보, 오디오 트랙 또는 이의 부분의 공간적 속성, 음색 특성 및 리듬 특성 중 적어도 하나를 나타낼 수 있다.

방법은 상응하는 오디오 믹서의 명령 인터페이스에서 언어 포맷의 시맨틱 혼합 명령을 수신하는 단계를 추가로 포함할 수 있다.

여기에 개시된 가르침의 다른 양태에 따르면, 방법은 예시적인 인터페이스에서 예시적인 혼합 신호를 수신하는 단계, 혼합 신호 분석기에 의해 예시적인 혼합 신호를 분석하는 단계, 및 예시적인 혼합 신호의 분석에 기초하여 시맨틱 혼합 명령을 생성하는 단계를 추가로 포함할 수 있다.

시맨틱 혼합 명령으로부터 복수의 혼합 매개 변수를 도출하는 동작은 혼합 신호의 청각 관련 특성의 지각 모델에 따라 시맨틱 혼합 명령을 복수의 혼합 매개 변수로 변환하는 단계를 포함할 수 있다.

여기에 개시된 가르침의 양태에 따르면, 복수의 혼합 매개 변수를 도출하는 동작은 시맨틱 명령 인터프리터에 의해 시맨틱 혼합 명령으로부터 도출된 적어도 하나의 퍼지 규칙을 수신하는 단계, 및 적어도 하나의 퍼지 규칙에 기초하여 복수의 혼합 매개 변수를 생성하는 단계를 포함할 수 있다. 적어도 하나의 퍼지 규칙의 수신, 및 적어도 하나의 퍼지 규칙에 기초하는 복수의 혼합 매개 변수의 생성은 퍼지 논리 프로세서에 의해 수행될 수 있다.

방법은 적어도 두 개의 동의하는 퍼지 규칙을 수신하는 단계, 및 적어도 두 개의 동의하는 퍼지 규칙 중 하나의 동의하는 퍼지 규칙을 무작위로 선택하는 단계를 추가로 포함할 수 있다.

여기에 개시된 가르침은 다음과 같은 점에서 상술한 선행 기술과 상이하다:

- Perez-Gonzalez 등에 의해 제안된 방법은 처리를 제어하기 위해 시맨틱 설명을 고려하지 않는다.

- 시맨틱 HiFi 프로젝트는 멀티 트랙 포맷의 처리를 다루지 않는다. 그것은 시맨틱 설명에 따라 신호의 혼합을 다루지 않는다. 그것은 시맨틱 설명을 충족하는 혼합 신호를 계산하는 데 필요한 지각 양태를 다루지 않는다.

- "구조화된 오디오" 프로젝트는 오디오 신호의 합성에 관련되어 있다. 대조적으로, 여기에 개시된 가르침(시맨틱 혼합)은 오디오 신호의 혼합에 관련되어 있다.

여기에 개시된 가르침의 핵심 양태의 일부를 간단히 요약하면, 멀티 트랙 레코딩의 혼합은 제작 작업이다. 시맨틱 혼합은 시맨틱 설명에 의해 안내되는 멀티 트랙 레코딩을 혼합하기 위한 솔루션 개발을 목표로 한다. 그것은 시맨틱 오디오 분석, 음향 심리학 및 오디오 신호 처리 기술을 조합한다. 시맨틱 혼합은 음악 프로덕션, SAOC(Spatial Object Audio Coding), 홈 비디오 제작, 가상 현실 및 게임과 같은 다양한 응용에 적용할 수 있다.

시맨틱 혼합은 다음과 같은(부분적으로 선택적인) 특징으로 간략히 설명될 수 있다:

- 그것은 사용자 상호 작용을 위한 수단을 제공한다

- 시맨틱 혼합은 상당한 범위까지 지각 구성 요소를 다룬다. 이것은 또한 환경, 재생 시스템 및 사용자 선호도(preferences)에 대한 적응을 포함할 수 있다.

- 그것은 시맨틱 부분 및 음향 심리학 부분을 조합한다. 어떤 시맨틱 처리는 지각 양태를 고려할 필요가 있다. 그것은 시맨틱 분석(음악 정보 검색, 플레이리스트 생성)의 전통적인 응용에서보다는 오디오 신호 처리에 초점을 맞추고 있다. 그것은 콘텐츠와 상호 작용하는 새로운 방식을 목표로 한다.

- 그것은 멀티 트랙 레코딩의 처리에 관련되어 있다.

여기에 개시된 가르침은 특히 사용자의 사양에 따라 멀티 트랙 신호를 혼합하는 방법에 관한 것이다. 그것은 오디오 신호 처리, 특히 사용자 정의된 기준의 세트에 따라 멀티 트랙 레코딩을 혼합하는 태스크에 관한 것이다. 사용자 정의된 기준은 생성된 혼합 신호의 시맨틱 설명을 제공한다. 여기에 개시된 가르침은 시맨틱 설명에 기초하여 혼합 신호를 자동으로 도출하기 위해 오디오 분석, 음향 심리학 및 오디오 신호 처리를 통합할 수 있다.

여기에 개시된 가르침의 상기 특징 및 다른 특징은 첨부된 시맨틱 도면을 참조하여 예로서만 행해지는 다음과 같은 설명에서 명백할 것이다:
도 1은 오디오 믹서의 개략적인 블록도를 도시한다.
도 2는 대중 음악에서 자주 채용된 노래 구조의 음악 작품의 예시적인 시간 구조를 도시한다.
도 3은 클래식 음악에서 알려진 소나타 형식의 음악 작품의 다른 예시적인 시간 구조를 도시한다.
도 4는 대중 음악 레코딩의 예시적인 오디오 트랙 레이아웃을 도시한다.
도 5는 여기에 개시된 가르침에 따른 오디오 믹서의 개략적인 블록도를 도시한다.
도 6은 퍼지 논리 프로세서의 개략적인 블록도를 도시한다.
도 7은 퍼지 세트에 대한 예시적인 소속 함수(membership function)를 도시한다.
도 8은 퍼지 논리 프로세서를 포함하는 오디오 믹서의 개략적인 블록도를 도시한다.
도 9는 여기에 개시된 가르침에 따른 오디오 믹서의 다른 구성의 개략적인 블록도를 도시한다.
도 10은 여기에 개시된 가르침의 양태에 따른 시맨틱 혼합 명령 및 이의 분해를 도시한다.
도 11은 여기에 개시된 가르침의 양태에 따른 다른 시맨틱 혼합 명령 및 이의 분해를 도시한다.
도 12는 여기에 개시된 가르침에 따른 오디오 믹서의 추가의 구성의 개략적인 블록도를 도시한다.
도 13은 여기에 개시된 가르침에 따라 오디오 트랙 식별자를 포함하는 오디오 믹서의 구성의 개략적인 블록도를 도시한다.
도 14는 여기에 개시된 가르침에 따라 시간 섹션 식별자를 포함하는 오디오 믹서의 구성의 개략적인 블록도를 도시한다.
도 15는 여기에 개시된 가르침에 따라 메타 데이터 인터페이스를 포함하는 오디오 믹서의 구성의 개략적인 블록도를 도시한다.
도 16은 여기에 개시된 가르침에 따라 예시적인 혼합 신호를 수신하기 위해 예시적인 인터페이스를 포함하는 오디오 믹서의 구성의 개략적인 블록도를 도시한다.
도 17은 여기에 개시된 가르침에 따라 지각 프로세서 및 지각 모델을 포함하는 오디오 믹서의 구성의 개략적인 블록도를 도시한다.
도 18은 여기에 개시된 가르침에 따라 복수의 오디오 트랙을 혼합 신호에 혼합하는 방법의 개략적인 흐름도를 도시한다.

도 1은 오디오 믹서의 개략적인 블록도를 도시한다. 오디오 믹서는 혼합 신호 MS가 형성되도록 복수의 단일 트랙 ST를 조합하도록 한다. 단일 트랙 ST의 조합을 제어하기 위해, 각각의 단일 트랙은 일반적으로 개개의 신호 프로세서에 공급된다. 하나의 단일 트랙을 위한 개개의 신호 프로세서는 예를 들어 등화기 EQ, 패닝 제어부 PAN, 잔향기 REVERB, 볼륨 제어부 VOL, 및 아마 추가의 사운드 효과를 포함할 수 있다. 오디오 믹서의 중심 역할은 혼합 신호가 복수의 단일 트랙 ST에 의해 제공되는 오디오 신호의 균형 잡힌 중첩 신호가 되도록 복수의 단일 오디오 트랙 ST의 각각의 볼륨을 조절하는 것이다. 단일 트랙 ST의 사운드 효과 및 볼륨의 특정 설정이 균형 잡힌 중첩을 구성하는 결정은 일반적으로 믹싱 엔지니어에 의해 행해진다. 복수의 개개의 신호 프로세서는 복수의 오디오 트랙 신호를 수정한다. 그 다음, 수정된 오디오 트랙 신호는 혼합 신호 MS를 생성하기 위해 신호 조합기 ∑에서 조합된다.

도 2는 대중 음악 장르에 속하는 일반적인 노래의 시간 구조를 도시한다. 도 2 내에서 예로서 이용된 노래는 도입부(INTRO)로 시작하고, 뒤이어 절 섹션(VERSE 1), 코러스(CHORUS), 실질적으로 동일한 음악이지만 가사가 상이한 제 2 절 섹션(VERSE 2), 코러스의 반복, 브리지(BRIDGE), 코러스의 다른 반복, 및 코다 또는 아웃트로(OUTRO)가 이어진다. 이러한 기본 방식의 다수의 변형이 존재하지만, 보통 대부분의 사람에 대한 대중 음악 노래의 다양한 섹션을 구별할 수 있다. 예를 들면, 코러스는 일반적으로 실질적으로 가사 및 멜로디가 동일한 노래에 걸쳐 다양한 위치에서 반복되어, 청취자가 그것을 쉽게 지각할 수 있다.

도 3은 소나타 형식으로 구성되는 음악 작품의 시간 구조를 도시한다. 소나타 형식은 클래식 음악의 다수의 작곡가에 의해 이용되었다. 이름이 제시하는 바와 같이, 소나타 형식은 소나타, 일반적으로 이의 제 1 악장에 널리 이용된다. 많은 교향곡의 제 1 악장은 일반적으로 또한 소나타 형식이다. 소나타 형식의 특징적인 섹션은 제시부, 전개부 및 재현부이며, 여기서 기본적으로 동일한 음악 자료에는 특히 코드 진행과 관련하여 다양한 수정이 제공된다. 선택적으로, 도입부 및 코다는 제각기 음악 작품의 시작 및 끝에 제공될 수 있다. 소나타 형식의 다양한 시간 섹션을 구별하기 위한 몇 가지 경험을 가질 수 있지만, 그것은 일반적으로 인간의 청취자에게 가능하다.

믹싱 엔지니어는 음악 작품의 서로 다른 시간 섹션을 서로 다른 방식으로 처리하기를 원할 수 있다. 그 이유는 어떤 예술적 효과를 달성하거나, 복수의 오디오 트랙의 레코딩 동안에 발생할 수 있는 잠재적 결함을 보상하여 혼합 신호 MS의 사운드를 보다 균일하게 만들기 위한 바램일 수 있다. 음악 작품의 시간 구조 또는 일반적인 오디오 레코딩(예를 들어, 오디오 북, 강의 등)에 대한 지식은 레코딩에서 다양한 시간 섹션의 시작 지점 및 끝 지점을 찾는데 믹싱 엔지니어를 도울 수 있다.

도 4는 대중 음악 장르의 노래의 레코딩의 예시적인 오디오 트랙 레이아웃을 도시한다. 단일의 오디오 트랙 ST는 다음과 같은 악기: 리드 기타, 리듬 기타, 보컬 부분, 피아노 및 베이스에 존재한다. 드럼 세트는 드럼 세트의 다양한 부분: 크래쉬 심벌, 라이드 심벌, 하이햇, 탐탐, 스네어 드럼 및 베이스 드럼에 대한 수개의 단일 오디오 트랙을 이용하여 레코딩되었다. 드럼 세트의 서로 다른 부분에 대한 수개의 오디오 트랙 ST의 사용은 믹싱 엔지니어가 단일의 오디오 트랙만이 전체 드럼 세트에 이용되었을 때보다 드럼 부분의 균형을 더 잘 이루게 할 수 있다.

복수의 단일 오디오 트랙을 가까이에 두고, 음악 작품은 공연 예술가 및/또는 믹싱 엔지니어가 원하는 대로 마스터될 수 있다. 특히, 음악 작품의 문자 또는 "무드(mood)"는 복수의 오디오 트랙 ST에 이용되는 혼합 매개 변수를 변경하여 중요한 방식으로 변경될 수 있다. 혼합을 위한 소비자에 복수의 오디오 트랙 ST를 제공하는 것은 소비자에게 상당한 자유도를 제공한다. 그러나, 많은 사용자는 특히 혼합 매개 변수 사이의 복잡한 상호 연결 및 상호 작용 때문에 혼합 매개 변수를 적절히 선택할 경험이 부족하다. 단일의 오디오 트랙에 영향을 미칠 것으로 보이는 어떤 효과를 달성하기 위해, 수개의 또는 심지어 모든 오디오 트랙의 혼합 매개 변수를 조정할 필요가 있을 수 있다.

도 5는 여기에 개시된 가르침에 따라 제 1 가능한 구성을 가진 오디오 믹서의 개략적인 블록도를 도시한다.

일반적으로, 사용자(또는 청취자)는 혼합 신호가 소리를 내는 방법의 어떤 아이디어를 갖지만, 혼합 매개 변수가 이러한 아이디어를 달성하기 위해 조정되어야 하는 방법을 알지 못한다.

여기에 개시된 가르침에 따른 오디오 믹서는 사용자의 아이디어 또는 바램을 간결한 형태로 나타내는 시맨틱 표현, 및 복수의 단일 오디오 트랙 ST를 혼합 신호 MS에 혼합하는 데 필요한 실제 혼합 매개 변수 사이에 링크를 설정한다.

혼합 프로세스를 안내하는 시맨틱 설명에 대해 간단하고 예시적인 예는 다음과 같은 것이다: “During the guitar solo, mix the guitar prominently and move the keyboards slightly into the background”

이를 달성하기 위해, 아래에 열거된 다양한 서브태스크의 적어도 일부는 일반적으로 다음과 같이 다루어질 필요가 있다:

- 사용자에 의해 주어진 시맨틱 설명은 적절한 사용자 인터페이스를 이용하여 캡처될 필요가 있다.

- 사용자 입력은 머신 판독 가능한 형식으로 변환될 필요가 있다.

- 음악 오디오 신호의 시맨틱 분석이 수행될 필요가 있다(예를 들어 기타 트랙 및 키보드 트랙을 식별하고, 기타 솔로의 시작 및 끝을 찾는 것).

- 물리적 혼합 매개 변수는 인간의 청각 메커니즘을 고려하여 결정될 필요가 있다(예를 들어 혼합에서 기타의 지각된 음량이 어떤 다른 악기보다 크지만, 너무 크지 않도록 이득을 결정하고; 키보드의 경우, 이득, 지연, 및 원하는 거리의 지각에 대한 잔향 효과에 대한 송신 트랙의 이득을 결정하는 것).

- 혼합은 계산된 물리적 혼합 매개 변수를 이용하여 도출된다. 매개 변수는 단일의 오디오 트랙 ST 및 출력 채널의 각 조합에 대한 이득 계수 및 시간 지연을 포함한다. 더욱이, 물리적 혼합 매개 변수는 디지털 오디오 효과 프로세서(DAFx), 예를 들어 인공 잔향 및 동적 범위 처리를 제어한다.

시맨틱 설명은 예를 들어 지정할 수 있다

- 혼합 신호 MS의 각 사운드 객체 SO의 지각된 위치 및 음량

- 각 트랙에 대한 DAFx의 매개 변수

- 혼합 신호 MS에 대한 특성(예를 들어 잔향의 량, 동적 범위)을 특정할 수 있다.

여기에 개시된 가르침에 따른 오디오 믹서의 가능한 구성을 도시한 도 5의 개략적인 블록도에서, 상술한 서브태스크는 오디오 믹서의 모듈에 의해 달성된다. 오디오 믹서는 사용자 인터페이스(UI)(20), 명령 인터프리터(CI)(30), 시맨틱 오디오 분석(SAA)(40), 타겟 디스크립터 할당 유닛(DAU)(50), 지각 프로세서(60), 및 신호 프로세서(70)를 포함한다.

사용자 인터페이스(20)는 오디오 믹서의 사용자로부터 입력을 캡처하는 시설물(facilities)을 제공한다. 사용자 인터페이스(20)의 부분인 복수의 서브모듈로 예시된 바와 같이 사용자 입력의 구현을 위한 서로 다른 옵션이 존재한다. 예는 다음과 같다:

- 프리세트(서브모듈(22))의 세트 중 하나의 선택;

- 단일 트랙 및 생성된 혼합 신호 MS(서브모듈(21))의 서로 다른 특성에 할당된 n차원 제어기의 세트;

- 자연 언어 입력(서브모듈(24));

- 혼합 신호 MS의 예 또는 대응하는 혼합 신호 MS(서브모듈(23))와 함께 멀티 트랙의 예의 입력. 그 다음, 주어진 예는 혼합 신호 MS에 대한 시맨틱 설명을 도출하기 위해 분석될 것이다. 이러한 종류의 사용자 입력에 의해 제어되는 오디오 믹서의 동작의 모드는 다음의 설명에서 "예에 의한 혼합(mixing by example)"으로 지칭될 것이다.

명령 인터프리터(30)는 사용자 인터페이스(20)에 연결되고, (인간 판독 가능하거나 예에 의해 주어지는) 입력을 머신 판독 가능한 명령으로 변환한다. 이러한 명령은 일반적으로 어휘 문법 서브모듈(31)에 의해 제공 및/또는 제어되는 어휘 및 알려진 문법을 제한한다.

명령 인터프리터(30)의 구현을 위한 예는 서로 다른 사용자 인터페이스 설계에 대해 표 1에 주어진다.

입력	명령 인터프리터(30)의 구현
프리세트	테이블 룩업을 이용한 규칙의 세트를 선택
N-차원의 제어기	명령에 대한 제어기 입력의 매핑 기능
예에 의한 혼합	오디오 신호의 분석
자연 언어	음성 지각 및 이해

사용자 입력 외에, 오디오 믹서는 또한 입력으로 단일의 오디오 트랙 ST를 포함하는 데이터(10)를 수신한다. 데이터(10)가 음악 작품의 오디오 트랙에 상응하는 경우에, 데이터(10)는 음악 컨테이너(11) 및 선택적 메타 데이터 컨테이너(12)를 포함할 수 있다. 데이터(10)는 (도 5에 도시되지 않은) 적절한 인터페이스를 통해 오디오 믹서에 제공될 수 있다.

데이터(10)는 시맨틱 오디오 분석(SAA)(40)에 공급된다. 시맨틱 오디오 분석(40)은 일반적으로 오디오 트랙 ST의 각각에 대한 메타 데이터의 세트를 계산하는 자동화된 프로세스이다. 더욱이, 멀티 트랙을 나타내는 메타 데이터, 즉 복수의 오디오 트랙은 계산될 수 있다(예를 들어 음악 장르). 메타 데이터는 오디오 신호를 특징짓는 시맨틱 디스크립터이다.

시맨틱 오디오 분석(40)은:

- 악기 식별

- 구조적 분석(절, 코러스, 및 각 신호의 다른 부분의 라벨링)

- 연주 스타일의 식별(솔로, 반주, 멜로디, 하모닉, 및 리듬 엔트로피)

- 리듬 분석(예를 들어 비트 동기 사운드 효과에 대한 비트 추적)

- 멜로디 및 하모닉 분석

- 음색의 특성(예를 들어 밝기, 거칠기, 선명도)

- 단일의 오디오 트랙 ST 중에서 (음색, 연주 스타일, 형식에 대한) 유사성의 특성

- 음악 장르를 포함할 수 있다.

이러한 메타 데이터는 혼합 매개 변수를 통해 적절한 신호 처리를 단일 트랙 ST의 각각에 할당하는 데 사용될 수 있다.

시맨틱 오디오 분석은 시맨틱 혼합의 프로세스가 수행될 때마다 수행될 수 있다. 선택적으로, 시맨틱 오디오 분석은 (프로덕션 및 제작 중) 한 번만 수행될 수 있고, 생성된 메타 데이터는 멀티미디어 항목과 함께 저장되고 전송될 수 있다.

선택적으로, 시맨틱 오디오 분석(40)은 사용자 입력에 의해 안내될 수 있으며, 즉 사용자는 시맨틱 오디오 분석(40)을 도울 수 있거나, 시맨틱 오디오 분석의 자동 도출된 결과 중 하나 이상으로 충족되지 않을 경우에 메타 데이터를 입력할 수 있다. 이러한 교정 사용자 입력은 미래의 분석 중에 고려되도록 시맨틱 오디오 분석에 의해 저장되어, 시맨틱 오디오 분석(40)이 사용자의 선호도에 적응할 수 있으며, 즉 시맨틱 오디오 분석(40)이 사용자의 입력에 의해 시간이 지남에 따라 트레이닝되도록 한다.

시맨틱 오디오 분석(40)은 복수의 오디오 트랙 ST에 포함된 오디오 신호에 기초하여 메타 데이터를 계산하는 제 1 서브모듈(41)을 포함할 수 있다. 추가적으로 또는 대안적으로, 시맨틱 오디오 분석(40)은 복수의 오디오 트랙 ST과 함께 제공되는 메타 데이터를 판독하는 제 2 서브모듈(42)을 포함할 수 있다.

명령 인터프리터(30) 및 시맨틱 오디오 분석(40)에는 타겟 디스크립터 할당 유닛(DAU)(50)이 연결된다. 명령 인터프리터(30)로부터 명령, 및 시맨틱 오디오 분석(40)으로부터 획득된 메타 데이터가 주어지면, 타겟 디스크립터 할당 유닛(DAU)(50)은 (명령이 존재하는 사운드 객체에 상응하는 트랙과 시작 시간 및 종료 시간을 결정하는) 오디오 신호의 부분을 선택하고, 적절한 지각 타겟 디스크립터(PTD)를 이들에 할당한다.

지각 타겟 디스크립터는:

- 사운드 객체의 지각된 강도(음량)

- 사운드 객체의 공간적 속성(측면각(lateral angle), 높이, 거리, 확산(diffuseness), 폭)

- 사운드 객체에 대한 음색 특성(예를 들어 밝기, 선명도, 거칠기)

- 디지털 오디오 효과에 관련된 특성(DAFx)

언어적 변수(linguistic variables)를 이용하여 명령이 주어지면, 타겟 디스크립터 할당 유닛(50)은 크리스프 값(crisp values)으로 언어적 변수 사이의 변환을 위한 퍼지 논리를 이용할 수 있다.

지각 타겟 디스크립터를 제공하는 타겟 디스크립터 할당 유닛(50)의 출력은 지각 프로세서(PP)(60)의 입력에 연결된다. 지각 프로세서(60)는 할당된 지각 타겟 디스크립터가 주어진 추가적인 신호 처리(예를 들어 DAFx)를 혼합하기 위한 물리적 매개 변수(혼합 매개 변수)를 계산한다. 이것은 일반적으로 음향 심리학(61) 및 전문 지식(62)을 고려할 필요가 있는 매우 힘든 태스크이다.

이것은 다음과 같은 예로 예시된다: 특정 오디오 신호, 예를 들어 기타 트랙의 경우, 지각된 레벨에 대한 디스크립터는 "고(high)"로 설정된다. 간단한 해결책은 고정량, 예를 들어 6 dB만큼 기타의 이득을 증가시키는 것이다. 이러한 간단한 해결책은 음량의 지각이 매우 복잡한 방식으로 처리된 오디오 신호 및 혼합 신호 MS의 스펙트럼 및 시간적 특성에 의존하기 때문에 모든 경우에 원하는 효과를 가질 수 없다.

혼합 시에 청취자에 의해 지각되는 기타의 음량이 예를 들어 음량 및 부분 음량의 지각 모델을 이용하여 조정되도록 모든 레벨을 설정함으로써 더 양호한 결과가 획득될 수 있다. 부분 음량은 흥미있는 신호가 부분적으로 마스크되는 경우에 사운드 혼합에 제시된 신호의 음량이다.

음량의 지각 외에 인간의 청각 및 사운드의 지각의 서로 다른 양태가 일반적으로 다루어질 필요가 있다. 이것은 잔향의 량의 지각, 사운드 정위(sound localization) 및 공간적 속성의 지각이다.

음향 심리학 부분은 시맨틱 설명(예를 들어 "이것을 조금 더 크게 함(make this slightly louder)")을 물리적 매개 변수(예를 들어 "4.5 dB만큼 부스팅")로 변환하는 것이 중요하다.

지각 프로세서(60)는 이의 출력 중 하나를 통해 신호 프로세서(SP)(70)의 입력에 연결된다. 신호 프로세서(70)는 물리적 혼합 매개 변수(71), 하나 이상의 디지털 오디오 효과(72) 및 포매팅(73)을 처리하는 모듈을 포함할 수 있다. 혼합 및 신호 처리를 위한 물리적 매개 변수로, 신호 프로세서(70)는 혼합 신호 MS를 계산한다.

2010년 11월 4일 내지 7일 129차 컨벤션에서 제시된 Convention Paper "Automatic Music Production System Employing Probabilistic Expert Systems", Audio Engineering Society에서, 저자 R. Gang 등은 전문 오디오 엔지니어링 지식을 내장하고, 오디오 파일로부터 추출된 음악 정보에 기초하여 자동 프로덕션 결정을 추론하기 위해 확률 그래픽 모델을 채용하도록 제안한다. 확률 그래픽 모델로 나타내는 프로덕션 패턴은 인간의 오디오 엔지니어의 연산 데이터로부터 배워질 수 있거나 도메인 지식으로부터 수동으로 구성될 수 있다. 지각 프로세서(60) 및/또는 시맨틱 명령 인터프리터(30)는 Convention Paper에서 제안된 기술적 특징을 구현할 수 있다. 상술한 Convention Paper의 전체 내용은 참고로 여기에 통합된다.

멀티 트랙 레코딩을 혼합하는 것은:

- 각각의 단일 트랙(물리적 혼합 매개 변수(71)를 처리하는 모듈)에 대한 레벨 및 패닝 위치의 조정

- (단일 트랙 ST 및 혼합 신호 MS에 대한) 등화

- (단일 트랙 ST 및 혼합 신호 MS에 대한) 동적 범위 처리(DRP)

- 인공 잔향

- 사운드 효과 적용(DAFx(72))을 포함한다.

이러한 동작의 각각은 지각 프로세서(60)에 의해 계산되는 바와 같은 물리적 매개 변수에 의해 제어된다.

포매팅(73)은 선택적으로 물리적 제약 조건(constraints)(예를 들어 자동 이득 제어를 적용) 및 포맷 변환 (오디오 코딩/디코딩)을 처리하는데 필요하다.

다음의 섹션은 처리 블록의 각각의 예시적인 구현을 상세히 설명한다.

사용자 인터페이스(20)는 프리세트의 세트로 구현될 수 있다. 각 프리세트는 특성의 세트를 가진 "혼합 타입"을 나타낸다. 이러한 특성은 "혼합 규칙"의 형식의 시맨틱 표현으로 제공될 수 있으며, 명령 인터프리터(30)의 설명과 관련하여 아래에 설명된다.

혼합 타입은 예를 들어 "Dance Mix", "Ambient Mix", "Rock Guitar Mix" 등일 수 있다.

이러한 이름은 타겟 혼합 신호 MS의 설명을 매우 압축된 방식으로 제공하면서도, 사용자는 이들(또는 이들 중 일부)을 해석할 수 있다. 프리세트의 이름을 해석할 수 있는 사용자의 능력은 컨벤션 및 널리 이용되는 문체 분류(stylistic classifications)에 기초한다. 예를 들면, 사용자는 어떤 예술가의 이름으로 특정 연주 스타일 및/또는 사운드를 관련시킬 수 있다.

명령 인터프리터(30)의 맥락 내에서, 혼합 규칙의 세트는 룩업 테이블을 이용하여 프리세트의 각각에 할당된다. 여기에 나타낸 바와 같이, Fuzzy Logic (J.M. Mendel, "Fuzzy Logic Systems for Engineering: A Tutorial", Proc. of IEEE, vol. 83, pp. 345-377, 1995)에서와 같이, 혼합 규칙은 IF-THEN 명령문(statements)의 형식의 논리적 함축(logical implication)으로 묘사되며, 여기서, 사운드 객체 디스크립터 <SOD>는 전건(antecedent)이고, 혼합 동작 디스크립터 <MOD>은 후건(consequent)이다:

IF <SOD> THEN <MOD>

IF-THEN 명령문은

- 사운드 객체 SO가 혼합 동작 디스크립터 <MOD>로 표시되는 혼합 신호 MS에 나타내는 방법을 지정하며, MOD는 사운드 객체 디스크립터(SOD)에 의해 주어진 사운드 객체의 특성에 따라 선택된다.

- 특정 혼합 동작 디스크립터 MOD와 무관하고, 혼합 신호 MS에 대한 동작의 매개 변수를 지정하는 혼합 신호 MS의 특성을 지정한다.

사운드 객체 디스크립터 SOD는 (데이터) 구조, 예를 들어 다음과 같이 나타낼 수 있다:

SO.ID 사운드 객체 식별자, 예컨대 연주자의 이름

SO.INSTR 사운드 객체 SO의 악기 클래스

SO.BRIGHTNESS 사운드 객체 SO의 지각된 밝기

SO.PERCUSSIVENESS SO의 퍼커시브니스(percussiveness)에 대한 정량자

SO.CHARACTERISTIC 사운드 객체 SO의 다른 특성

혼합 동작 디스크립터 MOD는 혼합 신호 MS에서 지각될 수 있는 사운드 객체 SO의 레벨(즉 볼륨), 패닝 위치, 거리 및 다른 특성을 나타낸다. 사운드 객체 SO에 적용되는 혼합 동작 디스크립터 MOD는 데이터 구조 내에서 SO.MOD에 의해 지정될 수 있다. 혼합 동작 디스크립터 MOD는 또한 혼합 신호 MS에 적용될 수 있다. 이러한 혼합 동작 디스크립터 MOD는 MT.MOD에 의해 지정된다. 일반적으로 이러한 혼합 동작 디스크립터 MOD는 모든 오디오 신호 또는 혼합 신호에 적용되는 신호 처리, 예를 들어 잔향 또는 동적 범위 처리 DRP를 제어한다.

혼합 동작 디스크립터 MOD는 지각 속성, 및 지각 속성에 할당되는 값으로 구성될 수 있다. 혼합 동작 디스크립터는 언어적 변수로 구현될 수 있다.

지각 속성의 리스트는 (다른 것 외에) 다음의 것을 포함할 수 있다.

지각 속성	설명
PLOUDLEVEL	지각 레벨
LATERALDISPLACEMENT	사운드 위치가 중심에서 벗어나는 측면 각도
PDISTANCE	사운드 객체 SO가 지각되는 거리
FX1LEVEL	DAFx 1의 지각된 량
FX2LEVEL	DAFx 2의 지각된 량
REVERBLEVEL	잔향의 지각된 량
BRIGHTNESS	음색 디스크립터
DIFFUSENESS	확산 대 직접 사운드가 혼합되는 방법을 나타냄

지각 속성은 언어적 변수일 수 있다. 할당된 값은 다음 것 중 하나일 수 있다: {"매우 낮음", "낮음", "중간", "높음", "매우 높음"}.

혼합 동작 디스크립터 MOD에 의해 설정되지 않는 지각 속성은 디폴트값으로 설정된다.

그 다음, 혼합 규칙은 이것처럼 보일 수 있다:

IF <SO.lNSTR=val ue> AND <SO.cl=val ue> ... AND <SO.Cn=value>

THEN <SO.MODl=value> AND <SO.MOD2=val ue> ... AND <SO.MODn=value>

논리곱(즉 "AND")의 사용이 충분하고, 논리합(즉, "OR")이 별도의 규칙으로 표시될 수 있다는 것이 주목되어야 한다.

예시적인 규칙 세트: 지금 다루고 있는 유스 케이스(use case)에 대한 혼합 규칙의 세트는 Dance Mix의 예를 위해 주어진다:

이러한 혼합 규칙은 악기 클래스에 명시된다:

1. IF <SO.INSTR="kick drum">

THEN <SO.PLOUDLEVEL="high"> AND <SO.LATERALDISPLACEMENT="zero">

AND <SO.DlSTANCE="near">

2. IF <SO.INSTR="bass">

THEN <SO.PLOUDLEVEL="high"> AND <SO.LATERALDISPLACEMENT="zero">

AND <SO.DISTANCE="near">

3. IF <SO.INSTR="percussion"> AND <SO.ENTROPY="high">

THEN <SO.PLOUDLEVEL="high"> AND <SO.FXLEVEL="high">

4. IF <SO.INSTR="percussion"> AND <S0.ENTR0PY="low">

THEN <S0.PL0UDLEVEL="low">

다음과 같은 혼합 규칙은 악기 클래스와 무관하게 특성을 위해 지정된다:

5. IF <SO.INSTR="*"> AND <SO.ENTROPY="low">

THEN <SO.LATERALDISPLACEMENT="far left">

6. IF <SO.INSTR="*"> AND <SO.CREST="1ow">

THEN <SO.PLOUDLEVEL="low">

선택적으로, 혼합 규칙은 혼합 신호 MS를 위해 지정될 수 있다. 이들은 사운드 객체 SO의 특성에 링크되지 않는다. 사운드 객체가 혼합 규칙의 IF 부분에 지정되지 않을 경우에 생성된 동작은 모든 사운드 객체 SO에 적용된다.

7. IF *

THEN <MS.REVERBLEVEL="1ow">

8. IF *

THEN <MS.FXlLEVEL="high">

더욱이, 규칙의 IF 부분에서, 속성은 또한 절대값 대신에 상대값에 비교될 수 있다. 이것은 하나의 사운드 객체 SO의 속성이 예를 들어, "최대" 또는 "최소"와 같은 연산을 이용하여 모든 다른 사운드 객체 SO의 동일한 속성에 비교될 수 있다는 것을 의미한다.

9. IF <SO.INSTR="*"> AND <SO.ENTROPY="maximum">

THEN <SO.FX2LEVEL="high">

위에 나열된 특성 및 규칙은 예이고, 특정 혼합 프리세트에 대한 완전한 세트인 것으로 의도되지 않는다는 것이 주목되어야 한다.

여기에 개시된 가르침의 양태에 따르면, 규칙 세트의 변형이 수행될 수 있다. 특히, 규칙 세트는 하나가 임의로 선택되는(무작위화되는) 일치된 규칙(전건은 동일하지만, 후건은 다른 규칙)을 포함하도록 구현될 수 있다. 이것은 변형을 결과로 도입하여, 사용자 만족도를 증가시킨다. 그것은 또한 균일한 규칙 세트가 규칙 세트를 생성하는 프로세스에 동의될 수 없는 상황에서 유용하다.

이제 시맨틱 오디오 분석(40)의 예시적인 구현으로 돌리면, 시맨틱 오디오 분석(40)은 복수의 오디오 트랙 ST에 대한 정보, 및 아마도 어떤 혼합 매개 변수가 복수의 오디오 트랙 ST 중 어떤 것에 적용될 수 있는지를 판단하는데 유용할 수 있는 멀티 트랙을 수집하기 위해 적용된다는 것을 상기한다. 시맨틱 오디오 분석은 별도로 복수의 오디오 트랙의 각 오디오 트랙 ST 및 추가적으로 멀티 트랙 MT의 표현을 처리한다. 멀티 트랙 MT의 표현은 예를 들어 단위 이득과 모든 오디오 트랙 ST을 다운 믹싱하는 것으로부터 도출되는 혼합 신호의 형태로 획득될 수 있다.

결과는 (각 어레이 요소(array element)가 하나의 오디오 트랙 ST에 대한 메타 데이터를 포함하는) 구조의 어레이 및 멀티 트랙의 메타 데이터를 포함하는 추가적인 구조로 나타낼 수 있다. 가변 타입의 구조 요소는 (예를 들어 악기 이름에 대한) 스트링(string), (예를 들어, 템포, 엔트로피에 대한) 스칼라 값, 또는 (예를 들어 연주 스타일의 설명을 위한 시작 시간 및 종료 시간, 또는 그 자체에 전용 구조(예를 들어 악곡의 형식을 나타내기 위한 구조)에 대한) 어레이일 수 있다.

분석 결과는 각각의 결과의 신뢰성의 정도를 나타내는 신뢰도 측정을 수반할 수 있다.

시맨틱 오디오 분석(40)에 의해 생성된 결과의 표현에 대한 예:

ST(1).ID = "TR909"

ST(1).INSTRUMENT = "kick drum"

ST(1).INSTRUMENT_CONFIDENCE = 0.93

ST(1).ENTROPY = 0.12

ST(2).ID = "lead guitar"

ST(2).INSTRUMENT = "guitar"

ST(2).INSTRUMENT_CONFIDENCE = 0.68

ST(2).SOLO = [ [123.4 234.5] [567.7 789.0] ]

ST(3).ID = "background vocals"

ST(3).INSTRUMENT = "human singing"

ST(3).INSTRUMENT_CONFIDENCE = 0.8

ST(3).BRIGHTNESS = 0.12

MT.TEMPO="126"

MT.GENRE="electro"

MT.FORM=<form structure>

시맨틱 오디오 분석(40)은 고유 식별자를 오디오 트랙 ST 및 음악 작품의 다양한 시간 섹션에 할당하여 제공된 멀티 트랙 오디오 자료를 표준화하는데 유용할 수 있다. 특히, 멀티 트랙 오디오 자료는 일반적으로 어떤 컨벤션에 따르는 미리 정의된 포맷이 아니다. 다시 말하면, 오디오 믹서는 특정 오디오 트랙(예를 들어 "트랙 1")이 항상 어떤 악기(예를 들어 "기타")를 포함한다는 것에 의존할 수 없다. 그러나, 시맨틱 오디오 분석에 의해 생성된 메타 데이터는 각각의 태스크를 달성하기 위해 오디오 믹서의 다른 모듈을 지원하는 멀티 트랙 신호의 콘텐츠 및 조직에 대한 실질적 표준화된 정보를 제공할 수 있다. 시맨틱 오디오 분석에 의해 행해진 표준화는 명령 인터프리터(30)에 의해 제공되는 혼합 명령이 멀티 트랙 오디오 신호의 부닥친 상황에 관계되도록 하기 때문에 유용하다. 따라서 명령 인터프리터(30) 및 시맨틱 오디오 분석(40)은 "말이 통한다(speak the same language)".

타겟 디스크립터 할당 유닛(DAU)(60)은 혼합 동작 디스크립터를 복수의 오디오 트랙 ST 또는 오디오 트랙 ST의 세그먼트에 할당하기 위해 시맨틱 오디오 분석(40)에 의해 제공된 메타 데이터 및 명령 인터프리터(30)로부터의 혼합 규칙을 처리한다. 이러한 디스크립터는 오디오 트랙 ST의 각각의 세그먼트에서 주요한 각 사운드 객체 SO가 타겟 혼합 신호 MS에서 지각되는 방법을 진술한다.

각 오디오 트랙 ST에서는 한 번에 하나의 사운드 객체만이 우세한 것으로 가정한다. 이러한 가정이 주어지면, (각 오디오 트랙 ST에 대해 계산되는) 시맨틱 오디오 분석(40)으로부터 도출되는 속성은 사운드 객체 SO에 대한 속성으로 처리된다. 대안적으로, 오디오 트랙 ST이 다수의 사운드 객체를 포함하는 경우, 특히 수개의 사운드 객체 SO가 오디오 트랙 ST 내에서 서로 시간적으로 잇따를 경우에 시맨틱 오디오 분석은 각 오디오 트랙 ST에 대한 둘 이상의 속성 구조를 출력할 수 있으며, 이는 수개의 사운드 객체 SO가 비교적 쉽게 분리될 수 있다는 것을 의미한다. 다른 가능성은 제 1 사운드 객체 SO1가 주로 스테레오 신호의 좌측 채널에 존재하지만, 제 2 사운드 객체 SO2는 주로 우측 채널에 존재한다는 것이다. 또 다른 가능성은 수개의 사운드 객체가 저역 통과, 고역 통과, 및/또는 대역 통과 필터에 의해 주파수 도메인에서 분리될 수 있다는 것이다.

퍼지 논리는 입력 변수가 크리스프 값일 경우에 적용될 수 있지만, 규칙 세트는 퍼지 속성(예를 들어 "낮음" 또는 "높음")을 이용하여 공식화된다. 예를 들면, 악기의 연주에서의 변동(variation)의 정도는 0과 1 사이의 범위에서 스칼라 값으로 표시될 수 있다. 더욱이, 시맨틱 오디오 분석(40)은 추정된 메타 데이터가 계산된 신뢰도를 나타내는 신뢰 값(confidence value)(예를 들어 확률)과 함께 메타 데이터를 출력할 수 있다.

퍼지 논리는 종종 전문 지식을 통합하는 복잡한 태스크를 모델링할 수 있다. 그것은 정확한 값을 퍼지 설명 앞뒤로 변환하는 스트레이트-포워드(straight-forward) 메커니즘을 제공하는 퍼지 세트를 이용한다.

퍼지 논리 시스템으로 구현될 경우에 처리의 개요는 도 6의 블록도에 도시된다(Mendel, 1995). 퍼지 논리 시스템은 퍼지화 모듈(622), 추론 모듈(624), 규칙 세트(626) 및 역퍼지화 모듈(628)을 포함한다. 퍼지화 모듈(622)은 예를 들어 시맨틱 오디오 분석(40)으로부터 크리스프 입력의 세트를 수신한다. 크리스프 입력에 기초하여, 퍼지화(622)는 추론 모듈(624)에 공급되는 퍼지 입력 세트를 생성한다. 추론 모듈(624)은 추론 모듈(624)에 동등하게 공급되는 규칙 세트(626)에 의해 퍼지 입력 세트를 평가한다. 규칙 세트(626)는 명령 인터프리터(30)에 의해 제공될 수 있다. 추론 모듈(624)은 퍼지 출력 세트를 생성하여, 역퍼지화 모듈(628)에 공급한다. 역퍼지화 모듈(628)에서, 퍼지 출력 세트는 혼합 매개 변수 또는 중간 수량일 수 있는 크리스프 출력으로 변환된다.

이제 더욱 상세히 퍼지화에 대해 살펴보면, 단일의 오디오 트랙 ST에 대한 혼합 동작 디스크립터 MOD의 할당은 명령 인터프리터(30)에 의해 결정되는 규칙 세트의 IF 부분에서 설명된 기준에 기초하여 행해진다. 시맨틱 오디오 분석(40)으로부터의 각각의 메타 데이터가 신뢰 값과 함께 실수 또는 스트링(예를 들어 악기 분류의 결과)으로 주어지면, 실수는 퍼지화를 이용하여 언어적 변수로 변환된다. 퍼지 세트는 요소가 소속도(degree of membership)를 가진 세트이다. 이러한 소속도는 (소속도가 0 또는 1인 클래식 세트 이론과 달리) 간격 [0, 1]에서 어떤 실수일 수 있다.

도 7에서 예시적으로 도시된 바와 같이 퍼지 세트에 대한 소속 함수를 이용하여 퍼지화가 수행된다. 퍼지화에서, 각각의 실수치의(real-valued) 입력 변수에 대해, 상응하는 퍼지 세트(I.A. Zadeh, "Fuzzy Sets", Information and Control, vol. 8, pp. 338-353, 1965) 및 소속도가 결정된다. 예를 들면, 0.25의 밝기 값이 주어지면, 상응하는 퍼지 세트는 소속도 0.5를 가진 "매우 낮음" 및 소속도 0.5를 가진 "낮음"이다.

추론 단계 또는 모듈(624)에서, 입력 변수에 대한 퍼지 세트는 규칙 세트(626)를 이용하여 출력 변수에 대한 퍼지 세트로 매핑된다. 결과는 다시 지각 속성에 대한 (상응하는 신뢰 소속도와 함께) 언어적 변수의 세트가 된다.

다음의 단계 또는 모듈에서, 역퍼지화(628)에서, 추론의 결과는 상응하는 퍼지 세트를 이용하여 출력 변수에 대한 크리스프 값으로 변환된다. 즉, 지각 속성의 위의 테이블에 나열된 변수는 크리스프 값에 대응한다.

지각 프로세서(60)에 대해, 명령 인터프리터(30) 및 타겟 디스크립터 할당 유닛(50)의 출력은 사운드 객체 SO의 각각이 혼합 신호 MS에 나타내는 방법을 결정한다. 지금까지, 이러한 사양은 지각 값에 의해 주어진다.

지각 프로세서(60)는 신호 특성 및 인간의 청각 메커니즘을 고려하여 지각 값을 물리적 혼합 매개 변수로 변환한다. 다음의 단락은 일부 지각 값의 처리, 즉 사운드 레벨, 주어진 측면 각도에 대한 패닝 계수, 잔향 레벨 및 시간 지연, DAFx 매개 변수, 등화, 및 동적 범위 처리를 예시한다.

사운드 객체 SO의 사운드 레벨은 지각 음량 모델, 예를 들어 2002년 Glasberg에 의해 설명된 모델을 이용하여 계산될 수 있다.

대안적으로, 1996년 Moore에 의해 설명된 음량 모델은 사운드 신호의 혼합 내에서 사운드 신호의 음량을 계산하는데 이용될 수 있다(B.C.J. Moore and B.R. Glasberg, "A Revision of Zwicker's Loudness Model", Acustica - Acta Acustica, vol. 82, pp. 335-345, 1996).

각 오디오 트랙 ST에 대한 이득 계수는 오디오 트랙 ST (또는 혼합 신호 MS)의 사운드 객체 SO의 지각된 음량이 혼합 동작 디스크립터 MOD에 의해 표현된 시맨틱 설명과 일치하도록 계산된다.

주어진 측면 각도에 대한 패닝 계수: 사운드 객체의 측면 위치의 지각은 귀 입구에서 두 귀간 레벨 차(inter-aural level difference)(ILD) 및 두 귀간 시간 차(inter-aural time difference)(ITD)에 의해 결정된다(Lord Rayieigh, "On our perception of Sound Direction", Philosophical Magazine, vol. 6, pp. 214-232, 1907). 지각 프로세서(60)의 맥락에서, 시간 지연 및 레벨 차는 측면화(lateralization)의 지각이 유발(evoke)되도록 각 재생 채널에 대해 결정된다.

잔향 레벨 및 시간 지연: 인공 잔향 프로세서에 대한 레벨은 잔향의 지각된 량이 사용자에 의해 주어진 시맨틱 설명과 일치하도록 결정된다. 잔향 레벨은 별도로 각 사운드 객체 및/또는 혼합 신호 MS에 대해 정의된다. 잔향 레벨은 특정 사운드 객체 SO에 대한 거리의 지각을 유발시키기 위해 별도로 각 사운드 객체에 대해 조정될 수 있다. 거리 지각은 추가적으로 레벨, 시간 지연, 등화 곡선, 및 측면 위치에 의해 제어된다.

DAFx 매개 변수: 디지털 오디오 효과에 대한 매개 변수를 설정하는 것은 특정 DAFx 프로세서에 의존한다. DAFx 처리된 신호의 레벨은 음량 모델(예를 들어 Moore, 1996)를 이용하여 계산된다.

등화: 등화에 대한 매개 변수는 처리된 신호가 사운드 객체 또는 혼합 신호 MS의 "밝기"에 대한 지각 속성과 일치하도록 설정된다.

동적 범위 처리: 동적 범위 처리 DRP에 대한 매개 변수는 동적 범위에 대한 지각 속성과 일치하도록 설정된다.

도 8은 퍼지 프로세서(37)를 포함하는 오디오 믹서의 부분의 개략적인 블록도를 도시한다. 퍼지 프로세서(37)의 입력은 시맨틱 오디오 분석(40)에 연결되고, 이러한 연결을 통해 트랙 분석 값을 수신하도록 구성되어 있다. 트랙 분석 값은 어느 하나의 크리스프 값이 언어적 변수일 수 있다는 것이다. 퍼지 프로세서(37)는 또한 시맨틱 명령 인터프리터(35)로부터 규칙 또는 규칙 세트를 수신하기 위한 입력을 갖는다. 상술한 바와 같이, 퍼지 프로세서(37)는 오디오 트랙 프로세서(75)에 제공될 수 있는 크리스프 혼합 매개 변수를 생성하는 트랙 분석 값을 처리하는 규칙을 이용한다.

규칙은 사용자에 의해 제공된 시맨틱 혼합 명령에 기초하여 시맨틱 명령 인터프리터(35)에 의해 생성된다.

지각 모델(64)은 퍼지화 및 역퍼지화 매개 변수를 퍼지 논리 프로세서(37)에 제공한다. 퍼지화 및 역퍼지화 매개 변수는 수치 값 및 상응하는 시맨틱 설명 사이에 링크를 설정한다. 예를 들면, 퍼지화 및 역퍼지화 매개 변수는 청취자에 작게, 중간 또는 크게 나타나는 오디오 신호에 대한 음량 범위를 지정할 수 있다.

더욱이, 지각 모델(64)은 어떤 효과를 원하는 경우에 어떤 혼합 매개 변수가 포함되는지를 지정할 수 있다. 이러한 혼합 매개 변수에 상응하는 값은 또한 지각 모델(64)에 의해 지정될 수 있다. 이러한 사양은 가이드라인으로서 시맨틱 명령 인터프리터(35)에 제공될 수 있다. 시맨틱 명령 인터프리터(35)는 퍼지 규칙을 생성할 때에 이러한 가이드라인을 따를 수 있다.

오디오 믹서는 두 개의 동의하는 퍼지 규칙이 시맨틱 명령 인터프리터(35)에 의해 생성되고, 하나만이 퍼지 논리 프로세서(37)에 의해 구현될 수 있을 때에 이용되는 선택적인 랜덤 퍼지 규칙 선택기(38)를 포함할 수 있다. 중간 무작위도는 혼합 프로세스가 더욱 자연 및 "인간"일 것으로 나타낼 때에 사용자의 만족도를 높일 수 있다. 결국, 인간의 믹싱 엔지니어는 때때로 또한 약간 무작위로 작용하여, 믹싱 엔지니어의 클라이언트에 의해 "예술적"으로 지각될 수 있다.

도 9는 여기에 개시된 가르침에 따른 오디오 믹서의 가능한 기본 구성의 개략적인 블록도를 도시한다. 데이터(10)는 복수의 단일 오디오 트랙 ST의 형식으로 제공된다. 오디오 믹서는 시맨틱 명령 인터프리터(35), 오디오 트랙 프로세서(75) 및 오디오 트랙 조합기(AT CMB)(76)를 포함한다.

시맨틱 명령 인터프리터(35)는 전반적으로 도 5의 명령 인터프리터(30)에 대응한다. 더욱이, 시맨틱 명령 인터프리터(35)는 타겟 디스크립터 할당 모듈(50) 및 지각 프로세서(60)의 일부 기능을 포함할 수 있다. 시맨틱 명령 인터프리터(35)는 입력으로서 시맨틱 혼합 명령을 수신하고, 시맨틱 혼합 명령으로부터 하나의 혼합 매개 변수 또는 복수의 혼합 매개 변수를 도출한다. 복수의 혼합 매개 변수는 오디오 트랙 프로세서(75) 또는, 더욱 정확하게는, 오디오 트랙 프로세서(75)의 개개의 오디오 트랙 프로세서 ATP1, ATP2, ATP3, ATP N에 제공된다. 혼합 매개 변수는 일반적으로 복수의 개개의 오디오 트랙 프로세서 ATP1 내지 ATP N에 의해 쉽게 구현될 수 있는 크리스프 값의 형태이다

복수의 개개의 오디오 트랙 프로세서 ATP1 내지 ATP N은 혼합 매개 변수에 따라 오디오 트랙 ST1 내지 ST N 중 상응하는 것에 의해 제공된 오디오 신호를 수정한다.

수정된 오디오 신호는 혼합 신호 MS를 획득하도록 오디오 트랙 조합기(76)에 의해 조합된다.

도 9에 도시된 구성에서, 시맨틱 명령 인터프리터(35)는 시맨틱 혼합 명령 내의 특정 시맨틱 내용을 상응하는 개개의 오디오 트랙 프로세서 ATP1 내지 ATP N에 대한 적절한 혼합 매개 변수에 할당할 수 있다. 이러한 시맨틱 명령 인터프리터(35)의 능력은 복수의 단일 오디오 트랙 ST1 내지 ST N이 협정한 표준(agreed standard)에 따라 조직되어, 시맨틱 명령 인터프리터(35)가 어떤 트랙이 어떤 악기에 상응하는지를 알 수 있도록 한다는 사실에 기초할 수 있다. 도 11 내지 도 14에서, 오디오 믹서의 대안적인 구성은 데이터 자체로부터 기록된 음악 작품의 멀티 트랙 레코딩의 조직 및/또는 시간 구조에 대한 정보를 도출할 수 있는 이러한 설명의 상응하는 부분에 묘사되고 나타낸다.

도 10은 시맨틱 혼합 명령을 도시한다. 시맨틱 혼합 명령은 영어의 문장의 형식의 언어적 표현을 포함한다. 물론, 다른 언어가 또한 이용될 수 있다. 문장은 "기타 솔로 동안 두드러지게 기타를 혼합한다(During the guitar solo, mix the guitar prominently)"를 읽는다. 이러한 문장의 시맨틱 분석은 문장이 세 부분으로 분해될 수 있음을 보여준다. 제 1 부분은 "기타 솔로 동안"이라는 표현을 포함하고, 시맨틱 혼합 명령에 대한 타겟 시간 섹션을 지정하는 표현으로 식별될 수 있다. 제 2 부분은 "기타"라는 표현을 포함하고, 타겟 트랙을 지정하는 표현으로 식별될 수 있다. 제 3 부분은 "두드러지게 [...]를 혼합한다(mix [...] prominently)"라는 표현을 포함하고, 원하는 혼합 동작을 지정하는 표현으로 식별될 수 있다.

도 11은 시맨틱 혼합 명령의 확장된 예를 도시한다. 확장된 혼합 명령은 도 10으로부터의 시맨틱 혼합 명령에 기초한다. 게다가, 제 2 타겟 트랙에 대한 제 2 혼합 동작, 즉 "[...]이 키보드를 약간 배경으로 이동한다([.. .] move the keyboards slightly into the background)"이 추가되었다. 논리곱은 제 1 혼합 동작/제 1 타겟 트랙 및 제 2 혼합 동작/제 2 타겟 트랙 사이의 관계를 지정하는 데 사용된다. 도시된 케이스에서, 제 1 혼합 동작 및 제 2 혼합 동작이 둘 다 각각의 타겟 트랙에서 동시에 수행되도록 논리곱은 단어 "and"이다.

도 12는 다른 가능한 구성에 따른 오디오 믹서의 부분의 개략적인 블록도를 도시한다. 특히, 도 12는 복수의 오디오 신호 ST1 내지 ST N 및 디폴트 혼합 신호 MT("멀티 트랙")에 의해 제공되는 데이터가 트랙 배열 및/또는 음악 작품의 시간 구조에 대한 유용한 정보를 획득하기 위해 이용될 수 있는 방법을 도시한다. 달리 명시되지 않으면, 복수의 오디오 트랙에 대한 참조는 디폴트 혼합 신호 MT에 대한 참조를 포함해야 한다.

복수의 오디오 트랙 ST1 내지 MT는 시맨틱 오디오 분석(40)에 제공된다. 복수의 오디오 트랙을 분석함으로써, 시맨틱-투-크리스프 변환 모듈(semantic-to-crisp conversion module)(65)에 제공되는 트랙 정보 및 시간 구조 정보가 획득될 수 있다.

시맨틱 혼합 명령은 복수의 표현을 포함하며, 각 표현은 타겟 시간 섹션(26), 타겟 트랙(27) 및 혼합 동작(28)을 지정하는 것을 포함한다.

시맨틱-투-크리스프 변환 모듈(65)은 도 5의 타겟 디스크립터 할당 유닛(50)에 거의 상응한다. 시맨틱-투-크리스프 변환 모듈(65)은 또한 입력으로서 시맨틱 혼합 명령으로부터 정보를 수신한다. 제공된 입력에 기초하여, 시맨틱-투-크리스프 변환 모듈(65)은 하나 이상의 지각 타겟 디스크립터 PTD 및 상응하는 혼합 매개 변수를 생성한다. 지각 타겟 디스크립터 PTD는 영향을 받은 오디오 트랙 ST1 내지 ST N의 트랙 식별자뿐만 아니라, 영향을 받은 오디오 트랙의 시간 섹션이 혼합 명령에 의해 영향을 받을 경우에만 시간 섹션 정보를 포함할 수 있다. 혼합 매개 변수는 나중에 해결될 크리스프 값 또는 언어적 변수일 수 있다는 것을 주목한다.

시맨틱 오디오 분석(40)은 선택적으로 입력으로서 타겟 시간 섹션 사양(26) 및/또는 타겟 트랙 사양(27)을 수신하여, 시맨틱 오디오 분석(40)이 제공된 사양에서 특정 초점을 맞춘 복수의 오디오 트랙 ST1 내지 MT를 분석할 수 있도록 한다.

도 13은 여기에 개시된 가르침에 따른 오디오 믹서의 다른 가능한 구성의 개략적인 블록도를 도시한다. 이러한 구성은 오디오 트랙 식별자(430)를 특징으로 한다.

도 13에 도시된 구성의 기본 구조는 실질적으로 도 9에서와 동일하지만, 몇 가지 부분은 명확성을 위해 생략되었다.

항상 즉각 명확하지는 않듯이, 어떤 오디오 트랙 ST1 내지 ST N이 어떤 악기 또는 보컬 부분을 포함하는지 항상 즉각 명확하지 않을 때, 오디오 트랙 식별자(430)는 이러한 정보를 판단하는 데 사용될 수 있다. 오디오 트랙 식별자(430)는 시맨틱 오디오 분석(40)의 부분일 수 있다.

시맨틱 혼합 명령은 도 12에 대해 상술한 바와 같이 타겟 오디오 트랙 식별(27)을 포함한다. 타겟 오디오 트랙 식별(27)은 오디오 트랙 템플릿 데이터베이스(432)에 제공된다. 오디오 트랙 템플릿 데이터베이스(432)는 타겟 오디오 트랙 식별(27)에 상응하는 하나 이상의 데이터 레코드를 제공하고, 그것(또는 이들)을 오디오 트랙 식별자(430)에 제공한다. 데이터 레코드는 예를 들어 측정 값, 사운드 샘플 등의 형태의 악기에 대한 정보를 포함할 수 있다. 그 후, 오디오 트랙 식별자(430)는 복수의 오디오 트랙 ST1 내지 ST N의 각각의 오디오 신호와 데이터 레코드에 포함된 정보를 비교할 수 있다. 이를 위해, 오디오 트랙 식별자는 예를 들어 오디오 트랙 신호의 짧은 섹션과 데이터 레코드로부터의 사운드 샘플의 교차 상관 관계를 수행할 수 있다. 다른 옵션은 오디오 트랙 신호의 배음(overtone)의 위치 및 크기를 결정하고, 그 결과를 데이터 레코드에서의 상응하는 데이터와 비교하는 것이다. 또 다른 옵션은 오디오 트랙 신호의 어택-디케이-서스테인-릴리스 동작(attack-decay-sustain-release behaviour)을 분석하고 비교함으로써 주어진다.

오디오 트랙 식별자는 오디오 트랙 프로세서(75)가 예를 들어 시맨틱 혼합 명령 내의 악기 이름에 의한 인디케이션(indication)에 따라 각 단일 오디오 트랙 ST1 내지 ST N을 처리할 수 있도록 오디오 트랙 프로세서(75)에 제공되는 트랙 식별 정보를 생성한다.

도 14는 시간 섹션 식별자(460)가 복수의 오디오 트랙 ST1 내지 MT으로부터 시간 섹션 정보를 추출하는 오디오 믹서의 다른 가능한 구성의 개략적인 블록도를 도시한다. 시간 섹션 식별자(460)는 복수의 오디오 트랙 ST1 내지 MT에 연결되고, 오디오 트랙 ST1 내지 MT에 의해 제공되는 음악 작품의 시간 구조를 분석하도록 구성된다. 특히, 시간 섹션 식별자(460)는 음악 작품 내에서 유사하거나 실질적으로 동일한 섹션을 찾을 수 있다. 음악 작품이 대중 음악 장르에 속하는 경우, 이러한 유사하거나 실질적으로 동일한 섹션은 노래의 코러스일 수 있다. 시간 섹션 식별자(460)는 또한 시간 섹션 식별의 정밀도를 향상시킬 수 있는 음악 작품의 비트 또는 바(bar)를 카운트할 수 있다.

시간 섹션 정보는 시맨틱 명령 인터프리터(35)에 제공되고, 시맨틱 명령 인터프리터(35)는 이를 이용하여 시맨틱 혼합 명령 내에 사용되는 시맨틱 시간 섹션 표현을 크리스프 섹션 시작 및 종료 시간 값으로 변환한다.

시간 섹션 식별자에 의해 수행된 음악 작품의 시간 구조의 분석은 과거에 여러 연구자에 의해 제안된 방법 중 하나 이상을 채용할 수 있다. 이들의 논문 "Automatic Music Summarization Based on Music Structure Analysis", ICASSP 2005에서, Xi Shao 등은 음악 구조 분석에 기초한 음악 요약(music summarization)을 위한 새로운 접근 방식을 제시하며, 이의 전체 내용은 여기서 참고로 통합된다. 특히, 노트 온세트(note onset)는 먼저 노래의 시간 템포를 획득하기 위해 오디오 신호로부터 추출된다. 음악 구조 분석은 이러한 템포 정보에 기초하여 수행될 수 있다. 음악 내용이 Introduction(Intro), Verse, Chorus, Ending(Outro) 등과 같은 서로 다른 영역으로 구조화된 후에, 마지막 음악 요약은 마지막 요약의 원하는 길이를 획득하기 위해 선택된 코러스보다 앞 또는 뒤에 포함되는 코러스 및 악구(music phrase)로 생성될 수 있다. 음악 구조 분석은 멜로디 기반 유사성 영역(절)과 내용 기반 유사성 영역(코러스)을 구별한다.

"Chorus Detection with Combined Use of MFCC and Chroma Features and Image Processing Filters", Proc. of the 10^th Int. Conference on Digital Audio Effects (DAFx-07), Bordeaux, France, September 10-15, 2007에서, 저자 Antti Eronen는 인기있는 록 음악의 코러스 섹션을 검출하는 계산상 효율적인 방법을 설명한다. 이러한 방법은 멜 주파수 켑스트럼 계수(mel-frequency cepstral coefficient) 및 피치 크로마 특징(pitch chroma features)을 이용하여 계산된 두 개의 분리된 거리 매트릭스를 합산하여 획득되는 거리 매트릭스 표현을 이용한다. Eronen 논문의 전체 내용은 여기서 참고로 통합된다.

Mark Levy 등은 논문 "Extraction of High- Level Musical Structure from Audio Data and its Application to Thumbnail Generation", ICASSP 2006의 저자이며, 이의 내용은 전적으로 여기서 참고로 통합된다. 이러한 논문에서, 계층적 음색 모델과 음악 오디오를 분할하는 방법이 소개된다. 음악 분할이 음색 특징의 클러스터링으로 리캐스트(recast)되어, 새로운 클러스터링 알고리즘이 설명된다는 것을 보여주는 새로운 증거(evidence)가 제시된다.

"A Chorus Section Detection Method for Musical Audio Signals and Its Application to a Music Listening Station", IEEE Transactions on Audio, Speech, and Language Processing, Vol. 14, No. 5, September 2006에서, 저자 Masataka Goto는 대중 음악의 콤팩트 디스크 레코딩에서 반복된 코러스("훅(hook)")의 리스트를 획득하는 방법을 설명한다. 첫째로, 반주의 변경에 대해 강력한 크로마 벡터라 하는 12 차원의 특징 벡터는 입력 신호의 각 프레임으로부터 추출되어, 이러한 벡터 사이의 유사성이 계산된다. 반복된 섹션으로 식별되는 섹션은 나열되고 통합된다. 방법은 지각적으로 동기화된 음향 특징, 및 변조 후에도 반복된 코러스 섹션의 검출을 가능하게 하는 유사성을 도입하여 변조된 코러스 섹션을 검출할 수도 있다. 이러한 논문의 전체 내용은 참고로 여기에 통합된다.

그 후 알려진 자동 음악 구조 분석 방법의 개요는 Bee Suang Ong에 의해 자신의 논문 "Structural Analysis and Segmentation of Music Signals", Universitat Pompeu Barcelona, 2007, ISBN 978-84-691-1756-9에서 컴파일되었으며, 이의 전체 내용은 참고로 여기에 통합된다.

도 15는 메타 데이터 인터페이스(480)가 멀티 트랙 신호와 함께 공급되는 메타 데이터(12)를 이용하기 위해 제공되는 오디오 믹서의 추가의 가능한 구성의 개략적인 블록도를 도시한다. 메타 데이터는 도 12 및 도 13과 관련하여 설명된 바와 같은 오디오 트랙 조직에 대한 정보 또는 시간 섹션 정보를 포함할 수 있다.

메타 데이터(12)는, 존재한다면, 오디오 믹서가 멀티 트랙 신호로부터 오디오 트랙 정보, 시간 섹션 정보 또는 다른 유용한 정보를 결정하지 못하게 한다. 이러한 결정은 비교적 오랜 시간이 걸릴 수 있는 계산 집약적인 데이터 처리 태스크를 포함할 수 있다. 더욱이, 오디오 믹서 자체에 의해 수행되는 결정의 결과는 멀티 트랙 오디오 신호의 발신자에 의해 생성되고 제공되는 메타 데이터보다 덜 신뢰할 수 있다.

메타 데이터 인터페이스(480)는 멀티 트랙 레코딩의 데이터로부터 메타 데이터(12)를 추출하도록 구성된다. 출력 측에서, 메타 데이터 인터페이스(480)는 시맨틱 명령 인터프리터(35)의 입력에 연결된다. 도 15에 도시된 구성에서, 시맨틱 명령 인터프리터(35)는 시맨틱 혼합 명령으로부터 복수의 혼합 매개 변수를 도출하는 프로세스에서 메타 데이터 인터페이스(480)에 의해 제공되는 메타 데이터(12)를 이용하도록 구성된다.

도 16은 예시적인 인터페이스(490) 및 예시적인 혼합 신호 분석기(492)가 예시적인 혼합 신호에 기초하여 시맨틱 혼합 명령을 생성하기 위해 제공되는 오디오 믹서의 다른 가능한 구성의 개략적인 블록도를 도시한다.

예시적인 인터페이스(490)는 예시적인 혼합 신호를 수신하도록 구성된다. 예시적인 혼합 신호는 예를 들어 메모리에 저장되거나 네트워크를 통해 검색될 수 있다. 사용자는 예를 들어 자신이 특정 혼합 신호를 혼합하는 방법을 좋아하기 때문에 자신의 선호도에 따라 예시적인 혼합 신호의 컬렉션(collection)으로부터 예시적인 혼합 신호를 선택할 수 있다. 일반적으로, 어떤 오디오 신호는 예시적인 혼합 신호로 이용될 수 있지만, 더 좋은 결과는 일반적으로 예시적인 혼합 신호가 멀티 트랙 레코딩과 유사한 구조 및 스타일을 가질 경우에 예상될 수 있다. 예를 들면, 그것은 예시적인 혼합 신호의 계측(instrumentation)이 오디오 믹서에 의해 혼합될 멀티 트랙 신호의 계측과 실질적으로 동일한 경우에 유용할 수 있다.

예시적인 인터페이스(490)는 예시적인 혼합 신호를 혼합 신호 분석기(492)로 전송한다. 혼합 신호 분석기(492)는 예시적인 혼합 신호에서 악기 및 보컬 파트를 식별하기 위해 구성될 수 있다. 더욱이, 혼합 신호 분석기(492)는 식별된 악기 파트, 식별된 보컬 파트 및/또는 전체적으로 예시적인 혼합 신호의 상대적 음량 레벨 및/또는 주파수 곡선을 결정할 수 있다. 또한, 잔향과 같은 오디오 효과의 량을 결정할 수 있다. 결정된 값에 따라, 혼합 신호 분석기(492)는 예시적인 혼합 신호 및/또는 시맨틱 혼합 명령의 프로파일을 설정할 수 있다. 예를 들면, 혼합 신호 분석기(492)에 의해 수행된 분석은 예시적인 혼합 신호의 드럼 트랙 및 베이스 트랙이 상대적으로 두드러지지만, 다른 트랙은 더욱 낮음을 보여줄 수 있다. 따라서, 시맨틱 혼합 명령은 드럼 트랙 및 베이스 트랙이 오디오 믹서에 의해 생성되는 혼합 신호 MS를 통해 두드러져야 한다는 것을 진술하는 표현을 포함할 수 있다.

예시적인 인터페이스(490)는 또한 예시적인 혼합 신호와 함께 예시적인 오디오 트랙을 수신하도록 구성될 수 있다. 예시적인 오디오 트랙은 도 16에서 "예시적인 ST로 표시된 점선 장사방형으로 표시된다. 예시적인 오디오 트랙은 예시적인 인터페이스(490)에 의해 혼합 신호 분석기(492)에 제공된다. 예시적인 오디오 트랙은 예시적인 오디오 트랙이 예시적인 혼합 신호를 생성하는 데 사용된다는 점에서 예시적인 혼합 신호에 상응한다. 이용 가능한 예시적인 오디오 트랙에 의해, 어떤 예시적인 혼합 신호가 예시적인 혼합 신호로 혼합되기 전에 수정된 방법을 찾기 위해 혼합 신호 분석기(492)는 예시적인 오디오 트랙의 각각과 예시적인 혼합 신호를 비교할 수 있다. 이러한 방식으로, 트랙 관련 혼합 매개 변수는 시맨틱 형식 또는 반 시맨틱 형식으로 혼합 신호 분석기(492)에 의해 결정될 수 있다.

도 17은 지각 프로세서(63) 및 지각 모델(64)이 시맨틱 혼합 명령을 혼합 매개 변수로 변환하는 프로세스에서 이용되는 오디오 믹서의 다른 가능한 구성의 개략적인 블록도를 도시한다. 지각 프로세서(63) 및 지각 모델(64)은 도 17의 구성에서 시맨틱 명령 인터프리터(35)의 부분으로 도시된다. 상술한 바와 같이, 지각 프로세서(63)는 신호 특성 및 인간의 청각 메커니즘을 고려하여 지각 값을 물리적 혼합 매개 변수로 변환한다. 인간의 청각 메커니즘을 설명하는 매개 변수는 지각 모델(64)에 의해 제공된다. 지각 모델(64)은 데이터베이스 또는 지식 베이스로 조직될 수 있다. 데이터베이스의 엔트리는 오디오 효과, 음량, 상대적 음량, 주파수 내용 등에 대한 매개 변수의 형식으로 청각 관련 현상 및 상응하는 구현의 시맨틱 설명을 포함할 수 있다. 청각 관련 현상은 예를 들어 "먼(distant)", "가까운", "플랫", "풀", "브라이트(bright)", "저주파로의 바이어스(biased towards low frequencies)", "고주파로의 바이어스" 등과 같은 표현에 의해 설명될 수 있다. 상응하는 구현은 복수의 오디오 트랙 ST 중 하나 이상에 대한 혼합 매개 변수가 원하는 효과를 달성하기 위해 선택되는 방법을 나타내는 수치 값을 포함할 수 있다. 시맨틱 설명에서 혼합 매개 변수의 상응하는 값으로의 매핑은 일반적으로 전문 지식 및 음향 심리학에 기초한다. 전문 지식 및 음향 심리학은 정교한 과학적 테스트 및 연구 동안에 획득될 수 있었다.

도 8 및 도 11 내지 도 16에 도시된 구성은 어떤 조합에서 서로 조합될 수 있다. 예를 들면, 도 12 및 도 13에 도시된 구성을 조합함으로써, 오디오 트랙 식별자(430) 및 시간 섹션 식별자(460)를 포함하는 오디오 믹서가 제공될 수 있다.

도 18은 복수의 오디오 신호를 혼합 신호에 혼합하는 방법의 개략적인 흐름도를 도시한다. 102에서 방법을 시작한 후, 블록(104)에 의해 도시된 바와 같이 시맨틱 혼합 명령이 수신된다. 시맨틱 혼합 명령은 구두로 음성 명령, 하나 이상의 매개 변수를 조정하여 복수의 프리세트로부터의 선택, 예시적인 혼합 신호, 또는 다른 방식으로, 키보드를 이용하여 텍스트 형식으로 사용자에 의해 입력될 수 있다.

블록(106)에 의해 나타낸 동작에서, 복수의 혼합 매개 변수는 시맨틱 혼합 명령으로부터 도출된다. 이러한 동작은 혼합 매개 변수가 사용자가 원하는 결과로 이어지도록 전문 지식 및 음향 심리학을 포함할 수 있다.

복수의 오디오 트랙은 블록(108)에 의해 나타낸 동작과 관련하여 혼합 매개 변수에 따라 처리된다. 복수의 오디오 트랙의 처리는 음량 레벨, 패닝 위치, 오디오 효과, 주파수 필터링(등화) 및 다른 수정을 설정하는 것을 포함할 수 있다.

블록(110)에 의해 나타낸 동작에서, 처리로부터 생성되는 오디오 트랙은 방법이 블록(112)에서 종료하기 전에 혼합 신호를 형성하기 위해 조합된다.

일부 양태가 장치와 관련하여 설명되었지만, 이러한 양태는 또한 상응하는 방법에 대한 설명을 나타낸다는 것이 자명하며, 여기서, 블록 또는 장치는 방법 단계 또는 방법 단계의 특징에 상응한다. 마찬가지로, 방법 단계와 관련하여 설명된 양태는 또한 상응하는 장치의 상응하는 블록 또는 항목 또는 특징에 대한 설명을 나타낸다. 방법 단계 중 일부 또는 모두는 예를 들어 마이크로프로세서, 프로그램 가능한 컴퓨터 또는 전자 회로와 같은 하드웨어 장치에 의해 (또는 이용하여) 실행될 수 있다. 일부 실시예에서, 가장 중요한 방법 단계 중 일부의 하나 이상은 이와 같은 장치에 의해 실행될 수 있다.

어떤 구현 요구 사항에 따라, 본 발명의 실시예는 하드웨어 또는 소프트웨어에서 구현될 수 있다. 이러한 구현은 디지털 저장 매체, 예를 들어, 플로피 디스크, DVD, 블루레이, CD, ROM, PROM, EPROM, EEPROM 또는 플래시 메모리를 이용하여 수행될 수 있으며, 이러한 디지털 저장 매체는 각각의 방법이 수행되도록 프로그램 가능한 컴퓨터 시스템과 협력하는 (또는 협력할 수 있는) 전자식 판독 가능한 제어 신호를 저장한다. 그래서, 디지털 저장 매체는 컴퓨터 판독 가능할 수 있다.

본 발명에 따른 일부 실시예는 여기에 설명된 방법 중 하나가 수행되도록 프로그램 가능한 컴퓨터 시스템과 협력할 수 있는 전자식 판독 가능한 제어 신호를 가진 데이터 캐리어를 포함한다.

일반적으로, 본 발명의 실시예는 프로그램 코드를 가진 컴퓨터 프로그램 제품으로서 구현될 수 있으며, 이러한 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터 상에서 실행할 때에 방법 중 하나를 수행하기 위해 동작 가능하다. 프로그램 코드는 예를 들어 머신 판독 가능한 캐리어 상에 저장될 수 있다.

다른 실시예는 머신 판독 가능한 캐리어 상에 저장되는 여기에 설명된 방법 중 하나를 수행하는 컴퓨터 프로그램을 포함한다.

그래서, 환언하면, 본 발명의 방법의 실시예는 컴퓨터 프로그램이 컴퓨터 상에서 실행할 때에 여기에 설명된 방법 중 하나를 실행하기 위한 프로그램 코드를 가진 컴퓨터 프로그램이다.

그래서, 본 발명의 방법의 추가의 실시예는 여기에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 기록한 데이터 캐리어(또는 디지털 저장 매체 또는 컴퓨터 판독 가능한 매체)이다. 데이터 캐리어, 디지털 저장 매체 또는 기록된 매체는 일반적으로 실체적(tangible) 및/또는 비과도적(non-transitionary)이다.

그래서, 본 발명의 방법의 추가의 실시예는 여기에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 데이터 스트림 또는 신호의 시퀀스이다. 데이터 스트림 또는 신호의 시퀀스는 예를 들어 데이터 통신 접속, 예를 들어 인터넷을 통해 전송되도록 구성될 수 있다.

추가의 실시예는 여기에 설명된 방법 중 하나를 수행하기 위해 구성되거나 적응되는 처리 수단, 예를 들어 컴퓨터 또는 프로그램 가능한 논리 장치를 포함한다.

추가의 실시예는 여기에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 설치한 컴퓨터를 포함한다.

본 발명에 따른 추가의 실시예는 여기에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 (예를 들어, 전자식 또는 광학식으로) 수신기로 전송하도록 구성된 장치 또는 시스템을 포함한다. 수신기는 예를 들어 컴퓨터, 모바일 장치, 메모리 장치 등일 수 있다. 장치 또는 시스템은 예를 들어 컴퓨터 프로그램을 수신기로 전송하기 위한 파일 서버를 포함할 수 있다.

일부 실시예에서, 프로그램 가능한 논리 장치(예를 들어, 필드 프로그램 가능한 게이트 어레이)는 여기에 설명된 방법의 기능 중 일부 또는 모두를 수행하는 데 이용될 수 있다. 일부 실시예에서, 필드 프로그램 가능한 게이트 어레이는 여기에 설명된 방법 중 하나를 실행하기 위해 마이크로프로세서와 협력할 수 있다. 일반적으로, 이러한 방법은 바람직하게는 어떤 하드웨어 장치에 의해 수행된다.

상술한 실시예는 단지 본 발명의 원리를 위해 예시한 것이다. 여기에 설명된 배치 및 상세 사항의 수정 및 변형은 당업자에게는 자명한 것으로 이해된다. 그래서, 여기에서 실시예의 설명을 통해 제시된 특정 상세 사항에 의해 제한되지 않고, 첨부한 특허청구범위에 의해서만 제한되는 것으로 의도된다.

Claims

복수의 오디오 트랙을 혼합 신호(MS)에 혼합하는 오디오 믹서에 있어서,
시맨틱 혼합 명령을 수신하고, 상기 시맨틱 혼합 명령으로부터 상기 복수의 오디오 트랙에 대한 복수의 혼합 매개 변수를 도출하는 시맨틱 명령 인터프리터(30; 35);
상기 복수의 혼합 매개 변수에 따라 상기 복수의 오디오 트랙을 처리하는 오디오 트랙 프로세서(70; 75); 및
상기 오디오 트랙 프로세서에 의해 처리되는 상기 복수의 오디오 트랙을 상기 혼합 신호(MS)로 조합하는 오디오 트랙 조합기(76)를 포함하는
복수의 오디오 트랙을 혼합 신호에 혼합하는 오디오 믹서.
청구항 1에 있어서,
상기 시맨틱 명령 인터프리터(30; 35)는 상기 시맨틱 혼합 명령 내에서 시맨틱 표현을 식별하는 어휘 데이터베이스(31)를 포함하는
복수의 오디오 트랙을 혼합 신호에 혼합하는 오디오 믹서.
청구항 1 또는 청구항 2에 있어서,
상기 복수의 오디오 트랙 중에서 타겟 오디오 트랙을 식별하는 오디오 트랙 식별자(40; 430)를 추가로 포함하는데, 상기 타겟 오디오 트랙은 오디오 트랙 식별 표현에 의해 상기 시맨틱 혼합 명령 내에 나타내어지는
복수의 오디오 트랙을 혼합 신호에 혼합하는 오디오 믹서.
청구항 3에 있어서,
상기 오디오 트랙 식별자(40; 430)는
오디오 트랙 템플릿 데이터베이스(432)로부터 상기 오디오 트랙 식별 표현에 상응하는 데이터 레코드를 검색하고,
상기 복수의 오디오 트랙 중에서 적어도 하나의 오디오 트랙의 트랙 이름, 트랙 식별자, 음색, 리듬 구조, 주파수 범위, 사운드 샘플, 및 하모닉 밀도 중 적어도 하나의 분석을 수행하고,
적어도 하나의 매칭 스코어를 생성하는 상기 데이터 레코드와 상기 분석의 결과를 비교하며,
상기 적어도 하나의 오디오 트랙과 상기 데이터 레코드 사이의 상기 적어도 하나의 매칭 스코어에 기초하여 상기 타겟 오디오 트랙을 결정하도록 구성되는
복수의 오디오 트랙을 혼합 신호에 혼합하는 오디오 믹서.
청구항 1 내지 청구항 4 중 어느 한 항에 있어서,
상기 복수의 오디오 트랙 내에서 타겟 시간 섹션을 식별하는 시간 섹션 식별자(40; 460)를 추가로 포함하는데, 상기 타겟 시간 섹션은 시간 섹션 식별 표현에 의해 상기 시맨틱 혼합 명령 내에 나타내어지는
복수의 오디오 트랙을 혼합 신호에 혼합하는 오디오 믹서.
청구항 5에 있어서,
상기 시간 섹션 식별자(40; 460)는 상기 복수의 오디오 트랙을 복수의 시간 섹션으로 구조화하도록 구성되는
복수의 오디오 트랙을 혼합 신호에 혼합하는 오디오 믹서.
청구항 5 또는 청구항 6에 있어서,
상기 시간 섹션 식별자(40; 460)는 상기 복수의 오디오 트랙에 의해 나타내는 오디오 신호의 특징적인 특성의 변경이 일어나는 적어도 한번의 시간 순간을 결정하고, 적어도 한번의 결정된 시간 순간을 두 인접한 시간 섹션 사이의 적어도 하나의 경계로 이용하기 위한 상기 복수의 오디오 트랙의 분석을 수행하도록 구성되는
복수의 오디오 트랙을 혼합 신호에 혼합하는 오디오 믹서.
청구항 1 내지 청구항 7 중 어느 한 항에 있어서,
상기 복수의 오디오 트랙에 관한 메타 데이터(12)를 수신하는 메타 데이터 인터페이스(42; 480)를 추가로 포함하는데, 상기 메타 데이터(12)는 트랙 이름, 트랙 식별자, 시간 구조 정보, 강도 정보, 오디오 트랙 또는 상기 오디오 트랙의 일부분의 공간적 속성, 음색 특성 및 리듬 특성 중 적어도 하나를 나타내는
복수의 오디오 트랙을 혼합 신호에 혼합하는 오디오 믹서.
청구항 1 내지 청구항 8 중 어느 한 항에 있어서,
언어적 포맷으로 상기 시맨틱 혼합 명령을 수신하기 위한 명령 인터페이스를 추가로 포함하는
복수의 오디오 트랙을 혼합 신호에 혼합하는 오디오 믹서.
청구항 1 내지 청구항 9 중 어느 한 항에 있어서,
예시적인 혼합 신호가 혼합된 방법에 대한 사용자의 선호도에 따라 다른 혼합 신호를 상기 예시적인 혼합 신호로 수신하기 위한 예시적인 인터페이스(23; 490), 및
상기 예시적인 혼합 신호를 분석하고, 상기 예시적인 혼합 신호의 분석에 기초하여 상기 시맨틱 혼합 명령을 생성하는 혼합 신호 분석기(492)를 추가로 포함하는
복수의 오디오 트랙을 혼합 신호에 혼합하는 오디오 믹서.
청구항 1 내지 청구항 10 중 어느 한 항에 있어서,
상기 시맨틱 명령 인터프리터(30; 35)는 상기 혼합 신호의 청각 관련 특성의 지각 모델(64)에 따라 상기 시맨틱 혼합 명령을 상기 복수의 혼합 매개 변수로 변환하는 지각 프로세서(63)를 포함하는
복수의 오디오 트랙을 혼합 신호에 혼합하는 오디오 믹서.
청구항 1 내지 청구항 11 중 어느 한 항에 있어서,
상기 시맨틱 명령 인터프리터(30; 35)는 상기 시맨틱 명령 인터프리터에 의해 상기 시맨틱 혼합 명령으로부터 도출된 적어도 하나의 퍼지 규칙을 수신하고, 상기 적어도 하나의 퍼지 규칙에 기초하여 상기 복수의 혼합 매개 변수를 생성하는 퍼지 논리 프로세서를 포함하는
복수의 오디오 트랙을 혼합 신호에 혼합하는 오디오 믹서.
청구항 12에 있어서,
상기 퍼지 논리 프로세서는 상기 시맨틱 명령 인터프리터에 의해 준비된 적어도 두 개의 동의하는 퍼지 규칙을 수신하도록 구성되며, 상기 오디오 믹서는 상기 적어도 두 개의 동의하는 퍼지 규칙 중 하나의 동의하는 퍼지 규칙을 선택하는 무작위 선택기를 추가로 포함하는
복수의 오디오 트랙을 혼합 신호에 혼합하는 오디오 믹서.
복수의 오디오 트랙을 혼합 신호에 혼합하는 방법에 있어서,
시맨틱 혼합 명령을 수신하는 단계;
상기 시맨틱 혼합 명령으로부터 상기 복수의 오디오 트랙에 대한 복수의 혼합 매개 변수를 도출하는 단계;
상기 복수의 혼합 매개 변수에 따라 상기 복수의 오디오 트랙을 처리하는 단계; 및
상기 혼합 신호를 형성하도록 상기 복수의 오디오 트랙의 처리로부터 생성되는 상기 복수의 오디오 트랙을 조합하는 단계를 포함하는
복수의 오디오 트랙을 혼합 신호에 혼합하는 방법.
청구항 14의 방법을 컴퓨터가 수행하도록 지시하는 컴퓨터 프로그램.
복수의 오디오 트랙을 혼합 신호(MS)에 혼합하는 오디오 믹서에 있어서,
시맨틱 혼합 명령을 수신하고, 상기 시맨틱 혼합 명령으로부터 상기 복수의 오디오 트랙에 대한 복수의 혼합 매개 변수를 도출하는 시맨틱 명령 인터프리터(30; 35);
상기 복수의 혼합 매개 변수에 따라 상기 복수의 오디오 트랙을 처리하는 오디오 트랙 프로세서(70; 75); 및
상기 오디오 트랙 프로세서에 의해 처리되는 상기 복수의 오디오 트랙을 상기 혼합 신호(MS)로 조합하는 오디오 트랙 조합기(76); 및
상기 복수의 오디오 트랙 중에서 타겟 오디오 트랙을 식별하는 오디오 트랙 식별자(40; 430)를 포함하는데, 상기 타겟 오디오 트랙은 오디오 트랙 식별 표현에 의해 상기 시맨틱 혼합 명령 내에 나타내어지고, 상기 오디오 트랙 식별자는 상기 오디오 트랙을 분석하여 상기 타겟 오디오 트랙과 일치하는 것으로 보이는 하나의 오디오 트랙 또는 수개의 오디오 트랙을 결정하도록 구성되는
복수의 오디오 트랙을 혼합 신호에 혼합하는 오디오 믹서.
복수의 오디오 트랙을 혼합 신호에 혼합하는 방법에 있어서,
시맨틱 혼합 명령을 수신하는 단계;
상기 시맨틱 혼합 명령으로부터 상기 복수의 오디오 트랙에 대한 복수의 혼합 매개 변수를 도출하는 단계로서, 상기 복수의 혼합 매개 변수는 타겟 오디오 트랙에 대한 혼합 매개 변수를 포함하는 상기 도출하는 단계;
상기 오디오 트랙을 분석하여 상기 타겟 오디오 트랙과 일치하는 것으로 보이는 하나의 오디오 트랙 또는 수개의 오디오 트랙을 결정함으로써 상기 복수의 오디오 트랙 중에서 상기 타겟 오디오 트랙을 식별하는 단계;
상기 복수의 혼합 매개 변수에 따라 상기 복수의 오디오 트랙을 처리하는 단계; 및
상기 혼합 신호를 형성하도록 상기 복수의 오디오 트랙의 처리로부터 생성되는 상기 복수의 오디오 트랙을 조합하는 단계를 포함하는
복수의 오디오 트랙을 혼합 신호에 혼합하는 방법.
청구항 17의 방법을 컴퓨터가 수행하도록 지시하는 컴퓨터 프로그램.