KR101494062B1 - 인벨롭 섀이핑을 사용하는 오디오 신호를 변조하는 방법 및 장치 - Google Patents

인벨롭 섀이핑을 사용하는 오디오 신호를 변조하는 방법 및 장치 Download PDF

Info

Publication number
KR101494062B1
KR101494062B1 KR1020127024901A KR20127024901A KR101494062B1 KR 101494062 B1 KR101494062 B1 KR 101494062B1 KR 1020127024901 A KR1020127024901 A KR 1020127024901A KR 20127024901 A KR20127024901 A KR 20127024901A KR 101494062 B1 KR101494062 B1 KR 101494062B1
Authority
KR
South Korea
Prior art keywords
signal
audio signal
bandpass
domain
envelope
Prior art date
Application number
KR1020127024901A
Other languages
English (en)
Other versions
KR20130010118A (ko
Inventor
샤샤 디쉬
Original Assignee
프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 filed Critical 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우
Publication of KR20130010118A publication Critical patent/KR20130010118A/ko
Application granted granted Critical
Publication of KR101494062B1 publication Critical patent/KR101494062B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/02Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos
    • G10H1/06Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour
    • G10H1/08Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour by combining tones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/18Selecting circuits
    • G10H1/20Selecting circuits for transposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H3/00Instruments in which the tones are generated by electromechanical means
    • G10H3/12Instruments in which the tones are generated by electromechanical means using mechanical resonant generators, e.g. strings or percussive instruments, the tones of which are picked up by electromechanical transducers, the electrical signals being further manipulated or amplified and subsequently converted to sound by a loudspeaker or equivalent instrument
    • G10H3/125Extracting or recognising the pitch or fundamental frequency of the picked up signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G5/00Tone control or bandwidth control in amplifiers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/066Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for pitch analysis as part of wider processing for musical purposes, e.g. transcription, musical performance evaluation; Pitch recognition, e.g. in polyphonic sounds; Estimation or use of missing fundamental
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/025Envelope processing of music signals in, e.g. time domain, transform domain or cepstrum domain
    • G10H2250/031Spectrum envelope processing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Auxiliary Devices For Music (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Stereophonic System (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Amplitude Modulation (AREA)
  • Networks Using Active Elements (AREA)
  • Toys (AREA)
  • Amplifiers (AREA)

Abstract

오디오 신호를 변조하는 장치는 인벨롭 섀이프 결정기, 필터뱅크 처리기, 신호 처리기, 결합기 및 인벨롭 섀이퍼를 포함한다. 상기 인벨롭 섀이프 결정기는 시간 도메인 입력 오디오 신호를 나타내는 주파수 도메인 오디오 신호에 기초하여 인벨롭 섀이프 코이피션트를 결정하고 및 상기 필터뱅크 처리기는 상기 주파수 도메인 오디오 신호에 기초하여 서브밴드 도메인에서 복수의 밴드패스 신호를 생성한다. 게다가 상기 신호 처리기는 미리 정의된 변조 타겟에 기초하여 상기 복수의 서브밴드 도메인 밴드패스 신호의 서브밴드 도메인 밴드패스 신호를 변조한다. 상기 결합기는 상기 변조된 서브밴드 도메인 밴드패스 신호를 갖는 상기 복수의 서브밴드 도메인 밴드패스 신호의 적어도 하나의 서브세터를 결합하여 시간 도메인 오디오 신호를 얻는다. 또한, 상기 인벨롭 섀이퍼는 서브밴드 도메인 밴드패스 신호가 상기 신호 처리기에 의해 변조되기 건데 상기 인벨롭 섀이프 코이피션트에 기초하여 상기 복수의 서브밴드 도메인 밴드패스 신호의 인벨롭을 섀이프하여 섀이프된 오디오 신호를 얻거나, 또는 상기 인벨롭 섀이프 코이피션트에 기초하여 상기 시간 도메인 오디오 신호의 인벨롭을 섀이프하거나, 상기 인벨롭 섀이프 코이피션트에 기초하여 상기 변조된 서브밴드 도메인 밴드패스 신호를 갖는 상기 복수의 서브밴드 도메인 밴드패스 신호의 인벨롭을 섀이프한다.

Description

인벨롭 섀이핑을 사용하는 오디오 신호를 변조하는 방법 및 장치{APPARATUS AND METHOD FOR MODIFYING AN AUDIO SIGNAL USING ENVELOPE SHAPING}
본 발명에 따른 실시예들은 오디오 처리에 연관되며 특히 오디오 신호를 변조하기 위한 장치 및 방법에 연관된다.
이를 테면, 데이터베이스로부터 새로운 뮤지컬 콘텍스트로 테이크된(taken from a database, into a new musical context) 프리-레코드된 오디오 신호에 핏하기 위해(in order to fit pre-recorded audio signals) 극심한 신호 매니퓰레이션(manipulation)에 대한 필요성을 해결하는 디지털 신호 처리 기술에 대한 수요가 증가하고 있다.
이렇게 하기 위해서, 피치, 뮤지컬 키 및 스케일 모드와 같은 하이 레벨 시맨틱 신호 특성(high level semantic signal properties)이 적응하는데 필요하다. 모든 이러한 매니퓰레이션은 최대한 좋은 주관적인 사운드 품질을 유지하면서 실질적으로 오리지널 오디오 소재의 뮤지컬 특성을 변경하는 것을 목표로 하는 것을 공통적으로 갖는다(have in common that they aim at substantially altering the musical properties of the original audio material).
즉, 이러한 편집(edits)은 상기 오디오 소재 뮤지컬 컨텐츠를 강하게 변경하지만, 그럼에도 불구하고 처리된 오디오 샘플의 자연스러움을 보존하는 것이 요구되고, 따라서 빌리버빌리티(believability)를 유지한다. 이것은 폴로포닉 믹스된 뮤직 컨텐츠(polyphonic mixed music content)를 포함하는 신호의 서로 다른 클래스에 광범위하게 적용할 수 있는 신호 처리 방법을 이상적으로 필요로 한다.
오늘날, 오디오 신호를 변조하기 위한 많은 콘셉이 알려져 있다. 이러한 콘셉들 중 몇몇은 보코더(vocoders)를 기반으로 한다.
이를 테면, S. Disch 및 B. Edler의 "오디오 신호 처리를 위한 진폭 및 주파수 변조 보코더"(Proc. of the Int. Conf on Digital Audio Effects (DAFx)), S. Disch 및 B. Edler의 "멀티밴드 지각 변조 분석, 처리 및 오디오 신호의 합성(Multiband perceptual modulation analysis, processing and Synthesis of audio signals)"(Proc. of the IEEE-ICASSP, 2009), 또는 S. Disch 및 B. Edler의 "중력의 예상 지역 센터에 따른 오디오 신호 스펙트럼에 대한 반복적 세분화 알고리즘"(2th International Conference on Digital Audio Effects (DAFx-09), 2009), 변조 보코더(MODVOC)의 콘셉은 소개되었고, 폴리포닉 뮤직 컨텐츠에서 의미 있는 선택적인 프랜스포지션(meaningful selective transposition)을 미리 형성하기 위한(to per-form) 이것의 일반적인 기능은 언급되어왔다.
이것은 프리-레코드된 PCM 뮤직 샘플의 키 모드의 변경을 목표로 가능한 출원들을 제공한다(renders applications possible)(이를 테면, Disch 및 B. Edler의 "멀티밴드 지각 변조 분석, 처리 및 오디오 신호의 합성"(Proc. of the IEEE-ICASSP, 2009) 참조). 이러한 폴리포닉 매니퓰레이션 태스크(polyphonic manipulation task)를(Celemony에 의한 Melodyne 에디터(Melodyne editor by Celemony)) 다룰 수 있는 상업적으로 이용 가능한 소프트웨어 또한 이용 가능하다.
상기 소프트웨어는 텀 다이렉트 노트 액세스(term direct note access)(DNA)에 의해 브랜드되고 판매되는 기술을 시행한다. DNA의 필수 기능을 커버링하고 따라서 공개하는(presumably covering and thus disclosing) 특허 출원(EP2099024, Neubacker) "폴리포닉 사운드 레코딩의 노트 객체-지향 처리(note object-oriented processing) 및 음향 객체-지향 분석(acoustic object-oriented analysis)을 위한 방법" (2009년 9월)이 최근 게시되었다. 오디오 신호를 변조하기 위해 사용되는 방법으로부터의 독립은 (Independent from the method used for modifying an audio signal), 높은 지각 품질과 함께 오디오 신호를 얻기 위하는 것은 바람직하다.
본 발명의 목적은 오디오 신호를 변조하기 위한 변조된 오디오 신호의 지각 품질을 증가하도록 하는 개선된 콘셉을 제공하는 것이다.
이 목적은 청구항 제1항에 따른 장치, 청구항 제14항에 따른 방법 또는 청구항 제 15항에 따른 컴퓨터 프로그램에 의해 해결된다.
본 발명의 일실시예는 필터 뱅크 처리기(filter bank processor), 펀더멘털 결정기(fundamental determiner), 오버톤 결정기(overtone determiner), 신호 처리기(signal processor) 및 결합기(combiner)를 포함하는 오디오 신호를 변조하기 위한 장치를 제공한다. 상기 필터 뱅크 처리기는 오디오 신호를 기초로 하여 복수의 밴드패스 신호를 생성하도록 구성된다. 또한 상기 펀더멘털 결정기는 펀더멘털 밴드패스 신호를 얻기 위해 상기 복수의 밴드패스 신호의 밴드패스 신호를 선택하도록 구성된다.
상기 오버톤 결정기는 상기 선택된 펀더멘털 밴드패스 신호와 관련되는 오버톤 밴드패스 신호를 얻기 위해 상기 선택된 펀더멘털 밴드패스 신호에 관련한 오버톤 기준을 충족하는 상기 복수의 밴드패스 신호의 밴드패스 신호를 식별하도록 구성된다.
또한, 상기 신호 처리기는 미리 정의된 변조 타겟(predefined modification target)을 기초로 하여 상기 선택된 펀더멘털 밴드패스 신호를 변조하도록 구성된다. 추가적으로, 상기 신호 처리기는 상기 선택된 펀더멘털 밴드패스 신호의 변조에 따라 상기 선택된 펀더멘털 밴드패스 신호와 관련되는 식별된 오버톤 밴드패스 신호(identified overtone bandpass signal)를 변조하도록 구성된다.
또한, 상기 결합기는 변조된 오디오 신호를 얻기 위해 상기 복수의 밴드패스 신호를 결합하도록 구성된다.
펀더멘털 주파수들의 오버톤을 식별하고 해당 펀더멘털에 따라 동일한 방법으로 상기 오버톤을 변조함으로써(modifying the overtones in the same way as the corresponding fundamentals), 펀더멘털 및 그들의 오버톤의 다른 변조는 방지될 수 있고(avoided), 변조된 오디오 신호의 음색(timbre)은 오리지널 오디오 신호에 비해 더 정확하게 보존될 수 있다.
이러한 방식으로, 상기 변조된 오디오 신호의 지각 품질(perceptual quality)은 상당히 개선될 수 있다. 이를 테면, 선택적 피치 트랜스포지션(selective pitch transposition)이 바람직한 경우(is desired)(이를 테면, 주어진 뮤직 신호의 C 메이저로부터 C 마이너로 키 모드를 변경), 식별된 오버톤 밴드패스 신호의 변조는 상기 펀더멘털 밴드패스 신호의 변조와 연관성이 있다(is correlated to).
비교해 보면(In comparison), 알려진 방법들은 상기 펀더멘털 밴드패스 신호로부터 다르게 오버톤을 대표하는(representing overtones differently) 상기 밴드패스 신호의 주파수 영역을 변조한다. 즉, 식별된 오버톤 밴드패스 신호는 기술된 콘셉을 이용함으로써 상기 펀더멘털 밴드패스 신호에 로킹된다(is locked to the fundamental bandpass signal).
본 발명의 몇몇의 실시예에서, 오버톤 밴드패스 신호는 상기 복수의 밴드패스 신호의 밴드패스 신호들과 상기 펀더멘털 밴드패스 신호의 주파수를 비교함으로써(by comparing), 상기 펀더멘털 밴드패스 신호와 상기 복수의 밴드패스 신호의 밴드패스 신호의 에너지 컨텐츠를 비교함으로써(by comparing an energy content of) 및/또는 상기 펀더멘털 밴드패스 신호의 순간 인벨롭(temporal envelope)과 상기 복수의 밴드패스 신호의 밴드패스 신호의 순간 인벨롭의 코릴레이션을 평가함으로써(by evaluating a correlation of) 식별될 수 있다.
이 방법에서, 하나 또는 그 이상의 오버톤 기준은 잘못된 오버톤의 식별(identification)을 최소화하도록 정의될 수 있다.
본 발명에 따른 몇몇의 실시예들은 상기 복수의 밴드패스 신호로부터의 오버톤 밴드패스 신호의 식별 및 펀더멘털 밴드패스 신호의 반복 결정(iterative determination)에 연관된다. 이미 선택된 펀더멘털 밴드패스 신호와 이미 식별된 오버톤 밴드패스 신호는 서치 공간(search space)으로부터 제거될 수 있거나 또는 다른 말로, 추가 펀더멘털 밴드패스 신호 또는 추가 오버톤 밴드패스 신호의 결정을 위해 고려되지 않을 수 있다.
이러한 방법에서, 상기 복수의 밴드패스 신호의 밴드패스 신호 각각은 펀더멘털 밴드패스 신호(및, 그러므로(and, therefore), 다른 펀더멘털 밴드패스 신호로부터 독립적으로 변조될 수 있는(may be modified independent from)) 또는 오버톤 밴드패스 신호(및, 그러므로, 관련된 선택된 펀더멘털 밴드패스 신호에 따라 변조될 수 있는)로 선택될 수 있다.
본 발명의 또 다른 실시예는 인벨롭 섀이프된 결정기(envelope shaped determiner), 필터 뱅크 처리기, 신호 처리기, 결합기 및 인벨롭 섀이퍼(envelope shaper)를 포함하는(comprising an envelope shaped determiner) 오디오 신호 변조를 위한 장치를 제공한다.
상기 인벨롭 섀이프된 결정기는 시간 도메인 입력 오디오 신호를 대표하는(representing) 주파수 도메인 오디오 신호를 기초로 하여 인벨롭 섀이프 코이피션트를 결정하도록 구성된다(is configured to determine envelope shape coefficients). 또한 상기 필터 뱅크 처리기는 상기 주파수 도메인 오디오 신호를 기초로 하여 서브밴드 도메인에서 복수의 밴드패스 신호를 생성하도록 구성된다.
상기 신호 처리기는 미리 정의된 변조 타겟을 기초로 하여 복수의 서브밴드 도메인 밴드패스 신호의 서브밴드 도메인 밴드패스 신호를 변조하도록 구성된다. 또한 상기 결합기는 시간 도메인 오디오 신호를 얻기 위해 상기 복수의 서브밴드 도메인 밴드패스 신호의 적어도 서브세트를 결합하도록 구성된다(is configured to combine at least a subset of).
추가적으로 상기 인벨롭 섀이퍼는 상기 인벨롭 섀이프 코이피션트를 기초로 하여 상기 시간 도메인 오디오 신호의 인벨롭을 섀이프하도록 구성되고, 섀이프된 오디오 신호를 얻기 위해 서브밴드 도메인 밴드패스 신호가 상기 신호 처리기에 의해 변조되기 전에 상기 인벨롭 섀이프 코이피션트에 기초하여 상기 복수의 서브밴드 도메인 밴드패스 신호의 인벨롭을 섀이프하거나 또는 상기 인벨롭 섀이프 코이피션트에 기초하여 상기 변조된 서브밴드 도메인 밴드패스 신호를 포함하는 상기 복수의 서브밴드 도메인 밴드패스 신호의 인벨롭을 섀이프하도록 구성된다.
상기 주파수 도메인 오디오 신호가 복수의 서브밴드 도메인 밴드패스 신호에서 분리되기 전에 상기 주파수 도메인 오디오 신호의 인벨롭 섀이프 코이피션트를 결정함으로써, 상기 오디오 신호의 스펙트럼 코히어런스(spectral coherence)에 대한 정보는 하나 또는 그 이상의 서브밴드 도메인 밴드패스 신호의 변조 후에 상기 시간 도메인 오디오 신호의 인벨롭을 형성하기 위해 사용될 수 있고 보존될 수 있다(can be preserved and can be used for shaping).
이 방법에서, 비록 오직 몇몇의(또는 오직 하나의) 서브밴드 도메인 밴드패스 신호가 변조되거나 서브밴드 도메인 밴드패스 신호가 다르게 변조되고, 상기 오디오 신호의 상기 스펙트럼 코히어런스를 방해할 수 있더라도 상기 변조된 오디오 신호의 상기 스펙트럼 코히어런스는 더 정확하게 보존될 수 있다. 이 방법에서, 상기 변조된 오디오 신호의 상기 지각 품질은 상당히 개선될 수 있다.
본 발명에 따른 몇몇의 실시예들은 제2 미리 정의된 변조 타겟(predefined modification target)에 기초하여 상기 복수의 서브밴드 도메인 밴드패스 신호의 제2 서브밴드 도메인 밴드패스 신호를 변조하도록 구성되는 신호 처리기에 연관된다. 상기 미리 정의된 변조 타겟 및 상기 제2 미리 정의된 변조 타겟은 다르다. 밴드패스 신호가 다르게 변조되더라도, 상기 밴드패스 신호의 개별 변조 후에 상기 인벨롭 섀이핑 때문에(due to the envelope shaping) 상기 변조된 오디오 신호의 상기 스펙트럼 코히어런스는 더 정확하게 보존될 수 있다.
본 발명에 따른 실시예들은 이후에 첨부된 도면을 참조하여 설명될 것이다.
도 1은 오디오 신호를 변조하기 위한 장치의 블록도이다;
도 2는 오디오 신호를 변조하기 위한 장치의 블록도이다;
도 3은 오디오 신호를 변조하기 위한 방법의 흐름도이다;
도 4는 하모닉 로킹을 사용하는 변조 보코더의 일부의 블록도이다;
도 5는 오디오 신호를 변조하기 위한 방법의 흐름도이다;
도 6a, 6b, 6c, 6d는 오디오 신호를 변조하기 위한 장치의 블록도이다;
도 7은 필터 뱅크 처리기의 블록도이다;
도 8은 인벨롭 섀이퍼의 블록도이다;
도 9는 인벨롭 섀이핑과 변조 분석의 개략도(schematic illustration)이다;
도 10은 인벨롭 섀이핑과 함께 변조 분석의 개략도이다;
도 11은 오디오 신호를 변조하기 위한 방법의 흐름도이다;
도 12는 오디오 신호를 변조하기 위한 장치의 블록도이다;
도 13은 변조 분석(modulation analysis)의 개략도이다;
도 14는 변조 분석의 실행(implementation)의 개략도이다;
도 15는 변조 합성(modulation synthesis)의 개략도이다;
도 16은 변조 보코더 구성 요소 상의 선택적 트랜스포지션의 개략도이다;
도 17은 선택적 피치 트랜스포지션의 태스크(task)를 위한 변조 보코더 처리의 주관적인 품질(subjective quality)의 평가를 위한 테스트 세트(test set)를 생성하는 절차의 개략도이다;
도 18은 선택적 피치 트랜스포지션을 다루는 듣기 테스트의 95% 신뢰 구간과 완전한 MUSHRA 점수를 나타내는 다이어그램이다;
도 19는 선택적 피치 트랜스포지션을 다루는 듣기 테스트의 95% 신뢰 구간과 변조 보코더 조건에 관련하는 다른 MUSHRA 점수를 나타내는 다이어그램이다; 및
도 20은 선택적 피치 트랜스포지션을 다루는 듣기 테스트의 95% 신뢰 구간과 DNA 조건에 관련하는 다른 MUSHRA 점수를 나타내는 다이어그램이다.
다음에서, 동일한 도면 부호는 실시예들의 설명의 중복을 줄이기 위하여 다른 도면에서 또한 적용하는 도면에 관련하여(thereof with regard to a figure shall apply also to other figures) 동일하거나 유사한 기능적 특징과 그것의 설명을 갖는 오브젝트 및 기능 유닛에 대하여 부분적으로 사용된다.
선택적 피치 트랜스포지션이라고 또한 불리는 선택 주파수 밴드 변조는 이를 테면, 보코더(vocoder) 또는 변조 보코더(modulation vocoder)에 의해 실현될 수 있다(realized).
멀티밴드 변조 분해(multiband modulation decomposition)는(이를 테면, ". Disch 및 B. Edler"의 " 멀티밴드 지각 변조 분석, 처리 및 오디오 신호의 합성", Proc. of the IEEE-ICASSP, 2009) 각각이 정현파 반송파와 그것의 진폭 변조(AM) 및 주파수 변조(FM)(divided into a sinusoidal carrier and its amplitude modulation and frequency modulation)로 더 나누어져 있는 밴드패스 신호의(분석적인(analytic)) 신호 적응 세트에서 상기 오디오 신호를 분석한다(dissects).
밴드패스 필터의 세트(set)는 한편으로 풀-밴드 스펙트럼이 완벽하게 커버되고(Full-hand spectrum is covered seamlessly) 다른 한편으로 상기 필터가 중력의 전체 센터로 정렬되도록(the filters are aligned with total centers of gravity)(COGs) 계산될 수 있다.
게다가, 인간의 청각 인식은 이를 테면, ERB 스케일과 같이, 지각 스케일에 매치하도록(to match a perceptual scale) 상기 필터의 대역폭을 선택함으로써 설명될 수 있다(may be accounted for by choosing)(이를 테면, B. C. J. Moore 및 B. R. Glasberg의 "zwicker의 라우드리스 모델(loudness model)의 수정(revision)"( ActaAcustica, vol. 82, pp. 335-345, 1996)).
이를 테면, 로컬(local) COG는 해당 주파수 영역에서 스펙트럼 컨트리뷰션(spectral contributions)으로 인해 청자에 의해 인식되는 평균 주파수(mean frequency)에 해당한다. 또한 로컬 COG 포지션에 센터링된(centered) 상기 밴드는 클래식 위상 보코더의 위상 로킹을 기반의 영향의 영역에 상응할 수 있다(may correspond to regions of influence based phase locking)(J. Laroche 및 M. Dolson의 "오디오의 개선된 위상 보코더 타임스케일 변조"(IEEE Transactions on Speech and Audio Processing, vol. 7, no. 3, pp. 323-332, 1999) 또는 C. Duxbury, M. Davies, 및 M. Sandler의 "트랜션트에서 위상 로킹을 사용하는 뮤지컬 오디오의 개선된 타임스케일링"(in 112th AES Convention, 2002)).
상기 밴드패스 신호 인벨롭 표현과 영향 위상 로킹의 트레디셔널 지역 모두는 본질적으로 또는, 후자의 경우에, 합성 동안 로컬 스펙트럼 위상 코히어런스를 보장함으로써 밴드패스 신호의 순간 인벨롭을 보존한다(The bandpass signal envelope representation and the traditional region of influence phase locking both preserve the temporal envelope of a bandpass signal: either intrinsically or, in the latter case, by ensuring local spectral phase coherence during synthesis).
에스티메이트된 로컬 COG에 상응하는 주파수의 정현파 반송파에 관련하여, AM 및 FM 모두는 진폭 인벨롭 및 상기 분석 밴드패스 신호의 상기 헤테로다인식이된 위상(heterodyned phase)에 각각 캡처된다(are captured in the amplitude envelope). 특정한 합성 방법(A dedicated synthesis method)은 상기 반송파 주파수, AM 및 FM으로부터 상기 출력 신호를 렌더링 한다.
반송파 신호와 관련 변조 구성 요소에서의 신호 분해의 가능한 실행(1300)의 블록도는 도 13에서 묘사된다. 도면에서, 멀티밴드 구성 요소(밴드패스 신호들) 중 하나의 추출(extraction)에 대한 개략적인 신호 흐름이 도시된다. 모든 다른 구성 요소들은 비슷한 방식으로 획득된다(are obtained).
우선, 광대역 입력 신호(x)는 출력 신호에 적응적으로 유연한 신호로 설계되는(has been designed signal adaptively yielding an output signal) 밴드패스 필터로 공급된다(is fed). 그런 다음, 분석 신호(analytic signal)는 수학식 1에 따라 힐버트 변환에 의해 드라이브된다(is derived by the Hilbert transform).
Figure 112012077201015-pct00001
AM(진폭 변조 신호)는
Figure 112012077201015-pct00002
의 진폭 인벨롭에 의해 주어진다.
Figure 112012077201015-pct00003
FM(주파수 변조 신호)는 각 주파수
Figure 112012077201015-pct00004
로 고정 정현파 반송파에 의해 헤테로다인식이된(heterodyned by a stationary sinusoidal carrier with angular frequency) 상기 분석 신호의 위상 도함수(phase derivative)에 의해 획득된다. 상기 반송파 주파수는 상기 로컬 COG를 에스티메이트되는 것으로 결정된다(is determined to be an estimate). 이런 이유로, 상기 FM은 반송파 주파수
Figure 112012077201015-pct00005
에서 IF(순간 주파수(instantaneous frequency)) 변화로 해석될 수 있다.
Figure 112012077201015-pct00006
로컬 COG의 에스티메이션(estimation)과 프론트-엔드 필터뱅크(front-end filterbank)의 신호 적응 설계(signal adaptive design)는 이를 테면, 특정한 퍼블리케이션(dedicated publication)에서 설명된다(S. Disch 및 B. Edler의 "중력의 예상 로컬 센터에 따른 오디오 신호 스펙트럼에 대한 반복적 세분화 알고리즘"(12th International Conference on Digital Audio Effects (DAFx-09), 2009.)).
사실상, 이산 시간 시스템에서, 구성 요소 추출(component extraction)은 도 14에서 도시된 바와 같이 모든 구성 요소에 대해 공동으로 수행될 수 있다. 처리 기법은 실시간 계산을 지원할 수 있다. 특정한 시간 블록의 처리는 이전의 블록의 파라미터에만 의존한다.
이런 이유로, 가능한 한 낮은 지연으로 전체 처리를 유지하기 위해 미리 보기는 필요하지 않다(no look-ahead is required). 상기 처리는 이를 테면, 각각의 윈도우된 신호 블록(windowed signal block)에서 이산 푸리에 변환(DFT)과 75 % 분석 블록 오버랩을 사용하는 블록-바이-블록 베이시스(block-by-block is synthesized on an additive basis)로 계산된다(is computed).
윈도우는 수학식 4에 따른 플랫 탑 윈도우(flat top window)가 될 수 있다. 이것은 50 % 오버랩을 이용하는 다음의 변조 합성을 위해 전달되는(are passed on for the subsequent modulation synthesis) 중심의(centered) N/2 샘플이 분석 윈도우의 스커트에 의해 영향을 받지 않는 것을 보장한다. 오버랩의 높은 디그리(higher degree)는 증가되는 계산의 복잡성의 코스트에서(at the cost of increased computational complexity) 개선된 정확성을 위해 사용될 수 있다.
Figure 112012077201015-pct00007
스펙트럼 표현이 주어지면(Given the spectral representation), 로컬 COG와 정렬된 신호 적응 스펙트럼 밴드패스 가중치 함수의 다음 세트(next a set of signal adaptive spectral bandpass weighting functions)가 계산된다. 스펙트럼에 상기 밴드패스 가중치의 적용 후, 상기 신호는 상기 시간 도메인으로 전송되고(is transferred), 상기 분석 신호는 힐버트 변환(Hilbert transform)에 의해 드라이브될 수 있다(may be derived).
이러한 두 개의 처리 단계는 각각의 밴드패스 신호에서 싱글-사이드된(single-sided) IDFT의 계산에 의해 효율적으로 결합될 수 있다. 상기 이산 시간 밴드패스 신호가 주어지면(Given the discrete time bandpass signal), 수학식 3에 의한 상기 IF의 에스티메이션(estimation)은 수학식 5에서 정의된 바와 같이 위상 차이에 의해(by phase differencing) 실행되고, 여기서 *은 복소 공액(complex conjugate)을 나타낸다. 이 표현은 편리하게 사용된다.
이 표현은 위상 모호성 및 따라서 위상 언랩핑에 필요성을 방지하기 때문에(since it avoids phase ambiguities and hence the need for phase unwrapping) 편리하게 사용된다.
Figure 112012077201015-pct00008
상기 신호는 모든 구성 요소의 더해지는 베이시스로 합성된다(is synthesized on an additive basis). 연속적인 블록은 본딩 메커니즘(bonding mechanism)으로 제어되는 오버랩-애드(OLA)에 의해 블랜드된다(are blended by overlap-add). 상기 구성 요소 본딩은 심지어 상기 구성 요소가 변조 도메인 프로세싱에 의해 실질적으로 변경되더라도(are substantially altered) 인접한 블록들의 경계 사이에서 순조로운 전이(transition)를 보장한다.
상기 본딩은 실시간 처리를 위해 잠재적으로 허용하는 어카운트로 상기 이전의 블록들을 테이크한다(The bonding does only take the previous block into account thus potentially allowing for real-time processing). 상기 본딩은 이전의 블록에서 본질적으로 그들의 프리디세서(predecessors)에 대한 실제 블록의 구성 요소의 페어-와이즈 매치를 수행한다(The bonding essentially performs a pair-wise match of the components of the actual block to their predecessors).
추가적으로, 상기 본딩은 상기 이전에 블록에 대하여 상기 실제 블록의 절대 구성 요소 위상을 정렬한다(aligns the absolute component phases of the actual block to the ones of the previous block). 시간 블록에서 매치가 없는(have no match across time blocks) 구성 요소에 대하여, 페이드-인 또는 페이드-아웃이 각각 적용된다(fade-in or fade-out is applied, respectively).
하나의 컴포넌트를 위한 처리 체인(For one component the processing chain)은 도 15에 도시된다. 상세하게, 우선 상기 FM 신호가 고정 반송파 주파수(stationary carrier frequency)에 추가되고, 결과 신호는 OLA 스테이지에 전달되고, 그 후에 상기 OLA 스테이지의 출력은 일시적으로 통합된다(the output of which is temporally integrated subsequently). 정현파 발진기(A sinusoidal oscillator)는 결과 위상 신호에 의해 공급된다(is fed).
상기 AM 신호는 제2 OLA 스테이지에 의해 처리된다. 그 다음(Next), 상기 발진기의 출력은 상기 출력 신호에 상기 구성 요소의 더해지는 컨트리뷰션을 얻기 위해(to obtain the additive contribution) 상기 AM 신호에 의해서 그것의 진폭이 변조된다. 마지막 단계에서, 모든 구성 요소의 컨트리뷰션은 상기 출력 신호를 얻기 위해 더해진다(are summed to obtain the output signal y).
즉, 도 13 및 도 14는 변조 분석기(modulation analyzer)(1300)를 도시한다. 변조 분석기(1300)는 바람직하게도 밴드패스 신호를 제공하는 밴드패스 필터(1320a)를 포함한다. 이것은 분석 신호 변환기(1320b)로 입력된다. 블록(1320b)의 출력은 AM 정보 및 FM 정보를 계산하는데 유용하다.
상기 AM 정보를 계산하기 위해, 상기 분석 신호의 크기(magnitude)는 블록(1320c)에 의해 계산된다. 상기 분석 신호 블록(1320b)의 출력은 그것의 다른 입력으로 밴드 패스(1320a)의 실제 반송파 주파수 fc(1310)에 의해 제어되는 발진기(1320e)로부터 발진기 신호를 수신하는 곱셈기(multiplier)(1320d)로 입력된다. 그리고 나서, 상기 곱셈기 출력의 위상은 블록(1320f)에서 결정된다.
순간 주파수(instantaneous phase)는 마지막으로 FM 정보를 얻기 위해 블록(1320g)에서 차별화된다(is differentiated). 또한, 도 14는 오디오 신호의 DFT 스펙트럼을 생성하는 처리기(1410)를 도시한다.
상기 멀티밴드 변조 분해는 각각이 정현파 반송파(sinusoidal carrier) 및 그것의 진폭 변조(AM)와 주파수 변조(FM)로 더 나누어져 있는 (분석적인(analytic)) 밴드패스 신호의 신호 적응 세트(signal adaptive set)로 상기 오디오 신호를 분석한다(dissects). 밴드패스 필터의 세트는 계산되어 한편으로는 상기 풀밴드 스펙트럼이 완벽하게 커버되고 다른 한편으로는 상기 필터가 로컬 COGs 각각과 함께 정렬된다(are aligned with local COGs).
게다가, 인간 청각 인식(human auditory perception)은 이를 테면, ERB 스케일과 같은 지각 스케일(perceptual scale)에 매치하도록 상기 필터의 대역폭을 선택함으로써 설명될 수 있다(accounted for)(B. C. J. Moore 및 B. R. Glasberg의 "Zwicker의 라우드리스 모델의 수정(A revision of zwicker's loudness model)"(vol. 82, pp. 335?345, 1996) 참조).
상기 로컬 COG는 해당 주파수 영역에서 스펙트럼 컨트리뷰션으로 인해(due to the spectral contributions) 청자에 의해 인식되는 평균 주파수(the mean frequency)에 해당한다. 또한, 로컬 COG 포지션에서 센터링된 상기 밴드는 클래식 위상 보코더의 위상 로킹을 기반한 영향의 영역에 해당한다(correspond to regions of influence based phase locking of classic phase vocoders)(J. Laroche 및 M. Dolson의 "오디오의 개선된 위상 보코더 타임스케일 변조"(IEEE Transactions on Speech and Audio Processing, vol. 7, no. 3, pp. 323?332, 1999), Ch. Duxbury, M. Davies, 및 M. Sandler의 "트랜션트에서 위상 로킹을 사용하는 뮤지컬 오디오의 개선된 타임스케일링"(in 112th AES Convention, 2002), A. Robel의 "위상 보코더에서의 트랜션트 프로세싱에 대한 새로운 접근"(Proc. Of the Int. Conf. on Digital Audio Effects (DAFx), pp. 344?349, 2003), A. Robel의 "위상 보코더의 트랜션트 감지 및 보존"(Int. Computer Music Conference (ICMC’03), pp. 247?250, 2003) 참조).
상기 밴드패스 신호 리프리젠테이션 인벨롭 및 영향 위상 로킹의 트레디셔널한 영역은 모두 밴드패스 신호의 순간 인벨롭을 보존한다: 본질적으로 또는, 후자의 경우에는, 합성 동안 로컬 스펙트럼 위상 코히어런스를 보장함으로써. (The bandpass signal envelope representation and the traditional region of influence phase locking both preserve the temporal envelope of a bandpass signal: either intrinsically or, in the latter case, by ensuring local spectral phase coherence during synthesis).
에스티메이션된 로컬 COG에 상응하는 주파수의 정현파 반송파에 관하여, 두 개의 AM 및 FM은 각각 분석적인 밴드패스 신호의 헤테로다인식이된 위상(heterodyned phase)과 진폭 인벨롭에 캡쳐된다(are captured in the amplitude envelope). 특정한 합성 방법은 AM 및 FM의 상기 반송파 주파수로부터 상기 출력 신호를 렌더링한다(renders).
반송파 신호의 신호 분해(signal decomposition)와 그것들의 변조 구성 요소와 관련된 블록도는 도 12에 도시된다. 도면에서, 하나의 구성 요소의 추출에 대한 개략적인 신호 흐름이 도시된다. 모든 다른 구성 요소는 유사한 방법으로 획득된다. 사실상, 상기 추출(extraction)은 이를 테면, 윈도우된 신호 블록 각각에서 이산 푸리에 변환(DFT)의 어플리케이션에 의해 48kHz의 샘플링 주파수와 75% 분석 오버랩 - 85ms의 스트라이드(stride) 및 340 ms의 시간 간격에 해당함 - 에서
Figure 112012077201015-pct00009
의 블록 사이즈를 사용하는 블록-바이-블록 베이시스로 모든 구성 요소에 대해 공동으로 수행된다(the extraction is carried out jointly for all components on a block-by-block basis).
상기 윈도우는 수학식 a에 따른 '플랫 탑(flat top)' 윈도우가 될 수 있다. 이것은 다음 변조 합성(subsequent modulation synthesis)에 전달되는 센터링된(centered) N/2 샘플이 분석 윈도우의 기울기(slopes)에 의해 영향을 받지 않는 것이(are unaffected) 보장될 수 있다. 오버랩의 높은 디그리는 증가된 계산 복잡성의 비용(cost)에서 개선된 정확도를 위해 사용될 수 있다.
Figure 112012077201015-pct00010
(a)
상기 스펙트럼 표현이 주어지면(Given the spectral representation), 로컬 COG 포지션으로 정렬된(is aligned with local COG positions) 신호 적응 스펙트럼 가중치 함수(밴드패스 특성을 갖는)의 다음 세트(next a set of signal adaptive spectral weighting functions)는 계산될 수 있다(반송파 주파수 에스티메이션 또는 다중 반송파 COG 주파수 에스티메이션의 관점에서 반송파 주파수 결정기(1330)에 의해).
상기 스펙트럼에 상기 밴드패스 가중치의 적용 후, 상기 신호는 시간 도메인으로 변환되고 상기 분석 신호는 힐버트 변환에 의해 드라이브된다. 이러한 두 개의 처리 단계는 각각의 밴드패스 신호에서 싱글-사이드된(single-sided) IDFT의 계산에 의해 효율적으로 결합될 수 있다.
그 뒤에, 각각의 분석 신호는 그것의 에스티메이트된 반송파 주파수에 의해 헤테로다인식이된다(is heterodyned). 마지막으로, 상기 신호는 바람직한 AM 및 FM 신호를 산출하는(yielding) 위상 데리버티브(phase derivative)를 계산함으로써 획득되는 그것의 순간 주파수(IF) 트랙과 그것의 진폭 인벨롭으로 더 분해된다(is further decomposed into)(S. Disch 및 B. Edler의 "오디오 신호 처리를 위한 진폭 및 주파수 변조 보코더"(Proc. of the Int. Conf. on Digital Audio Effects (DAFx), 2008) 참조).
도 15는 적당하게(Fittingly) 오디오 신호의 표현이 파라미터화된(parameterized) 변조 합성기(modification synthesizer)(1500)의 블록도를 도시한다. 이를 테면, 유리한 실행은 변조 도메인에서 이를 테면, 시간 도메인 밴드패스 신호를 생성하기 전의 도메인에서 오버랩-애드 동작(overlap-add operation)(OLA)에 기초한다.
비트스트림(bitstream)이 될 수 있으나, 또한 뿐만 아니라 분석기 또는 변조기에 직접 연결될 수 있는 입력 신호는 AM 구성 요소(1502), FM 구성 요소(1504), 및 반송파 주파수 구성 요소(1506)로 구분될 수 있다. 상기 AM 합성기(AM synthesizer)는 바람직하게도 오버랩-가산기(1510)를 포함하고, 바람직하게도 상기 FM 합성기 내에서의 오버랩 가산기인 블록(1530)뿐만 아니라 블록(1510)을 포함하는 구성 요소 본딩 컨트롤러(component bonding controller)(1520)를 추가적으로 포함한다.
상기 FM 합성기(FM synthesizer)는 추가적으로 주파수 오버랩-합성기(1530), 순간 주파수 적분기(instantaneous frequency integrator)(1532), 블록으로부터 블록까지 상수 위상을 재생성하기 위해(in order to regenerate a constant phase) 구성 요소 본딩 컨트롤러(1520)에 의해 제어 가능한 위상 시프터(1536)와 일반 가산기로 다시 실행될 수 있는 위상 결합기(phase combiner)(1534)를 포함하여, 이전의 블록으로부터 신호의 위상이 실제 블록의 위상과 연속되도록 한다(is continuous).
그러므로, 요소(1534, 1536)에서의 위상 덧셈은 상기 분석기 사이드 상의 도 13에서의 블록(1520g)에서 구별 동안 잃어버렸던(was lost during the differentiation) 상수의 재생성에 상응한다고 말할 수 있다(corresponds to a regeneration of a constant). 상기 지각 도메인(perceptual domain)에서의 정보-손실 관점으로부터, 이것은 이를 테면, 도 13에서 장치(1320g) 구별에 의한(by the differentiation device) 상수 포지션의 손실과 같은 유일한 정보 손실이라는 것으로 언급된다. 이 손실은 구성 요소 본딩 장치(1520)에 의해 결정된 상수 위상을 더함으로써 보상될 수 있다.
오버랩-애드(OLA)는 인접한 시간 블록들 사이에서 비팅 효과(beating effects)를 방기하기 위해 쉽게 합성된 신호에서 보다는 파라미터 도메인에 적용된다(is applied in the parameter domain rather than on the readily synthesized signal). 상기 OLA는 스펙트럼 부근(ERB 스케일에서 측정된)에서 스티어링되는 구성 요소 본딩 메커니즘으로 컨트롤되고, 이전의 블록에서 그들의 프리디세서에 대한 실제 블록의 구성 요소의 페어-와이즈 매치를 수행한다. 또한, 상기 본딩은 상기 이전의 블록의 것들로 상기 실제 블록의 절대적인 구성 요소 위상을 정렬한다(aligns the absolute component phases of the actual block to the ones of the previous block).
자세하게, 첫 번째로(firstly) 상기 FM 신호는 상기 반송파 주파수에 더해지고, 그 결과 상기 OLA 스테이지로 전달되고, 상기 OLA 스테이지의 출력은(the output of which) 그 뒤에 통합된다. 정현파 발진기(1540)는 결과 위상 신호로 공급된다(fed).
상기 AM 신호는 제2 OLA 스테이지에 의해 처리된다. 마지막으로 상기 발진기의 출력은 출력 신호(1560)에 상기 구성요소의 더해지는 컨트리뷰션을 얻도록(to obtain the additive contribution of the component to the output signal) 결과 AM 신호에 의해 그것의 진폭에서 변조된다(1550).
변조 분석 내의 상기 신호의 적절한 스펙트럼 세그멘테이션(segmentation)은 모든 추가 변조 파라미터 처리의 설득력 있는 결과를 위하여 가장 중요하다는(is of paramount importance) 것이 강조되어야 한다. 그러므로, 여기에서, 적절한 세그멘테이션에 대한 실시예가 설명된다.
적합하게(Fittingly), 도 16은 폴리포닉 키 모드 변환을 위한 어플리케이션에 대한 실시예(1600)를 도시한다. 상기 도면은 변조 보코더 구성 요소 상의 선택적 트랜스포지션을 도시한다. 반송파 주파수는 적절한 해당 MIDI 노트에 매핑되는(are mapped) MIDI 노트로 양자화된다(are quantized to MIDI notes). 오리지널과 변조된 반송파 주파수의 비율로 매핑된 구성 요소의 곱셈에 의한 상대적인 FM 변조의 보존이다(Preservation of relative FM modulation by multiplication of the mapped components by the ratio of original and modified carrier frequency).
오리지널 재생 속도를 유지하는 동안의 오디오 신호의 트랜스포징(Transposing)은 도전 과제(challenging task)이다. 제안된 시스템을 사용하여, 이것은 상수(constant factor)와 모든 반송파 구성 요소의 간단한 곱셈(multiplication)에 의해 달성된다.
상기 입력 신호의 시간적인 구조가 오로지 상기 AM 신호에 의해 캡처되기(is solely captured by the AM signals) 때문에 상기 반송파의 스펙트럼 스페이싱의 스트레칭에 의해(by the stretching of the carrier’s spectral spacing) 영향을 받지 않는다.
더 어려운 효과는 선택적인 프로세싱에 의해 얻어질 수 있다. 뮤직의 피스의 키 모드(key mode of a piece of music)는 이를 테면, 마이너(minor)에서 메이저(major)로 또는 반대로 변경될 수 있다. 그러므로, 특정한 미리 정의된 주파수 간격에 해당하는 반송파의 서브세트들 만이 적절한 새로운 값으로 매핑된다. 이를 위해, 상기 반송파 주파수는 적절한 새로운 MIDI 피치로 그 뒤에(subsequently) 매핑되는 MIDI 피치로 양자화된다(are quantized to MIDI pitches)(1670)(처리되는 뮤직 아이템의 키(key) 또는 모드의 사전 지식(priori knowledge)을 사용하여).
그 다음에, 상기 매핑된 MIDI 노트는 합성에 이용되는 변조된 반송파 주파수를 얻기 위해 다시 변환된다(1574). 특정(dedicated) MIDI 노트 온셋/오프셋 결정은 시간적 특성이 변조되지 않은 AM에 의해 대부분 표시되고(predominantly represented) 따라서 보존되기(preserved) 때문에 필요하지 않다. 임의의 매핑 테이블은 다른 마이너 플레이버에게 및 다른 마이너 플레이버로부터(이를 테면, 하모닉 마이너(harmonic minor)) 변환을 위해 정의될 수 있다(can be defined enabling for conversion to and from other minor flavours).
오디오 효과의 영역(realm)에서의 어플리케이션은 오디오 신호의 글로벌 트랜스포지션이다. 이러한 오디오 효과를 위해 필요한 처리는 상수 트랜스포지션 팩터와 상기 반송파의 간단한 곱셈이다.
또한 동일한 팩터로 상기 FM을 곱셈함으로써 각각의 구성 요소에 대하여, 상대적인 FM 변조 깊이(relative FM modulation depth)가 보존되는 것이 보장된다. 상기 입력 신호의 시간적인 구조가 상기 AM 신호에 의해 오로지 캡처되기(is solely captured by the AM signals) 때문에 이것은 상기 프로세싱에 의해 영향을 받지 않는다. 글로벌 트랜스포지션은 오리지널 템포를 유지하면서 뮤직 신호의 오리지널 키를 타겟 키로(이를 테면, C 메이저로부터 G 메이저로) 변경한다.
그러나, 제안된 변조 분석의 신호 적응 특성으로 인해, 상기 변조 보코더는 이 태스크를 넘어 설 수 있는 가능성을 갖는다(has the potential to go beyond this task). 이제, 심지어 폴리포닉 뮤직의 선택된 구성 요소의 트랜스포지션이 실현 가능하게 되고, 이를 테면, 주어진 뮤직 신호(이를 테면, S. Disch 및 B. Edler의 "멀티밴드 지각 변조 분석, 처리 및 오디오 신호의 합성"(Proc. of the IEEE-ICASSP, 2009) 참조)의 키 모드(이를 테면, C 메이저로부터 C 마이너로)로 변경하는 어플리케이션을 가능하게 한다(enabling applications).
이것은 각각의 구성 요소 반송파(component carrier)가 그것의 스펙트럼 영역에서 인식된 피치(perceived pitch)에 밀접하게 상응하는 사실로 가능할 수 있다. 특정한 오리지널 피치에 연관된 반송파들은 새로운 타겟 값들에 매핑되는 경우, 상기 키 모드로 결정되는 전체 뮤지컬 특성은 매니퓰레이드된다(is manipulated).
MODVOC 구성 요소에서의 필요한 처리는 전에 언급한 바와 같이 도 16에 도시된다. 상기 MODVOC 분해 도메인(decomposition) 내에서, 상기 반송파 주파수는 적절한 상응하는 MIDI 노트에 맵핑되는 MIDI 노트로 양자화된다(are quantized to MIDI notes which are subsequently mapped onto appropriate corresponding MIDI notes).
미디 피치(midi pitches)와 노트 네임(note names)의 의미 있는 재할당(reassignment)을 위하여, 상기 오리지널 뮤직 아이템의 모드와 키의 사전 지식이 필요할 수 있다. 모든 구성 요소(all components)의 AM은 모두에서 이것은 어떠한 피치 정보도 포함하지 않기 때문에(upon at all since these contain no pitch information) 작용하지 않는다(is not acted).
명확하게, 상기 구성 요소 피치를 나타내는 상기 구성 요소 반송파 주파수 f는 수학식 6에 따라 MIDI 피치 값 m으로 변환되고, 여기서 fstd는 MIDI 피치 69, 노트 A0에 상응하는 표준 피치를 나타낸다.
Figure 112012077201015-pct00011
Figure 112012077201015-pct00012
그 뒤에 MIDI 피치는 MIDI 노트
Figure 112012077201015-pct00013
로 양자화되고(are quantized to MIDI notes), 추가적으로 각각의 노트의 상기 피치 오프셋
Figure 112012077201015-pct00014
가 결정된다. 키, 오리지널 모드 및 타겟 모드에 따라 달라지는 MIDI 노트 매핑 테이블의 활용에 의해(By utilization of a MIDI note mapping table), 이러한 MIDI 노트는 절절한 타겟 값 n'으로 변환된다(are transformed to appropriate target values).
아래의 테이블에서, 예시적인 매핑은 메이저로부터 네추럴 마이너로 C의 키에 제공된다(is given for key of C from major to natural minor). 상기 테이블은 C 메이저로부터 C 네추럴 마이너로의 스케일 모드 변환(scale mode transformation)을 위한 MIDI 노트 매핑 테이블을 도시한다. 상기 매핑은 모든 옥타브의 노트에 적용한다.
Figure 112012077201015-pct00015
마지막으로, 그것들의 피치 오프셋을 포함하는 매핑된 MIDI 노트는 합성(synthesis)에 사용되는 변조된 반송파 주파수를 얻기 위하여 주파수
Figure 112012077201015-pct00016
로 변환된다(수학식 7).
게다가, 상대적 FM 변조 깊이를 보존하기 위해, 매핑된 구성 요소의 상기 FM은 오리지널 및 변조된 캐리어 주파수의 비율로 획득 되는 개별 피치 트랜스포지션 팩터로 곱해진다(is multiplied by the individual pitch transposition factor). 특정한(dedicated) MIDI 노트 온셋/오프셋(onset/offset) 검출(detection)은 시간적 특성이 변조되지 않은 AM에 의해 주로 표현되고 따라서 보존되기 때문에 필요하지 않을 수 있다.
설명된 변조 보코더는 오디오 신호의 다른 주파수 범위(밴드패스 신호)를 다양하게 변조할 수 있는 선택적 피치 트랜스포지션으로 언급되었던 하나의 가능성이다. 본 발명의 콘셉은 이러한 변조된 오디오 신호의 지각 품질(perceptual quality)의 향상을 가능하게 한다.
본 발명의 콘셉의 몇몇의 실시예들이 보코더 또는 변조 보코더와 관련하여 설명되었을 지라도 이것은 또한 보코더의 사용으로부터 독립된 변조된 오디오 신호의 지각 품질의 개선을 위해 일반적으로 사용될 수 있다.
도 1은 본 발명의 일실시예에 따른 오디오 신호(102)를 변조하기 위한 장치(100)의 블록도이다. 장치(100)은 필터 뱅크 처리기(filter bank processor)(110), 펀더멘털 결정기(fundamental determiner)(120), 오버톤 결정기(overtone determiner)(130), 신호 처리기(140) 및 결합기(combiner)(150)를 포함한다. 필터 뱅크 처리기(110)는 펀더멘털 결정기(120)와 연결되어 있고, 오버톤 결정기(130) 및 신호 처리기(140)뿐만 아니라 펀더멘털 결정기(120)는 오버톤 결정기(130) 및 신호 처리기(140)와 연결되어 있다.
또한 오버톤 결정기(130)는 신호 처리기(130)와 연결되어 있고, 신호 처리기(140)는 결합기(150)과 연결된다. 필터 뱅크 처리기(110)는 오디오 신호(102)에 기초하여 복수의 밴드패스 신호(112)를 생성한다. 게다가, 펀더멘털 생성기는 펀더멘털 밴드패스 신호(122)를 얻기 위해(to obtain a fundamental bandpass signal) 상기 복수의 밴드패스 신호들의 밴드 패스 신호(112)를 선택한다.
상기 오버톤 결정기는 상기 선택된 펀더멘털 밴드패스 신호(122)에 관련된 오버톤 밴드패스 신호(132)를 얻기 위해 상기 선택된 펀더멘털 밴드패스 신호(122)에 대하여 오버톤 기준을 충족하는(fulfilling an overtone criterion) 상기 복수의 밴드패스 신호의 밴드패스 신호(112)를 식별한다.
게다가, 신호 처리기(140)는 미리 정의된 변조 타겟에 기초하여 상기 선택된 펀더멘털 밴드패스 신호(122)를 변조한다. 추가적으로, 신호 처리기(140)는 선택된 펀더멘털 밴드패스 신호(122)의 변조에 따라 선택된 펀더멘털 밴드패스 신호(122)에 관련된 식별된 오버톤 밴드패스 신호(identified overtone bandpass signal)(132)를 변조한다. 결합기(150)는 변조된 오디오 신호(152)를 얻기 위해 상기 변조되고 선택된 펀더멘털 밴드패스 신호와 상기 변조되고 식별된 오버톤 밴드패스 신호를 포함하는 상기 복수의 밴드패스 신호를 결합한다(combines).
펀더멘털 밴드패스 신호(122)와 관련된 식별된 오버톤 밴드패스 신호(132)와 펀더멘털 밴드패스 신호(122)를 같은 방법으로 변조함으로써, 비록 상기 복수의 밴드패스 신호들의 다른 밴드패스 신호들이 다른 방법으로 변조될 수 있더라도, 이러한 하모닉의 일반적인 동작은 보존될 수 있다(a common behavior of these harmonics may be preserved).
이 방법에서, 오리지널 오디오 신호(102)의 음색(timbre)는 더 정확하게 유지될 수 있어서 변조된 오디오 신호의 지각 품질(perceptual quality)이 상당이 개선될 수 있다. 이를 테면, 대부분의 인스트루먼트(most instruments)는 펀더멘털 주파수 부분과 그것의 하모닉으로 이루어지는 하모닉 사운드를 자극한다(excite).
상기 펀더멘털 주파수 부분이 변조되어야 한다면, 기술된 콘셉에 따른 상기 하모닉의 코릴레이트된 변조(correlated modification)는 상기 변조된 오디오 신호의 훨씬 더 나은 지각 품질을 산출할 수 있다. 또한, 오디오 신호는 전체 오디오 신호(이를 테면, 전체 폴리포닉 뮤직 타이틀)에 대한 사전 정보가 필요하지 않을 수 있기 때문에 실시간으로 변조될 수 있다.
오디오 신호(102)는 이를 테면, 시간 도메인 입력 오디오 신호를 표현하는(representing) 주파수 도메인 오디오 신호 또는 시간 도메인 입력 오디오 신호(time domain input audio signal)일 수 있다. 펀더멘털 결정기(120)는 변조를 위해 신호 처리기(140)로 선택된 펀더멘털 밴드패스 신호(122)를 제공할 수 있거나 또는 미리 정의된 변조 타겟에 관련한 상기 복수의 밴드패스 신호의 선택된 밴드패스 신호를 변조하기 위해 신호 처리기(140)가 트리거하도록 트리거 신호(trigger sign)(122)(이를 테면, 상기 선택된 펀더멘털 밴드패스 신호의 인덱스
Figure 112012077201015-pct00017
, 여기서 I는 상기 복수의 밴드패스 신호의 밴드패스 신호의 개수임(the number of bandpass signals))를 제공할 수 있다.
그 결과, 또한 오버톤 결정기(130)는 변조를 위해 신호 처리기(140)로 식별된 오버톤 밴드패스 신호(132)를 제공할 수 있거나 상기 복수의 밴드패스 신호의 상기 식별된 밴드패스 신호를 변조하기 위해 신호 처리기(140)가 트리거 하도록 트리거 신호(132)(이를 테면, 상기 복수의 밴드패스 신호의 상기 밴드패스 신호를 식별하는 인덱스가 오버톤 밴드패스 신호로 식별됨)를 제공할 수 있다.
상기 오버톤 기준(overtone criterion)은 상기 펀더멘털의 오버톤을 식별하기 위한 하나 또는 그 이상의 룰(rules)을 포함할 수 있다. 상기 선택된 펀더멘털 밴드패스 신호(122)의 오버톤으로(as an overtone of) 상기 복수의 밴드패스 신호의 밴드패스 신호를 식별하기 위해 충족되는(to be fulfilled to identify) 하나 또는 그 이상의 오버톤 기준이 있을 수 있다.
미리 정의된 변조 타겟은 다른 주파수 범위를 포함하는 밴드패스 신호에 따라 달라질 수 있고(may be different for bandpass signals) 오디오 신호(102)의 바람직한 변조에 따라 달라진다(may depend on). 이를 테면, 오디오 신호의 오리지널 키는 타겟 키로 변경되어야 한다. 예시적 매핑은 위의 테이블에 의해 메이저로부터 네추럴 마이너의 C의 키로 주어졌다(was given for key of C from major to natural minor).
이를 테면, 상기 복수의 밴드패스 신호의 밴드패스 신호의 주파수 범위가 오리지널 노트 C에 상응한 경우, 상기 타겟 노트는 C가 되어야 할 뿐만 아니라 이러한 밴드패스 신호는 변조되지 않는다(the target note would be C as well, so that this bandpass signal is not modified)(변조되는(which is modified) 관련된 펀더멘털 밴드패스 신호의 오버톤 밴드패스 신호로 식별되는 것은 제외).
이 경우에서, 상기 변조 타겟은 변조되지 않은 이 밴드패스 신호를 유지하는 것이다(is to keep this bandpass signal unmodified). 다른 한편으로는, 오리지널 노트 A에 코릴레이트하는(correlating to an original note A) 주파수 범위를 포함하는 상기 복수의 밴드패스 신호의 밴드패스 신호는 변조될 수 있고, 상기 변조된 밴드패스 신호는 타겟 노트 Ab에 성관하는 주파수 범위를 포함할 수 있다(상기 밴드패스 신호가 또 다른 변조 타겟에 따라(according to) 변조되는 펀더멘털 밴드패스 신호의 오버톤 밴드패스 신호로 식별되는(signal is identified as) 경우를 제외함).
게다가, 식별된 오버톤 밴드패스 신호(밴드패스 신호는 오리지널 노트 A의 오버톤에 코릴레이트되는 주파수 범위를 포함함)는 변조될 수 있고 상기 변조된 오버톤 밴드패스 신호는 상기 타겟 노트 Ab의 오버톤에 코릴레이트되는(correlated to an overtone of the target note Ab) 주파수 범위를 포함한다.
상기 복수의 밴드패스 신호의 모든 밴드패스 신호(112)는 반송파 주파수를 포함할 수 있다. 상기 반송파 주파수는 이를 테면, 상기 주파수 범위의 평균 주파수(mean frequency), 상기 주파수 범위의 상단 컷-오프 주파수(upper cut-off frequency), 상기 주파수 범위의 하단 컷-오프 주파수(lower cut-off frequency) 또는 상기 밴드패스 신호의 상기 주파수 범위의 그래비티의 센터(a center of gravity)처럼(as, for example) 밴드패스 신호로 포함되거나 밴드패스 신호에 의해 표현되는(represented by or contained by a bandpass signal) 상기 주파수 범위의 특정 주파수가 될 수 있다.
밴드패스 신호의 상기 반송파 주파수는 각각의 다른 밴드패스 신호의 상기 반송파 주파수로부터 다를 수 있다. 이러한 반송파 주파수는 오버톤 밴드패스 신호를 식별하기 위해 오버톤 결정기(130)에 의해 사용될 수 있다.
이를 테면, 오버톤 결정기(130)는 상기 복수의 밴드패스 신호의 밴드패스 신호(112)의 반송파 주파수와 선택된 펀더멘털 밴드패스 신호(122)의 상기 반송파 주파수를 비교할 수 있다. 오버톤은 거의 상기 펀더멘털 주파수의 배수이기 때문에(Since an overtone may be approximately a multiple of the fundamental frequency), 밴드패스 신호(112)의 상기 반송파 주파수는 선택된 펀더멘털 밴드패스 신호(122)의 상기 반송파 주파수의 배수일(is a multiple of the carrier frequency of the selected fundamental bandpass signal) 경우(이를 테면, 100 Hz, 50 Hz, 20 Hz 또는 더 작은 것과 같은 미리 정의된 주파수 허용 오차(tolerance)로), 오버톤 기준은 충족될 수 있다(overtone criterion may be fulfilled).
즉, 오버톤 기준은 이를 테면, 밴드패스 신호(112)의 상기 반송파 주파수가 미리 정의된 반송파 주파수 허용 오차로 선택된 펀더멘털 밴드패스 신호(122)의 상기 반송파 주파수의 배수가 될 수 있다(an overtone criterion may be, for example, that the carrier frequency of a bandpass signal 112 is a multiple of the carrier frequency of the selected fundamental bandpass signal 122 with a predefined carrier frequency tolerance).
추가적으로 또는 대안적으로(Additionally or alternatively), 오버톤 결정기(130)는 상기 복수의 밴드패스 신호의 밴드패스 신호(112)의 에너지 컨텐츠(energy content)와 선택된 펀더멘털 밴드패스 신호(122)의 에너지 컨텐츠를 비교할 수 있다.
이러한 실시예에서, 밴드패스 신호(112)의 상기 에너지 컨텐츠와 상기 선택된 펀더멘털 밴드패스 신호(122)의 상기 에너지 컨텐츠의 비율이 미리 정의된 에너지 허용 오차 범위(predefined energy tolerance range) 내에 있을 경우, 오버톤 기준은 충족될 수 있다.
이 오버톤 기준은 일반적으로 하모닉이 상기 펀터멘털 보다 낮은 에너지를 보이는 것으로 고려한다(takes into account, that usually harmonics exhibit lower energy than the fundamentals). 상기 미리 정의된 에너지 허용 오차 범위는 이를 테면, 0.3으로부터 0.9까지, 0.5로부터 0.8까지, 0.6으로부터 0.7까지 또는 또 다른 범위가 될 수 있다. 오버톤 기준에 기초하는 이 에너지 컨텐츠는 위에서 언급된 오버톤 기준에 기초하는 상기 반송파 주파수와 결합될 수 있다.
추가적으로 또는 대안적으로, 오버톤 결정기(130)는 선택된 펀더멘털 밴드패스 신호(122)의 순간 인벨롭과 함께(with a temporal envelope) 상기 복수의 밴드패스 신호의 밴드패스 신호(112)의 순간 인벨롭(temporal envelope)의 코릴레이션을 나타내는 코릴레이션 값(correlation value)을 계산할 수 있다. 이 경우에서, 상기 코릴레이션 값이 미리 정의된 코릴레이션 임계치 보다 높을 경우, 오버톤 기준은 충족될 수 있다. 이 오버톤 기준은 펀더멘털 및 그것의 하모닉이 오히려 유사한 순간 인벨롭을 공유한다는 사실을 고려한다(considers the fact that a fundamental and its harmonic share a rather similar temporal envelope).
상기 미리 정의된 코릴레이션 임계치는 이를 테면, 0.2, 0.3, 0.4 또는 이상이 될 수 있다. 오버톤 기준에 기초하는 기술된 코릴레이션은 오버톤 기준에 기초하는 상기 반송파 주파수 및/또는 위에서 언급된 오버톤 기준에 기초하는 상기 에너지 컨텐츠와 결합될 수 있다(may be combined with).
펀더멘털 결정기(120)는 모든 이미 선택된 펀더멘털 밴드패스 신호(122)와 모든 이미 식별된 오버톤 밴드패스 신호(132)를 고려하지 않고(without considering) 상기 복수의 밴드패스 신호의 추가 밴드패스 신호(112)를 선택할 수 있다. 즉, 펀더멘털 결정기(120)는 밴드패스 신호의 세트로부터 반복하는 펀더멘털 밴드패스 신호(122)를 선택할 수 있고(may select iterative fundamental bandpass signals), 밴드패스 신호 이미 선택되지 않은 펀더멘털 밴드패스 신호와 이미 선택되지 않은 오버톤 밴드패스 신호(132)를 포함한다(which contains bandpass signals not already selected fundamental bandpass signals and already identified overtone bandpass signals). 이것은 상기 복수의 밴드패스 신호의 모든 밴드패스 신호가 펀더멘털 밴드패스 신호의 오버톤으로 식별되거나(identified as) 펀더멘털 밴드패스 신호로 선택될(selected as) 수 있을 때까지 수행될 수 있다(may be done).
그 결과, 오버톤 결정기(130)는 모든 이미 식별된 오버톤 밴드패스 신호를 고려하지 않고 및 모든 이미 선택된 펀더멘털 밴드패스 신호(122)를 고려하지 않고 상기 추가 선택된 펀더멘털 밴드패스 신호에 따른 오버톤 기준을 충족하는 상기 복수의 밴드패스 신호의 밴드패스 신호(112)를 식별할 수 있다.
또한, 신호 처리기(140)는 모든 다른 선택된 펀더멘털 밴드패스 신호로부터 독립적이고 상기 추가 미리 정의된 변조 타겟에 기초하여(based on the further predefined modification target and independent from all other selected fundamental bandpass signals) 추가적으로 선택된 펀더멘털 밴드패스 신호(further selected fundamental bandpass signal)(122)를 변조할 수 있다. 즉, 각각의 펀더멘털 밴드패스 신호에 대하여 또는 상기 선택된 펀더멘털 밴드패스 신호의 몇몇에 대하여, 다른 변조 타겟이 정의될 수 있다. 이를 테면, 상기 변조 타겟은 하나의 키 노트로부터 또 다른 키 노트로의 트랜지션(transition)을 나타내는 위에 정의된 테이블에 의해 정의될 수 있다.
상기 펀더멘털 밴드패스 신호가 서로로부터 독립적으로 변조될 수 있기 때문에, 이를 테면 또한 특정한 인스트루먼트의 선택적으로 펀더멘털과 하모닉(also selectively only fundamentals and harmonics of a specific instrument)은 상기 키 모드 또는 이 인스트루먼트의 라우드리스를 변경하기 위해 변조될 수 있다.
밴드패스 신호(112)는 에너지 기준에 기초하여(based on an energy criterion) 펀더멘털 결정기(120)에 의해 선택될 수 있다. 이를 테면, 가장 높은 또는 가장 높은 에너지 컨텐츠 중 하나의(이를 테면, 70% 보다 높거나 다른 밴드패스 신호 보다 높은) 상기 밴드패스 신호가 선택될 수 있다. 이 실시예에서, 이미 선택된 펀더멘털 밴드패스 신호는 상기 선택된 펀더멘털 밴드패스 신호의 에너지 컨텐츠를 나타내는 에너지 컨텐츠 파라미터를 0으로 설정함으로써 추가 선택으로부터 제외될 수 있다(may be excluded from a further selection).
밴드패스 신호(112)의 선택을 위하여, 각각의 밴드패스 신호(이를 테면 상기 펀더멘털 결정기에 의해 결정되는 에너지 컨텐츠 파라미터로 표시되는)의 상기 에너지 컨텐츠는 지각하여 중요한 밴드패스 신호의 선택을 강도하기 위해 가중될 수 있다(may be weighted)(이를 테면, 가중치를 부여함으로써(by a-weighting)).
신호 처리기(140)는 선택된 펀더멘털 밴드패스 신호(132)와 관련된 오버톤 밴드패스 신호(associated overtone bandpass signals)(132)를 다양한 방법으로 변조할 수 있다. 이를 테면, 신호 처리기(140)는 트랜스포지션 팩터(transposition factor)를(이를 테면, 상기 키 모드 변화에 따라) 선택된 펀더멘털 밴드패스 신호(122)의 반송파 주파수를 곱함으로써(by multiplying) 또는 트랜스포지션 주파수를 선택된 펀더멘털 밴드패스 신호(122)의 반송파 주파수에 더함으로써(by adding) 선택된 펀더멘털 밴드패스 신호(122)를 변조할 수 있다.
또한 신호 변조기(signal modifier)(140)는 트랜스포지션 팩터(이를 테면, 20%, 10%, 5%, 1% 또는 이하의(or below) 허용 오차(tolerance)로)를 식별된 밴드패스 신호(132)의 반송파 주파수에 곱함으로써 또는 상기 트랜스포지션 주파수(이를 테면, 20%, 10%, 5%, 1% 또는 이하의 허용 오차(tolerance)로)의 배수를 식별된 오버톤 밴드패스 신호(132)의 상기 반송파 주파수에 더함으로써(by adding a multiple of the transposition frequency to the carrier frequency of the identified overtone bandpass signal) 식별된 오버톤 밴드 패스 신호(132)를 변조할 수 있다.
즉, 이를 테면, 키 모드 변화는 동일한 트랜스포지션 팩터로 상기 펀더멘털 및 관련된 하모닉을 곱함으로써 또는 상기 펀더멘털에 트랜스포지션 주파수를 더하고 상기 오버톤에 상기 트랜스포지션 주파수를 더함으로써(by adding a transposition frequency to the fundamental and a multiple of the transposition frequency to the overtone) 실현될 수 있다(may be realized). 이 방법에서, 식별된 오버톤 밴드패스 신호(132)는 선택된 펀더멘털 밴드패스 신호(122)에 따라(동일한 방법으로) 변조된다(is modified depending as).
도 2는 본 발명에 따른 오디오 신호(102)를 변조하기 위한 장치(200)의 블록도를 도시한다. 장치(200)는 도 1에 도시된 상기 장치와 유사하지만, 추가적으로 반송파 결정기(carrier frequency determiner)(260)를 포함하고, 필터 뱅크 처리기(110)는 필터 뱅크(filter bank)(212)와 신호 변환기(signal converter)(214)를 포함한다. 필터 뱅크(212)는 신호 변환기(214)와 연결되고, 신호 변환기(214)는 신호 처리기(140)와 연결된다. 추가적인 반송파 주파수 결정기(260)는 필터 뱅크 처리기(110)의 필터 뱅크(212)와 신호 처리기(140)와 연결된다.
필터 뱅크(212)는 오디오 신호(102)를 기초로 하는 밴드 패스 신호를 생성할 수 있고, 신호 변환기(214)는 펀더멘털 결정기(120), 오버톤 결정기(130) 및 신호 처리기(140)로 제공되는 상기 복수의 밴드패스 신호를 얻기 위해 상기 생성된 밴드패스 신호를 서브밴드 도메인으로(to a subband domain) 변환할 수 있다. 신호 변환기(214)는 이를 테면, 싱글 사이드된 역 이산 푸리에 변환 유닛(single sided inverse discrete Fourier transform unit)으로 실현될 수 있고, 상기 복수의 밴드패스 신호의 각각의 밴드패스 신호(112)는 분석 신호(analytical signal)를 표현할 수 있다. 이 서브밴드 도메인에서, 펀더멘털 결정기(120)는 펀더멘털 밴드패스 신호(122)를 얻기 위해 상기 복수의 밴드패스 신호로부터 이러한 서브밴드 도메인 밴드패스 신호 중 하나를 선택할 수 있다. 또한, 상기 오버톤 결정기는 상기 복수의 밴드패스 신호의 이러한 서브밴드 도메인 밴드패스 신호 중 하나를 식별할 수 있다.
추가적으로, 반송파 주파수 결정기(260)는 오디오 신호(102)에 기초하여 복수의 반송파 주파수를 결정할 수 있고 필터 뱅크 처리기(110)의 필터 뱅크(212)는 상기 밴드패스 신호를 생성할 수 있고, 각각의 밴드패스 신호는 상기 복수의 반송파 주파수의 반송파 주파수(262) 각각과 관련된 밴드 패스 신호를 얻기 위해 상기 복수의 반송파 주파수의 다른 반송파 주파수(262)를 포함하는 주파수 범위를 포함한다.
즉, 필터 뱅크(212)에 의해 생성된 상기 밴드패스 신호의 대역폭과 평균 주파수는 반송파 주파수 결정기(260)에 의해 컨트롤 될 수 있다. 이것은 이를 테면, 위에 설명된 바와 같이, 오디오 신호(102)의 그래비티의 센터(COG)를 계산함으로써(by calculating center of gravities) 다양한 방법으로 수행될 수 있다.
이미 위에서 언급된 바와 같이, 밴드패스 신호(112)는 다양한 방법으로 변조될 수 있다. 이를 테면, 신호 처리기(140)는 상기 복수의 밴드패스 신호의 각각의 밴드패스 신호(112)에 대한(for) 주파수 변조 신호(FM)와 진폭 변조 신호(AM)를 생성할 수 있다. 각각의 밴드패스 신호가 상기 서브밴드 도메인에서의 분석 신호를 표현하기 때문에(Since each bandpass signal represents), 신호 처리기(140)는 이를 테면, 상기 변조 보코더와 관련하여 전에 언급한 바와 같이 상기 진폭 변조 신호 및 상기 주파수 변조 신호를 생성한다.
또한 신호 처리기(140)는 상기 미리 정의된 변조 타겟에 기초하여 선택된 펀더멘털 밴드패스 신호(122)의 상기 주파수 변조 신호 또는 상기 진폭 변조 신호를 변조할 수 있고 선택된 펀더멘털 밴드패스 신호(122)의 변조에 따라 선택된 펀더멘털 밴드패스 신호(122)와 관련된 식별된 오버톤 밴드패스 신호(132)의 상기 주파수 변조 신호 또는 상기 진폭 변조 신호를 변조할 수 있다.
필터 뱅크 처리기(110), 펀더멘털 결정기(120), 오버톤 결정기(130), 신호 처리기(140), 결합기(150) 및/또는 반송파 주파수 결정기(260)는 이를 테면, 디지털 신호 처리기의 부분 또는 개별 하드웨어 유닛, 컴퓨터 또는 마이크로 컨트롤러뿐만 아니라 디지털 신호 처리기, 컴퓨터 또는 마이크로 컨트롤러를 실행하도록 구성되는 컴퓨터 프로그램 또는 소프트웨어 제품이 될 수 있다.
본 발명에 따른 몇몇의 실시예들은 본 발명의 일실시예에 따른 오디오 신호를 변조하기 위한 방법(300)에 연관된다. 방법(300)은 오디오 신호에 기초하는 복수의 밴드패스 신호를 생성하는 단계(310) 및 펀더멘털 밴드패스 신호를 얻기 위해 상기 복수의 밴드패스 신호의 밴드패스 신호를 선택하는 단계(320)를 포함할 수 있다.
또한, 상기 선택된 펀더멘털 밴드패스 신호와 관련된 오버톤 밴드패스 신호를 얻기 위해 상기 선택된 펀더멘털 밴드패스 신호에 관련하는 오버톤 기준을 충족하는 상기 복수의 밴드패스 신호의 밴드패스 신호를 식별하는 단계(330)를 포함할 수 있다.
또한 상기 선택된 펀더멘털 밴드패스 신호는 미리 정의된 변조 타겟에 기초하여 변조되고(340) 상기 선택된 펀더멘털 밴드패스 신호와 관련된 상기 식별된 오버톤 밴드패스 신호는 상기 선택된 펀더멘털 밴드패스 신호의 변조에 따라 변조된다(350).
또한, 방법(300)은 변조된 오디오 신호를 얻기 위해 상기 변조된 선택된 펀더멘털 밴드패스 신호와 상기 변조된 식별된 오버톤 밴드패스 신호를 포함하는 상기 복수의 밴드패스 신호를 결합하는 단계(360)를 포함할 수 있다.
선택적으로, 방법(300)은 다음에서 언급되고 위에서 언급된 본 발명의 콘셉의 선택적 특징을 표현하는 추가적인 단계들을 포함할 수 있다.
다음에서, 제안된 콘셉은 또한 다른 구현을 위해 더 일반적으로 사용될 수 있지만 설명되는 콘셉은 변조 보코더를 사용하는 구현에 대한 실시예가 자세히 설명된다.
대부분의 인스트루먼트는 펀더멘털 주파수 부분과 다중의 상기 펀더멘털 주파수의 거의 정수 배수가 되는(being approximately integer multiples of the fundamental frequency) 그것의 하모닉을 포함하는 하모닉 사운드(harmonic sounds)를 자극한다(excite).
뮤지컬 구간이 로그 스케일을 준수하기 때문에(Since musical intervals obey a logarithmic scale), 각각의 하모닉 오버톤은 상기 펀더멘털(및 그것의 옥타브(octaves))에 대하여 다른 뮤지컬 구간과 비슷하다(resembles). 이래의 테이블은 처음 7개의 하모닉에 대한(for the first seven harmonics) 하모닉 수(harmonic numbers)와 뮤지컬 구간(musical intervals)의 코리스판던스(correspondence)를 리스트한다. 상기 테이블은 하모닉 수(harmonic numbers)를 도시하고 상기 펀더멘털과 그것의 옥타브에 대한 뮤지컬 구간에 연관된다.
Figure 112012077201015-pct00018
이와 같이, 폴리포닉 뮤직 컨텐츠의 선택적인 트랜스포지션의 태스크에서(in the task of selective transposition of polyphonic music content), MODVOC 구성 요소의 뮤지컬 기능(musical function)에 대하여 내재하는 앰비규어티가 존재한다(there exists an inherent ambiguity). 펀더멘털로부터 유래된 경우 상기 구성 요소는 바람직한 스케일 매핑에 따라 트랜스포즈될 수 있고(If the component originates from a fundamental is has to be transposed according to the desired scale mapping), 펀더멘털의 결과로 보여지는 하모닉에 의해 도미네이트되는 경우에, 이것은 톤의 오리지널 음색을 보존하기 위한 이 펀더멘털로 함께 트랜스포즈되어야 한다(if it is dominated by a harmonic to be attributed to a fundamental it has to be transposed together which this fundamental in order to best preserve the original timbre of the tone). 가장 적절한 트랜스포지션 팩터를 선택하기 위해 이것으로부터 각각의 MODVOC 구성 요소(밴드패스 신호)의 할당에 대한 필요성이 모습을 드러낸다(From this there emerges the need)
이를 위해, 전에 소개된 단순한 처리 기법은 하모닉 로킹 기능에 의해 확장되었다(the simple processing scheme introduced before was extended by a harmonic locking functionality). 상기 하모닉 로킹은 모든 MODVOC 구성 요소를 트랜스포지션 이전에 구성 요소(밴드패스 신호)가 펀더멘털의 결과로 보여지는지(is to be attributed to a fundamental) 또는 독립 엔트리로 간주되는지에(is to be regarded as an independent entity) 대한 여부에 대해 검사한다. 이것은 반복적 알고리즘에 의해 수행된다. 이 알고리즘의 흐름도는 도 5에 도시된다.
알고리즘은 구성 요소의 전체 개수를(상기 복수의 밴드패스 신호의 밴드패스 신호의 개수) 나타내는 I 와 i E [0...I - 1] \ t에 의해 색인된(indexed by i E [0...I - 1] \ t with I) 모든 다른 구성 요소(밴드패스 신호)에 대한 테스트 구성 요소 t(펀더멘털 밴드패스 신호)의 인벨롭 크로스 코릴레이션(envelope cross correlations), 에너지 비율 및 주파수 비율을 평가한다(evaluates)(510). 반복(iteration) 동안의 테스트 구성 요소의 연속(succession)은 그들의 가중 에너지(A-weighted energy)(520)에 의해 결정되고, 상기 평가 오더는 감소하는 에너지의 순서이다(the evaluation order is in sequence of decreasing energy).
상기 가중(A-weighting)(ANSI, "Ansi standard sl.4-1983," 1983), (ANSI, "Ansi standard s1.42-2001," 2001.)은 그것의 라우드니스(loudness)의 관점에서(H. Fletcher 및 W.A. Munson의 "라우드니스, 그것의 정의, 측정 및 계산"(J. Acoust Soc Amer., vol. 5, pp. 82-108, 1933.) 참조) 구성 요소 각각의 지각 프로미넌트 모델에 적용된다(is applied to model the perceptual prominente).
제로-지연에서(at zero-lag) 정규화된 진폭 인벨롭 코릴레이션 및/또는 하모닉 반송파 주파수 미스매치(mismatch), 구성 요소 에너지, 하모닉 반송파 주파수 매치는 임계화(thresholding)에 의해 검사될 수 있다.
상기 주파수 매치 및 미스매치는 테스트 구성 요소 반송파 주파수(상기 선택된 펀더멘털 밴드패스 신호의 반송파 주파수)인 ft 및 인덱스 i의(상기 복수의 밴드패스 신호의 밴드패스 신호) 구성 요소인 fi와 함께 수학식 8에 따라 정의될 수 있다. 상기 주파수 매치에 대하여, 1 보다 큰 모든 배수(multiples)는 잠재적인 하모닉이다. 잠재적인 하모닉을 허용하는 상기 주파수 미스매치에 대한 적절한 임계 값은 이를 테면, 22 Hz이다.
Figure 112012077201015-pct00019
하모닉 대비 펀더멘털(harmonics versus fundamental)의 상기 가중 구성 요소 에너지 비율(The a-weighted component energy ratio)(수학식 9)은 가장 많은 인스트루먼트를 위하여 상기 펀더멘털 보다 낮은 에너지를 나타낸다는 사실을 반영하는 미리 정의된 임계치 보다 작도록 요구될 수 있다. 적절한 임계 값(에너지 허용 오차 범위)는 이를 테면, 0.6의 비율이다.
Figure 112012077201015-pct00020
상기 구성 요소의 인벨롭 envi 및 상기 테스트 구성 요소의 인벨롭 envt과 인덱스 i의 정규화된 제로-지연 크로스 코릴레이션(normalized zero-lag cross correlation)은 수학식 10에 의해 정의된다. 이 조치(measure)는 펀더멘털 및 그것의 하모닉이 블록 길이 M 내에서 유사한 순간 인벨롭을 공유한다는 사실을 이용한다. 적절한 임계 값(코릴레이션 임계치)은 비공식적인 실험(informal experiments)에 의해 0.4로 결정되었다.
Figure 112012077201015-pct00021
검토된 후에, 임계치 조건에 모두 충족하는(750) 모든 구성 요소 i는 상기 테스트 구성 요소와 관련하여 로킹되는 하모닉으로 표시되고(580)(are labeled as harmonics to be locked), 이 후에 상기 서치로부터 제거된다. 다음으로, 상기 테스트 구성 요소는 또한 그것의 에너지가 0으로 세팅됨으로써(542) 추가적인 반복으로부터 제외된다. 상기 알고리즘은 0이 되는 최대 구성 요소 에너지로 표시되는 모든 구성 요소가 할당될 때까지 반복된다(is repeated until all components have been assigned which is indicated by the maximum component energy being zero).
도 4는 하모닉 로킹을 결합시키는(incorporating) MODVOC에 의해 선택적인 트랜스포지션의 향상된 프로세싱 기법을 도시한다. 도 16에 반대로, 논-로킹된 구성 요소(non-locked components)가 상기 트랜스포지션 스테이지에 들어가는 반면 로킹된 구성 요소(locked components)는 그것들의 표시된 펀더멘털에 적용된(has been applied to their attributed fundamentals) 동일한 트랜스포지션 팩터에 의해 제2 스테이지에서 변조된다.
즉, 도 5는 바람직한 하모닉 로킹의 흐름도를 도시한다(오디오 신호를 변조하기 위한 방법(500). 테스트 펀더멘털의 하모닉이 되는 조건과 일치하는 구성 요소(선택된 펀더멘털 밴드패스 신호)는 서치 공간으로부터 반복적으로 제거되고 라벨된다(are iteratively labeled and removed).
이것을 위해, 상기 복수의 밴드패스 신호의 밴드패스 신호 각각은 반송파 주파수, 에너지 컨텐츠, 및 순간 인벨롭을 포함하거나, 상기 반송파 주파수, 상기 에너지 컨텐츠 및/또는 상기 순간 인벨롭(순간 인벨롭 파라미터)은 상기 복수의 밴드패스 신호의 밴드패스 신호 각각을 위해 결정된다(510)(are determined for each bandpass signal). 또한, 각각의 밴드패스 신호의 상기 에너지 컨텐츠(에너지 컨텐츠 파라미터)는 가중된다(is a-weighted)(520).
그 다음, 최대 에너지를 포함하는 펀더멘털 밴드패스 신호(테스트 펀더멘털 ft)는 선택된다(530). 모두 이미 선택된 펀더멘털 밴드패스 신호가 0으로 설정되고 모든 식별된 오버톤 밴드패스 신호가 서치 공간으로부터 제외되었기(are excluded from search space) 때문에, 상기 선택된 펀더멘털 밴드패스 신호는 0과 동일한 에너지 컨텐츠 파라미터(energy content parameter equal to zero)를 포함할 수 있으며, 반복적인 알고리즘(iterative algorithms)은 이 포인트에서 중지한다(stops)(540).
그렇지 않으면, 상기 주파수 일치(또는 불일치), 상기 에너지 컨텐츠 및/또는 상기 선택된 펀더멘털 밴드패스 신호의 상기 순간 인벨롭 크로스 코릴레이션 및 상기 복수의 밴드패스 신호의 남아있는 밴드패스 신호는 비교된다(the frequency match (or mismatch), the energy content and/or the temporal envelope cross correlation of the selected fundamental bandpass signal and the remaining bandpass signals of the plurality of bandpass signals are compared)(560).
몇몇의 또는 모든 조건(오버톤 기준(overtone criterions))이 충족될 경우(570), 각각의 밴드패스 신호는 오버톤 밴드패스 신호로 식별되고(580) 하모닉 로킹 데이터는 생성될 수 있을 뿐만 아니라 상기 식별된 오버톤 밴드패스 신호는 서치 공간으로부터 제거된다. 상기 하모닉 로킹 데이터는 관련된 선택된 펀더멘털 밴드패스 신호와 관련하여 저장될 수 있다(may be saved)(590).
상기 선택된 펀더멘털 밴드패스 신호의 모든 오버톤 밴드패스 신호를 식별한 후에, 상기 선택된 펀더멘털 밴드패스 신호의 상기 에너지는 0으로 설정되고(592) 가장 높은 에너지를 포함하는 다음 펀더멘털 밴드패스 신호가 선택된다(530).
상기 신호 처리기는 상기 밴드패스 신호를 변조하기 위해 상기 하모닉 로킹을 사용할 수 있다. 가능한 구현은 도 4에서 도시된다. 이 구현에서, 이를 테면, 상기 신호 처리기는 MIDI 매퍼(mapper)(1600)와 오버톤 변조기(overtone modifier)(400)을 포함한다. MIDI 매퍼(1600)는 상기 개별 변조 타겟에(또한 펀더멘털 밴드패스 신호가 변조되지 않은 것을 포함할 수 있는(which may also include that a fundamental bandpass signal is not modified)) 따른 각각의 선택된 펀더멘털 밴드패스 신호의 상기 반송파 주파수를 변조할 수 있다.
MIDI 매퍼(1600)는 이를 테면, 도 16에서 설명되고 도시된 것처럼 수행될 수 있다. 오버톤 변조기(400)는 오버톤 변조 컨트롤러(410), 오버톤 곱셈기(overtone multiplier)(420) 및 오버톤 변조 제공기(overtone modification provider)(430)를 포함할 수 있다. 오버톤 변조 컨트롤러(410)는 오버톤 곱셈기(420) 및 오버톤 변조 제공기(430)와 연결될 수 있고 오버톤 곱셈기(420)는 오버톤 변조 제공기(430)와 연결될 수 있다.
오버톤 곱셈기(420)는 동일한 트랜스포지션 팩터와 식별된 오버톤 밴드패스 신호의 반송파 주파수 f를 곱할 수 있고(may multiply the carrier frequency f of an identified overtone bandpass signal with the same transposition factor), 관련된 펀더멘털 밴드패스 신호는 동일한 트랜스포지션 팩터(위에서 언급된 허용 오차로(with))와 곱해지고(the associated fundamental bandpass signal is multiplied with), 변조된 반송파 주파수 f’를 상기 오버톤 변조 제공기(430)에게 제공할 수 있다(and may provide the modified carrier frequency f’ to the overtone modification provider).
오버톤 변조기(400)가 식별된 오버톤 밴드패스 신호의 반송파 주파수로(이를 테면, 상기 하모닉 로킹 데이터에 기초하는) 상기 반송파 주파수를 식별하는 경우, 오버톤 변조 컨트롤러(410)는 상기 식별된 오버톤 밴드패스 신호의 상기 변조된 반송파 주파수를 제공하기 위해 오버톤 변조 제공기(430)를 트리거할 수 있다(may trigger). 그렇지 않으면, 오버톤 변조 제공기(430)는 MIDI 매퍼(1600)의 출력을 제공할 수 있다.
또한 도 4는 보코더에서의 제안하는 콘셉의 실행(implementation)을 도시하고, 추가적으로 주파수 변조 신호(FM)에 상응하는 상기 밴드패스 신호의 상기 반송파 주파수 또한(to the carrier frequency of the bandpass signal also) 변조 및 변조된 반송 주파수 전에 상기 반송파 주파수의 비율로의 곱셈에 의해 변조된다(is modified by a multiplication with a ratio of the carrier frequency before modification and the modified carrier frequency).
그 대신에 주파수 변조하는 것 또는, 추가적으로, 주파수 변조, 상기 오디오 신호의 라우드리스는 밴드패스-신호-선택적으로 변조될 수 있다(to a frequency modification or, additionally, to a frequency modification, the loudness of the audio signal may be bandpass-signal-selectively modified). 이를 위해, 밴드패스 신호의 진폭 변조 신호(AM)는 변조될 수 있다.
측, 도 4는 하모닉 로킹을 사용하는 변조 보코더 구성 요소(밴드패스 신호)에서의 향상된 선택적 트랜스포지션을 도시한다(관련된 펀더멘털 밴드패스 신호의 변조에 따라서 식별된 오버톤 밴드패스 신호를 변조하는 것(modifying)). 논-로킹된 반송파 주파수(non-locked carrier frequencies)는(그런 다음 펀더멘털 밴드패스 신호가 될 수 있는) 적절한 상응하는 MIDI 노트로 매핑된(개별 변조 타겟에 따른) MIDI 노트로 양자화된다(are quantized to MIDI notes).
로킹된 구성 요소(식별된 오버톤 밴드패스 신호)는 상기 표시된 펀더멘털(the attributed fundamental)(펀더멘털 밴드패스와 관련된)의 오리지널 및 변조된 반송파 주파수의 비율에 의해 곱셈함으로써 트랜스포즈될 수 있다(may be transposed by multiplication).
도 6a는 본 발명의 일실시예에 따른 오디오 신호를 변조하기 위한 장치(600)의 블록도를 도시한다. 장치(600)는 인벨롭 섀이프 결정기(envelope shape determiner)(610), 필터 뱅크 처리기(620), 신호 처리기(630), 결합기(640) 및 인벨롭 섀이퍼(envelope shape)(650)를 포함한다. 인벨롭 섀이프 결정기(610)는 인벨롭 섀이퍼(650)와 연결되고, 필터 뱅크 처리기(620)는 신호 처리기(630)와 연결되고, 신호 처리기(630)는 결합기(640)과 연결되고 결합기(640)는 인벨롭 섀이퍼(650)와 연결된다.
인벨롭 섀이프 결정기(610)는 시간 도메인 입력 오디오 신호를 나타내는 주파수 도메인 오디오 신호(602)에 기초하여(based on) 인벨롭 섀이프 코이피션트(envelope shape coefficients)(612)를 결정한다. 또한, 필터 뱅크 처리기(620)는 서브밴드 도메인에서 주파수 도메인 오디오 신호(602)에 기초하여 복수의 밴드패스 신호(622)를 생성한다.
신호 처리기(630)는 미리 정의된 변도 타겟에 기초하여 상기 복수의 서브밴드 도메인 밴드패스 신호의 서브밴드 도메인 밴드패스 신호(622)를 변조한다. 게다가, 결합기(640)는 시간 도메인 오디오 신호(642)를 얻기 위해 상기 복수의 서브밴드 도메인 밴드패스 신호의 적어도 서브세트를(이를 테면, 상기 변조된 서브밴드 도메인 밴드패스 신호를 포함하는(containing)) 결합한다.
인벨롭 섀이퍼(650)는 섀이프된 오디오 신호(652)를 얻기 위해 상기 인벨롭 섀이프 코이피션트(612)에 기초하여 시간 도메인 오디오 신호(642)의 인벨롭을 섀이프한다.
그렇지 않으면(Alternatively), 인벨롭 섀이퍼(650)는 신호 처리기(630)와 결합기(640) 사이에 위치될 수 있고(may be located)(신호 처리기(630)는 인벨롭 섀이퍼(650)와 연결되고 인벨롭 섀이퍼(650)는 결합기(640)와 연결됨) 및 인벨롭 섀이프 코이피션트(612)에 기초하여 상기 변조된 서브밴드 도메인 밴드패스 신호를 포함하는 상기 복수의 서브밴드 도메인 밴드패스 신호의 인벨롭을 섀이프할 수 있다(may shape).
상기 오디오 신호가 밴드패스 신호로 선택적으로 처리되기 전에(before the audio signal is processed bandpass signal selectively) 인벨롭 섀이프 코이피션트(612)를 추출함으로써 및 하나 또는 그 이상의 밴드패스 신호를 변조한 후에 상기 오디오 신호의 인벨롭을 섀이프하기 위해 인벨롭 섀이프 코이피션트(612)를 사용함으로써, 다르게 변조된 밴드패스 신호의 스펙트럼 코히어런스는 더 정확하게 보존될 수 있다.
또한, 특히 트랜전트 신호에 대하여 매 시간의 양자화 잡음(especially for transient signals a quantization noise spread over time)은 인벨롭 섀이퍼(650)에 의해 섀이프될 수 있다(may be shaped by the envelope shaper as well). 이 방법에서, 상기 변조된 오디오 신호의 상기 지각 품질(perceptual quality)은 상당히 개선될 수 있다. 또한, 전체 오디오 신호(이를 테면, 전제 폴리포닉 뮤직 타이틀)에 관한 사전 정보가 필요하지 않기 때문에 상기 오디오 신호는 실시간으로 변조될 수 있다.
더 대안적으로(Further alternatively), 인벨롭 섀이퍼(650)는 신호 처리기(630)와 필터 뱅크 처리기(620) 사이에 위치될 수 있고(필터 뱅크 처리기(620)는 인벨롭 섀이퍼(650)과 연결되고 인벨롭 섀이퍼(650)는 신호 처리기(630)과 연결됨) 및 섀이프된 오디오 신호(652)를 얻기 위해 서브밴드 도메인 밴드패스 신호가 신호 처리기(630)에 의해 변조되기 전에 인벨롭 섀이프 코이피션트(612)에 기초하여 상기 복수의 서브밴드 도메인 밴드패스 신호의 인벨롭을 섀이프할 수 있다.
상기 오디오 신호가 밴드패스 신호로 선택적으로 프로세스도기 전에(before the audio signal is processed bandpass signal selectively) 인벨롭 섀이프 코이피션트(612)를 추출함으로써 및 상기 서브밴드 도메인에서 상기 복수의 밴드패스 신호(622)가 필터 뱅크 처리기(620)에 의해 생성된 후에 상기 복수의 밴드패스 신호(622)의 인벨롭을 섀이프하도록 인벨롭 섀이프 코이피션트(612)를 사용함으로써, 적응 필터 뱅크(adaptive filter bank)는 수행될 수 있고(can be implemented), 특히 트랜전트 신호에 대한 로컬 코히어런스를 증가시킬 수 있다(may increase the local coherence especially for transient signals)("Herre 및 J. D. Johnston"의 "고-품질 지각 오디오 코딩을 위한 연속적으로 신호-적응되는 필터 뱅크" IEEE ASSP Workshop on Applications of Signal Pmcessing to Audio and Acoustics, Mohonk, 1997).
이 경우에서, 변조되지 않은 신호(또는 상기 변조된 밴드패스 신호)는 섀이프되지만(not the modified signal (or the modified bandpass signal) is shaped), 트랜션트 리프로덕션의 관점에서 생성된 밴드패스 신호의 품질은 상기 변조 전에 증가될 수 있다.
주파수 도메인 오디오 신호(602)는 이를 테면, 시간 도메인 입력 오디오 신호(이를 테면, 이산 푸리에 변환으로)에 기초하여 주파수 도메인 오디오 신호(602)를 생성하는 처리기로부터 제공될 수 있거나 스토리지 유닛(storage unit)으로부터 제공될 수 있다.
인벨롭 섀이프된 결정기(envelope shaped determiner)(610)에 의해 결정된 인벨롭 섀이프 코이피션트(612)는 이를 테면, 주파수 도메인 오디오 신호(602)의 스펙트럼을 파라미터리싱하는(parameterising the spectrum of the frequency domain audio signal) 다른 코이피션트 또는 리니어 프리디케이션 코이피션트(linear predication coefficients)가 될 수 있다.
신호 처리기(630)는 상기 복수의 서브밴드 도메인 밴드패스 신호의 하나, 몇몇 또는 모든 서브밴드 도메인 밴드패스 신호(611)를 변조할 수 있다. 미리 정의된 변조 타겟은 이를 테면, 모든 또는 몇몇의 서브밴드 도메인 밴드패스 신호에 대해 다를 수 있다. 이를 테면, 상기 오디오 신호의 키 모드를 변경하기 위해, 상기 서브밴드 도메인 밴드패스 신호의 상기 미리 정의된 변조 타겟은 위의 테이블로 이미 언급된 것으로 정의될 수 있다.
주파수 도메인 오디오 신호(602)는 이를 테면, 푸리에 변환으로 얻은 스펙트럼 라인을 포함할 수 있다(may comprise spectral lines obtained for example, by Fourier transform). 상기 주파수 도메인 오디오 신호(밴드패스 신호로 또한 간주될 수 있음(which can also be assumed as bandpass signals))의 스펙트럼 라인 사이의 차이점과 필터뱅크 처리기(620)에 의해 생성된 밴드패스 신호는 주파수 도메인 오디오 신호(602)의 스펙트럼 라인이 필터 뱅크 처리기(620)에 의해 생성된 서브밴드 도메인 밴드패스 신호(622)에 의해 표현된 대역폭 보다 좁은 대역폭을 표현하는(represents a bandwidth narrower) 것이 될 수 있다.
이를 테면, 주파수 도메인 오디오 신호(602)는 필터 뱅크 처리기(620)에 의해 상기 복수의 밴드패스 신호로 나누어지는(is divided) 이산 푸리에 변환에 의해 얻은 주파수 스펙트럼을 나타내고, 상기 복수의 밴드패스 신호의 밴드패스 신호의 수(이를 테면, 10, 16, 20 또는 그 이상(or more))는 스펙트럼 값 또는 상기 주파수 스펙트럼의 스펙트럼 라인의 수 보다 현저하게 낮다(이를 테면, 512 또는 이상의 스펙트럼 값들(512 or more spectral values)).
인벨롭된 섀이프된 결정기(enveloped shaped determiner)(610)는 이를 테면, 선형 예측 코이피션트의 결정에 의해 이미 언급된 것으로 실현될 수 있는 주파수 도메인 오디오 신호(602)의 주파수에 대한 예측에 기초하여 상기 인벨롭 섀이프 코이피션트(envelope shape coefficients)를 결정할 수 있다.
필터 뱅크 처리기(620)는 상기 복수의 밴드패스 신호, 주파수 도메인 오디오 신호(602)의 특정한 주파수 범위를 표현하는 각각의 밴드패스 신호(622)를 제공할 수 있다. 대안적으로, 필터 뱅크 처리기(620)는 도 7에서 도시되는 바와 같이 잔여 오디오 신호(residual audio signal)(722)에 기초로 복수의 밴드패스 신호(622)를 얻기 위해 필터 뱅크(730), 신호 감산기(signal subtractor)(720) 및 예측 필터(a prediction filter)(710) 를 포함할 수 있다.
이를 위해, 예측 필터(710)는 주파수 도메인 오디오 신호(602)와 인벨롭 섀이프 코이피션트(612)에 기초하여 예측 오디오 신호(712)를 생성할 수 있다(이를 테면, 선형 예측 필터(linear prediction filter)). 또한, 신호 감산기(720)는 잔여 오디오 신호(722)를 얻기 위해 주파수 도메인 오디오 신호(602)로부터 예측 오디오 신호(712)를 뺄셈할 수 있다. 이 잔여 오디오 신호(722)는 상기 복수의 밴드패스 신호를 얻도록 밴드패스 신호를 생성하기 위해 필터 뱅크(730)에 의해 사용될 수 있다.
또한, 필터 뱅크 처리기(620)는 선택적인 신호 변환기를 포함할 수 있다. 이 신호 변환기(이를 테면, 싱글 사이드된 역 이산 푸리에 변환)는 복수의 밴드패스 신호(622)를 얻도록 필터 뱅크(730)에 의해 생성된 상기 밴드패스 신호를 상기 서브밴드 도메인으로 변환할 수 있다. 대안적으로, 상기 신호 변환기는 또한 신호 처리기(630)의 부분이 될 수 있다.
본 발명에 따른 몇몇의 실시예들에서, 상기 입력 오디오 신호의 낮은 주파수 부분은 상기 변조된 오디오 신호의 낮은 주파수 부분에서의 아티팩트(artifacts)의 생성을 피하기 위해 가능한 변조로부터 제외될 수 있다(may be excluded from a possible modification). 이를 위해, 오디오 신호를 변조하기 위한 장치(680)는 이를 테면 도 6b에서 도시한 바와 같이 하이 패스/로우 패스 필터(high pass/low pass filter)를 포함할 수 있다. 상기 하이 패스/로우 패스 필터(660)
상기 시간 도메인 입력 오디오 신호를 표현하는 상기 주파수 도메인 오디오 신호 또는 상기 시간 도메인 입력 오디오 신호를 하이 패스 필터하여(The high pass/low pass filter 660 high pass filters the time domain input audio signal or the frequency domain audio signal representing the time domain input audio signal), 인벨롭 섀이프 결정기(610)는 상기 하이 패스 주파수 도메인 오디오 신호(602)에 기초하여 인벨롭 섀이프 코이피션트(612)를 결정하고 필터뱅크 처리기(620)는 상기 하이 패스 주파수 도메인 오디오 신호(602)에 기초하여 서브밴드에서 복수의 밴드패스 신호(622)를 생성한다. 또한 하이 패스/로우 패스 필터(660)는 로우 패스 오디오 신호(662)를 얻기 위해 상기 시간 도메인 입력 오디오 신호를 나타내는 상기 주파수 도메인 오디오 신호 또는 상기 시간 도메인 입력 오디오 신호를 로우 패스 필터한다(the high pass/low pass filter 660 low pass filters).
또한 장치(680)는 풀밴드 오디오 신호를 얻기 위해 섀이프된 오디오 신호(652)와 로우 패스 오디오 신호(662)를 결합하도록 구성된 풀밴드 신호 제공기(fullband signal provider)(670)를 포함한다.
즉, 하이 패스/로우 패스 필터(660)는 상기 시간 도메인 입력 오디오 신호를 표현하는 상기 주파수 도메인 오디오 신호 또는 상기 시간 도메인 입력 오디오 신호를 하이 패스 오디오 신호와 로우 패스 오디오 신호로 분리할 수 있다(may separate). 상기 하이 패스 오디오 신호 또는 상기 하이 패스 오디오 신호의 주파수 도메인 표현(frequency domain representation)은 인벨롭 섀이프 결정기(610)와 필터 뱅크 처리기(620)에 제공될 수 있다(may be provided to).
이것은 상기 하이 패스/로우 패스 필터가 상기 시간 도메인에서 수행된 뒤에(followed by) 상기 파이 패스 오디오 신호 또는 상기 하이 패스/로우 패스 필터에 기초하여 상기 주파수 도메인 오디오 신호를 생성하는 신호 처리기가 상기 시간 도메인 입력 오디오 신호를 나타내는 주파수 도메인 오디오 신호를 이미 리시빙하는 상기 주파수 도메인에서 수행되는 지에 대한 여부에 따라 달라진다(This depends on whether).
하이 패스/로우 패스 필터(660)는 상기 시간 도메인 입력 오디오 신호를 표현하는 상기 주파수 도메인 오디오 신호 또는 상기 시간 도메인 입력 오디오 신호를 필터링 할 수 있고, 상기 로우 패스 오디오 신호는 미리 정의된 임계 주파수까지의(up to a predefined threshold frequency) 주파수를 포함한다(이를 테면, 100 Hz 또는 그 이상(or more)).
그 결과, 상기 하이 패스 오디오 신호는 상기 미리 정의된 임계 주파수에 이르는(down to the predefined threshold frequency) 주파수를 포함할 수 있다. 즉, 상기 미리 정의된 임계 주파수 보다 큰 주파수는 로우 패스 오디오 신호(662)를 제공하기 위해 하이 패스/로우 패스 필터(660)에 의해 약화될 수 있고(may be attenuated) 및 상기 미리 정의된 임계 주파수 보다 작은 주파수는 상기 하이 패스 신호를 제공하기 위해 하이 패스/로우 패스 필터(660)에 의해 감쇠될 수 있다(may be attenuated).
대안적으로, 인벨롭 섀이퍼(650)는 도 6c에서 도시된 바와 같이 신호 처리기(630)와 결합기(640) 사이에 위치된다. 이 경우 에서, 하이 패스/로우 패스 필터(660)는 결합기(640)로 상기 로우 패스 오디오 신호를 제공한다. 결합기(640)는 시간 도메인 오디오 신호(642)를 얻기 위해 상기 변조된 서브밴드 도메인 밴드패스 신호와 로우 패스 오디오 신호(662)를 포함하는 상기 복수의 서브밴드 도메인 밴드패스 신호를 결합한다(combines).
이 경우에서, 인벨롭 섀이퍼(650)는 상기 하이 패스 주파수 도메인 오디오 신호에 상응하는 상기 서브밴드 도메인 밴드패스의 서브밴드 도메인 밴드패스 신호 각각에 상응하는(이를 테면, 상기 각각의 서브밴드 도메인 밴드패스 신호로 포함되는 상기 주파수 영역에 상응하는(corresponding to)) 각각의 서브밴드 도메인 밴드패스 신호에 대하여 인벨롭 섀이프 코이피션트(612)에(이를 테면, 코이피션트 변환기(810)에 의해(by the coefficient converter)) 기초하여 밴드패스 인벨롭 섀이프의 세트를 결정할 수 있다.
그 다음에, 이를 테면, 서브밴드 도메인 밴드패스 신호의 시간 샘플 각각은 상기 상응하는 인벨롭 섀이프 코이피션트의 세트의 밴드패스 인벨롭 섀이프 코이피션트로 곱해질 수 있다(can be multiplied with bandpass envelope shape coefficient). 이를 테면, 도 15에서 도시된 상기 보코더의 실행에서, 인벨롭 섀이퍼(650)는 곱셈기(multiplier)(1550)와 결합기(1560) 사이에 위치될 수 있다.
또한 대안적으로, 인벨롭 섀이퍼(650)는 신호 처리기(630)와 필터 뱅크 처리기(620) 사이에 위치될 수 있고(필터 뱅크 처리기(620)는 인벨롭 섀이퍼(650)와 연결되고 인벨롭 섀이퍼(650)는 신호 처리기(630)와 연결됨), 및 섀이프된 오디오 신호(652)를 얻기 위해 서브밴드 도메인 밴드패스 신호가 신호 처리기(630)에 의해 변조되기 전에 인벨롭 섀이프 코이피션트(612)에 기초하여 상기 복수의 서브밴드 도메인 밴드패스 신호의 인벨롭을 섀이프할 수 있다(may shape an envelope).
본 발명에 따른 몇몇의 실시예들에서, 상기 입력 오디오 신호의 낮은(low) 주파수 부분은 상기 변조된 오디오 신호의 낮은 주파수 부분에서의 아티팩트(artifacts)의 생성을 방지하기 위해 인벨롭 섀이핑으로부터 제외될 수 있다(may be excluded from envelope shaping).
이를 위해, 오디오 신호를 변조하기 위한 장치(680)는 이를 테면, 도 6d에서 도시된 바와 같이 하이 패스/로우 패스 필터를 포함할 수 있다. 하이 패스/로우 패스 필터(660)는 상기 시간 도메인 입력 오디오 신호 또는 상기 시간 도메인 입력 오디오 신호를 나타내는 상기 주파수 도메인 오디오 신호를 하이 패스 필터한다(high pass filters). 또한, 하이 패스/로우 패스 필터(660)는 상기 시간 도메인 입력 오디오 신호 또는 상기 시간 도메인 입력 오디오 신호를 나타내는 상기 주파수 도메인 오디오 신호를 로우 패스 오디오 신호(662)를 얻기 위해 로우 패스 필터한다(low pass filters).
인벨롭 섀이프 결정기(610)는 로우 패스 오디오 신호(622)를 고려하지 않고(without considering) 하이 패스 주파수 도메인 오디오 신호(602)에 기초하여 인벨롭 섀이프 코이피션트(envelope shape coefficients)(612)를 결정한다. 필터뱅크 처리기(620)는 하이 패스 주파수 도메인 오디오 신호(602)와 로우 패스 오디오 신호(622)에 기초하여 서브밴드 도메인에서 복수의 밴드패스 신호(622)를 생성한다.
이를 테면, 도 7에서 도시된 바와 같이, 예측 필터가 사용되는 경우, 하이 패스 잔여 오디오 신호(high pass residual audio signal)를 생성하기 위해 하이 패스 주파수 도메인 오디오 신호(602)만이 상기 예측 필터와 신호 감산기(signal subtractor)에 제공된다. 로우 패스 오디오 신호(622)는 서브밴드 도메인 밴드패스 신호를 생성하기 위해 상기 필터 뱅크로 직접 제공될 수 있다.
신호 처리기(630)는 하이 패스 주파수 도메인 오디오 신호(602) 또는 로우 패스 오디오 신호(622)에 상응하는 서브밴드 도메인 밴드패스 신호를 변조할 수 있다(may modify). 대안적으로, 신호 처리기(630)는 로우 패스 오디오 신호(622)에 상응하는 서브밴드 도메인 밴드패스 신호와 하이 패스 주파수 도메인 오디오 신호(602)에 상응하는 서브밴드 도메인 밴드패스 신호를 변조할 수 있다.
결합기(640)는 하이 패스 주파수 도메인 오디오 신호(602)에 상응하는 상기 서브밴드 도메인 밴드패스 신호를 결합할 수 있으며(may combine only), 하이 패스 주파수 도메인 오디오 신호(602)에 상응하는 상기 서브밴드 도메인 밴드패스 신호는(및 로우 패스 오디오 신호(622)에 상응하지 않는 상기 서브밴드 도메인 밴드패스 신호(not the subband domain bandpass signals corresponding to the low pass audio signal)) 인벨롭 섀이퍼(650)에 의해 섀이프될 수 있다(may be shaped).
또한 장치(680)는 풀밴드 오디오 신호를 얻기 위해 로우 패스 오디오 신호(662)에 상응하는 상기 서브밴드 도메인 밴드패스 신호와 섀이프된 오디오 신호(652)를 결합하도록 구성되는 풀밴드 신호 제공기(fullband signal provider)(670)를 포함할 수 있다. 이를 위해, 신호 처리기(630)는 로우 패스 오디오 신호(662)에 상응하는 상기 서브밴드 도메인 밴드패스 신호를 풀밴드 신호 제공기(670)에게 제공할 수 있다.
대안적으로, 인벨롭 섀이퍼(650)는 신호 처리기(630)와 결합기(640) 사이에 위치된다. 이 경우에서, 신호 처리기(630)는 로우 패스 오디오 신호(662)에 상응하는 상기 서브밴드 도메인 밴드패스 신호를 결합기(640)에 제공할 수 있다. 결합기(640)는
시간 도메인 오디오 신호(642)를 얻기 위해 상기 변조된 서브밴드 도메인 밴드패스 신호를 포함하는 상기 복수의 서브밴드 도메인 밴드패스 신호(로우 패스 오디오 신호(662)에 상응하는 상기 서브밴드 도메인 밴드패스 신호 및 하이 패스 주파수 도메인 오디오 신호(602)에 상응하는 상기 서브밴드 도메인 밴드패스 신호)를 결합한다.
이 경우에서, 인벨롭 섀이퍼(650)는 하이 패스 주파수 도메인 오디오 신호(602)에 상응하는 상기 서브밴드 도메인 밴드패스 신호의 서브밴드 도메인 밴드패스 신호 각각에 상응하는 (이를 테면, 각각의 서브밴드 도메인 밴드패스 신호로 포함되는 주파수 영역에 상응하는) 각각의 서브밴드 도메인 밴드패스 신호에 대하여 인벨롭 섀이프 코이피션트(612)에 기초하여(이를 테면, 코이피션트 변환기(810)에 의해) 밴드패스 인벨롭 섀이프 코이피션트의 세트를 결정할 수 있다.
그런 다음, 이를 테면, 서브밴드 도메인 밴드패스 신호의 시간 샘플 각각은 상기 상응하는 인벨롭 섀이프 코이피션트의 세트의 밴드패스 인벨롭 섀이프 코이피션트로 곱셈될 수 있다(can be multiplied with). 이를 테면, 도 15에서 도시된 상기 보코더의 실행에서, 인벨롭 섀이퍼(650)는 곱셈기(1550)과 결합기(1560) 사이에 위치될 수 있다.
또한 대안적으로, 인벨롭 섀이퍼(650)는 신호 처리기(630)와 필터 뱅크 처리기(620) 사이에 위치될 수 있고(필터 뱅크 처리기(620)는 인벨롭 섀이퍼(650)와 연결되고 인벨롭 섀이퍼(650)는 신호 처리기(630)와 연결됨) 및 섀이프된 신호(652)를 얻기 위해 서브밴드 도메인 밴드패스 신호가 신호 처리기(630)에 의해 변조되기 전에 인벨롭 섀이프 코이피션트(612)에 기초하여 하이 패스 주파수 도메인 오디오 신호(602)에 상응하는 상기 서브밴드 도메인 밴드패스 신호의 인벨롭을 섀이프할 수 있다(may shape an envelope).
이 방법에서, 상기 입력 오디오 신호의 낮은 주파수 일부는 상기 인벨롭 섀이핑으로부터 제외될 수 있다(may be exempted from the envelope shaping). 그러나, 상기 낮은 주파수 일부는 나머지 처리로 라우팅된다(is routed to the remaining processing)(이를 테면, 서브밴드 도메인 밴드패스 신호의 변조(modification)). 또한, 예측 필터(이를 테면, 도 7에 도시된 바와 같이)는 위에 상기 미리 정의된 임계 주파수에 적용될 수 있다(may only be appliedabove the predefined threshold frequency).
대안적으로, 상기 하이 패스/로우 패스 구분은 이미 분석 측면에서 수행되고(is already performed at the analysis side), 상기 하이 패스 신호 인벨롭은 상호간의 상기 인벨롭 섀이프 코이피션트에 의해 시간 도메인에서 변조될 수 있다(the high pass signal envelope may be modified inh the time domain by a reciprocal of the envelope shape coefficients).
이를 테면, 선택적인 트랜스 포지션의 어플리케이션에서, 상기 AM이 변조되지 않을 수 있기 때문에(since the AM may not be modified), 도시된 위치는 처리 후에 위치로 동등한 결과를 제공할 수 있다(the shown placement may provide equivalent results as a placement).
일측에 따르면, 인벨롭 섀이퍼(650)는 주파수 도메인 오디오 신호(602)의 에너지 컨텐츠 EFDAS와 잔여 오디오 신호(722)의 에너지 컨텐츠 ERAS의 에너지 비율을 결정할 수 있다. 이 에너지 비율에 기초하여, 인벨롭 섀이퍼(650)는 상기 에너지 비율이 미리 정의된 에너지 임계치(PET)(0.1, 0.2, 0.5, 0.8, 1, 2 또는 그 이상 또는 이하(or ever more or less))보다 낮을 경우, 시간 도메인 오디오 신호(642)의 인벨롭의 섀이핑을 중단할 수 있다(may interrupt).
Figure 112012077201015-pct00022
즉, 상기 인벨롭 섀이핑의 인게이지먼트(engagement)는 예측의 가드니스에 따라(depending on the goodness of the prediction) 적응하여 신호는 온되거나 오프될 수 있다. 상기 예측의 가드니스(The goodness of the prediction)는 신호(주파수 도메인 오디오 신호)와 예측 오류(잔여 오디오 신호)의 상기 에너지 비율로 정의될 수 있는 예측 이득(prediction gain)에 의해 측정될 수 있다. 시간 도메인 오디오 신호(642)의 상기 인벨롭의 섀이핑이 중단되는 경우, 섀이프된 오디오 신호(652)는 결합기(640)에 의해 제공되는 시간 도메인 오디오 신호(642)와 동일할 수 있다.
인벨롭 섀이퍼(650)는 다양한 방법으로 실행될 수 있다. 하나의 실시예는 도 8에서 도시된다. 인벨롭 섀이퍼(650)는 코이피션트 변환기(coefficient converter)(810)와 곱셈기(multiplier)(820)를 포함할 수 있다. 코이피션트 변환기(810)는 상기 시간 도메인 오디오 신호의 순간 인벨롭을 섀이프하기 위해(to shape the temporal envelope) 및 섀이프된 오디오 신호(652)를 얻기 위해(to obtain) 인벨롭 섀이프 코이피션트(612)를 시간 도메인으로 변환하고, 변환된 인벨롭 섀이프 코이피션트(812)는 시간 도메인 오디오 신호(642)와 곱셈될 수 있다.
이것은 곱셈기(820)에 의해 수행될 수 있다. 이를 테면, 시간 도메인 오디오 신호(642)의 시간 블록이 시간 샘플을 포함할 수 있고(512)(그 이상(or more)) 및 코이피션트 변환기(810)는 각각의 시간 샘플을 변환된 인벨롭 섀이프 코이피션트(812)와 곱셈하기 위해 변환된 인벨롭 섀이프 코이피션트(812)를 제공할 수 있다(512)(그 이상(or more)).
이미 언급한 바와 같이, 장치(600)는 다른 서브밴드 도메인 밴드패스 신호를 다르게 변조할 수 있다. 더 일반적으로, 이 의미는 신호 처리기(630)가 제2 또는 추가의 미리 정의된 변조 타겟에 기초하여 상기 복수의 서브밴드 도메인 밴드패스 신호의 제2 또는 추가의 서브밴드 도메인 밴드패스 신호(622)를 변조할 수 있다는 것이다. 이미 언급되거나 제1 미리 정의된 변조 타겟과 추가 또는 제2 미리 정의된 변조 타겟은 다를 수 있다(may be different).
몇몇의 실시예들에서, 설명된 콘셉은 보코더 또는 변조 보코더와 연결되어 사용될 수 있다. 이 경우에서, 신호 처리기(630)는 상기 복수의 서브밴드 도메인 밴드패스 신호의 각각의 서브밴드 도메인 밴드패스 신호(622)에 대하여 진폭 변조 신호(AM)와 주파수 변조 신호(FM)를 생성할 수 있다.
또한, 신호 처리기(630)는 상기 미리 정의된 변조 타겟에 기초하여 변조 되는 상기 서브밴드 도메인 밴드패스 신호의 상기 주파수 변조 신호 또는 상기 진폭 변조 신호를 변조할 수 있다.
또한 장치(600)는 이미 설명된 도 2에서 도시된 장치(200)처럼 선택적으로 반송파 주파수 결정기(carrier frequency determiner)를 포함할 수 있다. 상기 반송파 주파수 결정기는 주파수 도메인 오디오 신호(602)에 기초하여 복수의 반송파 주파수를 결정할 수 있다.
이러한 결정된 반송파 주파수는 서브밴드 도메인 밴드패스 신호를 생성하도록 필터 뱅크 처리기(620) 또는 도 7에서 도시된 실행에서 필터 뱅크 처리기(620)의 필터 뱅크(730)에 의해 사용될 수 있으며, 각각의 서브도메인 밴드패스 신호는 상기 복수의 반송파 주파수의 반송파 주파수 각각에 관련한 서브밴드 도메인 밴드패스 신호를 얻기 위해 상기 복수의 반송파 주파수의 다른 반송파 주파수를 포함하는 주파수 범위를 포함한다. 이것은 이를 테면, 위에서 언급한 바와 같이 상기 주파수 도메인 오디오 신호의 그래비티의 센터를 결정함으로써(by determining center of gravities) 수행될 수 있다.
인벨롭 섀이프된 결정기(envelope shaped determiner)(610), 필터 뱅크 처리기(620), 신호 처리기(630), 결합기(640) 및/또는 인벨롭 섀이퍼(650)는 이를 태면, 디지털 신호 처리기의 일부 또는 개별 하드웨어 유닛, 컴퓨터 또는 마이크로 컨트롤러뿐만 아니라 디지털 신호 처리기, 컴퓨터 또는 마이크로 컨트롤러를 실행하도록 구성되는 컴퓨터 프로그램 또는 소프트웨어 제품이 될 수 있다.
본 발명에 따른 몇몇의 실시예들은 변조 보코더에서의 설명된 콘셉의 실행에 연관된다. 이러한 실시예를 위해, 상기 콘셉은 다음에서 더 상세히 설명된다. 언급된 특징들은 다른 실행 또는 어플리케이션에서 또한 사용될 수 있다.
이것은 상기 MODVOC 처리가 반송파 위치를 감싸는 밴드패스 영역에서 스펙트럼 코히어런스를 보존하기 전에 시작된다(It has been stated). 그러나, 광대역 글로벌 스펙트럼 코히어런스는 보존되지 않는다. 준-정상 신호를 위해(For quasi-stationary signals) 이것은 합성 신호의 지각 품질에서의 작은 영향을 미칠 수 있다. 상기 신호가 이를 테면, 드럼 비트 또는 캐스터네츠와 같은 중요한 트랜전트와 같은 것을(prominent transients like) 포함하는 경우, 글로벌 코히어런스의 보존은 이러한 신호의 재생 품질(reproduction quality)을 크게 향상시킬 수 있다.
상기 글로벌 코히어런스 보존은 상기 스펙트럼 도메인에서 선형 예측에 의해 개선될 수 있다. 몇몇의 방법은 이를 테면, MPEG 2/4 고급 오디오 코딩(AAC)에서의 순간 노이즈 섀이핑(temporal noise shaping) (TNS) 툴로써 오디오 코덱(audio codecs)에 활용된다(J. Herre 및 J. D. Johnston의 "순간 노이즈 섀이핑을 이용함으로 지각 오디오 코덱의 성능 향상"(101st AES convention, Los Angeles, , no. Preprint 4384, 1996) 참조). J. Herre 및 J. D. Johnston의 "고 품질 지각 오디오 코딩을 위한 연속적 신호-적응 필터뱅크"(IEEE ASSP Workshop on Applications of Signal Pmcessing to Audio and Acoustics, Mohonk, 1997)에서, 고해상도 시간-주파수 변환의 조합 및 스펙트럼 예측은 본질적으로 신호 적응 변환에 상응하도록(correspond to) 도시된다.
도 9는 MODVOC 처리 기법으로 설명된 콘셉의 통합(integration)을 설명한다. 분석에서, 상기 입력 신호 x의 초기 DFT 다음에, 임펄스 응답 h (w) 를 갖는 주파수를 따른 앞선 예측기의 선형 예측 코이피션트(linear prediction coefficients (LPC) of a forward predictor)는 이를 테면, 적어도 제곱의 의미에서(a least squares sense) 예측 오류를 최소화하는 자기 상관 방법(the autocorrelation method)에 의해 드라이브된다. 그 뒤에, 상기 필터는 상기 스펙트럼 값으로 적용되고, 잔여 신호(residual signal)는 MODVOC 알고리즘으로 더 처리된다.
상기 글로벌 인벨롭을 나타내는 필터 코이피션트(filter coefficients)는 합성 스테이지로 전달된다. 합성에서(In the synthesis), 유닛 서클 상의
Figure 112012077201015-pct00023
상기 예측 필터의 평가에 의해 파생된(derived) 상기 글로벌 인벨롭은 도 10에 도시된 바와 같이 출력 신호 y를 산출하는 합 신호와 동일한 것의 증가하는 어플리케이션에 의해 복구된다(is restored by a multiplicative application of the same to the sum signal).
즉, 도 9 및 도 10은 변조 보코더에서 바람직한 콘셉의 실행을 도시한다. 도 9는 이를 테면, 주파수 도메인 오디오 신호(602)를 얻기 위해 시간 도메인 오디오 신호의 이산 푸리에 변환을 수행하고 주파수 도메인 오디오 신호(602)를 인벨롭 섀이프 결정기(610), 예측 필터(710)(이를 테면, LPC 필터 h (ω)), 신호 감산기(710) 및 반송파 주파수 결정기(920)로 제공하는 사전처리기(preprocessor)(910)를 포함하는 변조 분석기 부분을 도시한다.
신호 감산기(signal subtractor)(720)는 잔여 오디오 신호(residual audio signal)(722)를 필터 뱅크(730)에 제공할 수 있다. 반송파 주파수 결정기(920)는 그래비티 주파수의 다중 반송파 센터를 추정할 수 있고 상기 밴드패스 스펙트럼 가중치 컨트롤링을 위해(or controlling the bandpass spectral weights) 이러한 반송파 주파수를 필터 뱅크(730)로 제공할 수 있다. 필터뱅크(730)는 상기 복수의 서브밴드 도메인 밴드패스 신호를 상기 신호 처리기에게 제공하도록 상기 밴드패스 신호를 각각의 밴드패스 신호에 대하여 싱글 사이드된 역이산 푸리에 변환(single sided inverse discrete Fourier transform)을 수행하는 신호 변환기(930)에 제공할 수 있다.
상기 변조 보코더의 구성 요소는 보다 상세하게 이미 위에서 설명되었다. 도 10은 상기 변조 보코더의 합성 부분을 더 도시한다. 이것은 코이피션트 변환기(810)와 곱셈기(820)를 포함하는 인벨롭 섀이퍼와 결합기(640)를 포함한다. 상기 변조 보코더 구성 요소와 상기 인벨롭 섀이퍼의 더 상세한 설명은 이미 위에서 설명되었다.
도 11은 본 발명의 일실시예에 따른 오디오 신호를 변조하기 위한 방법(1100)의 흐름도를 도시한다. 방법(1100)은 시간 도메인 입력 오디오 신호를 나타내는 주파수 도메인 오디오 신호에 기초하여 인벨롭 섀이프 코이피션트를 결정하는 단계(1110)와 상기 주파수 도메인 오디오 신호에 기초하여 서브밴드 도메인에서 복수의 밴드패스 신호를 생성하는 단계(1120)를 포함한다.
또한 방법(1100)은 미리 정의된 변조 타겟에 기초하여 상기 복수의 서브밴드 도메인 밴드패스 신호의 서브밴드 도메인 밴드패스 신호를 변조하는 단계(1130)를 포함한다. 추가적으로, 상기 복수의 서브밴드 도메인 밴드패스 신호의 적어도 서브세트는 시간 도메인 오디오 신호를 얻기 위해 결합된다(1140).
또한, 방법(110)은 상기 인벨롭 섀이프 코이피션트에 기초하여 상기 시간 도메인 오디오 신호의 인벨롭을 섀이핑하는 단계(1150), 상기 인벨롭 섀이프 코이피션트에 기초하여 상기 변조된 서브밴드 도메인 밴드패스 신호를 포함하는 상기 복수의 서브밴드 도메인 밴드패스 신호의 인벨롭을 섀이핑하는 단계(1150) 또는 서브밴드 도메인 밴드패스 신호가 섀이프된 오디오 신호를 얻기 위해 상기 신호 처리기에 의해 변조되기 전에 상기 인벨롭 섀이프 코이피션트에 기초하여 상기 복수의 서브밴드 도메인 밴드패스 신호의 인벨롭을 섀이핑하는 단계(1150)를 포함한다.
선택적으로, 방법(1100)은 위에서 언급된 바람직한 콘셉의 특징을 나타내는 추가 단계를 포함할 수 있다.
본 발명에 따른 몇몇의 실시예들은 도 6에 도시된 상기 장치의 특징과 함께 도 1 또는 도 2에 도시되는 상기 장치의 특징을 결합하는 오디오 신호를 변조하기 위한 장치에 연관된다. 적당하게, 도 12는 본 발명의 일실시예에 따른 장치(1200)의 블록도를 도시한다.
도 1에 도시된 장치로부터(Starting from the apparatus shown in Fig. 1), 장치(1200)는 인벨롭 섀이프 결정기(610)와 인벨롭 섀이퍼(650)을 추가적으로 포함한다. 이 연결에서 상기 오디오 신호는 시간 도메인 입력 오디오 신호를 나타내는(representing) 주파수 도메인 오디오 신호일 수 있고, 상기 주파수 도메인 오디오 신호에 기초하여 인벨롭 섀이프 코이피션트를 결정하도록 상기 인벨롭 섀이프 결정기에 의해 사용될 수 있다. 또한, 상기 필터 뱅크에 의해 생성되는 상기 복수의 밴드패스 신호는 상기 주파수 도메인 오디오 신호에 기초하여 서브밴드 도메인에서 생성될 수 있다.
상기 변조된 선택된 펀더멘털 밴드패스 신호와 상기 변조된 식별된 오버톤 밴드패스 신호를 포함하는 상기 복수의 서브밴드 도메인 밴드패스 신호를 결합한 후에, 획득 시간 도메인 오디오 신호(the obtained time domain audio signal)(152, 642)는 인벨롭 섀이퍼(650)에 제공될 수 있다. 인벨롭 섀이퍼(650)는 섀이프된 오디오 신호(652)를 얻기 위해 인벨롭 섀이프 코이피션트(612)에 기초하여 상기 시간 도메인 오디오 신호의 인벨롭을 섀이프할 수 있다(may shape).
그렇지 않으면, 도 6에 도시된 장치로부터, 장치(1200)는 도 1에 도시된 장치와 관련하여 설명된 바와 같이 펀더멘털 결정기(120)와 오버톤 결정기(130)를 포함한다. 펀더멘털 결정기(120)는 펀더멘털 밴드패스 신호(122)를 얻기 위해 상기 복수의 서브밴드 도메인 밴드패스 신호의 서브밴드 도메인 밴드패스 신호를 선택할 수 있다.
또한, 오버톤 결정기(130)는 선택된 펀더멘털 밴드패스 신호(122)와 관련되는 오버톤 밴드패스 신호(132)를 얻기 위해 선택된 펀더멘털 밴드패스 신호(122)에 대한 오버톤 기준(overtone criterion)을 만족하는 상기 복수의 서브밴드 도메인 밴드패스 신호의 서브밴드 도메인 밴드패스 신호(112)를 식별할 수 있다.
신호 처리기(140, 630)는 미리 정의된 변조 타겟에 기초하여 상기 선택된 펀더멘털 밴드패스 신호를 변조할 수 있고 및 위에서 언급된 바와 같이 선택된 펀더멘털 밴드패스 신호(122)의 변조에 따라 선택된 펀더멘털 밴드패스 신호(122)와 관련되는 식별된 오버톤 밴드패스 신호(132)를 변조할 수 있다.
이 방법에서, 오버톤 및 펀더멘털의 오버톤은 상기 오디오 신호의 변조 동안 동등하게 취급될 수 있고(may be treated equivalent), 상기 복수의 밴드패스 신호의 상기 스펙트럼 코히어런스 및 상기 오디오 신호는 상기 밴드패스 신호의 변조 전에 상기 인벨롭 섀이프 코이피션트에 기초하여 상기 변조된 시간 도메인 오디오 신호를 섀이핑함으로써(by shaping) 매우 정확하게 보존될 수 있다(may be preserved very accurate). 이 방법에서, 상기 변조된 신호의 지각 품질(perceptual quality)은 상당히 개선될 수 있다.
장치(1200)는 위에서 설명된 다른 실행 실시예의 추가 특징을 실현할 수 있다(may realize).
다음에서, 상기 변조된 오디오 신호의 상기 지각 품질의 개선은 듣기 테스트의 결과로 도시된다. 이 듣기 테스트를 위해 실행 기반의 변조 보코더(MODVOC)가 사용되었으며, 결과는 제안된 콘셉에 대해 일반적으로 유효하다(the results are also valid generally for the proposed concept).
선택적인 피치 트랜스포지션의 어플리케이션을 위해 및, 게다가 기본적인 MODVOC 원칙의 제안된 향상의 가치(moreover, the merit of the proposed enhancements to the basic MODVOC principle)에 대한 상기 변조 보코더(MODVOC)의 주관적인 오디오 품질의 평가를 위해, 예시적인 오디오 파일의 세트는 그에 맞춰 어셈블되고 처리되었다. 추가적으로 상기 MODVOC 기술은 폴리포닉 오디오 매니퓰레이션에 대해(for polyphonic audio manipulation) 상업적으로 이용 가능한 오디오 소프트웨어와 비교된다. 2009년 말부터 구매 가능한 Melodyne editor(Melodyne editor by Celemony which is on purchase since late 2009).
테스트 중인 처리는 신호의 상기 오디오 컨텐츠를 과감하게 변경하기 때문에(Since the processing under test drastically alters the audio content of a signal), 오리지널 및 처리된 신호의 직접 비교는 - 표준 듣기 테스트에서 일반적으로 인히어런트 부분(usually an inherent part in standard listening tests) - 이 경우에서 분명히 편리하지 않다(is apparently not expedient in this case). 그럼에도 불구하고 의미 있는 방법으로 상기 주관적인 오디오 품질(subjective audio quality)을 평가하기 위해, 특별한 듣기 테스트 절차는, 상기 듣기 시험 세트가 고품질 MIDI 확장기(expander)를 이용하는 웨이브폼으로 렌더링되는(is rendered into waveforms) 상징적인 MIDI 데이터로부터 유래하는 것으로 적용된다.
이 방법은 상기 테스트 내에서 유사하게 변경된 오디오 파일(similarly altered audio files)의 직접 비교를 가능하게 하고 별개로 상기 선택적 피치 처리의 효과에 대해 조사를 허용한다(allows for an investigate). 상기 테스트 세트를 생성하는 절차는 도 17에 요약된다. 오리지널 테스트 신호는 상징적인 MIDI 데이터 표현으로 준비된다(are prepared in)(왼쪽 상단). 이러한 신호의 제2 버전은 오리지널 오디오가 렌더링된 웨이브폼에서(on waveform) 테스트 중인(under test) 상기 타겟 처리와 유사한(resembles) 상징적인 MIDI 프로세싱에 의해 생성된다(오른쪽 상단).
그 뒤에, 이러한 신호 쌍들은 고품질 MIDI 확장자에 의해 웨이브폼(WAV) 파일로 렌더링된다(are rendered). 상기 듣기 테스트에서, 상기 렌더링된 오리지널 MIDI 파일의 몇몇의 변조 보코더(MODVOC) 처리된 버전과 상기 처리된 MIDI 파일로부터 렌더링된 상기 웨이브폼은 비교된다(오른쪽 하단). 추가적으로 상기 MODVOC의 출력은 Melodyne 에디터(editor)의 출력과 비교된다.
상기 MODVOC 처리된 조건을 제외하고(Apart from the MODVOC processed conditions), 상기 테스트는 오디오 매니퓰레이션의 타입을 해결하기 위한 현재 유일한 상업적인 응용 프로그램이고 따라서 산업 표준으로 볼 수 있는 Melodyne 에디터를 사용함으로써 획득된 조건을 포함한다(he test includes a condition obtained by using Melodyne editor). Melodyne 에디터는 상기 전체 오디오 파일의 자동 분석을 초기에 수행한다.
초기치 설정 위상 후에(After the initialization phase), Melodyne는 상기 오디오 파일의 분해를 제안한다(suggests a decomposition). 사용자 인터렉션에 의해(By user interaction), 이 분해는 더 리파인될 수 있다(can be further refined). 상기 MODVOC 처리 결과의 공정한 비교를 위해서, 상기 평가는 이 자동 초기 분석의 결과를 기반으로 하고(is based on the outcome of this automatic initial analysis since), 표준 피치의 선행 지식으로부터, 상기 MODVOC 분해는 완전히 자동이다(is fully automatic as well).
상기 듣기 테스트 셋업은 ITU 레코멘데이션 BS.1534에 따른 표준 Multiple Stimuli wich Hidden Reference and Anchor(MUSHRA) 테스트를 기반으로 했다(ITU-R, "중간 사운드 품질의 주관적인 평가를 위한 방법(mushra)", 2001). MUSHRA는 블라인드 듣기 테스트(blind listening test)이다. 한번에 한 사람만이 테스트를 받게 된다. 각 아이템에 대하여, 상기 테스트는 히든 레퍼런스(hidden reference)와 숨겨진 로우패스 필더된 앵커(hidden lowpass filtered anchor)와 함께 모든 테스트 조건을 청자(listener)에게 시간-정렬 방식으로(in a time-aligned fashion) 제시한다.
히든 레퍼런스와 낮은 앵커(lower anchor)는 상기 청자 신뢰성(reliability)을 확인하기 위해 포함된다. 듣기 동안(while listening) 조건들 사이의 스위칭은 허용되는 등 BS.1116-1으로 추천되어진 것과 같은(ITU-R, "멀티채널 사운드 시스템을 포함하는 오디오 시스템의 작은 임페어먼트(small impairments)의 주관적인 평가를 위한 방법", 1994-1997) 상기 아이템의 임의로 선택된 파티션에 루프를 설정하고(Switching between conditions while listening is permitted and so is setting a loop on arbitrarily selected partitions of the item as is suggested in the BS.1116-1), 및 뿐만 아니라 MUSHRA 테스트에 적용 가능하다.
반복의 수에는 제한이 없고 상기 테스트 주제는 상기 아이템을 레이팅하고 다음 테스트 아이템을 프로시드하기 전에 들을 수 있고(the test subjects could listen to before rating the item and proceeding to the next test item), 따라서 다른 조건의 철저한 검사와 매우 근접한 비교를 허용한다(thus allowing for a very close comparison and thorough examination of the different conditions).
상기 아이템의 상기 지각 품질은 ≪뛰어난(excellent)≫(100 포인트)으로부터 ≪좋은(good)≫과 ≪보통(fair)≫을 지나 최대 ≪좋지 못한(poor)≫(0 포인트)까지의 눈금 범위(scale ranging)에서 레이트된다(is rated). 테스트 아이템의 시퀀스는 무작위로 오더되며(is randomly ordered) 게다가, 뿐만 아니라 각각의 아이템의 조건의 오더는 무작위이다. 여덟 개의 테스트 아이템은 공공 사용을 위해 프리 시트 뮤직(free sheet music)을 제공하는 MUTOPIA 프로젝트(http://www.mutopiaproject.org/)로부터 공급된다.
대략적으로 최대 20로의 기간을 갖는 적절한 발췌(Suitable excerpts)는 하나의 인스트루먼트(이를 테면, G, E)와 조밀한 풀 오케스트라 부분(dense full orchestra parts)(이를 테면, F)을 모두 포함하는 클래식 뮤직의 다양한 피스로부터 추출되었다. 다른 인스트루먼트와 함께 도미넌트 인스트루먼탈 솔로 멜로디(dominant instrumental solo melodies)(이를 테면, C)는 상기 테스트 세트에 포함된다.
단기의 준정상 음색 부분 외에(Besides the short-term quasi-stationary tonal parts), 또한 퍼커시브 요소(percussive elements)는 또한 테스트 중인 상기 시스템의 트랜션트 응답에 대한 특별한 도전을 제기하는(pose) 몇몇의 아이템에 포함된다(플럭트된 C의 기타 및 G의 피아노의 온셋(onsets of plucked guitar in C and piano in G)). 다음의 테이블은 상기 세트의 모든 아이템을 리스트한다.
Figure 112012077201015-pct00024
오리지널 트랜스포즈된 신호를 얻기 위한 상기 MIDI 처리는 Cakewalk에 의해 제조된 Sonar8로 이루어져있고, 상기 고품질 웨이브폼 렌더링은 하모닉 로킹 및 인벨롭 섀이핑인 두 개의 향상 처리 단계와 함께 세 가지의 다른 조합으로 평가되었던 사운드 라이브러리 버전1.0.1 R3. The MODVOC 처리로 기본 악기로부터 밴드-스탠드를 사용하여 수행된다. Melodyne 에디터의 비교를 위해, 버전 1.0.11이 사용되었다. 모든 조건은 아래의 테이블에 리스트된다.
Figure 112012077201015-pct00025
상기 주관적인 듣기 테스트는 ≪이상적인≫ 리빙 룸(living room)과 유사한 환경에서 고-품질 듣기 테스트를 허용하도록 설계된 청각적으로 아이솔레이트된 듣기 실험실에서 실시되었다. 청자는 애플 MAC 미니에 연결된 Edirol USB 사운드 인터페이스로부터 구동되는 STAX 일렉트로스태틱 해드폰을 갖추었다(were equipped with STAX electrostatic headphones).
듣기 테스트 소프트웨어는 상기 테스트를 수행하는 것에 있어서 상기 청자에게 지원하기 위한 간단한 GUI를 제공하고 MUSHRA 모드로 동작되는 Fraunhofer IIS에 의한 wavswitch 였다(was wavswitch by Fraunhofer IIS). 상기 청자는 플레이아웃(playout) 동안에 레퍼런스(1)와 다른 조건(2-7) 사이를 스위치할 수 있다(can switch). 각각의 청자는 각각의 아이템들과 조건에 대하여 듣기 시간을 개별적으로 결정할 수 있다(can decide individually how long to listen to each item and condition).
실제 스위칭 동안, 사운드 플레이아웃은 음소거된다. GUI에서, 수직 바(vertical Bars)는 각각의 컨디션에 기인하는 레이팅을 시각화한다(visualize the rating attributed to each condition). 경험이 많은 청자는 오디오 코딩에 친숙하고 뿐만 아니라 한편으로, 트랜전트의 분산 또는 포스트- 에코와 같은 일반적인 신호 프로세싱 아티팩트에서 교육받은 판단(educated judgment on typical signal processing artefacts like pre- and post-echoes or dispersion of transients)과 반면 스펙트럼 피치, 멜로디 및 음색(timbre)과 같은 뮤지컬 파라미터를 얻기 위해 뮤지컬 백그라운드 갖는(have a musical background in order to get) 것을 선택하였다. 게다가, 상기 청자는 그들의 비공식적인 관찰(informal observations)과 임프레션(impressions)을 제공하도록 요청되었다.
상기 테스트 결과에 총 기여된 열 다섯 개의 주제(Fifteen subjects in total contributed to the test result), 한 명의 청자는 숨겨진 오리지널을 성공적으로 식별하는 것을 명백하게 실패했기 때문에(due to obviously failing) 포스트-스크린되어야만 했다(had to be post-screened)(그것에게 64 포인트로 등급을 매김으로써(by grading)).
도 18은 상기 듣기 테스트의 결과를 요약한다. 상기 아이템에 대한 지각 품질은 보통으로부터 좋은까지 선택적 피치 트랜스포지션 범위(selective pitch transposition ranges)에 의해 처리되었다. 낮은 앵커는 좋지 못 한과 그리고 나쁜 사이로 레이트되었고(was rated between poor and bad), 상기 처리된 아이템과 상기 앵커로부터의 거리는 약 40 MUSHRA 포인트로 마운트한다(that the distance from the processed items and the anchor amounts to approx. 40 MUSHRA points).
절대 점수는 각각의 아이템의 지각 품질을 정량화하는 정보를 제공하고(각각의 상기 테스트 조건에서), 테스트세트에서 상기 아이템들 사이의 품질 차이를 함축적으로 레이트한다. 그러나, 이러한 조건들의 레이팅(ratings)이 독립적이지 않기 때문에 상기 듣기 테스트 내에서 다른 조건들을 비교하는 것은 적합하지 않다. 상기 다른 선택적 트랜스포지션 프로세싱 기법으로부터 유래하는 상기 조건들의 직접 비교를 위해, 점수 차이는 다음에서 간주된다.
도 19는 플레인(plain) MODOVC(조건 3) 결과에 대한 향상된 MODVOC 변형(variants)(조건 4 및 5)의 점수 차이에 따른 결과를 설명한다. 여기서, 모든 향상된 MODVOC 변형 점수는 플레인 MODVOC 프로세싱)(모든 점수는 0점에 있다) 보다 훨씬 더 높다(considerably better than). 아이템 A와 C에서 하모닉 로킹의 어플리케이션을 제외한 모든 아이템과 조건에 대한 95% 신뢰의 의미에서 중요성(significance)이 있다.
도 20은 조건 6(Melodyne 에디터)에 대한 점수 차이로 테스트 점수를 디스플레이한다. 아이템 C에 대하여, 조건 5 에서의 상기 MODVOC 점수는 조건 4 동안의 Melodyne 에디터 보다 높고, 비록 약간 긍정적일지라도, 조건 3은 95% 신뢰 구간의 의미에서 결정적이지 않다(신뢰 구간(confidence intervals)은 0으로 오버랩).
아이템 B(조건 2), F, G(조건 5) 또한 중요한 결론을 도출할 수 없지만(no significant conclusion can be drawn), 상기 MODVOC의 더 나은 성능을 위한 추세는 조건 4에서 아이템 C 및 조건 4와 조건 5에서 아이템 F에서 또한 볼 수 있다(can be seen also for). 모든 다른 경우에서 상기 MODVOC 점수는 상당히 Melodyne 에디터 보다 더 나쁘다(worse than).
상기 점수는 멜로디의 정확성과 음색의 보존, 피치 정확도, 프리- 또는 포스트-에코에 의한 트랜션트의 데그러데이션(degradation)과 같은 부자연스러운 사운딩 아티팩트의 측면들을 포함하는 전반적인 품질 판단(overall quality judgment comprising aspects like unnatural sounding artifacts)을 반영한다. 더 자세히 상기 결과를 설명하기 위해서, 상기 청자는 실제 점수를 노트하는 것과 함께(with noting) 그들의 비공식적인 관찰을 노트하도록(to note their informal observations) 요청되었다. 이러한 관찰로부터 상기 음색의 보존과 부자연스러운 사운딩 아티팩트의 압생트(the preservation of the timbre and absente of unnatural sounding artifacts)는 이를 테면, 멜로디 보존의 가드니스(goodness of melody preservation) 보다 높은 수준으로 전체 점수로 표현되었다.
게다가, 특정한 멜로디가 상기 청자에게 알려지지 않은(is unknown) 경우 테스트 사람은 테스트 중에 스코트 노티스에서(on skort notice) 레퍼런스 멜로디를 기억하는 것이 가능하지 않고 따라서 진정한 멜로디에 대해 확신하지 못하는 것으로(were unsure) 여겨진다(it seems that). 이것은 특별히 싱글 인스트루먼트부터 발생하는(originating from single instruments) 사운드 음색의 보존에 대한 높은 충실함(fidelity)을 갖는 Melodyne 에디터 처리된 아이템의 높은 전체 레이팅의 설명이 될 수 있다(This can be an explanation of the higher overall rating of the Melodyne editor processed items,).
그러나 이것은 미스클래시피케이션(missclassification)으로 인해 발생할 수 있는 우연히 발생하는 심각한 멜로디 오류의 프라이즈로 접근한다(this comes at the prize of accidentally occurring severe melody errors). 상기 MODVOC는 주로 클리시피케이션 기술 기반의 특징에 의존하지 않기 때문에 그러한 점에서 보다 강력하다.
본 발명에 따른 몇몇의 실시예들은 피치의 선택적 트랜스포지션을 위한 향상된 변조 보코더에 연관된다. 상기 변조 보코더(MODVOC)의 콘셉은 소개되었고 폴리포닉 뮤직 컨텐츠 상의(on polyphonic music content) 선택적 트랜스포지션을 수행하기 위한 그것의 일반적인 기능이 언급되었다. 이것은 미리-녹음된 PCM 뮤직 샘플의 키 모드를 변경하는 것을 목표로 하는 가능한 어플리케이션을 렌더링한다(This renders applications possible).
MODVOC에 의한 선택적 피치 트랜스포지션에 대한 두 가지의 향상 기술이 제안된다. 상기 선택적 트랜스포지션 어플리케이션의 성능과 이러한 기술들의 가치(merit)는 상기 오리지널 오디오 자극(stimuli)에 대하여 피치의 관점에서 극도의 변화를 적용할 수 있는(is capable to govern extreme changes) 특별히 설계된 듣기 테스트 방법론으로부터 얻은 결과로 벤치마크되는 것이다(are benchmarked).
이 주관적인 지각 품질 평가(subjective perceptual quality assessment)의 결과는 상기 MODVOC에 의해 및, 추가적으로, 이 태스크(task)의 핸들링 또한 가능한 제1 상업적으로 이용 가능한 소프트웨어에 의해(by the first commercially available software) 마이너(minor)와 메이저(major) 키 모드 사이로 변환되는 아이템으로 표시된다. 모든 매니퓰레이션을 허용하기 전에 Melodyne 에디터가 초기에 상기 전체 오디오 파일의 자동 분석을 초기에 수행하는 동안 상기 MODVOC가 블록-바이 블록 베이시스(block-by block basis)로 동작하고 따라서 실시간 동작을 잠재적으로 허용하는 것을 주목하는 것은 가치가 있다.
피치의 선택적 트랜스포지션을 위한 변조 보코더(MODVOC)에 대한 향상 기술(Enhancement techniques)이 제안되었다. MIDI로부터 렌더링된 테스트 신호에 대하여 획득된 듣기 테스트 결과로부터, 상기 플레인 MODVOC의 상기 지각 품질은 하모닉 로킹(harmonic locking) 및 인벨롭 섀이핑(envelope shaping)에 의해 향상된다는 것으로 결론이 내려 질 수 있다. 모든 아이템에 대해(Over all items), 10 MUSHRA 포인트까지의 증가는 예상될 수 있다. 개선의 주요한 부분은 상기 하모닉 로킹에 기인한다(A main share of the improvement stems from the harmonic locking).
게다가, 선택적 피치 트랜스포지션에 도달될 수 있는 일반적인 품질 레벨로 밝혀진 상업적으로 이용 가능한 소프트웨어인(Melodyne 에디터) 상기 MODVOC의 비교는 시간의 포인트에서 ≪보통(fair)≫과 ≪좋은(good)≫ 사이에 위치될 수 있다. 상기 MODVOC는 주로 클리시피케이션 결정(classification decisions에 의존하지 않기 때문에 멜로디의 미스인터프리테이션에서 보다 강력하다(is more robust to missinterpretation of melody).
이전의 매니퓰레이션 전체 오디오에서(on the entire audio file prior to manipulation) Melodyne 에디터에 의해 수행되는 멀티-패스 분석과는 대조적으로, 상기 MODVOC는 전적으로 스트리밍 또는 실시간 운영 시나리오(streaming or realtime Operation scenarios)를 잠재적으로 허용하는 싱글-패스 블록와이즈 프로세싱(single-pass blockwise processing)을 기반으로 한다.
바람직한 콘셉의 몇몇의 측면들이 장치의 컨텍스트(context)에서 기술되었지만, 이러한 측면들은 또한 블록 또는 장치가 방법 단계 또는 방법 단계의 특징에 상응하는 곳에서 해당 방법에 대한 설명을 표현한다는 것은 명백하다. 유사하게, 방법 단계의 컨텍스트에서 기술된 측면들은 또한 해당 블록 또는 아이템 또는 해당 장치의 특징에 대한 설명을 나타낸다.
오디오 신호가 인코딩된 본 발명(The inventive encoded audio signal)은 디지털 저장 매체로 저장될 수 있거나 또는 무선 전송 매체 또는 인터넷과 같은 유선 전송 매체와 같은 전송 매체(transmission medium)에서 전송될 수 있다.
특정한 구현 요구 사항에 따라, 본 발명의 실시예들은 하드웨어나 소프트웨어에서 구현될 수 있다. 상기 구현은 이를 테면, 그것에 대해 저장된 전자적으로 판독 가능한 컨트롤 신호(electronically readable control signals stored thereon)를 갖는, 플로피 디스크, DVD, 블루-레이, CD, ROM, PROM, EPROM, EEPROM 또는 플래시 메모리와 같이, 프로그램 가능한 컴퓨터 시스템과 협력하여(또는 협력을 할 수 있는) 각각의 방법이 수행되는 디지털 저장 매체를 사용하여 수행될 수 있다. 따라서, 상기 디지털 저장 매치는 컴퓨터 판독이 가능할 수 있다(may be computer readable).
본 발명에 따른 몇몇의 실시예들은 프로그램 가능한 컴퓨터 시스템과 협력하는 것이 가능하여 여기에서 설명된 방법 중 하나가 수행되는 전자적으로 판독 가능한 컨트롤 신호를 갖는 데이터 캐리어(data carrier)를 포함한다.
일반적으로, 본 발명의 실시예들은 프로그램 코드와 함께 컴퓨터 프로그램 제품으로 구현될 수 있으며, 상기 프로그램 코드는 상기 컴퓨터 프로그램 제품이 컴퓨터에서 실행되는 경우 상기 방법 중 하나를 수행하기 위하여 동작 가능하다. 상기 프로그램 코드는 이를 테면 기계 판독 가능한 캐리어에 저장될 수 있다(be stored on a machine readable carrier).
다른 실시예들은 여기서 기술된 상기 방법 중 하나를 수행하고, 기계 판독 가능한 캐리어에 저장되는 컴퓨터 프로그램을 포함한다
즉, 본 발명의 방법의 일실시예는 그러므로 상기 컴퓨터 프로그램이 컴퓨터에서 실행되는 경우 여기서 기술된 상기 발명 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
본 발명의 방법의 추가적인 일실시예는, 그러므로, 그것에 대해 기록된, 여기서 기술된 상기 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함하는 데이터 캐리어(또는 디지털 저장 매체, 또는 컴퓨터-판독 가능 매체)이다.
본 발명의 방법의 추가적인 일실시예는, 그러므로, 여기서 기술된 상기 방법 중 하나를 수행하기 위한 상기 컴퓨터 프로그램을 표현하는(representing) 신호의 시퀀스 또는 데이터 스트림(data stream)이다. 상기 데이터 스트림 또는 상기 신호의 시퀀스는 이를 테면 데이터 통신 연결(data communication connection)을 통해, 이를 테면 인터넷을 통해 전송하도록 구성될 수 있다.
추가적인 일실시예는 이를 테면, 여기서 기술된 상기 방법 중 하나를 수행하도록 구성되는 컴퓨터 또는 프로그램 가능한 로직 디바이스(logic device)와 같은 프로세싱 수단(processing means)을 포함한다.
추가적인 일실시예는 여기에서 기술된 상기 방법 중 하나를 수행하기 위한 그것에 대해 설치되는 상기 컴퓨터 프로그램을 갖는 컴퓨터를 포함한다.
몇몇의 실시예들에서, 프로그램 가능한 로직 디바이스(이를 테면 필드 프로그램 가능한 게이트 어레이(a field programmable gate array))는 여기서 기술된 상기 방법의 기능의 일부 또는 전체를 수행하도록 사용될 수 있다. 몇몇의 실시예들에서, 필드 프로그램 가능한 게이트 어레이는 여기서 기술된 상기 방법 중 하나를 수행하기 위해 마이크로처리기와 협력할 수 있다. 일반적으로, 상기 방법은 바람직하게도 모든 하드웨어 장치에 의해 수행된다.
위에 기술된 실시예들은 단지 본 발명의 원리에 대하여 설명된다. 여기서 기술된 세부 사항 및 어레인지먼트의 수정 및 변형은 본 발명이 속한 분야에서 숙련된 자에게 명백한 것으로 이해되어야 한다.
그러므로, 임박한 특허 청구항의 범위에 의해서만 제한되며, 본 실시예의 설명과 설명의 방법으로 제공된 상세한 설명(specific details)에 의해 제한되어선 아니되는 것으로 의도된다.

Claims (15)

  1. 오디오 신호를 변조하는 장치(600)에 있어서,
    시간 도메인 입력 오디오 신호를 나타내는 주파수 도메인 오디오 신호(602)에 기초하여 인벨롭 섀이프 코이피션트(612)를 결정하도록 구성되는 인벨롭 섀이프 결정기(610);
    상기 주파수 도메인 오디오 신호(602)에 기초하여 서브밴드 도메인에서 복수의 밴드패스 신호(622)를 생성하도록 구성되는 필터뱅크 처리기(620);
    미리 정의된 변조 타겟에 기초하여 복수의 서브밴드 도메인 밴드패스 신호의 서브밴드 도메인 밴드패스 신호(622)를 변조하도록 구성되는 신호 처리기(630);
    상기 복수의 서브밴드 도메인 밴드패스 신호의 적어도 하나의 서브세트를 결합하여 시간 도메인 오디오 신호(642)를 얻도록 구성되는 결합기(640); 및
    서브밴드 도메인 밴드패스 신호가 상기 신호 처리기(630)에 의해 변조되기 전에 상기 인벨롭 섀이프 코이피션트(612)에 기초하여 상기 복수의 서브밴드 도메인 밴드패스 신호의 인벨롭을 섀이프하거나, 상기 인벨롭 섀이프 코이피션트(612)에 기초하여 상기 시간 도메인 오디오 신호(642)의 인벨롭을 섀이프하도록 구성되거나, 또는 상기 인벨롭 섀이프 코이피션트(612)에 기초하여 상기 변조된 서브밴드 도메인 밴드패스 신호를 포함하는 상기 복수의 서브밴드 도메인 밴드패스 신호의 인벨롭을 섀이프하여, 섀이프된 오디오 신호(652)를 얻도록 구성되는 인벨롭 섀이퍼(650)
    를 포함하고,
    상기 인벨롭 섀이프 결정기(610)는 상기 주파수 도메인 오디오 신호(602)의 주파수의 예측에 기초하여 상기 인벨롭 섀이프 코이피션트(612)를 결정하도록 구성되는 장치(600).
  2. 제1항에 있어서,
    상기 인벨롭 섀이퍼(650)는 코이피션트 변환기(810)와 곱셈기(820)를 포함하고, 상기 코이피션트 변환기(810)는 상기 인벨롭 섀이프 코이피션트(612)를 시간 도메인으로 변환하도록 구성되고, 상기 곱셈기(820)는 상기 시간 도메인 오디오 신호(642)와 변환된 인벨롭 섀이프 코이피션트(812)를 곱셈하도록 구성되는 장치.
  3. 제1항에 있어서,
    상기 필터뱅크 처리기(620)는 예측 필터(710), 신호 감산기(720) 및 필터뱅크(730)를 포함하고,
    상기 예측 필터(710)는 상기 주파수 도메인 오디오 신호(602)와 상기 인벨롭 섀이프 코이피션트(612)에 기초하여 예측 오디오 신호(712)를 생성하도록 구성되고,
    상기 신호 감산기(720)는 상기 주파수 도메인 오디오 신호(602)로부터 상기 예측 오디오 신호(712)를 뺄셈하도록 구성되어 잔여 오디오 신호(722)를 얻도록 구성되고,
    상기 필터뱅크(730)는 밴드패스 신호(622)를 생성하여 상기 잔여 오디오 신호(722)에 기초하는 상기 복수의 밴드패스 신호를 얻도록 구성되는
    장치.
  4. 제3항에 있어서,
    상기 인벨롭 섀이퍼(650)는 상기 주파수 도메인 오디오 신호(602)의 에너지 컨텐츠와 상기 잔여 오디오 신호(722)의 에너지 컨텐츠의 에너지 비율을 결정하도록 구성되고, 상기 인벨롭 섀이퍼(650)는 상기 에너지 비율이 미리 정의된 에너지 임계치 보다 낮은 경우에 상기 시간 도메인 오디오 신호(642)의 인벨롭의 섀이핑을 중단하도록 구성되는,
    장치.
  5. 제3항에 있어서,
    상기 필터뱅크 처리기(620)는 상기 필터뱅크(730)에 의해 생성된 상기 밴드패스 신호를 상기 서브밴드 도메인으로 변환하여 상기 복수의 밴드패스 신호를 얻도록 구성되는 신호 변환기(930)를 포함하는 장치.
  6. 제1항에 있어서,
    상기 신호 처리기(630)는 제2 미리 정의된 변조 타겟에 기초하여 상기 복수의 서브밴드 도메인 밴드패스 신호의 제2 서브밴드 도메인 밴드패스 신호를 변조하도록 구성되고, 상기 미리 정의된 변조 타겟과 상기 제2 미리 정의된 변조 타겟이 다른 장치.
  7. 제1항에 있어서,
    상기 신호 처리기(630)는 상기 복수의 서브밴드 도메인 밴드패스 신호의 서브밴드 도메인 밴드패스 신호(622) 각각에 대하여 주파수 변조 신호(FM)와 진폭 변조 신호(AM)를 생성하도록 구성되고,
    상기 신호 처리기(630)는 상기 미리 정의된 변조 타겟에 기초하여 변조되는 상기 서브밴드 도메인 밴드패스 신호(622)의 상기 주파수 변조 신호(FM) 또는 상기 진폭 변조 신호(AM)를 변조하도록 구성되는 장치.
  8. 제1항에 있어서, 상기 장치는,
    상기 주파수 도메인 오디오 신호(602)에 기초하여 복수의 반송파 주파수를 결정하도록 구성되는 반송파 주파수 결정기(920)를 포함하고,
    상기 필터뱅크 처리기(620)는 밴드패스 신호를 생성하도록 구성되어, 각각의 밴드패스 신호는 상기 복수의 반송파 주파수의 다른 반송파 주파수를 갖는 주파수 범위를 포함하여, 상기 복수의 반송파 주파수의 각각의 반송파 주파수에 연관되는 밴드패스 신호를 얻는 장치.
  9. 제1항에 있어서, 상기 장치는,
    상기 시간 도메인 입력 오디오 신호 또는 상기 시간 도메인 입력 오디오 신호를 나타내는 상기 주파수 도메인 오디오 신호를 하이 패스 필터하도록 구성되는 하이 패스 및 로우 패스 필터(660)를 포함하고,
    상기 하이 패스 및 로우 패스 필터(660)는 상기 시간 도메인 입력 오디오 신호 또는 상기 시간 도메인 입력 오디오 신호를 나타내는 상기 주파수 도메인 오디오 신호를 로우 패스 필터하여 로우 패스 오디오 신호(662)를 얻도록 구성되고
    상기 인벨롭 섀이프 결정기(610)는 하이 패스 주파수 도메인 오디오 신호에 기초하여 상기 인벨롭 섀이프 코이피션트(612)를 결정하도록 구성되고,
    상기 필터뱅크 처리기(620)는 상기 하이 패스 주파수 도메인 오디오 신호와 상기 로우 패스 오디오 신호(662)에 기초하여 서브밴드 도메인에서 상기 복수의 밴드패스 신호(622)를 생성하도록 구성되고,
    상기 신호 처리기(630)는 상기 하이 패스 주파수 도메인 오디오 신호 또는 상기 로우 패스 오디오 신호(662)에 연관되는 서브밴드 도메인 밴드패스 신호를 변조하도록 구성되고,
    상기 결합기(640)는 상기 하이 패스 주파수 도메인 오디오 신호에 상응하는 상기 서브밴드 도메인 밴드패스 신호를 결합하여 상기 시간 도메인 오디오 신호(642)를 얻거나 상기 하이 패스 주파수 도메인 오디오 신호에 상응하는 상기 서브밴드 도메인 밴드패스 신호와 상기 로우 패스 오디오 신호(662)에 상응하는 상기 서브밴드 도메인 밴드패스 신호를 결합하여 상기 시간 도메인 오디오 신호(642)를 얻도록 구성되는 장치.
  10. 제1항에 있어서, 상기 장치는,
    상기 시간 도메인 입력 오디오 신호 또는 상기 시간 도메인 입력 오디오 신호를 나타내는 상기 주파수 도메인 오디오 신호를 하이 패스 필터하도록 구성되는 하이 패스 및 로우 패스 필터(660)를 포함하여, 상기 인벨롭 섀이프 결정기(610)는 하이 패스 주파수 도메인 오디오 신호에 기초하여 상기 인벨롭 섀이프 코이피션트(612)를 결정하고 및 상기 필터뱅크 처리기(620)는 상기 하이 패스 주파수 도메인 오디오 신호에 기초하여 서브밴드 도메인에서 상기 복수의 밴드패스 신호(622)를 생성하고,
    상기 하이 패스 및 로우 패스 필터(660)는 상기 시간 도메인 입력 오디오 신호 또는 상기 시간 도메인 입력 오디오 신호를 나타내는 상기 주파수 도메인 오디오 신호를 로우 패스 필터하도록 구성되고,
    상기 결합기(640)는 상기 변조된 서브밴드 도메인 밴드패스 신호와 로우 패스 오디오 신호를 갖는 상기 복수의 서브밴드 도메인 밴드패스 신호를 결합하여 시간 도메인 오디오 신호(642)를 얻거나 또는 풀밴드 신호 제공기(670)가 상기 섀이프된 오디오 신호(652)와 상기 로우 패스 오디오 신호를 결합하여 풀밴드 오디오 신호를 얻도록 구성되는 장치.
  11. 제1항에 있어서, 상기 장치는,
    펀더멘털 결정기 및 오버톤 결정기를 포함하고,
    상기 펀더멘털 결정기는 상기 복수의 서브밴드 도메인 밴드패스 신호의 서브밴드 도메인 밴드패스 신호(622)를 선택하여 펀더멘털 밴드패스 신호를 얻도록 구성되고,
    상기 오버톤 결정기는 상기 선택된 펀더멘털 밴드패스 신호에 대한 오버톤 기준을 충족하는 상기 복수의 서브밴드 도메인 밴드패스 신호의 서브밴드 도메인 밴드패스 신호(622)를 식별하여 상기 선택된 펀더멘털 밴드패스 신호에 연관되는 오버톤 밴드패스 신호를 얻도록 구성되고,
    상기 신호 처리기(630)는 미리 정의된 변조 타겟에 기초하여 상기 선택된 펀더멘털 밴드패스 신호를 변조하도록 구성되고 및 상기 선택된 펀더멘털 밴드패스 신호의 변조에 따라 상기 선택된 펀더멘털 밴드패스 신호에 연관되는 상기 식별된 오버톤 밴드패스 신호를 변조하도록 구성되는 장치.
  12. 제11항에 있어서,
    각각의 서브밴드 도메인 밴드패스 신호(622)는 반송파 주파수를 포함하고,
    상기 오버톤 결정기는 상기 복수의 서브밴드 도메인 밴드패스 신호의 서브밴드 도메인 밴드패스 신호(622)의 상기 반송파 주파수를 상기 선택된 펀더멘털 밴드패스 신호의 상기 반송파 주파수와 비교하도록 구성되고,
    상기 서브밴드 도메인 밴드패스 신호(622)의 상기 반송파 주파수가 미리 정의된 반송파 주파수 허용 오차를 갖는 상기 선택된 펀더멘털 밴드패스 신호의 상기 반송파 주파수에 배수일(multiple) 경우에 오버톤 기준이 충족되는 장치.
  13. 오디오 신호를 변조하는 방법(1100)에 있어서,
    시간 도메인 입력 오디오 신호를 나타내는 주파수 도메인 오디오 신호에 기초하여 인벨롭 섀이프 코이피션트를 결정하는 단계(1110);
    상기 주파수 도메인 오디오 신호에 기초하여 서브밴드 도메인에서 복수의 밴드패스 신호를 생성하는 단계(1120);
    미리 정의된 변조 타겟에 기초하여 복수의 서브밴드 도메인 밴드패스 신호의 서브밴드 도메인 밴드패스 신호를 변조하는 단계(1130);
    상기 복수의 서브밴드 도메인 밴드패스 신호의 적어도 하나의 서브세트를 결합하여 시간 도메인 오디오 신호를 얻는 단계(1140); 및
    서브밴드 도메인 밴드패스 신호가 신호 처리기에 의해 변조되기 전에 상기 인벨롭 섀이프 코이피션트에 기초하여 상기 복수의 서브밴드 도메인 밴드패스 신호의 인벨롭을 섀이핑하여 섀이프된 오디오 신호를 얻거나, 상기 인벨롭 섀이프 코이피션트에 기초하여 상기 시간 도메인 오디오 신호의 인벨롭을 섀이핑하거나, 또는 상기 인벨롭 섀이프 코이피션트에 기초하여 상기 변조된 서브밴드 도메인 밴드패스 신호를 갖는 상기 복수의 서브밴드 도메인 밴드패스 신호의 인벨롭을 섀이핑하는 단계(1150);
    를 포함하고,
    상기 인벨롭 섀이프 코이피션트(612)는 상기 주파수 도메인 오디오 신호(602)의 주파수의 예측에 기초하여 결정되는 방법(1100).
  14. 컴퓨터 프로그램을 기록하는 컴퓨터 판독 가능 기록매체에 있어서, 상기 컴퓨터 프로그램이 디지털 신호 처리기, 컴퓨터 또는 마이크로 컨트롤러를 구동하는 경우에 제13항에 따른 상기 방법을 수행하는 프로그램 코드를 갖는 컴퓨터 프로그램을 기록하는 컴퓨터 판독 가능 기록매체.
  15. 삭제
KR1020127024901A 2010-02-26 2011-02-25 인벨롭 섀이핑을 사용하는 오디오 신호를 변조하는 방법 및 장치 KR101494062B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US30851310P 2010-02-26 2010-02-26
US61/308,513 2010-02-26
EP10175302A EP2362376A3 (en) 2010-02-26 2010-09-03 Apparatus and method for modifying an audio signal using envelope shaping
EP10175302.8 2010-09-03
PCT/EP2011/052838 WO2011104356A2 (en) 2010-02-26 2011-02-25 Apparatus and method for modifying an audio signal using envelope shaping

Publications (2)

Publication Number Publication Date
KR20130010118A KR20130010118A (ko) 2013-01-25
KR101494062B1 true KR101494062B1 (ko) 2015-03-03

Family

ID=44041608

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020127023952A KR101492702B1 (ko) 2010-02-26 2011-02-25 하모닉 로킹을 이용하여 오디오 신호를 변조하는 장치 및 방법
KR1020127024901A KR101494062B1 (ko) 2010-02-26 2011-02-25 인벨롭 섀이핑을 사용하는 오디오 신호를 변조하는 방법 및 장치

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020127023952A KR101492702B1 (ko) 2010-02-26 2011-02-25 하모닉 로킹을 이용하여 오디오 신호를 변조하는 장치 및 방법

Country Status (19)

Country Link
US (2) US9203367B2 (ko)
EP (4) EP2362376A3 (ko)
JP (2) JP5592959B2 (ko)
KR (2) KR101492702B1 (ko)
CN (2) CN102870153B (ko)
AR (2) AR080319A1 (ko)
AU (2) AU2011219778B2 (ko)
BR (2) BR112012021370A2 (ko)
CA (2) CA2790651C (ko)
ES (2) ES2484718T3 (ko)
HK (2) HK1180443A1 (ko)
MX (2) MX2012009776A (ko)
MY (2) MY161212A (ko)
PL (2) PL2539886T3 (ko)
RU (2) RU2591733C2 (ko)
SG (2) SG183464A1 (ko)
TW (2) TWI470618B (ko)
WO (2) WO2011104356A2 (ko)
ZA (2) ZA201207111B (ko)

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050120870A1 (en) * 1998-05-15 2005-06-09 Ludwig Lester F. Envelope-controlled dynamic layering of audio signal processing and synthesis for music applications
US8099476B2 (en) 2008-12-31 2012-01-17 Apple Inc. Updatable real-time or near real-time streaming
GB201105502D0 (en) 2010-04-01 2011-05-18 Apple Inc Real time or near real time streaming
US8805963B2 (en) 2010-04-01 2014-08-12 Apple Inc. Real-time or near real-time streaming
GB2479455B (en) 2010-04-07 2014-03-05 Apple Inc Real-time or near real-time streaming
US8856283B2 (en) 2011-06-03 2014-10-07 Apple Inc. Playlists for real-time or near real-time streaming
US8843586B2 (en) 2011-06-03 2014-09-23 Apple Inc. Playlists for real-time or near real-time streaming
CN102543091B (zh) * 2011-12-29 2014-12-24 深圳万兴信息科技股份有限公司 一种模拟音效的生成系统及方法
US9712127B2 (en) 2012-01-11 2017-07-18 Richard Aylward Intelligent method and apparatus for spectral expansion of an input signal
CN107452392B (zh) 2013-01-08 2020-09-01 杜比国际公司 临界采样滤波器组中的基于模型的预测
MX348916B (es) * 2013-01-29 2017-07-04 Fraunhofer Ges Forschung Codificadores de audio, decodificadores de audio, sistemas, métodos y programas de computación que utilizan una resolución temporal aumentada en la proximidad temporal de activaciones y desactivaciones de fricativos o africados.
CN105122357B (zh) 2013-01-29 2019-04-23 弗劳恩霍夫应用研究促进协会 频域中基于lpc进行编码的低频增强
US20150003633A1 (en) * 2013-03-21 2015-01-01 Max Sound Corporation Max sound audio program
US9520140B2 (en) * 2013-04-10 2016-12-13 Dolby Laboratories Licensing Corporation Speech dereverberation methods, devices and systems
CN108198564B (zh) * 2013-07-01 2021-02-26 华为技术有限公司 信号编码和解码方法以及设备
EP2830058A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Frequency-domain audio coding supporting transform length switching
US9697843B2 (en) * 2014-04-30 2017-07-04 Qualcomm Incorporated High band excitation signal generation
AU2014204540B1 (en) * 2014-07-21 2015-08-20 Matthew Brown Audio Signal Processing Methods and Systems
US9391649B2 (en) * 2014-11-17 2016-07-12 Microsoft Technology Licensing, Llc Envelope shaping in envelope tracking power amplification
GB2581032B (en) * 2015-06-22 2020-11-04 Time Machine Capital Ltd System and method for onset detection in a digital signal
BE1023229B1 (nl) * 2015-06-30 2017-01-05 Van Den Broeck Bram Stemmen van een trommel
CN105118523A (zh) * 2015-07-13 2015-12-02 努比亚技术有限公司 音频处理方法和装置
US10262677B2 (en) * 2015-09-02 2019-04-16 The University Of Rochester Systems and methods for removing reverberation from audio signals
JP6705142B2 (ja) * 2015-09-17 2020-06-03 ヤマハ株式会社 音質判定装置及びプログラム
US9654181B1 (en) * 2015-12-14 2017-05-16 Nxp B.V. Dynamic transmitter signal envelope shaping control for NFC or RFID devices
CN105750145B (zh) * 2016-03-26 2018-06-01 上海大学 能综合展现音乐频域时域特性的音乐喷泉的实现方法
EP3246923A1 (en) * 2016-05-20 2017-11-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing a multichannel audio signal
JP6754243B2 (ja) * 2016-08-05 2020-09-09 株式会社コルグ 楽音評価装置
CN111183476B (zh) * 2017-10-06 2024-03-22 索尼欧洲有限公司 基于子窗口序列内的rms功率的音频文件包络
CN108269579B (zh) * 2018-01-18 2020-11-10 厦门美图之家科技有限公司 语音数据处理方法、装置、电子设备及可读存储介质
US10950253B2 (en) 2018-02-09 2021-03-16 Board Of Regents, The University Of Texas System Vocal feedback device and method of use
US11017787B2 (en) * 2018-02-09 2021-05-25 Board Of Regents, The University Of Texas System Self-adjusting fundamental frequency accentuation subsystem for natural ear device
US10186247B1 (en) * 2018-03-13 2019-01-22 The Nielsen Company (Us), Llc Methods and apparatus to extract a pitch-independent timbre attribute from a media signal
JP2019164107A (ja) * 2018-03-20 2019-09-26 本田技研工業株式会社 異音判定装置および判定方法
US11122354B2 (en) * 2018-05-22 2021-09-14 Staton Techiya, Llc Hearing sensitivity acquisition methods and devices
EP3576088A1 (en) * 2018-05-30 2019-12-04 Fraunhofer Gesellschaft zur Förderung der Angewand Audio similarity evaluator, audio encoder, methods and computer program
CN109683142B (zh) * 2018-12-04 2020-06-09 郑州轻工业大学 基于差分包络检波的三角线性调频连续信号参数估计方法
EP3671741A1 (en) 2018-12-21 2020-06-24 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Audio processor and method for generating a frequency-enhanced audio signal using pulse processing
GB2596169B (en) * 2020-02-11 2022-04-27 Tymphany Acoustic Tech Ltd A method and an audio processing unit for detecting a tone
JP7475988B2 (ja) * 2020-06-26 2024-04-30 ローランド株式会社 効果装置および効果処理プログラム
CN112908347A (zh) * 2021-02-25 2021-06-04 益阳市信维声学科技有限公司 一种杂音检测方法及终端
CN113362837B (zh) * 2021-07-28 2024-05-14 腾讯音乐娱乐科技(深圳)有限公司 一种音频信号处理方法、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07219597A (ja) * 1994-01-31 1995-08-18 Matsushita Electric Ind Co Ltd ピッチ変換装置
JP2008026565A (ja) * 2006-07-20 2008-02-07 Fujitsu Ltd ピッチ変換方法及び装置

Family Cites Families (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5251151A (en) * 1988-05-27 1993-10-05 Research Foundation Of State Univ. Of N.Y. Method and apparatus for diagnosing the state of a machine
JP2990777B2 (ja) * 1990-09-28 1999-12-13 ヤマハ株式会社 電子楽器の効果装置
US5536902A (en) * 1993-04-14 1996-07-16 Yamaha Corporation Method of and apparatus for analyzing and synthesizing a sound by extracting and controlling a sound parameter
JP2713102B2 (ja) * 1993-05-28 1998-02-16 カシオ計算機株式会社 音信号ピッチ抽出装置
KR19980013991A (ko) * 1996-08-06 1998-05-15 김광호 음성 줌신호 강조회로
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
ID29029A (id) * 1998-10-29 2001-07-26 Smith Paul Reed Guitars Ltd Metode untuk menemukan fundamental dengan cepat
RU2155387C1 (ru) * 1998-12-10 2000-08-27 Общество с ограниченной ответственностью "Институт ноосферного естествознания" Музыкальный синтезатор (варианты)
SE9903553D0 (sv) * 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
US20020172376A1 (en) * 1999-11-29 2002-11-21 Bizjak Karl M. Output processing system and method
AUPQ952700A0 (en) * 2000-08-21 2000-09-14 University Of Melbourne, The Sound-processing strategy for cochlear implants
JP4245114B2 (ja) * 2000-12-22 2009-03-25 ローランド株式会社 音色制御装置
JP3862061B2 (ja) * 2001-05-25 2006-12-27 ヤマハ株式会社 楽音再生装置および楽音再生方法ならびに携帯端末装置
US6825775B2 (en) * 2001-08-01 2004-11-30 Radiodetection Limited Method and system for reducing interference
US20050190199A1 (en) * 2001-12-21 2005-09-01 Hartwell Brown Apparatus and method for identifying and simultaneously displaying images of musical notes in music and producing the music
US20030187663A1 (en) 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
JP3797283B2 (ja) * 2002-06-18 2006-07-12 ヤマハ株式会社 演奏音制御方法及び装置
JP3938015B2 (ja) * 2002-11-19 2007-06-27 ヤマハ株式会社 音声再生装置
US7567900B2 (en) * 2003-06-11 2009-07-28 Panasonic Corporation Harmonic structure based acoustic speech interval detection method and device
US7062414B2 (en) * 2003-07-18 2006-06-13 Metrotech Corporation Method and apparatus for digital detection of electromagnetic signal strength and signal direction in metallic pipes and cables
US8023673B2 (en) * 2004-09-28 2011-09-20 Hearworks Pty. Limited Pitch perception in an auditory prosthesis
DE102004021403A1 (de) * 2004-04-30 2005-11-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Informationssignalverarbeitung durch Modifikation in der Spektral-/Modulationsspektralbereichsdarstellung
US8204261B2 (en) * 2004-10-20 2012-06-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Diffuse sound shaping for BCC schemes and the like
US8036394B1 (en) * 2005-02-28 2011-10-11 Texas Instruments Incorporated Audio bandwidth expansion
WO2006108543A1 (en) * 2005-04-15 2006-10-19 Coding Technologies Ab Temporal envelope shaping of decorrelated signal
US7872962B1 (en) * 2005-10-18 2011-01-18 Marvell International Ltd. System and method for producing weighted signals in a diversity communication system
CN101297356B (zh) * 2005-11-04 2011-11-09 诺基亚公司 用于音频压缩的方法和设备
JP2007193156A (ja) * 2006-01-20 2007-08-02 Yamaha Corp 調律装置付電子楽器
CN101405792B (zh) 2006-03-20 2012-09-05 法国电信公司 用于在音频解码器中对信号进行后处理的方法
JP4630980B2 (ja) * 2006-09-04 2011-02-09 独立行政法人産業技術総合研究所 音高推定装置、音高推定方法およびプログラム
US8392198B1 (en) * 2007-04-03 2013-03-05 Arizona Board Of Regents For And On Behalf Of Arizona State University Split-band speech compression based on loudness estimation
US8428957B2 (en) * 2007-08-24 2013-04-23 Qualcomm Incorporated Spectral noise shaping in audio coding based on spectral dynamics in frequency sub-bands
JP5228432B2 (ja) * 2007-10-10 2013-07-03 ヤマハ株式会社 素片検索装置およびプログラム
US8498667B2 (en) 2007-11-21 2013-07-30 Qualcomm Incorporated System and method for mixing audio with ringtone data
DE102008013172B4 (de) * 2008-03-07 2010-07-08 Neubäcker, Peter Verfahren zur klangobjektorientierten Analyse und zur notenobjektorientierten Bearbeitung polyphoner Klangaufnahmen
CN102881294B (zh) * 2008-03-10 2014-12-10 弗劳恩霍夫应用研究促进协会 操纵具有瞬变事件的音频信号的方法和设备
ES2796493T3 (es) * 2008-03-20 2020-11-27 Fraunhofer Ges Forschung Aparato y método para convertir una señal de audio en una representación parametrizada, aparato y método para modificar una representación parametrizada, aparato y método para sintetizar una representación parametrizada de una señal de audio
JP4983694B2 (ja) * 2008-03-31 2012-07-25 株式会社Jvcケンウッド 音声再生装置
EP2109328B1 (en) * 2008-04-09 2014-10-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for processing an audio signal
JP5366104B2 (ja) * 2008-06-26 2013-12-11 オランジュ マルチチャネル・オーディオ信号の空間合成
ATE522901T1 (de) * 2008-07-11 2011-09-15 Fraunhofer Ges Forschung Vorrichtung und verfahren zur berechnung von bandbreitenerweiterungsdaten mit hilfe eines spektralneigungs-steuerungsrahmens
WO2010003539A1 (en) * 2008-07-11 2010-01-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal synthesizer and audio signal encoder
CN102342132B (zh) * 2009-01-20 2015-04-01 Med-El电气医疗器械有限公司 生成植入电极阵列的电极刺激信号的方法及耳蜗植入系统
EP2239732A1 (en) * 2009-04-09 2010-10-13 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for generating a synthesis audio signal and for encoding an audio signal
US8538042B2 (en) * 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
US8321215B2 (en) * 2009-11-23 2012-11-27 Cambridge Silicon Radio Limited Method and apparatus for improving intelligibility of audible speech represented by a speech signal
RU2586846C2 (ru) * 2010-03-09 2016-06-10 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Устройство и способ обработки входного звукового сигнала с помощью каскадированного банка фильтров
WO2011141772A1 (en) * 2010-05-12 2011-11-17 Nokia Corporation Method and apparatus for processing an audio signal based on an estimated loudness
WO2012033942A2 (en) * 2010-09-10 2012-03-15 Dts, Inc. Dynamic compensation of audio signals for improved perceived spectral imbalances
JP5747562B2 (ja) * 2010-10-28 2015-07-15 ヤマハ株式会社 音響処理装置
JP5758774B2 (ja) * 2011-10-28 2015-08-05 ローランド株式会社 効果装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07219597A (ja) * 1994-01-31 1995-08-18 Matsushita Electric Ind Co Ltd ピッチ変換装置
JP2008026565A (ja) * 2006-07-20 2008-02-07 Fujitsu Ltd ピッチ変換方法及び装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
thesis(MULTIBAND PERCEPTUAL MODULATION ANALYSIS, PROCESSING AND SYNTHESIS OF AUDIO SIGNALS, 2009) *
thesis(MULTIBAND PERCEPTUAL MODULATION ANALYSIS, PROCESSING AND SYNTHESIS OF AUDIO SIGNALS, 2009)*

Also Published As

Publication number Publication date
KR20120128140A (ko) 2012-11-26
US20130182862A1 (en) 2013-07-18
RU2012140707A (ru) 2014-05-27
PL2539886T3 (pl) 2015-01-30
SG183461A1 (en) 2012-09-27
RU2591732C2 (ru) 2016-07-20
EP2362376A3 (en) 2011-11-02
WO2011104354A1 (en) 2011-09-01
TWI470618B (zh) 2015-01-21
AU2011219780B2 (en) 2013-12-05
CN102870153B (zh) 2014-11-05
KR101492702B1 (ko) 2015-02-11
TW201142815A (en) 2011-12-01
CA2790650A1 (en) 2011-09-01
CN102859579B (zh) 2014-10-01
MX2012009776A (es) 2012-09-07
EP2539885B1 (en) 2014-07-02
JP2013520698A (ja) 2013-06-06
CA2790650C (en) 2015-11-24
MY161212A (en) 2017-04-14
CA2790651C (en) 2015-11-24
AU2011219780A1 (en) 2012-10-18
BR112012021370A2 (pt) 2023-04-11
BR112012021540A8 (pt) 2018-07-03
KR20130010118A (ko) 2013-01-25
RU2591733C2 (ru) 2016-07-20
US9203367B2 (en) 2015-12-01
ES2523800T3 (es) 2014-12-01
SG183464A1 (en) 2012-09-27
TW201205555A (en) 2012-02-01
AU2011219778B2 (en) 2013-12-05
EP2539885A1 (en) 2013-01-02
EP2539886B1 (en) 2014-08-13
JP5592959B2 (ja) 2014-09-17
EP2362375A1 (en) 2011-08-31
AR080319A1 (es) 2012-03-28
CA2790651A1 (en) 2011-09-01
PL2539885T3 (pl) 2014-12-31
HK1180444A1 (en) 2013-10-18
US20130216053A1 (en) 2013-08-22
ZA201207112B (en) 2013-05-29
JP2013520697A (ja) 2013-06-06
ZA201207111B (en) 2013-05-29
BR112012021540A2 (pt) 2017-07-04
WO2011104356A3 (en) 2012-06-07
TWI456566B (zh) 2014-10-11
MX2012009787A (es) 2012-09-12
BR112012021540B1 (pt) 2021-07-27
JP5655098B2 (ja) 2015-01-14
CN102859579A (zh) 2013-01-02
MY154205A (en) 2015-05-15
HK1180443A1 (en) 2013-10-18
ES2484718T3 (es) 2014-08-12
WO2011104356A2 (en) 2011-09-01
US9264003B2 (en) 2016-02-16
RU2012140725A (ru) 2014-04-10
AR080320A1 (es) 2012-03-28
AU2011219778A1 (en) 2012-10-18
CN102870153A (zh) 2013-01-09
EP2539886A2 (en) 2013-01-02
EP2362376A2 (en) 2011-08-31

Similar Documents

Publication Publication Date Title
KR101494062B1 (ko) 인벨롭 섀이핑을 사용하는 오디오 신호를 변조하는 방법 및 장치
JP2011514562A (ja) オーディオ信号をパラメータ化された表現に変換するための装置および方法、パラメータ化された表現を修正するための装置および方法、オーディオ信号のパラメータ化された表現を合成するための装置および方法
Disch et al. An enhanced modulation vocoder for selective transposition of pitch
Bartkowiak et al. Hybrid sinusoidal modeling of music with near transparent audio quality
Disch et al. Frequency selective pitch transposition of audio signals
JP2023530262A (ja) オーディオ移調
Huber Harmonic audio object processing in frequency domain

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20180131

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20190207

Year of fee payment: 5