KR20180050652A - 음향 신호를 사운드 객체들로 분해하는 방법 및 시스템, 사운드 객체 및 그 사용 - Google Patents

음향 신호를 사운드 객체들로 분해하는 방법 및 시스템, 사운드 객체 및 그 사용 Download PDF

Info

Publication number
KR20180050652A
KR20180050652A KR1020187004905A KR20187004905A KR20180050652A KR 20180050652 A KR20180050652 A KR 20180050652A KR 1020187004905 A KR1020187004905 A KR 1020187004905A KR 20187004905 A KR20187004905 A KR 20187004905A KR 20180050652 A KR20180050652 A KR 20180050652A
Authority
KR
South Korea
Prior art keywords
frequency
signal
objects
sound
digital
Prior art date
Application number
KR1020187004905A
Other languages
English (en)
Inventor
아담 플루타
Original Assignee
사운드오브젝트 테크놀로지스 에스.에이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 사운드오브젝트 테크놀로지스 에스.에이 filed Critical 사운드오브젝트 테크놀로지스 에스.에이
Publication of KR20180050652A publication Critical patent/KR20180050652A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/02Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos
    • G10H1/06Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/056Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction or identification of individual instrumental parts, e.g. melody, chords, bass; Identification or separation of instrumental parts by their characteristic voices or timbres
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/066Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for pitch analysis as part of wider processing for musical purposes, e.g. transcription, musical performance evaluation; Pitch recognition, e.g. in polyphonic sounds; Estimation or use of missing fundamental
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/121Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
    • G10H2240/145Sound library, i.e. involving the specific use of a musical database as a sound bank or wavetable; indexing, interfacing, protocols or processing therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/055Filters for musical processing or musical effects; Filter responses, filter architecture, filter coefficients or control parameters therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • G10L2025/906Pitch tracking

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Stereophonic System (AREA)
  • Auxiliary Devices For Music (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

본 발명의 목적은 음향 신호를, 천천히 변하는 진폭 및 주파수를 갖는 신호 형태를 갖는 사운드 객체들로 분해하기 위한 방법 및 시스템, 및 사운드 객체 및 그 사용이다. 상기 목적은, 음향 신호를 디지털 음향 객체들로 분해하는 방법으로서, 디지털 음향 객체는 상기 음향 신호의 성분을 나타내고, 상기 성분은 파형을 포함하고, 상기 방법은, 아날로그 음향 신호를 디지털 입력 신호(PIN)로 변환하는 단계; 디지털 필터 뱅크를 사용하여 상기 디지털 입력 신호의 순시 주파수 성분을 결정하는 단계; 상기 순시 주파수 성분의 순시 진폭을 결정하는 단계; 상기 순시 주파수와 관련된 상기 디지털 입력 신호의 순시 위상을 결정하는 단계; 상기 결정된 순시 주파수, 위상 및 진폭에 기초하여 적어도 하나의 디지털 사운드 객체를 생성하는 단계; 및 상기 디지털 사운드 객체를 사운드 객체 데이터베이스에 저장하는 단계를 포함하는, 상기 음향 신호를 디지털 사운드 객체들로 분해하는 방법에 의해 달성된다.

Description

음향 신호를 사운드 객체들로 분해하는 방법 및 시스템, 사운드 객체 및 그 사용
본 발명의 목적은 음향 신호(acoustic signal)를, 천천히 변하는 진폭 및 주파수를 갖는 신호들의 형태를 갖는 사운드 객체(sound object)들로 분해하는 방법 및 시스템, 사운드 객체 및 그 사용이다. 본 발명은 음향 신호들을 분석 및 합성하는 분야에 적용 가능하고, 예를 들어, 특히 스피치 신호(speech signal)를 합성하는데 적용 가능하다.
수 십여 년 동안, 사운드 신호들을 분석하는데 있어서의 진전은 미미하였다. 신경망(neural network), 웨이브릿(wavelet) 분석 또는 퍼지 논리(fuzzy logic)와 같이 여전히 잘 알려진 방법들이 사용되고 있다. 이들 방법 외에, 비교적 낮은 연산 능력(computational power)을 사용하여 성분들의 주파수를 분석할 수 있는, 신호를 필터링하는 고전적 고속 푸리에 변환(Fast Fourier Transform: FFT) 알고리즘을 사용하는 것이 오히려 널리 사용되고 있다.
가장 어려운 분야들 중 하나이지만, 또한 사운드 신호들을 분석하는데 있어서 가장 큰 관심이 있는 분야는 스피치를 분석하고 합성하는 것이다.
디지털 기술의 발전에 거대한 진전이 관찰되었음에도 불구하고, 이 분야에서 사운드 신호 처리 시스템에서의 진전은 미미하다. 지난 수 년 동안, 스피치를 인식하는 것과 관련된 틈새 시장(niche)을 채우기 위해 시도된 다수의 응용이 출현했지만 그 공통적인 기원(주로 푸리에 변환을 사용하여 주파수 도메인에서 분석하는 것)과 이와 관련된 제한 사항으로 인해 이들 응용은 시장의 요구에 반응하지 못한다.
이들 시스템의 주된 단점은 다음과 같다:
1) 외부 간섭에 대한 취약성
기존의 사운드 분석 시스템은 신호 소스가 하나인 것을 보장하는 조건에서 만족스럽게 동작한다. 다수의 악기의 간섭, 주변 소리 또는 공명 음과 같은 추가적인 사운드 소스들이 나타나면 그 스펙트럼들이 오버랩되어 적용되는 수학적 모델들이 실패하게 된다.
2) 스펙트럼 파라미터들의 상대적 변화
현재 사용되는 사운드 신호의 파라미터들을 계산하는 방법들은 푸리에 변환에서 유래한다. 이 푸리에 변환은 분석되는 주파수들이 선형적으로 변화한다고 가정하는데, 이는 2개의 인접한 주파수의 상대적 변화가 일정하지 않다는 것을 의미한다. 예를 들어, 44100개의 샘플/초(sample per second: SPS)의 율(rate)로 샘플링된 신호의 1024 (210)개의 데이터의 윈도우(window)를 FFT 알고리즘을 사용하여 분석하는 경우 스펙트럼의 후속 주파수들은 43.07 Hz만큼 다르다. 제1 비-제로(non-zero) 주파수는 F1 = 43.07 Hz이고 그 다음 주파수는 F2 = 86.13 Hz이다. 마지막 주파수들은 F510 = 21963.9 Hz, F511 = 22 006,9 Hz이다. 이 범위의 시작 부분에서 스펙트럼 주파수의 상대적 변화는 100%이며, 더 가까이 있는 소리들을 식별할 가능성이 남아 있지 않다. 이 범위의 종료 부분에서 스펙트럼 파라미터의 상대적 변화는 0.0019%이며, 인간의 청각(ear)으로는 검출할 수가 없다.
3) 스펙트럼 진폭 특성들로 파라미터들의 제한
푸리에 변환에 기반한 알고리즘들은 분석을 위해 진폭 특성, 및 특히 스펙트럼의 진폭의 최대값을 사용한다. 사운드들의 상이한 주파수들이 서로 가까이 있는 경우 이 파라미터는 크게 왜곡된다. 이 경우, 신호의 위상을 분석하여 위상 특성으로부터 추가적인 정보를 얻을 수 있다. 그러나, 스펙트럼이, 예를 들어, 256개의 샘플만큼 시프트(shift)된 윈도우에서 분석되기 때문에, 계산된 위상과 관련된 것이 없다.
이 문제는 특허 문헌 US5214708에 설명된 스피치 정보 추출 시스템에 의해 부분적으로 해결되었다. 이 특허 문헌은 인간의 청각 인식 모델(human ear perception model)에 따라 서로에 대해 로그 함수적으로(logarithmically) 이격된 중심 주파수들을 갖는 필터들의 뱅크(bank)를 개시한다. 이들 필터 뱅크들 중 임의의 필터 뱅크의 대역(band) 내에는 단 하나의 톤(tone)만이 존재한다고 가정하기 때문에, 신호 처리 분야에서 불확정성 원리(uncertainty principle)의 문제는 부분적으로 회피되었다. 특허 문헌 US5214708에 개시된 해법에 따르면, 주파수 및 시간-도메인 파형 정보를 포함하는 각 고조파(harmonics)에 대한 변조에 관한 정보는 각 고조파의 전력의 로그(logarithm)의 측정값에 기초하여 추출될 수 있다. 인접한 필터들에서 신호의 진폭의 로그는 가우시안(Gaussian) 필터들 및 로그 증폭기(logarithmic amplifier)들을 사용하여 획득된다. 그러나 이 해법의 단점은 스피치를 분석하는데 사용된 함수 FM(t)가 단일 스피치 신호의 본질적인 특성 파라미터들을 효과적으로 추출하지 못한다는 것이다. 이 해법의 그 다음으로 훨씬 더 상당한 단점은 오디오 신호가 단 하나의 소스로부터 오는 신호만을 포함한다고 가정하는 것이고, 이러한 단순화는 분해하는데 이러한 시스템을 사용하는 상당한 실용 가능성을 감소시킨다.
한편, 여러 소스로부터 오는 오디오 신호를 분해하는 상기 문제에 대해 여러 해법이 제안되었다. 박사 논문 "Mod
Figure pct00001
lisation sinuso
Figure pct00002
dale des sons polyphoniques" (Mathieu Lagrange, L'Universit
Figure pct00003
Bordeaux, 16 December 2004, pages 1- 220)로부터, 음향 신호를, 천천히 변하는 진폭 및 주파수를 갖는 정현파 형태를 갖는 사운드 객체들로 분해하는 데 적합한 방법 및 시스템이 알려져 있는데, 상기 방법은 단기(short term) 신호 모델의 파라미터들을 결정하는 단계 및 상기 단기 파라미터들에 기초하여 장기(long term) 신호 모델의 파라미터들을 결정하는 단계를 포함하고, 단기 신호 모델의 파라미터들을 결정하는 단계는 아날로그 음향 신호를 디지털 입력 신호로 변환하는 단계를 포함한다. 단기 신호 모델을 결정하는 단계는 주파수 성분의 존재를 먼저 검출한 후, 그 진폭, 주파수 및 위상 파라미터들을 추정하는 단계를 포함한다. 상기 장기 신호 모델을 결정하는 단계는 연속적인 검출된 성분들을, 성분 파라미터들을 전개하는 예측 가능한 성질을 고려하는 상이한 알고리즘들을 사용하여, 사운드들, 즉 사운드 객체들로 그룹화하는 단계를 포함한다. 유사한 개념은 또한 비르타넨(Virtanen) 등의 "Separation of harmonic sound sources using sinusoidal modeling" (IEEE International Conference on Acoustic, Speech, and signal Processing 2000, ICASSP '00.5-9 June 2000, Piscataway, NJ USA, IEEE, vol. 2, 5 June 2000, pages 765-768)에, 및 테로 톨로넨(Tero Tolonen)의 "Methods for Separation of Harmonic sound Sources using Sinusoidal Modeling" (106th Convention AES, 8 May 1999)에 설명되어 있다. 인용된 모든 문헌은 주파수 성분들을 결정하고 추정할 수 있는 수 개의 상이한 방법을 언급한다. 그러나, 이 비-특허 문헌은 그 내에 사용된 푸리에 변환 처리에 의해 야기되는 몇 가지 단점을 갖는 분해 방법 및 시스템을 개시하는데, 특히 연속적인 방식으로 위상을 분석하는 것을 허용하지 않는다. 더욱이, 이 알려진 방법들은 간단한 수학적 연산에 의해 매우 정확한 방식으로 주파수 성분들을 결정하는 것을 허용하지 않는다.
본 발명의 목적은, 시간 및 주파수에서 매우 우수한 해상도를 유지하면서, 다수의 소스로부터 동시에 들어오는 신호로서 인식되는 음향 신호를 효과적으로 분석할 수 있는, 음향 신호를 분해하는 방법 및 시스템을 제공하는 것이다. 보다 일반적으로, 본 발명의 목적은 스피치를 분석하고 합성하는 시스템을 포함하여 사운드 신호를 처리하는 시스템의 가능성을 향상시키고 그 신뢰성을 개선시키는 것이다.
본 목적은 독립 청구항에 따른 방법 및 장치에 의해 달성된다. 유리한 실시예들은 종속 청구항에 한정된다.
본 발명에 따르면, 음향 신호를, 천천히 변하는 진폭 및 주파수를 갖는 정현파 형태를 갖는 상기 음향 신호의 서브신호(subsignal)들을 기술하는 파라미터 세트들로 분해하는 방법은 단기 신호 모델의 파라미터들을 결정하는 단계, 및 상기 단기 파라미터들에 기초하여 장기 신호 모델의 파라미터들을 결정하는 단계를 포함할 수 있고, 단기 신호 모델의 파라미터들을 결정하는 단계는 아날로그 음향 신호를 디지털 입력 신호(PIN)로 변환하는 단계를 포함하고, 상기 단기 신호 모델의 파라미터들을 결정하는 단계에서, 상기 입력 신호(PIN)는 상기 음향 신호의 샘플들을 디지털 필터 뱅크의 입력으로 공급함으로써 로그 스케일(logarithmic scale)에 따라 분포된 중심 주파수들을 갖는 인접한 서브-대역(sub-band)들로 분할되고, 각 디지털 필터는 상기 중심 주파수에 비례하는 윈도우 길이를 갖고,
- 각 필터(20)의 출력에서, 상기 필터링된 신호의 실수 값 FC(n) 및 허수 값 FS(n)은 샘플마다 결정되고, 이것에 기초하여,
- 상기 음향 신호의 모든 검출된 구성 요소들의 순시 주파수, 진폭 및 위상이 샘플마다 결정되고,
- 상기 필터링된 신호의 주파수-도메인 해상도를 개선하는 동작은 샘플마다 수행되고, 각 연속적인 필터(20)의 각주파수(angular frequency) 값과 실질적으로 유사한 각주파수 값을 출력하는 이웃하는 필터(20)들의 수를 반영하는 수학적 연산으로부터 초래되는 함수 FG(n)의 최대값들에 기초하여 모든 검출된 성분 요소의 주파수를 결정하는 단계를 적어도 포함하고,
상기 장기 신호 모델의 파라미터들을 결정하는 단계에서,
- 상기 음향 신호의 각 검출된 요소에 대해, 활성 객체 데이터베이스(active object database)(34) 내에 활성 객체가 그 추적을 위해 생성되고,
- 상기 음향 신호의 후속 검출된 요소들은, 새로운 활성 객체를 생성하거나 또는 상기 검출된 요소를 활성 객체에 부가하거나 또는 활성 객체를 폐쇄하기 위해 상기 활성 객체 데이터베이스(34) 내의 적어도 선택된 활성 객체들과 샘플마다 관련되고,
- 상기 데이터베이스(34) 내 각 활성 객체에 대해, 진폭의 포락선(envelope)의 값들 및 주파수의 값들 및 그 대응하는 시간 순간(time instant)들이 상기 사운드 객체의 천천히 변하는 정현파 파형을 기술하는 특성 포인트(characteristic point)들을 생성하기 위해 주어진 필터(20)의 윈도우의 지속시간(duration)(W(n))의 주기(period)마다 한번 이상 종종 결정되고,
- 적어도 하나의 선택된 폐쇄된 활성 객체는 시간-주파수-진폭 공간에서의 좌표들을 갖는 특성 포인트들의 세트에 의해 한정된 적어도 하나의 분해된 사운드 객체를 얻기 위해 사운드 객체들의 데이터베이스(35)로 전송되는 것을 특징으로 한다.
본 발명의 추가적인 양태에 따르면, 또한 음향 신호를, 천천히 변하는 진폭 및 주파수를 갖는 정현파 파형의 형태를 갖는 사운드 객체들로 분해하기 위한 시스템은, 단기 신호 모델의 파라미터들을 결정하기 위한 서브시스템(subsystem), 및 상기 파라미터들에 기초하여 장기 신호 모델의 파라미터들을 결정하기 위한 서브시스템을 포함하고, 상기 단기 파라미터들을 결정하기 위한 서브시스템은 아날로그 음향 신호를 디지털 입력 신호(PIN)로 변환하기 위한 변환기 시스템을 포함하고, 상기 단기 파라미터들을 결정하기 위한 서브시스템은 로그 분포(logarithmic distribution)에 따라 분포된 필터 중심 주파수들을 갖는 필터 뱅크(20)를 더 포함하고, 각 디지털 필터는 상기 중심 주파수에 비례하는 윈도우 길이를 갖고, 각 필터(20)는 상기 필터링된 신호의 실수 값 FC(n) 및 허수 값 FS(n)을 결정하도록 적응되며, 상기 필터 뱅크(2)는 객체들을 추적하기 위한 시스템(3)에 연결되고, 상기 객체들을 추적하기 위한 시스템(3)은 상기 입력 신호(PIN)의 모든 성분 요소를 검출하도록 적응된 스펙트럼 분석 시스템(31), 및 각 연속적인 필터(20)의 각주파수 값과 실질적으로 유사한 각주파수 값을 출력하는 이웃하는 필터(20)들의 수를 반영하는 수학적 연산으로부터 초래되는 함수 FG(n)의 최대값들에 기초하여 모든 검출된 성분 요소의 주파수를 결정하도록 적응된 투표 시스템(voting system)(32)을 포함하고, 상기 장기 파라미터들을 결정하기 위한 서브시스템은, 객체들을 관련시키기 위한 시스템(33), 천천히 변하는 정현파 파형을 기술하는 특성 포인트들을 결정하도록 적응된 형상 성형 시스템(shape forming system)(37), 활성 객체 데이터베이스(34) 및 사운드 객체 데이터베이스(35)를 포함하는 것을 특징으로 한다.
본 발명의 또 다른 양태에 따르면, 천천히 변하는 진폭 및 주파수를 갖는 신호를 나타내는 사운드 객체는 전술된 방법에 의해 획득될 수 있다.
또한, 본 발명의 핵심은, 천천히 변하는 진폭 및 주파수를 갖는 신호를 나타내는 사운드 객체가 시간-진폭-주파수 공간에서의 3개의 좌표를 갖는 특성 포인트들에 의해 한정될 수 있고, 각 특성 포인트는, 시간 도메인에서 그 다음 특성 포인트로부터, 객체의 주파수에 할당된 필터(20)의 윈도우의 지속시간(W(n))에 비례하는 값만큼 떨어져 있다는 것이다.
본 발명에 따른 신호를 분해하는 방법 및 시스템의 주요 장점은 보통 수 개의 상이한 소스, 예를 들어, 다수의 다양한 악기 또는 다수의 말하는 사람 또는 노래하는 사람으로부터 들어오는 신호들로 구성된 실제 음향 신호를 효과적으로 분석하는데 적합하다는 것이다.
본 발명에 따른 방법 및 시스템은 사운드 신호를, 천천히 변하는 진폭 및 주파수를 갖는 정현파 성분들로 분해할 수 있게 한다. 이러한 프로세스는 사운드 신호의 벡터화라고 지칭될 수 있으며, 여기서 벡터화 프로세스의 결과로서 계산된 벡터들은 사운드 객체들이라고 지칭될 수 있다. 본 발명에 따른 방법 및 시스템에서, 분해하는 기본 목적은, 먼저 모든 신호의 성분(사운드 객체)들을 추출하고, 그 다음에 성분들을 결정된 기준에 따라 그룹화한 다음, 이 성분들 안에 포함된 정보를 결정하는 것이다.
본 발명에 따른 방법 및 시스템에서, 신호는 샘플마다 시간 도메인 및 주파수 도메인 모두에서 분석된다. 물론 이것은 연산 능력에 대한 요구를 증가시킨다. 이미 언급된 바와 같이, 고속 변환 FFT 및 SFT로 구현된 푸리에 변환을 포함하여 지금까지 적용된 기술은 컴퓨터의 연산 능력이 높지 않았던 과거에는 매우 중요한 역할을 하였다. 그러나 지난 20년 동안 컴퓨터의 연산 능력은 100000배 증가하였다. 그리하여, 본 발명은 보다 힘들지만 개선된 정확도를 제공하고 사람의 청각 모델(hearing model)에 더 적합한 도구에 도달한다.
로그 함수적으로 이격된 중심 주파수들을 갖는 매우 많은 수의 (가청 대역에서 300개 이상의) 필터를 갖는 필터 뱅크를 사용하는 것으로 인해 및 주파수-도메인 해상도를 증가시키는 동작을 적용하는 것으로 인해, 심지어 해프톤(half a tone)만큼 서로 분리된 두 개의 동시적인 사운드 소스를 추출할 수 있는 시스템을 획득할 수 있다.
상기 필터 뱅크의 출력에서 획득된 오디오 신호의 스펙트럼은 사운드 객체의 신호의 변화 및 현재 위치에 관한 정보를 포함한다. 본 발명에 따른 시스템 및 방법의 과제는 이들 파라미터의 변화를 기존의 객체들과 정확히 관련시키고, 상기 파라미터들이 상기 기존의 객체들 중 어느 객체에도 맞지 않으면 새로운 객체를 생성하고, 또는 상기 새로운 객체에 대해 추가적인 파라미터들이 없는 경우 객체를 종료하는 것이다.
기존의 사운드 객체들과 관련되도록 의도된 오디오 신호의 파라미터들을 정확히 결정하기 위해, 고려되는 필터의 수를 증가시키고, 투표 시스템을 사용하면, 존재하는 사운드들의 주파수들을 보다 정확히 위치 파악(localize)할 수 있다. 가까운 주파수들이 나타나면, 예를 들어, 주파수-도메인 해상도를 개선시키기 위해 상기 필터들의 길이를 증가시키고, 또는 새로이 나타나는 사운드 객체들을 더 잘 추출하기 위해 이미 인식된 사운드들을 억압하는 기법들이 적용된다.
요점은 본 발명에 따른 방법 및 시스템이 시간적으로 변하는 주파수를 갖는 객체들을 추적한다는 것이다. 이는 상기 시스템이 실제 현상을 분석하여, 새로운 주파수를 갖는 객체를, 이미 존재하는 객체로서 식별하거나 또는 동일한 신호 소스와 관련된 동일한 그룹에 속하는 객체로서 올바르게 식별한다는 것을 의미한다. 진폭 및 주파수 도메인에서 객체들의 파라미터들을 정확히 위치 파악하면 객체들을 그룹화하여 그 소스를 식별할 수 있다. 기본 주파수와 그 고조파들 간의 특정 관계를 사용하는 것으로 인해 객체들을 주어진 그룹으로 할당하여 사운드의 음색(timbre)을 결정할 수 있다.
객체들을 정확히 분리함으로써, 이미 존재하는 시스템에 의해, 간섭 없이, 객체들의 각 그룹을 추가적으로 분석할 수 있는 기회를 제공하여, (간섭 없는) 깨끗한 신호에 대해 양호한 결과를 획득할 수 있다. 신호에 존재하는 사운드 객체들에 관한 정확한 정보를 보유함으로써, 예를 들어, 오디오 신호로부터 개별 악기들의 음악 표기법(musical notation)을 자동으로 생성하거나 또는 주변 간섭이 심한 경우에도 장치를 음성으로 제어하는 것과 같은 완전히 새로운 응용에 이 사운드 객체들을 사용할 수 있다.
본 발명은 첨부 도면을 참조하여 일 실시예로서 도시되었다.
도 1은 오디오 신호를 사운드 객체들로 분해하기 위한 시스템의 블록도이고,
도 2a는 본 발명의 제1 실시예에 따른 필터 뱅크의 병렬 구조이며,
도 2b는 본 발명의 제2 실시예에 따른 필터 뱅크의 트리 구조이고, 도 2c는 피아노의 톤 스펙트럼(tone spectrum)을 도시하고, 도 2d는 48개의 필터/옥타브(octave)를 사용하는 필터 구조, 즉 각 세미톤(semitone: 반음)마다 4개의 필터를 사용하는 필터 구조의 일례를 도시하며,
도 3은 수동 필터 뱅크 시스템의 동작의 일반적인 원리를 도시하고,
도 4는 필터들의 예시적인 파라미터들을 도시하며,
도 5는 블랙맨(Blackman) 윈도우를 갖는 필터 F(n)의 임펄스 응답이고,
도 6은 단일 필터의 흐름도이며,
도 7a 및 도 7c는 실수 성분 FC(n), 허수 성분 FS(n) 및 스펙트럼 FA(n)의 결과적인 진폭 및 위상 FF(n)을 포함하는 필터 뱅크 출력 신호의 스펙트럼의 일부를 도시하고,
도 7b 및 도 7d는 대응하는 필터 그룹의 공칭 각주파수 F#(n) 및 스펙트럼 FQ(n)의 각주파수를 도시하며,
도 8은 사운드 객체들을 추적하기 위한 시스템의 블록도이고, 도 8a는 4개의 개별 주파수 성분 사이의 관계 및 이 성분들의 합을 도시하며, 도 8b는 4개의 상이한 주파수 성분(톤)을 갖는 신호의 또 다른 예를 도시하고,
도 9a 및 도 9b는 투표 시스템의 동작의 예시적인 결과를 도시하며, 도 9c는 본 발명의 일 실시예에 따른 스펙트럼 분석 시스템(31)에 의해 계산되고 분석된 순시 값을 나타내고,
도 10은 객체들을 관련시키기 위한 사운드 시스템의 흐름도이며, 도 10a는 본 발명의 일 실시예에 따른 요소 검출 및 객체 생성 프로세스를 도시하고, 도 10b는 본 발명의 일 실시예에 따른 매칭 함수(matching function)를 적용한 것을 도시하며,
도 11은 일 실시예에 따른 주파수 해상도 개선 시스템의 동작을 도시하고,
도 12는 다른 실시예에 따른 주파수 해상도 개선 시스템의 동작을 도시하며, 도 12a는 도 7c에 따른 신호의 스펙트럼을 도시하고, 도 12b는 잘 국지화된 객체(284 및 312)들의 결정된 파라미터들을 도시하며, 도 12c는 잘 국지화된 객체들의 스펙트럼을 도시하고, 도 12d는 잘 국지화된 객체들의 계산된 스펙트럼과 신호 스펙트럼 사이의 차이를 도시하며, 도 12e는 차동 스펙트럼에 위치된 객체(276 및 304)들의 결정된 파라미터들을 도시하고,
도 13은 또 다른 실시예에 따른 주파수 해상도 개선 시스템의 동작을 도시하며,
도 14a, 도 14b, 도 14c 및 도 14d는 사운드 객체들의 표현 예들을 도시하고, 도 14e는 본 발명의 일 실시예에 따른 오디오 신호의 다중-레벨 설명의 일례를 도시하며,
도 15는 사운드 객체들에 관한 정보의 표기법의 예시적인 포맷을 도시하고, 도 15a는, 2개의 주파수(파선)로 구성된 오디오 신호, 및 보정 없이, 분해하여 획득된 신호를 도시하며,
도 16은 보정이 필요한 사운드 객체의 제1 예를 도시하고,
도 17은 보정이 필요한 사운드 객체의 제2 예를 도시하며,
도 18a 내지 도 18c는 보정이 필요한 사운드 객체들의 추가적인 예를 도시하고, 도 18d는, 2개의 주파수(파선)로 구성된 오디오 신호, 및 보정 시스템을 사용하여 분해하여 획득된 신호를 도시하며,
도 19a, 도 19b, 도 19c, 도 19d, 도 19e, 도 19f, 도 19g, 도 19h는 오디오 신호로부터 사운드 객체들을 추출하고 사운드 객체들로부터 오디오 신호를 합성하는 프로세스를 도시한다.
본 특허 출원 명세서에서, 임의의 두 시스템 사이의 연결과 관련하여 "연결된"이라는 용어는 임의의 가능한 단일 경로 또는 다중 경로뿐만 아니라 직접 또는 간접 물리적 연결 또는 동작 가능한 연결로서 가능한 가장 넓은 의미로 이해되어야 한다.
본 발명에 따라 음향 신호를 사운드 객체들로 분해하기 위한 시스템(1)이 도 1에 개략적으로 도시되어 있다. 디지털 형태의 오디오 신호가 그 입력에 공급된다. 상기 오디오 신호의 디지털 형태는 통상적인 알려진 A/D 변환 기법을 적용한 결과로 얻어진다. 음향 신호를 아날로그 형태에서부터 디지털 형태로 변환하는 데 사용된 요소들은 여기에 도시되지 않았다. 시스템(1)은 객체들을 추적하기 위한 시스템(3)에 연결된 출력을 갖는 필터 뱅크(2)를 포함하고, 이 객체들을 추적하기 위한 시스템은 보정 시스템(correcting system)(4)에 더 연결된다. 객체들을 추적하기 위한 시스템(3)과 필터 뱅크 사이에는 필터 뱅크(2)의 파라미터들을 제어하는데 사용되는 피드백 연결이 존재한다. 나아가, 객체들을 추적하기 위한 시스템(3)은 도 8의 주파수 해상도 개선 시스템(36)과 일체 성분인 차동 시스템(differential system)(5)을 통해 필터 뱅크(2)의 입력에 연결된다.
음향 신호로부터 사운드 객체들을 추출하기 위해, 시간-도메인 및 주파수-도메인에서 신호 분석이 사용되었다. 상기 디지털 입력 신호는 샘플마다 필터 뱅크(2)에 입력된다. 바람직하게는, 상기 필터들은 SOI 필터이다. 도 2a는 필터 뱅크(2)의 통상적인 구조를 도시하며, 이 필터 뱅크에서 개별 필터(20)들은 주어진 샘플링 율(sampling rate)로 동일한 신호를 병렬로 처리한다. 통상적으로 샘플링 율은 예상되는 가장 높은 오디오 신호의 성분보다 적어도 2배 더 높은데, 바람직하게는 44.1 kHz이다. 1초당 처리되는 이러한 샘플의 수는 많은 연산 비용을 필요로 하기 때문에, 바람직하게는 도 2b의 필터 뱅크 트리 구조가 사용될 수 있다. 필터 뱅크 트리 구조(2)에서, 필터(20)들은 입력 신호 샘플링 율에 따라 그룹화된다. 예를 들어, 트리 구조로 분할하는 것은 먼저 전체 옥타브들마다 수행될 수 있다. 더 낮은 주파수를 갖는 개별 서브-대역들에 대해서는, 저역-통과 필터를 사용하여 고주파 성분들을 차단하고 더 작은 율로 이 고주파 성분들을 샘플링할 수 있다. 그 결과, 샘플의 수가 감소되는 것으로 인해 처리 속도에 현저한 증가가 달성된다. 바람직하게는 최대 300 Hz의 간격(interval)에서 신호는 fp=600 Hz로 샘플링되고, 최대 2.5 kHz에서는 fp=5 kHz로 샘플링된다.
본 발명에 따른 방법 및 시스템의 주요 과제는 스펙트럼에서 모든 사운드 객체를 위치 파악하는 것이기 때문에, 중요한 문제는 신호의 파라미터들을 결정하는 가능한 정확도 및 동시에 출현하는 사운드들의 해상도이다. 필터 뱅크는 고주파수-도메인 해상도, 즉 세미톤당 2개를 초과하는 개수의 필터를 제공하여, 두 개의 인접한 세미톤을 분리할 수 있게 한다. 제시된 예에서 세미톤당 4개의 필터가 사용된다.
바람직하게는, 본 발명에 따른 방법 및 시스템에서, 인간의 청각적 파라미터들에 대응하는 스케일이 로그 분포를 갖도록 채택되었지만, 이 기술 분야에 통상의 지식을 가진 자라면, 필터들의 중심 주파수들의 다른 분포들도 본 발명의 범위 내에서 가능하다는 것을 인식할 수 있을 것이다. 바람직하게는, 필터들의 중심 주파수들의 분포 패턴은 음계(musical scale)이며, 여기서 후속 옥타브들은 이전 옥타브보다 2배 더 높은 톤으로 시작한다. 각 옥타브는 12개의 세미톤으로 분할되고, 즉, 두 개의 인접한 세미톤의 주파수는 5.94%(예를 들어, e1=329.62 Hz, f1=349.20 Hz)만큼 다르다. 정확도를 증가시키기 위해, 본 발명에 따른 방법 및 시스템에서는 각 세미톤마다 4개의 필터가 존재하며, 각 필터는 인접한 주파수와 1,45%만큼 상이한 자기 고유의 주파수를 청취한다. 가장 낮은 가청 주파수는 C2=16,35 Hz라고 가정되었다. 바람직하게는, 필터의 수는 300개보다 더 많다. 주어진 실시예에서 필터의 특정 개수는 샘플링 율에 의존한다. 초당 22050개의 샘플을 샘플링하는 경우 가장 높은 주파수는 e6 = 10548 Hz이며, 450개의 필터가 이 범위에 있다. 초당 44100개의 샘플을 샘플링하는 경우에 가장 높은 주파수는 e7 = 21096 Hz이며, 498개의 필터가 이 범위에 있다.
수동 필터 뱅크의 동작의 일반적인 원리는 도 3에 도시된다. 필터 뱅크(2)의 각 필터(20)에 공급되는 입력 신호는 관련 수학적 연산의 결과로서 시간 도메인에서부터 주파수 도메인으로 변환된다. 실제로, 여기 신호(excitation signal)에 대한 응답이 각 필터(20)의 출력에 나타나고, 신호의 스펙트럼이 필터 뱅크의 출력에 함께 나타난다.
도 4는 필터 뱅크(2)에서 선택된 필터(20)들의 예시적인 파라미터들을 도시한다. 테이블(table)에서 볼 수 있는 바와 같이, 중심 주파수들은 특정 음표 기호가 기인될 수 있는 톤에 대응한다. 각 필터(20)의 윈도우 폭은 다음 관계식에 의해 주어진다:
W(n) = K * fp / FN(n) (1)
여기서: W(n) - 필터(n)의 윈도우 폭
fp - 샘플링 율(예를 들어, 44100 Hz)
FN(n) - 필터(n)의 공칭 (중심) 주파수
K - 윈도우 폭 계수(예를 들어, 16)
더 높은 주파수-도메인 해상도는 음계의 더 낮은 범위에서 필요하기 때문에, 이 주파수 범위에서 필터 윈도우들은 가장 넓다. 계수(K)를 도입하고 필터 공칭 주파수(FN)를 정규화하는 것에 의해, 모든 필터에 동일한 진폭 및 위상 특성이 제공된다.
상기 필터 뱅크를 구현하는 것과 관련하여, 이 기술 분야에 통상의 지식을 가진 자라면, SOI형 대역-통과 필터의 계수들을 획득하는 가능한 방법들 중 하나의 방법은 필터의 임펄스 응답을 결정하는 것임을 알 수 있을 것이다. 본 발명에 따른 필터(20)의 예시적인 임펄스 응답은 도 5에 도시된다. 도 5에서 임펄스 응답은 코사인(cosine) 윈도우를 갖는 필터의 임펄스 응답이며, 이는 다음 관계식에 의해 한정된다:
y(i)(n) = cos(ω(n)*i)*(A-B*cos(2πi/W(n))+C*cos(4πi/W(n)) (2)
여기서: ω(n) = 2π*FN(n)/fp
W(n), FN(n), fp - 는 위에서 한정된 바와 같다
Figure pct00004
각 필터(20)에 의해 수행되는 동작들은 도 6에 도시되어 있다. 필터 뱅크(2)의 과제는 사람이 들을 수 있는 최소 가청 주파수(예를 들어, C2=16.35 Hz)로부터 1/2 fp - 샘플링 율(예를 들어, 초당 44100개의 샘플에서 e7=21096 Hz)에 이르는 주파수 범위에서 오디오 신호의 주파수 스펙트럼을 결정할 수 있게 하는 것이다. 각 필터가 그 동작을 시작하기 전에, 필터(20)의 파라미터들이 개시되고, 예시적인 파라미터들은 시간 윈도우 함수의 특정 성분들의 계수들이다. 그 다음, 실수 값만을 갖는 입력 신호의 현재 샘플(PIN)이 필터 뱅크(2)의 입력으로 공급된다. 각 필터(2)는, 재귀 알고리즘(recursive algorithm)을 사용하여, 실수 성분 FC(n) 및 허수 성분 FS(n)의 이전의 값들에 기초하여 성분 FC(n) 및 성분 FS(n)들의 새로운 값을 계산하고, 또한 필터에 입력된 샘플(PIN)의 값들 및 필터의 윈도우를 떠나는 샘플(POUT)의 값을 계산하고, 이 값은 내부 시프트 레지스터(internal shift register)에 저장된다. 재귀 알고리즘을 사용하는 것으로 인해 각 필터마다 계산의 수는 일정하고 필터의 윈도우 길이에 의존하지 않는다. 코사인 윈도우에 실행되는 동작은 다음 공식으로 한정된다:
Figure pct00005
수식 (3) 및 수식 (4)에 삼각 함수들의 곱들에 관한 삼각 함수 수식을 사용함으로써, 도 6에 도시된 수식에 따라, 오디오 신호의 이전의 샘플에 대한 이들 성분의 값들, 및 필터에 입력된 샘플(PIN)의 값, 및 필터로부터 출력된 샘플(POUT)의 값에 대한 성분 FC(n) 및 성분 FS(n)들의 의존성을 얻는다. 각 필터(20)의 경우, 각 후속 샘플마다 수식을 계산하는 것은 핸(Hann) 또는 해밍(Hamming) 유형의 윈도우에 대해서는 15번의 곱셈 및 17번의 덧셈을 필요로 하고, 또는 블랙맨 윈도우에 대해서는 25번의 곱셈 및 24번의 덧셈을 필요로 한다. 필터(20)의 처리는 필터의 입력에 더 이상 오디오 신호 샘플이 없을 때 완료된다.
입력 신호의 각 후속 샘플 후에 얻어진 샘플의 실수 성분 FC(n) 및 허수 성분 FS(n)의 값들은 각 필터(20)의 출력으로부터 사운드 객체들을 추적하기 위한 시스템(3)으로 전달되고, 특히 (도 8에 도시된 바와 같이) 이 시스템 내에 포함된 스펙트럼 분석 시스템(31)으로 전달된다. 입력 신호의 각 샘플 후에 필터 뱅크(2)의 스펙트럼이 계산되기 때문에, 진폭 특성을 제외하고 스펙트럼 분석 시스템(31)은 필터 뱅크(2)의 출력에서 위상 특성을 이용할 수 있다. 특히, 본 발명에 따른 방법 및 시스템에서, 스펙트럼에 존재하는 주파수들을 정확히 분리하는데 이전의 샘플의 위상에 대해 출력 신호의 현재 샘플의 위상의 변화가 사용되며, 이는 도 7a, 도 7b, 도 7c 및 도 7d, 및 도 8을 참조하여 더 설명된다.
객체들을 추적하기 위한 시스템(3)의 성분인 스펙트럼 분석 시스템(31)(도 8에 도시됨)은 필터 뱅크 출력에서 신호의 스펙트럼의 개별 성분들을 계산한다. 이 시스템의 동작을 설명하기 위해 다음 성분들을 갖는 음향 신호가 분석되었다.
Figure pct00006
도 7a 및 도 7b는, 상기 신호에 대해 선택된 그룹의 필터(20)의 출력에서 얻어진 순시 수량 값들 및 스펙트럼 분석 시스템(31)에 의해 계산되고 분석된 수량 값들을 도시한다. 윈도우 폭 계수 K=16을 갖는 윈도우를 갖고 266 내지 336에 이르는 번호(n)를 갖는 필터에 대해, 실수 성분 FC[n]의 순시 값, 허수 성분 FS[n]의 순시 값(이들 값은 스펙트럼 분석 시스템(31)의 입력에 공급됨), 및 스펙트럼의 진폭 FA[n] 및 스펙트럼의 위상 FF[n]의 순시 값들(이들은 스펙트럼 분석 시스템(31)에 의해 계산됨)이 표시되어 있다. 이미 언급된 바와 같이, 스펙트럼 분석 시스템(31)은 각주파수에 관한 정보를 포함하여 신호의 주어진 시간 순간에 존재하는 사운드 객체들의 실제 주파수를 결정하는데 필요한 모든 가능한 정보를 수집한다. 성분 주파수들의 톤의 정확한 위치는 도 7b에 도시되어 있고, 이 정확한 위치는, 특정 필터(n)의 출력에서의 스펙트럼의 위상을 미분하여 계산된, 필터 FΩ[n]들의 출력에서의 각주파수의 값과, 필터 FQ[n]들의 공칭 각주파수의 교차점에 있다. 따라서, 본 발명에 따르면, 사운드 객체를 검출하기 위해, 스펙트럼 분석 시스템(31)은 또한 각주파수 F#[n] 및 FQ[n]의 플롯을 분석한다. 서로 떨어져 있는 성분들을 포함하는 신호의 경우, 각주파수를 분석한 결과 결정되는 포인트들은 도 7a의 진폭의 최대값들의 위치들에 대응한다.
신호 처리 도메인에서 일부 통상적인 현상으로 인해, 스펙트럼의 진폭의 최대값에만 기초하는 것은 효과적이지 못하다. 입력 신호에 주어진 톤이 존재하는 것은 인접한 주파수들에서 진폭 스펙트럼의 값에 영향을 미쳐서, 신호가 서로 가까운 두 개의 톤을 포함할 때, 심하게 왜곡된 스펙트럼을 초래한다. 이 현상을 설명하고 본 발명에 따른 스펙트럼 분석 시스템(31)의 기능을 설명하기 위해, 주파수들의 사운드들을 포함하는 신호가 또한 분석되었다:
Figure pct00007
도 7c 및 도 7d에 도시된 바와 같이, 가까이 위치된 성분들을 포함하는 신호의 경우, 각주파수 플롯을 분석하는 것에 기초하여 결정된 톤의 정확한 위치는 도 7c의 최대 진폭에 대응하지 않는다. 따라서, 이러한 경우에, 스펙트럼 분석 시스템(31)에 의해 분석된 다양한 파라미터로 인해, 음향 신호를 분해하는데 중요한 상황들을 검출하는 것이 가능하다. 그 결과, 성분들을 올바르게 인식할 수 있게 하는 특정 절차를 적용하는 것이 가능하며, 이는 도 8 및 도 9a 및 도 9b를 참조하여 더 설명될 것이다.
도 8에 블록도로 도시된, 객체들을 추적하기 위한 시스템(3)의 기본적인 과제는 주어진 시간 순간에 입력 신호에 존재하는 모든 주파수 성분들을 검출하는 것이다. 도 7b 및 도 7d에 도시된 바와 같이, 입력 톤에 인접한 필터들은 이들 필터의 공칭 각주파수들과는 상이한, 매우 유사한 각주파수들을 갖는다. 이 속성은 객체들을 추적하기 위한 시스템(3)의 다른 서브시스템, 즉 투표 시스템(32)에 의해 사용된다. 주파수 성분들이 부정확하게 검출되는 것을 방지하기 위해, 스펙트럼 분석 시스템(31)에 의해 계산된, 필터 FQ(n)들의 출력에서의 각주파수 및 진폭 스펙트럼 FA(n)의 값들은 이들의 가중된 값을 계산하고 필터의 수(n)의 함수로 그 최대값들을 검출하기 위해 투표 시스템(32)으로 전달된다. 이러한 방식으로, 필터(2)의 출력에서 주어진 주파수에 대해 입력 신호에 존재하는 주파수들을 결정하기 위해 이 주파수에 인접한 모든 필터(20)의 출력들에서의 주파수를 고려하는 투표 시스템을 얻을 수 있다. 이 시스템의 동작은 도 9a 및 도 9b에 도시되어 있다. 도 9a는 도 7a 및 도 7b에 도시된 관련 경우를 도시하는 반면, 도 9b는 도 7c 및 도 7d에 도시된 관련 경우를 도시한다. 볼 수 있는 바와 같이, 신호 FG(n)(투표 시스템(32)에 의해 계산된 가중된 값)의 플롯은 입력 신호에 존재하는 주파수 성분들의 톤들에 대응하는 위치들에서 뚜렷한 피크(distinct peak)들을 갖는다. (도 9a에 도시된 바와 같이) 서로 뚜렷이 분리된 성분들을 포함하는 입력 신호의 경우, 이 위치들은 스펙트럼의 진폭 FA(n)의 최대값에 대응한다. (도 9b에 도시된 바와 같이) 서로 너무 가까이 위치된 성분들을 포함하는 신호의 경우, 투표 시스템(32) 없이, 가중된 신호 FG(n)에서 언급된 피크들 이외의 장소에 위치된, 스펙트럼의 진폭의 최대값에서 반사된 톤들이 검출되었을 것이다.
다시 말해, 상기 '투표 시스템'은 '표(vote)들을 계산'하는 동작을 수행하는데, 즉 상기 '표'가 주어진 각주파수에 가까운 각주파수를 출력하는 것에 의해 '표'하는 특정 공칭 각주파수에서 각 필터(n)의 '표들'을 수집하는 동작을 수행한다. 상기 '표들'은 곡선 라인 FQ[n]으로 도시된다. 상기 투표 시스템(32)의 예시적인 구현은 특정 셀(cell) 하에서 수집된 특정 계산된 값들이 있는 레지스터일 수 있다. 연속적인 필터의 수, 즉 특정 값이 수집되어야 하는 레지스터 내 셀의 수는 특정 필터에 의해 출력된 특정 각주파수에 기초하여 결정될 것이며, 상기 출력된 각주파수는 레지스터에 대한 인덱스(index)이다. 이 기술 분야에 통상의 지식을 가진 자라면, 출력된 각주파수의 값이 거의 정수가 아니어서, 상기 인덱스는 특정 가정에 기초하여 결정되어야 한다는 것, 예를 들어, 상기 순간 각주파수의 값은 올림(round up)되거나 내림(round down)되어야 한다는 것을 알 수 있을 것이다. 다음으로, 결정된 인덱스 하에서 수집될 값은, 예를 들어, 상기 투표 필터에 의해 출력된 진폭에 1을 곱한 것과 같은 값이거나, 또는 상기 투표 필터에 의해 출력된 진폭에 가장 가까운 공칭 주파수를 곱한 것과 상기 출력된 각주파수 사이의 차이와 같은 값일 수 있다. 이러한 값들은 덧셈 또는 뺄셈 또는 곱셈에 의해 또는 투표 필터들의 수를 반영하는 임의의 다른 수학적 연산에 의해 레지스터의 연속적인 셀에서 수집될 수 있다. 이러한 방식으로, 투표 시스템(31)은 스펙트럼 분석 시스템으로부터 획득된 파라미터들에 기초하여 특정 공칭 주파수에 대해 '가중된 값'을 계산한다. '표들을 계산하는' 이 동작은 3개의 입력 값 세트, 즉 필터들의 공칭 각주파수들의 값들인 제1 입력 값 세트, 필터들의 순간 각주파수들의 값들인 제2 입력 값 세트, 및 각 필터에 대한 진폭 스펙트럼 FA(n)의 값들인 제3 입력 값 세트를 고려한다.
도 8에 도시된 바와 같이, 스펙트럼 분석 시스템(31) 및 투표 시스템(32)은 그 출력에서, 객체들을 관련시키기 위한 시스템(33)과 연결된다. 입력 신호를 구성하는 투표 시스템(32)에 의해 검출된 주파수들의 목록(list) 및 각 검출된 주파수와 관련된 진폭, 위상 및 각주파수와 같은 추가적인 파라미터들을 마음대로 갖는다면, 객체들을 관련시키기 위한 시스템(33)은 이들 파라미터를 "요소들"로 결합하고, 그 다음에 이들 요소로부터 사운드 객체들을 구축한다. 바람직하게는, 본 발명에 따른 시스템 및 방법에서, 투표 시스템(32)에 의해 검출된 주파수(각주파수) 및 이에 따라 "요소들"은 필터 번호(n)에 의해 식별된다. 객체들을 관련시키기 위한 시스템(33)은 활성 객체 데이터베이스(34)에 연결된다. 활성 객체 데이터베이스(34)는 주파수 값에 따라 순서대로 배열된 객체들을 포함하고, 상기 객체들은 아직 "종료"되지 않았다. "종료된 객체"라는 용어는, 주어진 시간 순간에 스펙트럼 분석 시스템(31) 및 투표 시스템(32)에 의해 검출된 요소 중 객체와 관련될 수 있는 요소가 없는 객체인 것으로 이해되어야 한다. 객체들을 관련시키기 위한 시스템(33)의 동작은 도 10에 도시되어 있다. 투표 시스템(32)에 의해 검출된 입력 신호의 후속 요소들은 데이터베이스(34) 내 선택된 활성 객체들과 관련된다. 요구되는 동작들의 수를 제한하기 위해, 바람직하게는, 주어진 주파수의 검출된 객체들은 미리 한정된 주파수 범위에 위치된 대응하는 활성 객체들과만 비교된다. 먼저, 비교하는 것은 활성 객체 및 요소의 각주파수를 고려한다. 상기 요소에 충분히 가까운 (예를 들어, 0.2 톤에 대응하는 주파수의 거리 범위 내에) 객체가 없다면, 이것은 새로운 객체가 출현했고 이 새로운 객체는 활성 객체(34)들에 추가되어야 한다는 것을 의미한다. 일단 현재 요소들과 객체들을 관련시키는 것이 완료되었다면, 활성 사운드 객체에 충분히 가까운 (예를 들어, 0.2 톤에 대응하는 주파수의 거리 범위 내에) 요소가 없다면, 이것은 객체에 대해 검출된 추가적인 파라미터가 없어서 이것이 종료되어야 하는 것을 의미한다. 상기 종료된 객체는 일시적인 간섭에 의해 야기되는 우발적인 종료를 피하기 위해 그 주파수의 1 주기 동안 여전히 관련 프로세스에서 고려된다. 이 시간 동안 이 종료된 객체는 데이터베이스(34)에서는 활성 사운드 객체들로 복귀될 수 있다. 1 주기 후에 객체의 최종 포인트가 결정된다. 객체가 충분히 긴 시간 동안 지속되었다면(예를 들어, 그 길이가 대응하는 윈도우의 폭 W[n]보다 더 짧지 않았다면), 이 객체는 사운드 객체 데이터베이스(35)로 전송된다.
활성 객체 및 충분히 가까운 객체를 서로 관련시키는 경우, 객체를 관련시키기 위한 시스템(33)에서 다음 가중된 값들, 즉 진폭 매칭, 위상 매칭, 객체의 지속 시간을 포함하는 매칭 함수가 더 계산된다. 본 발명에 따라 객체를 관련시키기 위한 시스템(33)의 이러한 기능은, 실제 입력 신호에서 하나의 동일한 소스로부터 오는 성분 신호의 주파수가 변한 상황에서 본질적으로 중요하다. 이것은 주파수가 변한 결과 다수의 활성 객체가 서로 더 가까워지는 일이 발생하기 때문이다. 그리하여, 매칭 기능을 계산한 후에, 객체들을 관련시키기 위한 시스템(33)은, 주어진 시간 순간에 데이터베이스(34)에 충분히 가까운 제2 객체가 존재하는지 여부를 검사한다. 시스템(33)은 어느 객체가 함께 결합되는 객체들에 연속된 것인지를 결정한다. 선택하는 것은 매칭 함수를 비교한 결과에 의해 결정된다. 가장 매칭된 활성 객체는 계속되고, 나머지 객체들에는 종료하라는 명령이 내려진다. 또한, 해상도 개선 시스템(36)은 활성 객체 데이터베이스(34)와 협력한다. 이 해상도 개선 시스템은 신호에 존재하는 객체들의 상호 주파수-도메인 거리를 추적한다. 활성 객체들의 주파수들이 너무 가까운 것으로 검출되면, 해상도 개선 시스템(36)은 3개의 프로세스 중 주파수-도메인 해상도를 개선하는 프로세스를 시작하기 위해 제어 신호를 송신한다. 앞서 언급된 바와 같이, 서로 가까이 있는 일부 주파수들이 존재하는 경우 이들의 스펙트럼은 오버랩된다. 이들을 구별하기 위해 이 시스템은 사운드를 "집중해서 청취해야" 한다. 이 시스템은 필터가 신호를 샘플링하는 윈도우를 길게 하여(elongating) 이것을 달성할 수 있다. 이 상황에서, 주어진 범위에서 윈도우가 길게 되어야 함을 필터 뱅크(2)에 알려주는 윈도우 조정 신호(301)가 활성화된다. 윈도우를 길게 하는 것으로 인해 신호의 역동성 분석(signal dynamics analysis)이 방해되어서, 가까이 있는 객체들이 검출되지 않으면 해상도 개선 시스템(36)은 그 다음에 필터(20)의 윈도우를 단축(shortening)시키는 것을 수행한다. 본 발명에 따른 해법에서, 필터(20)의 공칭 주파수의 12개 내지 24개의 주기 길이를 갖는 윈도우가 가정된다. 윈도우 폭과 주파수-도메인 해상도의 관계는 도 11에 도시된다. 아래 테이블은, 윈도우의 폭의 함수로서, 최소 거리를 퍼센트(%)로 표시해서, 이후 서로 이웃해 존재하는 적어도 4개의 손상되지 않은 객체를 검출하고 추적하기 위한 시스템의 기능을 보여준다.
Figure pct00008
다른 실시예에서 시스템은 도 12에 개략적으로 도시된 필터 뱅크의 스펙트럼을 수정(modify)함으로써 사운드를 "집중해서 청취한다". 주파수-도메인 해상도는, 추적 시스템(3)의 입력에서의 스펙트럼으로부터, 새로이 출현하는 객체들 근처에 국지화된 "잘 국지화된 객체들"의 예상된 스펙트럼을 감산하는 것에 의해 개선된다. "잘 국지화된 객체들"은, 너무 빠르게 변하지 않고 (윈도우의 폭마다 하나 이하의 극값을 갖는) 진폭, 및 너무 빠르게 드리프트하지 않는 (윈도우의 폭마다 주파수의 변동이 10% 이하인) 주파수를 갖는 객체들로서 고려된다. 더 빠르게 변하는 객체들의 스펙트럼을 감산하려고 시도하면, 측정 시스템의 입력에서 위상의 반전이 초래되고 양(positive)의 피드백이 초래되어 간섭 신호가 생성될 수 있다. 실제로, 해상도 개선 시스템(36)은 다음의 공식에 의해 객체의 알려진 순시 주파수, 진폭 및 위상에 기초하여 예상된 스펙트럼(303)을 계산한다:
FS(n) = FA(n)*exp(-(x-FX(n)) 2/2σ2(W(n)))*sin(FD(n)*(x-FX(n))+FF(n))
FC(n) = FA(n)*exp(-(x-FX(n)) 2/2σ2(W(n)))*cos(FD(n)*(x-FX(n))+FF(n))
여기서, σ는 윈도우의 폭의 함수이고, 윈도우의 폭 = 20일 때, σ2 = 10이며, 즉 알려진 순시 주파수에 기초하여 및 실제 스펙트럼으로부터 이들을 감산하여, 인접한 요소들의 스펙트럼이 너무 강하게 간섭하지 않게 한다. 스펙트럼 분석 시스템(31) 및 투표 시스템(32)은 인접한 요소들 및 감산된 객체의 변화만을 인식한다. 그러나, 객체를 관련시키기 위한 시스템(33)은 검출된 요소들을 활성 객체 데이터베이스(34)와 비교하는 동안 감산된 파라미터들을 더 고려한다. 유감스럽게도, 이 주파수-도메인 해상도 개선 방법을 구현하기 위해서는 매우 많은 수의 연산이 요구되고, 양(positive)의 피드백이 존재할 위험이 있다.
또 다른 실시예에서, 주파수-도메인 해상도는, 입력 신호로부터, (이전 실시예에서와 같이) 잘 국지화된 인접한 객체들에 기초하여 생성된 오디오 신호를 감산함으로써 개선될 수 있다. 이러한 동작은 도 13에 개략적으로 도시되어 있다. 실제로, 이것은, 해상도 개선 시스템(36)이, 도 13에 개략적으로 도시된 바와 같이, 필터 뱅크(2)의 입력에 있는 차동 시스템(5)으로 전달되는, 활성 객체(34)들의 주파수, 진폭 및 위상에 관한 정보에 기초하여 오디오 신호(302)를 생성한다는 사실에 의존한다. 이러한 유형의 동작에서 필요한 계산의 수는 도 12의 실시예의 경우에서보다 더 작으나, 필터 뱅크(2)에 의해 도입된 추가적인 지연으로 인해 시스템의 불안정성 및 의도하지 않은 생성의 위험이 증가한다. 유사하게, 이 경우에도 객체들을 관련시키기 위한 시스템(33)은 감산된 활성 객체들의 파라미터들을 고려한다. 설명된 메커니즘들로 인해, 본 발명에 따른 방법 및 시스템은 적어도 1/2 세미톤(즉, FN[n+1]/FN[n] = 102, 93%)의 주파수-도메인 해상도를 제공한다.
본 발명에 따르면, 활성 객체 데이터베이스(34)에 포함된 정보는 또한 형상 성형 시스템(37)에 의해서도 사용된다. 본 발명에 따라 사운드 신호를 분해한 것의 예상된 결과는 천천히 변하는 진폭 포락선 및 주파수를 갖는 정현파 파형의 형태를 갖는 사운드 객체들을 얻는 것이다. 그리하여, 형상 성형 시스템(37)은 데이터베이스(34)에서의 활성 객체들의 진폭 포락선 및 주파수의 변화를 추적하고, 진폭 및 주파수의 후속 특성 포인트들, 즉 국부 최대점, 국부 최소점 및 변곡점(inflection point)들을 온라인으로 계산한다. 이러한 정보는 정현파 파형들을 명확히 기술할 수 있다. 형상 성형 시스템(37)은 객체를 기술하는 포인트들의 형태로 이러한 특성 정보를 활성 객체 데이터베이스(34)에 온라인으로 전달한다. 결정될 포인트들 사이의 거리는 객체의 주파수의 20개 이상의 주기이어야 한다고 가정되었다. 주파수에 비례하는 포인트들 사이의 거리들은 객체들의 변화의 역동성을 효과적으로 나타낼 수 있다. 예시적인 사운드 객체들은 도 14a에 도시되어 있다. 이 도면은 시간의 함수(샘플 수)로서 변하는 주파수를 갖는 4개의 객체를 도시한다. 동일한 객체들이 진폭 및 시간(샘플 수)에 의해 한정된 공간에서 도 14b에 도시되어 있다. 도시된 포인트들은 진폭의 국부적인 최대값들 및 최소값들을 나타낸다. 이 포인트들은 3차 다항식(third order polynomial)들을 사용하여 계산된 평활한 곡선에 의해 연결된다. 주파수 변화 및 진폭 포락선의 함수를 결정하면 오디오 신호를 결정할 수 있다. 도 14c는 도 14a 및 도 14b에서 한정된 객체들의 형상에 기초하여 결정된 오디오 신호를 도시한다. 플롯들에 도시된 객체는 도 14d의 테이블의 형태로 기술되었고, 여기서, 각 객체에 대해, 제1 포인트, 마지막 포인트 및 국부적인 극값들을 포함하는 그 후속 특성 포인트들의 파라미터들이 기술된다. 각 포인트는 3개의 좌표, 즉 샘플 수로 표현된 시간 위치, 진폭 및 주파수를 갖는다. 이러한 포인트들의 세트는 천천히 변하는 정현파 파형을 명확히 기술한다.
도 14d의 테이블에 도시된 사운드 객체들의 설명은 정형화된 프로토콜(formalized protocol)의 형태로 기록될 수 있다. 이러한 표기법을 표준화하는 것에 의해 본 발명에 따른 사운드 객체들의 속성들을 사용하여 응용을 개발할 수 있다. 도 15는 사운드 객체들의 표기법의 예시적인 포맷을 도시한다.
1) 헤더: 이 표기법은 사운드 객체들의 설명을 취급하는 것을 알려주는 4 바이트 키워드를 포함하는 헤더 태그를 필수 요소로 갖는 헤더로 시작한다. 그 다음으로, 채널(트랙)의 수에 관한 정보가 2 바이트로 지정되고, 2 바이트의 시간 단위의 정의가 지정된다. 헤더는 파일의 시작 부분에서 한번만 발생한다.
2) 채널: 이 필드로부터 채널(트랙)에 관한 정보는 필수적인 관계에 있는 사운드 객체들의 그룹을 분리하는 역할을 하며, 예를 들어, 스테레오에서 좌측 채널 또는 우측 채널, 보컬 트랙, 타악기 트랙, 한정된 마이크로폰으로부터의 레코딩 등을 분리하는 역할을 한다. 채널 필드는 채널 식별자(번호), 채널 내 객체의 수, 및 한정된 단위들로 측정된 오디오 신호의 시작 부분으로부터의 채널의 위치를 포함한다.
3) 객체: 제1 바이트에 포함된 식별자는 객체의 유형을 결정한다. 식별자 "0"은 사운드 객체인 신호 레코드의 기본 단위를 나타낸다. 값 "1"은 기본 톤 및 그 고조파와 같은 객체들의 그룹을 포함하는 폴더를 나타낼 수 있다. 다른 값들은 객체들과 관련된 다른 요소들을 한정하는데 사용될 수 있다. 기본 사운드 객체의 설명은 포인트들의 수를 포함한다. 포인트들의 수는 제1 포인트를 포함하지 않고 이는 객체 자체에 의해 한정된다. 객체의 파라미터들에 최대 진폭을 지정하면 객체의 모든 포인트의 동시 증폭을 제어할 수 있다. 객체들의 폴더의 경우 이것은 폴더에 포함된 모든 객체의 진폭의 값에 영향을 준다. 유추하여, 주파수에 관한 정보(표기법을 적용하면, 필터 뱅크의 톤*4의 수 = 음표*16)를 지정하면 객체와 관련된 모든 요소의 주파수를 동시에 제어할 수 있다. 또한, 상위 레벨 요소(예를 들어, 채널)에 대해 객체의 시작 부분의 위치를 한정하면 객체를 시간적으로 시프트시킬 수 있다.
4) 포인트: 포인트들은 시간-주파수-진폭 도메인에서 사운드 객체의 형상을 기술하는 데 사용된다. 이 포인트들은 사운드 객체에 의해 한정된 파라미터들에 대한 상대 값을 갖는다. 진폭의 1 바이트는 포인트가 갖는 객체에 의해 한정된 최대 진폭 부분이 어느 부분인지를 한정한다. 유사하게, 톤 변화는 주파수가 변한 톤의 분율(fraction)에 의해 한정된다. 포인트의 위치는 객체 내 이전에 한정된 포인트에 대해 상대적으로 한정된다.
레코딩의 다중 레벨 구조와 필드들 사이의 상대적 관련성은 사운드 객체들에 매우 유연한 동작이 가능하게 하여, 이 사운드 객체들이 오디오 신호들을 설계하고 수정하는 데 효과적인 도구가 되게 한다.
본 발명에 따른 사운드 객체들에 관한 정보의 집약된 레코딩은, 도 15에 도시된 포맷으로, 등록되고 전송된 파일들의 크기에 긍정적인 영향을 크게 미친다. 오디오 파일이 이 포맷으로부터 쉽게 재생될 수 있는 것을 고려하면, 도 14c에 도시된 파일의 크기를 비교할 수 있는데, 이 파일의 크기는 .WAV 포맷으로 2000 바이트 이상을 포함할 수 있고, 본 발명에 따른 사운드 객체 레코드 "UH0"의 형태로 132 바이트를 포함할 수 있다. 이 경우 15배 더 우수한 압축이 탁월한 달성은 아니다. 오디오 신호들이 훨씬 더 긴 경우에 훨씬 더 좋은 결과를 달성할 수 있다. 압축 레벨은 오디오 신호에 포함되어 있는 정보의 양에 의존하는데, 즉 신호로부터 판독될 수 있는 객체들의 양 및 객체들이 구성된 방법에 의존한다.
오디오 신호에서 사운드 객체들을 식별하는 것은 명확한 수학적 변환이 아니다. 분해 결과로 얻어진 객체들을 작곡(composition)하여 생성된 오디오 신호는 입력 신호와는 상이한 것이다. 본 발명에 따른 시스템 및 방법의 과제는 이러한 차이를 최소화하는 것이다. 이러한 차이의 소스들은 두 가지 유형이 있다. 이들 중 일부는 적용된 기술로부터 예상되고 발생된 것이고, 다른 부분은 입력 오디오 신호의 간섭이나 예상치 않은 속성으로 인해 초래될 수 있다. 본 발명에 따른 사운드 객체들로 구성된 오디오 신호와 입력 신호 사이의 차이를 줄이기 위해, 도 1에 도시된 보정 시스템(4)이 사용된다. 이 시스템은 이미 객체를 종료한 후에 사운드 객체 데이터베이스(35)로부터 객체들의 파라미터들을 취하고, 예를 들어, 이들 파라미터에 국지화된 예상되는 차이 또는 불규칙성을 최소화하기 위해 포인트들 및 객체들의 선택된 파라미터들의 수정 동작을 수행한다.
보정 시스템(4)에 의해 수행되는, 본 발명에 따른 사운드 객체들의 제1 유형의 보정이 도 16에 도시된다. 객체의 시작 부분과 종료 부분에서의 왜곡은, 과도 상태 동안, 한정된 주파수를 갖는 신호가 나타나거나 사라질 때, 더 짧은 임펄스 응답을 갖는 필터들이 변화에 더 빨리 반응한다는 사실에 기인한다. 그리하여, 시작 부분에서 객체는 더 높은 주파수 방향으로 구부러지고, 종료 부분에서 객체는 더 낮은 주파수들 쪽으로 변한다. 객체의 보정은 객체의 중간 구획에 의해 한정된 방향으로 시작 부분과 종료 부분에서 객체의 주파수를 변형시키는 것에 기반할 수 있다.
보정 시스템(4)에 의해 수행되는, 본 발명에 따른 또 다른 유형의 보정은 도 17에 도시되어 있다. 필터 뱅크(2)의 필터(20)를 통과하는 오디오 신호 샘플들은 필터의 출력에 변화를 일으키고, 이는 신호 시프트로서 나타난다. 이 시프트는 규칙적인 성질을 갖고 예측될 수 있다. 그 크기는 필터(n)의 윈도우(K)의 폭에 의존하며, 그 폭은 본 발명에 따라 주파수의 함수이다. 이것은 각 주파수가 신호의 사운드를 인식할 수 있게 영향을 주는 상이한 값만큼 시프트된다는 것을 의미한다. 이 시프트의 크기는 필터의 정상 동작 영역에서는 약 1/2 필터 윈도우 폭이고, 초기 단계에서는 1/4 윈도우 폭이고, 및 객체들이 종료된 경우에는 약 3/4 윈도우 폭이다. 각 주파수에 대해 이 시프트의 크기는 예측될 수 있기 때문에, 보정 시스템(4)의 과제는 객체의 모든 포인트를 반대 방향으로 적절히 시프트시켜서 입력 신호의 표현의 역동성을 개선시키는 것이다.
보정 시스템(4)에 의해 수행되는, 본 발명에 따른 또 다른 유형의 보정이 도 18a, 도 18b 및 도 18c에 도시되어 있다. 왜곡은 독립적인 객체들인 조각들로 분할된 객체로 나타난다. 이러한 분할은, 예를 들어, 입력 신호의 성분의 위상 변동, 가까이 인접한 객체들의 간섭 또는 상호 영향에 의해 야기될 수 있다. 이러한 유형의 왜곡의 보정은 보정 회로(4)가 포락선 및 주파수의 함수의 분석을 수행하고 상기 객체들이 전체를 형성해야 한다는 것임을 증명할 것을 요구한다. 이 보정은 간단하고, 식별된 객체들을 하나의 객체로 결합한 것에 기반한다.
보정 시스템(4)의 과제는 또한 오디오 신호의 사운드에 미미한 영향을 미치는 객체들을 제거하는 것이다. 본 발명에 따르면, 이러한 객체들은 주어진 시간 순간에 전체 신호에 존재하는 최대 진폭의 1%보다 더 작은 최대 진폭을 갖는 객체일 수 있는 것으로 결정되었다. 40 dB의 레벨의 신호의 변화는 들리지 않아야 한다.
보정 시스템은 일반적으로 사운드 객체들의 형상의 모든 불규칙성의 제거를 수행하며, 그 동작들은 다음과 같이 분류될 수 있다: 즉 불연속 객체들의 결합, 인접한 객체들 근처의 객체들의 진동의 제거, 중요하지 않은 객체들뿐만 아니라 너무 짧게 지속되거나 너무 약하게 들리는 간섭하는 객체들의 제거로 분류될 수 있다.
사운드 신호를 분해하는 방법 및 시스템의 사용 결과를 예시하기 위해, 44100개의 샘플/초로 샘플링된 스테레오 오디오 신호의 단편(fragment)이 테스트되었다. 이 신호는 기타(guitar) 소리와 노래(singing) 소리를 포함하는 음악 작곡이다. 두 개의 채널을 도시하는 도 19a에 도시된 플롯은 약 250000개의 레코딩 샘플(약 5.6 초)을 포함한다.
도 19b는 오디오 신호의 좌측 채널에 대한 필터 뱅크(2)의 동작으로부터 초래되는 스펙트로그램(spectrogram)(도 19a의 상부 플롯)을 도시한다. 이 스펙트로그램은 C2 = 16.35 Hz 내지 최대 e6 = 10548 Hz의 주파수를 갖는 450개의 필터의 출력에서의 진폭을 포함한다. 이 스펙트로그램의 좌측에는 피아노 건반이 주파수를 한정하는 기준 포인트들로 도시되어 있다. 또한, 낮은 음자리표(bass clef)를 갖는 보표(staff)와 그 위에 높은 음자리표(treble clef)를 갖는 보표가 표시되어 있다. 이 스펙트로그램의 수평 축은 작곡 동안 시간 순간에 대응하는 반면, 이 스펙트로그램에서 더 어두운 색상은 필터링된 신호의 진폭의 더 높은 값을 나타낸다.
도 19c는 투표 시스템(32)의 동작 결과를 도시한다. 도 19b의 스펙트로그램을 도 19c의 스펙트로그램과 비교하면, 신호 구성 요소들을 나타내는 넓은 스폿(spot)들이 입력 신호의 상기 구성 요소들의 정확한 위치를 나타내는 뚜렷한 라인들로 대체된 것을 볼 수 있다.
도 19d는 149008번째 샘플에 대한 A-A 라인을 따른 스펙트로그램의 단면을 도시하고 주파수의 함수로 진폭을 나타낸다. 중간에 있는 수직 축은 스펙트럼의 실수 성분과 허수 성분 및 진폭을 나타낸다. 우측에 있는 수직 축은 오디오 신호 구성 요소들의 일시적인 위치를 나타내는 투표 신호의 피크들을 보여준다.
도 19e는 226.4 Hz의 주파수에서 BB 라인을 따른 스펙트로그램의 단면이다. 이 플롯은 n=182개를 갖는 필터(2)의 출력에서 스펙트럼의 진폭을 보여준다.
도 19f는 (보정 시스템(4)의 동작 없이) 사운드 객체들을 도시한다. 수직 축은 주파수를 나타내는 반면, 수평 축은 샘플의 수로 표현된 시간을 나타낸다. 신호의 테스트된 단편에서 578개의 객체들이 국지화되었고 이 객체들은 578+995 = 1573개의 포인트들로 기술된다. 이러한 객체들을 저장하려면 약 9780 바이트가 필요하다. 좌측 채널에서 250000개의 샘플을 포함하는 도 19a의 오디오 신호는 직접 저장을 위해 500 000 바이트를 필요로 하는데, 이는 본 발명에 따른 신호 분해 방법 및 사운드 객체들을 사용하는 경우 49의 레벨로 압축된다. 보정 시스템(4)을 사용하면 신호의 사운드에 무시할 수 있는 영향을 미치는 객체들을 제거하는 것으로 인해 압축 레벨을 추가적으로 개선할 수 있다.
도 19g는 3차 다항식으로 생성된 평활한 곡선들에 의해 이미 결정된 특성 포인트들을 사용하여 형성된, 선택된 사운드 객체들의 진폭들을 도시한다. 이 도면은 가장 높은 진폭을 갖는 객체의 진폭의 10%보다 더 큰 진폭을 갖는 객체들을 도시한다.
본 발명에 따른 신호 분해 방법 및 시스템을 사용한 결과, 음향 신호를 합성하는 작용을 할 수 있는 본 발명에 따른 사운드 객체들을 얻을 수 있다.
보다 구체적으로, 사운드 객체는 트랙의 시작 부분에 대한 객체의 위치 및 이 객체에 포함된 포인트들의 수를 나타내는 식별자를 포함한다. 각 포인트는 이전 포인트에 대한 객체의 위치, 이전의 포인트에 대한 진폭의 변화, 및 이전의 포인트의 맥동(pulsation)에 대한 맥동의 변화(로그 스케일로 표현됨)를 포함한다. 적절히 구축된 객체에서 제1 포인트와 마지막 포인트의 진폭은 0이어야 한다. 만약 그렇지 않으면, 음향 신호에서 이러한 진폭 점프는 균열(crack)로 인식될 수 있다. 중요한 가정은 객체들이 0과 같은 위상으로 시작한다는 것이다. 만약 그렇지 않으면, 시작 포인트는 위상이 0인 위치로 이동되어야 하고, 그렇지 않으면 전체 객체의 위상이 맞지 않게 된다.
이러한 정보는 객체에 의해 표현된 오디오 신호를 형성하기에 충분하다. 가장 간단한 경우, 포인트들에 포함된 파라미터들을 사용함으로써 진폭의 포락선의 다각형 라인과 맥동 변화의 다각형 라인을 결정할 수 있다. 사운드 신호를 개선하고 곡선들이 끊어진 부분에서 발생하는 고주파를 제거하기 위해, 다각형 라인(예를 들어, 3차 스플라인(cubic spline)의 피크들에서 후속 미분값들이 동일한 2차 이상의 다항식 형태로 평활한 곡선을 생성할 수 있다.
선형 보간의 경우, 하나의 포인트로부터 그 다음 포인트로 오디오 신호의 구획을 기술하는 수식은 다음 형태일 수 있다:
오디오신호Pi(t) = (A(i) + t*A(i+1)/P(i+1))*cos(Φi + t*(ωi(i+1)/P(i+1)))
여기서: Ai - 포인트(i)의 진폭
Pi - 포인트(i)의 위치
ωi - 포인트(i)의 각주파수
Φi - 포인트(i)의 위상, Φ0 = 0
P개의 포인트로 구성된 객체의 오디오 신호는 앞서 설명된 오프셋 세그먼트들의 합이다. 동일한 방식으로 전체 오디오 신호는 객체들의 오프셋 신호들의 합이다.
도 19a에 있는 합성된 테스트 신호는 도 19h에 도시된다.
본 발명에 따른 사운드 객체들은, 특히 사운드 신호들을 처리, 분석 및 합성할 때, 다수의 응용을 가능하게 하는 다수의 속성을 갖는다. 사운드 객체들은 오디오 신호의 분해의 결과로서 본 발명에 따른 신호 분해 방법을 사용하여 획득될 수 있다. 사운드 객체들은 또한 도 14d에 도시된 파라미터들의 값들을 한정함으로써 분석적으로 형성될 수도 있다. 사운드 객체 데이터베이스는, 주변 환경으로부터 취해지거나 인위적으로 생성된 사운드들로 형성될 수 있다. 아래에는 3개의 좌표를 갖는 포인트들로 기술된 사운드 객체들의 일부 유리한 속성들이 나열되어 있다:
1) 사운드 객체들을 기술하는 파라미터들에 기초하여, 진폭 및 주파수 변화의 함수를 결정하고, 오디오 신호를 구성할 수 있는 다른 객체들에 대해 위치를 결정하는 것이 가능하다.
2) 사운드 객체들을 기술하는 파라미터들 중 하나의 파라미터는 시간이고 이 시간에 의해 시간 도메인에서 객체들이 시프트되고, 단축되고 및 길어질 수 있다.
3) 사운드 객체들의 제2 파라미터는 주파수이고 이 주파수에 의해 객체들이 주파수 도메인에서 시프트되고 수정될 수 있다.
4) 사운드 객체들의 다음 파라미터는 진폭이고 이 진폭에 의해 사운드 객체들의 포락선들이 수정될 수 있다.
5) 사운드 객체들은 예를 들어 동시에 존재하는 객체들 및/또는 고조파 주파수들을 갖는 객체들을 선택함으로써 그룹화될 수 있다.
6) 그룹화된 객체들은 오디오 신호로부터 분리되거나 오디오 신호에 부가될 수 있다. 이것은, 다수의 다른 신호로부터 새로운 신호를 생성하거나 또는 단일 신호를 다수의 독립적인 신호로 분할할 수 있게 한다.
7) 그룹화된 객체들은 (그 진폭을 증가시킴으로써) 증폭되거나 또는 (그 진폭을 감소시킴으로써) 묵음화(silenced)될 수 있다.
8) 객체들의 그룹에 포함된 고조파 진폭의 비율들을 수정함으로써 그룹화된 객체들의 음색을 수정할 수 있다.
9) 고조파 주파수들을 증가시키거나 감소시킴으로써 모든 그룹화된 주파수의 값을 수정할 수 있다.
10) 성분 주파수들의 기울기를 수정(하강 또는 상승)함으로써 사운드 객체들에 포함된 가청 감정(emotion)을 수정할 수 있다.
11) 3개의 좌표를 갖는 포인트들로 기술된 객체들의 형태로 오디오 신호를 제공함으로써, 신호에 포함된 정보의 손실 없이, 필요한 데이터 바이트의 수를 크게 줄일 수 있다.
사운드 객체들의 속성을 고려하면, 많은 응용이 이 사운드 객체들에 대해 한정될 수 있다. 예시적인 응용들은 다음을 포함한다:
1) 신호 내에 존재하는 사운드 객체들을 적절히 그룹화하는 것에 기초하여, 악기 또는 스피커(speaker)와 같은 오디오 신호 소스들을 분리하는 것.
2) 오디오 신호로부터 개별 악기들에 대한 음악 표기법을 자동으로 생성하는 것.
3) 진행 중인 음악 공연 동안 악기들을 자동으로 튜닝하는 장치.
4) 분리된 스피커들의 음성을 스피치 인식 시스템으로 전달하는 것.
5) 분리된 음성들에 포함된 감정을 인식하는 것.
6) 분리된 스피커들을 식별하는 것.
7) 인식된 악기들의 음색을 수정하는 것.
8) 악기들을 교체하는 것(예를 들어, 피아노 대신 기타를 연주하는 것).
9) 스피커의 음성을 수정하는 것(상승, 하강, 감정 전환, 억양).
10) 스피커들의 음성들을 교환하는 것.
11) 감정과 억양 제어의 가능성을 갖고 음성을 합성하는 것.
12) 스피치들을 원활히 결합하는 것.
13) 간섭이 있는 환경에서도 장치들의 음성을 제어하는 것.
14) 새로운 사운드들, "샘플들", 비정상적인 사운드들을 생성하는 것.
15) 새로운 악기들.
16) 사운드의 공간적 관리.
17) 추가적인 데이터 압축 가능성.
추가적인 실시예들:
본 발명의 일 실시예에 따르면, 음향 신호를, 천천히 변하는 진폭 및 주파수를 갖는 정현파 형태를 갖는 사운드 객체들로 분해하는 방법은 단기 신호 모델의 파라미터들을 결정하는 단계 및 상기 단기 파라미터들에 기초하여 장기 신호 모델의 파라미터들을 결정하는 단계를 포함하고, 단기 신호 모델의 파라미터들을 결정하는 단계는 아날로그 음향 신호를 디지털 입력 신호(PIN)로 변환하는 단계를 포함하고, 상기 단기 신호 모델의 파라미터들을 결정하는 단계에서, 상기 입력 신호(PIN)는 상기 음향 신호의 샘플들을 디지털 필터 뱅크의 입력에 공급함으로써 로그 스케일에 따라 분포된 중심 주파수들을 갖는 인접한 서브-대역들로 분할되고, 각 디지털 필터는 공칭 중심 주파수에 비례하는 윈도우 길이를 갖고,
- 각 필터(20)의 출력에서, 필터링된 신호의 실수 값 FC(n) 및 허수 값 FS(n)은 샘플마다 결정되고, 이에 기초하여,
- 상기 음향 신호의 모든 검출된 구성 요소의 주파수, 진폭 및 위상이 샘플마다 결정되고,
- 상기 필터링된 신호의 주파수-도메인 해상도를 개선하는 동작은 샘플마다 수행되고, 각 연속적인 필터(20)의 각주파수 값과 실질적으로 유사한 각주파수 값을 출력하는 이웃하는 필터(20)들의 수를 반영하는 수학적 연산으로부터 초래되는 함수 FG(n)의 최대값들에 기초하여 모든 검출된 구성 요소의 주파수를 결정하는 단계를 적어도 포함하고,
상기 장기 신호 모델의 파라미터들을 결정하는 단계에서,
- 상기 음향 신호의 각 검출된 요소에 대해, 활성 객체 데이터베이스(34) 내에 활성 객체가 그 추적을 위해 생성되고,
- 상기 음향 신호의 후속 검출된 요소들은, 새로운 활성 객체를 생성하거나 상기 검출된 요소를 활성 객체에 부가하거나 또는 활성 객체를 폐쇄하기 위해 상기 활성 객체 데이터베이스(34) 내의 적어도 선택된 활성 객체들과 샘플마다 관련되고,
- 상기 데이터베이스(34) 내 각 활성 객체에 대해 진폭의 포락선의 값들 및 주파수의 값들 및 그 대응하는 시간 순간들은, 상기 사운드 객체의 천천히 변하는 정현파 파형을 기술하는 특성 포인트들을 생성하기 위해 주어진 필터(20)의 윈도우의 지속시간(W(n))의 주기마다 한번 이상 종종 결정되고,
- 적어도 하나의 선택된 폐쇄된 활성 객체는 시간-주파수-진폭 공간에서의 좌표들을 갖는 특성 포인트들의 세트에 의해 한정된 적어도 하나의 분해된 사운드 객체를 얻기 위해 사운드 객체들의 데이터베이스(35)로 전송된다.
상기 방법은 선택된 사운드 객체들을 보정하는 단계를 더 포함하는데, 이 보정하는 단계는 상기 사운드 객체들의 예상된 왜곡을 감소시키기 위해 선택된 사운드 객체들의 진폭 및/또는 주파수를 보정하는 단계를 포함하며, 여기서 상기 왜곡은 상기 디지털 필터 뱅크에 의해 도입된 것이다.
상기 필터링된 신호의 주파수-도메인 해상도를 개선하는 동작은 선택된 필터들의 윈도우 길이를 증가시키는 단계를 더 포함할 수 있다.
상기 필터링된 신호의 주파수-도메인 해상도를 개선하는 동작은, 상기 필터들의 출력에서의 스펙트럼으로부터, 확실히 위치된 인접한 사운드 객체들의 예상된 스펙트럼을 감산하는 단계를 더 포함할 수 있다.
상기 필터링된 신호의 주파수-도메인 해상도를 개선하는 동작은, 상기 입력 신호로부터, 확실히 위치된 인접한 사운드 객체들에 기초하여 생성된 오디오 신호를 감산하는 단계를 더 포함할 수 있다.
본 발명의 또 다른 실시예에 따라, 음향 신호를, 천천히-변하는 진폭 및 주파수를 갖는 정현파 파형 형태를 갖는 사운드 객체들로 분해하기 위한 시스템은 단기 신호 모델의 파라미터들을 결정하기 위한 서브시스템, 및 상기 파라미터들에 기초하여 장기 신호 모델의 파라미터들을 결정하기 위한 서브시스템을 포함하고, 상기 단기 파라미터들을 결정하기 위한 서브시스템은 아날로그 음향 신호를 디지털 입력 신호(PIN)로 변환하기 위한 변환기 시스템을 포함하며, 상기 단기 파라미터들을 결정하기 위한 서브시스템은 로그 분포에 따라 분포된 필터 중심 주파수들을 갖는 필터 뱅크(20)를 더 포함하며, 각 디지털 필터는 상기 중심 주파수에 비례하는 윈도우 길이를 갖고, 각 필터(20)는 상기 필터링된 신호의 실수 값 FC(n) 및 허수 값 FS(n)을 결정하도록 적응되며, 상기 필터 뱅크(2)는 객체를 추적하기 위한 시스템(3)에 연결되고, 상기 객체들을 추적하기 위한 시스템(3)은 상기 입력 신호(PIN)의 모든 구성 요소들을 검출하도록 적응된 스펙트럼 분석 시스템(31), 및 각 연속적인 필터(20)의 각주파수 값과 실질적으로 유사한 각주파수 값을 출력하는 이웃하는 필터(20)들의 수를 반영하는 수학적 연산으로부터 초래되는 함수 FG(n)의 최대값들에 기초하여 모든 검출된 구성 요소들의 주파수를 결정하도록 적응된 투표 시스템(32)을 포함하고, 상기 장기 파라미터들을 결정하기 위한 서브시스템은 객체들을 관련시키기 위한 시스템(33), 천천히 변하는 정현파 파형들을 기술하는 특성 포인트들을 결정하도록 적응된 형상 성형 시스템(37), 활성 객체 데이터베이스(34), 및 사운드 객체 데이터베이스(35)를 포함한다.
객체들을 추적하기 위한 시스템(3)은, 상기 디지털 필터 뱅크에 의해 도입된 상기 사운드 객체들에서 예상되는 왜곡을 감소시키기 위해 개별 선택된 사운드 객체들의 진폭 및/또는 주파수를 보정하도록 적응되거나 및/또는 불연속 객체들을 결합하거나 및/또는 선택된 사운드 객체들을 제거하도록 적응된 보정 시스템(4)과 더 연결될 수 있다.
상기 시스템은, 선택된 필터의 윈도우 길이를 증가시키도록 적응되거나 및/또는 상기 필터들의 출력에서의 스펙트럼으로부터, 확실히 위치된 인접한 사운드 객체들의 예상된 스펙트럼을 감산하도록 적응되거나 및/또는 상기 입력 신호로부터, 확실히 위치된 인접한 사운드 객체들에 기초하여 생성된 오디오 신호를 감산하도록 적응된 해상도 개선 시스템(36)을 더 포함할 수 있다.

Claims (26)

  1. 음향 신호(acoustic signal)를 디지털 사운드 객체(digital sound object)들로 분해하는 방법으로서, 디지털 사운드 객체는 상기 음향 신호의 성분을 나타내고, 상기 성분은 파형을 갖고, 상기 방법은,
    - 아날로그 음향 신호를 디지털 입력 신호(PIN)로 변환하는 단계;
    - 디지털 필터 뱅크를 사용하여 상기 디지털 입력 신호의 순시 주파수 성분(instanteous frequency component)을 결정하는 단계;
    - 상기 순시 주파수 성분의 순시 진폭을 결정하는 단계;
    - 상기 순시 주파수와 관련된 상기 디지털 입력 신호의 순시 위상을 결정하는 단계;
    - 결정된 상기 순시 주파수, 위상 및 진폭에 기초하여 적어도 하나의 디지털 사운드 객체를 생성하는 단계; 및
    - 상기 디지털 사운드 객체를 사운드 객체 데이터베이스에 저장하는 단계를 포함하는 것을 특징으로 하는 음향 신호를 디지털 사운드 객체들로 분해하는 방법.
  2. 제1항 또는 제2항에 있어서, 상기 디지털 필터 뱅크 내의 디지털 필터는 그 중심 주파수에 비례하는 윈도우 길이를 갖는 것을 특징으로 하는 음향 신호를 디지털 사운드 객체들로 분해하는 방법.
  3. 제2항에 있어서, 상기 필터 뱅크의 중심 주파수들은 로그 스케일(logarithmic scale)에 따라 분포되는 것을 특징으로 하는 음향 신호를 디지털 사운드 객체들로 분해하는 방법.
  4. 제1항에 있어서,
    - 상기 필터링된 신호의 주파수-도메인 해상도를 개선하는 동작은 샘플마다 수행되는 것을 특징으로 하는 음향 신호를 디지털 사운드 객체들로 분해하는 방법.
  5. 제1항에 있어서, 상기 순시 주파수 성분을 결정하는 단계는 상기 디지털 필터 뱅크의 인접한 디지털 필터들에서 결정된 하나 이상의 순시 주파수 성분들을 고려하는 것을 특징으로 하는 음향 신호를 디지털 사운드 객체들로 분해하는 방법.
  6. 제1항에 있어서, 상기 순시 주파수는 상기 디지털 입력 신호의 후속 샘플들에 걸쳐 추적되는 것을 특징으로 하는 음향 신호를 디지털 사운드 객체들로 분해하는 방법.
  7. 제6항에 있어서,
    - 상기 사운드 객체의 파형을 기술하는 시간-주파수-진폭 공간에서의 좌표들을 갖는 특성 포인트들을 생성하기 위해 진폭의 포락선의 값들 및 주파수의 값들 및 이들의 대응하는 시간 순간들이 결정되는 것을 특징으로 하는 음향 신호를 디지털 사운드 객체들로 분해하는 방법.
  8. 제7항에 있어서, 상기 값들은 주어진 필터(20)의 윈도우(W(n))의 지속시간의 주기마다 한번 이상 종종 결정되는 것을 특징으로 하는 음향 신호를 디지털 사운드 객체들로 분해하는 방법.
  9. 제6항에 있어서, 상기 사운드 객체들에서 예상되는 왜곡을 감소시키기 위해 선택된 사운드 객체들의 진폭 및/또는 주파수를 보정하는 단계를 더 포함하고, 상기 왜곡은 상기 디지털 필터 뱅크에 의해 도입된 것을 특징으로 하는 음향 신호를 디지털 사운드 객체들로 분해하는 방법.
  10. 제3항 또는 제4항에 있어서, 상기 필터링된 신호의 주파수-도메인 해상도를 개선하는 동작은 선택된 필터들의 상기 윈도우 길이를 증가시키는 단계를 더 포함하는 것을 특징으로 하는 음향 신호를 디지털 사운드 객체들로 분해하는 방법.
  11. 제4항에 있어서, 상기 필터링된 신호의 상기 주파수-도메인 해상도를 개선하는 동작은, 상기 필터들의 출력에서의 스펙트럼으로부터, 위치된 인접한 사운드 객체들의 예상된 스펙트럼을 감산하는 단계를 더 포함하는 것을 특징으로 하는 음향 신호를 디지털 사운드 객체들로 분해하는 방법.
  12. 제4항에 있어서, 상기 필터링된 신호의 상기 주파수-도메인 해상도를 개선하는 동작은, 상기 입력 신호로부터, 위치된 인접한 사운드 객체들에 기초하여 생성된 오디오 신호를 감산하는 단계를 더 포함하는 것을 특징으로 하는 음향 신호를 디지털 사운드 객체들로 분해하는 방법.
  13. 디지털 사운드 객체로서, 제1항 내지 제12항 중 어느 한 항에 따른 방법에 의해 생성된, 음향 신호의 적어도 하나의 성분의 파형을 나타내는 적어도 하나의 파라미터 세트를 포함하는 것을 특징으로 하는 디지털 사운드 객체.
  14. 제13항에 있어서, 상기 파라미터 세트는 시간-진폭-주파수 도메인에서 서브신호의 형상을 기술하는 특성 포인트들을 포함하는 것을 특징으로 하는 디지털 사운드 객체.
  15. 제14항에 있어서, 각 특성 포인트는, 시간 도메인에서 그 다음 특성 포인트로부터, 상기 객체의 주파수에 할당된 필터(20)의 윈도우(W(n))의 지속시간에 비례하는 값만큼 떨어져 있는 것을 특징으로 하는 디지털 사운드 객체.
  16. 제14항에 있어서, 상기 사운드 객체는 헤더를 더 포함하는 것을 특징으로 하는 디지털 사운드 객체.
  17. 제16항에 있어서, 상기 헤더는 다수의 채널을 한정하는 것을 특징으로 하는 디지털 사운드 객체.
  18. 제14항에 있어서, 진폭 성분은 상기 서브신호의 최대 진폭의 분율(fraction)을 한정하는 것을 특징으로 하는 디지털 사운드 객체.
  19. 제14항에 있어서, 주파수 성분은 상기 주파수가 변한 톤(tone)의 분율(톤의 변화)을 한정하는 것을 특징으로 하는 디지털 사운드 객체.
  20. 제14항에 있어서, 시간 성분은 이전에 한정된 특성 포인트에 대해 상기 특성 포인트의 위치를 시간적으로 한정하는 것을 특징으로 하는 디지털 사운드 객체.
  21. 제13항 내지 제20항 중 어느 한 항에 따른 디지털 사운드 객체를 저장하는 비-휘발성 컴퓨터-판독 가능한 매체.
  22. 오디오 신호를 생성하는 방법으로서,
    - 제13항 내지 제20항에 따른 디지털 사운드 객체를 수신하는 단계;
    - 상기 디지털 사운드 객체를 디코딩하여 상기 오디오 신호의 적어도 하나의 성분의 파형을 기술하는 적어도 하나의 파라미터 세트를 추출하는 단계;
    - 상기 파라미터 세트로부터 상기 파형을 생성하는 단계;
    - 생성된 상기 파형에 기초하여 상기 오디오 신호를 합성하는 단계; 및
    - 상기 오디오 신호를 출력하는 단계를 포함하는 것을 특징으로 하는 오디오 신호를 생성하는 방법.
  23. 제22항에 있어서, 상기 파형을 생성하는 단계는 상기 파라미터 세트에 포함된 상기 파형의 특성 포인트들 사이를 보간하는 단계를 포함하는 것을 특징으로 하는 오디오 신호를 생성하는 방법.
  24. 제23항에 있어서, 상기 보간은 3차 다항식을 사용하는 것을 특징으로 하는 오디오 신호를 생성하는 방법.
  25. 제22항에 있어서, 서브신호는 시간 도메인에서 이전에 시프트되거나, 단축되거나 또는 길어지거나, 및/또는 주파수 도메인에서 시프트되거나 수정되고, 및/또는 상기 사운드 객체의 포락선은 상기 파라미터 세트의 하나 이상의 파라미터를 변화시킴으로써 미리 수정되는 것을 특징으로 하는 오디오 신호를 생성하는 방법.
  26. 제22항에 있어서, 상기 파라미터 세트들은 그 발생 시간 순간에 이전에 그룹화되거나 또는 고조파 내용들에 대해 그룹화되는 것을 특징으로 하는 오디오 신호를 생성하는 방법.
KR1020187004905A 2015-07-24 2016-07-22 음향 신호를 사운드 객체들로 분해하는 방법 및 시스템, 사운드 객체 및 그 사용 KR20180050652A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP15002209.3A EP3121814A1 (en) 2015-07-24 2015-07-24 A method and a system for decomposition of acoustic signal into sound objects, a sound object and its use
EP15002209.3 2015-07-24
PCT/EP2016/067534 WO2017017014A1 (en) 2015-07-24 2016-07-22 A method and a system for decomposition of acoustic signal into sound objects, a sound object and its use

Publications (1)

Publication Number Publication Date
KR20180050652A true KR20180050652A (ko) 2018-05-15

Family

ID=53757953

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020187004905A KR20180050652A (ko) 2015-07-24 2016-07-22 음향 신호를 사운드 객체들로 분해하는 방법 및 시스템, 사운드 객체 및 그 사용

Country Status (11)

Country Link
US (1) US10565970B2 (ko)
EP (2) EP3121814A1 (ko)
JP (1) JP2018521366A (ko)
KR (1) KR20180050652A (ko)
CN (1) CN107851444A (ko)
AU (1) AU2016299762A1 (ko)
BR (1) BR112018001068A2 (ko)
CA (1) CA2992902A1 (ko)
MX (1) MX2018000989A (ko)
RU (1) RU2731372C2 (ko)
WO (1) WO2017017014A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022059869A1 (ko) * 2020-09-15 2022-03-24 삼성전자 주식회사 영상의 음질을 향상시키는 디바이스 및 방법
WO2023191211A1 (ko) * 2022-03-30 2023-10-05 엘지전자 주식회사 소리 제어 장치를 구비하는 차량

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3121814A1 (en) * 2015-07-24 2017-01-25 Sound object techology S.A. in organization A method and a system for decomposition of acoustic signal into sound objects, a sound object and its use
GB2541910B (en) * 2015-09-03 2021-10-27 Thermographic Measurements Ltd Thermochromic composition
US10186247B1 (en) * 2018-03-13 2019-01-22 The Nielsen Company (Us), Llc Methods and apparatus to extract a pitch-independent timbre attribute from a media signal
FR3086451B1 (fr) * 2018-09-20 2021-04-30 Sagemcom Broadband Sas Filtrage d'un signal sonore acquis par un systeme de reconnaissance vocale
CN109389992A (zh) * 2018-10-18 2019-02-26 天津大学 一种基于振幅和相位信息的语音情感识别方法
KR102277952B1 (ko) * 2019-01-11 2021-07-19 브레인소프트주식회사 디제이 변환에 의한 주파수 추출 방법
US20220319483A1 (en) * 2019-05-29 2022-10-06 The Board Of Trustees Of The Leland Stanford Junior University Systems and Methods for Acoustic Simulation
EP3942401A1 (en) 2019-06-20 2022-01-26 Dirtt Environmental Solutions Ltd. Voice communication system within a mixed-reality environment
CN110277104B (zh) * 2019-06-21 2021-08-06 上海松鼠课堂人工智能科技有限公司 单词语音训练系统
TWI718716B (zh) * 2019-10-23 2021-02-11 佑華微電子股份有限公司 樂器音階觸發的偵測方法
WO2021126155A1 (en) * 2019-12-16 2021-06-24 Google Llc Amplitude-independent window sizes in audio encoding
CN111343540B (zh) * 2020-03-05 2021-07-20 维沃移动通信有限公司 一种钢琴音频的处理方法及电子设备
CN112948331B (zh) * 2021-03-01 2023-02-03 湖南快乐阳光互动娱乐传媒有限公司 音频文件的生成方法、解析方法、生成器及解析器
US20220386062A1 (en) * 2021-05-28 2022-12-01 Algoriddim Gmbh Stereophonic audio rearrangement based on decomposed tracks

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4797926A (en) * 1986-09-11 1989-01-10 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech vocoder
JP2775651B2 (ja) * 1990-05-14 1998-07-16 カシオ計算機株式会社 音階検出装置及びそれを用いた電子楽器
US5214708A (en) 1991-12-16 1993-05-25 Mceachern Robert H Speech information extractor
JP2004527005A (ja) * 2001-05-16 2004-09-02 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 波形テーブル型シンセサイザにおいてエリアシングを除去するための方法
US6952482B2 (en) * 2001-10-02 2005-10-04 Siemens Corporation Research, Inc. Method and apparatus for noise filtering
ITTO20020306A1 (it) * 2002-04-09 2003-10-09 Loquendo Spa Metodo per l'estrazione di caratteristiche di un segnale vocale e relativo sistema di riconoscimento vocale.
JP3928468B2 (ja) * 2002-04-22 2007-06-13 ヤマハ株式会社 多チャンネル録音再生方法、録音装置、及び再生装置
DE10230809B4 (de) * 2002-07-08 2008-09-11 T-Mobile Deutschland Gmbh Verfahren zur Übertragung von Audiosignalen nach dem Verfahren der priorisierenden Pixelübertragung
CN1212602C (zh) * 2003-09-12 2005-07-27 中国科学院声学研究所 基于语音增强的语音识别方法
SG120121A1 (en) * 2003-09-26 2006-03-28 St Microelectronics Asia Pitch detection of speech signals
FR2898725A1 (fr) * 2006-03-15 2007-09-21 France Telecom Dispositif et procede de codage gradue d'un signal audio multi-canal selon une analyse en composante principale
JP4469986B2 (ja) * 2006-03-17 2010-06-02 国立大学法人東北大学 音響信号分析方法および音響信号合成方法
US7807915B2 (en) * 2007-03-22 2010-10-05 Qualcomm Incorporated Bandwidth control for retrieval of reference waveforms in an audio device
CN101884065B (zh) * 2007-10-03 2013-07-10 创新科技有限公司 用于双耳再现和格式转换的空间音频分析和合成的方法
KR101239812B1 (ko) * 2008-07-11 2013-03-06 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 대역폭 확장 신호를 생성하기 위한 장치 및 방법
CN101393429B (zh) * 2008-10-21 2010-12-08 松翰科技股份有限公司 利用音调的自动控制系统及自动控制装置
WO2011011413A2 (en) * 2009-07-20 2011-01-27 University Of Florida Research Foundation, Inc. Method and apparatus for evaluation of a subject's emotional, physiological and/or physical state with the subject's physiological and/or acoustic data
KR101344435B1 (ko) * 2009-07-27 2013-12-26 에스씨티아이 홀딩스, 인크. 음성의 표적화 및 잡음의 무시에 의한 음성 신호의 프로세싱에 있어서 잡음 감소를 위한 시스템 및 방법
BE1019445A3 (fr) * 2010-08-11 2012-07-03 Reza Yves Procede d'extraction d'information audio.
JP5992427B2 (ja) * 2010-11-10 2016-09-14 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. 信号におけるピッチおよび/または基本周波数に関するパターンを推定する方法および装置
JP5789993B2 (ja) * 2011-01-20 2015-10-07 ヤマハ株式会社 楽音信号発生装置
JP5898534B2 (ja) * 2012-03-12 2016-04-06 クラリオン株式会社 音響信号処理装置および音響信号処理方法
US9344828B2 (en) * 2012-12-21 2016-05-17 Bongiovi Acoustics Llc. System and method for digital signal processing
JP6176132B2 (ja) * 2014-01-31 2017-08-09 ヤマハ株式会社 共鳴音生成装置及び共鳴音生成プログラム
EP3121814A1 (en) * 2015-07-24 2017-01-25 Sound object techology S.A. in organization A method and a system for decomposition of acoustic signal into sound objects, a sound object and its use

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022059869A1 (ko) * 2020-09-15 2022-03-24 삼성전자 주식회사 영상의 음질을 향상시키는 디바이스 및 방법
WO2023191211A1 (ko) * 2022-03-30 2023-10-05 엘지전자 주식회사 소리 제어 장치를 구비하는 차량

Also Published As

Publication number Publication date
CN107851444A (zh) 2018-03-27
RU2018100128A3 (ko) 2019-11-27
BR112018001068A2 (pt) 2018-09-11
US20180233120A1 (en) 2018-08-16
RU2731372C2 (ru) 2020-09-02
RU2018100128A (ru) 2019-08-27
WO2017017014A1 (en) 2017-02-02
EP3304549A1 (en) 2018-04-11
MX2018000989A (es) 2018-08-21
EP3121814A1 (en) 2017-01-25
CA2992902A1 (en) 2017-02-02
AU2016299762A1 (en) 2018-02-01
US10565970B2 (en) 2020-02-18
JP2018521366A (ja) 2018-08-02

Similar Documents

Publication Publication Date Title
US10565970B2 (en) Method and a system for decomposition of acoustic signal into sound objects, a sound object and its use
KR101521368B1 (ko) 다중 채널 오디오 신호를 분해하는 방법, 장치 및 머신 판독가능 저장 매체
KR101564151B1 (ko) 시간 변화 정보를 갖는 기저 함수를 사용한 음악 신호의 분해
AU2011219780B2 (en) Apparatus and method for modifying an audio signal using envelope shaping
WO2015111014A1 (en) A method and a system for decomposition of acoustic signal into sound objects, a sound object and its use
KR102212225B1 (ko) 오디오 보정 장치 및 이의 오디오 보정 방법
JP2010055000A (ja) 信号帯域拡張装置
JP5127982B2 (ja) 音楽検索装置
Argenti et al. Automatic transcription of polyphonic music based on the constant-Q bispectral analysis
US20130339011A1 (en) Systems, methods, apparatus, and computer-readable media for pitch trajectory analysis
JP2014219607A (ja) 音楽信号処理装置および方法、並びに、プログラム
Benetos et al. Auditory spectrum-based pitched instrument onset detection
Kraft et al. Polyphonic pitch detection by matching spectral and autocorrelation peaks
JP4119112B2 (ja) 混合音の分離装置
Průša et al. Non-iterative filter bank phase (re) construction
Fitria et al. Music transcription of javanese gamelan using short time fourier transform (stft)
US10891966B2 (en) Audio processing method and audio processing device for expanding or compressing audio signals
Stöter et al. Unison Source Separation.
Zhang et al. Maximum likelihood study for sound pattern separation and recognition
Gainza et al. Harmonic sound source separation using FIR comb filters
Prasanna Kumar et al. Supervised and unsupervised separation of convolutive speech mixtures using f 0 and formant frequencies
Danayi et al. A novel algorithm based on time-frequency analysis for extracting melody from human whistling
Molina et al. Dissonance reduction in polyphonic audio using harmonic reorganization
Aczél et al. Sound separation of polyphonic music using instrument prints
Bartkowiak et al. Hybrid sinusoidal modeling of music with near transparent audio quality