KR20150088144A - 퍼스널 오디오 스튜디오 시스템 - Google Patents

퍼스널 오디오 스튜디오 시스템 Download PDF

Info

Publication number
KR20150088144A
KR20150088144A KR1020140008594A KR20140008594A KR20150088144A KR 20150088144 A KR20150088144 A KR 20150088144A KR 1020140008594 A KR1020140008594 A KR 1020140008594A KR 20140008594 A KR20140008594 A KR 20140008594A KR 20150088144 A KR20150088144 A KR 20150088144A
Authority
KR
South Korea
Prior art keywords
signal
harmonic
coding method
old
control module
Prior art date
Application number
KR1020140008594A
Other languages
English (en)
Other versions
KR101567665B1 (ko
Inventor
박지훈
Original Assignee
재단법인 다차원 스마트 아이티 융합시스템 연구단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 재단법인 다차원 스마트 아이티 융합시스템 연구단 filed Critical 재단법인 다차원 스마트 아이티 융합시스템 연구단
Priority to KR1020140008594A priority Critical patent/KR101567665B1/ko
Priority to US15/112,685 priority patent/US9854379B2/en
Priority to PCT/KR2015/000762 priority patent/WO2015111969A1/ko
Publication of KR20150088144A publication Critical patent/KR20150088144A/ko
Application granted granted Critical
Publication of KR101567665B1 publication Critical patent/KR101567665B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명의 실시예는 사용자가 자신의 설정에 따라 비압축된 입력 콘텐츠 또는 압축된 입력 콘텐츠 중 어느 하나를 처리할 수 있는 기술 및 압축된 입력 콘텐츠에 대하여 다양한 코딩 방법들에 기반하여 객체 추가, 편집, 제거를 선택적으로 지원할 수 있는 기술을 제공한다.

Description

퍼스널 오디오 스튜디오 시스템{PESRSONAL AUDIO STUDIO SYSTEM}
아래의 실시예들은 퍼스널 오디오 스튜디오 시스템에 관한 것이다.
인터넷 서비스, 광대역 네트워크, 멀티미디어 기기, 멀티미디어 컨텐츠 개발에 따라 사용자들은 좀더 고급화된 오디오 서비스를 원하게 되었다. 나아가, 오디오 코덱의 개발 트렌드 또한 변하고 있다.
예를 들어, SAOC(Spatial Audio Object Coding) 기법과 S-TSC(SAOC Two-Step Coding) 기법에 따라 고급화된 오디오 서비스가 개발되고 있다.
이와 관련하여, 국제 공개특허 제2010-143907호는, 다객체 오디오 신호를 부호화하는 방법 및 부호화 장치, 복호화 방법 및 복호화 장치, 그리고 트랜스코딩 방법 및 트랜스코더를 개시한다.
공개특허에 따르면, 다객체 오디오 신호 부호화 장치는 복수의 입력 객체 신호들 중에서 포그라운드 객체 신호들을 제외한 객체 신호들을 부호화하고, 포그라운드 객체 신호들을 부호화하여, 청취자에게 만족할만한 음질을 제공하는 방법을 개시한다.
본 발명의 실시예는 사용자가 자신의 설정에 따라 비압축된 입력 콘텐츠 또는 압축된 입력 콘텐츠 중 어느 하나를 처리할 수 있는 기술을 제공한다.
본 발명의 실시예는 압축된 입력 콘텐츠에 대하여 다양한 코딩 방법들에 기반하여 객체 추가, 편집, 제거를 선택적으로 지원할 수 있는 기술을 제공한다.
본 발명의 퍼스널 오디오 스튜디오 시스템은 복수의 객체 신호들을 포함하는 비압축된 입력 콘텐츠 또는 압축된 입력 콘텐츠 중 어느 하나를 선택하는 선택부; 상기 비압축된 입력 콘텐츠에 대하여 압축을 수행하는 제1 오브젝트 콘트롤 모듈; 및 상기 압축된 입력 콘텐츠에 대하여 특정 객체 신호를 제거하거나, 특정 객체 신호를 편집하거나, 특정 객체 신호를 삽입하는 제2 오브젝트 콘트롤 모듈을 포함한다.
본 발명의 퍼스널 오디오 스튜디오 시스템의 콘트롤 모듈은 객체 제거 모듈; 및 객체 삽입 모듈을 포함하고, 상기 객체 제거 모듈은 SAOC 코딩 방법에 기반하는 객체 제거, 보컬 하모닉 코딩 방법에 기반하는 객체 제거 또는 레지듀얼 코딩 방법에 기반하는 객체 제거 중 어느 하나를 이용하여 특정 객체를 제거하며, 상기 객체 삽입 모듈은 SAOC 코딩 방법에 기반하는 객체 삽입, 보컬 하모닉 코딩 방법에 기반하는 객체 삽입 또는 레지듀얼 코딩 방법에 기반하는 객체 삽입 중 어느 하나를 이용하여 특정 객체를 삽입한다.
본 발명의 실시예는 사용자가 자신의 설정에 따라 비압축된 입력 콘텐츠 또는 압축된 입력 콘텐츠 중 어느 하나를 처리할 수 있는 기술을 제공한다.
본 발명의 실시예는 압축된 입력 콘텐츠에 대하여 다양한 코딩 방법들에 기반하여 객체 추가, 편집, 제거를 선택적으로 지원할 수 있는 기술을 제공한다.
도 1은 SAOC 인코더 및 디코더를 나타낸 도면이다.
도 2는 보컬 하모닉 코딩을 위한 인코딩 장치 및 디코딩 장치를 나타낸 블록도이다.
도 3은 하모닉 정보를 나타낸 그래프이다.
도 4는 일실시예에 따른 피치 추출 방법을 나타낸 플로우 차트이다.
도 5는 도 4의 피치 추출 방법에 따른 그래프이다.
도 6은 일실시예에 따른 MVF 추출 방법을 나타낸 플로우 차트이다.
도 7은 도 6의 MVF 추출 방법에 따른 그래프이다.
도 8은 하모닉 엠플리튜드(Harmonic Amplitude; HA)에 대한 그래프이다.
도 9는 하모닉 필터링 및 스무딩 필터링 과정을 나타낸 그래프이다.
도 10은 보컬 하모닉 코딩에 따른 테스트 결과를 나타낸 그래프이다.
도 11은 보컬 하모닉 코딩을 위한 인코딩 방법을 나타낸 플로우 차트이다.
도 12는 보컬 하모닉 코딩을 위한 디코딩 방법을 나타낸 플로우 차트이다.
도 13은 본 발명의 일실시예에 따른 퍼스널 오디오 스튜디오 시스템을 나타낸 블록도이다.
도 14는 SAOC 코딩, 레지듀얼 코딩, 보컬 하모닉 코딩 중 어느 하나를 선택적으로 활용할 수 있는 인코딩 장치를 나타낸 도면이다.
도 15는 본 발명의 일실시예에 따른 레지듀얼 코딩을 수행하는 인코딩 장치를 나타낸 도면이다.
도 16은 도 15에 도시된 레지듀얼 신호 생성부를 보다 구체적으로 나타낸 도면이다.
도 17은 13에 도시된 오브젝트 콘트롤 모듈 2에 포함되는 객체 제거 모듈을 보다 상세하게 나타낸 도면이다.
도 18은 본 발명의 일실시예에 따라 SAOC 기반의 객체 제거 모듈을 나타낸 도면이다.
도 19는 레지듀얼 코딩 기반의 객체 제거 모듈을 나타낸 도면이다.
도 20은 본 발명의 일실시예에 따라 보컬 하모닉 코딩 기반의 객체 제거 모듈을 나타낸 도면이다.
도 21은 본 발명의 일실시예에 따른 객체 추가(삽입) 모듈을 나타낸 도면이다.
도 22는 본 발명의 일실시예에 따라 SAOC 기반의 객체 추가 모듈을 나타낸 도면이다.
도 23는 레지듀얼 코딩 기반의 객체 삽입 모듈을 나타낸 도면이다.
도 24은 본 발명의 일실시예에 따라 보컬 하모닉 코딩 기반의 객체 삽입 모듈을 나타낸 도면이다.
이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다.
1. Spatial Audio Object Coding
도 1은 SAOC 인코더 및 디코더를 나타낸 도면이다.
도 1을 참조하면, SAOC(Spatial Audio Object Coding) 기법에 따른 프로듀서/서비스 제공자 측의 장치 및 사용자 측의 장치가 도시되어 있다. 프로듀서/서비스 제공자 측의 장치는 SAOC 인코더를 포함할 수 있으며, 사용자 측의 장치는 SAOC 디코더 및 렌더러를 포함할 수 있다. SAOC 기법은 오디오 객체들을 다운믹스 신호와 공간 파라미터로 다시 표현하여 낮은 비트 레이트로 압축하는 다객체 코딩 기법이다.
SAOC 인코더는 입력 객체 신호들을 다운믹스 신호와 공간 파라미터로 변환하여 SAOC 디코더로 전송한다. 디코더는 수신한 다운믹스 신호와 공간 파라미터를 사용해서 객체 신호를 재생시키고, 렌더러는 사용자 입력에 따라 각각의 객체들을 렌더링하여 최종 음악을 생성한다.
SAOC 인코더는 다운믹스 신호와 공간 파라미터인 OLD(Object Level Difference)를 계산한다. 다운믹스 신호는 입력 신호의 가중합(weighted sum)으로 구할 수 있다. 또한, OLD는 객체의 서브 밴드 파워들 중에 가장 큰 값의 파워로 정규화(normalization)하여 구할 수 있다. OLD는 [수학식 1]에 따라 정의될 수 있다.
[수학식 1]
Figure pat00001

여기서, P는 파라미터 서브 밴드 파워를 나타내고, B는 파라미터 서브 밴드의 수를 나타내고, N은 입력 객체의 수를 나타낸다.
SAOC 디코더는 다운믹스 신호와 OLD를 통해 객체 신호를 재생시킬 수 있다. 구체적으로, SAOC 디코더는 [수학식 2]를 이용하여 객체 신호를 재생시킬 수 있다.
[수학식 2]
Figure pat00002

SAOC 기법에서는 특정 객체를 조절하고자 할 때, SAOC 디코더는 OLD만으로 다운믹스 신호로부터 특정 객체를 조절한다.
2. Vocal Harmonic Coding
도 2는 보컬 하모닉 코딩을 위한 인코딩 장치 및 디코딩 장치를 나타낸 블록도이다.
도 2를 참조하면, SAOC 파라미터 생성부(211), 하모닉 정보 생성부(212), 객체 신호 재생부(221), 하모닉 필터링부(222), 스무딩 필터링부(223) 및 렌더링부(224)가 도시되어 있다.
SAOC 파라미터 생성부(211)는 보컬(vocal) 객체 신호와 인스트루먼트(instrument) 객체 신호를 포함하는 복수의 입력 객체 신호를 가중합하여 다운믹스 신호를 생성하고, 복수의 입력 객체 신호의 서브 밴드 파워를 정규화하여 공간 파라미터를 생성한다. SAOC 파라미터 생성부(211)는 도 1의 SAOC 인코더에 대응될 수 있다. 다운믹스 신호와 공간 파라미터는 하모닉 정보 생성부(212)로 전달된다.
하모닉 정보 생성부(212)는 공간 파라미터를 이용하여 다운믹스 신호에서 인스트루먼트 객체 신호를 재생시킬 때 발생하는 하모닉 성분을 제거하기 위해, 보컬 객체 신호로부터 하모닉 정보를 생성한다.
OLD 기반으로 다운믹스 신호에서 보컬 객체 신호를 제거할 경우, 보컬 객체 신호에 포함된 무성음 신호와 유성음 신호의 제거 결과에 차이가 발생할 수 있다. 실제로, 인스트루먼트 객체 신호로 구성된 백그라운드 신호를 얻기 위해, 다운믹스 신호에서 OLD 기반으로 보컬 객체 신호를 제거하면, 유성음 신호 부분에서 제거 성능이 떨어지는 결과가 나온다.
하모닉 정보는, 보컬 객체 신호에 포함된 유성음 신호의 피치, 유성음 신호의 하모닉 최대 주파수 및 유성음 신호의 스펙트럼 하모닉 크기를 포함할 수 있다. 본 명세서에서, 하모닉 성분은 유성음 신호에 대응될 수 있다.
이 때, 하모닉 정보 생성부(212)는, 보컬 객체 신호에 포함된 유성음 신호의 피치 정보를 생성하고, 피치 정보를 이용하여 유성음 신호의 하모닉 최대 주파수 정보를 생성하고, 피치 정보 및 상기 최대 주파수 정보를 이용하여 유성음 신호의 스펙트럼 하모닉 크기를 생성할 수 있다. 유성음 신호의 피치, 유성음 신호의 하모닉 최대 주파수 및 유성음 신호의 스펙트럼 하모닉 크기의 생성 과정은 도 4 내지 도 8에서 구체적으로 설명한다.
하모닉 정보 생성부(212)는, 상기 보컬 객체 신호의 서브 밴드 파워와 상기 보컬 객체 신호의 서브 밴드 파워의 평균 값에 기초하여 계산된 양자화(quantization) 테이블을 이용하여 상기 보컬 객체 신호에 포함된 유성음 신호의 스펙트럼 하모닉 크기를 양자화할 수 있다. 유성음 신호의 스펙트럼 하모닉 크기에 대한 양자화는 도 8에서 구체적으로 설명한다.
객체 신호 재생부(221) 공간 파라미터를 이용하여 다운믹스 신호로부터 보컬 객체 신호와 인스트루먼트 객체 신호를 재생시킨다. 객체 신호 재생부(221)는 도 1의 SAOC 디코더에 대응될 수 있다.
하모닉 필터링부(222)는 재생된 보컬 객체 신호와 하모닉 정보를 이용하여 재생된 인스트루먼트 객체 신호에서 하모닉 성분을 제거한다. 하모닉 정보는 다운믹스 신호에서 인스트루먼트 객체 신호를 재생시킬 때 발생하는 하모닉 성분을 제거하기 위해 인코딩 장치에서 생성된 정보이다. 하모닉 필터링부(222)의 구체적인 동작은 도 9에서 설명한다.
스무딩 필터링부(223)는 하모닉 성분이 제거된 인스트루먼트 객체 신호를 평탄화(smoothing)한다. 인스트루먼트 객체 신호에 대한 평탄화는 하모닉 필터링부(222)에 따른 단절(discontinuity)을 줄이기 위한 동작이다. 스무딩 필터링부(223)의 구체적인 동작은 도 9에서 설명한다.
렌더링부(224)는 재생된 보컬 객체 신호와 재생된 인스트루먼트 객체 신호를 이용하여 SAOC 복조 출력을 생성한다. 렌더링부(224)는 도 1의 렌더러에 대응될 수 있다.
사용자 입력이 음악을 출력하기 위한 입력인 경우, 렌더링부(224)의 출력 신호는 그대로 스피커를 통해 출력될 수 있다. 사용자 입력이 노래에서 보컬을 제거한 것과 같은 배경음악을 출력하기 위한 입력인 경우, 렌더링부(224)의 출력 신호는 하모닉 필터링부(222)로 전달될 수 있다. 이 경우, 렌더링부(224)의 출력 신호는 하모닉 필터링부(222)와 스무딩 필터링부(223)를 거쳐, 개선된 배경음악으로 출력될 수 있다.
도 3은 하모닉 정보를 나타낸 그래프이다.
하모닉 정보는 공간 파라미터를 이용하여 다운믹스 신호에서 인스트루먼트 객체 신호를 재생시킬 때 발생하는 하모닉 성분을 제거하기 위해 사용되는 정보이다. 하모닉 정보는, 보컬 객체 신호에 포함된 유성음 신호의 피치, 유성음 신호의 하모닉 최대 주파수 및 유성음 신호의 스펙트럼 하모닉 크기를 포함할 수 있다. 보컬 하모닉은 대부분 보컬 객체 신호의 유성음 신호에 의해 발생하기 때문에, 하모닉 정보는 유성음 신호에 대한 정보일 수 있다.
도 3을 참조하면, 유성음(voiced signal)의 시간 도메인에서의 그래프(좌측) 및 주파수 도메인에서의 그래프(우측)가 도시되어 있다.
좌측의 그래프에서, 유성음의 스펙트럼 하모닉 크기의 피치(pitch)간의 간격 또는 피치의 주기가 유성음 신호의 피치일 수 있다.
우측의 그래프에서, 유성음 신호의 피치의 역수가 기본 주파수(fundamental frequency, F0)일 수 있다. 또한, MVF(Maximum Voiced Frequency)는 유성음 신호의 하모닉 최대 주파수일 수 있다. MVF는 하모닉이 분포하는 주파수 대역을 나타낼 수 있다. 또한, 하모닉 앰플리튜드(Harmonic Amplitude; HA)는 유성음 신호의 스펙트럼 하모닉 크기일 수 있다. 하모닉 앰플리튜드는 하모닉의 크기를 나타낼 수 있다.
도 4는 일실시예에 따른 피치 추출 방법을 나타낸 플로우 차트이다.
도 4를 참조하면, 보컬 객체 신호에 대한 DFT(Discrete Fourier Transform), 스펙트럴 화이트닝(Spectral Whitening), 세일리언스(Salience)를 통해 피치가 추출될 수 있다. 피치는 통상적으로 사용되는 다양한 방법에 따라 추출될 수 있다. 도 4는 [수학식 3]의 세일리언스 함수를 사용한 피치 추출 방법이다. [수학식 3]에서 타우(
Figure pat00003
)가 피치 값의 후보(candidate)이다.
[수학식 3]
Figure pat00004

도 5는 도 4의 피치 추출 방법에 따른 그래프이다.
도 5를 참조하면, 보컬 객체의 그래프, 스펙트럴 화이트닝에 따른 그래프 및 세일리언스 함수 결과에 따른 그래프가 도시되어 있다. 세일리언스 함수 결과에 따른 그래프는, [수학식 3]의 타우(
Figure pat00005
)에 따른 세일리언스 함수에 대한 그래프로, 여기서 최대 값의 인덱스가 피치 값으로 예측된다.
도 6은 일실시예에 따른 MVF 추출 방법을 나타낸 플로우 차트이다.
하모닉 정보 생성부(212)는 LP 레지듀얼(Linear Predictive residual) 신호를 사용하고, 주파수상에서 하모닉 피크를 찾아내어 MVF를 예측할 수 있다. 도 6에 도시된 각각의 단계는 도 7에서 상세히 설명한다.
도 7은 도 6의 MVF 추출 방법에 따른 그래프이다.
하모닉 정보 생성부(212)는 입력 신호의 LP((Linear Predictive) 분석을 통해 LP 레지듀얼 신호를 계산하고, 기본 주파수 간격의 로컬피크를 추출한다. 또한, 하모닉 정보 생성부(212)는 로컬 피크들을 리니어 인터폴레이션하여 쉐이핑 커브를 예측할 수 있다.
다음으로, 하모닉 정보 생성부(212)는 쉐이핑 커브를 3-dB 다운시켜 레지듀얼 신호를 트렁케이트(truncate)한다. 하모닉 정보 생성부(212)는 트렁케이트된 신호의 피크 점들의 간격을 기본 주파수로 정규화하고, MVF 디시젼을 통해 MVF를 예측한다.
도 7에 도시된 실시예는 0.5와 1.5를 MVF의 결정을 위한 임계치로 사용한 결과이다.
도 8은 하모닉 엠플리튜드(HA)에 대한 그래프이다.
하모닉 정보 생성부(212)는 하모닉 피크 점에서의 파워 스펙트럼으로부터 HA를 계산할 수 있다.
다만, HA는 그 크기가 다양하기 때문에, 양자화가 필요하다. 예를 들어, HA에 대해 OLD 파라미터와 산술평균을 이용한 적응적인(adaptive) 양자화 기법을 사용할 수 있다. 적응적인 양자화 기법을 위한 하모닉 양자화 테이블은 아래의 [수학식 4] 내지 [수학식 6]을 통해 계산된 최대값과 최소값을 이용하여 생성될 수 있다.
[수학식 4]
Figure pat00006

[수학식 5]
Figure pat00007

[수학식 6]
Figure pat00008

도 8에서, 우측 그림과 같이 m 번째 하모닉 엠플리튜드를 양자화 하기위해 m번째 하모닉이 존재할 수 있는 최소값과 최대값을 구해보면 [수학식 4] 내지 [수학식 6]과 같다.
[수학식 4]에서 최대값은 보컬 신호의 b 번째 서브 밴드 파워인
Figure pat00009
이다. 또한, 최소값은
Figure pat00010
의 평균인
Figure pat00011
이다. 여기서, n은 서브 밴드에 포함되는 하모닉의 개수이고, D는 서브 밴드의 듀레이션이다.
[수학식 4]에 로그식을 취하면 [수학식 5]가 나오며, [수학식 5]를 대해 정규화시키면 [수학식 6]과 같이 양자화 테이블의 최소값과 최대값을 구할 수 있다.
[수학식 4] 내지 [수학식 6]에 따라 계산된 최소값 및 최대값을 사용한 양자화 테이블로 양자화를 수행했을 때, 이를 사용하지 않은 양자화에 비해, 3.4dB의 양자화 에러 게인을 얻을 수 있다.
도 9는 하모닉 필터링 및 스무딩 필터링 과정을 나타낸 그래프이다.
도 9를 참조하면, 하모닉 필터링을 위한 하모닉 게인, 스무딩 필터링을 위한 스무딩 게인 및 하모닉 필터링과 스무딩 필터링에 따른 최종 결과에 대한 그래프가 각각 도시되어 있다.
첫 번째 그래프는 하모닉 필터링을 위한 하모닉 게인을 나타낸 그래프이다. [수학식 7]은 하모닉 필터링부(222)를 나타낸다.
[수학식 7]
Figure pat00012

[수학식 7]에서
Figure pat00013
는 하모닉 필터의 출력인 하모닉 성분이 제거된 인스트루먼트 객체 신호를 나타내고,
Figure pat00014
는 하모닉 필터의 입력인 재생된 인스트루먼트 객체 신호를 나타낸다.
Figure pat00015
는 하모닉 필터의 전달함수로, [수학식 8]에 따라 디자인된다.
[수학식 8]
Figure pat00016

[수학식 8]에서
Figure pat00017
는 재생된 보컬 객체 신호를 나타내고,
Figure pat00018
는 재생된 인스트루먼트 객체 신호를 나타낸다. 하모닉 정보에 따른 하모닉 엠플리튜드
Figure pat00019
은 주파수 도메인에서 m 번째 하모닉의 파워 스펙트럼이다.
Figure pat00020
은 [수학식 9]와 같이 정의된다.
[수학식 9]
Figure pat00021
여기서,
Figure pat00022
는 기본 주파수를 나타내고,
Figure pat00023
은 정수이며,
Figure pat00024
은 하모닉의 수이다. 예를 들어,
Figure pat00025
일 수 있다.
Figure pat00026
는 MVF 주파수이다.
Figure pat00027
는 보컬 객체 신호를 나타낸다.
두 번째 그래프는 스무딩 필터링을 위한 스무딩 게인을 나타낸 그래프이다. [수학식 10]은 스무딩 필터링부(222)를 나타낸다.
[수학식 10]
Figure pat00028
[수학식 10]에서
Figure pat00029
는, 하모닉 필터의 출력이면서 스무딩 필터의 입력인, 하모닉 성분이 제거된 인스트루먼트 객체 신호를 나타내고,
Figure pat00030
는 스무딩 필터의 출력인 평탄화된 인스트루먼트 객체 신호를 나타내고,
Figure pat00031
는 스무딩 필터의 전달 함수를 나타낸다.
Figure pat00032
는 [수학식 11]과 같이 정의된다.
[수학식 11]
Figure pat00033

여기서,
Figure pat00034
는 스무딩 범위에 따른 하모닉의 대역폭을 나타내고,
Figure pat00035
는 기본 주파수에 대한 정수 배의 값으로
Figure pat00036
=
Figure pat00037
*
Figure pat00038
를 나타낸다.
도 10은 보컬 하모닉 코딩에 따른 테스트 결과를 나타낸 그래프이다.
도 10을 참조하면, 본 발명에 따른 보컬 하모닉 코딩(Vocal Harmonic Coding; VHC)에 따른 스코어가 SAOC에 따른 스코어보다 월등히 높은 것을 알 수 있다. 또한, VHC는 TSC I보다도 높은 성능을 나타낸다.
VHC는 TSC II보다는 낮은 스코어를 나타내지만, VHC의 비트 레이트가 TSC II의 비트 레이트보다 월등히 낮다는 점을 고려할 때, 전체적인 성능은 VHC가 좋다고 할 수 있다.
도 11은 보컬 하모닉 코딩을 위한 인코딩 방법을 나타낸 플로우 차트이다.
도 11을 참조하면, 단계(1110)에서, 인코딩 장치는 보컬 객체 신호와 인스트루먼트 객체 신호를 포함하는 복수의 입력 객체 신호를 가중합하여 다운믹스 신호를 생성한다.
단계(1120)에서, 인코딩 장치는 복수의 입력 객체 신호의 서브 밴드 파워를 정규화하여 공간 파라미터를 생성한다.
단계(1130)에서, 인코딩 장치는 보컬 객체 신호로부터 하모닉 정보를 생성한다. 이 때, 하모닉 정보는, 상기 보컬 객체 신호에 포함된 유성음 신호의 피치, 상기 유성음 신호의 하모닉 최대 주파수 및 상기 유성음 신호의 스펙트럼 하모닉 크기를 포함할 수 있다. 인코딩 장치는, 보컬 객체 신호에 포함된 유성음 신호의 피치 정보를 생성하는 단계, 피치 정보를 이용하여 유성음 신호의 하모닉 최대 주파수 정보를 생성하는 단계 및 피치 정보 및 최대 주파수 정보를 이용하여 유성음 신호의 스펙트럼 하모닉 크기를 생성하는 단계를 통해, 하모닉 정보를 생성할 수 있다.
인코딩 장치는 보컬 객체 신호의 서브 밴드 파워와 보컬 객체 신호의 서브 밴드 파워의 평균 값에 기초하여 계산된 양자화 테이블을 이용하여 보컬 객체 신호에 포함된 유성음 신호의 스펙트럼 하모닉 크기를 양자화할 수 있다.
도 12는 보컬 하모닉 코딩을 위한 디코딩 방법을 나타낸 플로우 차트이다.
도 12를 참조하면, 단계(1210)에서, 디코딩 장치는 공간 파라미터를 이용하여 다운믹스 신호로부터 보컬 객체 신호와 인스트루먼트 객체 신호를 재생한다.
단계(1220)에서, 디코딩 장치는 재생된 보컬 객체 신호와 하모닉 정보를 이용하여 재생된 인스트루먼트 객체 신호에서 하모닉 성분을 제거한다. 단계(1220)은 하모닉 필터를 통해 수행될 수 있다. 이 때, 하모닉 정보는, 상기 보컬 객체 신호에 포함된 유성음 신호의 피치, 상기 유성음 신호의 하모닉 최대 주파수 및 상기 유성음 신호의 스펙트럼 하모닉 크기를 포함할 수 있다.
단계(1230)에서, 디코딩 장치는 스무딩 필터를 이용하여 하모닉 성분이 제거된 인스트루먼트 객체 신호를 평탄화한다. 디코딩 장치는 재생된 보컬 객체 신호와 상기 재생된 인스트루먼트 객체 신호를 이용하여 SAOC 복조 출력을 생성할 수 있다.
3. 퍼스널 오디오 스튜디오 시스템
도 13은 본 발명의 일실시예에 따른 퍼스널 오디오 스튜디오 시스템을 나타낸 블록도이다.
도 13을 참조하면, 본 발명의 일실시예에 따른 퍼스널 오디오 스튜디오 시스템은 입력 콘텐츠를 원음 혹은 압축된 콘텐츠 중 어느 하나를 선택적으로 수신할 수 있다. 예를 들어, 사용자는 입력 콘텐츠가 원음 혹은 압축된 콘텐츠 중에서 어떠한 것인지를 설정할 수 있다. 선택부는(스위치의 형태로 도시됨) 비압축된 입력 콘텐츠 또는 압축된 콘텐츠 중 어느 하나로 입력 콘텐츠를 선택할 수 있다.
만약, 입력 콘텐츠가 여러 객체들 각각의 신호들을 포함하는 원음이라면, 그 신호는 오브젝트 컨트롤 모듈 1로 입력되며, 반대로 입력 콘텐츠가 압축된 콘텐츠라면 오브젝트 콘트롤 모듈 2로 입력된다. 오브젝트 콘트롤 모듈 1은 원음을 SAOC 코딩, 레지듀얼 코딩, 보컬 하모닉 코딩 중 어느 하나를 이용하여 압축함으로써, 압축된 콘텐츠인 SAOC based Contens를 생성할 수 있다. 그리고, 오브젝트 콘트롤 모듈 2는 압축된 콘텐츠를 압축된 상태에서 객체 삽입, 객체 추가, 객체 편집(객체 제거 후 추가) 중 적어도 하나를 수행할 수 있다.
이에 대해서는 아래에서 상세히 설명한다.
도 14는 SAOC 코딩, 레지듀얼 코딩, 보컬 하모닉 코딩 중 어느 하나를 선택적으로 활용할 수 있는 인코딩 장치를 나타낸 도면이다.
도 14를 참조하면, 도 13에 도시된 오브젝트 컨트롤 모듈 1은 SAOC-based Encoder를 포함하고, SAOC-based Encoder는 여러 가지 코딩 방법들 중에서 어느 하나를 선택적으로 사용할 수 있다.
보다 구체적으로, SAOC-based Encoder는 SAOC 코딩, 레지듀얼 코딩, 보컬 하모닉 코딩 중 어느 하나를 선택적으로 사용할 수 있으며, SAOC encoder, S-VHC 인코더(보컬 하모닉 인코더)에 대해서는 위에서 설명한 바와 같다. 아래에서는 S-RC 인코더(레지듀얼 인코더)에 대해서 상세히 설명한다.
여기서, SAOC encoder, S-VHC 인코더(보컬 하모닉 인코더), S-RC 인코더(레지듀얼 인코더)의 특성은 다음과 같이 나타낼 수 있다.
Figure pat00039

즉, SAOC encoder는 다운믹스된 신호와 OLD를 출력으로 가지며, 매우 낮은 비트율과 낮은 퀄리티를 갖는다. 그리고, 보컬 하모닉 인코더는 다운믹스된 신호와 OLD 및 하모닉 정보를 출력으로 가지며, 낮은 비트율과 상대적으로 좋은 퀄리티를 가질 뿐만 아니라, 카라오케 서비스에 적합한 특성을 갖는다. 그리고, S-RC 인코더(레지듀얼 인코더)는 다운믹스된 신호, OLD, 레지듀얼 신호를 출력으로 가지며, 높은 비트율과 상대적으로 좋은 품질을 갖는다.
4. Residual Encoder
도 15는 본 발명의 일실시예에 따른 레지듀얼 코딩을 수행하는 인코딩 장치를 나타낸 도면이다.
도 15를 참조하면, 본 발명의 일실시예에 따른 레지듀얼 인코더는 MPEC 레지듀얼 코딩의 개념을 사용할 수 있으며, 출력으로서 다운믹스된 신호, OLD, 및 각 객체에 대한 레지듀얼 신호를 갖는다.
본 발명의 일실시예에 따른 레지듀얼 인코더는 SAOC 기법에 기반하며, MPEG 서라운드 레지듀얼 코딩 테크닉을 사용할 수 있다. 도 15에 도시된 R-OTT 박스는 다운믹스 신호 생성부, 공간 파라미터(OLD) 계산부 및 레지듀얼 신호 생성부를 포함한다.
다운믹스 신호 생성부 및 공간 파라미터 계산부에는 SAOC 인코더와 관련하여 설명된 내용이 적용될 수 있으며, 그 내용에 기초하여 다운믹스된 신호 및 OLD를 생성/계산할 수 있다. 따라서 아래에서는 다운믹스 신호 생성부 및 공간 파라미터 계산부에 대한 상세한 설명은 생략한다.
복수의 객체들의 오디오 신호들을 포함하는 원음에서 두 개의 입력 신호들 X1(k), X2(k)가 존재한다고 가정한다. 이 때, 다운믹스 신호 생성부는 다운믹스된 신호 Xd(k)를 두 개의 입력 신호들에 대한 선형 결합을 통하여 생성할 수 있다. 그리고, 다운믹스된 신호 Xd(k)는 c1, c2라는 계수를 가지며, Xr(k)라는 out-of-phase 성분을 갖게된다.
이러한 경우에, 두 개의 입력 신호들 X1(k), X2(k)은 다음과 같이 나타낼 수 있다.
X1(k) = c1Xd(k)+Xr(k)
X2(k)= c2Xd(k)-Xr(k)
그리고, 다운믹스된 신호 Xd(k)는 다음과 같다.
Xd(k)=(X1(k)+X2(k))/(c1+c2)
이 때, 계수 c1, c2는 다운믹스 신호를 에너지 보존 제한 조건을 만족하도록 설정되고, Xd(k)의 에너지는 X1(k)와 X2(k)의 에너지의 합과 동일하게 된다.
이 때, 상술한 수식은 다음과 같다.
Figure pat00040
Figure pat00041

이 때, c1, c2는 CLD라는 공간 파라미터에 의하여 다음과 같이 계산될 수 있다.
Figure pat00042

이러한 경우, 레지듀얼 신호는 다음과 같이 계산될 수 있다.
Figure pat00043
그리고, 상술한 수식들을 정리하면, 레지듀얼 신호는 다음과 같이 나타낼 수 있다.
Figure pat00044
결국, 정리하면, 도 15에 도시된 레지듀얼 인코더는 다음과 같이 다운믹스 신호, 공간 파라미터 및 레지듀얼 신호를 생성할 수 있다. 보다 구체적으로, 다운믹스 신호 생성부는 다운믹스 신호 Xd(k)를 다음과 같이 생성할 수 있다.
Figure pat00045
그리고, 공간 파라미터 계산부는 각 객체에 대하여 다음과 같이 공간 파라미터 OLD를 계산할 수 있다.
Figure pat00046

여기서, i는 입력되는 콘텐츠에서 객체의 인덱스이며, B는 파라미터 서브 밴드들의 개수, N은 입력되는 콘텐츠에서 객체들의 개수이다. Pi(b)는 i 번째 객체의 b 번째 서브 밴드에서의 서브밴드 파워를 나타내며, 다음과 같이 정의된다.
Figure pat00047
여기서, Ab는 b 번째 서브 밴드 파티션 바운더리이다.
그리고, 위에서 사용된 CLD는 다음과 같이 OLD로 대체될 수 있다.
Figure pat00048
결국, 본 발명에 의하면, CLD를 별도로 계산할 필요 없이, 공간 파라미터 계산부에 의하여 계산된 OLD 공간 파라미터를 활용하여 다음과 같이 레지듀얼 신호를 생성할 수 있다.
Figure pat00049

도 16은 도 15에 도시된 레지듀얼 신호 생성부를 보다 구체적으로 나타낸 도면이다.
도 16을 참조하면, 레지듀얼 인코더는 복수의 객체들에 대한 오디오 신호들을 포함하는 원음을 수신하고, 다운믹스 신호를 생성한다. 생성된 다운믹스 신호는 레지듀얼 신호 생성부 및 공간 파라미터 계산부로 제공되며, 공간 파라미터 계산부는 각 객체에 대한 OLD를 계산한다.
또한, 다운믹스 신호 및 계산된 각 개체에 대한 OLD는 레지듀얼 신호 생성부로 제공되며, 레지듀얼 신호 생성부는 위에서 정의된 바 있는 아래의 수식에 기초하여 각 객체에 대한 레지듀얼 신호를 생성한다.
Figure pat00050
도 17은 13에 도시된 오브젝트 콘트롤 모듈 2에 포함되는 객체 제거 모듈을 보다 상세하게 나타낸 도면이다.
도 13을 다시 참조하면, 압축된 콘텐츠는 오브젝트 컨트롤 모듈 2로 제공된다. 오브젝트 컨트롤 모듈 2는 압축된 콘텐츠를 압축 해제하지 않고, 압축된 상태에서 복수의 객체들 중 적어도 하나를 제거하거나 적어도 하나의 객체를 새롭게 추가할 수 있다. 여기서, 객체를 제거한 후, 다른 객체를 추가하는 것은 객체를 편집하는 것과 실질적으로 동일하므로, 객체 제거 및 객체 삽입을 조합함으로써, 객체 편집을 수행할 수 있다.
본 발명의 실시예는 복수의 객체 신호들을 포함하는 압축 콘텐츠가 어떠한 코딩 기법에 따라 압축되었는지에 기초하여 특정 객체 신호를 제거할 수 있다. 예를 들어, 압축 콘텐츠는 위에서 설명된 SAOC 기반의 코딩, 레지듀얼 코딩 및 보컬 하모닉 코딩 중 어느 하나에 의하여 압축된 것일 수 있다. 이 때, 사용자는 압축 콘텐츠의 코딩 방식 또는 자신의 선호에 기초하여 객체 제거를 위한 모드를 선택할 수 있다.
도 18은 본 발명의 일실시예에 따라 SAOC 기반의 객체 제거 모듈을 나타낸 도면이다.
도 18을 참조하면, SAOC 기반의 객체 제거 모듈은 다운믹스 신호 DN(k)를 변경하여 DN-m(k)를 생성한다. 이 때, DN-m(k)는 다음과 같이 정의될 수 있다.
Figure pat00051
이 때, 가중 팩터 G는 아래와 같이 정의될 수 있다.
Figure pat00052
여기서, i는 제거된 객체의 인덱스이다.
즉, 다운믹스 변경부는 입력된 다운믹스 신호와 가중 팩터를 기초로 변경된 다운믹스 신호를 생성하며, 가중 팩터 생성부는 입력된 OLD를 기초로 가중 팩터를 생성한다.
또한, OLD 변경부는 제거된 객체의 OLD가 가장 큰 것인지 여부에 기초하여 객체들 각각의 OLD를 변경한다.
예를 들어, 3 개의 객체들의 OLD가 1.0, 0.6, 0.9이고, 1.0에 대응하는 객체가 제거되었다면, 0.6은 0.6/0.9로 변경되고, 0.9는 0.9/0.9로 변경된다. 즉, 제거된 객체에 대응하는 OLD를 제외하고 가장 큰 OLD에 기초하여 나머지 OLD들이 규준화된다. 반대로, 0.6이 제거되었다면, 0.6은 가장 큰 OLD가 아니므로, 1.0, 0.9는 그대로 유지된다.
이와 같이, 본 발명의 SAOC 기반의 객체 제거는 압축을 해제하지 않은 상태에서 제거된 객체의 OLD를 변경할 뿐만 아니라, 제거된 객체에 따라 생성되는 가중 팩터를 이용하여 다운믹스 신호를 변경함으로써, 간단하게 수행될 수 있다.
도 19는 레지듀얼 코딩 기반의 객체 제거 모듈을 나타낸 도면이다.
도 19를 참조하면, 복수의 객체 신호들을 포함하고, 레지듀얼 코딩에 의하여 압축된 콘텐츠가 입력되면, 그 압축된 콘텐츠는 다운믹스 신호, OLD, 레지듀얼 신호를 포함한다.
이 때, 레지듀얼 코딩 기반의 객체 제거 모듈에 포함된 다운믹스 변경부는 다운믹스 신호 DN(k)를 변경하여 DN-m(k)를 생성한다. 이 때, DN-m(k)는 다음과 같이 정의될 수 있다.
Figure pat00053

즉, 다운믹스 변경부는 OLD에 의하여 정의되는 가중 팩터 Gm와 레지듀얼 신호를 이용하여 DN-m(k)를 생성한다. 여기서, 가중 팩터는 다음과 같이 나타낼 수 있다.
Figure pat00054
또한, 가중 팩터 생성부 및 OLD 변경부는 도 17에서 설명된 내용과 동일한 방식으로 가중 팩터를 생성하고, OLD를 변경한다.
그리고, 레지듀얼 신호 변경부는 다음의 수식에 기초하여 레지듀얼 신호를 변경한다.
Figure pat00055
여기서, c1 ' 및 c2 '는 변경된 OLD에 의하여 새롭게 계산되는 가중 팩터로서, 변경된 다운믹스 신호 및 변경된 레지듀얼 신호는 다음의 관계를 갖는다.
Figure pat00056
도 20은 본 발명의 일실시예에 따라 보컬 하모닉 코딩 기반의 객체 제거 모듈을 나타낸 도면이다.
도 20을 참조하면, 보컬 신호가 제거된 경우에, 다운믹스 변경부에 의하여 변경된 백그라운드 신호
Figure pat00057
는 다음과 같다.
Figure pat00058
여기서, v는 보컬 신호의 인덱스이다.
이 때, 가중 팩터 생성부에 의하여 생성된 가중 팩터 Gm이 다운믹스 변경부로 제공되고, 하모닉 제거부는 다음의 하모닉 제거 필터를 이용하여 하모닉을 제거할 수 있다.
Figure pat00059
또한, 다음과 같은 스무딩 필터가 추가적으로 적용될 수도 있다.
Figure pat00060
여기서, W는 하모닉의 대역폭으로서 스무딩 레인지를 나타내며, 람다는 기반 주파수에 정수를 곱한 것으로 정의된다.
결국, 다운믹스 변경부의 출력에 하모닉이 제거된 후 스무딩 필터가 적용되면, 최종적인 변경된 다운믹스 신호가 출력된다. 그리고, OLD 변경부는 도 18 및 도 19에서 설명된 내용에 기초하여 OLD를 변경한다.
도 21은 본 발명의 일실시예에 따른 객체 추가(삽입) 모듈을 나타낸 도면이다.
도 21을 참조하면, 본 발명의 실시예는 복수의 객체 신호들을 포함하는 압축 콘텐츠가 어떠한 코딩 기법에 따라 압축되었는지에 기초하여 특정 객체 신호를 삽입할 수 있다. 예를 들어, 압축 콘텐츠는 위에서 설명된 SAOC 기반의 코딩, 레지듀얼 코딩 및 보컬 하모닉 코딩 중 어느 하나에 의하여 압축된 것일 수 있다. 이 때, 사용자는 압축 콘텐츠의 코딩 방식 또는 자신의 선호에 기초하여 객체 삽입을 위한 모드를 선택할 수 있다.
도 22는 본 발명의 일실시예에 따라 SAOC 기반의 객체 추가 모듈을 나타낸 도면이다.
도 22를 참조하면, 다운믹스 변경부는 삽입된 객체 신호 XN+1(k)에 기초하여다운믹스 신호 DN(k)를 변경하여 DN-m(k)를 생성한다. 이 때, 삽입된 객체 신호 XN+1(k)에 기초하여 OLD가 다음과 같이 변경된다.
Figure pat00061

도 23는 레지듀얼 코딩 기반의 객체 삽입 모듈을 나타낸 도면이다.
도 23을 참조하면, 다운믹스 변경부는 삽입된 객체 신호 XN+1(k)에 기초하여 다운믹스 신호 DN(k)를 변경하여 DN-m(k)를 생성한다. 이 때, OLD 변경부는 다운믹스 변경부는 삽입된 객체 신호 XN+1(k)에 기초하여 OLD를 변경하며, 이는 도 22에서 설명한 바와 같다.
또한, 레지듀얼 신호 변경부는 다음과 같이 변경된 레지듀얼 신호를 생성한다.
Figure pat00062

도 24은 본 발명의 일실시예에 따라 보컬 하모닉 코딩 기반의 객체 삽입 모듈을 나타낸 도면이다.
도 24를 참조하면, 다운믹스 변경부는 삽입된 객체 신호 XN+1(k)에 기초하여다운믹스 신호 DN(k)를 변경하여 DN-m(k)를 생성한다.
또한, OLD 변경부는 도 22에 설명된 내용에 기초하여 OLD를 변경한다.
또한, 하모닉 추출부는 변경된 다운믹스 신호에 대하여 하모닉을 추출한다. 보컬 하모닉 인코딩에 대한 도 1 내지 도 12와 관련된 설명은 여기에도 그대로 적용될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (18)

  1. 복수의 객체 신호들을 포함하는 비압축된 입력 콘텐츠 또는 압축된 입력 콘텐츠 중 어느 하나를 선택하는 선택부;
    상기 비압축된 입력 콘텐츠에 대하여 압축을 수행하는 제1 오브젝트 콘트롤 모듈; 및
    상기 압축된 입력 콘텐츠에 대하여 특정 객체 신호를 제거하거나, 특정 객체 신호를 편집하거나, 특정 객체 신호를 삽입하는 제2 오브젝트 콘트롤 모듈
    을 포함하는 퍼스널 오디오 스튜디오 시스템.
  2. 제1항에 있어서,
    상기 제1 오브젝트 콘트롤 모듈은
    SAOC 코딩 방법, 보컬 하모닉 코딩 방법 또는 레지듀얼 코딩 방법 중 어느 하나의 코딩 방법을 선택적으로 적용하는 퍼스널 오디오 스튜디오 시스템.
  3. 제2항에 있어서,
    상기 제1 오브젝트 콘트롤 모듈은
    다운믹스된 신호, OLD, 및 각 객체 신호에 대한 레지듀얼 신호를 출력하는 레지듀얼 코딩 방법을 사용하는 퍼스널 오디오 스튜디오 시스템.
  4. 제1항에 있어서,
    상기 제2 오브젝트 콘트롤 모듈은
    SAOC 코딩 방법에 기반하는 객체 제거, 보컬 하모닉 코딩 방법에 기반하는 객체 제거 또는 레지듀얼 코딩 방법에 기반하는 객체 제거 중 어느 하나를 이용하여 특정 객체를 제거하는 퍼스널 오디오 스튜디오 시스템.
  5. 제4항에 있어서,
    상기 제2 오브젝트 콘트롤 모듈은
    SAOC 코딩 방법에 기반하는 객체 제거를 위하여, 제거된 객체 신호에 기초하여 가중 팩터를 생성하고, 상기 가중 팩터에 기초하여 다운믹스된 신호를 변경하며, 복수의 객체 신호들 각각에 대한 OLD를 변경하는 퍼스널 오디오 스튜디오 시스템.
  6. 제4항에 있어서,
    상기 제2 오브젝트 콘트롤 모듈은
    보컬 하모닉 코딩 방법에 기반하는 객체 제거를 위하여, 제거된 객체 신호에 기초하여 가중 팩터를 생성하고, 상기 가중 팩터 및 하모닉 제거를 위한 필터를 이용하여 다운믹스된 신호를 변경하며, 복수의 객체 신호들 각각에 대한 OLD를 변경하는 퍼스널 오디오 스튜디오 시스템.
  7. 제4항에 있어서,
    상기 제2 오브젝트 콘트롤 모듈은
    레지듀얼 코딩 방법에 기반하는 객체 제거를 위하여, 제거된 객체 신호에 기초하여 가중 팩터를 생성하고, 상기 가중 팩터에 기초하여 다운믹스된 신호를 변경하며, 복수의 객체 신호들 각각에 대한 OLD를 변경하고, 변경된 OLD에 기초하여 복수의 객체 신호들 각각에 대한 레지듀얼 신호를 변경하는 퍼스널 오디오 스튜디오 시스템.
  8. 제1항에 있어서,
    상기 제2 오브젝트 콘트롤 모듈은
    SAOC 코딩 방법에 기반하는 객체 삽입, 보컬 하모닉 코딩 방법에 기반하는 객체 삽입 또는 레지듀얼 코딩 방법에 기반하는 객체 삽입 중 어느 하나를 이용하여 특정 객체를 삽입하는 퍼스널 오디오 스튜디오 시스템.
  9. 제8항에 있어서,
    상기 제2 오브젝트 콘트롤 모듈은
    SAOC 코딩 방법에 기반하는 객체 삽입을 위하여, 삽입된 객체 신호에 기초하여 다운믹스된 신호를 변경하며, 복수의 객체 신호들 각각에 대한 OLD를 변경하는 퍼스널 오디오 스튜디오 시스템.
  10. 제8항에 있어서,
    상기 제2 오브젝트 콘트롤 모듈은
    보컬 하모닉 코딩 방법에 기반하는 객체 삽입을 위하여, 삽입된 객체 신호에 기초하여 다운믹스된 신호를 변경하며, 복수의 객체 신호들 각각에 대한 OLD를 변경하며, 하모닉 정보를 생성하는 퍼스널 오디오 스튜디오 시스템.
  11. 제8항에 있어서,
    상기 제2 오브젝트 콘트롤 모듈은
    레지듀얼 코딩 방법에 기반하는 객체 삽입을 위하여, 제거된 객체 신호에 기초하여 가중 팩터를 생성하고, 상기 가중 팩터에 기초하여 다운믹스된 신호를 변경하며, 복수의 객체 신호들 각각에 대한 OLD를 변경하고, 변경된 OLD에 기초하여 복수의 객체 신호들 각각에 대한 레지듀얼 신호를 변경하는 퍼스널 오디오 스튜디오 시스템.
  12. 퍼스널 오디오 스튜디오 시스템의 콘트롤 모듈에 있어서,
    객체 제거 모듈; 및
    객체 삽입 모듈
    을 포함하고,
    상기 객체 제거 모듈은
    SAOC 코딩 방법에 기반하는 객체 제거, 보컬 하모닉 코딩 방법에 기반하는 객체 제거 또는 레지듀얼 코딩 방법에 기반하는 객체 제거 중 어느 하나를 이용하여 특정 객체를 제거하며,
    상기 객체 삽입 모듈은
    SAOC 코딩 방법에 기반하는 객체 삽입, 보컬 하모닉 코딩 방법에 기반하는 객체 삽입 또는 레지듀얼 코딩 방법에 기반하는 객체 삽입 중 어느 하나를 이용하여 특정 객체를 삽입하는 콘트롤 모듈.
  13. 제12항에 있어서,
    상기 객체 제거 모듈은
    SAOC 코딩 방법에 기반하는 객체 삽입을 위하여, 삽입된 객체 신호에 기초하여 다운믹스된 신호를 변경하며, 복수의 객체 신호들 각각에 대한 OLD를 변경하는 콘트롤 모듈.
  14. 제12항에 있어서,
    상기 객체 제거 모듈은
    보컬 하모닉 코딩 방법에 기반하는 객체 삽입을 위하여, 삽입된 객체 신호에 기초하여 다운믹스된 신호를 변경하며, 복수의 객체 신호들 각각에 대한 OLD를 변경하며, 하모닉 정보를 생성하는 콘트롤 모듈.
  15. 제12항에 있어서,
    상기 객체 제거 모듈은
    레지듀얼 코딩 방법에 기반하는 객체 삽입을 위하여, 제거된 객체 신호에 기초하여 가중 팩터를 생성하고, 상기 가중 팩터에 기초하여 다운믹스된 신호를 변경하며, 복수의 객체 신호들 각각에 대한 OLD를 변경하고, 변경된 OLD에 기초하여 복수의 객체 신호들 각각에 대한 레지듀얼 신호를 변경하는 콘트롤 모듈.
  16. 제12항에 있어서,
    상기 객체 삽입 모듈은
    SAOC 코딩 방법에 기반하는 객체 삽입을 위하여, 삽입된 객체 신호에 기초하여 다운믹스된 신호를 변경하며, 복수의 객체 신호들 각각에 대한 OLD를 변경하는 콘트롤 모듈.
  17. 제12항에 있어서,
    상기 객체 삽입 모듈은
    보컬 하모닉 코딩 방법에 기반하는 객체 삽입을 위하여, 삽입된 객체 신호에 기초하여 다운믹스된 신호를 변경하며, 복수의 객체 신호들 각각에 대한 OLD를 변경하며, 하모닉 정보를 생성하는 콘트롤 모듈.
  18. 제12항에 있어서,
    상기 객체 삽입 모듈은
    레지듀얼 코딩 방법에 기반하는 객체 삽입을 위하여, 제거된 객체 신호에 기초하여 가중 팩터를 생성하고, 상기 가중 팩터에 기초하여 다운믹스된 신호를 변경하며, 복수의 객체 신호들 각각에 대한 OLD를 변경하고, 변경된 OLD에 기초하여 복수의 객체 신호들 각각에 대한 레지듀얼 신호를 변경하는 콘트롤 모듈.
KR1020140008594A 2014-01-23 2014-01-23 퍼스널 오디오 스튜디오 시스템 KR101567665B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020140008594A KR101567665B1 (ko) 2014-01-23 2014-01-23 퍼스널 오디오 스튜디오 시스템
US15/112,685 US9854379B2 (en) 2014-01-23 2015-01-23 Personal audio studio system
PCT/KR2015/000762 WO2015111969A1 (ko) 2014-01-23 2015-01-23 퍼스널 오디오 스튜디오 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140008594A KR101567665B1 (ko) 2014-01-23 2014-01-23 퍼스널 오디오 스튜디오 시스템

Publications (2)

Publication Number Publication Date
KR20150088144A true KR20150088144A (ko) 2015-07-31
KR101567665B1 KR101567665B1 (ko) 2015-11-10

Family

ID=53681692

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140008594A KR101567665B1 (ko) 2014-01-23 2014-01-23 퍼스널 오디오 스튜디오 시스템

Country Status (3)

Country Link
US (1) US9854379B2 (ko)
KR (1) KR101567665B1 (ko)
WO (1) WO2015111969A1 (ko)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008100099A1 (en) * 2007-02-14 2008-08-21 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
KR101387902B1 (ko) * 2009-06-10 2014-04-22 한국전자통신연구원 다객체 오디오 신호를 부호화하는 방법 및 부호화 장치, 복호화 방법 및 복호화 장치, 그리고 트랜스코딩 방법 및 트랜스코더
WO2011013381A1 (ja) * 2009-07-31 2011-02-03 パナソニック株式会社 符号化装置および復号装置
RU2534958C2 (ru) * 2010-03-04 2014-12-10 ТиЭйчИкс ЛТД. Электронный адаптер для селективной модификации аудио- или видеоданных для использования с выходным устройством
US9165558B2 (en) * 2011-03-09 2015-10-20 Dts Llc System for dynamically creating and rendering audio objects

Also Published As

Publication number Publication date
US20170006402A1 (en) 2017-01-05
US9854379B2 (en) 2017-12-26
KR101567665B1 (ko) 2015-11-10
WO2015111969A1 (ko) 2015-07-30

Similar Documents

Publication Publication Date Title
JP5291096B2 (ja) オーディオ信号処理方法及び装置
JP6531649B2 (ja) 符号化装置および方法、復号化装置および方法、並びにプログラム
KR101747307B1 (ko) 멀티 채널 신호의 부호화/복호화 장치 및 방법
US8639500B2 (en) Method, medium, and apparatus with bandwidth extension encoding and/or decoding
US8818539B2 (en) Audio encoding device, audio encoding method, and video transmission device
JP5298245B2 (ja) Sbrビットストリームパラメータダウンミックス
RU2595544C2 (ru) Устройство и способ кодирования, устройство и способ декодирования и программа
JP2013521539A (ja) 単一再生モードにおいてラウドネス測定値を合成するシステム
TWI438770B (zh) 使用通道間及時間冗餘減少之音訊信號編碼
WO2010016270A1 (ja) 量子化装置、符号化装置、量子化方法及び符号化方法
KR102605961B1 (ko) 고해상도 오디오 코딩
US20130085762A1 (en) Audio encoding device
KR101567665B1 (ko) 퍼스널 오디오 스튜디오 시스템
KR101536855B1 (ko) 레지듀얼 코딩을 이용하는 인코딩 장치 및 방법
JP4454603B2 (ja) 信号処理方法、信号処理装置及びプログラム
Tzagkarakis et al. A multichannel sinusoidal model applied to spot microphone signals for immersive audio
JP4134262B2 (ja) 信号処理方法、信号処理装置及びプログラム
JP4454604B2 (ja) 信号処理方法、信号処理装置及びプログラム
JP6179122B2 (ja) オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム
JP7130878B2 (ja) 高分解能オーディオコーディング
JP5189760B2 (ja) 信号処理方法、信号処理装置及びプログラム
JP4004526B1 (ja) 信号処理方法、信号処理装置及びコンピュータプログラム
JP4750010B2 (ja) 音響音声再生装置
JP4767289B2 (ja) 信号処理方法、信号処理装置及びプログラム
JP4767290B2 (ja) 信号処理方法、信号処理装置及びプログラム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20180823

Year of fee payment: 4