KR20140130225A - 인지 오디오 코덱들에서의 고조파 신호들에 대한 위상 코히어런스 제어 - Google Patents

인지 오디오 코덱들에서의 고조파 신호들에 대한 위상 코히어런스 제어 Download PDF

Info

Publication number
KR20140130225A
KR20140130225A KR1020147027477A KR20147027477A KR20140130225A KR 20140130225 A KR20140130225 A KR 20140130225A KR 1020147027477 A KR1020147027477 A KR 1020147027477A KR 20147027477 A KR20147027477 A KR 20147027477A KR 20140130225 A KR20140130225 A KR 20140130225A
Authority
KR
South Korea
Prior art keywords
audio signal
control information
phase
decoder
signal
Prior art date
Application number
KR1020147027477A
Other languages
English (en)
Other versions
KR101680953B1 (ko
Inventor
사스카 디쉬
유에르겐 헤레
베른드 에들러
프레데리크 나겔
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20140130225A publication Critical patent/KR20140130225A/ko
Application granted granted Critical
Publication of KR101680953B1 publication Critical patent/KR101680953B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation

Abstract

위상-조정된 오디오 신호를 획득하기 위해 인코딩된 오디오 신호를 디코딩하기 위한 디코더가 제공된다. 디코더는 디코딩 유닛(110) 및 위상 조정 유닛(120)을 포함한다. 디코딩 유닛(110)은 디코딩된 오디오 신호를 획득하기 위해 인코딩된 오디오 신호를 디코딩하도록 구성된다. 위상 조정 유닛(120)은 위상-조정된 오디오 신호를 획득하기 위해 디코딩된 오디오 신호를 조정하도록 구성된다. 위상 조정 유닛(120)은 인코딩된 오디오 신호의 수직 위상 코히어런스에 의존하여 제어 정보를 수신하도록 구성된다. 또한, 위상 조정 유닛(120)은 제어 정보에 기초하여 상기 디코딩된 오디오 신호를 조정하도록 구성된다.

Description

인지 오디오 코덱들에서의 고조파 신호들에 대한 위상 코히어런스 제어{Phase Coherence Control for Harmonic Signals in Perceptual Audio Codecs}
본 발명은 오디오 출력 신호를 생성하기 위한 장치 및 방법에 관한 것으로서, 구체적으로는, 인지 오디오 코덱들(perceptual audio codecs)에서의 고조파 신호들(harmonic signals)에 대한 위상 코히어런스 제어(phase coherence control)를 수행하기 위한 장치 및 방법에 관한 것이다.
오디오 신호 프로세싱은 점점 더 중요해진다. 구체적으로, 제한된 용량을 갖는 전송 또는 저장 채널들을 사용하여 소비자들에게 오디오 및 멀티미디어를 제공하는 모든 타입의 애플리케이션들에 있어서의 디지털 기술을 가능케하는 메인스트림으로서, 인지 오디오 코딩이 빠르게 확산되고 있다. 현대의 인지 오디오 코덱들은 점차적으로 낮은 비트레이트들에서 만족스러운 오디오 품질을 전달할 것이 요구된다. 결국, 누군가는 청취자들의 대다수들이 용인할 수 있는 특정 코딩 인공잡음(artifacts)들을 참아야 한다.
이러한 잡음들 중 하나는 주파수에 대한 위상 코히어런스("수직" 코히어런스)의 분실이며, 참고문헌 [8]을 참조하라. 많은 정지된 신호들에 있어서, 주어진 오디오 신호에서의 결과적으로 나타나는 손상은 보통 매우 작다. 그러나, 인간의 청각 시스템에서 단일의 합성물로 인지되는 많은 스펙트럼 성분들을 포함하는 고조파 음조(tonal) 사운드들에서는, 결과적으로 나타나는 인지 왜곡은 불쾌하다.
수직 위상 코히어런스(VPC: vertical phase coherence)가 중요한 통상적인 신호들은 음성 스피치, 금관악기들(brass instruments) 또는 구부려지는 현(string)들 즉 '악기들'이며, 이들의 물리적인 사운드 생성의 본성때문에 이들이 생성하는 사운드는 자신의 오버톤(overtone) 콘텐트 및 고조파 오버톤들 사이의 위상-고정에 있어서 풍성하다. 특히 비트 버짓(bit budget) 매우 제한되는 매우 낮은 비트레이트들에서, 최신 기술 코덱들의 사용은 종종 실질적으로 스펙트럼 성분들의 VPC를 약화시킨다. 그러나, 이전에 언급한 신호들에서, VPC는 중요한 인지성 청각의 큐(cue)이고 신호의 높은 VPC는 보존되어야 한다.
이하에서는, 최신 기술에 따르는 인지 오디오 코딩이 고려된다. 최신 기술에서, 인지 오디오 코딩은 몇개의 공통 주제들을 따르는데, 그 주제들은 시간/주파수-도메인 프로세싱의 사용, 리던던시(redundancy) 감소 (엔트로피 코딩), 및 인지성 효과들의 확실한 이용(pronounced exploitation)을 통한 무상관(irrlevancy) 제거를 포함하며, 참고문헌 [1]을 참조하라. 통상적으로, 입력 신호들은 시간 도메인 신호를 스펙트럼 표현으로 변환하는(즉, 시간/주파수 표현) 분석 필터 뱅크에 의해 분석된다. 스펙트럼 계수들로의 변환은 신호 성분들을 그들의 주파수 컨텐트에 따라 (즉, 개별적인 오버톤 구조들을 갖는 상이한 악기들) 선택적으로 프로세싱하게 한다.
병렬적으로, 입력 신호는 자신의 인지 속성(perceptual property)들에 대하여 분석된다. 예를 들어, 시간 및 주파수 의존 마스킹 임계치(time- and frequency-dependent masking threshold)가 연산될 수 있다. 시간/주파수 의존 마스킹 임계치는 각각의 주파수 대역 및 코딩 시간 프레임에 대한 마스크-대-신호-비(MSR: Mask-to-Signal-Ratio) 또는 절대 에너지 값의 형태로 타깃 코딩 임계치를 통해 양자화 유닛으로 전달될 수 있다.
분석 필터에 의해 전달되는 스펙트럼 계수들은 신호를 표현하기 위해 필요한 데이터 레이트를 감소시키기 위해 양자화된다. 이 단계는 정보의 손실을 내포하면서 신호에게 코딩 왜곡(에러, 노이즈)을 유입시킨다. 이러한 코딩 노이즈의 가청 충격을 최소화시키기 위해, 양자화 단계 사이즈들은 각각의 주파수 대역 및 프레임에 대한 타깃 코딩 임계치들에 따라 제어된다. 이상적으로는, 각각의 주파수 대역에 주입되는 코딩 노이즈는 코딩(마스킹) 임계치보다 낮으며 따라서 주관적 오디오 내의 어떠한 저하도 인지되지 않는다(무관성의 제거). 음향심리학적 요구들에 따른 주파수 및 시간 상의 양자화 노이즈의 제어는 정교한 노이즈 형성(shaping) 효과로 이끌면서 코더를 인지 오디오 코더로 만드는 것이다.
후속적으로, 현대의 오디오 코더들은 엔트로피 코딩, 예컨대, Huffman 코딩 또는 arithmetic 코딩을 양자화된 스펙트럼 데이터 상에서 수행한다. 엔트로피 코딩은 비트레이트를 추가적으로 절약하는 손실 적은 코딩 방법이다.
마지막으로, 예를 들어 각각의 주파수 대역에 대한 양자화 설정들과 같은 모든 코딩된 스펙트럼 데이터 및 관련 추가 파라미터들(즉, 사이드(side) 정보)은 함께 비트스트림 내로 패킹(pack)되고, 이것은 파일 저장 또는 전송에 대해 의도된 마지막 코딩된 표현이다.
이제, 최신 기술의 대역폭 확장이 고려된다. 필터 뱅크들에 기초하는 인지 오디오 코딩에서, 소모된 비트레이트의 주요 부분은 보통 양자화된 스펙트럼 계수들 상에서 소비된다(spend). 따라서, 매우 낮은 비트레이트들에서, 인지적으로 손상되지 않은 재생성을 달성하는데 요구되는 정확함에 있어서 모든 계수들을 표현하기에는 불충분한 비트들이 이용가능하다. 따라서, 낮은 비트레이트 요구들은 인지 오디오 코딩에 의해 획득될 수 있는 오디오 대역폭에 대한 한계를 효과적으로 설정한다.
대역폭 확장(참고문헌 [2] 참고)은 이러한 다년간의 기초적인 한계를 제거한다. 대역폭 확장의 중심 아이디어는 소형 매개변수 형태(compact parametric form)의 유실되는 고-주파수 콘텐츠을 전송하고 회복시키는 추가적인 고-주파수 프로세서에 의해 대역-제한 인지 코덱을 구현하는 것이다. 고 주파수 콘텐츠는 기초대역 신호의 단일의 사이드대역(sideband) 변조에 기초하거나(참고문헌 [3]) 참고문헌 [4]의 보코더(vocoder)와 같은 피치(pitch) 쉬프팅 기술들의 적용에 기초하여 생성될 수 있다.
특히 낮은 비트레이트들에 대해, 소형 매개변수 표현(예를 들어, 참고문헌 [9], [10], [11] 및 [12] 참고)에 의해 사인형 성분(sinusoidal component)들(sinusoids)을 인코딩하는 매개변수 코딩 방식들이 설계되었다. 개별적인 코더들에 의존하여, 나머지 잔류들은 추가적으로 매개변수 코딩에 입력(subject)되거나 파형 코딩(waveform code)된다.
이하에서는, 최신 기술에 따른 매개변수 공간 오디오 코딩이 고려된다. 오디오 신호들의 대역폭 확장과 유사하게, 공간 오디오 코딩(SAC: Spatial Audio Coding)은 파형 코딩의 도메인을 남기지만 대신에 원래의 공간 사운드 이미지의 인지적으로 만족할만한 복제를 전달하는 것에 집중한다. 사람 청취자에게 인지되는 사운드 장면은, 그 장면이 실제 오디오 소스들로 구성되는지 또는 그 장면이 환각(phantom) 사운드를 발사하는 2 개 이상의 확성기들에 의해 재생성되었는지에 무관하게, 청위자의 청각 신호들(소위 두 귀 사이(inter-aural differences)) 사이의 차이들에 의해 결정된다. 개별적인 오디오 입력 채널 신호들을 분리하여 인코딩하는 대신에, SAC에 기초하는 시스템은 멀티-채널 오디오 신호의 공간 이미지를 파라미터들의 소형 세트로 캡쳐하고 상기 파라미터들의 소형 세트는 전송되는 다운믹스(downmix) 신호로부터 고 품질 멀티-채널 표현을 합성하는데 이용될 수 있다(예를 들어, 참고문헌 [5], [6] 및 [7] 참조).
이러한 매개변수 본질에 기인하여, 공간 오디오 코딩은 파형을 보존하지 않는다. 결과적으로, 모든 타입들의 오디오 신호들에 대해 완전히 손상되지 않은 품질을 달성하는 것이 어렵다. 그럼에도 불구하고, 공간 오디오 코딩은 낮으면서 중간의 비트레이트들에서 상당한 이득을 제공하는 매우 강력한 접근법이다.
시간-스트레칭 또는 피치 쉬프팅 효과들과 같은 디지털 오디오 효과들은 통상적으로 동기식 오버랩-애드(SOLA: synchronized overlap-add)과 같은 시간 도메인 기술들을 적용하거나, 또는 주파수 도메인 기술들을 적용함으로써(예를 들어, 보코더를 사용함으로써) 획득된다. 또한, 최신 기술들에서는 부대역(subband)들에서 SOLA 프로세싱을 적용하는 하이브리드 시스템들이 제안되어 왔다. 보코더들 및 하이브리드 시스템들은 통상적으로 위상성(phasiness)라 불리면서 수직 위상 코히어런스의 손실의 결과라고 볼 수 있는 인공잡음을 겪는다. 몇몇 발표들은 수직 위상 코히어런스가 중요한 곳에서 수직 위상 코히어런스를 보존함으로써 시간 스트레칭 알고리즘들의 사운드 품질을 개선하는 것에 관련된다(예를 들어, 참고문헌 [14] 및 [15] 참고).
최신 기술의 인지 오디오 코덱들의 사용은 종종 매개변수 코딩 기술들이 적용되는 곳에서 오디오 신호의 스펙트럼 성분들의 수직 위상 코히어런스(VPC)를, 특히 낮은 비트레이트들에서, 약화시킨다. 그러나, 특정한 신호들에서는, VPC는 중요한 인지성 큐(cue)이다. 결과적으로 이러한 사운드들의 인지 품질은 손상된다.
최신 기술의 오디오 코더들은 통상적으로 코딩될 신호의 중요한 위상 특성들을 무시함으로써 오디오 신호들의 인지 품질을 타협한다(예를 들어, 참고문헌 [1]). 오디오 코더 내에서 전송되는 스펙트럼 계수들의 거친(coarse) 양자화는 디코딩된 신호의 VPC를 이미 변화시킬 수 있다. 게다가, 특히 대역폭 확장과 같은 매개변수 코딩 기술들(즉, 참고문헌 [2], [3] 및 [4]), 매개변수 멀티채널 코딩(즉, 참고문헌 [5], [6] 및 [7]) 또는 사인 성분들의 매개변수 코딩(참고문헌 [9], [10], [11] 및 [12] 참고)의 적용으로 인해, 주파수 상의 위상 코히어런스는 종종 손상된다.
결과는 먼 거리에서부터 오는 것처럼 보이는 흐릿한 사운드이고 따라서 미미한 청취자 참여(littl listener engagement)를 유발시킨다(참고문헌 [13]). 수직 위상 코히어런스가 중요한, 많은 신호 성분 타입들이 존재한다. VPC가 중요한 통상적인 신호들은, 예컨대, 음성 스피치, 금관악기들(brass instruments) 또는 구부려지는 현(string)들과 같이 풍성한 고조파 오버톤 콘텐츠(rich harmonic overtone content)를 갖는 톤들이다.
본 발명의 목적은 오디오 신호 프로세싱에 대한 개선된 개념들을 제공하는 것으로서, 보다 구체적으로, 인지 오디오 코덱들에서 고조파 신호들에 대한 위상 코히어런스 제어에 있어서 개선된 개념들을 제공하는 것이다. 본 발명의 목적은 청구항 1에 따른 디코더, 청구항 8에 따른 인코더, 청구항 14에 따른 장치, 청구항 15에 따른 시스템, 청구항 16에 따른 디코딩을 위한 방법, 청구항 17에 따른 인코딩을 위한 방법, 청구항 18에 따른 오디오 신호를 프로세싱하기 위한 방법, 및 청구항 19에 따른 컴퓨터 프로그램에 의해 해결된다.
위상-조정된 오디오 신호를 획득하기 위해 인코딩된 오디오 신호를 디코딩하기 위한 디코더가 제공된다. 디코더는 디코딩 유닛 및 위상 조정 유닛을 포함한다. 디코딩 유닛은 디코딩된 오디오 신호를 획득하기 위해 인코딩된 오디오 신호를 디코딩하도록 구성된다. 위상 조정 유닛은 위상-조정된 오디오 신호를 획득하기 위해 상기 디코딩된 오디오 신호를 조정하도록 구성된다. 위상 조정 유닛은 상기 인코딩된 오디오 신호의 수직 위상 코히어런스에 의존하여 제어 정보를 수신하도록 구성된다. 또한, 위상 조정 유닛은 상기 제어 정보에 기초하여 상기 디코딩된 오디오 신호를 조정하도록 구성된다.
일 실시예에서, 상기 위상 조정이 활성화되었다는 것을 상기 제어 정보가 지시할 때, 상기 위상 조정 유닛은 상기 디코딩된 오디오 신호를 조정하도록 구성된다. 위상 조정이 비활성화되었다는 것을 상기 제어 정보가 지시할 때, 상기 위상 조정 유닛은 상기 디코덩된 오디오 신호를 조정하지 않도록 구성된다.
다른 실시예에서, 위상 조정 유닛은 상기 제어 정보를 수신하도록 구성될 수 있고, 여기서 상기 제어 정보는 위상 조정의 세기를 지시하는 세기 값을 포함한다. 또한 위상 조정 유닛은 상기 세기 값에 기초하여 상기 디코딩된 오디오 신호를 조정하도록 구성될 수 있다.
추가적인 실시예에 따르면, 디코더는 디코딩된 오디오 신호를 복수개의 부대역들의 복수개의 부대역 신호들로 분해하기 위한 분석 필터 뱅크를 포함할 수 있다. 위상 조정 유닛은 상기 복수개 부대역 신호들의 복수개의 제 1 위상 값들 결정하도록 구성될 수 있다. 또한, 위상 조정 유닛은 상기 위상-조정된 오디오 신호의 제 2 위상 값들을 획득하기 위해 상기 복수개의 제 1 위상 값들 중의 적어도 일부를 수정함으로써 상기 인코딩된 오디오 신호를 조정하도록 구성될 수 있다.
다른 실시예에서, 위상 조정 유닛은 다음의 공식을 적용함으로써 상기 위상 값들의 적어도 일부를 조정하도록 구성될 수 있다:
px'(f) = px(f) - dp(f),
dp(f) = α*(p0(f) + const),
여기서, f는 중심 주파수로서 주파수 f를 갖는 부대역들 중의 하나를 지시하는 주파수이고, 여기서, px(f)는 중심 주파수로서 주파수 f를 갖는 부대역들 중의 하나의 부대역 신호들 중의 하나의 제 1 위상 값들 중의 하나이고, 여기서, px'(f)는 중심 주파수로서 주파수 f를 갖는 부대역들 중의 하나의 부대역 신호들 중의 하나의 제 2 위상 값들 중의 하나이고, 여기서, const는 범위 -π≤ const ≤ π 내의 제 1 각도이고, 여기서, α 는 범위 0 ≤ α ≤ 1 내의 실수이고, 여기서, p0(f) 는 범위 -π≤ p0(f) ≤ π 내의 제 2 각도이고, 상기 제 2 각도 p0(f)는 중심 주파수로서 주파수 f를 갖는 부대역들 중의 하나에 할당된다. 대안적으로, 전술한 위상 조정은 복소 부대역 신호(즉, 이산 푸리에 변환의 복소 스펙트럼 계수들)에 지수적인 위상 항 e-jdp(f)을 곱함을써 달성될 수 있고, 여기서 j는 허수 단위이다.
다른 실시예에 따르면, 디코더는 추가적으로 합성 필터 뱅크를 포함할 수 있다. 위상-조정 오디오 신호는 스펙트럼 도메인에서 표현되는 위상-조정된 스펙트럼-도메인 오디오 신호일 수 있다. 위상-조정된 시간-도메인 오디오 신호를 획득하기 위해, 합성 필터 뱅크는 상기 위상 조정된 스펙트럼-도메인 오디오 신호를 스펙트럼 도메인으로부터 시간 도메인으로 변환하도록 구성될 수 있다.
일 실시예에서, 디코더는 VPC 제어 정보를 디코딩하기 귀해 구성될 수 있다.
또한, 다른 실시예에 따르면, 종래의 시스템들 보다 더 잘 보존된 VPC를 갖는 디코딩된 신호를 획득하기 위해 디코더는 제어 정보를 적용하도록 구성될 수 있다.
또한, 디코더는 비트스트림 내에 포함된 활성화 정보 및/또는 디코더 내에서의 측정들에 의해 조정된 VPC를 조정하도록 구성될 수 있다.
또한, 오디오 입력 신호에 기초하여 제어 정보를 인코딩하기 위한 인코더가 개시된다. 인코더는 변환 유닛, 제어 정보 생성기 및 인코딩 유닛을 포함한다. 복수개의 부대역들로 할당되는 복수개의 부대역 신호들을 포함하는 변환된 오디오 신호를 획득하기 위해, 변환 유닛은 상기 오디오 입력 신호를 시간-도메인으로부터 스펙트럼 도메인으로 변환하도록 구성된다. 변환된 오디오 신호의 수직 위상 코히어런스를 제어 정보가 지시하도록, 제어 정보 생성기는 제어 정보를 생성하도록 구성된다. 인코딩 유닛은 변환왼 오디오 신호 및 제어 정보를 인코딩하도록 구성된다.
일 실시예에서, 인코더의 변환 유닛은, 복수개의 부대역 신호들을 포함하는 변환된 오디오 신호를 획득하기 위해, 오디오 입력 신호를 시간-도메인으로부터 상기 스펙트럼 도메인으로 변환하기 위한 와우관 필터 뱅크를 포함한다.
추가적인 실시예에 따르면, 복수개의 부대역 신호 엔벨로프들을 획득하기 위해, 제어 정보 생성기는 상기 복수개의 부대역 신호들 중의 각각에 대해 부대역 엔벨로프를 결정하도록 구성될 수 있다. 또한, 제어 정보 생성기는 복수개의 부대역 신호 엔벨로프들에 기초하여 결합된 엔벨로프를 생성하도록 구성될 수 있다. 또한 제어 정보 생성기는 결합된 엔벨로프에 기초하여 제어 정보를 생성하도록 구성될 수 있다.
다른 실시예에서, 제어 정보 생성기는 결합된 엔벨로프에 기초하여 특성화 수를 생성하도록 구성될 수 있다. 또한, 특성화 수가 임계치 값보다 큰 때에 위상 조정이 활성화된다는 것을 제어 정보가 지시하도록, 제어 정보 생성기는 제어 정보를 생성하도록 구성될 수 있다. 또한, 특성화 수가 임계치 값보다 작은 때에 위상 조정이 비활성화된다는 것을 제어 정보가 지시하도록, 제어 정보 생성기는 제어 정보를 생성하도록 구성될 수 있다.
추가적인 실시예에 따르면, 제어 정보 생성기는 결합된 엔벨로프의 기하학적 평균 대 결합된 엔벨로프의 산술적 평균의 비를 연산함으로써 제어 정보를 생성하도록 구성될 수 있다.
대안적으로, 결합된 엔벨로프의 최대 값은 결합된 엔벨로프의 평균 값에 비교될 수 있다. 예를 들어, 최대/평균 비는 예컨대 결합된 엔벨로프의 최대 값 대 결합된 엔벨로프의 평균 값의 비로 형성될 수 있다.
일 실시예에서, 부대역 신호들의 수직 위상 코히어런스의 정도를 지시하는 세기 값을 제어 정보가 포함하도록, 제어 정보 생성기는 제어 정보를 생성하도록 구성될 수 있다.
일 실시예에 따른 인코더는 예컨대 주파수 상에서의 위상 측정 및/또는 위상 편차 측정을 통해 인코드 사이드에서의 VPC의 측정을 수행하도록 구성될 수 있다.
또한, 일 실시예에 따른 인코더는 수직 위상 코히어런스의 인지 특징의 측정을 수행하도록 구성될 수 있다.
또한, 일 실시예에 따른 인코더는 위상 코히어런스 특징 측정 및 VPC 측정으로부터 활성화 정보의 편차를 수행하도록 구성될 수 있다.
또한, 일 실시예에 따른 인코더는 시간-주파수 적응적 VPC 큐들 또는 제어 정보를 추출하도록 구성될 수 있다.
또한, 일 실시예에 따른 인코더는 VPC 제어 정보의 소형 표현을 결정하도록 구성될 수 있다.
일 실시예에서, VPC 제어 정보는 비트스트림으로 전송될 수 있다.
또한, 제 2 오디오 신호를 획득하기 위해 제 1 오디오 신호를 프로세싱하기 위한 장치가 제공된다. 장치는 제어 정보 생성기 및 위상 조정 유닛을 포함한다. 제어 정보 생성기는 제 1 오디오 신호의 수직 위상 코히어런스를 제어 정보가 지시하도록 제어 정보를 생성하도록 구성된다. 위상 조정 유닛은 제 2 오디오 신호를 획득하기 위해 제 1 오디오 신호를 조정하도록 구성된다. 또한, 위상 조정 유닛은 제어 정보에 기초하여 제 1 오디오 신호를 조정하도록 구성된다.
또한, 시스템에 제공된다. 세스템은 전술한 실시예들의 하나에 따른 인코더 및 전술한 실시예들의 하나에 따른 적어도 하나의 디코더를 포함한다. 인코더는 변환된 오디오 신호를 획득하기 위해 오디오 입력 신호를 변환하도록 구성된다. 또한, 인코더는 인코딩된 오디오 신호를 획득하기 위해 변환된 오디오 신호를 인코딩하도록 구성된다. 또한, 인코더는 변환된 오디오 신호의 수직 위상 코히어런스를 지시하는 제어 정보를 인코딩하도록 구성된다. 또한, 인코더는 인코딩된 오디오 신호 및 제어 정보를 적어도 하나의 디코더에게 공급하도록 구성된다. 적어도 하나의 디코더는 디코딩된 오디오 신호를 획득하기 위해 인코딩된 오디오 신호를 디코딩하도록 구성된다. 또한, 적어도 하나의 디코더는 위상-조정된 오디오 신호를 획득하기 위해 인코딩된 제어 정보에 기초하여 디코딩된 오디오 신호를 조정하도록 구성된다.
실시예들에서, VPC는 인코더 사이드에서 측정될 수 있고, 코딩된 오디오 신호와 함께 적절한 소형 사이드 정보로서 전송될 수 있고, 신호의 VPC는 디코더에서 회복된다. 대안적인 실시예들에 따르면, 디코더에서 생성된 제어 정보에 의해 조정 되고/되거나 사이드 정보에서 인코더로부터 전송된 활성화 정보에 의해 가이드된 VPC는 디코더에서 조정된다. VPC 프로세싱은 주파수-선택적일 수 있어서 인지적으로 유리할 경우에는 VPC만이 회복될 수 있다.
또한, 위상-조정된 오디오 신호를 획득하기 위해 인코딩된 오디오 신호를 디코딩하기 위한 방법이 제공된다. 디코딩하기 위한 방법은:
- 제어 정보를 수신하는 단계 ― 제어 정보는 인코딩된 오디오 신호의 수직 위상 코히어런스를 지시함 ―;
- 디코딩된 오디오 신호를 획득하기 위해 인코딩된 오디오 신호를 디코딩하는 단계; 및
- 제어 정보에 기초하여 위상-조정된 오디오 신호를 획득하기 위해 디코딩된 오디오 신호를 조정하는 단계를 포함한다.
또한, 오디오 입력 신호에 기초하여 제어 정보를 인코딩하기 위한 방법이 제공된다. 인코딩하기 위한 방법은:
- 복수개의 부대역들로 할당되는 복수개의 부대역 신호들을 포함하는 변환된 오디오 신호를 획득하기 위해 오디오 입력 신호를 시간-도메인으로부터 스펙트럼 도메인으로 변환하는 단계;
- 변환된 오디오 신호의 수직 위상 코히어런스를 제어 정보가 지시하도록, 제어 정보를 생성하는 단계; 및
- 변환된 오디오 신호 및 제어 정보를 인코딩하는 단계를 포함한다.
또한, 제 2 오디오 신호를 획득하기 위해 제 1 오디오 신호를 프로세싱하기 위한 방법이 제공된다. 프로세싱하기 위한 방법은:
- 제 1 오디오 신호의 수직 위상 코히어런스를 제어 정보가 지시하도록 제어 정보를 생성하는 단계; 및
- 제 2 오디오 신호를 획득하기 위해 제어 정보에 기초하여 제 1 오디오 신호를 조정하는 단계를 포함한다.
또한, 컴퓨터 또는 신호 프로세서에 의해 실행될 때, 전술한 방법들 중 어느 하나의 방법을 구현하기 위한 컴퓨터 프로그램이 제공된다.
실시예들에서, 신호 프로세싱, 코딩 또는 전송 프로세스에 의해 VPC가 타협되는 때에 신호들의 수직 위상 코히어런스(VPC)를 보존하기 위한 수단들이 제공된다.
몇몇 실시예들에서, 독착정인 시스템은 자신의 인코딩 이전에 입력 신호의 VPC를 측정하고, 코딩된 오디오 신호와 함께 적절한 소형 사이드 정보를 전송하고, 전송된 소형 사이드 정보에 기초하여 디코더에서 신호의 VPC를 회복시킨다. 대안적으로, 독창적인 방법은 디코더에서 생성된 제어 정보에 의해 조정 되고/되거나 사이드 정보에서 인코더로부터 전송된 활성화 정보에 의해 가이드된 VPC를 디코더 내에서 조정한다.
다른 실시예들에서, 손상된 신호의 VPC는 손상된 신호 자체를 분석함으로써 제어되는 VPC 조정 프로세스를 사용하여 자신의 원래 VPC를 회복시키도록 프로세싱될 수 있다.
양자 모두(both)의 경우들에서, 상기 프로세싱은 시간-주파수 선택적일 수 있어서 인지적으로 유리할 경우에는 VPC 만이 회복된다.
인지 오디오 코더들의 개선된 사운드 품질은 보통의 사이드 정보 비용들에서 제겅된다. 인지 오디오 코더들에 비교할 때, 시간 스트레칭 또는 피치 쉬프팅과 같은 위상 보코더들에 기초하여 디지털 오디오 효과들에 대해 VPC의 측정 및 회복이 유리하다.
실시예들은 종속항들에서 제공된다.
이하에서는, 실시예들은 다음의 도면들을 참조하여 설명된다:
도 1a는 일 실시예에 따라 위상-조정된 오디오 신호를 획득하기 위해 인코딩된 오디오 신호를 디코딩하기 위한 디코더를 도시하고,
도 1b는 다른 실시예에 따라 위상-조정된 오디오 신호를 획득하기 위해 인코딩된 오디오 신호를 디코딩하기 위한 디코더를 도시하고,
도 2는 일 실시예에 따라 오디오 입력 신호에 기초하여 제어 정보를 인코딩하기 위한 인코더를 도시하고,
도 3은 인코더 및 적어도 하나의 디코더를 포함하는 실시예에 따른 시스템을 도시하고,
도 4는 일 실시예에 따른 VPC 프로세싱을 갖는 오디오 프로세싱 시스템을 도시하고,
도 5는 일 실시예에 따른 인지 오디오 인코더 및 디코더를 도시하고,
도 6은 일 실시예에 따른 VPC 제어 생성기를 도시하고,
도 7은 일 실시예에 따라 제 2 오디오 신호를 획득하기 위해 오디오 신호를 프로세싱하기 위한 장치를 도시하고,
도 8은 다른 실시예에 따른 VPC 프로세싱을 갖는 오디오 프로세싱 시스템을 도시한다.
도 1a는 일 실시예에 따라 위상-조정된 오디오 신호를 획득하기 위해 인코딩된 오디오 신호를 디코딩하기 위한 디코더를 도시한다. 디코더는 디코딩 유닛(110) 및 위상 조정 유닛(120)을 포함한다. 디코딩 유닛(110)은 디코딩된 오디오 신호를 획득하기 위해 인코딩된 오디오 신호를 디코딩하도록 구성된다. 위상 조정 유닛(120)은 위상-조정된 오디오 신호를 획득하기 위해 디코딩된 오디오 신호를 조정하도록 구성된다. 또한, 위상 조정 유닛(120)은 인코딩된 오디오 신호의 수직 위상 코히어런스(VPC)에 의존하여 제어 정보를 수신하도록 구성된다. 또한, 위상 조정 유닛(120)은 디코딩된 오디오 신호를 제어 정보에 기초하여 조정하도록 구성된다.
도 1a의 실시예는, 특정의 오디오 신호들에 대해서는 인코딩된 신호의 수직 위상 코히어런스를 회복시키는 것이 중요하다는 것을 고려한다. 예를 들어, 오디오 신호 부분들이 음성 스피치, 금관악기들 또는 구부려지는 현들을 포함하는 때, 수직 위상 코히어런스의 보존이 중요하다. 이러한 목적을 위해, 위상 조정 유닛(120)은 인코딩된 오디오 신호의 VPC에 의존하는 제어 정보를 수신하도록 구성된다.
예를 들어, 인코딩된 신호 부분들이 음성 스피치, 금관악기들 또는 구부려지는 현들을 포함하는 때라면, 인코딩된 신호의 VPC는 높다. 이러한 경우들에서, 위상 조정이 활성화된다는 것을 제어 정보가 지시할 수 있다.
다른 신호 부분들은 펄스-유사 음조 신호들 또는 트랜지언트(transient)들을 포함하지 않을 수 있고, 이러한 신호 부분들의 VPC는 낮을 수 있다. 이러한 경우들에서는, 위상 조정이 비활성화된다는 것을 제어 정보가 지시할 수 있다.
다른 실시예들에서, 제어 정보는 세기 값(strength value)을 포함할 수 있다. 이러한 세기 값은 수행되어야 할 위상 조정의 세기를 지시할 수 있다. 예를 들어, 세기 값은 0≤α≤1인 값 α일 수 있다. 만약 α=1 이거나 1에 가깝다면, 이것은 높은 세기 값을 지시한다. 상당한 위상 조정들은 위상 조정 유닛(120)에 의해 이루어질 것이다. 만약 α에 가까운 경우, 경미한 위상 조정들만이 위상 조정 유닛(120)에 수행될 수 있다. 만약 α=0이라면, 위상 조정들은 전혀 이루어지지 않을 것이다.
도 1b는 다른 실시예에 따라 위상-조정된 오디오 신호를 획득하기 위해 인코딩된 오디오 신호를 디코딩하기 위한 디코더를 도시한다. 디코딩 유닛(110) 및 위상 조정 유닛(120) 외에도, 도 1b의 디코더는 분석 필터 뱅크(115) 및 합성 필터 뱅크(125)를 포함한다.
분석 필터 뱅크(115)는 디코딩된 오디오 신호를 복수개의 부대역들을 갖는 복수개의 부대역 신호들로 분해하도록 구성된다. 도 1b의 위상 조정 유닛(120)은 복수개의 부대역 신호들의 복수개의 제 1 위상 값들을 결정하도록 구성될 수 있다. 또한, 위상-조정된 오디오 신호의 제 2 위상 값들을 획득하기 위해, 위상 조정 유닛(120)은 복수개의 제 1 위상 값들의 적어도 몇개를 수정함으로써 인코딩된 오디오 신호를 조정하도록 구성될 수 있다.
위상-조정된 오디오 신호는 스펙트럼 도메인에서 표현되는 위상-조정된 스펙트럼-도메인 오디오 신호일 수 있다. 위상-조정된 시간-도메인 오디오 신호를 획득하기 위해, 도 1b의 합성 필터 뱅크(125)는 위상 조정된 스펙트럼-도메인 오디오 신호를, 스펙트럼 도메인으로부터 시간 도메인으로 변환하도록 구성될 수 있다.
도 2는 일 실시예에 따라 오디오 입력 신호에 기초하여 제어 정보를 인코딩하기 위한 대응하는 인코더를 도시한다. 인코더는 변환 유닛(210), 제어 정보 생성기(220) 및 인코딩 유닛(230)을 포함한다. 복수개의 부대역들로 할당된 복수개의 부대역 신호들을 포함하는 변환된 오디오 신호를 획득하기 위해, 변환 유닛(210)은 오디오 입력 신호를 시간-도메인으로부터 스펙트럼 도메인으로 변환하도록 구성된다. 제어 정보 생성기(220)는 제어 정보를 생성하도록 구성되고, 제어 정보는 변환된 오디오 신호의 수직 위상 코히어런스(VPC)를 지시한다. 인코딩 유닛(230)은 변환된 오디오 신호 및 제어 정보를 인코딩하도록 구성된다.
도 2의 인코더는 인코딩될 오디오 신호의 수직 위상 코히어런스에 의존하는 제어 정보를 인코딩하도록 구성된다. 제어 정보를 생성하기 위해, 인코더의 변환 유닛(210)은 오디오 입력 신호를 스펙트럼 도메인으로 변환하고, 결과적인 변환된 오디오 신호는 복수개의 부대역들을 갖는 복수개의 부대역 신호들을 포함한다.
이후에, 제어 정보 생성기(220)는 변환된 오디오 신호의 수직 위상 코히어런스에 의존하는 정보를 결정한다.
예를 들면, 제어 정보 생성기(220)는 특정의 오디오 신호 부분을 VPC가 높은 신호 부분으로 분류할 수 있다(예컨대, 값 α=1로 설정). 다른 신호 부분들에 대해서는, 제어 정보 생성기(220)는 특정의 오디오 신호 부분을 VPC가 낮은 신호 부분으로 분류할 수 있다(에컨대, 값 α=0으로 설정).
다른 실시예들에서, 제어 정보 생성기(220)는 변환된 오디오 신호의 VPC에 의존하는 세기 값을 결정할 수 있다. 예를 들어, 제어 정보 생성기는 검사된 신호 부분에 대해 세기 값을 할당할 수 있고, 여기서 세기 값은 신호 부분의 VPC에 의존한다. 디코더 사이드(side)에서는, 오디오 신호의 원래의 VPC를 회복시키기 위해, 디코딩된 오디오 신호의 부대역 위상 값들에 대해 오직 작은 위상 조정들만이 수행되어야 하는지 또는 강한 위상 조정들이 수행되어야 하는지 여부를 결정하기 위해, 세기 값이 이용될 수 있다.
도 3은 다른 실시예를 도시한다. 도 3에서 시스템에 제공된다. 시스템은 인코더(310) 및 적어도 하나의 디코더를 포함한다. 도 3은 단일의 디코더(320)만을 도시하지만, 다른 실시예들은 하나 이상의 디코더를 포함할 수 있다. 도 3의 인코더(310)는 도 2의 실시예의 인코더일 수 있다. 도 3의 디코더(320)는 도 1a의 실시예 또는 도 1b의 실시예의 디코더일 수 있다. 변환된 오디오 신호(미도시)를 획득하기 위해, 도 3의 인코더(310)은 오디오 입력 신호를 변환하도록 구성된다. 또한, 인코딩된 오디오 신호를 획득하기 위해 인코더(310)는 변환된 오디오 신호를 인코딩하도록 구성된다. 또한, 인코더는 변환된 오디오 신호의 수직 위상 코히어런스를 지시하는 제어 정보를 인코딩하도록 구성된다. 인코더는 인코딩된 오디오 신호 및 제어 정보를 적어도 하나의 디코더로 공급(feed)하도록 배열된다.
디코딩된 오디오 신호(미도시)를 획득하기 위해, 도 3의 디코더(320)는 인코딩된 오디오 신호를 디코딩하도록 구성된다. 또한, 위상-조정된 오디오 신호를 획득하기 위해 디코더(320)는 인코딩된 제어 정보에 기초하여 디코딩된 오디오 신호를 조정하도록 구성된다.
이전사항들을 요약하면, 전술한 실시예들은 신호들의, 특히 높은 정도의 수직 위상 코히어런스를 갖는 신호 부분들 내의 수직 위상 코히어런스를 보존하는 것에 목적을 둔다.
제안되는 개념들은 이하에서는 "오디오 시스템"으로도 지칭되는 오디오 프로세싱 시스템에 의해 전달되는 인지 품질을 개선시키는데, 이는 오디오 프로세싱 시스템으로의 입력 신호의 VPC 특성들을 측정하는 것에 의하고, 최종 출력 신호를 형성하기 위해 상기 측정된 VPC 특성들에 기초하여 오디오 시스템에 의해 생산되는 출력 신호의 VPC를 조정하는 것에 의하며, 이로써 상기 최종 출력 신호의 목적되는 VPC가 달성된다.
도 4는 전술한 실시예에 의해 향상된 일반적인 오디오 프로세싱 시스템을 디스플레이한다. 구체적으로, 도 4는 VPC 프로세싱을 위한 시스템을 도시한다. 오디오 시스템(410)의 입력 신호로부터, VPC 제어 생성기(420)는 VPC 및/또는 자신의 인지 특징(salience)을 측정하고, VPC 제어 정보를 생성한다. 오디오 시스템(410)의 출력은 VPC 조정 유닛(430)으로 공급되고, VPC 제어 정보는 VPC를 복귀시키기 위해 VPC 조정 유닛(430)에서 사용된다.
중요한 현실적인 경우로서, 인코더 사이드(side)의 위상 코히어런스의 인지 특징을 및/또는 VPC를 측정하고, 코딩된 오디오 신호와 함께 적합한 소형 사이드 정보(compact side information)를 전송하고, 그리고 전송된 소형 사이드 정보에 기초하여 디코더에서의 신호의 VPC를 회복시킴으로써, 이 개념은 예컨대 전통적인 오디오 코덱들에게 적용될 수 있다.
도 5는 일 실시예에 따른 인지 오디오 인코더 및 디코더를 도시한다. 구체적으로, 도 5는 2-사이드(two-sided) VPC 프로세싱을 구현하는 인지 오디오 코덱을 도시한다.
인코더 사이드에서, 인코딩 유닛(510), VPC 제어 생성기(520) 및 비트스트림 멀티플렉스 유닛(530)이 도시된다. 디코더 사이드에서, 비트스트림 디멀티플렉서(540), 디코딩 유닛(550) 및 VPC 조정 유닛(560)이 도시된다.
인코더 사이드에서, VPC 제어 정보는 VPC 제어 생성기(520)에 의해 생성되고, 멀티플렉스 유닛(530)에 의해 멀티플렉스되는 소형 사이드 정보로서 코딩되어 코딩된 오디오 정보 신호와 함께 비트스트림으로 된다. VPC 제어 정보의 생성은 시간-주파수 선택적일 수 있어서, 유리한 경우에서 VPC만이 측정되고 제어 정보만이 코딩된다.
디코더 사이드에서, VPC 제어 정보는 비트스트림 디멀티플렉서 유닛(540)에 의해 비트스트림으로부터 추출되어 적절한 VPC를 복귀시키기 위해 VPC 조정 유닛(560)에서 적용된다.
도 6은 VPC 제어 생성기(600)의 가능한 구현의 몇몇 세부사항들을 도시한다. 입력 오디오 신호에서, VPC 측정 유닛(610)에 의해 VPC가 측정되고, VPC의 인지 특징이 VPC 특징 측정 유닛(620)에 의해 측정된다. 이러한 것들로부터, VPC 제어 정보는 VPC 제어 정보 도출 유닛(630)에 의해 도출된다. 오디오 입력은 하나 이상의 오디오 신호를 포함할 수 있는데, 즉, 제 1 오디오 입력에 추가하여, 프로세싱된 버젼의 제 1 입력 신호(도 5 참조)를 포함하는 제 2 오디오 입력이 VPC 제어 생성기에 적용될 수 있다.
실시예들에서, 인코더 사이드는 입력 신호의 VPC 및/또는 입력 신호의 VPC의 인지 특징의 측정을 측정하기 위한 VPC 제어 생성기를 포함할 수 있다. VPC 제어 생성기는 디코더 사이드에서의 VPC 조정을 제어하기 위한 VPC 제어 정보를 제공할 수 있다. 예를 들어, 제어 정보는 디코더 사이드 VPC 조정의 인에이블링(enabling) 또는 디스에이블링(disabling)을 포함할 수 있거나, 또는 제어 정보는 디코더 사이드 VPC 조정의 세기를 결정할 수 있다.
수직 위상 코히어런스는 오디오 신호의 주어진 품질에 대해 중요하기 때문에, 만약 신호가 음조적(tonal) 이고/이거나 고조파(harmonic)라면, 그리고 그 피치(pitch)가 매우 빨리 변화하지 않는다면, VPC 제어 유닛의 일반적인 구현은 피치 검출기 또는 고조파 검출기 또는 피치 세기의 측정을 제공하는 적어도 피치 변동 검출기를 포함할 수 있다.
또한, VPC 제어 생성기에 의해 생성되는 제어 정보는 원래 신호의 VPC의 세기를 시그널링할 수 있다. 또는, 제어 정보는, 디코더 사이드 VPC 조정 이후에 원래 신호의 감지되는 VPC가 거의 회복되는 방식의 디코더 VPC 조정을 구동하는 수정 파라미터를 시그널링할 수 있다. 대안적으로 또는 추가적으로, 지정(instate)될 하나 또는 몇개의 타깃 VPC 값들이 시그널링될 수 있다.
VPC 제어 정보는 인코더로부터 디코더 사이드로 소형적으로(compactly), 예컨대 VPC 제어 정보가 추가적인 사이드 정보로서 비트스트림 내에 임베딩되어, 전송될 수 있다.
실시예들에서, 디코더는 인코더 사이드의 VPC 제어 생성기에 의해 제공되는 VPC 제어 정보를 판독하도록 구성될 수 있다. 이 목적을 위해, 디코더는 비트스트림으로부터의 VPC 제어 정보를 판독할 수 있다. 또한, 디코더는 VPC 조정 유닛을 사용함으로써 VPC 제어 정보에 의존하여 보통의 오디오 디코더의 출력을 프로세싱하도록 구성될 수 있다. 또한, 디코더는 프로세싱된 오디오 신호를 출력 신호로서 전달하도록 구성될 수 있다.
이하에서는, 일 실시예에 따른 인코더-사이드 VPC 제어 생성기가 제공된다.
높은 VPC를 나타내는 유사-고정(quasi-stationary) 주기 신호들은 (음성 코딩 또는 음악 신호 분석으로부터 잘 알려지기 때문에) 주기성의 정도 및/또는 피치 세기의 측정을 전달하는 피치 검출기의 사용에 의해 식별될 수 있다. 실제 VPC는, 주파수에 걸친 와우관(cochlear) 엔벨로프(envelope)들의 합산이 뒤따르는 후속적인 부대역 엔벨로트 검출인, 와우관 필터 뱅크의 애플리케이션에 의해 측정될 수 있다. 만약에 예를 들어, 부대역 엔벨로프들이 코히어런트하다면, 상기 합산은 임시적으로 평평하지 않은(temporally non-flat) 신호를 전달하는 반면에, 코히어런트하지 않는(non-coherent) 부대역 엔벨로프들이 임시적으로 더 평평한 신호들로 합산된다. 주기성의 정도 및/또는 피치 세기의 결합된 평가(예를 들어, 미리정의된 임계치들과 각각 비교하는 것에 의해) 및 VPC 측정으로부터, 'VPC 조정 온(on)' 또는 'VPC 조정 오프(off)'를 나타내는 신호 플래그로 구성되는 제어 정보가 도출될 수 있다.
시간-도메인에서의 임펄스-유사 이벤트들은 자신들의 스펙트럼 표현들과 관련되는 강한 위상 코히어런스를 나타낸다. 예를 들어, 푸리에-변환된 디랙 임펄스(Fourier-transformed Dirac impulse)는 선형정으로 증가하는 위상들을 갖는 평평한 스펙트럼을 갖는다. f_0의 기본 주파수를 갖는 주기적 임펄스들의 시리즈에 대해 동일하게 참이다. 여기서, 스펙트럼은 선 스펙트럼(line spectrum)이다. f_0의 주파수 거리를 갖는 이러한 단일의 선들은 또한 위상 코히어런트이다. 이들 위상 코히어런트가 방해되는 때(크기들이 수정되지 않은 채로 남음), 결과적인 시간-도메인 신호는 더이상 디랙 펄스들의 시리즈가 아니고, 대신에, 펄스들은 시간적으로 상당히 확장되어 온다. 이러한 수정은 청취가능하고, 특히 펄스들의 시리즈와 유사한 사운드들과 관련된다(예컨대, 음성 스피치, 금관악기들 또는 구부려지는 현들).
따라서, 시간에서 오디오 신호의 엔벨로프의 지역적 비-평평함을 결정하는 것에 의해 VPC는 간접적으로 측정될 수 있다(엔벨로프의 절대 값들은 고려될 수 있다).
주파수에 걸쳐 엔벨로프들을 합산함으로써, 엔벨로프들이 평평한 결합된 엔벨로프로 합산되는지(낮은 VPC) 또는 평평하지 않은 결합된 엔벨로프로 합산되는지(높은 VPC) 경우가 결정될 수 있다. 제안되는 개념은, 만약 합산된 엔벨로프들이 인지적으로 적응된 청각적으로-정확한 주파수 대역들에 관련되는 경우에 특히 유용하다.
이후, 제어 정보는, 예컨대, 결합된 엔벨로프의 기하학적(geometric) 평균 대 결합된 엔벨로프의 산술적(arithmetic) 평균의 비를 연산함으로써 생성될 수 있다.
대안적으로, 결합된 엔벨로프의 최대 값은 결합된 엔벨로프의 평균 값에 비교될 수 있다. 예를 들어, 최대/평균 비는 결합된 엔벨로프의 최대 값 대 결합된 엔벨로프의 평균 값의 비로 형성될 수 있다.
결합된 엔벨로프, 즉, 엔벨로프들의 합산을 형성하는 대신에, 인코딩될 오디오 신호의 스펙트럼의 위상 값들은 그것들 자체가 주기성을 검사받을 수 있다. 높은 주기성은 높은 VPC를 지시한다. 낮은 주기성은 낮은 VPC를 지시한다.
와우관 필터 뱅크를 사용하는 것은, 만약 VPC 또는 VPC 특징들이 음향심리학적 측정으로 정의될 수 있는 경우에, 오디오 신호들에 대해 특히 유용하다. 특정 필터 대역폭의 선택은, 스펙트럼의 어느 부분적인 톤들이 공통 부대역에 관련되고, 그에 따라 특정 부대역 엔벨로프를 형성하는 것에 공동으로 원인이 되는지를 정의하기 때문에, 인지적으로 적응된 필터들은 인간 청각 시스템의 내부 프로세싱을 가장 정확하게 모델로 할 수 있다.
동일한 크기 스펙트럼을 갖는, 위상-코히어런트(phase-coherent) 및 위상-인코히어런트(phase-incoherent) 신호 사이의 청각적 인지의 차이는 신호(또는 복수개의 신호들) 내의 고조파 스펙트럼 성분들의 지배자에 의존한다. 낮은 기본 주파수, 예컨대 100 Hz의 고조파 성분들은 높은 기본 주파수가 감소시키는 차이점을 증가시키는데, 그 이유는 낮은 기본 주파수는 동일한 부대역에 할당되는 더 많은 오버톤(overtone)들을 야기시키기 때문이다. 이러한 동일 부대역 내의 오버톤들은 다시 합산되고 그들의 부대역 엔벨로프는 검사될 수 있다.
또한, 오버톤들의 진폭은 관련된다. 만약 오버톤들의 진폭이 높으면, 시간-도메인 엔벨로프의 증가는 더 가파로워(sharp)지고, 신호는 더 펄스-유사(pulse-like)해지며 따라서, VPC는 증가적으로 중요해진다, 즉 VPC는 높아진다.
이하에서는, 일 실시예에 따른 디코더-사이드 VPC 조정 유닛이 제공된다. 이러한 VPC 조정 유닛은 VPC 제어 정보 플래그를 포함하는 제어 정보를 포함할 수 있다.
만약 VPC 제어 정보 플래그가 "VPC 조정 off"를 지시하는 경우, 어떠한 전용 VPC 프로세싱도 적용되지 않는다("지나간다" , 또는 대안적으로 단순한 지연). 만약 플래그가 "VPC 조정 on"으로 판독되는 경우, 신호 세그먼트는 분석 필터 뱅크 에 의해 분해되고 주파수 f에서의 각각의 스펙트럼 라인의 위상 p0(f)의 측정이 개시된다. 이로부터, 위상 조정 오프셋 dp(f) = α*(p0(f)+const)이 연산되고, 여기서 'const'는 -π 와 π 사이의 라디안 각도를 나타낸다. 상기 신호 세그먼트 및 "VPC 조정 on"이 시그널링된 다음의 연속적인 세그먼트들에 대해, 스펙트럼 선들 x(f)의 표현들 px(f)는 px'(f) = px(f) - dp(f) 로 조정된다. VPC 조정된 신호는 최종적으로 합성 필터 뱅크에 의해 시간 도메인으로 변환돤다.
개념은, 이상적인 위상 반응으로부터의 편차를 결정하기 위한 초기 측정을 수행하는 아이디어에 기초한다. 이 편차는 나중에 보상된다. α는 범위 0≤α≤1 내의 각도일 수 있고, α=0은 보상이 없다는 것을 의미하고, α=1은 이상적인 위상 반응에 대한 모든(full) 보상을 의미한다. 이상적인 위상 반응은 예를 들어 최대 평평함을 갖는 위상 반응을 도출하는 위상 반응일 수 있다. "const"는 위상 코히어런스가 변하지 않는 고정된 추가적인 각도이지만, 대안적인 절대 위상들을 조정(steer)하게 하며, 따라서 대응하는 신호들(const가 90°일 때 신호의 힐버트 변환(Hilbert transform))을 생성하게 한다.
도 7은 다른 실시예에 따라 제 2 오디오 신호를 획득하기 위해 제 1 오디오 신호를 프로세싱하기 위한 장치를 도시한다. 장치는 제어 정보 생성기(710), 및 위상 조정 유닛(720)을 포함한다. 제어 정보 생성기(710)는, 제어 정보가 제 1 오디오 신호의 수직 위상 코히어런스를 지시하도록, 제어 정보를 생성하도록 구성된다. 위상 조정 유닛(720)은 제 2 오디오 신호를 획득하기 위해 제 1 오디오 신호를 조정하도록 구성된다. 또한, 위상 조정 유닛(720)은 제어 정보에 기초하여 제 1 오디오 신호를 조정하도록 구성된다.
도 7은 단일-사이드 실시예이다. 제어 정보의 결정 및 수행되는 위상 조정들은 인코더(제어 정보 생성) 및 디코더(위상 조정) 사이에서 분열(split)되지 않는다. 대신에, 제어 정보 생성 및 위상 조정는 단일의 장치 또는 시스템에 의해 수행된다.
도 8에서, VPC는 제어 정보에 의해 조정되면서 디코더 사이드에서 생성되는("단일-사이드 시스템") 디코더에서 조정(manipulate)되는데, 그 제어 정보는 디코딩된 오디오 신호를 분석함으로써 생성된다. 도 8에서, 일 실시예에 따라 단일-사이드 VPC 프로세싱을 갖는 인지 오디오 코덱이 도시된다.
예컨대 도 7 및 도 8에서 도시되는 것과 같은 실시예들에 따른 단일-사이드 시스템은 다음의 특성들을 갖는다:
임의의 존재하는 신호 프로세싱 프로세스 또는 오디오 시스템의 출력은, 즉, 오디오 디코더의 출력 신호는 손상되지않은/원래의 신호로의 액세스로 생성되는 VPC 제어 정보로의 액세스(즉, 인코더 사이드)를 갖지 않고 프로세싱된다. 대신에, VPC 제어 정보는 주어진 신호로부터(즉, 디코더와 같은 오디오 시스템의 출력으로부터) 직접 생성될 수 있다(VPC 제어 정보는 "블라인드하게(blindly)" 생성될 수 있다).
VPC 조정을 제어하기 위한 VPC 제어 정보는 예컨대, VPC 조정 유닛을 인에이블링/디스에이블링하기 위한 또는 VPC 조정의 세기를 결정하기 위한 신호들을 포함할 수 있거나, VPC 제어 정보는 지정될 하나 또는 몇개의 타깃 VPC 값들을 포함할 수 있다.
또한, 프로세싱은 블라인드하게 생성된 VPC 제어 정보를 사용하면서 자신의 출력은 시스템 출력으로 전달하는 VPC 조정 단계(VPC 조정 유닛)에서 수행될 수 있다.
이하에서는, 디코더-사이드 VPC 제어 생성기의 실시예가 제공된다. 디코더-사이드 제어 생성기는 인코더-사이드 제어 생성기와 매우 유사할 수 있다. 즉, 피치 세기의 측정 및/또는 주기성의 정도 및 미리정의된 임계치와의 비교를 전달하는 피치 검출기를 포함할 수 있다. 그러나, 디코더-사이드 VPC 생성기는 이미 VPC-왜곡된 신호 상에서 동작하기 때문에, 임계치는 인코더-사이드 제어 생성기의 임계치와 상이할 수 있다. 만약 VPC 왜곡이 경미하다면, 나머지 VPC는 측정되어 VPC 제어 정보를 생성하기 위해 주어진 임계치에 비교될 수 있다.
바람직한 실시예에 따르면, 만약 측정된 VPC 가 높은 경우, 출력 신호의 VPC를 추가적으로 증가시키기 위해 VPC 수정이 적용되고, 만약 측정된 VPC가 낮은 경우, 어떠한 VPC 수정도 적용되지 않는다. VPC의 보존은 음조의 그리고 고조파의 신호들에 대해 가장 중요하기 때문에, 바람직한 실시예에 따른 VPC 프로세싱에 대해, 지배적 피치의 세기의 측정을 제공하는 피치 검출기 또는 적어도 피치 변동 검출기가 사용될 수 있다.
마지막으로, 2-사이드 접근 및 단일-사이드 접근이 결합될 수 있는데, 이 경우 VPC 조정 프로세스는 원래/손상되지않은 신호로부터 도출되어 전송되는 VPC 제어 정보 및 프로세싱된(즉, 디코딩된) 오디오 신호로부터 추출되는 정보의 둘 모두에 의해 제어된다. 예를 들어, 결합된 시스템은 이러한 결합에 기인한다.
비록 몇몇 양상들은 장치의 콘텍스트로 기술되었음에도 불구하고, 이러한 양상들은 대응하는 방법의 기술로도 표현될 수 있음은 명백하며, 이 때 블록 또는 디바이스는 방법 단계 또는 방법 단계의 특징에 대응된다. 유사하게, 방법 단계의 콘텍스트로 기술된 양상들은 또한 대응하는 블록 또는 아이템의 기술 또는 대응하는 장치의 특징을 표현한다.
특정 구현 요구사항들에 의존하여, 본 발명의 실시예들은 하드웨어 또는 소프트웨어로 구현될 수 있다. 구현은, 각각의 단계가 수행되는 프로그램가능한 컴퓨터 시스템과 협동하는(협동할 수 있는) 전자적으로 판독가능한 제어 신호들이 저장된 디지털 저장 매체, 예를 들어, 플로피 디스크, DVD, CD, ROM, PROM, EPROM, EEPROM 또는 플래쉬 메모리를 사용하여 수행될 수 있다.
본 발명에 따른 몇몇 실시예들은, 여기서 설명된 방법들 중 하나가 수행되도록 하는 프로그램가능한 컴퓨터 시스템과 협동할 수 있는 전자적으로 판독가능한 제어 신호들을 갖는 데이터 캐리어를 포함할 수 있다.
일반적으로, 본 발명의 실시예들은 프로그램 코드를 갖는 컴퓨터 프로그램 물건으로 구현될 수 있고, 그 프로그램 코드는 컴퓨터 프로그램 물건이 컴퓨터 상에서 실행될 때 방법들 중의 하나를 수행하기 위해 동작가능하다. 프로그램 코드는 예를 들어 기계 판독가능 캐리어 상에 저장될 수 있다.
다른 실시예들은 여기에서 설명된 방법들 중 하나를 수행하기 위한, 기계 판독가능 캐리어 또는 비-일시적 저장 매체에 저장된 컴퓨터 프로그램을 포함할 수 있다.
다시 말해, 본 발명의 방법의 실시예는, 컴퓨터 프로그램이 컴퓨터 상에서 실행될 때, 여기서 설명된 방법들 중의 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
본 발명의 방법의 추가적인 실시예는 여기서 설명된 방법들 중의 하나를 수행하기 위한 컴퓨터 프로그램이 저장된 데이터 캐리어(또는 디지털 저장 매체 또는 컴퓨터-판독가능 매체)이다.
본 발명의 방법의 추가적인 실시예는, 여기서 설명된 방법들 중의 하나를 수행하기 위한 컴퓨터 프로그램을 표현하는 데이터 스트림 또는 신호들의 시퀀스이다. 그 데이터 스트림 또는 신호들의 시퀀스는 예를 들어 인터넷과 같은 데이터 통신 접속을 통해 전송되도록 구성될 수 있다.
추가적인 실시예는 여기서 설명된 방법들 중의 하나를 수행하도록 구성되거나 적응된 프로세싱 수단들, 예컨대, 컴퓨터 또는 프로그램가능한 로직 디바이스를 포함한다.
추가적인 실시예는 여기서 설명된 방법들 중의 하나를 수행하기 위한 컴퓨터 프로그램이 인스톨된 컴퓨터를 포함한다.
몇몇 실시예들에서, 프로그램가능한 로직 디바이스(예컨대, 필드 프로그램가능한 게이트 어레이)는 여기서 설명된 방법들의 몇몇 또는 모든 기능들을 수행하기 위해 사용될 수 있다. 몇몇 실시예들에서, 필드 프로그램가능한 게이트 어레이는 여기서 설명된 방법들의 하나를 수행하기 위해 마이크로프로세서와 협동할 수 있다. 일반적으로 방법들은 바람직하게 임의의 하드웨어 장치에 의해 수행된다.
전술한 실시예들은 본 발명의 이론들에 대해 단순히 예시적이다. 여기서 설명된 세부사항들 및 배열들의 수정들 또는 변형들은 본 기술분야의 통상의 기술자에게 명백하다는 것이 이해되어야 한다. 따라서, 다음의 특허청구범위에 의해서만 제한되지, 여기서의 실시예들의 설명 또는 기술의 방법으로 제시된 상세한 설명에 의해서는 제한되지 않는다.
References
[1] Painter, T.; Spanias, A. Perceptual coding of digital audio, Proceedings of the IEEE, 88(4), 2000; pp. 451-513.
[2] Larsen, E.; Aarts, R. Audio Bandwidth Extension: Application of psychoacoustics, signal processing and loudspeaker design, John Wiley and Sons Ltd, 2004, Chapters 5,6.
[3] Dietz, M.; Liljeryd, L.; Kjorling, K.; Kunz, 0 . Spectral Band Replication, a Novel Approach in Audio Coding, 112th AES Convention, April 2002, Preprint 5553.
[4] Nagel, F.; Disch, S. ; Rettelbach, N. A Phase Vocoder Driven Bandwidth Extension Method with Novel Transient Handling for Audio Codecs, 126th AES Convention, 2009.
[5] Faller, C.; Baumgarte, F. Binaural Cue Coding- Part II: Schemes and applications, IEEE Trans. On Speech and Audio Processing, Vol. 11, No. 6, Nov. 2003.
[6] Schuijers, E.; Breebaart, J.; Purnhagen, H.; Engdegard, J. Low complexity parametric stereo coding, 116th AES Convention, Berlin, Germany, 2004; Preprint 6073.
[7] Herre, J.; Kjoling, K.; Breebaart, J. et al. MPEG Surround - The ISO/MPEG Standard for Efficient and Compatible Multichannel Audio Coding, Journal of the AES, Vol. 56, No. 11, November 2008; pp. 932-955.
[8] Laroche, J.; Dolson, M., "Phase-vocoder: about this phasiness business," Applications of Signal Processing to Audio and Acoustics, 1997. 1997 IEEE ASSP Workshop on, vol., no., pp.4 pp., 19-22, Oct 1997
[9] Purnhagen, H.; Meine, N.;, "HILN-the MPEG-4 parametric audio coding tools," Circuits and Systems, 2000. Proceedings. ISCAS 2000 Geneva. The 2000 IEEE International Symposium on, vol.3, no., pp.201-204 vol.3, 2000
[10] Oomen, Werner; Schuijers, Erik; den Brinker, Bert; Breebaart, Jeroen:," Advances in Parametric Coding for High-Quality Audio," Audio Engineering Society Convention 114, preprint, Amsterdam/NL, March 2003
[11] van Schijndel, N.H.; van de Par, S.; , "Rate-distortion optimized hybrid sound coding," Applications of Signal Processing to Audio and Acoustics, 2005. IEEE Workshop on, vol., no., pp. 235-238, 16-19 Oct. 2005
[12] http://people.xiph.org/-xiphmont/demo/ghost/demo.html
[13] D. Griesinger 'The Relationship between Audience Engagement and the ability to Perceive Pitch, Timbre, Azimuth and Envelopment of Multiple Sources' Tonmeister Tagung 2010.
[14] D. Dorran and R. Lawlor, "Time-scale modification of music using a synchronized subband/timedomain approach," IEEE International Conference on Acoustics, Speech and Signal Processing, pp. IV 225- IV 228, Montreal, May 2004.
[15] J. Laroche, "Frequency-domain techniques for high quality voice modification," Proceedings of the International Conference on Digital Audio Effects, pp. 328-322, 2003.

Claims (19)

  1. 위상-조정된(phase-adjusted) 오디오 신호를 획득하기 위해 인코딩된 오디오 신호를 디코딩하기 위한 디코더로서,
    디코딩된 오디오 신호를 획득하기 위해 상기 인코딩된 오디오 신호를 디코딩하기 위한 디코딩 유닛(110); 및
    상기 위상-조정된 오디오 신호를 획득하기 위해 상기 디코딩된 오디오 신호를 조정하기 위한 위상 조정 유닛(120; 430; 560)를 포함하고,
    상기 위상 조정 유닛(120; 430; 560)은 상기 인코딩된 오디오 신호의 수직 위상 코히어런스(vertical phase coherence)에 의존하여 제어 정보를 수신하도록 구성되고,
    상기 위상 조정 유닛(120; 430; 560)은 상기 제어 정보에 기초하여 상기 디코딩된 오디오 신호를 조정하도록 구성되는,
    디코더.
  2. 제 1 항에 있어서,
    상기 위상 조정이 활성화(activate)되었다는 것을 상기 제어 정보가 지시할 때, 상기 위상 조정 유닛(120; 430; 560)은 상기 디코딩된 오디오 신호를 조정하도록 구성되고,
    상기 위상 조정이 비활성화되었다는 것을 상기 제어 정보가 지시할 때, 상기 위상 조정 유닛(120; 430; 560)은 상기 디코덩된 오디오 신호를 조정하지 않도록 구성되는,
    디코더.
  3. 제 1 항에 있어서,
    상기 위상 조정 유닛(120; 430; 560)은 상기 제어 정보를 수신하도록 구성되고 ― 상기 제어 정보는 위상 조정의 세기를 지시하는 세기 값을 포함함 ―,
    상기 위상 조정 유닛(120; 430; 560)은 상기 세기 값에 기초하여 상기 디코딩된 오디오 신호를 조정하도록 구성되는,
    디코더.
  4. 제 1 항 내지 제 3 항 중 어느 하나의 항에 있어서,
    상기 디코더는 추가적으로, 상기 디코딩된 오디오 신호를 복수개의 부대역들의 복수개의 부대역 신호들로 분해하기 위한 분석 필터 뱅크를 포함하고,
    상기 위상 조정 유닛(120; 430; 560)은 상기 복수개의 부대역 신호들의 복수개의 제 1 위상 값들을 결정하도록 구성되고,
    상기 위상 조정 유닛(120; 430; 560)은 상기 위상-조정된 오디오 신호의 제 2 위상 값들을 획득하기 위해 상기 복수개의 제 1 위상 값들 중의 적어도 일부를 수정함으로써 상기 인코딩된 오디오 신호를 조정하도록 구성되는,
    디코더.
  5. 제 4 항에 있어서,
    상기 위상 조정 유닛(120; 430; 560)은 다음의 공식을 적용함으로써 상기 위상 값들 중의 적어도 일부를 조정하도록 구성되고:
    px'(f) = px(f) - dp(f),
    dp(f) = α*(p0(f) + const),
    여기서, f는 중심 주파수로서 주파수 f를 갖는 부대역들 중의 하나를 지시하는 주파수이고,
    여기서, px(f)는 중심 주파수로서 주파수 f를 갖는 부대역들 중의 하나의 부대역의 부대역 신호들 중의 하나의 부대역 신호의 제 1 위상 값들 중의 하나이고,
    여기서, px'(f)는 중심 주파수로서 주파수 f를 갖는 부대역들 중의 하나의 부대역의 부대역 신호들 중의 하나의 부대역 신호의 제 2 위상 값들 중의 하나이고,
    여기서, const는 범위 -π≤ const ≤ π 내의 제 1 각도이고,
    여기서, α 는 범위 0 ≤ α ≤ 1 내의 실수이고,
    여기서, p0(f) 는 범위 -π≤ p0(f) ≤ π 내의 제 2 각도이고, 상기 제 2 각도 p0(f)는 중심 주파수로서 주파수 f를 갖는 부대역들 중의 하나에 할당되는,
    디코더.
  6. 제 4 항에 있어서,
    상기 위상 조정 유닛(120; 430; 560)은 상기 복수개의 부대역 신호들 중의 적어도 일부에 지수적인 위상 항(exponential phase term)을 곱함으로써 상기 위상 값들 중의 적어도 일부를 조정하도록 구성되고,
    여기서, 상기 지수적인 위상 항은 공식 e-jdp(f)으로 정의되고,
    여기서, 상기 복수개의 부대역 신호들은 복소(complex) 부대역 신호들이고,
    여기서 j는 허수 단위인,
    디코더.
  7. 제 1 항 내지 제 6 항 중 어느 하나의 항에 있어서,
    상기 디코더는 추가적으로 합성 필터 뱅크(125)를 포함하고,
    상기 위상-조정된 오디오 신호는 스펙트럼 도메인에서 표현되는 위상-조정된 스펙트럼-도메인 오디오 신호이고,
    위상-조정된 시간-도메인 오디오 신호를 획득하기 위해, 상기 합성 필터 뱅크(125)는 상기 위상 조정된 스펙트럼-도메인 오디오 신호를 스펙트럼 도메인으로부터 시간 도메인으로 변환하도록 구성되는,
    디코더.
  8. 오디오 입력 신호에 기초하여 제어 정보를 인코딩하기 위한 인코더로서,
    복수개의 부대역들로 할당되는 복수개의 부대역 신호들을 포함하는 변환된 오디오 신호를 획득하기 위해, 상기 오디오 입력 신호를 시간-도메인으로부터 스펙트럼 도메인으로 변환하기 위한 변환 유닛(210);
    상기 제어 정보가 상기 변환된 오디오 신호의 수직 위상 코히어런스를 지시하도록, 상기 제어 정보를 생성하기 위한 제어 정보 생성기(220; 420; 520; 600); 및
    상기 변환된 오디오 신호 및 상기 제어 정보를 인코딩하기 위한 인코딩 유닛(230)을 포함하는,
    인코더.
  9. 제 8 항에 있어서,
    상기 복수개의 부대역 신호들을 포함하는 상기 변환된 오디오 신호를 획득하기 위해, 상기 변환 유닛(210)은 상기 오디오 입력 신호를 상기 시간-도메인으로부터 상기 스펙트럼 도메인으로 변환하기 위한 와우관(cochlear) 필터 뱅크를 포함하는,
    인코더.
  10. 제 8 항 또는 제 9 항에 있어서,
    복수개의 부대역 신호 엔벨로프(envelope)들을 획득하기 위해, 상기 제어 정보 생성기(220; 420; 520; 600)는 상기 복수개의 부대역 신호들 중의 각각에 대해 부대역 엔벨로프를 결정하도록 구성되고,
    상기 제어 정보 생성기(220; 420; 520; 600)는 상기 복수개의 부대역 신호 엔벨로프들에 기초하여 결합된 엔벨로프를 생성하도록 구성되고,
    상기 제어 정보 생성기(220; 420; 520; 600)는 상기 결합된 엔벨로프에 기초하여 상기 제어 정보를 생성하도록 구성되는,
    인코더.
  11. 제 10 항에 있어서,
    상기 제어 정보 생성기(220; 420; 520; 600)는 상기 결합된 엔벨로프에 기초하여 특성화 수(characterizing number)를 생성하도록 구성되고,
    상기 특성화 수가 임계치 값보다 큰 때에 위상 조정이 활성화된다는 것을 상기 제어 정보가 지시하도록 상기 제어 정보 생성기(220; 420; 520; 600)가 상기 제어 정보를 생성하도록 구성되고,
    상기 특성화 수가 상기 임계치 값보다 작은 때에 상기 위상 조정이 비활성화된다는 것을 상기 제어 정보가 지시하도록 상기 제어 정보 생성기(220; 420; 520; 600)가 상기 제어 정보를 생성하도록 구성되는,
    인코더.
  12. 제 10 항 또는 제 11 항에 있어서,
    상기 제어 정보 생성기(220; 420; 520; 600)는 상기 결합된 엔벨로프의 기하학적(geometric) 평균 대 상기 결합된 엔벨로프의 산술적(arithmetic) 평균의 비를 연산함으로써 상기 제어 정보를 생성하도록 구성되는,
    인코더.
  13. 제 8 항 내제 제 12 항 중 어느 하나의 항에 있어서,
    상기 부대역 신호들의 수직 위상 코히어런스의 정도(degree)를 지시하는 세기 값을 상기 제어 정보가 포함하도록, 상기 제어 정보 생성기(220; 420; 520; 600)는 상기 제어 정보를 생성하도록 구성되는,
    인코더.
  14. 제 2 오디오 신호를 획득하기 위해 제 1 오디오 신호를 프로세싱하기 위한 장치로서,
    상기 제 1 오디오 신호의 수직 위상 코히어런스를 제어 정보가 지시하도록, 상기 제어 정보를 생성하기 위한 제어 정보 생성기(710; 820); 및
    상기 제 2 오디오 신호를 획득하기 위해 상기 제 1 오디오 신호를 조정하기 위한 위상 조정 유닛(720; 830)을 포함하고,
    상기 위상 조정 유닛(720, 830)은 상기 제어 정보에 기초하여 상기 제 1 오디오 신호를 조정하도록 구성되는,
    장치.
  15. 시스템으로서,
    제 8 항 내지 제 13 항 중 어느 하나의 항에 따른 인코더(310); 및
    청구항 제 1 항 내지 제 7 항 중 어느 하나의 항에 따른 적어도 하나의 디코더(320)를 포함하고,
    상기 인코더(310)는 변환된 오디오 신호를 획득하기 위해 오디오 입력 신호를 변환하도록 구성되고,
    상기 인코더(310)는 인코딩된 오디오 신호를 획득하기 위해 상기 변환된 오디오 신호를 인코딩하도록 구성되고,
    상기 인코더(310)는 상기 변환된 오디오 신호의 수직 위상 코히어런스를 지시하는 제어 정보를 인코딩하도록 구성되고,
    상기 인코더(310)는 상기 인코딩된 오디오 신호 및 상기 제어 정보를 상기 적어도 하나의 디코더에게 공급하도록 구성되고,
    상기 적어도 하나의 디코더(320)는 디코딩된 오디오 신호를 획득하기 위해 상기 인코딩된 오디오 신호를 디코딩하도록 구성되고, 그리고
    상기 적어도 하나의 디코더(320)는 위상-조정된 오디오 신호를 획득하기 위해 상기 인코딩된 제어 정보에 기초하여 상기 디코딩된 오디오 신호를 조정하도록 구성되는,
    시스템.
  16. 위상-조정된 오디오 신호를 획득하기 위해 인코딩된 오디오 신호를 디코딩하기 위한 방법으로서,
    제어 정보를 수신하는 단계 ― 상기 제어 정보는 상기 인코딩된 오디오 신호의 수직 위상 코히어런스를 지시함 ―;
    디코딩된 오디오 신호를 획득하기 위해 상기 인코딩된 오디오 신호를 디코딩하는 단계; 및
    상기 제어 정보에 기초하여 상기 위상-조정된 오디오 신호를 획득하기 위해 상기 디코딩된 오디오 신호를 조정하는 단계를 포함하는,
    방법.
  17. 오디오 입력 신호에 기초하여 제어 정보를 인코딩하기 위한 방법으로서,
    복수개의 부대역들로 할당되는 복수개의 부대역 신호들을 포함하는 변환된 오디오 신호를 획득하기 위해 상기 오디오 입력 신호를 시간-도메인으로부터 스펙트럼 도메인으로 변환하는 단계;
    상기 제어 정보가 변환된 오디오 신호의 수직 위상 코히어런스를 지시하도록, 상기 제어 정보를 생성하는 단계; 및
    상기 변환된 오디오 신호 및 상기 제어 정보를 인코딩하는 단계를 포함하는,
    방법.
  18. 제 2 오디오 신호를 획득하기 위해 제 1 오디오 신호를 프로세싱하기 위한 방법으로서,
    제어 정보가 상기 제 1 오디오 신호의 수직 위상 코히어런스를 지시하도록 상기 제어 정보를 생성하는 단계; 및
    상기 제 2 오디오 신호를 획득하기 위해 상기 제어 정보에 기초하여 상기 제 1 오디오 신호를 조정하는 단계를 포함하는,
    방법.
  19. 컴퓨터 또는 신호 프로세서에 의해 실행될 때, 제 16 항 내지 제 18 항 중 어느 하나의 항에 따른 방법을 구현하기 위한 컴퓨터 프로그램.
KR1020147027477A 2012-02-27 2013-02-26 인지 오디오 코덱들에서의 고조파 신호들에 대한 위상 코히어런스 제어 KR101680953B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201261603773P 2012-02-27 2012-02-27
US61/603,773 2012-02-27
EP12178265.0A EP2631906A1 (en) 2012-02-27 2012-07-27 Phase coherence control for harmonic signals in perceptual audio codecs
EP12178265.0 2012-07-27
PCT/EP2013/053831 WO2013127801A1 (en) 2012-02-27 2013-02-26 Phase coherence control for harmonic signals in perceptual audio codecs

Publications (2)

Publication Number Publication Date
KR20140130225A true KR20140130225A (ko) 2014-11-07
KR101680953B1 KR101680953B1 (ko) 2016-12-12

Family

ID=47076051

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020147027477A KR101680953B1 (ko) 2012-02-27 2013-02-26 인지 오디오 코덱들에서의 고조파 신호들에 대한 위상 코히어런스 제어

Country Status (14)

Country Link
US (1) US10818304B2 (ko)
EP (2) EP2631906A1 (ko)
JP (1) JP5873936B2 (ko)
KR (1) KR101680953B1 (ko)
CN (1) CN104170009B (ko)
AU (1) AU2013225076B2 (ko)
BR (1) BR112014021054B1 (ko)
CA (1) CA2865651C (ko)
ES (1) ES2673319T3 (ko)
IN (1) IN2014KN01766A (ko)
MX (1) MX338526B (ko)
RU (1) RU2612584C2 (ko)
TR (1) TR201808452T4 (ko)
WO (1) WO2013127801A1 (ko)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101016224B1 (ko) 2006-12-12 2011-02-25 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 인코더, 디코더 및 시간 영역 데이터 스트림을 나타내는 데이터 세그먼트를 인코딩하고 디코딩하는 방법
CN105765655A (zh) * 2013-11-22 2016-07-13 高通股份有限公司 高频带译码中的选择性相位补偿
EP2963648A1 (en) * 2014-07-01 2016-01-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio processor and method for processing an audio signal using vertical phase correction
JP6668372B2 (ja) * 2015-02-26 2020-03-18 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 目標時間領域エンベロープを用いて処理されたオーディオ信号を得るためにオーディオ信号を処理するための装置および方法
TWI758146B (zh) 2015-03-13 2022-03-11 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
EP3039678B1 (en) * 2015-11-19 2018-01-10 Telefonaktiebolaget LM Ericsson (publ) Method and apparatus for voiced speech detection
CN106653004B (zh) * 2016-12-26 2019-07-26 苏州大学 感知语谱规整耳蜗滤波系数的说话人识别特征提取方法
KR102474146B1 (ko) 2018-04-25 2022-12-06 돌비 인터네셔널 에이비 후처리 지연을 저감시킨 고주파 재구성 기술의 통합
BR112020021832A2 (pt) 2018-04-25 2021-02-23 Dolby International Ab integração de técnicas de reconstrução de alta frequência
CN110728970B (zh) * 2019-09-29 2022-02-25 东莞市中光通信科技有限公司 一种数字辅助隔音处理的方法及装置
EP4276824A1 (en) 2022-05-13 2023-11-15 Alta Voce Method for modifying an audio signal without phasiness

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5054072A (en) * 1987-04-02 1991-10-01 Massachusetts Institute Of Technology Coding of acoustic waveforms
RU2009585C1 (ru) * 1991-06-19 1994-03-15 Евгений Николаевич Пестов Способ ударного возбуждения фазовой когерентности одновременно по крайней мере в двух квантовых системах
FR2692091B1 (fr) * 1992-06-03 1995-04-14 France Telecom Procédé et dispositif de dissimulation d'erreurs de transmission de signaux audio-numériques codés par transformée fréquentielle.
US6766300B1 (en) * 1996-11-07 2004-07-20 Creative Technology Ltd. Method and apparatus for transient detection and non-distortion time scaling
JPH11251918A (ja) * 1998-03-03 1999-09-17 Takayoshi Hirata 音声信号波形符号化伝送方式
US6397175B1 (en) * 1999-07-19 2002-05-28 Qualcomm Incorporated Method and apparatus for subsampling phase spectrum information
US6549884B1 (en) * 1999-09-21 2003-04-15 Creative Technology Ltd. Phase-vocoder pitch-shifting
KR100348790B1 (ko) * 1999-12-21 2002-08-17 엘지전자주식회사 큐에이엠 수신기
US7006636B2 (en) * 2002-05-24 2006-02-28 Agere Systems Inc. Coherence-based audio coding and synthesis
US20030187663A1 (en) * 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
JP4313993B2 (ja) * 2002-07-19 2009-08-12 パナソニック株式会社 オーディオ復号化装置およびオーディオ復号化方法
CN1231889C (zh) * 2002-11-19 2005-12-14 华为技术有限公司 多通道声码器的语音处理方法
SE0303498D0 (sv) * 2003-12-19 2003-12-19 Ericsson Telefon Ab L M Spectral loss conccalment in transform codecs
SE527669C2 (sv) * 2003-12-19 2006-05-09 Ericsson Telefon Ab L M Förbättrad felmaskering i frekvensdomänen
JP4513556B2 (ja) * 2003-12-25 2010-07-28 カシオ計算機株式会社 音声分析合成装置、及びプログラム
JP2008504566A (ja) * 2004-06-28 2008-02-14 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音響送信装置、音響受信装置、周波数範囲適応装置、音響信号送信方法
JP4734961B2 (ja) * 2005-02-28 2011-07-27 カシオ計算機株式会社 音響効果付与装置、及びプログラム
US7856355B2 (en) * 2005-07-05 2010-12-21 Alcatel-Lucent Usa Inc. Speech quality assessment method and system
US7546237B2 (en) * 2005-12-23 2009-06-09 Qnx Software Systems (Wavemakers), Inc. Bandwidth extension of narrowband speech
US9697844B2 (en) * 2006-05-17 2017-07-04 Creative Technology Ltd Distributed spatial audio decoder
EP1918911A1 (en) * 2006-11-02 2008-05-07 RWTH Aachen University Time scale modification of an audio signal
KR101453732B1 (ko) * 2007-04-16 2014-10-24 삼성전자주식회사 스테레오 신호 및 멀티 채널 신호 부호화 및 복호화 방법및 장치
JP5336522B2 (ja) * 2008-03-10 2013-11-06 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 瞬間的事象を有する音声信号の操作装置および操作方法
EP2237266A1 (en) * 2009-04-03 2010-10-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for determining a plurality of local center of gravity frequencies of a spectrum of an audio signal
WO2011039668A1 (en) * 2009-09-29 2011-04-07 Koninklijke Philips Electronics N.V. Apparatus for mixing a digital audio
EP2704143B1 (en) * 2009-10-21 2015-01-07 Panasonic Intellectual Property Corporation of America Apparatus, method and computer program for audio signal processing
CA2792449C (en) * 2010-03-09 2017-12-05 Dolby International Ab Device and method for improved magnitude response and temporal alignment in a phase vocoder based bandwidth extension method for audio signals
JP6037156B2 (ja) * 2011-08-24 2016-11-30 ソニー株式会社 符号化装置および方法、並びにプログラム
FR3008533A1 (fr) * 2013-07-12 2015-01-16 Orange Facteur d'echelle optimise pour l'extension de bande de frequence dans un decodeur de signaux audiofrequences

Also Published As

Publication number Publication date
AU2013225076A1 (en) 2014-09-04
EP2820647B1 (en) 2018-03-21
EP2820647A1 (en) 2015-01-07
US10818304B2 (en) 2020-10-27
RU2014138820A (ru) 2016-04-20
RU2612584C2 (ru) 2017-03-09
CN104170009A (zh) 2014-11-26
CN104170009B (zh) 2017-02-22
MX338526B (es) 2016-04-20
ES2673319T3 (es) 2018-06-21
JP5873936B2 (ja) 2016-03-01
US20140372131A1 (en) 2014-12-18
CA2865651A1 (en) 2013-09-06
TR201808452T4 (tr) 2018-07-23
KR101680953B1 (ko) 2016-12-12
CA2865651C (en) 2017-05-02
MX2014010098A (es) 2014-09-16
WO2013127801A1 (en) 2013-09-06
BR112014021054B1 (pt) 2022-04-26
BR112014021054A2 (pt) 2021-05-25
EP2631906A1 (en) 2013-08-28
JP2015508911A (ja) 2015-03-23
AU2013225076B2 (en) 2016-04-21
IN2014KN01766A (ko) 2015-10-23

Similar Documents

Publication Publication Date Title
KR101680953B1 (ko) 인지 오디오 코덱들에서의 고조파 신호들에 대한 위상 코히어런스 제어
CN110660410B (zh) 音频编码器、音频解码器及相关方法
RU2439718C1 (ru) Способ и устройство для обработки звукового сигнала
US9355645B2 (en) Method and apparatus for encoding/decoding stereo audio
JP5426680B2 (ja) 信号処理方法及び装置
JP2019502965A (ja) 1つの広帯域アライメント・パラメータと複数の狭帯域アライメント・パラメータとを使用して、多チャネル信号を符号化又は復号化する装置及び方法
JP2017068276A (ja) 高周波数領域の符号化及び復号化の方法並びに装置
JP6535730B2 (ja) 独立したノイズ充填を用いた強化された信号を生成するための装置および方法
JP2005517987A (ja) パラメトリックオーディオ符号化
WO2010097748A1 (en) Parametric stereo encoding and decoding
WO2014053537A1 (en) Encoder, decoder and methods for backward compatible multi-resolution spatial-audio-object-coding
CN117542365A (zh) 用于具有全局ild和改进的中/侧决策的mdct m/s立体声的装置和方法
Lindblom et al. Flexible sum-difference stereo coding based on time-aligned signal components
Herre et al. Perceptual audio coding
Quackenbush et al. Digital Audio Compression Technologies
Mouchtaris et al. Low Bitrate Coding of Spot Audio Signals for Interactive and Immersive Audio Applications

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20191031

Year of fee payment: 4