KR20190134708A - 오디오 신호의 인위적 대역폭 제한 처리와 관련된 미리 결정된 특성을 결정하기 위한 장치 및 방법 - Google Patents

오디오 신호의 인위적 대역폭 제한 처리와 관련된 미리 결정된 특성을 결정하기 위한 장치 및 방법 Download PDF

Info

Publication number
KR20190134708A
KR20190134708A KR1020197032021A KR20197032021A KR20190134708A KR 20190134708 A KR20190134708 A KR 20190134708A KR 1020197032021 A KR1020197032021 A KR 1020197032021A KR 20197032021 A KR20197032021 A KR 20197032021A KR 20190134708 A KR20190134708 A KR 20190134708A
Authority
KR
South Korea
Prior art keywords
frequency
audio signal
signal
spectrum
spectral
Prior art date
Application number
KR1020197032021A
Other languages
English (en)
Other versions
KR102563915B1 (ko
Inventor
패트릭 갬프
크리스티안 울레
사샤 디쉬
안토니오스 카람푸어니오티스
율리아 하벤스타인
올리버 헬무트
위르겐 헤레
피터 프로카인
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20190134708A publication Critical patent/KR20190134708A/ko
Application granted granted Critical
Publication of KR102563915B1 publication Critical patent/KR102563915B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers without distortion of the input signal
    • H03G3/20Automatic control

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Auxiliary Devices For Music (AREA)
  • Stereophonic System (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Input Circuits Of Receivers And Coupling Of Receivers And Audio Equipment (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

오디오 신호의 인위적 대역폭 제한 처리와 관련된 미리 결정된 특성을 결정하기 위한 장치는 기울기 평가 결과를 획득하기 위해 오디오 신호의 스펙트럼의 기울기를 평가하도록 구성된 기울기 평가기를 포함한다. 장치는 주파수 평가 결과를 획득하기 위해 오디오 신호의 스펙트럼의 차단 주파수를 평가하도록 구성된 주파수 평가기를 포함하고, 기울기 평가 결과의 평가 및 주파수 평가 결과의 평가에 따라 오디오 신호가 미리 결정된 특성을 포함한다는 것을 나타내는 정보를 제공하는 프로세서를 포함한다.

Description

오디오 신호의 인위적 대역폭 제한 처리와 관련된 미리 결정된 특성을 결정하기 위한 장치 및 방법
멀티미디어 응용에서, 오디오 신호는 종종 MPEG1/2 Layer 3("mp3"), MPEG2/4 AAC(Advanced Audio Coding) 등과 같은 전용 지각 코딩 방법을 사용하여 코딩된다. 인코딩된 오디오 신호를 디코딩할 때, 원래 인코딩된 오디오 신호를 재구성하기 위해 다양한 처리 방법이 적용될 수 있다. 그러나, 지각적으로 적응된 양자화와 같은 손실 코딩 동작 또는 스펙트럼 대역폭 복제(Spectral Bandwidth Replication, SBR)와 같은 파라메트릭 코딩 기술로 인해, 방해될 수 있는 디코딩된 오디오 신호에서 아티팩트를 얻을 수 있다.
오랜 시간 동안 지각 오디오 코더는 원래 신호의 지각 품질을 최대한 보존하기 위해 개발되었다. 코딩된 신호 및 코딩되지 않은 신호가 지각적으로 구별 될 수 없는 경우, 이 특성을 "지각적 투명성"이라 한다.
그러나, 이용 가능한 비트레이트(bitrate)(즉, 사용된 데이터 양)이 충분히 높은 경우에만 투명성이 달성될 수 있다. 최근에, 낮은 비트레이트에서, 투명성의 관점에서 원본과의 근접성보다 지각 적 쾌감이 더 중요하다는 것이 인식되었다. 따라서, MP3 또는 AAC와 같은 잘 확립된 지각 코딩 체계는 지각적 쾌감을 목표로 하는 현대의 코딩 접근법과 비교하여 현재까지 차선책이 될 수 있다.
이하에서는, 일부 코딩 아티팩트가 간략하게 설명된다.
버디(birdies) 아티팩트
낮은 비트레이트 변환 코딩에서, 종종 스펙트럼 라인의 코딩을 위한 양자화기는 매우 거친 정밀도로 설정되어, 그들의 동적 범위가 신호에 적응된다. 결과적으로, 많은 스펙트럼 라인은 양자화기의 데드 존에 의해 0으로 또는 제1 양자화기 단계에 대응하는 값 1로 양자화된다. 시간이 지남에 따라, 스펙트럼 라인 또는 라인 그룹은 0과 1 사이에서 토글되어 원하지 않는 시간적 변조를 야기할 수 있다. 이 아티팩트는 새의 트위터를 연상시키는 "버디"라고 한다. 따라서, 스펙트럼 홀과 스펙트럼 아일랜드의 이러한 시변이 강렬한 존재는 불쾌한 지각 아티팩트로 이어지는 원하지 않는 코덱 거동이다([2] 및 [3] 참조).
대역폭 제한
다른 잘 알려진 코딩 아티팩트는 대역폭 제한이다. 낮은 비트레이트 코딩 조건에서 이용 가능한 비트 예산이 투명성을 위해 필요한 정밀도를 수용하기에 충분하지 않은 경우, 레거시 코덱은 종종 오디오 대역폭을 제한하기 위해 정적 저역 통과를 도입했다. 이는 흐릿하고 알아듣기 어려운 사운드 인상을 야기할 수 있다([2] 및 [3]).
음조(tonal) 스파이크 아티팩트
이 아티팩트는 음조 대 노이즈비가 과대 평가되었을 때 스펙트럼 대역 복제(spectral band replication, SBR)와 같은 인위적 대역폭 확장 방법과 관련하여 나타난다([4] 참조). 이 경우, 음조 성분이 너무 많은 에너지로 재생되어 금속성 사운드를 야기한다([3] 참조).
박동(beating) 아티팩트
음조 스파이크 아티팩트뿐만 아니라 박동 아티팩트가 인위적 대역폭 확장과 관련하여 나타난다. 박동은 거침에 대한 지각을 만들어 내고 SBR에서 사용된 복사에 의해 야기될 수 있는 가까운 주파수 거리를 가진 두 가지 음조 성분에서 발생한다([3] 참조).
따라서, 오디오 신호가 아티팩트를 도입할 수 있고/있거나 그러한 아티팩트를 감소시킬 수 있는 처리가 되었는지 여부를 검출하는 것이 목적이다.
아티팩트의 소스일 수 있는 처리 방법의 예는 디코더 측에서 오디오 신호의 대역폭을 확장하기 위한 반(semi) 파라메트릭 방법인 스펙트럼 대역 복제(SBR)이다. 제1 단계에서, 전송된 저역 통과 신호 스펙트럼의 일부는 스펙트럼 계수를 낮은 주파수 도메인에서 높은 주파수 도메인으로 복사함으로써 복제된다. 제2 단계에서, 스펙트럼 엔벨로프가 조정된다. 스펙트럼 엔벨로프의 조정은 스펙트럼의 거친 형상은 주어진 타겟과 매칭하고, 반면 미세 구조는 변형되지 않은 채로 유지되도록 수행된다.
SBR의 검출은 획득된 정보로부터 다음과 같이 결론지을 수 있기 때문에 바람직하다:
1. 신호는 지각적 오디오 코딩에 의해 압축되었다(즉, 손실). 따라서, 상술한 아티팩트 유형을 다루는 향상(enhancement) 방법의 적용이 적절하다.
2. 신호의 사운드 품질은 SBR에 의해 도입된 아티팩트의 가청성을 감소시키기 위한 전용 방법에 의해 잠재적으로 개선될 수 있다. 이러한 방법은 SBR이 적용되는 시작 주파수에 대한 지식을 활용한다.
SBR이 적용되는 시작 주파수는 SBR에 의해 도입된 아티팩트를 완화함으로써 사운드 품질을 개선시키는 후 처리에 중요하다. 따라서, SBR을 검출하고 SBR의 시작 주파수를 추정할 필요가 있다. 특히, 그러한 향상이 바람직한지 여부를 결정하는 것이 바람직하다. 예를 들어, 오디오 신호의 사운드 품질이 높은 경우 향상이 사운드 품질을 저하시킬 수 있으므로 높은 사운드 품질의 신호에는 적합하지 않다.
SBR의 검출 방법은 US 9,117,440 B2에 기재되어 있다. 설명된 방법은 필터 뱅크 또는 시간-주파수 변환을 사용하여 계산된 부대역 신호에 대해 동작한다. 그 다음에, 교차 상관을 통해, 즉 해당 샘플을 곱하고 시간이 지남에 따라 이러한 곱을 누적하여 다수의 부대역 간의 관계를 정량화한다.
아티팩트 소스의 다른 예는 대역폭 축소(bandwidth reduction, BR)로, 이는 대역폭 제한(bandwidth limitation, BL)이라고도 한다. 대역폭이 심각하게 제한되는 경우, 사운드 품질의 저화가 지각되고 품질 개선이 요구된다. 이러한 품질 개선은 필요한 경우, 즉 신호의 고유 대역폭이 인위적으로 심각하게 감소된 경우에만 적용되어야 하는 대역폭 확장(bandwidth extension, BWE)을 포함할 수 있다. 대역폭 추정을 사용하는 BWE의 방법은 [1]에 설명되어 있다. 대역폭은 임의의 주어진 시간에 신호에 존재하는 최고 주파수를 검출하여 추정된다. 이 방법은 신호를 생성하는 메커니즘이 더 낮은 주파수에서 에너지만 생성하므로 오디오 신호는 본질적으로 제한된 대역폭을 가질 수 있기 때문에 잘못된 양성 검출 오류가 발생하기 쉽다.
요약하면, 오디오 컨텐츠의 저장 공간 또는 스트리밍 대역폭이 제한되는 경우 지각적인 오디오 코더가 널리 사용된다. 적용된 압축률이 매우 높은 경우(및 압축 후 사용된 데이터 율이 매우 낮은 경우), 지각되는 오디오 품질을 저하시키는 몇 가지 코딩 아티팩트가 도입된다.
따라서, 본 발명의 목적은 아티팩트 경향이 있는 오디오 처리에 의해 획득되는 특성을 포함하는 오디오 신호의 향상된 식별을 제공하고 및/또는 그러한 오디오 자료에 대한 전용 후 처리의 적용을 통해 이러한 아티팩트를 감소시키는 개념을 제공하는 것이다.
이 목적은 독립항에 따른 주제에 의해 달성된다.
제1 양태에 따르면, 본 발명자들은 오디오 신호로부터 도출되는 로컬 최대 신호를 사용하고 로컬 최대 신호의 세그먼트들 사이의 유사성을 결정함으로써, 예를 들어 음조 스파이크 아티팩트 및/또는 박동 아티팩트를 감소시키기 위해 각각의 오디오 신호에 대해 각각의 후 처리가 구현될 수 있도록 스펙트럼 향상 처리와 관련된 특성의 안전하고 효율적인 식별을 획득할 수 있음을 발견하였다. 신호의 평가에 기초하여, 모듈의 블라인드 동작이 가능하도록 구현된 오디오 처리를 나타내는 보조 정보(side information)가 요구되지 않을 수 있다.
제1 양태의 일 실시예에 따르면, 오디오 신호의 스펙트럼 향상 처리와 관련된 미리 결정된 특성을 결정하기 위한 장치는 오디오 신호의 스펙트럼을 획득하고 스펙트럼의 미세 구조와 관련된 정보를 도출하도록 구성된 도출기를 포함한다. 장치는 스펙트럼의 미세 구조에서 유사성을 결정하도록 구성된 결정기를 포함한다. 장치는 유사성의 평가에 따라 오디오 신호가 미리 결정된 특성을 포함한다는 것을 나타내는 정보를 제공하기 위한 프로세서를 더 포함한다. 미세 구조와 관련된 정보의 세그먼트들 사이의 유사성을 비교하기 위해, 적은 양의 계산 노력이 요구될 수 있다. 또한, 스펙트럼 향상 처리가 수행되었을 수 있음을 나타내는 유사한 세그먼트의 정확하고 안전한 결정이 획득될 수 있다.
제1 양태의 다른 실시예에 따르면, 오디오 신호의 스펙트럼 향상 처리와 관련된 미리 결정된 특성을 결정하는 방법은 오디오 신호의 스펙트럼을 획득하고 스펙트럼의 미세 구조와 관련된 정보를 도출하는 단계를 포함한다. 이 방법은 미세 구조와 관련된 정보의 세그먼트들과 같은 미세 구조에서의 유사성을 결정하는 단계를 포함하고, 유사성의 평가에 따라 오디오 신호가 미리 결정된 특성을 포함한다는 것을 나타내는 정보를 제공하는 단계를 포함한다.
제1 양태의 다른 실시예에 따르면, 비일시적 저장 매체에는 컴퓨터 상에서 실행될 때 이러한 방법을 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이 저장되어 있다.
제2 양태에 따르면, 본 발명자들은 스펙트럼의 기울기와 관련하여 오디오 신호의 스펙트럼을 평가함으로써, 인위적 대역폭 제한 처리와 관련된 특성을 포함하도록 오디오 신호의 안전하고 효율적인 특성화가 예를 들어 버디 아티팩트 및/또는 대역폭 제한 아티팩트를 감소 또는 제거하기 위해 각각의 후 처리를 가능하게 할 수 있음을 발견하였다. 신호의 평가에 기초하여, 모듈의 블라인드 동작이 가능하도록 구현된 오디오 처리를 나타내는 보조 정보가 요구되지 않을 수 있다.
제2 양태의 일 실시예에 따르면, 오디오 신호의 인위적 대역폭 제한 처리와 관련된 미리 결정된 특성을 결정하기 위한 장치는 기울기 평가 결과를 획득하기 위해 오디오 신호의 스펙트럼의 기울기를 평가하도록 구성된 기울기 평가기를 포함한다. 장치는 기울기 평가 결과에 따라 오디오 신호가 미리 결정된 특성을 포함한다는 것을 나타내는 정보를 제공하기 위한 프로세서를 더 포함한다. 오디오 신호가 스펙트럼의 기울기, 예를 들어 스펙트럼의 하강 에지에 대한 인위적 대역폭 제한 처리와 관련된 특성을 포함하는지의 평가에 기초함으로써, 적은 계산 노력을 사용하여 인위적 대역폭 제한 처리의 정확한 검출이 획득될 수 있다.
제2 양태의 또 다른 실시예에 따르면, 오디오 신호의 인위적 대역폭 제한 처리와 관련된 미리 결정된 특성을 결정하는 방법은 기울기 평가 결과를 획득하기 위해 오디오 신호의 스펙트럼의 기울기를 평가하는 단계를 포함한다. 방법은 기울기 평가 결과에 따라 오디오 신호가 미리 결정된 특성을 포함한다는 것을 나타내는 정보를 제공하는 단계를 포함한다.
제2 양태의 일 실시예에 따르면, 비일시적 저장 매체에는 컴퓨터 상에서 실행될 때 이러한 방법을 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이 저장되어 있다.
제1 및 제2 양태 모두는 대상이 아닌 프레임의 후 처리를 피하기 위해 각각의 처리를 받는 오디오 신호 또는 그 프레임과 대상이 아닌 오디오 신호 또는 그 프레임을 구별할 수 있게 한다.
제3 양태에 따르면, 본 발명자들은 오디오 신호의 상이한 신호 특성을 갖는 상이한 부분에 대해 상이한 대역폭 확장을 수행함으로써, 상이한 부분 및/또는 특성의 향상은 서로 독립적으로 수행되어, 향상된 제1 부분 및 향상된 제2 부분을 포함하는 고품질의 결합된 신호를 획득할 수 있음을 발견하였다. 상이한 신호 특성을 상이하게 처리하면 각각의 특성에 기초하여 처리를 적응시킬 수 있다.
제3 양태의 일 실시예에 따르면, 오디오 신호를 처리하기 위한 장치는 오디오 신호의 스펙트럼의 제2 부분으로부터 오디오 신호의 스펙트럼의 제1 부분을 분리하기 위한 분리기를 포함한다. 제1 부분은 제1 신호 특성을 갖고 제2 부분은 제2 신호 특성을 갖는다. 장치는 제1 확장된 부분을 획득하기 위해, 제1 신호 특성과 연관된 제1 파라미터를 사용하여 제1 부분의 대역폭을 확장하기 위한 제1 대역폭 확장기를 포함한다. 장치는 제2 확장된 부분을 획득하기 위해, 제2 신호 특성과 연관된 제2 파라미터를 사용하여 제2 부분의 대역폭을 확장하기 위한 제2 대역폭 확장기를 포함한다. 장치는 확장되고 결합된 오디오 신호를 획득하기 위해 제1 확장된 부분 및 제2 확장된 부분을 사용하도록 구성된 결합기를 더 포함한다. 이는 서로 독립적인 상이한 신호 특성을 갖는 상이한 부분을 향상시켜서 고품질의 결합된 오디오 신호를 획득하도록 할 수 있다.
제3 양태의 또 다른 실시예에 따르면, 오디오 신호를 처리하는 방법은 오디오 신호의 스펙트럼의 제1 부분을 오디오 신호의 스펙트럼의 제2 부분으로부터 분리하는 단계를 포함하며, 제1 부분은 제1 신호 특성을 가지고, 제2 부분은 제2 신호 특성을 갖는다. 방법은 제1 확장된 부분을 획득하기 위해, 제1 신호 특성과 연관된 제1 파라미터를 사용하여 제1 부분의 대역폭을 확장하는 단계를 포함한다. 방법은 제2 확장된 부분을 획득하기 위해, 제2 신호 특성과 연관된 제2 파라미터를 사용하여 제2 부분의 대역폭을 확장하는 단계를 포함한다. 방법은 확장되고 결합된 오디오 신호를 획득하기 위해 제1 확장된 부분 및 제2 확장된 부분을 사용하는 단계를 더 포함한다.
제3 양태의 또 다른 실시예에 따르면, 비일시적 저장 매체에는 컴퓨터 상에서 실행될 때 이러한 방법을 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이 저장되어 있다.
제4 양태에 따르면, 본 발명자들은 오디오 신호의 상이한 부분에 대해 오디오 신호의 일부를 위상 시프팅함으로써, 지각된 거칠기가 감소될 수 있다는 것을 발견했다. 특히, 대역폭 확장을 위해 생성 또는 복사될 수 있는 부분은 확장되지 않은 스펙트럼과 비교할 때 위상 시프팅될 수 있다.
제4 양태의 일 실시예에 따르면, 오디오 신호를 처리하기 위한 장치는 위상 시프팅된 신호를 획득하기 위해 오디오 신호의 적어도 일부를 위상 시프팅하기 위한 거침 방지 필터를 포함한다. 장치는 제1 필터링된 신호를 획득하기 위해 위상 시프팅된 신호를 필터링하도록 구성된 고역 통과 필터를 포함한다. 장치는 제2 필터링된 신호를 획득하기 위해 오디오 신호를 필터링하도록 구성된 저역 통과 필터를 포함한다. 장치는 향상된 오디오 신호를 획득하기 위해 제1 필터링된 신호와 제2 필터링된 신호를 결합하도록 구성된 결합기를 포함한다. 장치는 저역 통과 필터에 의해 남겨진 부분과 비교할 때 고역 통과 필터에 의해 남겨진 위상 시프팅된 부분을 허용하여, 제1 필터링된 신호는 오디오 신호와 비교할 때, 제2 필터링된 신호는 오디오 신호와 비교할 때, 각각 위상 시프팅된 부분을 포함할 수 있다. 이는 결합된 신호에서 낮은 거칠기를 획득하는 것을 허용할 수 있다.
제4 양태의 또 다른 실시예에 따르면, 오디오 신호를 처리하는 방법은 위상 시프팅된 신호를 획득하기 위해 오디오 신호의 적어도 일부를 위상 시프팅하는 단계를 포함한다. 이 방법은 제1 필터링된 신호를 획득하기 위해 고역 통과 필터를 사용하여 위상 시프팅된 신호를 필터링하는 단계를 포함한다. 방법은 제2 필터링된 신호를 회득하기 위해 저역 통과 필터를 사용하여 오디오 신호를 필터링하는 단계를 더 포함한다. 방법은 향상된 오디오 신호를 획득하기 위해 제1 필터링된 신호와 제2 필터링된 신호를 결합하는 단계를 더 포함한다.
제4 양태의 또 다른 실시예에 따르면, 비일시적 저장 매체에는 컴퓨터 상에서 실행될 때 이러한 방법을 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이 저장되어 있다.
본 발명의 다른 실시예는 종속항에 정의되어 있다.
본 개시 내용 및 그 장점을 보다 완전하게 이해하기 위해, 첨부 도면과 관련하여 다음의 설명을 참조하며, 여기서:
도 1은 제1 양태의 일 실시예에 따른 오디오 신호의 스펙트럼 향상 처리와 관련된 미리 결정된 특성을 결정하기 위한 장치의 개략적인 블록도를 도시한다;
도 2a는 도 1의 스펙트럼이 획득될 수 있는 오디오 신호로부터 도출될 수 있는, 제1 양태의 일 실시예에 따른 예시적인 스펙트럼을 도시하는 개략적인 그래프를 도시한다;
도 2b는 제1 양태의 일 실시예에 따른 도 2a에서와 동일한 주파수 가로 좌표에 걸친 로컬 최대 신호의 개략적인 예시도를 도시한다;
도 3은 결정 규칙을 사용하여 유사성을 결정하기 위한 제1 양태의 일 실시예에 따른 개략도를 도시한다;
도 4는 제1 양태의 실시예에 따른 후 처리된 유사성 함수의 예를 필터링된 값으로 도시한다;
도 5는 주파수 추정기를 포함하는 제1 양태의 일 실시예에 따른 장치의 개략적인 블록도를 도시한다;
도 6a는 제1 양태의 일 실시예에 따른 예시적인 로컬 유사성 매트릭스의 개략적인 그래픽 표현을 도시한다;
도 6b는 제1 양태의 일 실시예에 따른 도 6a에 도시된 매트릭스의 라인의 개략도를 도시한다;
도 7은 스펙트럼 계산기를 포함하는 제1 양태의 일 실시예에 따른 장치의 개략적인 블록도를 도시한다;
도 8은 제1 양태의 일 실시예에 따른 오디오 신호의 스펙트럼 향상 처리와 관련된 미리 결정된 특성을 결정하는 방법의 개략적인 흐름도를 도시한다;
도 9는 제2 양태의 일 실시예에 따른 장치의 개략적인 블록도를 도시한다;
도 10은 제2 양태의 일 실시예와 관련하여 예시적인 스펙트럼을 도시하는 개략도를 도시한다;
도 11은 제2 양태의 일 실시예에 따른 스펙트럼 차이 함수의 예시적인 결과의 개략도를 도시한다;
도 12a는 에너지 추정기를 포함하는 제2 양태의 일 실시예에 따른 장치의 개략적인 블록도를 도시한다;
도 12b는 제2 양태의 일 실시예에 따른 차단 주파수에서 하강 에지를 포함하는 예시적인 스펙트럼을 도시한다;
도 12c는 제2 양태의 일 실시예에 따른 디코더로부터 수신될 수 있는 오디오 신호를 처리하도록 구성된 장치의 개략적인 블록도를 도시한다;
도 12d는 제2 양태의 일 실시예에 따른 스펙트럼 가중치를 결정하기 위한 프로세서의 기능의 개략적인 블록도를 도시한다;
도 12e는 버디 아티팩트를 감소시키도록 구성된, 제2 양태의 일 실시예에 따른 신호 향상기의 개략적인 블록도를 도시한다;
도 12f는 제2 양태의 일 실시예에 따른 오디오 신호를 처리하는 방법의 개략적인 흐름도를 도시한다;
도 13a는 제2 양태의 일 실시예에 따른 오디오 신호의 인위적 대역폭 제한 처리와 관련된 미리 결정된 특성을 결정하는 방법의 개략적인 흐름도를 도시한다;
도 13b는 제2 양태의 실시예에 따른 오디오 신호의 인위적 대역폭 제한 처리와 관련된 미리 결정된 특성을 결정하는 다른 방법의 개략적인 흐름도를 도시하며, 이 방법은 또한 차단 주파수를 평가한다;
도 14는 제3 양태의 일 실시예에 따른 장치의 개략적인 블록도를 도시한다;
도 15는 제3 양태의 일 실시예에 따른 상이한 성분을 포함하는 예시적인 스펙트럼을 도시하는 개략도를 도시한다;
도 16은 제3 양태의 일 실시예에 따른 장치의 개략적인 블록도를 도시한다;
도 17a는 제3 양태의 일 실시예에 따른 오디오 신호의 제1 부분의 예시적인 스펙트럼을 도시한다;
도 17b는 제3 양태의 실시예에 따른 제1 부분이 다수의 2개의 복제된 부분만큼 확장된 개략도를 도시한다;
도 17c는 제3 양태의 일 실시예에 따른 도 17b의 적어도 확장된 부분을 성형하도록 구성되는 엔벨로프 성형기로부터 획득될 수 있는 예시적인 크기 스펙트럼을 도시한다;
도 18은 제3 양태의 일 실시예에 따른 오디오 신호를 화이트닝하도록 구성되는 스펙트럼 화이트너(whitener)의 개략적인 블록도를 도시한다;
도 19는 제3 양태의 일 실시예에 따른 도 16의 장치의 신호 분석기이고 룩업 테이블인 선택적 블록의 기능을 도시한다;
도 20은 제3 양태의 일 실시예에 따른 방법의 개략적인 흐름도를 도시한다;
도 21은 제4 양태의 일 실시예에 따른 장치의 개략적인 블록도를 도시한다;
도 22는 제4 양태의 실시예에 따른 분리기를 포함하는 장치의 개략적인 블록도를 도시한다; 그리고
도 23은 제3 양태의 일 실시예에 따른 오디오 신호를 처리하는 방법의 개략적인 흐름도를 도시한다.
동일 또는 등가의 요소 또는 동일한 또는 동등한 기능을 가진 요소는 상이한 도면에서 발생한다고 해도 동일 또는 유사한 참조 번호로 다음의 설명에서 표시된다.
본 명세서에 설명된 실시예는 디지털 신호 처리에 관한 것임에 또한 유의해야 한다. 따라서, 모든 신호는 샘플링으로 인해 샘플링 주파수의 절반 미만의 주파수로 대역이 제한된다. 본 명세서에서 논의된(인위적) 대역폭 제한은 신호의 대역폭이 디지털 표현이 허용하는 것보다 작도록 하는 추가적인 대역폭 제한을 지칭한다.
제1 양태 및 제2 양태는 각각의 오디오 신호가 특정 처리를 받았음을 나타내는 오디오 신호 내의 신호 특성을 식별하는 것에 관한 것이다. 이와 관련된 각각의 특성 및 파라미터를 식별함으로써, 처리에 응답하여 발생할 수 있는 아티팩트를 감소시키거나 제거하기 위해 적절한 액션 및 처리가 수행되거나 실행될 수 있다. 따라서, 처리된 오디오 신호에 삽입될 수 있는 아티팩트를 감소시키는 것은 각각 제1 양태 및 제2 양태와 관련되는 것으로 이해될 수 있다.
제3 및 제4 양태는 후 처리 오디오 신호를 지칭한다. 오디오 품질을 향상시키기 위해 오디오 신호를 후 처리하기 위해, 이전에 수행된 오디오 신호의 처리와 관련된 정보, 예를 들어 제1 양태 및 제2 양태에 따라 도출된 정보가 사용될 수 있고/있거나, 그 정보가 상이한 오디오 신호와 관련하여 사용될 수 있다.
따라서, 이하에서는, 제3 및 제4 양태를 언급하기 전에 제1 및 제2 양태가 먼저 언급될 것이다. 제1 양태의 범위는 오디오 신호, 특히 손실 압축 또는 다른 신호 처리를 사용하여 코딩된 오디오 신호의 사운드 품질의 개선이다. 스펙트럼 대역 복제(SBR)는 통상적으로 비트스트림으로 전송되는 부가 정보에 의해 유도되는 저주파로부터 오디오 신호 스펙트럼의 일부를 복제하는 고주파수 컨텐츠를 합성하기 위한 파라메트릭 오디오 코딩 방법이다. SBR의 존재 및 SBR이 시행되는 시작 주파수(또는 SBR 이전에 신호가 대역 제한된 차단 주파수의 동의어)에 대한 지식은 오디오 신호의 사운드 품질을 향상 또는 개선시키기 위해 사용되거나 필요하다. 제1 양태에 따른 실시예는 비트스트림의 정보를 사용하지 않고 오디오 신호가 디코딩된 후에 오디오 신호로부터 이 정보를 검색하기 위한 분석 개념을 제공한다. 설명된 개념은 더 낮은 부대역에서 스펙트럼의 일부를 복사하여 더 높은 주파수에 붙여 넣는 SBR 및 다른 처리를 검출할 수 있다. 이러한 방법에 대해 SBR을 제외한 또 다른 예는 특정 구성을 기반으로 하는 지능형 갭 필링(Intelligent Gap Filling, IGF)이다.
US 9,117,440 B2에 개시된 방법과 비교할 때, 제1 양태에 따른 실시예는 스펙트럼의 미세 구조를 분석하고 아마도 배타적으로 분석함으로써 스펙트럼 엔벨로프의 변형에 대한 분석의 견고성을 개선한다. 또한, 관계는 곱셈 대신 이진 수의 합산을 사용하여 계산되므로 계산 부하가 적다.
도 1은 오디오 신호(12)의 스펙트럼 향상 처리, 예를 들어 SBR 및/또는 IGF와 관련된 미리 결정된 특성을 결정하기 위한 장치(10)의 개략적인 블록도를 도시한다. 장치(10)는 오디오 신호(12)의 스펙트럼을 획득하고 스펙트럼의 미세 구조와 관련된 정보를 도출하도록 구성된 도출기(14)를 포함한다. 미세 구조는 스펙트럼 내의 스펙트럼 라인의 코스(course)와 관련될 수 있다. 이러한 정보는 예를 들어 스펙트럼 내의 로컬 극도, 예를 들어 최대 및/또는 최소를 나타내는 로컬 최대 신호를 사용하여 표현될 수 있다. 예를 들어, 로컬 최대 신호는 로컬 최대의 위치에서의 최대 값 또는 최소 값과 같은 미리 정의된 값을 가질 수 있고 다른 위치에서는 상이한 값을 가질 수 있다. 예를 들어, 다른 위치에서, 로컬 최대 신호는 최소 값을 포함할 수 있다. 대안적으로, 로컬 최대 신호는 로컬 최대에서의 최소 값 및 그렇지 않으면 최대 값을 포함할 수 있다. 대안적으로 또는 추가로, 국부 최대 신호는 국부 최대 및 국부 최소 둘 모두를 나타낼 수 있다. 이에 의해, 다른 정보를 감쇠 또는 제외하면서 스펙트럼의 미세 구조가 유지될 수 있다. 비제한적인 예로서, 본 명세서에 기술된 실시예는 도출기(14)에 의해 유도되는 국부 최대 신호를 참조할 수 있다.
스펙트럼으로부터 국부 최대 신호를 도출하기 위해, 도출기(14)는 오디오 신호(12)로부터 스펙트럼을 도출하거나 계산하거나 결정할 수 있다. 대안적으로, 도출기(14)는 스펙트럼 또는 스펙트럼 자체를 나타내는 정보를 포함하는 신호를 수신할 수 있다. 따라서, 도시된 신호(12)는 시간 도메인 또는 주파수 도메인의 신호일 수 있다. 도출기(14)에 의해 도출되거나 도출기(14)에 의해 수신되는 스펙트럼은 예를 들어 크기 스펙트럼 또는 전력 스펙트럼일 수 있다. 이러한 스펙트럼을 도출 또는 계산하기 위해, 단기 푸리에 변환(short-term Fourier transform, STFT) 또는 다른 적절한 변환이 사용될 수 있다. STFT를 사용함으로써, 오디오 신호(12)는 다수의 적합한 블록으로 분할 또는 분리될 수 있고 각각의 블록은 STFT를 받을 수 있다. 이것은 오디오 신호의 복수의 스펙트럼, 예를 들어 각각의 블록에 대한 하나의 스펙트럼을 획득할 수 있게 한다.
예를 들어, 부대역 신호는 필터 뱅크를 사용하여 계산될 수 있다. SBR은 스펙트럼의 일부가 복제되는 처리이다. 고조파 운송에 대해서도 마찬가지이다. IGF에서, 예를 들어 고주파수 범위를 포함하는 스펙트럼의 일부는 감쇠되거나 0으로 설정되고 그 후에 다시 채워진다. SBR을 언급할 때, 스펙트럼 엔벨로프는 변형될 수 있는 반면, 스펙트럼의 미세 구조는 유지될 수 있다. 따라서, 제1 양태에 따른 실시예는 스펙트럼 엔벨로프의 변형에 강력한 개념을 제안한다. 이를 위해, 도출기(14)는 스펙트럼으로부터 국부 최대 신호를 도출하도록 구성된다. 국부 최대 신호는 예를 들어 스펙트럼의 주파수 빈에 따라 특정 길이의 벡터로 정의될 수 있으며, 이들의 요소는 스펙트럼이 국부 최대 값을 갖는 지수에서 1로 설정되고 그렇지 않으면 0으로 설정된다. 다른 규칙이 적용될 수 있음을 언급해야 한다. 예를 들어, 로컬 최대치에 추가하여, 로컬 최소치는 특정 값, 예를 들어 1로 설정될 수 있다. 대안적으로 또는 추가로, 국부 최대치 및/또는 최소치를 나타내기 위해 상이한 값 값, 예를 들어 0, 또는 1과 상이한 값이 사용될 수 있다. 이 처리는 미세 구조를 유지하고 다른 모든 정보를 제거하는 화이트닝 또는 플래터링(flattering) 동작과 유사할 수 있다. 국부 최대 신호는 비교 세그먼트의 구조에 초점을 맞추기 위해 비교가 구현될 때 유사성의 식별을 향상시킬 수 있다.
도 2a는 신호(12)로부터 도출될 수 있거나 신호(12)일 수 있는 예시적인 스펙트럼(16)을 도시하는 개략적인 그래프를 도시한다. 가로 좌표는 주파수 인덱스 k를 나타내고, 세로 좌표는 스펙트럼(16)의 크기 값 X(k)를 나타낸다.
도 2b는 동일한 주파수 가로 좌표 k에 대한 로컬 최대 신호 Z의 개략적 예시도를 도시한다. 스펙트럼(16)이 국부 최대치(181 내지 187)를 포함하는 주파수 빈 k1 내지 k7에서, 국부 최대 함수 Z(k)는 1과 같은 정규화된 최대 값으로 설정되고, 또한 다른 위치에서 0과 같은 정규화된 최소값으로 설정된다. 도 2b의 삼각형 형상은 도면을 더 잘 이해하기 위해 상이한 주파수 빈 사이의 보간으로 인해 발생할 수 있다. 국부 최대 신호 Z는 스펙트럼 X(k)와 동일한 길이를 포함할 수 있다. 도출기(14)는 스펙트럼(16)으로부터 도출되는 국부 최대 신호 Z(k)를 나타내는 정보를 포함하는 신호(22)를 제공하도록 구성될 수 있다.
장치(10)는 국부 최대 신호의 세그먼트들 사이의 유사성 C(τ)를 결정하도록 구성된 결정기(24)를 포함할 수 있다. 스펙트럼 향상 처리의 검출을 위해, 벡터 Z(k)의 제1 세그먼트(여기서 k = k0,….kl) 와 벡터 Z(k + )τ의 제2 세그먼트 사이의 유사성은 래그(lag) 또는 시프트 τ의 함수로서 도출기(24)에 의해 결정되거나 계산될 수 있다. 예를 들어, 유사성 C(τ)는 두 벡터, 즉 국부 최대 신호의 세그먼트의 차이의 절대 값의 합으로 계산될 수 있다.
비교될 세그먼트는 동일한 길이를 가질 수 있다. 길이는 스펙트럼 및 로컬 최대 신호가 계산된 주파수 분해능(resolution)에 따라 다르다. 주파수 분해능은 계산된 스펙트럼 계수의 수에 따라 다르다. 스펙트럼 및 로컬 최대 신호에 대한 계수의 수는 적어도 16 또는 16384이지만, 통상적으로 256에서 4096 사이의 값이 선택된다. 정확한 값은 신호의 샘플링 레이트에 따라 선택될 수 있다. 제1 세그먼트는 예를 들어 2000 내지 15000Hz 범위의 주파수에 대응하는 국부 최대 신호 벡터의 요소를 포함할 수 있다.
파라미터 τ는 1에서 예를 들어 오디오 신호(12)의 차단 주파수와 관련된 최대 주파수 또는 최대 검색 주파수를 나타내는 신호에서 최대 가능한 값까지 변할 수 있다. 이는 결정 규칙 (1)로 표현될 수 있다:
Figure pct00001
(1)
도 3은 상기 주어진 결정 규칙을 사용하여 유사성을 결정하여 획득될 수 있는 예에 따른 개략적인 그래프를 도시한다. 그래프의 가로 좌표는 래그 또는 시프트 τ를 나타내고, 세로 좌표는 유사성 함수 C(τ)의 값을 나타낸다.
파라미터 τ의 복수의 값에 대한 유사성 값 C(τ)를 결정함으로써,도 3에 도시된 그래프가 획득될 수 있다. 영역(261 내지 263)에서, 신호의 변화는 파라미터 τ의 값 τ1, τ2, τ3 각각과 연관되어 획득될 수 있다. 이러한 변화는 유사성 함수 C(τ내의 로컬 최대치 및/또는 로컬 최소치를 포함할 수 있다. 즉, 래그 τ1, τ2, τ3 을 시프팅 또는 적용함으로써, 유사성 함수는 국부 최대치 또는 최소치를 나타낼 수 있고, 따라서 래그 τ1, τ2, τ3 만큼 각각의 세그먼트를 시프팅함으로써, 스펙트럼 향상 처리를 위한 지표일 수 있는 유사한 신호가 획득된다. 상기 주어진 예에서, 최대 래그 τ는 20000Hz이다.
결정기는 유사성 값으로부터 적어도 하나의 로컬 최대치 및/또는 로컬 최소치를 선택하도록 구성될 수 있고/있거나, 유사성을 결정하기 위해 그로부터 도출된 값을 선택할 수 있다. 특히, 영역(261, 262, 및 263)에서의 변화는 각각 파라미터 τ1, τ2, τ3 에 의해 나타내어진 시프트에서 사용된 세그먼트들 사이의 높은 유사성을 나타낸다.
다시 도 1을 참조하면, 결정기(24)는 유사성의 결과, 예를 들어 파라미터 τ의 값 τ1, τ2, 및/또는 τ3 또는 그것으로부터 도출된 값을 나타내는 정보 또는 신호(28)를 제공하도록 구성될 수 있다. 장치(10)는 예를 들어 신호(28)를 평가함으로써 유사성의 평가에 따라 오디오 신호(12)가 미리 결정된 특성을 포함한다는 것을 나타내는 정보(34)를 제공하기 위한 프로세서(32)를 포함할 수 있다. 선택적으로, 획득된 분석 함수, 즉 유사성 함수는 예를 들어 결정기(24) 및/또는 프로세서(32)에 의해 추가로 처리될 수 있다. 예를 들어, 유사성 함수에서 오프셋 성분을 감쇠시키고 유사성 함수 C(τ)내에서 관심 대상의 로컬 최대치의 대비를 증가시키기 위해 대역 통과 필터링이 실행될 수 있다. 장치(10), 예를 들어 결정기(24)는 도 4에 도시된 필터링된 유사성 값을 획득하기 위해 유사성 값을 필터링하도록 구성된 필터를 포함할 수 있다. 프로세서(32)는 오디오 신호가 스펙트럼 향상 처리를 겪었음, 스펙트럼 향상 처리의 시작 주파수, 및/또는 종료 주파수 중 적어도 하나를 나타내는 정보를 포함하도록 정보(34)를 제공하도록 구성될 수 있다.
도 4는 필터링된 값, 즉 파라미터 τ를 나타내는 가로 좌표에 대한 세로 좌표 상의 H(C(τ))으로서 도시된 후 처리 유사성 함수의 예를 도시한다. 예를 들어, 필터 계수 h = [-1 2 -1]을 갖는 유한 임펄스 응답(Finite Impulse Response, FIR) 필터로서 필터가 구현된다. 이는 필터링된 벡터의 k번째 출력 요소가 h(1)=-1, h(2)=2, 및 h(3)=-1로 가중치가 부여된 인덱스 k-1, k,및 k + 1에 있는 요소의 선형 조합에 의해 계산됨을 의미한다. 이는 다음의 결정 규칙에 기초하여 표현될 수 있다:
Figure pct00002
파라미터 값 τ1, τ2, 및 τ3에서 가장 큰 3개의 국부 최대치는 스펙트럼 향상 처리, 예를 들어 스펙트럼 대역 복제로부터 야기된다. 예를 들어, SBR 처리는 큰 크기의 적은 수의 로컬 최대치가 함수에 나타날 때 검출될 수 있다. 적은 수는 최대 15, 최대 10, 또는 최대 5의 수를 지칭할 수 있다. 일 실시예에 따르면, SBR의 일반적인 최신 구성에 따라 SBR을 검출하기 위해 최대 13개의 로컬 최대치가 조사되어야 한다.
큰 크기는 정규 신호와 비교할 때 적어도 3dB, 적어도 5dB, 또는 적어도 6dB인 값을 지칭할 수 있다. 도 3을 다시 참조할 경우, 영역(261, 262, 및 263)에서의 로컬 최대치는 각각의 영역 옆의 신호를 노이즈라 할 수 있다. 이러한 노이즈는 도 4와 관련하여 설명된 바와 같이 최대치 결정을 향상시키기 위해 후 처리에 의해 감쇠될 수 있다. 로컬 최대치의 큰 크기는 임계치보다 큰 것으로 정의된다. 임계치의 정확한 값은 유사성 함수를 계산하는 데 사용된 값의 수에 따라, 예를 들어 수동으로 0.1 내지 10의 범위에 있도록 설정될 수 있다. 보통, 5의 값이 사용될 수 있다.
즉, 프로세서(32)는 유사성 값 또는 이로부터 도출된 값의 다수의 로컬 최대 치(26)를 평가하고 로컬 최대치(26)의 진폭을 평가하도록 구성될 수 있다. 프로세서(32)는 적어도 진폭 임계 값(27)을 포함하는 최대치(26)의 수가 임계 값의 수 미만인 경우, 즉 진폭 임계치(27) 값을 초과하는 로컬 최대치의 수가 충분히 낮은 경우, 오디오 신호(12)가 미리 결정된 특성을 포함함을 나타내는 정보(34)를 제공하도록 구성될 수 있다.
다시 말해, 도 4는 후 처리의 유사성 함수를 도시한다. 로컬 최대치는 원으로 도시되고, 전역 최대치는 십자가로 강조 표시된다. 결정기(24)는 필터링된 유사성 값으로부터 적어도 하나의 로컬 최대치를 선택하도록 구성될 수 있다. 고조파 신호는 기본 주파수 및 그들의 고조파를 갖는 하나 이상의 정현파, 즉 주파수가 기본 주파수의 대략 정수배인 부분 톤으로 구성된다. 따라서, 하나 이상의 로컬 최대치가 자동 상관 함수(auto correlation function , ACF)와 같은 유사성 함수에 나타날 수 있다. 고조파 부분 톤에 대응하는 로컬 최대치와 SBR 또는 다른 스펙트럼 향상 처리를 구별하기 위해, 검색 범위는 예를 들어 SBR의 경우 고조파 부분 항보다 뚜렷하게 큰 적절한 값으로 설정될 수 있다. 따라서, 프로세서(32)는 유사성의 평가로부터 오디오 신호의 고조파를 제외하도록 구성될 수 있다. 이것은 고조파가 적거나 없을 것으로 예상되는 오디오 신호의 스펙트럼 부분을 선택하여 행해질 수 있다.
파라미터 값 τ1, τ2, 및 τ3에서 국부 최대치를 검출하는 것은 스펙트럼 향상 처리의 존재에 대한 충분한 지표일 수 있다. 그러나, 스펙트럼 향상 처리, 예를 들어 SBR의 시작 주파수를 추가로 추정하는 것이 유리할 수 있다. 유사성 함수의 결과 또는 국부 최대치는 스펙트럼의 일부가 복사되고 붙여 넣어진 시프트를 설명할 수 있다. 완전성을 위해, 소스 부대역 스펙트럼 또는 목적지 부대역 스펙트럼의 시작 및 중지 주파수에 관한 정보가 관심이 있을 수 있다.
도 5는 일 실시예에 따른 장치(50)의 개략적인 블록도를 도시한다. 장치(50)는 장치(10)의 확장된 버전일 수 있고, 스펙트럼 향상 처리의 시작 주파수 및/또는 중지 주파수를 결정하도록 구성된 주파수 추정기(36)를 더 포함할 수 있다. 주파수 추정기(36)는 시작 주파수 및/또는 중지 주파수를 나타내는 각각의 정보를 포함하는 정보 또는 신호(38)를 제공하도록 구성될 수 있다. 주파수 추정기(36)는 예를 들어 신호(22)를 획득 또는 수신함으로써 로컬 최대 신호 Z(k)를 사용하고, 로컬 최대 신호의 제1 세그먼트의 요소와 로컬 최대 신호의 제2 세그먼트의 대응하는 요소 사이의 요소 유사성을 결정하도록 구성될 수 있다. 제2 세그먼트는 τ샘플의 수만큼 제1 세그먼트에 대해 시프팅될 수 있다. 이를 로컬 유사성 분석(local similarity analysis, LSA)이라고 한다. 입력은 크기 스펙트럼의 미세 구조의 표현, 예를 들어 로컬 최대 신호 Z(k)일 수 있다. LSA를 실행할 때, 주파수 추정기(36)는 제1 벡터 Z(k)의 k번째 요소와 위치 k+τ에서의 요소 Z(k + τ) 사이의 요소별 유사성으로 동작할 수 있다. 이를 위해, 로컬 유사성 매트릭스는 다음의 결정 규칙에 따라 2개의 이진수 Z(k)와 Z(k + τ)의 차이의 절대 값으로 계산될 수 있다:
Figure pct00003
(2)
그 다음에, 국부 유사성 매트릭스의 값 L(k,τ)는 시간에 따른 재귀 평균화에 의해 처리될 수 있다. 이것은 다음의 결정 규칙에 따라 수행될 수 있다:
Figure pct00004
(3)
여기서 B(k,τ)는 오디오 신호의 이전 시간 단계(프레임)로부터 재귀 평균화의 출력을 저장하는 버퍼를 나타내고, 0 < b < 1은 시간 평균화를 제어하는 시간 상수이다. 따라서, 주파수 추정기(36)는 제1 및 제2 세그먼트에 대한 복수의 요소의 요소 유사성을 시간에 따라 재귀 평균화하여 평균화된 요소 유사성을 획득하고, 평균화된 요소 유사성을 사용하여 시작 주파수 및/또는 종료 주파수를 결정하도록 구성될 수 있다. 시간 평균화는 현재 프레임이 무음(silent)이 아닌 경우에만, 즉, 그 에너지가 무음이 아닌 프레임으로부터의 무음 프레임을 특징짓는 임계치(27)보다 큰 경우에만 선택적으로 적용될 수 있다.
프레임의 에너지가 임계치보다 작으면 프레임은 무음인 것으로 결정될 수 있으며, 여기서 임계치의 정확한 값은 프레임의 길이 및 샘플 값이 표현되는 범위에 따라 설정될 수 있다. 일반적으로, 이러한 임계치는 값은 일반적인 사운드 재생 장비(휴대폰 또는 TV 세트)로 평균에서 높은 볼륨 설정으로 재생할 때에만 청취 가능하도록 스케일링된 핑크 노이즈 신호의 에너지와 같도록 선택될 수 있다.
주파수 추정기는 제1 및 제2 세그먼트에 대한 복수의 요소의 요소 유사성을 시간에 따라 재귀 평균화하여 평균화된 요소 유사성을 획득하고, 평균화된 요소 유사성을 사용하여 시작 주파수 및/또는 종료 주파수를 결정하도록 구성될 수 있다. 스펙트럼의 각각의 샘플은 프레임과 연관될 수 있다. 주파수 추정기는 에너지 임계 레벨(27) 미만의 스펙트럼 에너지를 갖는 시간에 걸쳐 재귀 평균화로부터 프레임을 제외하도록 구성될 수 있으며, 에너지 임계 레벨(27)은 프레임 또는 스펙트럼이 무음인지 아닌지에 대한 고려와 관련된다. 따라서, 오디오 처리를 받지 않는 프레임으로 간주될 수 있기 때문에 무음인 것으로 간주되는 프레임을 제외함으로써 일관성 없는 결과를 피할 수 있다.
도 4와 관련하여 설명된 바와 같이, 재귀 평균화의 결과 L(k,τ)는 대역 통과 필터링에 의해 처리되어 오프셋 성분을 감쇠시키고, 예를 들어 매트릭스의 각각의 행을 h = [-1 2 -1]과 같은 커널로 컨볼빙(convolving)함으로써 관심 있는 로컬 최대치의 대비를 증가시킬 수 있다.
도 6a는 예시적인 로컬 유사성 매트릭스 L(k,τ)의 개략적인 그래픽 표현을 도시하며, 여기서 가로 좌표는 주파수 빈(위치) k를 나타내고, 세로 좌표는 래그 τ를 나타낸다. 가시성을 높이기 위해, 매트릭스 L의 절대 값이 도시된다. 위치 k 및 래그 τ의 단위는 주파수 빈이다. 비제한적인 샘플에 의해, 하나의 주파수 빈은 46.9Hz의 값을 가질 수 있으며, 여기서 임의의 다른 더 작거나 더 큰 값이 획득될 수 있다. 따라서, 도 4는 다음의 정보를 포함하는 후 처리된 유사성 매트릭스 L(k,τ)의 예를 도시한다.
x축(파라미터 k)을 따라 합산하고 결과의 절대 값을 취함으로써 L(k,)τ에서 도 4와 관련하여 설명된 전역 유사성이 획득될 수 있다. 주어진 예에서 3개의 수평선(381, 382, 및 383)은 도 4의 로컬 최대치에 대응한다. 라인(381, 382, 및 383)은 함수 L(k,τ)의 각각의 값, 즉 값의 합이 특정 임계 값, 예를 들어 0-1의 값 범위에서 0.1, 0.2, 또는 0.3을 초과하는 라인에 대응할 수 있다. 수평선의 시작 위치 및 종료 위치는 스펙트럼의 반복된 부분의 시작 주파수 ks1, ks2, ks3 및 종료 주파수 ke1, ke2, ke3에 각각 대응한다.
도 6b는 파라미터 τ에서의 도 6a에 도시된 매트릭스 라인의 개략도를 도시한다. 도 6b에서, 그래프(42a)는 예를 들어 필터링되지 않은 값을 나타내며, 여기서 그래프(42b)는 평균화된 또는 필터링된 값을 나타낼 수 있다. 예를 들어, 그래프(42b)는 예를 들어 0.2인 임계 값(27)과 비교된다. 그들의 평균화된 값인 로컬 유사성 매트릭스 L(k,τ)이 각각 임계 값(27)을 초과하는 범위는 인덱스 τ에서의 수평선(382)에 대응한다. 대안적으로 또는 추가로, 국부 유사성 매트릭스의 가파른 정도(ΔL(k,τ)/k)가 평가될 수 있다. 시작 주파수 ks2를 식별하는 에지로서 특정 값, 예를 들어 적어도 0.5, 적어도 1, 또는 적어도 1.5로 상승하는 가파른 상승 에지가 식별될 수 있다. 따라서, 각각의 가파르고 높은 하강 에지는 종료 주파수 ke2를 식별할 수 있다. 대안적으로 또는 추가적으로, 시간 평균화는 입력 스펙트럼, 입력 스펙트럼 및 최종 결과 또는 결과들에서 각각 실행될 수 있다. 이는 시간 평균화를 사용하여 거짓된 긍정적인 검출을 방지할 수 있다. 입력 스펙트럼의 시간 평균화는 전 처리로 지칭될 수 있으며, 여기서 최종 결과의 시간 평균화는 후 처리로 지칭될 수 있다. 거짓된 긍정적인 검출을 방지하는 이유는 부분 톤으로 인해 로컬 최대 값이 통상적으로 시간에 따라 변하기 때문이다. 즉, 상이한 음악 톤이 멜로디로 연주되거나 음악의 고조파 변화로 인해 로컬 최대치가 시간에 따라 변할 수 있다. 이와 대조적으로, SBR과 같은 스펙트럼 향상 처리의 일부 파라미터는 통상적으로 시간-불변인 기술 프로세스이며, 예를 들어 스펙트럼이 확대되는 에지 주파수, 예를 들어 이전에 수행된 필터링의 차단 주파수, 또는 복제되는 주파수 범위의 시작 및 종료 주파수가 있다.
일례에 따르면, 시작 주파수를 추정하기 위해, LSA 매트릭스 L는 각각의 수평선의 시작 위치 및 종료 위치를 식별하기 위해 분석된다. 시작 위치 ks는 복제된 스펙트럼의 시작에 대응할 수 있다. 종료 위치 ke는 복제된 스펙트럼의 종료에 대응할 수 있다. 복제에 사용된 원래 스펙트럼의 가장 큰 종료 위치는 SBR이 시행되는 시작 주파수의 추정된 값이다. 이는 예를 들어 도 6a의 ke3일 수 있다.
먼저, 전역 유사성은 다음과 같이 계산될 수 있다:
Figure pct00005
(4)
여기서 v1 및 v2는 값 L(k,τ)의 범위를 결정하는 파라미터이며, 예를 들어 적어도 500Hz 최대 15kHz 범위 내의 값을 갖는 L(k,τ)의 범위를 정의하기 위해 선택될 수 있다.
그 다음에, C(τ)에서, 임계치보다 큰 로컬 최대치 mi, 즉 26이 검출된다(예를 들어 도 4 참조). 각각의 로컬 최대치에 있어서, L(k,τ)의 대응하는 행이 분석된다. 예를 들어, 제2 로컬 최대치 m2는 행 R2 = L(k,τ)를 인덱싱하며 도 6b에 도시되어 있다. 이 로컬 최대치의 경우, τ= 133의 값이 유효할 수 있으며, 도 5에 따라 k = 74에서 시작할 수 있다.
시작 인덱스 ks 및 종료 인덱스 ke는 예를 들어 그래프(42b)를 획득하기 위해, 예를 들어 몇 개의 인접한 값, 예를 들어 적어도 3개, 적어도 5개, 또는 적어도 10개의 시간 또는 이동 평균을 계산함으로써, 각각의 라인(Ri)을 먼저 평활화함으로써 계산될 수 있다. 그 다음에, 평활화된 라인이 가장 가파르게 증가하고 감소하는 기울기를 가진 위치가 검출된다. 대안적으로 또는 추가로, 예를 들어 0.2와 같은 임계 값을 초과하는 기울기는 각각의 라인을 평가하기 위한 기준일 수 있다. 주파수 추정기(36)는 제1 및 제2 세그먼트에 대한 복수의 요소의 요소 유사성을 시간에 따라 재귀 평균화하여 평균화된 요소 유사성(42b)을 획득하고, 평균화된 요소 유사성(42b)을 사용하여 시작 주파수 및/또는 종료 주파수를 결정하도록 구성될 수 있다. 대안적으로 또는 추가로, 장치는 스펙트럼, 국부 최대 신호, 또는 그로부터 도출된 신호의 시간 평균화를 수행하도록 구성될 수 있으며, 여기서 프로세서는 스펙트럼의 시간적 평균 정보, 로컬 최대 신호, 또는 그로부터 도출된 신호에 기초하여 오디오 신호가 미리 결정된 특성을 포함한다는 것을 나타내는 정보를 제공하도록 구성될 수 있다.
다시 도 6a를 참조하면, 인덱스 τ1, τ2, 및 τ3에서 주어진 예에 대해 3개의 두드러진 수평선(381, 382, 및 383)이 있다. 인덱스 τ에서의 라인은 가장 빠른 시작, 즉 가장 낮은 파라미터 ks를 나타내는 것으로 복제된 스펙트럼의 제1 부분에 대응할 수 있다. 수평선은 인덱스 ks1에서 시작하고, 래그 τ에 대응할 수 있다. 따라서, 스펙트럼의 제1 복제된 부분은 ks2를 시작하고 인덱스 ks2 + τ에 복사되었다. 비제한적인 예로서, τ1은 104일 수 있고, τ2는 133일 수 있고, τ3은 236일 수 있다. ks2는 예를 들어 74의 값을 포함할 수 있다. 따라서, 스펙트럼의 제1 복제된 부분은 인덱스 74에서 시작하고, 인덱스 74 + 133에 복사되었을 수 있다. 따라서, 이 인덱스는 스펙트럼 향상 처리(SBR)가 시행되는 주파수에 대응한다.
도 5와 관련하여 설명된 주파수 추정기(36)는 로컬 유사성 매트릭스 또는 다른 로컬 유사성 설명을 계산하도록 구성될 수 있다. 비제한적인 예로서만, 각각의 행이 이전 행에 연결되는 것과 같은 미리 결정된 구조를 갖는 벡터 또는 다른 값의 행은 동일한 정보를 허용할 수 있다. 주파수 추정기(36)는 로컬 유사성 설명(로컬 유사성 매트릭스 L)을 결정할 수 있고, 대역폭 확장 처리를 나타내는 부분, 예를 들어 라인을 결정하도록 구성될 수 있다. 대역폭 확장 처리를 나타내는 부분을 결정하기 위해, 국부 유사성 설명 내의 신호의 가파른 정도 및/또는 임계 값(27)의 도달 또는 초과가 주파수 추정기(36)에 의해 평가될 수 있다.
행을 평가하는 것으로 설명되었지만, 국부 유사성 매트릭스 L은 예를 들어 행을 열로 전환하거나 그 반대로 행하는 등의 상이한 구조를 포함할 수 있음이 명백하다. 따라서, 주파수 추정기는 로컬 유사성 설명으로서 로컬 유사성 매트릭스 L을 결정하고, 행 또는 열의 값(예를 들어, 행 또는 열 내의 인접 값) 사이의 가파른 정도를 사용하고/하거나 적어도 임계치 27에 이를 초과하는 행 또는 열의 값의 평가치를 사용하여, 스펙트럼 향상 처리의 시작 주파수 ks 및/또는 종료 주파수 ke를 결정하도록 구성될 수 있다.
도 7은 장치(10)를 확장하는 장치(70)의 개략적인 블록도를 도시한다. 장치(10)를 확장하는 것으로 설명되었지만, 도 7과 관련하여 주어진 설명은 또한 장치(50)를 확장하는 데 사용될 수 있다. 장치(70)는 시간 도메인에서의 신호로서 오디오 신호(12)를 수신하도록 구성되고 오디오 신호(12)로부터 스펙트럼을 계산하여 스펙트럼을 포함하는 신호(12')를 제공하도록 구성된 스펙트럼 계산기(44)를 포함할 수 있다. 그에 기초하여, 도출기(14)는 스펙트럼(12')을 수신하도록 구성될 수 있다. 대안적으로, 도출기(14)는 자체적으로 스펙트럼(12')을 도출하도록 구성될 수 있다.
결정기(14)는 도 3 및 4와 관련하여 설명된 바와 같이 필터링된 유사성 값을 획득하기 위해 유사성 값을 필터링하도록 구성된 필터(46)를 포함할 수 있다. 결정기(14)는 추가 고려를 위해 예를 들어 유사성 매트릭스 L(k,τ)의 행 인덱스로서 필터링된 유사성 값으로부터 적어도 하나의 로컬 최대치를 선택하도록 구성될 수 있다. 즉, 유사성 값 또는 이로부터 도출된 값으로부터 로컬 최대치의 선택은 스펙트럼 향상 처리의 시작 주파수 및/또는 종료 주파수를 결정하기 위한 추가의 사용을 지칭할 수 있다.
장치(70)는 오디오 신호(12)를 수신하고, 예를 들어 정보(34)를 수신함으로써 스펙트럼 향상 처리가 수행된 정보를 수신하도록 구성된 신호 향상기(48)를 포함할 수 있다. 신호 향상기는 정보를 이용하여, 즉 오디오 신호가 미리 결정된 특성을 포함하고 선택적으로 복제 프로세스의 시작 주파수 및/또는 중지 주파수와 같은 추가 세부 사항을 포함한다는 것을 나타내는 정보에 따라, 오디오 신호의 스펙트럼 향상 처리에 의해 야기되는 아티팩트를 감소시키도록 구성된다.
도 8은 오디오 신호의 스펙트럼 향상 처리와 관련된 미리 결정된 특성을 결정하는 방법(1000)의 개략적인 흐름도를 도시한다. 방법(1000)은 오디오 신호의 스펙트럼이 획득되고 스펙트럼의 미세 구조와 관련된 정보, 예를 들어 로컬 최대 신호가 도출되는 단계(1100)를 포함한다. 단계(1200)는 국부 최대 신호의 세그먼트들 사이의 미세 구조에서의 유사성을 결정하는 단계를 포함한다. 단계(1300)는 유사성의 평가에 따라 오디오 신호가 미리 결정된 특성을 포함한다는 것을 나타내는 정보를 제공하는 단계를 포함한다.
이하에서, 제2 양태가 참조될 것이다. 제2 양태에 따르면, 오디오 신호, 특히 손실 압축을 사용하여 코딩된 오디오 신호의 사운드 품질을 개선시키는 것은 범위 내에 있다. 설명된 개념은 디지털 신호 처리 응용에서 제한된 오디오 신호의 대역폭과 관련된다. 이 개념은 (인위적) 대역폭 감소(bandwidth reduction, BR)의 존재를 검출하고 BL이 동작하고 있는 차단 주파수를 추정하기 위한 신호 분석 개념을 제안한다. 획득된 결과는 대역폭 확장(BWE)에 의해 대역폭을 복원하기 위한 후속 처리를 제어하고 또한 필터링과 같은 다른 수단에 의해 사운드 품질의 개선을 제어하기 위해 사용된다.
사운드 품질을 향상시키기 위해서는, 원래 저 대역폭을 갖는 (예를 들어, 유역에서 낮은 음이 연주된) 신호와, 예를 들어 손실 인코딩 또는 다운 샘플링으로 인해 신호 처리에 의해 대역이 제한된 신호를 구별하는 것이 매우 중요하다. 이러한 구별은 "신호에 존재하는 가장 높은 주파수를 찾기 위해"신호를 분석해서는, 즉 [1]에 설명된 것처럼 무시할만한 에너지만 존재하는 주파수를 결정해서는 가능하지 않다. 대조적으로, 제2 양태는 다음에 설명된 바와 같이 추가 정보를 평가하도록 제안한다.
제안된 인위적 대역폭 제한 분석(artificial bandwidth limitation analysis, ABLA)의 목표는 두 가지이다:
1). 압축 손실 또는 다른 신호 처리로 인해 발생하여 아티팩트로 간주될 수 있는 입력 신호에서 대역폭 감소(BR)의 존재를 검출한다. 출력은 예를 들어 이진 변수일 수 있으며, 여기서 D라고 불리며, BL이 검출되면 D = 1이고 그렇지 않으면 0이다.
2). 대역폭 제한의 차단 주파수를 추정한다. 추정된 수량은 fc라고 한다.
도 9는 제2 양태의 일 실시예에 따른 장치의 개략적인 블록도를 도시한다. 장치는 오디오 신호의 인위적 대역폭 제한 처리와 관련된 미리 결정된 특성을 결정하는 데 사용될 수 있다. 장치(90)는 오디오 신호(12)의 스펙트럼, 예를 들어 스펙트럼(12')의 기울기를 평가하도록 구성된 기울기 평가기(52)를 포함한다. 기울기 평가기(52)는 기울기 평가 결과(56)를 제공하도록 구성될 수 있다. 기울기 평가 결과(56)는 스펙트럼의 적어도 일부의 기울기(엔벨로프 곡선)의 최대 값, 최소 값, 또는 평균 값에 대한 정보, 스펙트럼 또는 그 기울기 내에서 상승 또는 하강 에지에 대한 정보, 또는 기울기(54)와 관련된 다른 정보를 포함할 수 있다.
장치(90)는 차단 주파수 fc를 나타내는 정보를 포함하는 주파수 평가 결과(62)를 획득하기 위해 오디오 신호의 스펙트럼(12')의 차단 주파수 fc를 평가하도록 구성된 주파수 평가기(58)를 선택적으로 더 포함할 수 있다.
장치(90)는 오디오 신호가 인위적 대역폭 제한 처리와 관련된 미리 결정된 특성을 포함한다는 것을 나타내는 정보를 제공하기 위한 프로세서(64)를 포함한다. 프로세서는 오디오 신호가 미리 결정된 특성을 포함한다는 것을 나타내는 정보를 제공하기 위해 기울기 평가 결과를 사용하도록 구성되는데, 즉 프로세서는 기울기 평가 결과에 따른 정보를 제공할 수 있다. 예를 들어, 이는 예를 들어 예/아니오 정보 또는 이진 결정의 관점에서 오디오 신호가 후 처리를 요구하는지의 여부를 결정하도록 허용할 수 있다. 이는 각각의 특성을 포함하지 않는 것으로 평가된 프레임을 후 처리에서 제외하는 것을 허용할 수 있다. 이들 프레임은 인위적 대역폭 제한에 받지 않는 것으로 식별될 수 있으므로, 후 처리를 피해야 한다. 선택적으로, 장치는 차단 주파수를 결정하기 위한 주파수 평가기(58)를 포함할 수 있다. 이는 예를 들어 대상 프레임의 후 처리에 사용되거나 요구되는 추가 정보를 식별하는 것을 허용할 수 있다. 따라서, 선택적으로, 프로세서는 기울기 평가 결과(56) 및 주파수 평가 결과(62)의 평가에 따라 오디오 신호가 미리 결정된 특성을 포함한다는 것을 나타내는 정보를 제공하도록 구성될 수 있다. 스펙트럼 12'및/또는 추가 스펙트럼(12')을 초래하는 오디오 신호의 추가 프레임에 대한 기울기 평가 결과(56) 및 주파수 평가 결과(62)를 평가함으로써, 프로세서(64)는 스펙트럼(12')이 도출된 오디오 신호가 인위적 대역폭 제한을 받았는지에 대한 정보를 도출할 수 있다. 예를 들어, 기울기 평가기(52)는 스펙트럼 내의 감쇠에 대한 기울기를 평가하도록 구성될 수 있다. 스펙트럼은 기울기의 가파른 정도에 대해, 즉 역할 오프(role-off) 인자에 의해 표시된 바와 같이 정량화되거나 평가될 수 있다.
예로서, 기울기 평가기(52)는 스펙트럼(12') 내의 감쇠를 평가하고 감쇠에 대한 측정치를 나타내기 위해 기울기 평가 결과(56)를 제공하도록 구성될 수 있다. 프로세서(64)는 감쇠에 대한 측정치가 적어도 가파른 정도 임계 값이면 오디오 신호가 미리 결정된 특성을 포함 함을 나타내는 정보(66)를 제공하도록 구성될 수 있다. 선택적으로, 장치는 예를 들어 프로세서(64)의 일부이거나 별도로 구현되는 리샘플링(resampling) 평가기를 포함할 수 있다. 리샘플링 평가기는 업 샘플링과 관련된 미리 결정된 특성에 대해 오디오 신호를 평가하도록 구성될 수 있다. 업 샘플링은 샘플링 주파수를 사용하여 구현될 수 있으며, 예를 들어 공통 샘플링 레이트는 11,025Hz, 22,050Hz, 및/또는 32,000Hz일 수 있다. 장치(90 및/또는 120)는 리샘플링이 검출되는 경우 샘플링 주파수에 기초하여 기울기 평가기(52) 및/또는 주파수 평가기(58)의 주파수 범위를 적응시키도록 구성될 수 있다. 리샘플링을 사용함으로써, 스펙트럼의 주파수 범위를 적응시키거나 증가시킬 수 있으며, 여기서 낮은 샘플링 레이트는 저주파수 범위에 대응할 수 있고, 높은 샘플링 레이트는 스펙트럼이 Nyquist 기준에 따라 고주파수 범위를 포함하게 할 수 있다. 리샘플링 평가기는 특정 세트의 예상되는 샘플링 레이트를 관찰 또는 평가하도록 구성될 수 있으며, 이 주파수에서 스펙트럼에 현저한 감소가 있는지 및 초과하는 더 큰 에너지가 없는지가 평가할 수 있다. 그러한 경우에, 상술한 바와 같이 기울기가 가파른 에지 및 에너지 임계 값을 초과하는 상당한 에너지의 부재가 있는 경우, 에너지 평가기는 오디오 신호가 각각의 리샘플링 주파수 또는 샘플링 레이트를 사용하여 리샘플링된 것으로 간주할 수 있다. 리샘플링 평가기는 샘플링 레이트에 대응하는 결정되거나 평가된 주파수에서 다음의 결정 규칙이 적용된 때의 부정적인 평가 결과를 획득하도록 구성될 수 있으며:
X(k)>임계치
이는 주파수 k에서의 스펙트럼의 값이 스펙트럼 내에서 상당한 에너지가 있는 지점 k를 나타내는 임계치보다 크다는 것을 의미한다. 또한, 다음의 결정 규칙이 적용될 수 있으며:
X(k) < X(k+1) - 오프셋 파라미터
이는 주파수 k + 1이 증가함에 따라, 스펙트럼, 각각의 에너지가 증가함을 나타낸다. 이러한 고려 사항은 오프셋 파라미터, 예를 들어 0.1, 0.2, 0.3, 0.5, 또는 1dB 또는 상이한 값을 빼서 정규화될 수 있는데, 즉 스펙트럼은 결정 규칙을 충족시키기 위해 오프셋 파라미터보다 더 증가해야 한다. 이는 노이즈 등에 의한 영향을 제외시킬 수 있게 한다. 따라서, 크기는 0.5dB보다 큰 대역폭 제한을 초과하는 주파수 지점 k에서 더 높은 주파수를 향해 증가한다. 임계치는 예를 들어 상술한 바와 같이 -30dB, -40dB, -50dB, 또는 -60dB일 수 있다. 이는 부정적인 결정의 경우, 가파른 감쇠가 없거나 각각의 주파수 값을 넘어 서면 크기가 커짐을 의미한다.
주파수 인덱스 k에서의 대역폭을 제한하는 오디오 신호가 업 샘플링되었다는 것을 나타내는 긍정적인 평가 결과는 예를 들어 스펙트럼 차이 함수 s(k) 또는 상술한 바와 같은 다른 적절한 함수가 적어도 임계 값을 초과하는 값을 전달하거나 적어도 임계 값인 값을 전달하는 경우 결정될 수 있다. 따라서, 다음의 결정 규칙이 적용될 수 있다:
S(k)>임계치
스펙트럼 차이 함수는 가파르고 강한 감쇠를 나타낼 수 있으므로 리샘플링을 나타낼 수 있다. 따라서, 도 11의 최대치(72)가 예상되는 리샘플링 레이트/리샘플링 주파수 또는 그에 근접하여 배치될 때, 리샘플링의 존재가 결정될 수 있다.
또한, 감쇠는 양, 즉 스펙트럼 내에서 하강 에지의 절반에 대해 평가될 수 있다. 예를 들어, 기울기 평가기(52)는 예를 들어 100Hz, 1kHz, 또는 2kHz의 특정 주파수 범위 내에서의 감소 및/또는 하강 에지 내에서의 감소의 총량에 대해 기울기(54)를 평가할 수 있다.
프로세서(64)는 스펙트럼(12')에 인위적 대역폭 제한이 적용되는지를 결정하도록 구성될 수 있고, 어느 차단 주파수 fc에서 상기 제한이 적용되었는지를 결정하도록 추가로 구성될 수 있다. 따라서, 정보(66)는 변수 D 또는 유사한 정보를 포함할 수 있고, 적어도 프로세서(64)가 스펙트럼(12')이 인위적 대역폭 제한 처리에 적용되는 것으로 결정할 때 차단 주파수를 나타내는 정보를 더 포함할 수 있다.
도 10은 기울기(54)를 갖는 예시적인 스펙트럼(12')을 도시하는 개략도를 도시한다. 기울기 평가기(52)는 각각 하강 에지(68)의 스펙트럼(12')의 가파른 정도에 대한 기울기(54)를 평가하도록 구성될 수 있다. 기울기 평가기(52)는 가파른 정도의 측정치를 나타내는 정보를 포함하도록 기울기 평가 결과(56)를 제공하도록 구성될 수 있다. 예를 들어, 크기 X(f)의 감소 ΔX1과 주파수 범위 Δf를 링크함으로써, 예를 들어 주파수 범위 Δf당 감소 ΔX1 또는 ΔX1를 획득하기 위해 사용된 주파수 범위 Δf와 관련하여 가파른 정도에 대한 측정치를 획득할 수 있다.
프로세서(64)는 가파른 정도에 대한 측정치가 적어도 가파른 정도 임계 값이면 오디오 신호가 미리 결정된 특성을 포함 함을 나타내는 정보를 제공하도록 구성될 수 있다. ΔX1/ Δf항의 값이 증가할수록 가파른 정도의 측정치가 증가하고/하거나, Δf/ ΔX1항의 값이 감소할수록 증가할 수 있다. 예를 들어, 가파른 정도 임계 값은 적어도 25dB/1kHz, 30dB/1kHz, 40dB /1kHz, 또는 50dB/1kHz 이상과 같거나 비례하는 값을 포함할 수 있다.
기울기 평가기(52)는 예를 들어 평가를 위해 스펙트럼(12')의 일부만을 선택하는 윈도우 함수를 사용하여 스펙트럼(12')의 스펙트럼 차이 함수를 결정하도록 구성될 수 있다. 윈도우 함수는 각각 스펙트럼(12')의 복수의 주파수 값, 기울기(54)를 결합할 수 있고, 기울기 평가기(52)가 윈도우 함수의 결과를 사용하여 감쇠에 대한 측정치를 결정할 수 있게 한다. 이를 윈도우 필터링이라고도 할 수 있다. 상이한 윈도우의 값을 결합함으로써, 예를 들어 뺌으로써, 가파른 정도의 측정치가 획득될 수 있다. 대안적으로, 기울기(54)의 가파른 정도를 평가하기 위해 임의의 다른 적절한 프로세스가 사용될 수 있다. 대안적으로 또는 추가로, 주파수 평가기는 스펙트럼(12')의 제1 주파수 대역의 제1 에너지 레벨과 스펙트럼의 제2 에너지 대역의 제2 에너지 레벨 사이의 감쇠를 평가하도록 구성될 수 있다.
제1 및 제2 에너지 대역은 예를 들어 소위 저주파수 대역 및 소위 고주파수 대역 일 수 있다. 핸드(hand) 주파수 대역은 저역 통과 필터링 후에 무음일 것으로 예상되는 주파수 대역, 예를 들어 3KHz 초과의 주파수일 수 있다. 저주파수 도메인은 그러한 주파수 범위 미만의 주파수를 갖는 주파수 도메인을 지칭할 수 있다. 따라서, 제1 에너지 대역은 제2 주파수 대역의 제2 주파수 범위 f2와 비교할 때 낮은 제1 주파수 범위 f1를 포함할 수 있다. 기울기 평가기(52)는 기울기 평가 결과(56)를 제공하여 감쇠 ΔX2에 대한 측정치를 나타내도록 구성될 수 있다. 프로세서(64)는 감쇠에 대한 측정치가 적어도 감쇠 임계 값이면 정보(66)를 제공하도록 구성될 수 있다. 감쇠 임계 값은 예를 들어 적어도 30dB, 적어도 40dB, 적어도 50dB, 또는 적어도 60dB이거나, 더 클 수 있다.
다시 말해, 감쇠는 고주파수 대역에서 필터링 후에 무시할만한 에너지만이 남도록 높은 것으로 간주될 수 있다. 예를 들어, 상위 주파수 도메인 f2의 크기는 통과 대역, 즉 주파수 도메인 f1의 평균 크기보다 작은 -60dB(감쇠 임계 값) 미만이다. 스펙트럼의 가파른 정도의 평가와 감쇠량의 평가의 결합은 스펙트럼(12')의 현재 프레임에 인위적 대역폭 제한이 적용되었다고 결정하는 것을 허용할 수 있다. 따라서, 적어도 하나 또는 바람직하게는 두 평가가 그러한 처리에 대한 힌트를 주면, 변수 D는 1로 설정될 수 있다. 평가기준 중 적어도 하나 또는 바람직하게는 둘 다 부정적으로 평가되면, 변수 D는 0으로 설정될 수 있는데, 즉 인위적 대역폭 제한이 적용되지 않은 것으로 결정될 수 있다.
다시 말해서, 주파수 인덱스 k 주위의 하위 부대역 f1에서의 스펙트럼 크기와 상위 부대역 f2에서의 스펙트럼 크기를 비교하고, 관심 범위 내의 모든 주파수 인덱스에 대해 이것을 반복함으로써 감쇠의 가파른 정도를 정량화할 수 있다. 예를 들어, 스펙트럼 차이 함수 S(k)는 다음에 따라 형성될 수 있다:
Figure pct00006
스펙트럼 차이 함수 S(k)는 보다 낮은 부대역 최대 크기와 보다 높은 부대역의 최대 크기의 차이로서 감쇠를 정량화할 수 있다. 파라미터 k는 주파수 인덱스를 지칭할 수 있다. X(k)는 크기 스펙트럼을 나타낼 수 있다. 동작 max는 벡터의 최대 값을 반환할 수 있으며, 여기서 X1 = (xk-a,…,xk-b)는 주파수 지수 k 미만의 스펙트럼의 세그먼트를 나타낼 수 있고, x2 =(xk+b,…xk+a)은 주파수 지수 k보다 높은 스펙트럼의 세그먼트를 지칭할 수 있으며, 여기서 a > b이다. 벡터의 길이, 즉 벡터 X1 및/또는 X2에 사용될 샘플의 수 예를 들어 3, 5, 8, 또는 10 이상일 수 있다. 비제한적인 일 실시예에서, 길이 7의 제1 세그먼트 및 길이 7의 제2 세그먼트는 두 세그먼트 사이에 5개의 값의 갭과 관련하여 사용된다. 따라서, 요소 1, 2, 3, 4, 5, 6, 7의 최대치가 결정되고 요소 13, 14, 15, 16, 17, 18, 19의 최대치와 비교된다.
대안적으로, 다른 함수, 예를 들어
Figure pct00007
또는 X1 및 X2의 평균값으로부터 결정된 차이가 사용될 수 있다.
주파수 평가기(58)는 오디오 신호의 주파수 대역에서 에너지에 대한 측정치를 결정하고 에너지에 기초하여 차단 주파수 fc를 결정하도록 구성될 수 있다. 예를 들어, 주파수 평가기는 감소하는 주파수 값, 즉 감소하는 주파수 범위 내에서 주파수 대역의 에너지를 평가할 수 있다. 도 10의 최고 주파수를 참조하면, 주파수 평가기는 예를 들어 주파수 범위 f2에서 적은 양의 에너지를 결정할 수 있다. 다수의 빈의 비교적 작은 주파수 범위를 평가하거나 심지어 하나의 주파수 빈만을 포함하는 동안, 주파수 평가기(58)는 주파수 f가 감소함에 따라 표시된 바와 같이, 기울기(54)로 에너지의 증가를 결정할 수 있다. 차단 주파수 fc에서, 주파수 평가기(58)는 주파수 범위 f2에서의 저에너지 레벨과 비교할 때 에너지의 강한 증가, 예를 들어 적어도 30dB, 40dB, 50dB, 또는 심지어 60dB를 결정할 수 있다. 이에 기초하여, 즉 주파수 범위에서 에너지의 증가에 기초하여, 주파수 평가기(58)는 차단 주파수 fc를 결정할 수 있다. 이것은 또한 부대역 에너지가 증가하는 주파수로서 차단 주파수 fc를 결정하는 것이라고 할 수 있다.
도 11은 스펙트럼 차이 함수 S(k)의 예시적인 결과의 개략도를 도시한다. 원점은 스펙트럼 차이 함수 S(k)의 결과를 나타내며, 여기서 가로 좌표는 도 10에 도시된 것과 동일한 주파수 축을 나타낸다. 스펙트럼 차이 함수는 기울기(54)의 가파른 정도에 대한 측정치를 획득하도록 할 수 있다. 스펙트럼 차이 함수 S(k)의 로컬 또는 심지어 전역 최대치(72)는 기울기(54)가 가장 가파른 변화를 포함하는 주파수, 즉 감쇠가 매우 가파른 주파수를 나타낼 수 있다. 따라서, 이 측정치는 대안적으로 또는 추가로 주파수 평가기에 의해 차단 주파수 fc에 대한 측정치로 사용될 수 있다.
기울기(54)의 감소, 따라서 감쇠는 다수의 샘플을 따라 범위를 정할 수 있어서, 각각의 벡터의 최대 값을 사용한 차이는 충분한 정확도를 제공할 수 있다. 대안적으로, 스펙트럼 차이 함수는 단일 주파수 값에 대해 결정될 수 있는데, 즉 벡터 X1 및 X2는 1의 길이를 가질 수 있다.
사운드 품질을 향상시키기 위해서는, 원래 저 대역폭을 갖는 (예를 들어, 유역에서 낮은 음이 연주된) 신호와, 예를 들어 손실 인코딩 또는 다운 샘플링으로 인해 신호 처리에 의해 대역이 제한된 신호를 구별하는 것이 매우 중요하다. 이것은 임의의 후 처리로부터 높은 사운드 품질의 신호를 방지하고 필요할 때만 향상 처리를 적용하는 데, 즉 신호에서 인위적으로 제거된 고주파수 에너지를 복원하고 본질적으로 낮은 대역폭을 갖는 신호는 처리하지 않기 위해 후속 대역폭 확장(BWE)을 적용하는 데 중요하다. 이러한 목적을 위해, 신호는 감쇠의 가파른 정도, 감쇠량, 및 차단 주파수에 의해 주어진 3개의 특성에 대해 분석될 수 있다. 이것은 예를 들어 제2 양태에 따른 장치에 의해 실행되는 다음의 처리 단계에 의해 수행될 수 있다.
도 12a는 제2 양태의 일 실시예에 따른 장치(120)의 개략적인 블록도를 도시한다. 장치(90)와 비교할 때, 장치(120)는 오디오 신호의 다수의 블록으로부터 도출 수 있는 복수의 스펙트럼(121' 내지 123')에 대한 미리 결정된 특성을 결정하도록 구성된다. 즉, 오디오 신호는 블록으로 분할될 수 있고 각각의 블록으로부터 스펙트럼(12')이 도출될 수 있다. 기울기 평가기(52)는 스펙트럼(121' 내지 123') 각각의 기울기(54)를 평가하도록 구성된다. 이에 따라, 주파수 평가기(58)는 스펙트럼(121' 내지 123') 각각을 평가하도록 구성된다.
프로세서(64)는 오디오 신호가 스펙트럼(121' 내지 123') 각각에 대해 미리 결정된 특성을 포함한다는 것을 나타내는 정보(66)를 제공하도록 구성될 수 있다. 오디오 신호가 분할되는 다수의 블록은 임의적일 수 있다. 예를 들어, 시간에서의 각각의 블록의 길이는 일정할 수 있어서, 블록의 수는 오디오 신호의 길이에 따라 달라질 수 있다.
장치(120)는 주파수 평가기(58)와 연결되고 주파수 평가 결과(62)를 수신하도록 구성된 필터(74)를 포함할 수 있다. 필터(74)는 필터링된 주파수 평가 결과(62')를 제공하도록 구성될 수 있다. 프로세서는 스펙트럼(121' 내지 123') 각각 및/또는 그 필터링된 버전에 대한 복수의 기울기 평가 결과(56) 및 오디오 신호의 복수의 스펙트럼(121' 내지 123')과 연관된 필터링된 주파수 평가 결과(62')에 기초하여 오디오 신호가 미리 결정된 특성을 포함함을 나타내는 정보(66)를 제공하도록 구성될 수 있다. 오디오 신호를 인코딩하는 데 사용되는 차단 주파수는 본질적으로 시간 불변, 시간 불변일 수 있거나, 저역 통과 필터링, 이동 최대치, 이동 평균, 또는 필터(73)에 의해 구현되는 이동 중앙값 필터링과 같이 시간에 따라 거의 또는 드물게 변하는 파라미터일 수 있으며, 예를 들어, 주파수 평가기(58)가 상이한 스펙트럼(121' 내지 123') 사이에서 약간 상이한 차단 주파수 fc를 결정할 때, 추가 처리를 위해 필터링된 값(62')이 변하지 않거나 일정하게 남아 있거나 적어도 낮은 속도로 변화하는 것을 획득할 수 있게 한다. 즉, 획득된 값 fc의 후 처리는 저역 통과 필터링 또는 대안적으로 상이한 필터링에 의해 수행될 수 있다.
유사한 방식으로, 인위적 대역폭 제한은 보통 완전한 오디오 신호 또는 그것의 적어도 상당 부분에 대해 수행되어, 인위적 대역폭 제한 처리와 관련된 특성의 변화가 한 프레임에 존재할 것 같지 않거나 그럴 가능성이 존재하지 않거나 후속 프레임에서 부재할 것이다. 따라서, 프로세서(64)는 예를 들어 복수의 프레임, 즉 복수의 스펙트럼(121' 내지 123')에 대한 중간 필터링 등을 사용하여 변수 D 또는 대응하는 결과 또는 값의 후 처리를 수행할 수 있다. 프로세서는 오디오 신호의 복수의 프레임 각각에 대해 각각의 정보를 제공함으로써 오디오 신호가 미리 결정된 특성을 포함함을 나타내는 정보(66)를 제공하고, 결합된 결과(66')가 필터에 적용되고 필터의 출력에 영향을 미치는 복수의 프레임에 유효하도록 프레임의 결과를 결합함으로써 결합된 또는 필터링된 결과(66')를 제공하도록 구성될 수 있다. 예를 들어, 중간 필터링을 사용할 때, 다수의 프레임 및/또는 스펙트럼(121' 내지 123')은 각각의 필터 내에서, 예를 들어 프로세서(64)에 연결되거나 프로세서(64)의 일부이거나 프로세서(64)에 의해 구현되는 필터(76) 내에서 고려된다. 필터(76)의 출력(66')은 고려된 프레임으로부터 도출되는 결합된 중간 필터링된 값일 수 있다. 별도의 블록으로 도시되어 있지만, 필터(76)는 구현되거나 다른 컴퓨팅 블록의 일부일 수 있다.
대안적으로 또는 추가로, 장치(120)는 스펙트럼(121' 내지 123')의 주파수 대역의 에너지 E를 결정하고 각각의 주파수 대역 내의 에너지 E의 존재 및/또는 양을 나타내는 신호(82)를 제공하도록 구성된 결정기(78)를 포함할 수 있다. 신호(82) 또는 이로부터 도출된 신호는 프로세서(64)가 결정된 에너지에 대한 지식을 가질 수 있도록 프로세서(64)에 제공될 수 있다. 소위 고주파수 영역에 fh 에너지가 존재하는지의 여부에 관심을 가질 수 있다. 예를 들어, 고주파수 영역 fh은 적어도 1kHz, 2kHz, 3kHz, 4kHz 초과의 주파수 값 또는 상이한 값, 즉 상이한 대역폭 제한 주파수를 갖는 주파수 도메인일 수 있다. 예를 들어, 인코더는 특정 주파수 값을 초과하는 주파수를 버리거나 폐기할 수 있다. 주파수 값은 음성 관련 응용을 위한 3kHz 또는 4kHz와 같은 특정 응용에 따를 수 있다.
결정기(78)는 스펙트럼(121' 내지 123')이 고주파수 영역 fh에서 에너지를 포함하는지 또는 특정 임계치를 초과하는 에너지를 포함하는지를 결정할 수 있다. 결정기(78)가 고주파수 영역 fh에서 각각의 스펙트럼(121' 내지 123')이 에너지 E를 포함하지 않거나 소량의 에너지를 포함하는 것으로 결정하는 경우, 차단 주파수 및/또는 감쇠의 신뢰할만한 결정은 예를 들어, 각각의 프레임이 적절한 기울기를 제공하지 않기 때문에 어렵거나 심지어 불가능하다. 비제한적인 예로서, 전체 스펙트럼에서 에너지를 갖지 않는 무음 스펙트럼을 고려할 때, 차단 주파수 또는 기울기(54)의 감쇠는 결정될 수 없다. 이러한 정보는 신호(82)에 의해 제공될 수 있다. 프로세서는 실제 프레임 또는 스펙트럼(121' 내지 123')의 평가를 생략할 수 있고, 에너지 E가 존재하거나 존재하지 않는 관련 에너지를 구별하는 것으로 간주되는 에너지 임계 레벨 미만인 경우, 이전에 관찰되거나 평가된 이전 스펙트럼에 기초하여 정보(66)를 제공하도록 구성될 수 있다. 다른 말로 표현하면, 실제 스펙트럼이 충분한 정보를 제공할 수 없는 경우 프로세서는 이전 프레임에 기초하여 결정을 내릴 수 있다.
Figure pct00008
선택적인 단계에서, 오디오 신호/입력 신호를 짧은 블록으로 파티셔닝하는 것이 실행될 수 있으며, 즉 다수의 블록이 획득될 수 있다. 블록의 길이는 예를 들어 적어도 0.5ms, 적어도 1ms, 또는 적어도 5ms, 그리고 최대 1초, 500ms, 또는 100ms일 수 있다. 하나의 예시적인 간격은 적어도 2ms 및 최대 80ms의 값을 포함한다.
Figure pct00009
선택적으로, 예를 들어 변환 또는 필터 뱅크에 의해 각 블록에 대한 크기 스펙트럼을 계산한다. 따라서, 장치(19)는 예를 들어 스펙트럼(12')을 제공하기 위해 크기 스펙트럼과 같은 스펙트럼을 도출하기 위한 주파수 도출기를 포함할 수 있다. 각각의 블록에 대해, 도 10에 도시된 스펙트럼에 따른 또는 유사한 스펙트럼이 도출될 수 있다.
Figure pct00010
선택적으로, 스펙트럼 계수의 저역 통과 필터링은 시간 및 주파수와 관련하여 수행될 수 있다. 예를 들어, 이동 평균화 또는 재귀 평균화는 예를 들어 기울기 평가기(52), 및/또는, 주파수 평가기(58), 및/또는 기울기 평가기(52)와 주파수 평가기(58)를 모두 구현하는 프로세서에 의해 수행될 수 있다. 이는 주파수 범위의 평가가 충분한 정확도를 허용할 수 있도록 차단 주파수뿐만 아니라 감쇠 및 감쇠의 가파른 정도가 단일 주파수 값을 넘어 확장된 특정 주파수 범위 내에 배치됨에 따라 계산 부하를 감소시킬 수 있다.
Figure pct00011
선택적으로, 입력 신호가 묵음(mute)이거나 고주파수 영역에서 에너지를 포함하지 않는 경우, 신뢰할 수 있는 추정치를 획득하기가 어렵거나 획득이 불가능할 수 있다. 따라서, 3kHz를 초과하는 최대 부대역 에너지가 임계치 미만이면, 이 프레임에 원하는 정보가 포함되어 있지 않기 때문에, 이전 프레임의 검출 결과가 사용될 수 있다.
Figure pct00012
선택적으로, 예를 들어 결정기(78)를 사용하여, 신호가 더 낮은 샘플링 주파수로부터 업 샘플링되었는지를 검출한다. 낮은 비트레이트에서의 코딩된 신호는 통상적으로 현재 처리 프레임워크가 동작하는 샘플링 주파수보다 낮을 수 있는 낮은 샘플링 주파수로 인코딩된다. 디코딩 후 업 샘플링 또는 리샘플링이 검출될 때, 제2 양태에 따른 인위적 대역폭 제한 분석(ABLA)의 검색 범위는 검출될 최고 주파수가 인코더 샘플링 주파수와 동일하도록 변형될 수 있다. 리샘플링을 검출하기 위해, 리샘플링의 검출은 11,025Hz, 22,050Hz, 32,000Hz, 및/또는 44,100Hz와 같은 공통 샘플링 레이트 세트에 대해 이행될 수 있다. 샘플링 주파수의 절반보다 큰 범위에서 스펙트럼 계수의 최대 크기가 임계치 미만인 경우, 리샘플링이 검출될 수 있다. 이는 샘플링 레이트와 비교할 때 주파수 값의 절반으로 주파수를 획득할 수 있는 Nyquist 기준에 기초한다. 따라서, 에너지가 상반부의 임계치 미만인 경우, 이는 사용된 샘플링 레이트에 의해 야기될 수 있다. 그 다음에, 다음의 ABLA 처리는 검출 최고 주파수가 검출된 인코더 샘플링 주파수와 동일하도록 검색 범위가 변형되도록 변형되어서, 각각의 스펙트럼의 일부만을 검색할 수 있게 한다. 다른 부분, 예를 들어, 상반부는 업 샘플링에 의해 야기될 것으로 예상되는 것으로 버려질 수 있다. 리샘플링으로 인한 감쇠는 인코딩의 감쇠보다 클 수 있다. 리샘플링 검출은 리샘플링이 보다 낮은 차단 주파수 fc에서의 대역폭 제한으로서 잘못 검출되지 않도록 보장할 수 있다.
Figure pct00013
주파수에 따른 감쇠의 가파른 정도를 정량화하는 검출 함수, 예를 들어 스펙트럼 차이 함수를 계산한다. 도 11과 비교할 때 스펙트럼 차이 함수 또는 대안적인 버전이 사용될 수 있다. 검출 함수는 인접한 주파수 대역들 사이의 레벨 차이의 정보를 제공할 수 있다.
Figure pct00014
스펙트럼 차이 함수와 부대역 에너지 및 임계치 파라미터를 평가하는 일련의 규칙을 사용하여 인위적 대역폭 제한(ABL)을 검출한다. 검색 범위의 상단의 주파수 인덱스 k에서 시작하여, 스펙트럼 계수의 크기 X 및 스펙트럼 차이 함수 S(k) 또는 유사한 함수 또는 수량은 조건이 유효하거나 검색 범위의 하단에 도달할 때까지 조건 세트에 대해 테스트될 수 있다. 모든 임계치는 거짓된 긍정적인 검출과 거짓된 부정적인 검출 사이의 트레이드 오프를 변경하도록 조정될 수 있는 파라미터이다. 조건:
1). x(k) > 임계치; 및
2). X(k) < X(k+1) - 오프셋 파라미터 및 x(k)이 임계치보다 큼
즉, 크기가 임계치보다 큰 경우, 예를 들어 -60dB 인 경우 오프셋 파라미터보다, 예를 들어 0.5dB보다 큰 BL보다 높은 주파수를 향해 크기가 증가하면, 부정적인 검출을 초래할 수 있다.
다음에 따른 조건은:
1). S(k) > 임계치; 및
2). 리샘플링이 검출되었음
긍정적인 검출을 초래할 수 있다.
Figure pct00015
예를 들어 주파수 평가기(58)를 사용하여 차단 주파수 fc를 부대역 에너지가 증가하는 주파수로 결정한다.
Figure pct00016
선택적으로, 예를 들어 필터(74)를 사용하여 저역 통과 필터링에 의해 fc를 후 처리한다.
Figure pct00017
선택적으로, 예를 들어 필터(76)를 사용하여 중간 필터링에 의해 D를 후 처리한다.
장치(90) 및/또는 장치(120)는 신호 향상기를 추가로 포함할 수 있으며, 예를 들어, 신호 향상기(48)는 제1 양태와 관련하여 설명된다. 신호 향상기(48)는 오디오 신호가 미리 결정된 특성을 포함한다는 것을 나타내는 정보(66)에 따라 오디오 신호의 인위적 대역폭 제한 처리에 의해 야기되는 아티팩트를 감소시키도록 구성될 수 있다. 즉, 신호 향상기는 인위적 대역폭 제한에 의해 야기되는 아티팩트에 적응될 수 있다.
이하에서는, 제2 양태에 따라 버디 코딩 아티팩트를 억제 또는 적어도 감소시키고 지각된 사운드 품질을 개선하도록 구성된 장치가 참조될 것이다. 각각의 장치 또는 방법은 오디오 신호가 인위적 대역폭 제한 및/또는 스펙트럼 대역 복제와 같은 스펙트럼 향상 처리와 관련된 특성을 포함한다는 정보가 도출된 경우에 사용될 수 있다. 예를 들어, 장치는 인위적 대역폭 제한 또는 스펙트럼 대역 복제 중 적어도 하나가 검출된 경우에 사용될 수 있다.
따라서, 인위적 대역폭 제한 및 스펙트럼 향상 처리 중 적어도 하나가 검출되는 경우, 인위적 대역폭 제한이 검출되는 개념은 재사용될 수 있거나 스펙트럼에서 가파르고 매우 감쇠된 영역을 검출하기 위해 사용될 수 있으며, 이 영역은 스펙트럼 갭이라 할 수 있다. 스펙트럼 갭은 제1 및 제2 에지를 포함할 수 있다. 따라서, 스펙트럼 아일랜드는 또한 제1 및 제2 에지를 포함할 수 있고, 여기서 각각의 에지 사이에 갭 또는 아일랜드가 배치될 수 있다.
이제 도 12b를 참조하면, 차단 주파수 fc에서 하강 에지(68)를 포함하는 예시적인 스펙트럼이 도시되어 있다. 또한, 해당 차단 주파수 fc 미만의 주파수 범위에, 예시적인 스펙트럼 갭(202) 및 예시적인 스펙트럼 아일랜드(204)가 배치된다. 저주파수에서 시작하는 경우, 먼저 하강 에지(2061) 및 이후에 상승 에지(2062)가 배치되고, 여기서 그 사이의 주파수 범위에 스펙트럼 갭(202)이 배치될 수 있다. 따라서, 스펙트럼 아일랜드(204)는 에지(2063와 2064) 사이에 배치될 수 있다. 에지는 에지(68)를 찾기 위해 본 명세서에서 개시된 교시를 사용하여 위치가 결정되고, 정량화되고, 정성화될 수 있으며, 특히 주파수/에너지 평가가 수행될 수 있다.
차단 주파수 fc와 대조적으로, 갭(202) 및 아일랜드(204)의 위치, 존재, 및 크기뿐만 아니라 그 수는 오디오 신호의 프레임들 사이에서 달라질 수 있다. 간략하게, 갭(202)의 필링 및/또는 아일랜드(204)의 감쇠는 각각의 주파수가 가변적이라는 것을 제외하고 차단 주파수 fc와 관련하여 설명된 바와 같이 에지(2061 내지 2064)를 찾기 위한 개념을 사용한 후에 수행될 수 있다. 즉, 장치 또는 신호 향상기는 스펙트럼 갭을 채우거나 및/또는 스펙트럼 아일랜드를 감쇠시키도록 구성될 수 있다. 따라서, 오디오 신호 자체로부터 결정될 수 있는 스펙트럼 가중치가 사용될 수 있으며, 즉 보조 정보가 불필요하게 남아 있을 수 있다. 버디 코딩 아티팩트를 억제함으로써, 지각된 사운드 품질이 향상될 수 있다. 도입된 개념은 디코더 뒤에 위치된 후 처리 개념으로서 사용될 수 있다. 압축되지 않은 오디오 신호 및 다른 보조 정보에 액세스하지 않고도 블라인드 작동할 수 있다.
버디 아티팩트를 감소시키기 위해 이하에서 설명되는 개념은 스펙트럼 가중치 또는 단기 스펙트럼 감쇠라는 기본 원리를 사용할 수 있다. 따라서, 시간 도메인 신호 X[n]은 그 주파수 도메인 표현 X[k,m]으로 변환될 수 있으며, 여기서 k 및 m은 각각 시간 프레임 인덱스의 주파수를 나타낸다. 설명된 실시예에서, 단시간 푸리에 변환(STFT)이 적용될 수 있지만, 다른 변환이 사용될 수도 있다. 스펙트럼 가중치의 출력 신호 Y는 다음 식으로 주어질 수 있다:
Figure pct00018
주파수 도메인 신호 Y[n]의 시간 도메인 표현 Y[n]은 역 변환, 실시예에서 역 STFT에 의해 계산될 수 있다. 이하에서, 시간 도메인 신호는 소문자로 표시될 것이고, 주파수 도메인 신호는 대문자로 표시될 것이다. 가독성을 높이기 위해 인덱스 k 및 m 또는 주파수 도메인 신호는 생략될 것이다.
도 12c는 디코더로부터 수신 수 있고 인공 대역 제한 및/또는 스펙트럼 대역 복제와 같은 스펙트럼 향상의 대상이 될 수 있는 오디오 신호(91)를 처리하도록 구성된 장치(125)의 개략적인 블록도를 도시한다. 장치(125)는 기울기 평가기(52) 및 주파수 평가기(58)를 포함한다. 기울기 평가기(52)는 도 9 및/또는 도 12a와 관련하여 설명된 바와 같이 기울기 결과를 획득하기 위해 오디오 신호(91)의 스펙트럼의 기울기를 평가하도록 구성된다. 주파수 평가기는 예를 들어 각각의 아티팩트, 즉 갭(202) 및/또는 스펙트럼 아일랜드(204)를 둘러싸거나, 경계를 이루거나, 또는 펜싱(fencing)하는 에지(2061 및 2062) 및/또는 에지(2063 및/또는 2064)에서 적어도 제1 및 제2 주파수를 평가하도록 구성될 수 있다.
장치(125)는 스펙트럼 가중치 G 및/또는 W를 결정하고, 스펙트럼 가중치 G 및 S를 사용하여 적어도 각각의 에지들(2061 및 2062, 2063 및 2064) 사이의 스펙트럼 영역에서 오디오 신호(91)를 처리하도록 구성된 프로세서(208)를 포함한다. 장치(125)는 오디오 신호(91)의 주파수 도메인, 주파수 빈, 및/또는 프레임 각각에 대한 스펙트럼 가중치 G 및/또는 W를 결정하도록 구성될 수 있다. 스펙트럼 가중치 G는 스펙트럼 갭을 채우기 위해 오디오 신호와 결합될 필링 신호 S를 형성 또는 성형하는 데 사용될 수 있다. 스펙트럼 가중치 W는 스펙트럼 아일랜드를 감쇠시키기 위해 사용될 수 있다. 즉, 스펙트럼 갭(202) 내의 아티팩트를 감소시키기 위해, 필링 신호 F가 사용될 수 있다. 스펙트럼 아일랜드(204)에 의해 야기되는 아티팩트를 감소시키기 위해, 스펙트럼 가중치 W는 아일랜드의 높이를 감쇠시키도록 사용될 수 있다. 각각의 스펙트럼 갭(202) 및 각각의 스펙트럼 아일랜드(204) 내의 복수의 주파수 값에 대해, 복수의 스펙트럼 가중치가 결정될 수 있다.
도 12d는 스펙트럼 가중치 G를 결정하기 위해 프로세서(208)에 의해 구현될 수 있는 기능의 개략적인 블록도를 도시한다. 스펙트럼 갭은 급격한 감소, 즉 주파수 및 시간 도메인/방향에서 스펙트럼 크기 영역의 적어도 30dB, 적어도 40dB, 또는 적어도 50dB의 감소로 정의될 수 있다. 시간이 지남에 따른 추가 평가는 음조 신호의 고조파 사이의 스펙트럼 영역이 스펙트럼 갭으로 잘못 검출되지 않음을 보여준다. [5]에서, 검출 방법은 스펙트럼 영역에서 완벽한 0을 찾는다. 이는 오직 이 방법이 디코더에 위치하며 인코더와 동일한 필터 뱅크 및 차단에 액세스할 수 있기 때문에 가능하다. 설명된 실시예는 크기 스펙트럼 X의 차이와 그것의 평활한 복사를 사용하여 갑작스러운 상대적 스펙트럼 변화를 평가하는 디코더의 후 처리를 참조한다. 스펙트럼 갭과 스펙트럼 아일랜드를 모두 검출하기 위한 신호 흐름이 도 12d에 도시되어 있다. 오디오 신호(91)의 스펙트럼 표현을 획득하기 위해 STFT 또는 상이한 스펙트럼 계산기(44)가 사용될 수 있다. 절대 값 형성기(212)는 크기 스펙트럼 X를 출력하도록 구성될 수 있다. 로그(214)는 다음과 같은 로그 변환을 사용하기 위해 크기 스펙트럼 X를 로그 도메인으로 변환하도록 구성된다:
Figure pct00019
획득된 로그 크기 스펙트럼 X'는 2개의 저역 통과 필터에 의해 병렬로 평활화될 수 있으며, 여기서 제1 저역 통과 필터(216a)는 주파수 도메인에서 평활화된 신호 Y'를 획득하기 위해 주파수 도메인에서 오디오 신호, 즉 오디오 신호의 스펙트럼을 평활화하도록 구성될 수 있다. 제2 저역 통과 필터(216b)는 평활 신호 Z'를 획득하기 위해 시간 도메인에서 크기 스펙트럼 X'를 평활화하도록 구성될 수 있다. 로그 도메인에서 평활화되는 것으로 설명되었지만, 평활화는 선형 도메인 또는 상이한 도메인에서 수행될 수도 있다. 즉, 로그(214)는 또한 없거나, 저역 통과 필터 뒤에 배치될 수 있다. 즉, 로그 크기 스펙트럼 X'는 주파수와 시간에 따른 2개의 저역 통과 필터로 평활화되어 각각 신호 Y'와 Z'를 초래할 수 있다. 특수 가중치 G의 계산을 위해, 선형 값은 다음과 같이 계산될 수 있다:
Figure pct00020
이들 선형 값은 주파수 차이 값 및/또는 시간 차이 값을 획득하기 위해 크기 스펙트럼 X와 비교될 수 있다. 스펙트럼 크기 X를 시간 Z'및 주파수 Y'에 따른 평활화된 버전과 비교하는 상대적인 차이 Δt 및 Δf는 로그 도메인에서 다음에 의해 예를 들어 각각의 스펙트럼 계수 및 각 프레임에 대해 로그 도메인에서 계산될 수 있으며:
Figure pct00021
Figure pct00022
여기서 Δf는 주파수 차이 값을 지칭하고, Δt는 시간 차이 값을 지칭한다.
스펙트럼 가중치 계산기(218)는 다음에 따라 스펙트럼 가중치 G를 계산하도록 구성될 수 있는데:
Figure pct00023
즉, 주파수 차이 값 Δf이 주파수 차이 임계치 Δf 이상일 경우 및 시간 차이 값 Δt이 시간 차이 임계치 Δt 이상일 경우, 스펙트럼 가중치 G는 0이 아닌 값으로 설정된다. 시간 차이 값 Δt 및 주파수 차이 임계치 Δf가 각각의 임계 값 Δt, Δf보다 각각 더 클 것을 요구하는 것으로 설명되었지만, 다른 임계 값 또는 다르게 선택된 임계 값에 기초하여, 임계 값과 동일할 때 이득 파라미터는 또한 Γ일 수 있다. 다음의 결정 규칙이 적용될 수 있으며:
Figure pct00024
여기서 Δf 및 Δt는 임계치 파라미터를 나타낸다. α, β, 및 γ는 스펙트럼 가중치 계산의 특성에 영향을 미치는 파라미터이다. 모든 파라미터는 조정 가능한 파라미터이다. κ는 가중치의 영향을 증가시키는 데 사용되는 항으로, 결정 규칙 또는 그에 따라 계산될 수 있다:
Figure pct00025
계산된 스펙트럼 이득은 예를 들어 각각 저역 통과 필터(222a, 222b)를 사용하여 시간 및 주파수에 따라 평활화된다. 스펙트럼 이득은 도 12e와 관련하여 설명된 바와 같이 필링 소스 신호 S의 스펙트럼 가중을 위해 이후에 사용된다.
도 12e는 버디 아티팩트를 감소시키도록 구성된 신호 향상기(200)의 개략적인 블록도를 도시한다. 처리는 예를 들어 프로세서(208)를 사용하여 행해질 수 있다. 장치(200)는 필링 신호 F를 획득하기 위해, 예를 들어 곱셈에 의해 필링 소스 신호 S를 스펙트럼 가중 인자 G와 결합하기 위한 결합기(224)를 포함할 수 있다. 필링 신호 F는 스펙트럼 갭이 추정된 위치에서 0이 아닌 값만을 포함하는 구조를 포함할 수 있다. 추가 결합기(226)는 예를 들어 합산에 의해 필러 신호 F를 크기 스펙트럼 X와 결합하도록 구성될 수 있다. 즉, 필링 신호 F가 입력 신호 X에 추가된다. 필링 소스 신호 S는 시간 도메인에서 오디오 신호(91)를 필터링함으로써 획득되거나 생성될 수 있으며, 이는 선행하는 프레임으로부터 정보를 확장시킨다. 대안적으로, 필링 소스 신호는 하나의 스펙트럼 프레임 내의 다른 위치로부터 스펙트럼 계수를 복사함으로써, 응답 위치에서 스펙트럼 갭을 나타내지 않는 다른 오디오 채널로부터의 스펙트럼 계수를 복사함으로써, 및/또는 스펙트럼 갭을 나타내지 않는 선행하는 스펙트럼 프레임으로부터의 스펙트럼 계수를 복사함으로써 획득될 수 있다.
알려진 개념에서, 예를 들어 고급 오디오 코딩(AAC, Advanced Audio Coding)의 지각적 노이즈 대체(Perceptual Noise Substitution, PNS) 툴로부터의 노이즈 대체가 사용된다. 스펙트럼의 노이즈 유사 부분은 주어진 타겟 에너지에 매칭하도록 스케일링된 값의 의사 랜덤 시퀀스에 의해 디코더에서 대체된다. 프로세스는 보조 정보에 의해 제어된다. 또한, 노이즈 필링이라는 기술이 공지되어 있다. 노이즈 필링은 통합 음성 및 오디오 코딩(Unified Speech and Audio Coding, USAC) 코덱에서 사용되어 작은 예산의 제약 하에서 동작하는 양자화기의 데드 존(dead-zone)으로 인한 스펙트럼 홀을 채운다. 의사 랜덤 시퀀스 값은 이러한 스펙트럼 0을 채우기 위해 사용된다. 또한, Intelligent Gap Filling이라는 기술은 MPEG-H 및 3GPP EVS에서 공지되어 있다. 여기서, 스펙트럼 갭은 노이즈로 채워지거나 원격 스펙트럼 위치에서 제공되는 스펙트럼 타일을 사용한다. 프로세스는 보조 정보에 의해 제어된다. 본 명세서에 설명된 실시예는 스펙트럼 홀을 채우기 위해 선행하는 시간 프레임으로부터의 시간 주파수 정보의 분포가 사용되도록 하는 노이즈 필링과 상이하다. PNS와 달리, 필터링된 출력 신호는 전체 PNS 대역이 아닌 스펙트럼 갭에만 채워진다. PNS 및 IGF(지능형 갭 필링)와 달리, 실시예는 가이드되지 않는 처리, 즉 보조 정보를 사용하지 않는 처리로서 사용될 수 있다.
장치(200)는 프로세서(208)에 의해 구현될 수 있는 스펙트럼 아일랜드 가중치 계산기(228)를 포함할 수 있다. 다음에 따른 신호 Z에 포함되고 결합기(226)로부터 수신되고 입력 스펙트럼 X 및 필링 신호 F를 추가함으로써 획득되는 스펙트럼 아일랜드는
Z = X + F
다음에 따라 스펙트럼 가중치에 의해 억제될 수 있다:
Y = W · Z
G로서, W는 각각의 프레임 m 및 스펙트럼 계수 k에 대해 재계산된 스펙트럼 가중치이다. 가능한 많은 대역폭을 유지하기 위해 스펙트럼 갭이 채워진 후에 스펙트럼 아일랜드를 억제한다. 스펙트럼의 주요 부분에 연결될 수 없는 고립된 스펙트럼 아일랜드만이 최종적으로 억제된다. 부분 향상을 달성하기 위해, 스펙트럼 갭 필링 없이 스펙트럼 아일랜드 억제가 수행될 수 있다. 대안적으로, 스펙트럼 갭 필링은 스펙트럼 가중치 계산 없이 수행될 수 있다.
스펙트럼 가중치 계산을 억제하고 스펙트럼 가중치 W를 계산하기 위해, 다음의 교시가 구현될 수 있다. 스펙트럼 아일랜드는 매우 낮은 스펙트럼 크기 값으로 둘러싸인 주파수 및 시간 방향에서 스펙트럼 크기 영역의 급격한 증가로 정의될 수 있다. 크기의 상승은 예를 들어 적어도 30dB, 적어도 40dB, 또는 적어도 50dB일 수 있다. 스펙트럼 가중에 의해 대응하는 스펙트럼 계수를 감쇠시킴으로써 스펙트럼 아일랜드가 억제될 수 있다. 스펙트럼 가중치 W를 도출하기 위해, 도 12d와 관련하여 설명된 것과 유사한 처리가 수행될 수 있다. 스펙트럼 가중치 G에 대해 설명된 바와 같이, 시간 차이 값 및 주파수 차이 값 Δt 및 Δf가 결정될 수 있다. 스펙트럼 가중치 W는 결정 규칙에 기초하여 도출될 수 있다:
Figure pct00026
여기서
Figure pct00027
이며, Δp는 스펙트럼 아일랜드가 저에너지의 스펙트럼 계수로 둘러싸여 있다는 가정을 반영하는 임계치이다. Δf 및 Δt는 임계치 파라미터이다. 상술한 바와 같이, α, β, 및 γ는 조율 가능한 파라미터이다. 상기 결정 규칙을 고려하여, 스펙트럼 아일랜드의 범위에서, 스펙트럼 가중치 Ω은 각각 신호 Z, Y를 감쇠시킬 수 있도록 결정되는데, 즉 Ω은 1보다 작은 값이다. 스펙트럼 아일랜드 외부의 범위에서, W는 1의 값인데, 즉 감쇠가 수행되지 않는다. 장치(200)는 예를 들어 곱셈을 사용하여 스펙트럼 가중치 W와 신호 Z를 결합하기 위해 결합기(232)를 포함할 수 있다. 신호 변환기(234)는 ISTFT를 수행하기 위해, 즉 시간 도메인 신호를 획득하기 위해 사용될 수 있다.
다시 말해, 버디 억제 개념은 스펙트럼 갭 필링과 스펙트럼 아일랜드 억제로 나눠질 수 있다. 필링 신호 F는 광대역 필링 소스 신호 S를 스펙트럼 가중치 G로 필터링함으로써 계산될 수 있다. F는 0이 아닌 값만 포함하며, 여기서 스펙트럼 갭은 다음에 따라 결정되는 X에서 식별되었다:
F = G · S
도 12f는 오디오 신호를 처리하는 방법(1500)의 개략적인 흐름도를 도시한다. 방법(1500)은 오디오 신호의 스펙트럼의 기울기가 평가되어 기울기 관계 결과를 획득하는 단계(1600)를 포함한다. 단계(1700)는 주파수 평가 결과를 획득하기 위해 스펙트럼이 에지를 포함하는 적어도 제1 및 제2 주파수 에지를 평가하는 단계를 포함한다. 단계(1800)는 스펙트럼 가중치를 결정하고, 스펙트럼 가중치를 사용하여 제1 및 제2 주파수 에지 사이의 스펙트럼 영역에서 오디오 신호를 처리하는 단계를 포함한다.
도 13a는 오디오 신호의 인위적 대역폭 제한 처리와 관련된 미리 결정된 특성을 결정하는 방법(2000)의 개략적인 흐름도를 도시한다. 방법(2000)은 기울기 평가 결과를 획득하기 위해 오디오 신호의 스펙트럼의 기울기를 평가하는 단계를 포함하는 단계(2100)를 포함한다. 방법(2200)은 기울기 평가 결과에 따라 오디오 신호가 미리 결정된 특성을 포함한다는 것을 나타내는 정보를 제공하는 단계를 포함한다. 프로세서(64)에 의해 제공되는 정보(66)는 예를 들어, 신호 향상기를 사용하여 오디오 싱(sing)의 사운드 품질을 개선하기 위해 적용되는 대역폭 확장 처리를 활성화하는 데 사용될 수 있는 D로 이후에 언급된 변수를 포함할 수 있다. 선택적으로, 차단 주파수 fc가 결정될 수 있다, 즉, 선택적 단계는 오디오 신호가 미리 결정된 특성을 포함한다는 것을 나타내는 정보가 기울기 평가 결과 및 주파수 평가 결과에 따라 제공될 수 있도록 주파수 평가 결과를 획득하기 위해 오디오 신호의 스펙트럼의 차단 주파수를 평가하는 단계를 포함할 수 있다. 차단 주파수 fc는 누락된 주파수 도메인만을 복구하도록 BWE가 동작하는 주파수 범위를 결정함으로써 대역폭 확장(BWE)을 제어하는 데 사용될 수 있다. 이것은 다른 실시예에 따른 방법(2500)의 개략적인 흐름도를 도시하는 도 13b에 도시되며, 그 방법은 주파수 평가 결과를 획득하기 위해 오디오 신호의 스펙트럼의 차단 주파수를 평가하는 단계(2150)를 포함한다.
ABLA, 즉 각각의 특성의 검출이 이용되거나 요구될 수 있는 제2 응용은 손실 압축으로 인한 낮은 사운드 품질의 신호로서 오디오 신호의 분류이다. 이 분류는 설명된 분석만을 기반으로 하거나 오디오 신호에서 추출될 수 있는 다른 정보와 결합하여 행해질 수 있다. 이러한 맥락에서 사용될 수 있는 부가 정보의 예는 스테레오 신호의 폭 또는 스펙트럼 대역 복제(SBR)의 존재, 즉 손실 코덱에 의해 적용되는 방법이다. 그 다음에, ABLA는 손실 압축으로 신호의 사운드 품질을 개선시키는 다른 처리를 활성화하는 데 사용되며, 이는 BWE 처리로 제한되지 않는다. 스테레오 폭과 과도 신호 성분을 향상시키기 위한 필터링이 그 예이다.
ABLA의 결과, 즉 파라미터 D 및 차단 주파수 fc는 인간 조작자가 개입하지 않고도 그러한 아티팩트를 자동으로 바로잡는 데 사용될 수 있거나 심지어 필요할 수도 있다. 사운드 품질이 저하된 신호에만 사운드 품질 향상을 적용하는 것이 매우 중요할 수 있다. 사운드 품질에 부정적인 영향을 줄 수 있으므로 그러한 방식으로 고품질의 신호를 처리해서는 안 된다. 제2 양태에 따른 실시예는 인위적 대역폭 제한을 받는 오디오 프레임 또는 오디오 신호를 고정밀도로 검출할 수 있게 한다. 오디오 신호는 사운드 생성 프로세스에 의해 결정되는 고유 대역폭을 갖는다. 대역폭은 신호의 캡처, 저장, 처리, 및 전송에 적용되는 대역폭 제한을 포함하여 다양한 기술 프로세스로 인해 변경될 수 있다. 대역폭 제한은 상술한 바와 같이 매우 가파른 감쇠, 매우 높은 감쇠, 및 차단 주파수의 특성을 갖는 저역 통과 필터링이다.
이하에서는, 예를 들어 제2 양태에 따라 결정된 인위적 대역폭 제한에 응답하여, 제3 양태에서의 대역폭 제한 신호를 확장하는 대역폭에 대한 개념을 참조하여 본 발명의 제3 및 제4 양태를 참조할 것이다. 따라서, 제3 양태에 따른 실시예는 제2 양태와 관련하여 신호 향상기로서 사용될 수 있다.
제3 양태에 따른 개념은 지각된 사운드 품질을 개선하기 위해 몇몇 코딩 아티팩트를 억제하는 것을 목표로 한다. 기술적 단계는 후 처리로서 구현될 수 있고, 디코더에 의해 사용될 수 있는 소프트웨어를 사용하여 부분적으로 구현될 수 있다. 개념은 압축되지 않은 오디오 신호 및 다른 보조 정보에 액세스하지 않고도 블라인드 작동할 수 있다. 제3 양태에 따른 저 비트레이트 코딩 향상 처리는 유산(heritage) 지각 코더에 의해 사전 코딩된 오디오 자료의 가이드되지 않은 후 처리에 대한 개념과 관련된 지각 적 쾌감을 도입하거나 향상시키는 후 프로세서를 포함하거나 심지어 본질적으로 구성한다. 이에 의해, 사전 코딩된 오디오 자료는 지각적 쾌감에 대한 현대의 개념으로부터 이익을 얻을 수 있다.
제3 및 제4 양태와 관련하여 설명된 실시예는 스펙트럼 가중 또는 단기 스펙트럼 감쇠라는 기본 원리를 사용할 수 있다. 따라서, 시간 도메인 신호 x[n]은 그 주파수 도메인 표현 X[k,m]으로 변환되며, 여기서 k 및 m은 각각 시간 프레임 인덱스의 주파수를 나타낸다. 실시예에 따르면, 단시간 푸리에 변환(STFT)이 적용될 수 있지만, 다른 변환이 사용될 수도 있다. 스펙트럼 가중치의 출력 신호 Y는 다음 식으로 주어질 수 있다:
Figure pct00028
여기서 주파수 도메인 신호 Y[k,m]의 시간 도메인 표현 y[n]은 역 변환, 예를 들어 역 STFT, 즉 ISTFT에 의해 계산될 수 있다. 이하에서, 시간 도메인 신호는 소문자로 표시될 수 있고, 주파수 도메인 신호는 대문자로 표시될 수 있다. 가독성을 높이기 위해 인덱스 k 및 m 또는 주파수 도메인 신호는 생략될 것이다. 스펙트럼 가중은 스펙트럼 가중치 G[k,m]에 대한 세부 사항이 설명되는 스펙트럼 가중으로 지칭되는 양태와 관련하여 더 상세히 설명 될 것이다.
도 14는 제3 양태의 일 실시예에 따른 장치(140)의 개략적인 블록도를 도시한다. 장치(140)는 오디오 신호를 처리하도록 구성되고, 처리를 위해 오디오 신호의 스펙트럼(12')을 수신할 수 있다. 장치(140)는 오디오 신호, 즉 오디오 신호(12)의 시간 도메인 표현을 수신하도록 구성될 수 있고, 스펙트럼(12')을 도출할 수 있으며, 예를 들어 장치(140)는 그러한 목적을 위해 스펙트럼 계산기(44)를 포함할 수 있다.
장치(140)는 오디오 신호(91)의 스펙트럼(91')의 제1 부분(91'a)을 오디오 신호(91)의 스펙트럼(91')의 제2 부분(91'b)으로부터 분리하기 위한 분리기(92)를 포함한다. 제1 부분(91'a)은 제1 신호 특성을 갖고, 제2 부분(91'b)은 제2 신호 특성을 갖는다. 오디오 신호(91)는 시간 도메인 및/또는 주파수 도메인에서 장치(91)에 의해 수신될 수 있고, 예를 들어 차단 주파수 fc를 사용하여 대역폭이 제한될 수 있고 후 처리될 수 있다. 대역폭 확장과 관련된 제3 양태의 하나의 주요 특징은 입력 신호가 각각의 부분의 모듈에 대해 상이한 파라미터 설정을 적용함으로써 독립적으로 처리되는 과도 및 지속 신호 부분과 같은 상이한 특성으로 나눠질 수 있다는 것이다.
제1 및 제2 신호 특성은 상이한 지각 및/또는 주파수 범위에서의 상이한 특성에 의해 서로 상이할 수 있다. 실시예가 이에 한정되는 것은 아니지만, 제1 및 제2 신호 특성은 서로 상보적일 수 있는데, 즉 공통 스펙트럼(91')으로부터 하나의 신호 특성을 제거, 제외, 또는 감산함으로써 나머지 부분이 다른 특성을 형성한다. 비제한적인 예로서, 제1 신호 특성은 스펙트럼의 중간 주파수 범위일 수 있고, 제2 신호 특성은 스펙트럼의 가장자리 주파수 범위일 수 있다. 대안적으로, 제1 신호 특성은 오디오 신호의 직접 신호 특성일 수 있고, 제2 신호 특성은 오디오 신호의 주변 신호 특성일 수 있다. 다른 실시예에 따르면, 제1 신호 특성은 오디오 신호의 음조 특성일 수 있고, 제2 신호 특성은 과도 등으로 지칭될 수 있는 오디오 신호의 지속 신호 특성일 수 있다. 대안적으로, 제1 신호 특성은 오디오 신호의 음성 특성일 수 있고, 제2 신호 특성은 오디오 신호의 비음성 특성일 수 있다. 다른 신호 특성도 가능하다. 또한, 이들의 결합을 형성하는 것, 즉 상기 식별된 특성 중 둘 이상을 결합하는 것이 가능하다. 제1 및 제2 부분(91'a 및 91'b)은 유사한 또는 동일한 대역폭, 시작 주파수, 및 중지 주파수를 포함할 수 있고, 서로 결합될 때 스펙트럼(91')을 다시 형성할 수 있다. 즉, 나누거나 분리하는 것은 과도 지속 신호 분해에 의해 행해질 수 있다. 대안적으로 또는 추가로, 중간-가장자리 신호 분해, 직접-주변 신호 분해, 또는 전경/배경 분해, 및/또는 음성-비음성 분해 등과 같은 다른 분해 규칙 또는 방법이 가능하다.
장치(140)는 제1 확장된 부분(98a)을 획득하기 위해, 제1 신호 특성과 연관된 제1 파라미터(961)를 사용하여 제1 부분(91'a)의 대역폭을 확장하기 위한 제1 대역폭 확장기(941)를 포함할 수 있다. 장치(140)는 제2 확장된 부분(98b)을 획득하기 위해, 제2 신호 특성과 연관된 제2 파라미터(962)를 사용하여 제2 부분(91'b)의 대역폭을 확장하기 위한 제2 대역폭 확장기(942)를 더 포함한다. 대역폭 확장은 원래 신호와 결합될 스펙트럼에서 부가 부분 또는 주파수 부분을 형성하는 것을 포함할 수 있다. 이것은 비선형성의 적용을 통해 트랜스포징, 스펙트럼 신장, 또는 오버톤의 생성에 의한 이러한 추가 주파수 도메인의 복사 및/또는 생성을 포함할 수 있다. 제1 및 제2 대역폭 확장기를 사용함으로써, 상이한 부분(91'a 및 91'b)에 존재하는 상이한 신호 특성은 각각의 대역폭 확장기(941 및 942)에 의해 상이하게 고려될 수 있다. 예를 들어, 복사된 부분의 대역폭, 복수의 수, 복사의 교대, 획득되는 신호의 스펙트럼 성형, 및/또는 인위적으로 생성되는 스펙트럼 부분의 주파수 특성은 상이한 신호 특성과 관련하여 상이한 파라미터 세트(961 및 962)를 사용함으로써 다음과 같이 고려될 수 있는 상이한 신호 특성에 따라 달라질 수 있다. 이것은 신호 특성에 대한 대역폭 확장의 높은 적응을 허용한다.
장치(140)가 제1 및 제2 신호 특성을 고려하기 위한 제1 및 제2 대역폭 확장기를 포함하는 것으로 설명하였지만, 다른 실시예에 따른 장치는 2개 초과, 예를 들어 3개, 4개, 5개, 또는 심지어 더 많은 수를 상이한 대역폭 확장에 적용하도록 구성될 수 있다. 이러한 장치는 대응하는 수의 대역폭 확장기를 포함할 수 있지만, 예를 들어 상이한 신호 특성을 순차적으로 처리하는 경우 적어도 2개의 대역폭 확장을 위해 하나의 대역폭 확장기를 사용할 수도 있다. 따라서, 장치(140)는 하나의 대역폭 확장기(94)를 구현하고, 상이한 부분(91'a 및 91'b)을 순차적으로 처리하면서 상이한 파라미터(961 및 962)로 대역폭 확장기를 순차적으로 적응시켜 구현될 수 있다.
장치(140)는 확장되고 결합된 오디오 신호(104)를 획득하기 위해 제1 및 제2 확장된 부분(98a, 98b)을 사용하도록 구성된 결합기(102)를 포함한다. 확장된 부분(98a 및 98b)은 결합된 오디오 신호(104)가 또한 시간 도메인에 있을 수 있도록 시간 도메인 표현으로서 결합기(102)로부터 수신될 수 있다. 대안적으로, 확장된 부분(98a 및 98b)은 결합된 오디오 신호(104)가 또한 주파수 도메인에 있을 수 있도록 주파수 도메인에서 결합기에 의해 수신될 수 있고, 그 후에 시간 도메인으로 컨버팅될 수 있다. 대안적으로, 결합기(102)는 단일 부분(98a 및 98b) 각각 또는 이들의 결합된 버전을 시간 도메인으로 변환하고 시간 도메인에서 결합된 오디오 신호(104)를 제공하도록 구성될 수 있다.
도 15는 상이한 성분(106a 및 106b)을 포함하는 예시적인 스펙트럼을 도시하는 개략도이다. 예를 들어, 성분(106a)은 예를 들어 스네어 드럼(snare drum)에 의해 얻어진 스펙트럼의 과도 신호와 관련될 수 있다. 이러한 신호는 하나의 스펙트럼 프레임 내에서 더 높은 상관 관계를 가질 수 있고, 예를 들어 사람의 목소리와 관련될 수 있는 스펙트럼 부분(106)에 의해 나타내어지는 지속 신호보다 높은 대역폭을 가질 수 있다. 도 15에서, 과도 부분(106a)은 부분(106b), 예를 들어 노래하는 목소리보다 상당히 많은 대역폭을 갖는 것을 알 수 있다.
도 16은 제3 양태의 일 실시예에 따른 장치(160)의 개략적인 블록도를 도시한다. 이하에서, 오디오 신호 및 그의 도출된 신호가 참조될 것이다. 오디오 신호는 시간 도메인 및/또는 주파수 도메인에 존재 및/또는 처리될 수 있으며, 여기서 두 변형은 주파수 대 시간 컨버전 또는 시간 대 주파수 컨버전에 의해 서로에 대해 변환될 수 있다. 따라서, 오디오 신호를 언급할 때, 이것은 달리 명시적으로 설명되는 동의적으로 허용 가능한 시간 도메인 표현 및 주파수 도메인 표현을 지칭할 수 있다.
장치(160)는 오디오 신호(91)의 주파수 도메인 표현(91')을 수신하도록 구성되는 분리기(92)를 포함한다. 이를 위해, 장치(160)는 시간 도메인 표현으로부터 주파수 도메인 표현(91')을 획득하기 위한 스펙트럼 계산기(44)를 포함할 수 있다.
분리기(92)는 오디오 신호, 예를 들어, 그것의 주파수 도메인 표현을 수신하고, 오디오 신호(91)의 과도 부분을 감소시켜 제1 변형된 오디오 신호를 획득하도록 구성된 과도 억제기(108)를 포함할 수 있다. 분리기(92)는 제1 변형된 오디오 신호에 기초하여 제1 부분(98a)을 획득하도록 구성될 수 있다. 일 실시예에 따르면, 제1 부분(98a)은 제1 변형된 오디오 신호에 대응한다. 다른 실시예에 따르면, 제1 변형된 부분의 처리, 예를 들어 필터링, 증폭, 감쇠 등이 수행된다.
분리기(92)는 제2 변형된 신호를 획득하기 위해 예를 들어 오디오 신호(91)로부터 제1 변형된 오디오 신호, 제1 부분(91'a)을 감산하기 위한 감산기(112)를 포함할 수 있다. 일 실시예에 따르면, 제2 변형된 신호는 제2 부분(91'b)이다. 제1 부분(91'a)에 대해 설명된 바와 같이, 제2 부분(91'b)은 또한 획득된 감산 결과의 처리에 기초하여 획득 수 있다. 따라서, 오디오 신호(91)로부터 제1 부분(91'a)을 제거함으로써, 제2 부분(91'b)이 획득될 수 있다. 제1 변형된 신호를 획득하고 제2 변형된 신호를 획득하기 위해 오디오 신호로부터 그것을 감산함으로써, 오디오 신호를 두 부분으로 분해하는 것이 수행될 수 있다.
분리기(92)는 주파수 도메인 또는 시간 도메인에서 동작하고 과도 억제기(108)가 오디오 신호(91)의 스펙트럼의 각각의 부대역에 대한 과도 및/또는 음조 부분을 감소시키거나 제거하도록 오디오 신호(91)를 처리하도록 구성될 수 있다. 이것은 거의 또는 비일시적 또는 거의 또는 비 음조(즉, 노이즈가 있는) 부분을 포함하는 부대역에 대한 처리를 줄이거나 아예 없앨 수 있다. 과도 억제기(108)는 과도 처리 스테이지, 음조 처리 스테이지, 및/또는 결합 스테이지를 포함하여 이들 특성을 억제하거나 증폭함으로써 분리될 특성 중 하나를 처리할 수 있다. 오디오 신호(91)의 주파수 도메인 표현은 다수의 부대역(주파수 대역)을 포함할 수 있으며, 여기서 과도 처리 스테이지 및/또는 음조처리 스테이지는 주파수 대역 각각을 처리하도록 구성된다. 대안적으로, 오디오 신호(91)의 주파수 컨버전에 의해 획득된 스펙트럼은, 선택된 특성을 포함하거나 선택된 특성이 없는 주파수 대역과 같은 특정 주파수 범위 또는 주파수 대역을 추가 처리로부터 제외하기 위해 감소, 즉 컷팅될 수 있다. 이것은 계산 노력을 감소시키고 따라서 더 빠르고/빠르거나 더 정밀한 처리를 가능하게 할 수 있다.
주파수 대역이 과도 부분을 포함하는 경우, 과도 처리 스테이지는 처리된 주파수 대역 각각에 대해 결정하도록 구성될 수 있다. 오디오 신호(91)가 주파수 대역에서 음조 부분을 포함하는 경우, 음조 처리 스테이지는 주파수 대역 각각에 대해 결정하도록 구성될 수 있다. 과도 처리 스테이지는 적어도 과도 부분 스펙트럼 가중 인자를 포함하는 주파수 대역에 대해 결정하도록 구성될 수 있으며, 여기서 스펙트럼 가중 인자는 각각의 주파수 대역과 연관되고 각각의 부분을 감쇠/제외 또는 증폭시킬 수 있다. 과도 및 음조 특성은 스펙트럼 처리에 의해 식별될 수 있다. 과도 및/또는 음조의 레벨은 분리기(92)의 과도 처리 스테이지 및/또는 음조 처리 스테이지에 의해 측정될 수 있고, 스펙트럼 가중치로 컨버팅될 수 있다. 분리기(92)는 적어도 음조 부분을 포함하는 주파수 대역에 대한 스펙트럼 가중 인자를 결정하도록 구성될 수 있다. 스펙트럼 가중 인자는 다수의 가능한 값을 포함할 수 있으며, 스펙트럼 가중 인자의 크기는 주파수 대역에서 과도 및/또는 음조 부분의 양을 나타낸다.
스펙트럼 가중 인자는 절대 또는 상대 값을 포함할 수 있다. 예를 들어, 절대 값은 주파수 대역에서 과도 및/또는 음조 사운드의 에너지 값을 포함할 수 있다. 대안적으로, 스펙트럼 가중 인자는 0과 1 사이의 값과 같은 상대 값을 포함할 수 있으며, 값 0은 주파수 대역이 과도 또는 음조 부분을 포함하지 않거나 거의 포함하지 않음을 나타내고, 값 1은 다량 또는 완전 과도 및/또는 음조 부분을 포함하는 주파수 대역을 나타낸다. 스펙트럼 가중 인자는 다수의 값, 예컨대 3, 5, 10 이상의 값(단계), 예를 들어 (0, 0.3 및 1), (0.1, 0.2,…1) 등과 같은 다수의 값 중 하나를 포함할 수 있다. 스케일의 사이즈, 최소값과 최대 값 사이의 단계 수는 적어도 0이지만, 바람직하게는 적어도 하나 이상, 보다 바람직하게는 적어도 5일 수 있다. 바람직하게는, 스펙트럼 가중치의 다수의 값은 최소 값, 최대 값, 및 최소 값과 최대 값 사이의 값을 포함하는 적어도 3개의 값을 포함한다. 최소 값과 최대 값 사이의 더 많은 수의 값은 주파수 대역 각각의 보다 연속적인 가중을 허용할 수 있다. 최소값 및 최대 값은 0과 1 사이의 스케일 또는 다른 값으로 스케일링될 수 있다. 최대 값은 최고 또는 최저 레벨의 과도성 및/또는 조성(tonality)을 나타낼 수 있다.
분리기(92)의 결합 스테이지는 주파수 대역 각각에 대한 스펙트럼 가중치를 오디오 신호와 결합하도록 구성될 수 있다. 분리기(92)는 결합된 스펙트럼 가중치를 주파수 대역 각각에 적용하도록 구성될 수 있다. 예를 들어, 스펙트럼 가중치는 처리된 주파수 대역에서 오디오 신호(91)의 스펙트럼 값과 곱해질 수 있다.
오디오 신호(91)로부터 일부 부분/특성을 억제하거나 제외함으로써, 각각의 특성이 없지만 다른 특성을 포함하는 제1 변형된 신호가 획득될 수 있다. 오디오 신호로부터 신호를 감산함으로써, 억제된 특성을 포함하고 제1 변형된 신호의 특성이 없는 역 신호가 제2 변형된 신호에 의해 획득될 수 있다.
이하에서, 대역폭 확장기(941 및 942)의 예시적인 구성이 참조될 것이다. 대역폭 확장기(941 및 942) 각각은 각각의 부분의 적어도 일부를 복제하기 위한 복제기(114)를 포함할 수 있고, 복제기에 의해 생성된 적어도 확장된 부분을 성형하는 엔벨로프 성형기(116)를 포함할 수 있고, 적어도 확장된 부분을 등화하기 위한 화이트너(118)를 포함할 수 있고, 및/또는 확장된 부분 및/또는 확장된 부분의 적어도 일부를 위상 시프팅하기 위한 거침 방지 필터(122)를 포함할 수 있다. 이들 요소 각각은 다른 참조된 요소와 함께 배치될 수 있다. 대안적으로, 이들 요소 중 일부 또는 전부는 존재하지 않을 수 있고/있거나 다른 요소로 대체될 수 있다. 예를 들어, 복제기에 의해 수행된 복사 대신에, 대역폭의 인위적 생성은 대역폭 확장기에 의해 구현되어, 대역폭 생성기가 복제기(114)를 대체할 수 있다. 대안적으로, 스펙트럼의 성형 또는 화이트닝을 버릴 수 있고/있거나 다른 처리가 사용될 수 있다. 또한, 거침 방지 필터(122)는 선택적이다. 내부 단기 푸리에 변환 블록(124)의 출력이 공급됨으로써 시간 도메인에서 각각의 신호를 필터링하는 것으로 도시되어 있지만, 거침 방지 필터는 주파수 도메인에서 동작하도록 구성될 수 있고, 따라서 각각의 역 단기 푸리에 변환 블록(124) 전에 배치될 수 있다. 따라서, 배치된 블록에 추가로, 그 순서도 변할 수 있다.
대역폭 확장기(941 및 942) 각각은 각각의 제1 및 제2 복제기(1141 및 1142)를 포함할 수 있다. 복제기(1141 및 1142)는 각각의 제1 또는 제2 부분(91'a 및 91'b)의 적어도 일부를 복제하고, 각각 제1 부분(91'a), 제1 부분과 별개인 제2 부분, 제2 부분(91'b)의 복제된 부분의 적어도 하나의 버전, 제2 부분을 각각 제1 부분과 결합하여, 각각 복제된 부분(126a, 126b)을 각각 획득하도록 구성된다.
이제 도 17a를 참조하면, 제1 부분(91'a)의 예시적인 스펙트럼이 도시되어 있으며, 여기서 설명은 제한 없이 제2 부분(91'b)을 참조한다. 부분(91'a)은 차단 주파수 fc 아래의 관련 에너지 또는 진폭│X│를 가질 수 있으며, 차단 주파수 fc를 초과하는 적은 양의 에너지를 포함하거나 심지어 에너지를 포함하지 않을 수 있다. 주파수가 증가하면 스펙트럼이 감소할 수 있다. 다시 말해, 도 17a는 대역이 제한된 신호의 크기 스펙트럼 │X│를 도시한다. 차단 주파수는 fc로 표시된다.
도 17b는 다수의 2개의 복제된 부분(1281 및 1282)에 의해 확장되는 제1 부분(91'a)의 개략도를 도시한다. 복제된 부분(1281 및 1282) 각각은 부분(91'a)에 의해 점유되지 않은 주파수 범위, 즉 차단 주파수 fc를 초과하는 주파수 범위로 복사되는 제1 부분(91'a)의 주파수 대역 w의 복사본일 수 있으며, 여기서 바람직하게는 복제된 부분(1281 및 1282)은 원래 신호, 즉 제1 부분(91'a)에 바로 순서가 정해지도록 결합된다. 따라서, 도 17b는 복사 수행 방법을 보여준다. 복소수 스펙트럼 계수는 각각의 n에 대해 주파수 간격 [fc-w, fc] 의 소위 소스 패치 w로부터 주파수 간격 [fc, fc+w, fc+2w]의 목적지 패치, 즉 [fc(n-1)w, fc+nw] 로 시프팅되며, 여기서 n은 1에서 패치 수 또는 삽입되는 복사본 수 범위의 변수이다. 도 17b의 비 제한적인 예에 의해 숫자 n은 2이고, 복제 부분의 폭 Dfw는 장치(160)에 의해 각각의 대역폭 확장기(941 및 942)에 대해 독립적으로 조정될 수 있다. 즉, 소스 패치 w가 얼마나 자주 시프팅되는지는 원하는 대역폭 및/또는 패치의 수에 따라 달라질 수 있으며, 여기서 이들 둘은 조율 가능한 파라미터일 수 있다. 스펙트럼의 크기가 감소함에 따라, 패치가 부착된 위치에서 스텝 또는 불연속이 발생할 수 있다.
제1 부분 및 제2 부분의 복사된 부분은 제1 중간 주파수, 예를 들어 제1 부분(91'a)의 fcopy1 내지 제1 부분의 최대 주파수 fc까지의 범위일 수 있다. 따라서, 제2 부분의 복사된 부분은 제2 부분(91'b)의 동일하거나 상이한 중간 주파수에서부터 차단 주파수 fc일 수 있는 제2 부분의 최대 주파수까지의 제2 주파수 범위를 포함할 수 있다. 상이한 중간 주파수에 기초하여, 폭 Dfw은 상이할 수 있다. 따라서, 동일한 결과 대역폭을 획득하기 위해, 패치의 수는 또한 상이한 대역폭 확장기 사이에서 변할 수 있다.
원하지 않는 아티팩트를 피하기 위해, 제1 대역폭 확장기는 제1 엔벨로프 성형기(1161)를 포함할 수 있고 제2 대역폭 확장기(942)는 제2 엔벨로프 성형기(1162)를 포함할 수 있다. 엔벨로프 성형기(1161 및 1162)는 적어도 확장된 부분, 즉 차단 주파수 fc 위의 주파수 부분을 성형하도록 구성될 수 있다. 엔벨로프 성형, 즉 스펙트럼 엔벨로프 성형 수행은 빈번하게 사용될 수 있으며, 크기 스펙트럼은 평탄하지 않으며, 도 17a에 도시된 바와 같이 더 높은 주파수를 향하여 크기가 떨어지는 경향이 있다. 도 17b는 추가 적응 없이 복사가 수행될 때 크기 스펙트럼을 시각적으로 보여준다. 크기 스펙트럼의 급격한 과도가 주파수 fc, fc + w,…fc + kw에서 나타날 수 있다. 이것은 엔벨로프 성형기(1161 및 1162)에 의해 방지될 수 있는 날카롭고 선명한 사운드 인식으로 이어질 수 있다.
이러한 영향을 피하기 위해, 주파수 간격 [fc-w, fc]를 포함하는 소스 패치의 로그 스펙트럼에 선형 회귀에 의해 적합화된 기울기 │X│를 계산함으로써 도 17b에 도시된 바와 같은 스펙트럼 틸트 T를 추정할 수 있다. 각각의 패치 w는 값 kT만큼 감쇠될 수 있는데, 즉 패치가 주파수 범위로 복사 될수록 감쇠는 더 클 수 있다. k는 자연수일 수 있고, 소위 패치 순서일 수 있으며, 이는 1부터 시작하여 시프팅되는 각각의 추가 패치마다 증가되며, 따라서 상술한 n에 대응할 수 있다.
다시 말해서, 도 17b는 엔벨로프 성형이 없는 스펙트럼 계수의 복사를 도시한다. 복사 소스는 간격 [fc-w, fc]에서 기인하며, 여기서 w는 패치 폭이다. 아날로그 성형 동안, 간격 [fc, fc+2w]에서 복사된 타겟 패치의 크기는 스펙트럼 틸트를 나타내는 T의 배수에 의해 감쇠된다.
도 17c는 적어도 확장된 부분(1261)을 성형하도록 구성되는 엔벨로프 성형기(1161)로부터 획득될 수 있는 예시적인 크기 스펙트럼(132a)을 도시한다. 보간에 기초하여, 복사된 부분(1281 및 1282)의 크기는 균일한 스펙트럼을 획득하도록 성형되거나 감쇠될 수 있다. 도 17c는 패치 순서 2를 갖는 엔벨로프 성형의 크기 스펙트럼을 도시하며, 여기서 패치 순서는 1 이상의 임의의 값을 포함할 수 있다. 대역폭 확장기(491 및 492) 각각은 적어도 확장된 제1 부분, 확장된 제2 부분을 각각 등화하기 위한 화이트너를 포함할 수 있다. 스펙트럼 화이트닝은 스펙트럼 값을 높이고 스펙트럼 피크를 낮추어 행해질 수 있다.
이해를 돕기 위해, 도 18은 오디오 신호(91)를 독립적으로 화이트닝하도록 구성되는 스펙트럼 화이트너의 개략적인 블록도를 도시한다. 화이트너는 오디오 신호의 스펙트럼을 획득하기 위해 스펙트럼 계산기(44)를 포함할 수 있다. 화이트너(134)는 각각의 스펙트럼 계수 및 시간 프레임의 크기 X[k,m]을 평활화된 버전 Y[k,m]과 비교하도록 구성될 수 있으며, 여기서 k는 스펙트럼 계수 인덱스이고 m은 프레임 인덱스이다. Y[k,m]은 주파수에 따른 로그 스펙트럼 크기를 평활화함으로써 도출될 수 있다. 이어서, 이들 로그 값은 다음의 결정 규칙을 사용하여 선형 도메인으로 변환될 수 있다:
Figure pct00029
실수 값의 스펙트럼 가중치 G[k,m]은 다음의 결정 규칙에 의해 설명된 바와 같이 계산될 수 있다:
Figure pct00030
다시, 가독성을 높이기 위해 인덱스 k 및 m은 생략되었다. α1, α2, β1, β2, γ1, γ2는 화이트너(1811, 1182) 각각에 대해 독립적으로 적응될 수 있는 조정 가능한 파라미터이다. 화이트너는 스펙트럼의 절대 값을 계산하기 위한 계산기(126)를 포함할 수 있다. 이들 값은 X로 지칭될 수 있으며, 여기서 값은 임의의 스펙트럼 가중치 G를 계산하기 위해 계산기(138)에 제공되는 값이고 평활화된 버전 Y를 획득하기 위해 평활화 경로(142)에 제공되는 값이다. 주파수 컨버터(144)는 결과를 시간 도메인으로 변환하도록 구성될 수 있다. 이제 도 16을 참조하면, 각각의 화이트너가 스펙트럼 계산기(44) 및/또는 주파수 컨버터(144) 등이 없이 구현될 수 있도록 화이트너(1181 및 1182)가 이미 주파수 도메인에서 동작할 수 있음을 알 수 있다.
대역폭 확장기(941 및 942) 각각은 각각 확장된 제1 부분, 확장된 제2 부분의 적어도 일부분을 각각 위상 시프팅하기 위해 각각의 거침 방지 필터(1221, 1222)를 각각 포함할 수 있다. 이것은 각각 복사된 부분(1281 및 1282) 및/또는 그 성형된 버전(128'1, 128'2) 및/또는 화이트닝된 버전(146a 및 146b)을 위상 시프팅함으로써 실행될 수 있다. 즉, 거침 방지 필터는 위상 시프팅된 신호를 획득하기 위해 각각의 확장된 부분을 위상 시프팅하거나 그 오른쪽을 시그널링하도록 구성된다. 거침 방지 필터(1221 및 1222)는 필터링될 각각의 신호에 상이한 위상 시프트를 적용하도록 구성될 수 있다. 위상 시프트를 사용함으로써, 원래의 신호에 대한 복사된 부분 또는 확장된 부분의 위상 시프트가 획득될 수 있다. 대안적으로, 거침 방지 필터는 제공된 완전한 신호로 위상 시프트를 수행할 수 있다. 이것은 예를 들어 다음에 설명될 바와 같이 각각의 코어 부분이 이후에 비 위상 시프트 부분으로 대체될 때 구현될 수 있다. 거침 방지 필터(1221 및 1222)는 시간 도메인에서 각각의 신호를 필터링하도록 구현될 수 있다. 따라서, ISTFT 블록(1241, 1242)은 시간 도메인에서 각각의 신호를 제공하도록 배치될 수 있다. 대안적으로, 거침 방지 필터(1221 및 1222)는 주파수 도메인에서 필터링하도록 구현될 수 있다. 그러한 경우에, ISTFT 블록(1241 및 1242)은 없을 수 있거나, 각각 거침 방지 필터(1221, 1222) 후에 배치될 수 있다. 거침 방지 필터링은 주로 복사에 의해 유발되는 지각된 거칠기를 감소시키기 위해 수행될 수 있다. 신호의 음색에는 영향을 미치지 않지만 주로 신호의 위상을 변경하는 필터가 이에 적합할 수 있다. 예를 들어, 2개의 내포된 올패스(allpass) 필터가 병렬로 배치될 수 있고, 시간 도메인에서 계산될 수 있다. 내포된 올패스 필터는 각각의 필터의 단일 이득 올패스 전달 함수를 나타내는 H1(Z) 및 H2(Z)로 이해될 수 있으며, 그러면 H1(H2(Z)) 및 H2(H1(Z))는 모두 올패스 필터이다.
선택적으로, 대역폭 확장기(941 및 942) 각각은 지속 또는 과도 부분을 증폭시키기 위해서 각각 이득 gt, gs를 적용하기 위해 증폭기/감쇠기(1481, 1482)를 각각 포함할 수 있다. 결과는 결합기(102)에 제공된 확장된 부분(98a 및 98b)일 수 있다. 상술한 바와 같이, 확장된 부분(98a, 98b)은 상이하게 및/또는 설명된 신호 변형 중 일부만을 수행함으로써 획득될 수 있다.
거침 필터와 관련하여, 장치(160)는 필터링된 신호(154)를 획득하기 위해 각각 제1 확장된 부분 및 제2 확장된 부분(98a 및 98b), 결합된 신호(102), 및 동의적인 것을 필터링하기 위한 고역 통과 필터(152)를 포함할 수 있다. 대역폭 확장기(941 및 942)와 병행하여, 오디오 신호(91)는 블록(44)에서의 시간-주파수 컨버전 및 블록(1241 및 1242)에서의 주파수-시간 컨버전에 의해 야기된 시간 지연을 보상하기 위해 지연(156)을 받을 수 있다. 장치(160)는 지연된 오디오 신호를 필터링하도록 구성된 저역 통과 필터(158)를 포함할 수 있다. 장치(160)는 저역 통과 필터링된 오디오 신호와 신호(154)를 결합하도록 구성된 결합기(162)를 더 포함할 수 있다. 일 실시예에 따르면, 장치(160)는 결합된 균일한 신호를 획득하기 위해 저역 통과 필터(158)의 상위 주파수(차단 주파수 Xc)를 고역 통과 필터(152)의 하위 에지 주파수와 매칭시키도록 구성된다. 특히, 장치(160)는 오디오 신호(91)의 결정된 차단 주파수에 응답하여 그리고 그에 따라 저역 통과 필터(158)의 상위 에지 주파수(차단 주파수)와 함께 고역 통과 필터(152)의 각각의 하위 주파수를 적응시키도록 구성될 수 있다. 따라서, 고역 통과 필터(152)에 기초하여, 차단 주파수 fc 아래의 신호 부분은 확장되고 위상 시프팅된 부분만이 유지되도록 무시되거나 강하게 감쇠될 수 있다. 이와 대조적으로, 저역 통과 필터(158)는 오디오 신호(91)의 일부를 무시, 폐기, 또는 강하게 감쇠시키기 위해 사용될 수 있으며, 이들의 일부는 차단 주파수 fc를 넘어 각각 확장된다. 이는 거침 방지 필터(1221 및 1222)를 제외하고는 대역폭 확장기 내의 다른 지연을 보상하기 위해서만 지연되는 원래의 오디오 신호(91)에 대해 위상 시프팅되는 확장 및 복사된 버전을 획득하는 것을 허용한다. 획득된 오디오 신호(164)는 확장되고 최적화된 오디오 신호일 수 있다.
거침 방지 필터링은 스펙트럼의 대역폭이 확장된 영역에만 적용되므로, 결과 신호는 고역 통과 필터링되어 저역 통과 필터링되고 지연된 입력 신호에 추가될 수 있다. 지연은 STFT에 의해 도입된 지연을 보상하기 위해 사용되거나 필요하다. 상술한 고역 통과 및 저역 통과 필터의 차단 주파수는 예를 들어 도 17a에 도시된 바와 같은 차단 주파수 fc에 대응할 수 있다.
도 16과 관련하여 도 19에 있어서, 신호 분석기인 선택적 블록(166) 및 장치(160)의 룩업 테이블인 168의 기능이 도시되어 있다. 장치(160)는 블라인드 대역폭 확장일 수 있다. 이는 예를 들어 보조 정보에 기초하여 추가 지식 없이 설명된 바와 같이 손실된 대역폭을 복원하는 것을 목표로 할 수 있다. 신호 분석기(166)는 신호가 인위적으로 대역 제한되었는지 여부를 검출하도록 구성될 수 있고/있거나 오디오 신호(91)의 차단 주파수 fc를 추정할 수 있다. 인위적 대역폭 제한 분석과 관련하여 설명된 바와 같이 두 단계 모두 수행될 수 있다. 두 값 모두는 각각의 프레임마다 업데이트될 수 있다. 따라서, 오디오 신호(91)는 복수의 프레임을 포함할 수 있다. 장치(160)는 각각의 프레임에 대해, 오디오 신호(91)의 인위적 대역폭 제한과 관련된 특성에 대해 그리고 오디오 신호에서 차단 주파수 fc를 결정하기 위해 오디오 신호(91)의 스펙트럼을 분석하도록 구성된 신호 분석기(166)를 포함할 수 있다.
도 19에서 각각 개략적으로 f0, f1, f2, f3, f4로 지칭되는 상이한 차단 주파수에 기초하여, 상이한 파라미터가 복제기(114), 성형기(116), 화이트너(118), 및/또는 거침 방지 필터(122)의 기능을 적응시키기 위해 사용되며, 이는 달라질 수 있다. 예를 들어, 파라미터 p는 각각의 블록을 적응시키기 위해 사용될 수 있다. 도 19에 도시된 바와 같이, 상이한 차단 주파수는 상이한 파라미터 또는 동일한 파라미터의 상이한 값과 연관될 수 있다. 이들 값은 각각의 파라미터를 각각의 블록에 제공하기 위해 룩업 테이블(168)에 저장될 수 있다. 도 16에서, 점선 연결은 모듈이 예를 들어 실시간으로 제어됨을 나타낸다. 예시적인 파라미터는 다음과 같으며 이는 일 예일 뿐이다: 하나의 파라미터는 소스 패치 w의 대역폭이 될 수 있다. 이 파라미터는 인위적으로 생성된 대역폭에 영향을 줄 수 있다. 다른 예시적인 파라미터는 상이한 코덱마다 상이할 수 있는 평활화 필터의 시간 상수일 수 있다. 주파수 도메인 및/또는 시간 도메인에서 블록(114, 116, 118, 및/또는 122)을 제어하기 위해 복수의 다른 예가 사용될 수 있다.
룩업 테이블은 신호 분석 결과에 따라 일부 또는 모든 제어 파라미터에 대한 조율치를 보유할 수 있다. 차단 주파수 fc의 추정의 경우, 각각의 선택된 주파수 fi에 대해, 대응하는 파라미터의 지각적 조율이 실행되어 제어 값 pi를 초래할 수 있다. 선택된 값 pi는 상이한 대역폭 확장기마다 상이할 수 있는데, 즉 장치(160)는 각각의 블록을 상이하게 적응시키도록 구성될 수 있음에 유의한다. 대역폭 확장기(941 또는 942)에 대한 룩업 테이블 샘플링 지점 si는 예를 들어 다음에 따라 튜플로서 제공될 수 있다:
Figure pct00031
도 19에는 5개의 차단 주파수 f0 내지 f4에 대해 하나의 제어 파라미터 p를 조율하는 예가 도시되어 있다. 일부 예에 따르면, 중간 값이 적절한 경우 파라미터가 보간될 수 있다. 그러한 경우, 간격 [fi, fi+1]에서의 두 샘플링 지점 사이에서 다음에 따라 선형 보간이 실행될 수 있다:
Figure pct00032
이러한 보간 값의 예는 예를 들어 도 17a-17c와 관련하여 설명된 바와 같이 각각의 패치의 폭 w일 수 있다. 보간되지 않을 수 있는 파라미터는 예를 들어 정수 값으로 제한되는 패치의 수일 수 있다.
장치는 인위적 대역폭 제한과 관련된 특성을 갖는 프레임에 대해 제1 및 제2 파라미터를 사용하도록 구성될 수 있다. 다른 프레임에 대해, 장치는 예를 들어 인위적 대역폭 제한과 관련된 특성과 상이한 특성을 갖는 프레임들에 대해, 제1 대역폭 확장기에 대한 제3 파라미터 및 제2 대역폭 확장기에 대한 제4 파라미터를 사용하도록 구성될 수 있다. 대안적으로, 장치는 인위적 대역폭 제한과 관련된 특성과 상이한 특성을 갖는 프레임에 대해 제1 및 제2 대역폭 확장기를 활성화해제하도록 구성될 수 있다. 따라서, 장치는 각각의 특성을 포함하는 것으로 간주되는 프레임에 대해 대역폭 확장을 수행하도록 구성될 수 있고, 제3 및 제4 파라미터를 사용함으로써 특성을 다르게 포함하지 않는 것으로 간주되는 프레임을 상이하게 처리하거나 또는 각각의 프레임을 처리하지 않은 채로 둘 수 있다.
따라서, 장치는 차단 주파수 fc와 같은 대응하는 복수의 신호 변형 파라미터와 연관된 복수의 파라미터, 및 각각 제1 및 제2 대역폭 확장기(941, 942)에 사용되는 대응하는 복수의 신호 변형 파라미터 fc와 관련된 복수의 다른 파라미터를 포함하는 룩업 테이블(168)을 포함할 수 있다. 장치는 오디오 신호(91)에 적용된 변형에 대한 스펙트럼을 분석하기 위한 신호 분석기(166)를 포함할 수 있다. 장치(160)는 변형과 연관된 변형 파라미터, 예를 들어 차단 주파수 fc, 및/또는 기울기의 가파른 정도와 관련된 파라미터를 도출하도록 구성될 수 있다. 장치는 룩업 테이블을 사용하고 변형 파라미터를 사용하여 각각의 제1 및/또는 제2 파라미터를 도출하도록 구성될 수 있다. 일 예에 따르면, 장치는 변형 파라미터 차단 주파수를 도출할 수 있고, 제1 대역폭 확장기에 대해 한 번 및 제2 대역폭 확장기에 대해 한 번 파라미터 p를 결정할 수 있다.
알려진 개념에서, 인위적 대역폭 확장은 잘 알려진 오디오 코딩 기술이다. 또한, 가이드되지 않은 대역폭 확장은 잘 알려져 있다. 그러나, 대역폭 확장 계산 이전의 의미론적 분해는 알려져 있지 않다. 의미론적 역상관은 공간 업믹싱의 목적으로 사용될 수 있으며, 대역폭 확장 응용에서 필연적으로 발견되는 것과 같은 복사 또는 전치 기능을 포함하지 않는다. 따라서, 제3 양태에 따른 실시예는 상이하다. 다른 기술은 역상관된 대역폭 확장으로부터 알려져 있다. 여기서, 모든 고대역 타겟 스펙트럼 영역은 전용 역상관기를 통해 역 상관되거나 랜덤 노이즈의 역상관 인스턴스를 삽입하여 상호 독립적이다. 제3 양태에 따른 본 실시예는 의미론적으로 분해된 신호 부분의 상호 역상관을 교시하지만, 알려진 개념은 단지 상이한 스펙트럼 타겟 영역의 역상관만을 포함한다.
도 20은 제3 양태의 일 실시예에 따른 방법(3000)의 개략적인 흐름도를 도시한다. 방법(3000)은 오디오 신호의 스펙트럼의 제1 부분을 오디오 신호의 스펙트럼의 제2 부분으로부터 분리하는 단계를 포함하는 단계(3100)를 포함하며, 제1 부분은 제1 신호 특성을 갖고 제2 부분은 제2 신호 특성을 갖는다. 방법(3200)은 제1 확장된 부분을 획득하기 위해, 제1 신호 특성과 연관된 제1 파라미터를 사용하여 제1 부분의 대역폭을 확장하는 단계를 포함한다. 방법(3200)은 제2 확장된 부분을 획득하기 위해, 제2 신호 특성과 연관된 제2 파라미터를 사용하여 제2 부분의 대역폭을 확장하는 단계를 포함한다. 단계(3400)는 확장되고 결합된 오디오 신호를 획득하기 위해 제1 확장된 부분 및 제2 확장된 부분을 사용하는 단계를 포함한다.
제4 양태에 따르면, 거침 방지 억제는 예를 들어 상이한 개념으로 대역폭 확장을 수행한 후에 후 처리로서 수행될 수 있다. 따라서, 예를 들어 인위적 대역폭 제한이 수행되었고 또한 각각의 확장이 수행되었다고 결정한 경우 신호 향상기(48)와 관련하여 아티팩트를 감소시키기 위해 거침 방지 억제 또는 거침 필터링이 사용될 수 있다.
도 21은 제4 양태의 일 실시예에 따른 장치(210)의 개략적인 블록도를 도시한다. 장치(210)는 예를 들어 인위적 대역폭 확장의 대상이 되는 오디오 신호(12)를 처리하기 위해 사용될 수 있다. 장치(210)는 위상 시프팅된 신호(172)를 획득하기 위해 오디오 신호(12)의 적어도 일부를 위상 시프팅하기 위한 거침 방지 필터(122)를 포함할 수 있다. 거침 방지 필터(122)는 예를 들어 시간 도메인에서 또는 대안적으로 주파수 도메인에서 동작할 수 있다. 일 실시예에 따르면, 거침 방지 필터(122)는 완전한 오디오 신호(12)를 위상 시프팅하도록 구성될 수 있다. 장치(210)는 제1 필터링된 신호(174)를 획득하기 위해 위상 시프팅된 신호(173)를 필터링하기 위한 고역 통과 필터, 예를 들어 고역 통과 필터(152)를 포함한다. 장치(210)는 제2 필터링된 신호(176)를 획득하기 위해 오디오 신호(12)를 필터링하도록 구성된 저역 통과 필터(158)를 포함한다. 장치(210)는 지각된 거칠기가 감소되는 향상된 오디오 신호(178)를 획득하기 위해 신호(154 및 156)를 결합하기 위한 결합기(162)를 더 포함한다. 장치(160)와 관련하여 설명된 바와 같이, 확장된 대역폭은 오디오 신호(12)에 대해 위상 시프팅된다. 일 양태는 각각 선택된 필터 주파수, 차단 주파수 fc 위에 있는 임의의 신호 부분을 버리도록 저역 통과 필터(158)를 사용하여 오디오 신호(12)를 필터링하는 것이다. 이것은 결합된 신호(178)에서 상이한 신호 부분의 제거 또는 제한 효과 또는 중첩을 허용한다.
도 22a는 제4 양태의 일 실시예에 따른 장치(220)의 개략적인 블록도를 도시한다. 도 16과 관련하여 설명된 바와 같이, 장치(220)는 주파수 도메인에서 오디오 신호(12)의 제1 및 제2 부분(12'a 및 12'b)을 제공하기 위한 분리기(92)를 포함할 수 있다. 장치(220)는 상이한 경로를 포함할 수 있으며, 각각의 경로는 비제한적 예로 시간 도메인에서 동작하는 각각의 거침 방지 필터(1221, 1222)와 함께 화이트너(1811, 1182)를 각각 포함한다. 대안적으로 또는 추가로, 각각의 경로는 증폭기/감쇠기(148)를 포함할 수 있다. 따라서, 장치(220)는 상이한 부분(12'a 및 12'b)을 서로 독립적으로 향상시킴으로써 오디오 신호(12)를 향상시키도록 구성될 수 있다. 이러한 목적을 위해, 장치(220)는 도 16과 관련하여 설명된 바와 같이 신호 분석기(166) 및 룩업 테이블(168)을 포함할 수 있다.
특히, 장치(220)는 오디오 신호(12)에서 대역폭 확장의 시작 주파수를 결정하도록 구성된 신호 분석기(166)를 포함할 수 있으며, 대역폭 확장의 시작 주파수는 확장되는 대역폭 사이, 예를 들어 오디오 신호(12)의 도 70a-c에 따라 추가된 패치 w 또는 그 처리된 버전, 및 코어 대역폭, 즉 오디오 신호(91)의 대역폭과 같은 원래의 대역폭에 배치된다.
이와 관련하여, 장치는 오디오 신호(12)에서 대역폭 확장의 시작 주파수에 따라 고역 통과 필터(152)의 하위 주파수 및/또는 저역 통과 필터(158)의 상위 주파수를 적응시키도록 구성될 수 있다. 대역폭 확장의 시작 주파수는 추가 채널에 의해 수신되거나 신호 분석기(166)에 의해 결정될 수 있다.
장치(210)의 독립적인 실시예 및 제4 양태의 다른 실시예 각각과 결합될 수 있는 실시예에 따르면, 장치는 예를 들어 오디오 신호에서 대역폭 확장의 시작 주파수를 사용하여 오디오 신호(12)를 향상시키기 위한 화이트너(118), 엔벨로프 성형기 등을 포함하는 거침 필터 및/또는 신호 향상기를 적응시키도록 구성될 수 있다. 예를 들어, 오디오 신호(12)에서의 대역폭 확장의 시작 주파수에 기초하여, 룩업 테이블은 화이트너(118) 및/또는 거침 방지 필터(122) 및/또는 추가 블록과 같이 조정될 블록 각각에 대해 4개의 상이한 파라미터를 제공할 수 있다.
제4 양태에 따른 다른 실시예 각각과 결합될 수 있는 실시예에 따르면, 거침 방지 필터(122)는 제1 경로에 배치될 수 있고, 여기서 저역 통과 필터(158)는 제2 경로에 배치될 수 있다. 제2 경로는 거침 방지 필터에 제공되거나 수신된 신호에 기초하여 신호를 균등화하는 화이트너(118)를 포함할 수 있는데, 즉, 화이트너와 거침 방지 필터의 순서 또는 시퀀스가 변경될 수 있다.
다른 실시예 각각과 결합될 수 있는 제4 양태의 추가 실시예에 따르면, 거침 방지 필터(122)는 제1 경로에 배치될 수 있고 저역 통과 필터(158)는 제2 경로에 배치될 수 있다. 장치(220)는 예를 들어 화이트너(118) 및/또는 성형기(116)를 사용하여 제1 경로 및 적어도 부분적으로 주파수 도메인에서 오디오 신호를 향상시키도록 구성된 신호 향상기를 포함할 수 있다. 제2 경로는 바람직하게는 거침 방지 필터 지연을 제외하고, 시간-주파수 컨버전 및 허용 오차 범위 최대 ±10%, ±5%, 또는 ±2% 내의 주파수-시간 컨버전에 의해 야기된 제1 경로에서의 지연에 대응하는 지연에 의해 오디오 신호(12)를 지연시키기 위한 지연(156)과 같은 지연 블록을 포함할 수 있다.
제4 양태에 따른 다른 실시예 각각과 결합될 수 있는 추가 실시예에 따르면, 거침 방지 필터(122)는 제1 거침 방지 필터이다. 장치는 오디오 신호(12)의 스펙트럼을 수신하고 오디오 신호(12)의 스펙트럼의 제2 부분(12'b)으로부터 오디오 신호(12)의 스펙트럼(12')의 제1 부분(12'a)을 분리하기 위한 분리기를 포함한다. 제1 부분(11'a)은 제1 신호 특성을 갖고, 제2 부분(11'b)은 제2 신호 특성을 갖는다. 장치(220)는 제1 부분 거침 필터(1221)를 갖는 제1 경로에 제1 부분(12'a)을 제공하고, 제2 거침 방지 필터(1222)를 갖는 제3 경로에 제2 부분(12'b)을 제공하도록 구성될 수 있다.
이전에 언급된 실시예와 결합될 수 있는 추가 실시예에 따르면, 장치는 제1 경로에 제1 이득 gt를 적용하고 제3 경로에 제2 이득 gs를 적용하도록 구성될 수 있다.
이전의 끝에서 두 번째의 실시예와 결합될 수 있는 제4 양태의 추가 실시예에 따르면, 장치는 오디오 신호(12)의 대역폭 확장의 시작 주파수를 사용하여 제1 거침 방지 필터(1221)와 제2 거침방지 필터(1222)를 서로 상이하게 조정하도록 구성될 수 있다.
제4 양태의 마지막 3개의 예와 결합될 수 있는 제4 양태의 추가 실시예에 따르면, 분리기는 오디오 신호(12)를 수신하고 제1 변형된 오디오 신호를 획득하기 위해 오디오 신호(12)의 과도 부분을 감소시키도록 구성된 과도 억제기(108)와 같은 과도 억제기를 포함한다. 분리기(92)는 예를 들어 제1 변형된 오디오 신호를 제1 부분(12'a)으로서 사용함으로써 제1 변형된 오디오 신호에 기초하여 제1 부분(12'a)을 획득하도록 구성된다. 분리기(92)는 제2 변형된 신호를 획득하기 위해 오디오 신호(12)로부터 제1 변형된 오디오 신호를 감산하기 위한 감산기(112)를 더 포함한다. 분리기(92)는 예를 들어 제2 변형된 오디오 신호를 제2 부분(12'b)으로서 취함으로써 제2 변형된 오디오 신호에 기초하여 제2 부분을 획득하도록 구성된다.
마지막 4개의 실시예와 결합될 수 있는 제4 양태의 추가 실시예에 따르면, 제1 신호 특성은 a) 스펙트럼의 중간 주파수 범위; b) 오디오 신호의 직접 신호 특성; c) 오디오 신호의 음조 특성; 및 d) 오디오 신호의 음성 특성 중 하나이다. 제2 신호 특성은 다음에서 사용된 문자에 따른다: a) 스펙트럼의 가장자리 주파수 범위; b) 오디오 신호의 주변 신호 특성; c) 오디오 신호의 지속 신호 특성; 및 d) 오디오 신호의 비음성 특성.
제4 양태의 다른 실시예 각각과 결합될 수 있는 제4 양태의 추가 실시예에 따르면, 향상된 오디오 신호(164)는 제1 필터링된 신호와 비교할 때 위상 시프팅되는 제2 필터링된 신호를 포함하는데, 즉 하위 주파수 도메인과 비교할 때 상위 주파수 도메인이 위상 시프팅된다.
도 23은 오디오 신호를 처리하는 방법(4000)의 개략적인 흐름도를 도시한다. 방법(4000)은 위상 시프팅된 신호를 획득하기 위해 오디오 신호의 적어도 일부를 위상 시프팅하는 단계를 포함하는 단계(4100)를 포함한다. 단계(4200)는 제1 필터링된 신호를 획득하기 위해 고역 통과 필터를 사용하여 위상 시프팅된 신호를 필터링하는 단계를 포함한다. 방법(4300)은 제2 필터링된 신호를 회득하기 위해 저역 통과 필터를 사용하여 오디오 신호를 필터링하는 단계를 포함한다. 단계(4400)는 향상된 오디오 신호를 획득하기 위해 제1 필터링된 신호와 제2 필터링된 신호를 결합하는 단계를 포함한다. 다시 말해, 인위적 대역폭 확장 거침 억제(artificial bandwidth extension roughness suppression, ARS)는 상술한 바와 같은 음조 스파이크 아티팩트 및 박동 아티팩트와 같은 아티팩트를 감소시키는 것을 목표로 한다. 도 22에 도시된 바와 같이, ARS 방법 또는 블록 중 일부는 또한 이전에 이미 설명된 BWE 개념에 의해 사용된다. 이러한 일반적인 방법이나 개념은 상이한 파라미터 조율과 함께 사용될 수 있음에 유의한다. 다음 섹션에서는 장치(160)와 장치(220) 사이의 차이점이 설명될 것이다.
신호 분석기는 한편으로는 신호가 인위적으로 대역폭 확장되었는지 여부를 감지하여 도 22에서 ARS를 활성화하는 데 사용된다. 다른 한편으로, 현재 신호에 적용된 인위적 대역폭 확장의 시작 주파수(차단 주파수)에 대한 실시간 추정이 수행될 수 있다. 신호의 설명은 개념이 본 명세서에서 설명된 다른 양태에 따라 수행될 수 있는지 여부를 분석한다. 신호 분석기 결과는 도 22에 도시된 모듈에 영향을 주는 제어 파라미터를 포함하는 출력을 획득하기 위해 룩업 테이블(168)로 전달된다. 룩업 테이블(168)은 몇몇 시작 주파수에 대해 지각적으로 조율된 파라미터 조율치를 포함할 수 있다.
ARS에 대한 룩업 테이블은 도 16과 관련하여 설명된 BWE 룩업 테이블과 동일한 원리에 기초할 수 있으며, 종속 변수는 BWE 시작 주파수의 추정치일 수 있다는 차이가 있다. 또한 제어되는 파라미터가 상이할 수 있다.
일부 양태가 장치의 맥락에서 설명되었지만, 이러한 양태가 또한 대응하는 방법의 설명을 나타내는 것이 명백하며, 여기서 블록 및 디바이스는 방법 단계 또는 방법 단계의 특징에 대응한다. 유사하게, 방법 단계의 문맥에서 설명된 양태은 또한 대응하는 블록 또는 아이템의 설명 또는 대응하는 장치의 특징을 나타낸다.
본 발명의 인코딩된 오디오 신호는 디지털 저장 매체에 저장될 수 있거나 인터넷과 같은 유선 전송 매체 또는 무선 전송 매체와 같은 전송 매체를 통해 전송될 수 있다.
특정 구현 요건에 따라, 본 발명의 실시예는 하드웨어로 또는 소프트웨어로 구현될 수 있다. 구현은 각각의 방법이 수행되도록 프로그래밍 가능한 컴퓨터 시스템과 협력하는 (또는 협력할 수 있는) 전자적으로 판독 가능한 제어 신호가 저장된, 디지털 저장 매체, 예를 들어 플로피 디스크, DVD, CD, ROM, PROM, EPROM, EEPROM 또는 플래시 메모리를 사용하여 수행될 수 있다.
본 발명에 따른 일부 실시예는 본 명세서에 설명된 방법 중 하나가 수행되도록 프로그래밍 가능 컴퓨터 시스템과 협력할 수 있는 전자적으로 판독 가능한 제어 신호를 갖는 데이터 캐리어를 포함한다.
일반적으로, 본 발명의 실시예는 컴퓨터 프로그램 제품이 컴퓨터 상에서 실행되는 경우 방법들 중 하나를 수행하도록 동작하는 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있다. 프로그램 코드는 예를 들어 머신 판독 가능 캐리어에 저장될 수 있다.
다른 실시예는 기계 판독 가능 캐리어 상에 저장된, 본 명세서에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.
다시 말해, 본 발명의 방법의 실시예는, 따라서, 컴퓨터 프로그램이 컴퓨터 상에서 실행되는 경우, 본 명세서에 설명된 방법 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
따라서, 본 발명의 방법의 다른 실시예는 그 위에 기록된, 본 명세서에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함하는 데이터 캐리어(또는 디지털 저장 매체 또는 컴퓨터 판독 가능 매체)이다.
따라서, 본 발명의 방법의 다른 실시예는 본 명세서에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 데이터 스트림 또는 신호의 시퀀스이다. 데이터 스트림 또는 신호의 시퀀스는 데이터 통신 접속을 통해, 예를 들어 인터넷을 통해 전송되도록 구성될 수 있다.
다른 실시예는 본 명세서에 설명된 방법 중 하나를 수행하도록 구성되거나 적응된 처리 수단, 예를 들어 컴퓨터 또는 프로그램 가능 논리 디바이스를 포함한다.
다른 실시예는 본 명세서에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.
일부 실시예에서, 프로그램 가능 논리 디바이스(예를 들어, 필드 프로그램 가능 게이트 어레이)는 본 명세서에 설명된 방법의 기능 중 일부 또는 전부를 수행하는 데 사용될 수 있다. 일부 실시예에서, 필드 프로그램 가능 게이트 어레이는 본 명세서에 설명된 방법 중 하나를 수행하기 위해 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법은 바람직하게는 임의의 하드웨어 장치에 의해 수행된다.
위에서 설명된 실시예는 본 발명의 원리를 예시하기 위한 것일 뿐이다. 본 명세서에 설명된 구성 및 세부사항의 변형 및 변형은 본 기술분야의 통상의 기술자에게 명백할 것임을 이해한다. 따라서, 곧 있을 청구범위의 범위에 의해서만 제한되고 본 명세서의 실시예에 대한 기술 및 설명에 의해 제공된 특정 세부사항에 의해서만 한정되는 것은 아니다.
참고문헌
[1] M. Arora, J. Lee, and S. Park, “High quality blind bandwidth extension of audio for portable player applications,” in Proc. of the AES 120th Conv., 2006.
[2] Markus Erne, “Perceptual audio coders ”what to listen for?” in Audio Engineering Society Convention 111, Nov 2001.
[3] Chia-Ming Chang, Han-Wen Hsu, Kan-Chun Lee, Wen-Chieh Lee, Chi-Min Liu, Shou-Hung Tang, Chung-Han Yang, and Yung-Cheng Yang, “Compression artifacts in perceptual audio coding,” in Audio Engineering Society Convention 121, Oct 2006.
[4] Martin Dietz, Lars Liljeryd, Kristofer Kjorling, and Oliver Kunz, “Spectral band replication, a novel approach in audio coding,” in Audio Engineering Society Convention 112, Apr 2002.
[5] Sascha Disch, Andreas Niedermeier, Christian R. Helmrich, Christian Neukam, Konstantin Schmidt, Ralf Geiger, Jeremie Lecomte, Florin Ghido, Frederik Nagel and Bernd Edler, “Intelligent gap filling in perceptual transform coding of audio,” in Audio Engineering Society Convention 141, Sep 2016.

Claims (27)

  1. 오디오 신호의 인위적 대역폭 제한 처리와 관련된 미리 결정된 특성을 결정하기 위한 장치에 있어서,
    기울기 평가 결과(56)를 획득하기 위해 상기 오디오 신호의 스펙트럼의 기울기(54)를 평가하도록 구성된 기울기 평가기(52); 및
    상기 기울기 평가 결과(56)의 평가에 따라 상기 오디오 신호(12)가 상기 미리 결정된 특성을 포함한다는 것을 나타내는 정보(66)를 제공하기 위한 프로세서(64);를 포함하는 것을 특징으로 하는 장치.
  2. 제1항에 있어서,
    상기 주파수 평가 결과(62)를 획득하기 위해 상기 오디오 신호(12)의 스펙트럼의 차단 주파수(fc)를 평가하도록 구성된 주파수 평가기(58)를 더 포함하고,
    상기 프로세서(64)는 상기 기울기 평가 결과(56)의 평가 및 상기 주파수 평가 결과(62)의 평가에 따라 상기 오디오 신호(12)가 상기 미리 결정된 특성을 포함한다는 것을 나타내는 정보(66)를 제공하도록 구성되는 것을 특징으로 하는 장치.
  3. 제1항 또는 제2항에 있어서,
    상기 장치는 상기 오디오 신호(12)의 복수의 스펙트럼(12'1, 12'2, 12'3)에 있어서 상기 미리 결정된 특성을 결정하도록 구성되고, 상기 기울기 평가기(52)는 상기 스펙트럼(12'1, 12'2, 12'3) 각각의 기울기(54)를 평가하도록 구성되고, 상기 주파수 평가기(58)는 상기 스펙트럼(12'1, 12'2, 12'3) 각각을 평가하도록 구성되고, 상기 프로세서는 상기 오디오 신호가 상기 스펙트럼(12'1, 12'2, 12'3) 각각에 있어서 상기 미리 결정된 특성을 포함한다는 것을 나타내는 정보를 제공하도록 구성되는 것을 특징으로 하는 장치.
  4. 제3항에 있어서,
    상기 스펙트럼(12')의 주파수 대역(fh)의 에너지(E)를 결정하고 상기 프로세서(64)에 상기 주파수 대역(fh)의 에너지(E)를 나타내는 정보를 포함하는 신호(82)를 제공하도록 구성된 결정기(78)를 더 포함하며, 상기 프로세서(64)는 상기 스펙트럼(12')의 에너지(E)가 에너지 임계 레벨 미만인 경우 이전 스펙트럼에 기초하여 상기 오디오 신호(12)가 상기 미리 결정된 특성을 포함한다는 것을 나타내는 정보(66)를 제공하도록 구성되는 것을 특징으로 하는 장치.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 기울기 평가기(52)는 상기 스펙트럼(12') 내에서의 감쇠를 평가하고 상기 감쇠에 대한 측정치를 나타내도록 상기 기울기 평가 결과(56)를 제공하도록 구성되고, 상기 프로세서(64)는 상기 감쇠에 대한 측정치가 적어도 가파른 정도(steepness) 임계 값인 경우 상기 오디오 신호가 상기 미리 결정된 특성을 포함한다는 것을 나타내는 정보(66)를 제공하도록 구성되는 것을 특징으로 하는 장치.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서,
    상기 기울기 평가기(52)는 상기 스펙트럼(12')의 가파른 정도를 평가하고 상기 가파른 정도에 대한 측정치를 나타내도록 상기 기울기 평가 결과(56)를 제공하도록 구성되고, 상기 프로세서(64)는 상기 가파른 정도에 대한 측정치가 적어도 가파른 정도 임계 값인 경우 상기 오디오 신호(12)가 상기 미리 결정된 특성을 포함한다는 것을 나타내는 정보(66)를 제공하도록 구성되는 것을 특징으로 하는 장치.
  7. 제5항 또는 제6항에 있어서,
    상기 기울기 평가기(52)는 상기 스펙트럼(12')의 복수의 주파수 값을 결합하는 윈도우 함수를 사용하여 상기 스펙트럼(12)의 스펙트럼 차이 함수(S(h))를 결정하고, 상기 윈도우 함수의 결과를 사용하여 상기 감쇠에 대한 측정치를 결정하도록 구성되는 것을 특징으로 하는 장치.
  8. 제1항 내지 제7항 중 어느 한 항에 있어서,
    상기 기울기 평가기(52)는 상기 스펙트럼의 제1 주파수 대역(f1)의 제1 에너지 레벨과 상기 스펙트럼(12')의 제2 에너지 대역(f2)의 제2 에너지 레벨 사이의 감쇠를 평가하고 - 상기 제1 에너지 대역(f1)은 상기 제2 주파수 대역(f2)의 제2 주파수 범위와 비교할 때 더 낮은 제1 주파수 범위를 포함함 -, 상기 감쇠에 대한 측정치를 나타내도록 상기 기울기 평가 결과(56)를 제공하도록 구성되고, 상기 프로세서(64)는 상기 감쇠에 대한 측정치가 적어도 감쇠 임계 값인 경우 상기 오디오 신호(12)가 상기 미리 결정된 특성을 포함한다는 것을 나타내는 정보(66)를 제공하도록 구성되는 것을 특징으로 하는 장치.
  9. 제1항 내지 제8항 중 어느 한 항에 있어서,
    상기 주파수 평가기는 상기 오디오 신호의 주파수 대역에서의 에너지(E)에 대한 측정치를 결정하고, 주파수 범위에서의 에너지의 증가에 기초하여 감소하는 주파수 범위에서의 에너지에 기초하여 차단 주파수(fc)를 결정하도록 구성되는 것을 특징으로 하는 장치.
  10. 제1항 내지 제9항 중 어느 한 항에 있어서,
    상기 주파수 평가 결과(62)를 수신하고 필터링된 주파수 평가 결과(62')를 제공하도록 구성된 필터(74)를 더 포함하고, 상기 프로세서는 상기 오디오 신호(12)의 복수의 스펙트럼(12'1, 12'2, 12'3)과 연관된 복수의 기울기 평가 결과(56) 및 필터링된 주파수 평가 결과(62')에 기초하여 상기 오디오 신호(12)가 상기 미리 결정된 특성을 포함한다는 것을 나타내는 정보(66)를 제공하도록 구성되는 것을 특징으로 하는 장치.
  11. 제1항 내지 제10항 중 어느 한 항에 있어서,
    상기 프로세서(64)는 복수의 프레임 각각에 대해 상기 오디오 신호(12)의 복수의 프레임에 대한 각각의 정보를 제공함으로써 상기 오디오 신호(12)가 상기 미리 결정된 특성을 포함한다는 것을 나타내는 정보(66)를 제공하도록 구성되고, 상기 프로세서(64)는 상기 복수의 프레임에 기초하여 복수의 프레임 결과를 획득하고 상기 복수의 프레임에 대해 유효한 결합된 결과(66')를 획득하도록 상기 프레임 결과를 결합하도록 구성되는 것을 특징으로 하는 장치.
  12. 제11항에 있어서,
    상기 프로세서는 상기 결합된 결과(66')를 획득하기 위해 상기 복수의 프레임 결과를 사용하여 중간 필터링을 실행하도록 구성되는 것을 특징으로 하는 장치.
  13. 제1항 내지 제12항 중 어느 한 항에 있어서,
    샘플링 주파수를 사용하여 업샘플링과 관련된 미리 결정된 특성에 대해 상기 오디오 신호(12)를 평가하도록 구성된 리샘플링 평가기를 더 포함하고, 상기 장치는 상기 샘플링 주파수에 기초하여 상기 기울기 평가기(52) 및/또는 상기 주파수 평가기(58)의 주파수 범위를 적응시키도록 구성되는 것을 특징으로 하는 장치.
  14. 제13항에 있어서,
    상기 리샘플링 평가기는 다음의 결정 규칙이 적용될 때 부정적인 평가 결과를 획득하도록 구성되고,
    X(k) > 임계치

    X(k) < X(k+1) - 오프셋 파라미터
    X(k)는 주파수 인덱스 k에서의 스펙트럼의 값 X이고, 오프셋 파라미터는 노이즈 억제 값인 것을 특징으로 하는 장치.
  15. 제13항 또는 제14항에 있어서,
    상기 리샘플링 평가기는 다음의 결정 규칙이 적용될 때 상기 오디오 신호(12)가 주파수 인덱스 k에서 대역폭을 제한하는 업샘플링을 받았다는 것을 나타내는 긍정적인 평가 결과를 획득하도록 구성되고,
    S(k) > 임계치
    S(k)는 주파수 인덱스 k에서의 스펙트럼과 관련된 스펙트럼 차이 함수인 것을 특징으로 하는 장치.
  16. 제1항 내지 제15항 중 어느 한 항에 있어서,
    상기 오디오 신호(12)가 상기 미리 결정된 특성을 포함한다는 것을 나타내는 정보에 따라 또는 상기 오디오 신호가 스펙트럼 향상 처리와 관련된 특성을 포함한다는 것을 나타내는 정보에 따라 상기 오디오 신호(12)의 상기 인위적 대역폭 제한 처리에 의해 야기되는 아티팩트를 감소시키도록 구성된 신호 향상기(48, 125, 200)를 더 포함하는 것을 특징으로 하는 장치.
  17. 제16항에 있어서,
    상기 신호 향상기는 가중된 필링 신호(F)를 사용하여 스펙트럼 갭(202)을 채우고 및/또는 가중 인자(G, W)를 사용하여 스펙트럼 아일랜드(204)를 감쇠시키도록 구성되는 것을 특징으로 하는 장치.
  18. 오디오 신호(91)를 처리하기 위한 장치에 있어서,
    상기 오디오 신호(91)의 스펙트럼(91', x')의 기울기(54)를 평가하여 기울기 평가 결과(56)를 획득하도록 구성된 기울기 평가기(52);
    상기 스펙트럼(91', X')이 에지를 포함하는 적어도 제1 주파수 에지 및 제2 주파수 에지(2061-2064)를 평가하도록 구성된 주파수 평가기(58); 및
    스펙트럼 가중치(G, W)를 결정하고, 상기 스펙트럼 가중치를 사용하여 상기 제1 주파수 에지 및 상기 제2 주파수 에지(2061-2064) 사이의 스펙트럼 영역에서 상기 오디오 신호(91, X)를 처리하도록 구성된 프로세서(208, 228);를 포함하는 것을 특징으로 하는 장치.
  19. 제18항에 있어서,
    스펙트럼 갭(202)이 상기 제1 에지(2061)와 상기 제2 에지(2062) 사이에 배치되고, 상기 프로세서(208)는 상기 스펙트럼 가중치(G)를 결정하여 상기 스펙트럼 가중치(G)를 필링 신호(S)와 결합해서 가중된 필링 신호(F)를 획득하도록 구성되고,
    상기 장치는 상기 오디오 신호(91) 또는 그로부터 도출된 신호를 상기 가중된 필링 신호(F)와 결합하도록 구성된 결합기(226)를 포함하는 것을 특징으로 하는 장치.
  20. 제19항에 있어서,
    상기 프로세서(208, 228)는
    제1 필터링된 신호(Y')를 획득하기 위해 주파수에 걸쳐 그리고 제2 필터링된 신호(Z)를 획득하기 위해 시간에 걸쳐 상기 오디오 신호(91, X) 또는 그로부터 도출된 신호를 평활화하고;
    주파수 차이 값(Δf)을 획득하기 위해 상기 제1 필터링된 신호(Y')를 상기 오디오 신호(91, X) 또는 그로부터 도출된 신호와 비교하고, 시간 차이 값(Δt)을 획득하기 위해 상기 제2 필터링된 신호(Z')를 상기 오디오 신호(91, X) 또는 그로부터 도출된 신호와 비교하고;
    상기 주파수 차이(Δf) 값이 주파수 차이 임계 값(Sf) 이상인 경우 그리고 상기 시간 차이 값(Δt)이 시간 차이 임계 값(St) 이상인 경우, 상기 스펙트럼 가중치(G)를 0이 아닌 값으로 설정하도록; 구성되는 것을 특징으로 하는 장치.
  21. 제19항 또는 제20항에 있어서,
    상기 장치는 상기 오디오 신호(91, X) 또는 그로부터 도출된 신호의 적어도 하나의 선행하는 프레임을 평가하여 상기 필링 신호(S)를 생성하도록 구성되는 것을 특징으로 하는 장치.
  22. 제18항 내지 제21항 중 어느 한 항에 있어서,
    상기 프로세서(208)는 다음의 결정 규칙에 기초하여 상기 스펙트럼 가중치를 결정하도록 구성되며,
    Figure pct00033

    Γ는 스펙트럼 가중치이고, X는 상기 오디오 신호 또는 그로부터 도출된 신호의 크기 스펙트럼이고, Y는 상기 오디오 신호 또는 그로부터 도출된 신호의 평활화된 버전으로부터 도출된 값이고, α,β, γ는 조정 가능한 파라미터이고, k는 가중의 영향을 스케일링하기 위한 영향 파라미터인 것을 특징으로 하는 장치.
  23. 제22항에 있어서,
    상기 영향 파라미터(k)는 다음의 결정 규칙에 기초하며,
    Figure pct00034

    δf는 주파수 차이 임계 값을 나타내는 것을 특징으로 하는 장치.
  24. 제18항 내지 제23항 중 어느 한 항에 있어서,
    스펙트럼 아일랜드(204)가 상기 제1 에지(2063)와 상기 제2 에지(2064) 사이에 배치되고, 상기 프로세서(228)는 상기 스펙트럼 가중치(W)를 결정하고 상기 스펙트럼 가중치(W)를 상기 오디오 신호(91, X) 또는 그로부터 도출된 신호(Z)와 결합하여 상기 스펙트럼 아일랜드(204)를 감소시키도록 구성되는 것을 특징으로 하는 장치.
  25. 오디오 신호의 인위적 대역폭 제한 처리와 관련된 미리 결정된 특성을 결정하는 방법(2000)에 있어서,
    기울기 평가 결과를 획득하기 위해 상기 오디오 신호의 스펙트럼의 기울기를 평가하는 단계(2100); 및
    상기 기울기 평가 결과의 평가에 따라 상기 오디오 신호가 상기 미리 결정된 특성을 포함한다는 것을 나타내는 정보를 제공하는 단계(2300);를 포함하는 것을 특징으로 하는 방법.
  26. 오디오 신호를 처리하는 방법(1500)에 있어서,
    기울기 평가 결과를 획득하기 위해 상기 오디오 신호의 스펙트럼의 기울기를 평가하는 단계(1600);
    주파수 평가 결과를 획득하기 위해 상기 스펙트럼이 에지를 포함하는 적어도 제1 주파수 에지 및 제2 주파수 에지를 평가하는 단계(1700); 및
    스펙트럼 가중치를 결정하고, 상기 스펙트럼 가중치를 이용하여 상기 제1 주파수 에지와 상기 제2 주파수 에지 사이의 스펙트럼 영역에서 상기 오디오 신호를 처리하는 단계(1800);를 포함하는 것을 특징으로 하는 방법.
  27. 컴퓨터 상에서 실행될 때, 제24항 또는 제25항에 따른 방법을 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램을 저장한 비일시적 저장 매체.
KR1020197032021A 2017-03-31 2018-03-29 오디오 신호의 인위적 대역폭 제한 처리와 관련된 미리 결정된 특성을 결정하기 위한 장치 및 방법 KR102563915B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP17164360.4 2017-03-31
EP17164360 2017-03-31
EP17189992.5 2017-09-07
EP17189992.5A EP3382702A1 (en) 2017-03-31 2017-09-07 Apparatus and method for determining a predetermined characteristic related to an artificial bandwidth limitation processing of an audio signal
PCT/EP2018/025081 WO2018177610A1 (en) 2017-03-31 2018-03-29 Apparatus and method for determining a predetermined characteristic related to an artificial bandwidth limitation processing of an audio signal

Publications (2)

Publication Number Publication Date
KR20190134708A true KR20190134708A (ko) 2019-12-04
KR102563915B1 KR102563915B1 (ko) 2023-08-04

Family

ID=58632740

Family Applications (3)

Application Number Title Priority Date Filing Date
KR1020197032020A KR102517285B1 (ko) 2017-03-31 2018-03-29 오디오 신호를 처리하기 위한 장치 및 방법
KR1020197032021A KR102563915B1 (ko) 2017-03-31 2018-03-29 오디오 신호의 인위적 대역폭 제한 처리와 관련된 미리 결정된 특성을 결정하기 위한 장치 및 방법
KR1020197032022A KR102426636B1 (ko) 2017-03-31 2018-03-29 오디오 신호의 스펙트럼 향상 처리와 관련된 미리 결정된 특성을 결정하기 위한 장치 및 방법

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020197032020A KR102517285B1 (ko) 2017-03-31 2018-03-29 오디오 신호를 처리하기 위한 장치 및 방법

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020197032022A KR102426636B1 (ko) 2017-03-31 2018-03-29 오디오 신호의 스펙트럼 향상 처리와 관련된 미리 결정된 특성을 결정하기 위한 장치 및 방법

Country Status (13)

Country Link
US (3) US20200020347A1 (ko)
EP (6) EP3382704A1 (ko)
JP (4) JP6968191B2 (ko)
KR (3) KR102517285B1 (ko)
CN (3) CN110870007B (ko)
AU (4) AU2018246838A1 (ko)
BR (3) BR112019020523A2 (ko)
CA (3) CA3058353C (ko)
ES (3) ES2933500T3 (ko)
MX (3) MX2019011519A (ko)
PL (3) PL3602553T3 (ko)
RU (3) RU2733533C1 (ko)
WO (3) WO2018177611A1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220375485A1 (en) * 2019-09-24 2022-11-24 Sony Group Corporation Signal processing apparatus, signal processing method, and program
CN112927710B (zh) * 2021-01-21 2021-10-26 安徽南瑞继远电网技术有限公司 一种基于无监督方式的电力变压器工况噪声分离方法
CN113299313B (zh) * 2021-01-28 2024-03-26 维沃移动通信有限公司 音频处理方法、装置及电子设备
CN115512711A (zh) * 2021-06-22 2022-12-23 腾讯科技(深圳)有限公司 语音编码、语音解码方法、装置、计算机设备和存储介质
CN114070679B (zh) * 2021-10-25 2023-05-23 中国电子科技集团公司第二十九研究所 一种面向脉冲智能分类的频相特征分析方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100083135A (ko) * 2008-07-11 2010-07-21 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 스펙트럼 기울기 제어 프레이밍을 이용한 대역폭 확장 데이터를 계산하는 장치 및 방법
KR20100106559A (ko) * 2008-02-01 2010-10-01 모토로라 인코포레이티드 대역폭 확장 시스템에서 고-대역 에너지를 추정하기 위한 방법 및 장치
KR20160106586A (ko) * 2014-01-07 2016-09-12 하만인터내셔날인더스트리스인코포레이티드 신호 품질-기반 압축 오디오 신호 향상 및 보상

Family Cites Families (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4230414B2 (ja) * 1997-12-08 2009-02-25 三菱電機株式会社 音信号加工方法及び音信号加工装置
US7272551B2 (en) * 2003-02-24 2007-09-18 International Business Machines Corporation Computational effectiveness enhancement of frequency domain pitch estimators
JP4679049B2 (ja) * 2003-09-30 2011-04-27 パナソニック株式会社 スケーラブル復号化装置
KR100552693B1 (ko) * 2003-10-25 2006-02-20 삼성전자주식회사 피치검출방법 및 장치
EP2273494A3 (en) * 2004-09-17 2012-11-14 Panasonic Corporation Scalable encoding apparatus, scalable decoding apparatus
EP1638083B1 (en) * 2004-09-17 2009-04-22 Harman Becker Automotive Systems GmbH Bandwidth extension of bandlimited audio signals
CN101273404B (zh) * 2005-09-30 2012-07-04 松下电器产业株式会社 语音编码装置以及语音编码方法
US8073704B2 (en) * 2006-01-24 2011-12-06 Panasonic Corporation Conversion device
US8798172B2 (en) 2006-05-16 2014-08-05 Samsung Electronics Co., Ltd. Method and apparatus to conceal error in decoded audio signal
US8725499B2 (en) * 2006-07-31 2014-05-13 Qualcomm Incorporated Systems, methods, and apparatus for signal change detection
US7881459B2 (en) * 2007-08-15 2011-02-01 Motorola, Inc. Acoustic echo canceller using multi-band nonlinear processing
CN101939782B (zh) * 2007-08-27 2012-12-05 爱立信电话股份有限公司 噪声填充与带宽扩展之间的自适应过渡频率
DE102007048973B4 (de) * 2007-10-12 2010-11-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals mit einer Sprachsignalverarbeitung
US8688441B2 (en) * 2007-11-29 2014-04-01 Motorola Mobility Llc Method and apparatus to facilitate provision and use of an energy value to determine a spectral envelope shape for out-of-signal bandwidth content
US8005233B2 (en) * 2007-12-10 2011-08-23 Dts, Inc. Bass enhancement for audio
DE102008015702B4 (de) 2008-01-31 2010-03-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur Bandbreitenerweiterung eines Audiosignals
KR101518532B1 (ko) * 2008-07-11 2015-05-07 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 오디오 인코더, 오디오 디코더, 오디오 신호, 오디오 스트림을 부호화 및 복호화하는 장치 및 컴퓨터 프로그램
ATE539433T1 (de) * 2008-07-11 2012-01-15 Fraunhofer Ges Forschung Bereitstellen eines zeitverzerrungsaktivierungssignals und codierung eines audiosignals damit
EP2154911A1 (en) 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus for determining a spatial output multi-channel audio signal
EP4224474B1 (en) 2008-12-15 2023-11-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio bandwidth extension decoder, corresponding method and computer program
EP2214165A3 (en) * 2009-01-30 2010-09-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for manipulating an audio signal comprising a transient event
JP4945586B2 (ja) * 2009-02-02 2012-06-06 株式会社東芝 信号帯域拡張装置
US8515768B2 (en) * 2009-08-31 2013-08-20 Apple Inc. Enhanced audio decoder
JP5493655B2 (ja) * 2009-09-29 2014-05-14 沖電気工業株式会社 音声帯域拡張装置および音声帯域拡張プログラム
US8447617B2 (en) * 2009-12-21 2013-05-21 Mindspeed Technologies, Inc. Method and system for speech bandwidth extension
TWI444989B (zh) * 2010-01-22 2014-07-11 Dolby Lab Licensing Corp 針對改良多通道上混使用多通道解相關之技術
AU2016204672B2 (en) 2010-07-02 2016-08-18 Dolby International Ab Audio encoder and decoder with multiple coding modes
SG187950A1 (en) * 2010-08-25 2013-03-28 Fraunhofer Ges Forschung Apparatus for generating a decorrelated signal using transmitted phase information
CN103339670B (zh) * 2011-02-03 2015-09-09 瑞典爱立信有限公司 确定多通道音频信号的通道间时间差
CA2827249C (en) * 2011-02-14 2016-08-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for processing a decoded audio signal in a spectral domain
WO2012119140A2 (en) * 2011-03-03 2012-09-07 Edwards Tyson Lavar System for autononous detection and separation of common elements within data, and methods and devices associated therewith
US9117440B2 (en) 2011-05-19 2015-08-25 Dolby International Ab Method, apparatus, and medium for detecting frequency extension coding in the coding history of an audio signal
WO2012158705A1 (en) * 2011-05-19 2012-11-22 Dolby Laboratories Licensing Corporation Adaptive audio processing based on forensic detection of media processing history
EP2544465A1 (en) * 2011-07-05 2013-01-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for decomposing a stereo recording using frequency-domain processing employing a spectral weights generator
US9390721B2 (en) 2012-01-20 2016-07-12 Panasonic Intellectual Property Corporation Of America Speech decoding device and speech decoding method
US9685921B2 (en) * 2012-07-12 2017-06-20 Dts, Inc. Loudness control with noise detection and loudness drop detection
ES2549953T3 (es) 2012-08-27 2015-11-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y método para la reproducción de una señal de audio, aparato y método para la generación de una señal de audio codificada, programa de ordenador y señal de audio codificada
EP2709106A1 (en) * 2012-09-17 2014-03-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating a bandwidth extended signal from a bandwidth limited audio signal
EP3067890B1 (en) * 2013-01-29 2018-01-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, method for providing an encoded audio information, method for providing a decoded audio information, computer program and encoded representation using a signal-adaptive bandwidth extension
US9601125B2 (en) * 2013-02-08 2017-03-21 Qualcomm Incorporated Systems and methods of performing noise modulation and gain adjustment
US10424321B1 (en) * 2013-02-12 2019-09-24 Google Llc Audio data classification
CA2964368C (en) * 2013-06-21 2020-03-31 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Jitter buffer control, audio decoder, method and computer program
FR3007563A1 (fr) * 2013-06-25 2014-12-26 France Telecom Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences
EP2830065A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding an encoded audio signal using a cross-over filter around a transition frequency
US9666202B2 (en) * 2013-09-10 2017-05-30 Huawei Technologies Co., Ltd. Adaptive bandwidth extension and apparatus for the same
JP6186503B2 (ja) * 2013-10-03 2017-08-23 ドルビー ラボラトリーズ ライセンシング コーポレイション アップミキサーにおける適応的な拡散性信号生成
FR3017484A1 (fr) * 2014-02-07 2015-08-14 Orange Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences
US9564141B2 (en) * 2014-02-13 2017-02-07 Qualcomm Incorporated Harmonic bandwidth extension of audio signals
EP2980795A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
EP2980794A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
JP6668372B2 (ja) * 2015-02-26 2020-03-18 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 目標時間領域エンベロープを用いて処理されたオーディオ信号を得るためにオーディオ信号を処理するための装置および方法
US9741360B1 (en) * 2016-10-09 2017-08-22 Spectimbre Inc. Speech enhancement for target speakers
US20190051286A1 (en) 2017-08-14 2019-02-14 Microsoft Technology Licensing, Llc Normalization of high band signals in network telephony communications

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100106559A (ko) * 2008-02-01 2010-10-01 모토로라 인코포레이티드 대역폭 확장 시스템에서 고-대역 에너지를 추정하기 위한 방법 및 장치
KR20100083135A (ko) * 2008-07-11 2010-07-21 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 스펙트럼 기울기 제어 프레이밍을 이용한 대역폭 확장 데이터를 계산하는 장치 및 방법
KR20160106586A (ko) * 2014-01-07 2016-09-12 하만인터내셔날인더스트리스인코포레이티드 신호 품질-기반 압축 오디오 신호 향상 및 보상

Also Published As

Publication number Publication date
CA3057739A1 (en) 2018-10-04
AU2021203677B2 (en) 2022-10-13
EP3602552A1 (en) 2020-02-05
MX2019011515A (es) 2019-12-19
EP3382703A1 (en) 2018-10-03
US20200027474A1 (en) 2020-01-23
JP2022097514A (ja) 2022-06-30
KR20190134707A (ko) 2019-12-04
KR102426636B1 (ko) 2022-07-29
CA3058353C (en) 2023-03-07
RU2733278C1 (ru) 2020-10-01
KR102563915B1 (ko) 2023-08-04
EP3602553B1 (en) 2022-04-27
JP2020512593A (ja) 2020-04-23
BR112019020357A2 (pt) 2020-04-28
KR20190134709A (ko) 2019-12-04
AU2018246837B2 (en) 2020-12-24
MX2019011519A (es) 2019-12-19
MX2019011522A (es) 2019-12-19
RU2733533C1 (ru) 2020-10-05
AU2018246838A1 (en) 2019-10-24
BR112019020523A2 (pt) 2020-05-05
US11170794B2 (en) 2021-11-09
JP6968191B2 (ja) 2021-11-17
EP3602555B1 (en) 2022-10-12
PL3602553T3 (pl) 2022-08-22
CN110870007B (zh) 2023-10-13
JP2020512591A (ja) 2020-04-23
WO2018177612A1 (en) 2018-10-04
US20200020346A1 (en) 2020-01-16
ES2923098T3 (es) 2022-09-23
EP3382702A1 (en) 2018-10-03
JP7059301B2 (ja) 2022-04-25
CN110914902A (zh) 2020-03-24
AU2018241963A1 (en) 2019-10-24
KR102517285B1 (ko) 2023-04-03
AU2018241963B2 (en) 2021-08-12
AU2021203677A1 (en) 2021-07-01
CN110832582B (zh) 2023-10-24
CN110832582A (zh) 2020-02-21
WO2018177611A1 (en) 2018-10-04
PL3602552T3 (pl) 2022-11-21
WO2018177610A1 (en) 2018-10-04
EP3602553A1 (en) 2020-02-05
EP3602552B1 (en) 2022-07-20
ES2927808T3 (es) 2022-11-11
EP3602555B8 (en) 2023-06-14
BR112019020578A2 (pt) 2020-05-19
JP7455890B2 (ja) 2024-03-26
US20200020347A1 (en) 2020-01-16
JP6896881B2 (ja) 2021-06-30
AU2018246837A1 (en) 2019-10-17
JP2020512594A (ja) 2020-04-23
PL3602555T3 (pl) 2023-05-08
CA3057897C (en) 2022-05-17
EP3382704A1 (en) 2018-10-03
CA3058353A1 (en) 2018-10-04
EP3602553B8 (en) 2022-11-02
CA3057897A1 (en) 2018-10-04
CN110914902B (zh) 2023-10-03
RU2719543C1 (ru) 2020-04-21
ES2933500T3 (es) 2023-02-09
CN110870007A (zh) 2020-03-06
EP3602555A1 (en) 2020-02-05

Similar Documents

Publication Publication Date Title
JP7455890B2 (ja) 音響信号を処理する装置および方法

Legal Events

Date Code Title Description
A201 Request for examination
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E90F Notification of reason for final refusal
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant