KR102619434B1 - 펄스 프로세싱을 사용하여 주파수 향상 오디오 신호를 생성하기 위한 오디오 프로세서 및 방법 - Google Patents

펄스 프로세싱을 사용하여 주파수 향상 오디오 신호를 생성하기 위한 오디오 프로세서 및 방법 Download PDF

Info

Publication number
KR102619434B1
KR102619434B1 KR1020217023155A KR20217023155A KR102619434B1 KR 102619434 B1 KR102619434 B1 KR 102619434B1 KR 1020217023155 A KR1020217023155 A KR 1020217023155A KR 20217023155 A KR20217023155 A KR 20217023155A KR 102619434 B1 KR102619434 B1 KR 102619434B1
Authority
KR
South Korea
Prior art keywords
signal
envelope
temporal
audio signal
band
Prior art date
Application number
KR1020217023155A
Other languages
English (en)
Other versions
KR20210107773A (ko
Inventor
사스카 디쉬
미카엘 슈투름
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20210107773A publication Critical patent/KR20210107773A/ko
Application granted granted Critical
Publication of KR102619434B1 publication Critical patent/KR102619434B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/162Interface to dedicated audio devices, e.g. audio drivers, interface to CODECs

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

소스 오디오 신호 (30)로부터 주파수 향상 오디오 신호 (420)를 생성하기 위한 오디오 프로세서는 소스 오디오 신호의 적어도 일 부분의 시간적 엔벨로프(temporal envelope)를 결정하기 위한 엔벨로프 결정기 (100); 시간적 엔벨로프의 특정 피처(feature)의 시간적 값을 결정하기 위해 시간적 엔벨로프를 분석하기 위한 분석기 (200); 합성 신호를 생성하기 위한 신호 합성기 (300) - 생성은 결정된 시간적 값과 관련하여 펄스를 배치하는 것을 포함하며, 펄스는, 펄스가 배치되는 시간적 값과 관련된 시간적 엔벨로프의 진폭으로부터 도출된 가중치를 사용하여 가중됨-; 및 주파수 향상 오디오 신호 (420)를 얻기 위해 소스 오디오 신호와 소스 오디오 신호에 포함되지 않은 합성 신호의 적어도 일 대역을 결합하기 위한 컴바이너 (400)를 포함한다.

Description

펄스 프로세싱을 사용하여 주파수 향상 오디오 신호를 생성하기 위한 오디오 프로세서 및 방법
본 발명은 오디오 신호 프로세싱에 관한 것으로, 특히 소스 오디오 신호로부터 주파수 향상 오디오 신호를 생성하기 위한 개념에 관한 것이다.
오디오 신호의 저장 또는 전송은 종종 엄격한 비트레이트(bitrate) 제약을 겪는다. 과거에는, 매우 낮은 비트레이트만 이용 가능할 경우, 코더는 전송된 오디오 대역폭을 대폭 줄여야 했다. 모뎀 오디오 코덱은 오늘날 대역폭 확장(BWE: bandwidth extension) 방법을 사용함으로써 광대역 신호를 코딩할 수 있다 [1-2].
이러한 알고리즘은 고주파 콘텐츠(HF)의 매개 변수 표현에 의존되며, 이는 HF 스펙트럼 영역으로의 전치("패칭")를 통해 디코딩된 신호의 파형 코딩된 저주파 부분(LF)으로부터 생성된다. 이렇게 하면, 먼저 "원시" 패치가 생성되고, 두 번째로 매개 변수 구동형 후처리(parameter driven post-processing)가 "원시" 패치에 적용된다.
일반적으로, 상기 후처리는 전치를 통한 고주파 생성 동안 고려되지 않았던 중요한 지각적 특성(perceptual property)을 조정하기 위해 적용되고, 따라서 귀납적으로(a-posteriori) 결과적인 "원시" 패치에서 조정되어야 한다.
그러나 예를 들어, 일부 타겟 영역에 복사된 패치의 스펙트럼 미세 구조는 원본 콘텐츠의 미세 스펙트럼 구조와 크게 다른 경우, 원하지 않는 아티팩트는 디코딩된 오디오 신호의 지각 품질을 저하시킬 수 있다. 종종 이러한 경우, 적용된 후처리는 "원시" 패치의 잘못된 속성을 완전히 수정할 수 없었다.
본 발명의 목적은 LF 신호에 지각적으로 적응되는 갭-필링 또는 추정된 고주파 신호 "원시" 패치 컨텐츠의 새로운 신호 적응형 생성을 통해 지각 품질을 개선하는 것이다.
지각적으로 적응된 "원시" 신호를 이미 얻음으로써, 그렇지 않으면 필요할 귀납적 보정 조치는 최소화된다. 더욱이, 지각적으로 적응된 원시 신호는 기존의 접근 방식보다 LF와 HF 사이에서 더 낮은 크로스 오버 주파수의 선택을 가능하게 할 수 있다[3].
BWE 방식에서, 주어진 소위 크로스 오버 주파수 초과의 HF 스펙트럼 영역의 재구성은 종종 스펙트럼 패치에 기반한다. 일반적으로, HF 영역은 다수의 스택된 패치로 구성되고, 이러한 패치의 각각은 주어진 크로스 오버 주파수 아래의 LF 스펙트럼의 대역 통과(BP: band-pass) 영역으로부터 공급된다.
최첨단 시스템은 소스 스펙트럼으로부터 타겟 스펙트럼 영역으로 인접한 부대역 계수의 세트를 복사함으로써 필터 뱅크 또는 시간-주파수-변환 표현 내에서 패칭을 효율적으로 수행한다.
다음 단계에서는, 음조, 노이즈 및 스펙트럼 엔벨로프는 인코더에서 측정되고 BWE 사이드 정보로서 비트 스트림에서 전송된 원래의 HF 신호의 지각 특성 및 엔벨로프와 매우 유사하도록 조정된다.
SBR(Spectral Band Replication)은 HE-AAC(High Efficiency Advanced Audio Coding)와 같은 최신 오디오 코덱에 사용되는 잘 알려진 BWE이고, 위에서 설명된 기술을 사용한다 [1].
IGF(Intelligent Gap Filling)는 MPEG-H 3D Audio 또는 3gpp EVS 코덱과 같은 최신 코덱 내에서 세미 파라메트릭(semi-parametric) 코딩 기술을 나타낸다[2]. IGF는 낮은 비트레이트 제약으로 인해 인코더에서 양자화 프로세스에 의해 도입된 스펙트럼 홀을 채우기 위해 적용될 수 있다.
일반적으로, 제한된 비트 예산이 투명 코딩(transparent coding)을 허용하지 않는 경우, 스펙트럼 홀이 먼저 신호의 고주파(HF) 영역에 나타나고, 가장 낮은 비트레이트에 대한 전체 상측 스펙트럼 범위에 점점 더 영향을 미친다.
디코더 측에서, 이러한 스펙트럼 홀은 저주파(LF) 콘텐츠로부터 세미 파라메트릭 방식으로 생성된 합성 HF 콘텐츠, 및 스펙트럼 엔벨로프 조정 및 스펙트럼 "화이트닝 레벨"과 같은 추가적인 매개 변수 사이드 정보에 의해 제어되는 후처리를 사용하여 IGF를 통해 대체된다.
그러나, 상기 후처리 후에도 여전히 남아 있는 미스매칭은 존재하며, 이는 아티팩트의 인식으로 이어질 수 있다. 이러한 미스매칭은 일반적으로 다음으로 구성될 수 있다:
· 하모닉 미스매칭: 잘못 배치된 하모닉 구성요소로 인한 박동(beating) 아티팩트
· 위상 미스매칭: 유성음 또는 황동 신호에서 버즈(buzziness)의 감지된 손실로 이어지는 펄스와 같은 여기 신호의 분산
· 음조 미스매칭: 과장되거나 너무 적은 음조
따라서 추가적인 후처리를 통해 이러한 유형의 미스매칭[3]을 수정하기 위해 주파수 및 위상 수정 방법이 제안되었다. 본 발명에서, 발명자는, 이러한 아티팩트를 최첨단 방법에서 볼 수 있는 것과 같은 후처리 단계에서 수정하기보다는 "원시" 신호에 도입되는 것을 미리 회피할 것을 제안한다.
BWE의 다른 구현예는, 일반적으로 정류, 제곱 또는 파워 함수와 같은 시간 도메인 LF 파형에 비선형 함수를 적용하여 HF 신호를 추정하기 위한 시간 도메인 기술에 기반된다[4]. 이러한 방식으로, LF를 왜곡함으로써, 일치 및 불협화 오버톤의 풍부한 혼합이 생성되며, 이는 HF 콘텐츠를 복원하기 위해서 "원시" 신호로서 사용될 수 있다.
여기에서, 특히 하모닉 미스매칭은 문제가된다. 왜냐하면 다성음(polyphonic) 콘텐츠에서 이러한 기술은 원치 않는 비하모닉(inharmonic) 성분과 불가피하게 혼합된 원하는 하모닉 오버톤의 조밀한 혼합물을 생성하기 때문이다.
후처리는 쉽게 노이즈를 증가시킬 수 있지만, "원시" 추정 HF에 도입되면 원치 않는 비하모닉 토널 성분을 제거하는 데 완전히 실패한다.
본 발명의 목적은 소스 오디오 신호로부터 주파수 향상 오디오 신호를 생성하기 위한 개선된 개념을 제공하는 것이다.
이 목적은 청구항 1의 오디오 프로세서, 청구항 17의 오디오 신호 처리 방법, 또는 청구항 18의 컴퓨터 프로그램에 의해 달성된다.
본 발명은, 오디오 대역폭 확장 또는 갭 필링의 개선된 지각적 품질 또는 일반적으로 주파수 향상이 갭 필링 또는 추정된 고주파(HF) 신호 "원시" 패치 컨텐츠의 새로운 신호 적응 생성에 의해 얻어진다는 발견에 기반된다. 지각적으로 적응된 "원시" 신호를 얻음으로써, 그렇지 않으면 필요할 귀납적 보정 조치는 최소화되거나 제거될 수 있다.
파형 엔벨로프 동기화 펄스 여기(WESPE: Waveform Envelope Synchronized Pulse Excitation)로 표시된 본 발명의 실시형태는 시간 도메인에서 펄스 트레인과 같은 신호의 생성에 기반되며, 실제 펄스 배치는 시간 도메인 엔벨로프에 동기화된다. 후자는 예를 들어, 코어 코더의 출력에서 이용 가능하거나, 소스 오디오 신호의 임의의 다른 소스로부터 이용 가능한 저주파(LF) 신호로부터 도출된다. 따라서, 지각적으로 조정된 "원시" 신호가 얻어진다.
본 발명의 일 양태에 따른 오디오 프로세서는 소스 오디오 신호로부터 주파수 향상 오디오를 생성하도록 구성되고, 소스 오디오 신호의 적어도 일 부분의 시간적 엔벨로프를 결정하기 위한 엔벨로프 결정기를 포함한다. 분석기는 시간적 엔벨로프의 특정 피처의 값을 결정하기 위해 시간적 엔벨로프를 분석하도록 구성된다. 이러한 값은 시간적 값 또는 에너지, 또는 피처와 관련된 다른 값일 수 있다. 신호 합성기는 합성 신호를 생성하기 위해 위치되며, 합성 신호의 생성은 결정된 시간적 값과 관련하여 펄스를 배치하는 것을 포함하며, 펄스는, 펄스가 배치되는 시간적 값과 관련된 시간적 엔벨로프의 진폭으로부터 도출된 가중치를 사용하여 가중된다. 주파수 향상 오디오 신호를 얻기 위해 소스 오디오 신호와 소스 오디오 신호에 포함되지 않은 합성 신호의 적어도 일 대역을 결합하기 위한 컴바이너가 존재한다.
본 발명은, 예를 들어 비선형 프로세싱 등을 사용함으로써 소스 오디오 신호로부터 더 높은 주파수를 어느 정도 "블라인드"로 생성하는 것과는 대조적으로, 소스 신호의 시간적 엔벨로프를 결정함으로써, 그리고 시간적 엔벨로프의 로컬 최대 값 또는 시간적 엔벨로프의 로컬 최소 값과 같은 시간적 엔벨로프의 특정 피처에 펄스를 배치함으로써, 또는 시간적 엔벨로프의 두 로컬 최소 값 사이 또는 시간적 엔벨로프의 특정 피처에 관하여 임의의 다른 관계에 항상 펄스를 배치함으로써 쉽게 제어되는 절차를 제공한다는 점에서 유리하다. 펄스는, 일반적으로 고려중인 전체 주파수 범위에 걸쳐 평탄한 주파수 컨텐츠를 갖는다. 따라서, 이론적으로 이상적이지 않지만, 예를 들어 이에 가까운 펄스가 사용되는 경우에도, 이러한 비이상적인 펄스, 즉 이상적인 Dirac 형상과 일치하지 않는 펄스의 주파수 컨텐츠는 그럼에도 불구하고 관심 있는 주파수 범위(예를 들어, 지능형 갭 필링(IGF: intelligent gap filling)의 맥락에서 0 내지 20 kHz, 또는 오디오 대역폭 확장(소스 신호가 대역폭이 제한됨)의 맥락에서 8 kHz 내지 16 kHz 또는 20 kHz)에서 상대적으로 평탄하다.
따라서, 이러한 펄스로 구성된 합성 신호는 밀도가 높고 쉽게 제어되는 고주파 콘텐츠를 제공한다. 예를 들어 소스 오디오 신호의 프레임으로부터 추출되는 시간적 엔벨로프당 여러 개의 펄스를 배치함으로써, 적어도 지배적인 피처 또는, 일반적으로, 소스 오디오 신호의 시간적 엔벨로프의 특정 피처를 매칭시키기 위해, 특정 피처와 관련하여 배치된 서로 다른 펄스의 주파수 컨텐츠가 스펙트럼 도메인에서 서로 중첩되기 때문에 스펙트럼 도메인에서 셰이핑(shaping)이 얻어진다. 펄스에 의해 표시되는 스펙트럼 값의 위상이 서로 고정되어 있다는 사실로 인해, 그리고 바람직하게는, 신호 합성기에 의해 파지티브 펄스 또는 네가티브 펄스가 배치된다는 사실로 인해, 서로 다른 펄스 중 개별 펄스에 의해서 표시되는 스펙트럼 값의 위상은 서로 고정된다. 따라서, 매우 유용한 주파수 도메인 특성을 갖는 제어된 합성 신호가 얻어진다. 일반적으로, 합성 신호는 기존 오디오 주파수 범위 전체에 걸쳐 확장되는, 즉, 또한, LF 범위 안으로 확장되는 광대역 신호이다. 주파수 향상을 위해 최종적으로 소스 오디오 신호와 결합되는 최종 신호를 실제로 생성하기 위해, 고대역과 같은 합성 신호의 적어도 일 대역 또는 대역 통과에 의해 결정된 신호가 추출되어 소스 오디오 신호에 추가된다.
본 발명의 개념은 시간 도메인에서, 즉 특정 변환 없이 완전히 수행될 수 있는 잠재력을 갖는다. 시간 도메인은 일반적인 시간 도메인 또는 선형 예측 코딩(LPC) 필터링된 시간 도메인, 즉 시간 도메인 신호이며, 이는 스펙트럼적으로 백색화되었고, 오디오 신호 렌더링에 유용하도록 원래 스펙트럼 형상을 다시 도입하기 위해 LPC 합성 필터를 사용하여 마지막으로 프로세싱되어야 한다. 따라서 엔벨로프 결정, 분석, 신호 합성, 합성 신호 대역의 추출 및 최종 조합이 모두 시간 도메인에서 수행될 수 있어, 일반적으로 지연이 발생되는 시간 스펙트럼 변환 또는 스펙트럼 시간 변환이 회피될 수 있다. 그러나, 본 발명의 맥락은 또한, 엔벨로프 결정, 신호 합성 및 조합과 같은 여러 절차가 스펙트럼 도메인에서 부분적으로 또는 완전히 수행될 수 있다는 점에서 유연하다. 따라서, 본 발명의 구현예, 즉, 본 발명에 의해서 요구되는 특정 절차가 시간 또는 스펙트럼 도메인에서 구현되는지 여부는 항상 특정 응용분야에 필요한 전형적인 디코더 설계의 대응되는 프레임워크에 완전히 적응될 수 있다. 본 발명의 맥락은, 예를 들어, LPC 여기 신호(예를 들어, TCX 신호)의 주파수 향상이 수행되는 LPC 음성 코더의 맥락에서 훨씬 유연하다. 합성 신호와 소스 오디오 신호의 조합은 LPC 시간 도메인에서 수행되고, LPC 시간 도메인에서 일반 시간 도메인으로의 최종 변환은 LPC 합성 필터를 사용하여 수행되며, 여기서 구체적으로, 합성 신호의 일반적으로 바람직한 엔벨로프 조정은 합성 신호의 적어도 하나의 대역에 의해 표시되는 대응되는 스펙트럼 부분에 대한 LPC 합성 필터 스테이지 내에서 수행된다. 따라서, 일반적으로 필요한 후처리 작업은 단일 필터 단계 내에서 엔벨로프 조정과 결합된다. 이러한 후처리 동작은 LPC 합성 필터링, 음성 디코더로부터 알려진 디엠퍼시스 필터링, 베이스 포스트 필터링 동작과 같은 다른 포스트 필터링 동작, 또는 TCX 디코더 또는 다른 디코더에서 발견되는 장기 예측(LTP: Long Term Prediction)에 기반된 다른 사운드 향상 포스트 필터링 절차를 포함할 수 있다.
본 발명의 바람직한 실시형태는 동반된 도면과 관련하여 후속적으로 논의된다.
도 1은 본 발명에 따른 오디오 프로세서의 실시형태의 블록도이다.
도 2는 도 1의 엔벨로프 결정기의 바람직한 실시형태에 대한 보다 상세한 설명이다.
도 3a는 부대역 또는 전대역 오디오 신호의 시간적 엔벨로프를 계산하기 위한 실시형태이다.
도 3b는 시간적 엔벨로프의 생성의 대안적 구현예이다.
도 3c는 힐베르트 변환을 사용하여 도 3a의 분석 신호의 결정을 구현하기 위한 순서도를 예시한다.
도 4는 도 1의 분석기의 바람직한 구현예를 예시한다.
도 5는 도 1의 신호 합성기의 바람직한 구현예를 예시한다.
도 6은 코어 디코더의 맥락에서 사용되는 디바이스 또는 방법으로서 오디오 프로세서의 바람직한 실시형태를 예시한다.
도 7은 합성 신호 및 소스 오디오 신호의 조합이 LPC 도메인에서 수행되는 바람직한 구현을 예시한다.
도 8은 고역 또는 대역 필터, 엔벨로프 조정 및 소스 오디오 신호와 합성 신호의 조합이 스펙트럼 도메인에서 수행되는 본 발명의 추가 실시형태를 예시한다.
도 9a는 사운드 항목 "독일 남성 음성"에 대한 주파수 향상의 프로세스에서의 여러 신호를 예시한다.
도 9b는 사운드 항목 "독일 남성 음성"에 대한 스펙트럼도를 예시한다.
도 10a는 사운드 항목 "피치 파이프"에 대한 주파수 향상의 프로세스에서의 여러 신호를 예시한다.
도 10b는 사운드 항목 "피치 파이프"에 대한 스펙트럼도를 예시한다.
도 11a는 사운드 항목 "Madonna Vogue"에 대한 주파수 향상의 프로세스에서의 여러 신호를 예시한다.
도 11b는 사운드 항목 "Madonna Vogue"에 대한 주파수 향상의 프로세스에서의 여러 신호를 예시한다.
도 1은 한편으로는 엔벨로프 결정기(100)로 입력되는 소스 오디오 신호 및 다른 한편으로는 컴바이너(400)로의 입력으로부터 컴바이너(400)의 출력에서 주파수 향상 오디오 신호(420)를 생성하기 위한 오디오 프로세서를 예시한다.
엔벨로프 결정기(100)는 소스 오디오 신호의 적어도 일 부분의 시간적 엔벨로프를 결정하도록 구성된다. 엔벨로프 결정기는 전대역 소스 오디오 신호, 또는 예를 들어, 특정의 더 낮은 경계 주파수, 예를 들어, 100, 200 또는 500 Hz의 주파수를 갖는 소스 오디오 신호의 일 대역 또는 부분만을 사용할 수 있다. 시간적 엔벨로프는 시간적 엔벨로프의 특정 피처의 값을 결정하도록 시간적 엔벨로프를 분석하기 위해 엔벨로프 결정기(100)로부터 분석기(200)로 전달된다. 이러한 값은 시간적 값 또는 에너지, 또는 피처와 관련된 다른 값일 수 있다. 특정 피처는 예를 들어, 시간적 엔벨로프의 로컬 최대 값, 시간적 엔벨로프의 로컬 최소값, 시간적 엔벨로프의 제로 크로싱 또는 두 개의 로컬 최소 값들 사이의 포인트, 또는 두 개의 로컬 최대 값들 사이의 포인트일 수 있으며, 여기서 이러한 피처들 사이의 포인트는 주변 피처에 대한 동일한 시간적 거리를 갖는 값이다. 따라서 이러한 특정 피처는 또한, 두 개의 로컬 최소 값들 또는 두 개의 로컬 최대 값들 사이의 중간 지점일 수 있다. 그러나, 바람직한 실시형태에서, 예를 들어 곡선 미적분 처리를 사용하여 시간적 엔벨로프의 로컬 최대 값을 결정하는 것이 바람직하다. 시간적 엔벨로프의 특정 피처의 시간적 값은 합성 신호를 생성하기 위해 신호 합성기(300)로 포워드된다. 합성 신호의 생성은 결정된 시간적 엔벨로프와 관련하여 펄스를 배치하는 것을 포함하며, 여기서 펄스는 배치 전 또는 배치된 후에 시간적 엔벨로프의 진폭으로부터 도출된 가중치를 사용하여 가중치가 부여되며, 진폭은 분석기로부터 수신된 시간적 값과 관련되거나, 펄스가 배치되는 시간적 값과 관련된다.
합성 신호의 적어도 하나의 대역 또는 합성 신호의 전체 고대역 또는 합성 신호의 여러 개별적이고 별개의 대역 또는 전체 합성 신호는 주파수 향상 오디오 신호를 얻도록 소스 오디오 신호와 소스 오디오 신호에 포함되지 않은 합성 신호의 적어도 일 대역을 결합하기 위해 컴바이너(400)로 포워드된다.
바람직한 실시형태에서, 엔벨로프 결정기는 도 2에 예시된 바와 같이 구성된다. 이러한 실시형태에서, 소스 오디오 신호 또는 소스 오디오 신호의 적어도 일 부분은 105에 예시된 바와 같이 복수의 부대역 신호로 분해된다. 120에 예시된 바와 같이 각각의(선택된) 부대역에 대한 개별 시간적 엔벨로프의 결정을 위해 110에서 예시된 바와 같이 하나 이상의 또는 심지어 모든 부대역이 선택되거나 사용된다. 125에 예시된 바와 같이, 시간적 엔벨로프가 정규화되거나 필터링되고, 개별 시간적 엔벨로프는 엔벨로프 결정기의 출력에서 최종 시간적 엔벨로프를 얻기 위해서 130에 표시된 바와 같이 서로 결합된다. 이러한 최종 시간적 엔벨로프는 도 2에 예시된 절차에 의해 결정된 바와 같이 결합된 엔벨로프일 수 있다. 구현예에 따라, 개별 선택된 부대역을 정규화하거나 필터링하기 위해 추가적인 필터링 스테이지(115)가 제공될 수 있다. 모든 부대역이 사용되는 경우, 이러한 모든 부대역은 블록 115에 표시된 바와 같이 정규화되거나 필터링된다. 125에 표시된 정규화 절차는 바이패스될 수 있고, 결정된 시간적 엔벨로프의 정규화 또는 필터링을 수행하지 않는 이러한 절차는, 블록 120에서 시간적 엔벨로프를 결정하는 기반이 되는 부대역이 이미 정규화되었거나 대응되게 필터링된 경우에 유용하다. 당연히, 두 절차(115, 125)는 모두 수행될 수 있거나, 또는 대안적으로 각각의(선택된) 부대역 각각에 대한 시간적 엔벨로프를 결정(120)하는 절차만 수행될 수 있고, 시간적 엔벨로프의 후속 조합(130)은 블록 115 또는 125에 의해 예시된 임의의 절차 없이 수행될 수 있다.
추가 구현예에서, 블록 105의 분해는 전혀 수행될 수 없지만, 20, 50, 100의 크로스오버 주파수, 또는 예를 들어 500 Hz 미만의 주파수와 같은 낮은 크로스오버 주파수를 이용하는 고역 필터링으로 대체될 수 있고, 단일 시간적 엔벨로프만이 이러한 고역 필터링의 결과로부터 결정된다. 당연히, 고역 필터링은 또한 회피될 수 있고, 일반적으로 소스 오디오 신호의 프레임 및 소스 오디오 신호로부터의 단일 시간적 엔벨로프만이 도출되며, 여기서 소스 오디오 신호는 바람직하게는 일반적으로 오버랩되는 프레임에서 처리되나, 오버랩되지 않는 프레임이 또한 사용될 수 있다. 블록 110에 표시된 선택은 특정 시나리오에서, 예를 들어, 특정 부대역 신호가 부대역 신호 피처에 대한 특정 기준을 충족하지 않거나, 어떤 이유로든 최종 시간적 엔벨로프의 결정으로부터 제외된다고 결정되는 경우, 구현된다.
도 5는 신호 합성기(300)의 바람직한 구현예을 예시한다. 신호 합성기(300)는 분석기(200)로부터의 입력으로서 피처의 시간적 값 및 추가적으로, 엔벨로프에 대한 추가 정보를 수신한다. 항목 310에서,도 5에 예시된 신호 합성기(300)는 시간적 값과 관련된 시간적 엔벨로프로부터 스케일링 인자를 도출한다. 따라서, 블록 310은 한편으로는 엔벨로프 진폭 및 다른 한편으로는 시간적 값과 같은 엔벨로프 정보를 수신한다. 스케일링 인자의 도출은, 예를 들어 제곱근 함수와 같은 압축 함수, 1.0 미만의 파워(power)를 가진 파워 함수(power function), 또는 예를 들어 로그 함수를 사용하여 수행된다.
신호 합성기(300)는, 펄스와 연관된 관련 스펙트럼 값의 동기화된 위상을 갖기 위해 바람직하게는 단지 네가티브 또는 파지티브 펄스가 배치되는 시간적 값에 펄스를 배치하는 절차(305)를 포함한다. 그러나, 다른 실시형태에서, 그리고 예를 들어, 일반적으로 이용 가능한 갭-필링 또는 대역폭 확장 사이드 정보로부터 도출된 다른 기준에 따라, 일반적으로 기저대역 신호의 음조(tonality)가 그렇게 높지 않을 때 펄스의 랜덤 배치가 수행된다. 네가티브 펄스 또는 파지티브 펄스의 배치는 원래 파형의 극성에 의해 제어될 수 있다. 펄스의 극성은 가장 높은 파고율을 갖는 원래 파형의 극성과 동일하도록 선택될 수 있다. 바꾸어 말하면, 이것은 파지티브 피크가 파지티브 펄스에 의해서 모델링되고 그 반대의 경우도 마찬가지라는 점을 의미한다.
단계 315에서, 블록 305에 의해 얻어진 펄스는 블록 310의 결과를 사용하여 스케일링되고, 선택적 후처리(320)가 펄스에 수행된다. 펄스 신호는 이용 가능하고, 펄스 신호는 펄스 신호의 주파수 대역을 얻기기 위해, 즉 컴바이너로 포워드되는 합성 신호의 적어도 일 대역을 얻기 위해 블록 325에 예시된 바와 같이 고역 필터링되거나 대역 통과 필터링된다. 그러나, 선택적 스펙트럼 엔벨로프 조정(330)은 필터링 단계 325에 의해 출력되는 신호에 적용되며, 여기서 이러한 스펙트럼 엔벨로프 조정은, 사이드 정보로부터 도출되거나 대안적으로, 예를 들어, 블라인드 대역폭 확장 애플리케이션의 맥락에서 소스 오디오 신호로부터 도출되는 특정 엔벨로프 함수 또는 엔벨로프 파라미터의 특정 선택을 사용함으로써 수행된다.
도 6은 주파수 향상 오디오 신호를 생성하기 위한 오디오 프로세서 또는 오디오 프로세싱 방법의 바람직한 실시형태를 예시한다. WESPE(Waveform Envelope Synchronized Pulse Excitation)라고 하는 창의적 접근법은 펄스 트레인과 같은 신호(pulse train-like signal)의 생성에 기반하며, 실제 펄스 배치는 전용 시간 도메인 엔벨로프에 동기화된다. 이러한 소위 공통 엔벨로프는, 개별 엔벨로프들이 하나의 공통 엔벨로프 안으로 결합되는 일 세트의 대역 통과 신호를 통해 코어 디코더(20)의 출력에서 얻어진 LF 신호로부터 도출된다.
도 6은, 또한 새로운 기술의 바람직한 실시형태인 대역폭 확장(BWE) 기능을 특징으로 하는 오디오 디코더 안으로의 WESPE 프로세싱의 일반적인 통합을 도시한다. 이러한 구현예는, 예를 들어, 20 ms의 기간을 가진, 선택적으로, 예를 들어, 50%의 프레임들 사이의 시간적 오버랩을 갖는 시간 프레임 상에서 작동된다.
새로 제안된 WESPE BWE의 장점
· 거칠기 및 박동 아티팩트의 완화
· 신호의 하모닉 지속
· 펄스 유지
· 음성 BWE로서 적합
· 또한, 음악을 처리할 수 있음
· BWE 크로스오버는 이미 2 kHz 이하에서 시작될 수 있음
· 음조, 피치 정렬, 하모닉서티(harmonicity), 위상에 대한 자체 조정 BWE
WESPE 프로세싱은 다음 단계를 포함한다:
1. 시간적 엔벨로프 추정(100): 코어 디코더(20)로부터 얻어진 LF 신호는 대역 통과 신호의 집합 안으로 스프릿(105)된다. 다음으로, 대역 통과 신호 각각에 대해 시간적 엔벨로프가 결정된다(120). 선택적으로, 개별 엔벨로프의 정규화 또는 필터링이 적용될 수 있다. 다음으로, 모든 시간적 엔벨로프는 공통 엔벨로프 안으로 결합된다(130). 바람직하게는, 결합 동작은 평균화 프로세스이다.
2. 동기화된 펄스 배치: 단계 1에서 도출된 공통 엔벨로프는, 바람직하게는 로컬 최대 값의 위치에 대한 곡선 미적분의 적용에 의해 분석된다(205). 얻어진 최대 값 후보는 시간적 거리와 관련하여 선택적으로 사후 선택되거나 안정화될 수 있습니다(210). Dirac 펄스는 각각의 최대 위치에서 HF 생성을 위해 추정된 "원시" 신호에 배치된다(305). 선택적으로, 이러한 프로세스는 사이드 정보에 의해 지원될 수 있다.
3. 엔벨로프로부터 도출된 개별 펄스 크기 스케일링: 이전 단계 2에서 조립된 펄스 트레인은 공통 엔벨로프로부터 도출된 시간적 가중치에 의해 가중된다(315).
4. 후처리, HF 추출 또는 갭 필링 선택: 단계 3에서 생성된 "원시" 신호는, 예를 들어, 노이즈 추가에 의해 선택적으로 후처리(320)되고, BWE에서 HF로서 또는 갭 필링 타겟 타일 신호로서 사용되기 위해 필터링(325)된다.
5. 에너지 조정: 단계 4로부터의 필터링된 신호의 스펙트럼 에너지 분포는 BWE에서 HF로서 또는 갭 필링 타겟 타일 신호로서 사용되기 위해 조정된다(330). 여기서, 원하는 에너지 분포에 대한 비트 스트림으로부터의 사이드 정보(40)가 사용된다.
6. HF 또는 갭 필링 신호와 LF의 혼합: 마지막으로, 단계 5로부터의 조정된 신호는 일반적인 BWE 또는 갭 필링 원리에 따라 코어 코더 출력(30)과 혼합되며(400), 즉, HP 필터를 통과하고 LF를 보완하거나, 또는 갭 필링 스펙트럼 영역에서 스펙트럼 구멍을 필링한다.
다음에서, 예시 신호를 제공하고 처리 결과에 영향을 미치는 WESPE 처리에 포함된 단계 각각의 기능이 추가로 설명된다.
적절한 시간적 공통 엔벨로프 추정은 WESPE의 핵심 부분이다. 공통 엔벨로프는 각각의 개별 시간 프레임의 평균화된 그리고 따라서 대표적인 지각 성질의 추정을 허용한다.
피치 f0 및 강한 Δf0 간격의 오버톤(overtone) 라인 스펙트럼을 가진 LF 신호가 매우 토널(tonal)이면, 개별 대역 통과 신호들 마다 여러 라인이 나타날 것이고, 이들의 통과 대역 폭이 이들을 수용할 수 있다면, 모든 대역 통과 대역 내에서 박동을 통해 강한 코히렌트 엔벨로프 변조를 생성한다. 시간적 엔벨로프의 평균화는 대역 통과 엔벨로프를 가로질러 발견되는 이러한 코히렌트 엔벨로프 변조 구조를 보존할 것이고, ΔT0 = 1/(Δf0) 간격의 대략 등거리 위치에서 강한 피크로 귀결될 것이다. 나중에, 곡선 미적분을 적용하는 것을 통해서, 강력한 펄스는 이러한 피크 위치에 배치될 것이며, n*Δf0, n = 1… ..N 위치에서 이산 등거리 라인으로 구성된 스펙트럼을 갖는 펄스 트레인을 형성한다.
강한 토널 신호가 오버톤을 전혀 갖지 않거나, 대역 통과 필터의 대역폭이 개별 대역 각각에서 이러한 오버톤들 중 둘 이상을 수용할 수 없는 경우, 변조 구조는 모든 대역 통과 신호에 나타나지 않고 결과적으로 평균화된 공통 엔벨로프를 지배하지 않는다. 결과적인 펄스 배치는 대부분 불규칙한 간격의 최대 값에 기반될 것이고, 따라서 노이즈가 많을 것이다.
동일한 사항이 공통 엔벨로프 신호에서 랜덤 로컬 최대 값 배치를 나타내는 노이즈가 많은 LF 신호의 경우에도 참이다: 이 것은 의사(pseudo) 랜덤 펄스 배치로 이어진다.
이 경우 모든 대역 통과 신호가 시간적으로 정렬된 공통 최대 값을 공유하고, 따라서 이 최대 값이 공통 엔벨로프에도 나타날 것이기 때문에, 일시적인 이벤트가 보존된다.
대역 통과들은, 이들이 지각 대역에 걸쳐 있도록, 그리고 이들이 분해되어야 하는 가장 높은 주파수에 대해 적어도 두 개의 오버톤을 수용할 수 있도록, 치수가 정해져야 한다. 더 양호한 평균화를 위해, 대역 통과들은 이들의 전이 대역들의 일부 오버랩을 가질 수 있다. 이러한 방식으로, 추정된 신호의 음조는 본질적으로 LF 신호에 적응된다. 대역 통과는 예를 들어, 20 Hz 미만의 매우 낮은 주파수를 제외할 수 있다.
동기화된 시간적 펄스 배치 및 스케일링은 WESPE의 또 다른 주요 기여이다. 동기화된 펄스 배치는 공통 엔벨로프의 시간적 변조에서 응축된 대표적인 지각 성질을 계승하고, 이를 지각적으로 적응된 원시 전체 대역 신호 안으로 임프린트한다.
고주파 콘텐츠에 대한 인간의 인식은 임계 대역 엔벨로프의 변조 평가를 통해 기능하는 것으로 알려져 있다는 점을 주의한다. 이전에 자세히 설명된 바와 같이, 공통 LF 엔벨로프에 동기화된 시간적 펄스 배치는 LF와 HF 사이의 지각적으로 관련된 시간적 그리고 스펙트럼 구조의 정렬 및 유사성을 강화한다.
예를 들어, 피치 파이프(pitch pipe)와 같은, 강하고 깨끗한 오버톤을 갖는 매우 토널한 신호의 경우, WESPE는 추가 선택적인 안정화를 통해, 펄스 배치가 정확히 등거리이며 "원시" 신호의 매우 토널한 HF 오버톤 스펙트럼으로 이어지는 점을 보장한다.
공통 엔벨로프를 사용하여 펄스에 가중치를 부여하는 것은 지배적인 변조가 강력한 펄스에서 유지되는 점을 보장하는한편, 덜 중요한 변조는 약한 펄스로 귀결되며, "원시" 신호의 LF 신호에 대한 본질적인 적응의 WESPE 성질에 더 기여한다.
노이즈가 많은 신호의 경우, 펄스 배치 및 가중치가 점점 더 랜덤화되면, 이것은, 매우 원하는 성질인 점진적으로 노이즈가 더 많은 "원시" 신호로 이어진다.
나머지 프로세싱 단계, HF 추출, 에너지 조정 및 혼합은, BWE 또는 갭 필링의 전체 기능에 맞도록 새로운 WESPE 프로세싱을 코덱에 통합하기 위해 필요한 추가 단계이다.
도 3a는 시간적 엔벨로프의 결정을 위한 바람직한 구현예를 예시한다. 135에 예시된 것처럼 분석 신호는 힐베르트(Hilbert) 변환을 사용하여 결정된다. 블록 135의 출력, 즉 힐베르트 변환 신호는 140에 예시된 엔벨로프 ENV(t)의 계산을 위해서 사용된다. 이를 위해, 엔벨로프는, 특정 시간 순간에 원래 소스 오디오 신호 시간적 값을 제곱하고 특정 시간 순간에 대응되는 힐베르트 변환 값을 제곱하고 제곱된 값들을 더하고 각각의 개별 시간 순간에 대한 덧셈의 결과로부터 제곱근을 계산함으로서 계산된다. 이러한 절차에 의해서, 원래 소스 오디오 신호 a(t)와 동일한 샘플 해상도를 갖는 시간적 엔벨로프가 결정된다. 당연히, 블록 135 및 블록 140으로의 입력이 블록 105에 의해 얻어지는 바와 같이, 또는 블록 110에 의해 선택되는 바와 같이, 또는 도 2의 블록 115에 의해 정규화되고 필터링되는 바와 같이 부대역 신호일 때 동일한 절차가 수행된다.
시간적 엔벨로프를 계산하기 위한 다른 절차는 도 3b의 블록 145 및 블록 150에 예시된다. 이를 위해, 소스 오디오 신호 또는 소스 오디오로부터의 부대역의 파형은 정류되고(145), 정류된 신호는 저역 통과 필터링되고(150),이 저역 통과 필터링의 결과는 소스 오디오 신호의 엔벨로프이거나, 바람직하게는, 도 2의 130에 예시된 바와 같이 평균화함으로써, 다른 부대역의 다른 이러한 엔벨로프와 결합된 개별 부대역 신호의 엔벨로프이다.
C. Jarne에 의한 2017년 3월 20일자의 명칭이 "Simple empirical algorithm to obtain signal envelope in the three steps"인 간행물은 유한 지원(finite support)을 갖는 슬라이딩 윈도우를 통해 파형의 순간 RMS(root mean square) 값의 계산과 같은 시간적 엔벨로프를 계산하기 위한 다른 절차를 예시한다. 다른 절차는 데이터를 통해 이동되는 윈도우에서 파형의 피크를 찾아 연결함으로써 진폭 엔벨로프가 생성되는 파형의 조각별 선형 근사치를 계산하는 것으로 구성된다. 추가 절차는 소스 오디오 신호 또는 부대역 신호에서 영구적인 피크의 결정 및 보간법에 의한 엔벨로프의 도출에 의존한다.
시간적 엔벨로프를 계산하기 위한 다른 절차는 엔벨로프를 나타내는 사이드 정보를 해석하는 단계, 또는 시간적 노이즈 셰이핑(TNS: Temporal Noise Shaping)으로부터 알려진 바와 같이 시간 도메인 프레임으로부터 도출된 스펙트럼 값 세트에 대해 스펙트럼 도메인에서 예측을 수행하는 단계를 포함하며, 여기서 대응되는 예측 계수는 프레임의 시간적 엔벨로프를 나타낸다.
도 3c는 도 3a에서 135에 표시된 힐베르트 변환을 사용하는 분석 신호의 결정의 바람직한 구현예를 예시한다. 이러한 힐베르트 변환을 계산하기 위한 절차는, 예를 들어, 다음 문헌에서 설명된다: 문헌 [ "A Praat-Based Algorithm to Extract the Amplitude Envelope and Temporal Fine Structure Using the Hilbert Transform”, He, Lei, et al, INTERSPEECH 2016-1447, pages 530-534]. 단계 136에서, 신호 a(t), 예를 들어 소스 오디오 신호 또는 부대역 신호로부터 복소 스펙트럼이 계산된다. 단계 137에서, 복소 스펙트럼의 파지티브 부분이 선택되거나, 네가티브 부분이 선택 해제된다. 단계 138에서, 복소 스펙트럼의 파지티브 부분은 "-j"와 곱해지고, 단계 139에서, 이 곱셈의 결과는 시간 도메인으로 변환되고, 허수 부분을 취함으로써, 분석 신호 ()가 얻어진다.
당연히, 시간적 엔벨로프를 결정하기 위한 다른 많은 절차가 이용 가능하고, 시간적 엔벨로프가 실제로 시간 도메인 신호를 "엔벨로프"할 필요는 없다는 점이 주의되어야 하나, 물론 시간 도메인 신호의 일부 최대 값 또는 최소 값은 이 시점에서 대응되는 엔벨로프 값보다 더 높거나 더 작을 수 있다.
도 4는 시간적 엔벨로프의 특정 피처의 시간적 값을 결정하는 절차의 바람직한 실시형태를 예시한다. 이를 위해, 평균 시간적 엔벨로프가 피처에 대한 초기 시간적 값의 결정을 위한 블록 205에 도입된다. 이러한 초기 시간적 값은, 예를 들어, 시간적 엔벨로프 내에서 실제로 발견된 최대 값의 시간적 값일 수 있다. 실제 펄스가 배치되는 피처의 최종 시간적 값은, 최적화 함수에 의해서, 사이드 정보에 의해서, 또는 또는 블록 210에 의해 표시되는 바와 같이 원시 피처를 선택하거나 조작하는 것에 의해서 "초기" 시간적 값으로부터, 또는 원시 시간적 값으로부터 도출된다. 바람직하게는, 블록 210은 초기 값이 프로세싱 규칙에 따라서, 또는 최적화 함수에 따라서 조작되게 하려는 것이다. 특히, 래스터(raster) 간격(T)을 갖는 래스터에 시간적 값이 배치되도록 최적화 함수 또는 프로세싱 규칙이 구현된다. 특히, 래스터 간격(T) 및/또는 시간적 엔벨로프 내 래스터의 위치는 시간적 값과 초기 시간적 값 사이의 편차 값이 미리 정해진 특성을 갖도록 하기 위한 것이며, 실시형태에서, 편차 값은 제곱 차이에 대한 합이고/이거나 미리 결정된 특성은 최소 값이다. 따라서, 초기 시간적 값의 결정 후, 초기 시간적 값의 일정하지 않은 래스터와 가능한 근접하게 매칭되는 등거리 시간적 값의 래스터가 배치되지만, 이제는 명확하고 이상적인 토널 거동을 보여준다. 래스터는 업샘플링되지 않은 도메인에 비해 더 미세한 시간적 입도(granularity)를 갖는 업샘플링된 도메인에서 결정될 수 있거나, 또는 서브 샘플 정밀도를 갖는 펄스 배치를 위해 분수 지연(fractional delay)을 사용할 수 있다.
도 7은 LPC 프로세싱의 맥락에서 본 발명의 추가 실시형태를 예시한다. 예를 들어, 도 1 또는 도 6에 예시된 바와 같이, 도 7의 오디오 프로세서는 엔벨로프 결정기(100), 분석기(200)(모두 도 7에 도시되지 않음) 및 신호 합성기(300)를 포함한다. 그러나, 도 6과 달리, 코어 디코더 출력 데이터, 즉 LF 출력(30)은 시간 도메인 오디오 신호가 아니라 LPC 시간 도메인에 있는 오디오 신호이다. 이러한 데이터는 일반적으로 내부 신호 표현으로서 TCX(Transform Coded eXcitation) 코더 내에서 찾을 수 있다.
도 7의 오디오 디코더(20)에 의해 생성된 TCX 데이터는 LPC 도메인 가산기(405)로서 도 7에 표시된 믹서로 포워드된다. 신호 합성기는 TCX 주파수 향상 데이터를 생성한다. 따라서, 신호 합성기에 의해 생성된 합성 신호는 본 실시형태에서 TCX 데이터 신호인 소스 오디오 신호로부터 도출된다. 따라서, 블록 405의 출력에서, 주파수 향상 오디오 신호는 이용 가능하지만, 여전히 LPC 시간 도메인 내에 있다. 후속적으로 연결된 LPC 합성 필터(410)는 LPC 시간 도메인 신호를 시간 도메인으로 변환한다.
LPC 합성 필터는, 필요한 경우, 일종의 디엠퍼시스를 추가로 수행하도록 구성되며, 추가적으로 이러한 시간 도메인 필터는 또한, 합성 신호 대역에 대한 스펙트럼 엔벨로프 조정을 수행하도록 구성된다. 따라서, 도 7의 LPC 합성 필터(410)는 오디오 디코더(20)에 의해 출력된 TCX 데이터 주파수 범위의 합성 필터링을 수행할 뿐만 아니라, 오디오 디코더(20)에 의해서 출력된 TCX 데이터에 포함되지 않은 스펙트럼 대역의 데이터에 대한 스펙트럼 엔벨로프 조정을 수행한다. 일반적으로, 이러한 데이터는 또한, 코어 주파수 범위에 대한 LPC 데이터(40a)를 추출하는, 그리고 고대역 또는, 지능형 갭 필링(IGF: Intelligent Gap Filling)을 위한 도 7의 40b에 표시된 하나 이상의 대역에 대한 스펙트럼 엔벨로프 조정을 추가로 추출하는 오디오 디코더(20)에 의해 인코딩된 오디오 신호(10)로부터 얻어진다. 따라서, 도 1의 컴바이너 또는 믹서는, 420에 표시된 LPC 합성 필터(410)의 출력이 주파수 향상 시간 도메인 오디오 신호이도록 LPC 도메인 가산기(405) 및 후속적으로 연결된 도 7의 LPC 합성 필터(410)에 의해 구현된다. 컴바이너(400)에 의한 믹서 동작을 수행하기 전에 스펙트럼 엔벨로프 조정(330)이 수행되는 도 6의 절차와 대조적으로, 도 7은 두 신호를 혼합 또는 결합한 후 고대역 또는 필링 대역의 엔벨로프 조정을 수행한다.
도 8은 도 6에 예시된 절차의 추가 구현예를 예시한다. 기본적으로, 도 6의 구현예는, 블록 320, 블록 325, 블록 330, 및 블록 400이 시간 도메인에서 완전히 수행되도록 시간 도메인에서 수행된다. 대안적으로, 도 8의 구현예는 저대역에 대한 스펙트럼 변환(105)에 의존하지만, 이는 선택적 수단이고, 저대역에 대한 도 8의 스펙트럼 변환 동작(105)은 도 6의 대역 통과 필터 뱅크(105)의 구현예를 위해서 유리하게 사용된다. 추가로, 도 8 구현예는 일반적으로 도 6의 펄스 배치(305) 및 펄스 스케일링(315)을 포함하는 펄스 프로세서(340)의 출력을 변환하기 위한 스펙트럼 변환기(345)를 포함한다. 도 8의 펄스 프로세서(340)는 선택적인 피처로서 스태빌라이저 블록 210, 및 선택적인 피처로서 극값 검색 블록 205를 추가로 포함할 수 있다.
그러나, 고역 필터링(325), 엔벨로프 조정(330) 및 저대역과 고대역의 조합의 절차는 합성 필터 뱅크에 의해 수행되며, 즉 스펙트럼 도메인에서 수행되고, 도 8의 합성 필터 뱅크(400)의 출력은 시간 도메인 주파수 향상 오디오 신호(420)이다. 그러나, 요소(400)가 상이한 대역을 결합하기 위한 간단한 컴바이너로서 구현되는 경우, 블록 400의 출력은 또한 임의의 필요한 방식으로 추가 프로세스되는 스펙트럼 값의 후속 블록으로 전형적으로 구성된 전체 스펙트럼 도메인 신호일 수 있다.
다음에서는, WESPE BWE를 사용하여 대역폭을 확장한 특성 신호의 세 개의 실시예가 제공된다. 샘플 레이트는 32 kHz 였고, 513 개의 라인을 갖는 단일 측부 스펙트럼을 구비하는 DFT(도 8의 105)는 8 개의 오버랩 대역 통과 신호를 추출하기 위해서 사용되었다. 4 kHz 고역(도 8의 325), 스펙트럼 엔벨로프 조정(도 8의 330), 및 LF 및 HF의 혼합(도 8의 400)을 구현하기 위해, 50% 오버랩을 구비하는 유사한 DFT/IDFT(도 8의 345)는 16 개의 균일한 스케일 팩터 밴드로 조직되고 채용되었다. 스펙트럼도에 도시된 결과적인 신호는 DC로부터 4 kHz까지 코딩되지 않은 PCM이고, 4 kHz로부터 16 kHz까지 WESPE에 의해 생성된다.
도 9a는 파형, 공통 엔벨로프, 및 WESPE에 의해 동기화되고 스케일링된 결과적인 펄스 배치의 짧은 발췌(하나의 1024 개 샘플 블록)를 도시한다. 약간의 분산을 구비하는 큰 펄스는 넓은 주기적 구조에서 대략 등거리로 배치된다.
도 9b는 전체 테스트 항목의 스펙트럼도를 도시한다. 유성음의 수직 펄스 구조는 LF와 HF 사이에서 코리렌트하게 정렬된 상태를 유지하는 반면 마찰음은 HF 구조와 같은 노이즈를 나타낸다.
따라서, 도 9a는 WESPE가 음성 펄스를 모델링하는 방법을 도시하며, 파형, 공통 엔벨로프, 및 펄스 생성을 도시하며, 여기서 항목은 "독일 남성 음성"이다. 도 9b는 WESPE가 음성 펄스를 모델링하는 방법을 도시하고, 스펙트럼도를 도시한다. 항목은 "독일 남성 음성"이다.
도 10a는 파형, 공통 엔벨로프, 및 WESPE에 의해 동기화되고 스케일링된 결과적인 펄스 배치의 짧은 발췌(하나의 1024 개 샘플 블록)를 도시한다. 뚜렷한 날카로운 펄스는 좁은 주기적 구조에 등거리로 배치된다. 도 10b는 전체 테스트 항목의 스펙트럼도를 도시한다. 피치 파이프의 수평선 구조는 LF와 HF 사이에서 정렬된 상태를 유지하지만, HF는 또한, 다소 노이즈가 많고, 추가적인 안정화로부터 이익을 얻을 수 있다.
도 10a는 WESPE가 하모닉 오버톤을 모델링하는 방법을 도시하고, 파형, 공통 엔벨로프, 및 펄스 생성을 도시한다. 항목은 "피치 파이프"이다. 도 10b는 WESPE가 하모닉 오버톤을 모델링하는 방법을 도시하고, 스펙트럼도를 도시한다. 항목은 "피치 파이프"이다.
도 11a는 테스트 항목 Madonna Vogue의 파형, 공통 엔벨로프, 및 WESPE에 의해 동기화되고 스케일링된 결과적인 펄스 배치의 짧은 발췌(하나의 1024 개 샘플 블록)를 도시한다. 펄스의 배치 및 스케일링은 거의 랜덤 구조를 갖는다. 도 11b는 전체 테스트 항목의 스펙트럼도를 도시한다. 팝 음악의 수직 과도 구조는 LF와 HF 사이에서 코히렌트하게 정렬된 상태를 유지하는 반면, HF 음조는 대부분 낮다.
도 11a는 WESPE가 노이즈가 많은 혼합물을 모델링하는 방법을 도시하고, 파형, 공통 엔벨로프, 및 펄스 생성을 도시한다. 항목은 "Vogue"이다. 도 11b는 WESPE가 노이즈가 많은 혼합물을 모델링하는 방법을 도시하고, 스펙트럼도를 도시한다. 항목은 "Vogue"이다.
끝 인서트 C
도 9a, 도 10a, 및 도 11a에서 제1 도면은 저대역 소스 신호의 1024개 샘플의 블록의 파형을 예시한다. 또한, 샘플의 블록을 추출하기 위한 분석 필터의 영향은 파형이 블록의 시작에서, 즉 샘플 0에서 0과 같고, 블록의 끝에서, 즉 샘플 1023에서 또한 0이라는 점이 도시된다. 예를 들어, 이러한 파형은 도 1의 블록 100으로의 입력에서, 또는 도 6의 30에서 이용 가능하다. 도 9a, 도 9b, 및 도 9c의 수직 축선은 항상 시간 도메인 진폭을 나타내고, 이 도면들의 수평 축선은 항상 시간 변수, 및 특히 일반적으로 한 블록에 대해 0으로부터 1023까지 연장되는 샘플 번호를 나타낸다.
도 9a, 도 10a, 및 도 10b에서 제2 도면은 평균화된 저대역 엔벨로프, 특히 저대역 엔벨로프의 파지티브 부분만을 도시한다. 당연히, 저대역 엔벨로프는 일반적으로 대칭이고, 또한 네가티브 범위 안으로 확장된다. 그러나, 저대역 엔벨로프의 파지티브 부분만이 필요하다. 이 실시형태에서, 엔벨로프가 블록의 처음 몇 개의 샘플과 블록의 마지막 몇 개의 샘플을 제외하면서 계산되었지만, 이것은, 블록이 바람직하게는 오버랩핑 방식으로 계산되기 때문에 전혀 문제가 되지 않는다는 점이 도 9a, 도 10a 및 도 11a로부터 가시적이다. 따라서,도 9a, 도 10a, 도 11a의 제2 도면은, 예를 들어, 도 1의 블록 100의 출력 또는 도 2의 블록 130의 출력을 전형적으로 예시한다.
도 9a, 도 10a, 및 도 11a의 제3 도면은 펄스 스케일링 이후, 즉 프로세싱 이후의 합성 신호를 예시하며, 여기서 펄스는 엔벨로프의 피처의 시간적 값에 배치되고, 엔벨로프의 대응되는 진폭에 의해 가중치가 부여되었다. 도 9a, 도 10a, 및 도 11a는 배치된 펄스가 샘플 256으로부터 샘플 768로만 연장되는 점을 예시한다. 따라서, 가중치가 부여된 펄스로 구성된 신호는 512개 샘플에 걸쳐서만 연장되고, 이러한 샘플 이전과 이러한 샘플 이후의 어떠한 부분을 갖지 않는다. 즉, 프레임의 중간 부분을 커버한다. 이것은 이전 프레임이 오버랩을 갖고, 후속 프레임이 또한 오버랩을 갖는 상황을 반영한다. 후속 블록을 이용하여 펄스 신호를 생성하기 위해, 다음 블록으로부터의 펄스 신호는 또한, 1 쿼터와 마지막 쿼터가 누락되고, 따라서 다음 블록으로부터의 펄스 신호가 도 9a, 도 10a 및 도 11a에서 현재 블록으로부터의 예시된 펄스 신호를 바로 후속하여 배치된다는 점에서, 처리될 수 있다. 이러한 절차는, 펄스 신호의 어떠한 오버랩/부가 작업이 필요하지 않기 때문에 매우 효율적이다. 그러나, 필요한 경우, 임의의 오버랩/부가 절차, 또는 펄스 신호와 관련하여 일 프레임으로부터 다음 프레임으로의 임의의 크로스 페이딩 절차가 수행될 수 있다.
도 9b, 도 10b, 및 도 11b는 스펙트럼도를 예시한다. 수평 축선은 시간을 나타내지만, 도 9a, 도 10a, 및 도 11a에서와 같이 샘플에 대한 시간이 아니라 DFT 블록 번호에 대한 시간을 나타낸다. 세로 축선은 대응되는 도면의 하부에 있는 저주파로부터 대응되는 도면의 상부에 있는 높은 주파수까지의 주파수 스펙트럼을 예시한다. 수평 범위는 0으로부터 16 kHz까지 연장되어 하측 쿼터는 원래 신호를 나타내고 상측 세 개의 쿼터는 합성 신호를 나타낸다. 따라서, 도 9b, 도 10b, 및 도 11b는 주파수 향상 오디오 신호를 예시하는 한편, 이들 도면의 하측 궈터만이 소스 오디오 신호를 예시한다.
도면은 저대역 구조가 고대역에서 매우 잘 반영된다는 점을 나타낸다. 이것은, 피치 파이프의 세 가지 상이한 톤이 도 10b에서 왼쪽으로부터 오른쪽으로 차례로 연주되는 피치 파이프를 예시하는 도 10b와 관련하여 특히 가시적이다. 특히, 도 10b의 좌측 제1 부분은 피치 파이프의 가장 낮은 톤이고, 중간 부분은 피치 파이프의 중간 톤이고, 도 10b의 오른쪽 부분은 피치 파이프의 가장 높은 톤이다. 피치 파이프는 특히 매우 토널한 스펙트럼을 특징으로 하고, 본 발명은 더 높은 12 kHz에서 하모닉 구조를 매우 잘 복제하는 데 특히 유용하다.
제3 테스트 항목과 관련하여, 이러한 팝 음악 항목에 대한 저대역 구조가 본 발명의 절차에 의해 고주파 범위 안으로 매우 잘 변형되는 점이 가시적으로된다.
도 12는 도 6의 실시형태와 다소 유사한 추가 실시형태를 예시한다. 따라서, 도 6에서 유사한 참조 번호는 도 12에서와 유사한 항목을 나타낸다. 도 6의 피처에 추가하여, 도 12의 실시형태는 LF/HF 분해기(160), 노이즈 테이블 등과 같은 랜덤 노이즈 또는 의사 랜덤 노이즈 생성기(170), 및 에너지 조정기(180)를 추가적으로 포함한다.
LF/HF 분해기(160)는 시간적 엔벨로프의 LF 엔벨로프 및 HF 엔벨로프로의 분해를 수행한다. 바람직하게는, LF 엔벨로프는 저역 필터링에 의해 결정되고, HF 엔벨로프는 LF 엔벨로프로부터 HF 엔벨로프를 감산함으로써 결정된다.
랜덤 노이즈 또는 의사 랜덤 노이즈 생성기(170)는 노이즈 신호를 생성하고, 에너지 조정기(180)는 또한, 노이즈 에너지를 블록 180에서 추정되는 HF 엔벨로프의 에너지로 조정한다.(LF 엔벨로프로부터의 어떠한 기여도 없이) HF 엔벨로프의 에너지로 조정된 에너지를 갖는이 노이즈는 가산기(335)에 의해 블록 315에 의한 출력으로서 가중된 펄스 트레인에 추가된다. 그러나, 예를 들어, 프로세싱 블록 또는 단계 315, 및 단계 335의 순서는 또한 변경될 수 있다.
한편, 항목 205 내지 항목 315에 관한 절차는 블록 160에 의해 결정된 LF 엔벨로프에만 적용된다.
전체 대역 엔벨로프의 적어도 두 부분으로의 분해에 의존하는 바람직한 실시형태는 다음 블록 또는 단계를 아래의, 또는 임의의 다른 기술적으로 가능한 순서로 포함한다:
시간적 엔벨로프 추정(100): 정류; 예를 들어 함수 x^0.75를 사용함에 의한 압축; LF 엔벨로프 및 HF 엔벨로프에서 엔벨로프의 후속 분할(160). LF 엔벨로프는, 크로스오버 주파수가 예를 들어, 2 - 6 kHz인 저역 필터링을 통해 얻어진다. 일 실시형태에서, HF 엔벨로프는 원래 엔벨로프와 바람직하게는 지연 조정된 LF 엔벨로프 사이의 차이이다.
동기화된 펄스 배치(300). 앞서 설명된 단계에서 도출된 LF 엔벨로프는, 예를 들어, 곡선 미적분에 의해 분석되고, 펄스 배치는 LF 엔벨로프 최대 값 위치에서 수행된다.
엔벨로프로부터 도출된 개별 펄스 크기 스케일링(315): 앞에서 설명된 단계에서 조립된 펄스 트레인은 LF 엔벨로프로부터 도출된 시간적 가중치에 의해 가중된다.
HF 엔벨로프의 에너지는 추정되고, 동일한 에너지의 랜덤 노이즈는 가중된 펄스 트레인에 추가된다(335).
후처리, HF 추출 또는 갭 필링 선택: 블록 335의 출력에서 상술된 단계에서 생성된 "원시" 신호는 선택적으로, 예를 들어, 노이즈 추가에 의해 후처리되고(320), BWE에서 HF로서 또는 갭 필링 타겟 타일 신호로서 사용되기 위해 필터링된다(325).
에너지 조정(330): 위 단계에서 설명된 에너지 추정으로부터 필터링된 신호의 스펙트럼 에너지 분포는 BWE에서 HF로서 또는 갭 필링 타겟 타일 신호로서 사용되기 위해 조정된다. 여기서, 바람직하게는, 원하는 에너지 분포에 대한 비트 스트림으로부터의 사이드 정보가 사용된다.
HF 또는 갭 필링 신호와 LF의 혼합(400): 마지막으로, 단계 5로부터의 조정된 신호는 일반적인 BWE 또는 갭 필링 원리에 따라 코어 코더 출력과 혼합되며, 즉, HP 필터를 통과하고 LF를 보완하거나, 또는 갭 필링 스펙트럼 영역에서 스펙트럼 구멍을 필링한다.
이전에 논의된 모든 대안예 또는 양태 및 다음의 청구범위에서 독립 청구항에 의해 정의되는 바와 같은 모든 양태는 개별적으로, 즉 고려되는 대안예, 목적 또는 독립 청구항 이외의 다른 대안예 또는 목적 없이 사용될 수 있다는 점이 여기서 언급되어야 한다. 그러나, 다른 실시형태에서, 대안예 또는 양태 또는 독립 청구항 중 둘 이상이 서로 결합될 수 있고, 다른 실시형태에서, 모든 양태 또는 대안예 및 모든 독립 청구항이 서로 결합될 수 있다.
발명적으로 인코딩된 오디오 신호는 디지털 저장 매체 또는 비일시적 저장 매체 상에 저장될 수 있거나, 무선 전송 매체와 같은 전송 매체 또는 인터넷과 같은 유선 전송 매체를 통해 전송될 수 있다.
일부 양태는 장치의 맥락에서 설명되었지만, 이러한 양태가 또한 대응되는 방법의 설명을 나타내며, 여기서 블록 또는 디바이스가 방법 단계, 또는 방법 단계의 피처에 대응된다는 점이 명확하다. 유사하게, 방법 단계의 맥락에서 설명된 양태는 또한, 대응되는 장치의 대응되는 블록 또는 항목 또는 피처의 설명을 나타낸다.
특정 구현 요구 사항에 따라, 본 발명의 실시형태는 하드웨어로 또는 소프트웨어로 구현될 수 있다. 구현은, 각각의 방법이 수행되도록 프로그래밍 가능한 컴퓨터 시스템과 협력하는(또는 협력할 수 있는) 전자적으로 판독 가능한 제어 신호가 저장되어 있는 디지털 저장 매체, 예를 들어, 플로피 디스크, DVD, CD, ROM, PROM, EPROM, EEPROM 또는 FLASH 메모리를 사용하여 수행될 수 있다.
본 발명에 따른 일부 실시형태는, 본원에 설명된 방법 중 하나가 수행되도록 프로그래밍 가능한 컴퓨터 시스템과 협력할 수 있는 전자적으로 판독 가능한 제어 신호를 갖는 데이터 캐리어를 포함한다.
일반적으로, 본 발명의 실시형태는 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로 구현될 수 있으며, 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터에서 실행될 때 방법들 중 하나를 수행하도록 동작된다. 프로그램 코드는, 예를 들어, 기계 판독 가능 캐리어 상에 저장될 수 있다.
다른 실시형태는 기계 판독 가능 캐리어 또는 비일시적 저장 매체 상에 저장된, 본원에 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.
바꾸어 말하면, 본 발명의 방법의 실시형태는, 컴퓨터 프로그램이 컴퓨터에서 실행될 때 본원에 설명된 방법들 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
따라서, 본 발명의 방법의 추가 실시형태는 본원에 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함하는 데이터 캐리어(또는, 디지털 저장 매체, 또는 컴퓨터 판독 가능 매체)이다.
따라서 본 발명의 방법의 추가 실시형태는 본원에 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 데이터 스트림 또는 신호 시퀀스이다. 데이터 스트림 또는 신호 시퀀스는, 예를 들어, 데이터 통신 연결을 통해, 예를 들어 인터넷을 통해 전송되도록 구성될 수 있다.
추가 실시형태는 본원에 설명된 방법들 중 하나를 수행하도록 구성되거나 적응된 프로세싱 수단, 예를 들어 컴퓨터, 또는 프로그래밍 가능한 논리 디바이스를 포함한다.
추가 실시형태는 본원에 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.
일부 실시형태에서, 프로그래밍 가능 논리 디바이스(예를 들어, 필드 프로그래밍 가능 게이트 어레이)는 본원에 설명된 방법의 기능들 중 일부 또는 전부를 수행하기 위해서 사용될 수 있다. 일부 실시형태에서, 필드 프로그래밍 가능 게이트 어레이는 본원에 설명된 방법들 중 하나를 수행하기 위해 마이크로 프로세서와 협력할 수 있다. 일반적으로, 방법은 바람직하게는 임의의 하드웨어 장치에 의해 수행된다.
상술된 실시형태는 본 발명의 원리에 대한 예시일 뿐이다. 본원에 설명된 배열 및 세부 사항의 수정 및 변경이 당업자에게 명백할 것이라는 점이 이해된다. 따라서, 본원의 실시형태의 설명 및 해설에 의해 제시된 특정 세부 사항이 아니라 곧 이어질 특허청구범위에 의해서만 제한되는 것이 의도된다.
참고문헌
[1] Dietz, M., Liljeryd, L., Kjφrling, K., and Kunz, 0., "Spectral Band Replication, a Novel Approach in Audio Coding," in Audio Engineering Society Convention 112, 2002.
[2] Disch, S., Niedermeier, A., Helmrich, C. R., Neukam, C., Schmidt, K., Geiger, R., Lecomte, J., Ghido, F., Nagel, F., and Edler, B., "Intelligent Gap Filling in Perceptual Transform Coding of Audio," in Audio Engineering Society Convention 141, 2016.
[3] Laitinen M-V., Disch S., Oates C., Pulkki V. "Phase derivative correction of bandwidth extended signals for perceptual audio codecs." In 140th Audio Engineering Society International Convention 2016, AES 2016. Audio Engineering Society. 2016.
[4] Atti, Venkatraman, Venkatesh Krishnan, Duminda A. Dewasurendra, Venkata Chebiyyam, Shaminda Subasingha, Daniel J. Sinder, Vivek Rajendran, Imre Varga, Jon Gibbs, Lei Miao, Volodya Grancharov and Harald Pobloth. "Super-wideband bandwidth extension for speech in the 3GPP EVS codec." 2015 IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP)(2015): 5927-5931.

Claims (20)

  1. 소스 오디오 신호(30)로부터 주파수 향상 오디오 신호(420)를 생성하기 위한 오디오 프로세서에 있어서,
    상기 소스 오디오 신호(30)의 적어도 일 부분의 시간적 엔벨로프(temporal envelope)를 결정하기 위한 엔벨로프 결정기(100);
    상기 시간적 엔벨로프의 특정 피처(feature)의 시간적 값을 결정하기 위해 상기 시간적 엔벨로프를 분석하기 위한 분석기(200);
    합성 신호를 생성하기 위한 신호 합성기(300) - 상기 생성은 상기 시간적 값과 관련하여 펄스를 배치하는 것을 포함하며, 상기 합성 신호에서, 상기 펄스는, 상기 펄스가 배치되는 상기 시간적 값과 관련된 상기 시간적 엔벨로프의 진폭으로부터 도출된 가중치를 사용하여 가중됨-; 및
    상기 주파수 향상 오디오 신호(420)를 얻기 위해 상기 소스 오디오 신호(30)와 상기 소스 오디오 신호(30)에 포함되지 않은 상기 합성 신호의 적어도 일 대역을 결합하기 위한 컴바이너(400)를 포함하는, 오디오 프로세서.
  2. 제1항에 있어서,
    상기 분석기(200)는 상기 특정 피처로서 로컬 최대 값 또는 로컬 최소 값의 상기 시간적 값을 결정하도록 구성되는, 오디오 프로세서.
  3. 제1항에 있어서,
    상기 엔벨로프 결정기(100)는
    상기 소스 오디오 신호(30)를 복수의 부대역 신호로 분해(105)하도록, 또는
    상기 복수의 부대역 신호 중 선택된 부대역 신호의 선택된 시간적 엔벨로프를 계산(120)하도록 - 상기 선택된 시간적 엔벨로프는 상기 시간적 엔벨로프임 -, 또는
    상기 복수의 부대역 신호 중 적어도 두 개의 부대역 신호로부터 적어도 두 개의 시간적 엔벨로프를 계산(120)하고, 결합된 시간적 엔벨로프를 상기 시간적 엔벨로프로서 얻기 위해서 상기 적어도 두 개의 부대역 신호를 결합(130)하도록 구성된, 오디오 프로세서.
  4. 제3항에 있어서,
    상기 엔벨로프 결정기(100)는 결합(130) 전에 상기 선택된 부대역 신호 또는 상기 시간적 엔벨로프를 정규화(115, 125)하거나 필터링하도록 구성되거나, 또는
    상기 결합은 평균화 연산을 포함하거나, 또는
    상기 엔벨로프 결정기(100)는 상기 복수의 부대역 신호의 모든 부대역 신호로부터 시간적 엔벨로프를 계산하도록 구성되거나, 또는
    상기 엔벨로프 결정기(100)는 상기 소스 오디오 신호(30)의 단일 광대역 시간적 엔벨로프를 상기 시간적 엔벨로프로서 결정하도록 구성되는, 오디오 프로세서.
  5. 제1항에 있어서,
    상기 엔벨로프 결정기(100)는:
    파형을 정류(145)하고 상기 정류된 파형을 저역 필터링(150)하도록 구성된 엔벨로프 팔로워(follower)를 사용, 또는
    디지털 파형의 절대 값 또는 이 절대 값의 거듭 제곱을 계산한 다음 결과를 저역 필터링하는 것을 사용, 또는
    정의된 윈도우 폭을 갖는 슬라이딩 윈도우를 통해 상기 파형의 순간 평균 제곱근 값의 계산을 사용, 또는
    상기 파형의 조각별 선형 근사를 결정 - 상기 시간적 엔벨로프는 상기 조각별 선형 근사의 결과를 통해 이동되는 슬라이딩 윈도우에서 상기 파형의 피크를 찾아 연결함으로써 결정됨 -, 또는
    상기 파형에 대한 분석 신호를 생성하고, 제곱 연산, 덧셈 연산 및 제곱근 연산을 사용하여 상기 소스 오디오 신호(30)와 상기 분석 신호로부터 상기 엔벨로프를 계산하기 위해서 힐베르트(Hilbert) 변환을 사용하여
    상기 시간적 엔벨로프를 결정하도록 구성되는, 오디오 프로세서.
  6. 제1항에 있어서,
    상기 분석기(200)는
    상기 특정 피처의 초기 시간적 값을 결정(205)하도록, 그리고
    상기 초기 시간적 값으로부터, 최적화 함수를 사용하거나, 상기 소스 오디오 신호(30)와 연관된 사이드 정보를 사용하거나, 프로세싱 규칙에 따라 상기 시간적 값을 선택하거나 또는 조작하여 시간적 값을 도출(210)하도록 구성되는, 오디오 프로세서.
  7. 제6항에 있어서,
    상기 프로세싱 규칙 또는 상기 최적화 함수는 시간적 값이 래스터 간격(T)을 갖는 래스터에 배치되도록 구현되며, 상기 래스터 간격(T) 및 상기 시간적 엔벨로프 내 상기 래스터의 위치는 상기 시간적 값과 상기 초기 시간적 값 사이의 편차 값이 미리 결정된 특성을 갖도록 하기 위한 것인, 오디오 프로세서.
  8. 제7항에 있어서,
    상기 편차 값은 제곱된 차이에 대한 합이며, 상기 미리 결정된 특성은 최소 특성인, 오디오 프로세서.
  9. 제1항에 있어서,
    상기 신호 합성기(300)는
    펄스 트레인을 얻기 위해 단지 파지티브 펄스만을 또는 단지 네가티브 펄스만을 배치(305)하도록, 그리고
    이후 상기 펄스 트레인 내의 상기 펄스를 가중(315)하도록, 또는
    펄스 트레인에서 상기 펄스의 상기 시간적 값과 연관된 대응되는 가중치를 사용하여 단지 네가티브 펄스만 또는 단지 파지티브 펄스만 가중하도록, 그리고
    상기 펄스 트레인을 얻기 위해 상기 가중된 펄스를 상기 각각의 시간적 값에 배치하도록 구성되는, 오디오 프로세서.
  10. 제1항에 있어서,
    상기 신호 합성기(300)는 압축 함수를 사용하여 상기 진폭으로부터 상기 가중치를 도출(310)하도록 구성되며,
    상기 압축 함수는 1보다 더 낮은 파워를 가진 파워 함수, 로그 함수, 제곱근 함수, 및 더 높은 값을 감소시키고 더 낮은 값을 높이도록 구성된 비선형 함수을 포함하는 함수의 그룹으로부터의 함수인, 오디오 프로세서.
  11. 제1항에 있어서,
    상기 신호 합성기(300)는 후처리 기능(320)을 수행하도록 구성되며, 상기 후처리 기능은 잡음의 추가, 누락된 하모닉의 추가, 역필터링 및 엔벨로프 조정(330)으로 구성된 기능의 그룹 중 적어도 하나를 포함하는, 오디오 프로세서.
  12. 제1항에 있어서,
    상기 엔벨로프 결정기(100)는 상기 시간적 엔벨로프를 저주파 부분 및 고주파 부분으로 분해(160)하도록 구성되며,
    상기 분석기(200)는 분석을 위해 상기 시간적 엔벨로프의 저주파 부분을 사용하도록 구성된, 오디오 프로세서.
  13. 제12항에 있어서,
    상기 신호 합성기(300)는 에너지 조정된(180) 노이즈를 생성(170)하고, 상기 합성 신호를 얻기 위해 상기 에너지 조정된(180) 노이즈를 가중된 또는 비가중된 펄스를 포함하는 신호에 추가(335)하도록 구성된, 오디오 프로세서.
  14. 제1항에 있어서,
    상기 신호 합성기(300)는 상기 소스 오디오 신호(30)에 포함되지 않은 합성 신호의 적어도 일 대역을 얻기 위해 그리고 상기 합성 신호의 대역으로 스펙트럼 엔벨로프 조정(330)을 수행하기 위해 배치되고 가중된 펄스를 포함하는 신호를 고역 필터링(325)하도록 또는 대역 통과 필터링(325)하도록 구성되며, 상기 스펙트럼 엔벨로프 조정은 상기 소스 오디오 신호(30)와 연관된 사이드 정보로부터 도출된 엔벨로프 조정 값을 사용하여, 또는 상기 소스 오디오 신호(30)로부터 도출된 엔벨로프 조정 값을 사용하여, 또는 미리 결정된 엔벨로프 조정 기능에 따라 수행되는, 오디오 프로세서.
  15. 제1항에 있어서,
    상기 소스 오디오 신호(30)는 시간 도메인 오디오 신호이며,
    상기 합성 신호의 상기 적어도 일 대역은 시간 도메인 오디오 신호이며,
    상기 컴바이너(400)는 상기 합성 신호의 상기 적어도 하나의 대역의 샘플 및 상기 소스 오디오 신호(30)의 대응되는 샘플의 샘플별 추가를 사용하여 시간 도메인 조합을 수행하도록 구성된, 오디오 프로세서.
  16. 제1항에 있어서,
    상기 소스 오디오 신호(30)는 선형 예측 코딩(Linear Prediction Coding: LPC) 도메인의 여기 신호이며,
    상기 합성 신호의 상기 적어도 하나의 대역은 상기 LPC 도메인 내의 여기 신호이며,
    상기 컴바이너(400)는 상기 LPC 도메인에서 샘플별 추가에 의해 상기 소스 오디오 신호(30)와 상기 적어도 하나의 대역을 결합(405)하도록 구성되며,
    상기 컴바이너(400)는 상기 주파수 향상 오디오 신호를 얻기 위해서 LPC 합성 필터를 사용하여 상기 샘플별 추가의 결과를 필터링(410)하도록 구성되며,
    상기 LPC 합성 필터(410)는 사이드 정보로서 상기 소스 오디오 신호와 연관된 LPC 데이터(40a)에 의해 제어되며, 상기 LPC 합성 필터(410)는 상기 합성 신호의 적어도 하나의 대역에 대한 엔벨로프 정보(40b)에 의해 추가적으로 제어되는, 오디오 프로세서.
  17. 제1항에 있어서,
    상기 분석기(200), 상기 신호 합성기(300) 및 상기 컴바이너(400)는 시간 도메인 또는 LPC 시간 도메인에서 작동되는, 오디오 프로세서.
  18. 제1항에 있어서,
    상기 엔벨로프 결정기(100)는 프레임의 시퀀스에 대한 복수의 대역 통과 신호를 추출하기 위해 스펙트럼 변환(105)을 적용하도록 구성되며,
    상기 신호 합성기(300)는 스펙트럼 변환을 적용하고, 상기 합성 신호의 적어도 하나의 대역을 추출(325)하고, 상기 적어도 하나의 대역에 대해 엔벨로프 조정을 수행(330)하도록 구성되며,
    상기 컴바이너(400)는 스펙트럼 도메인에서 결합되고, 상기 주파수 향상 오디오 신호(420)를 얻기 위해 시간 도메인으로의 변환을 적용하도록 구성된, 오디오 프로세서.
  19. 소스 오디오 신호(30)로부터 주파수 향상 오디오 신호(420)를 생성하는 방법에 있어서,
    상기 소스 오디오 신호(30)의 적어도 일 부분의 시간적 엔벨로프를 결정하는 단계(100);
    상기 시간적 엔벨로프의 특정 피처의 시간적 값을 결정하기 위해 상기 시간적 엔벨로프를 분석하는 단계(200);
    합성 신호에 상기 시간적 값과 관련하여 펄스를 배치하는 단계(305) - 상기 합성 신호에서, 상기 배치된 펄스는 상기 펄스가 배치되는 시간적 값과 관련된 상기 시간적 엔벨로프의 진폭으로부터 도출된 가중치를 사용하여 가중됨 -; 및
    상기 주파수 향상 오디오 신호(420)를 얻기 위해 상기 소스 오디오 신호(30)와 상기 소스 오디오 신호(30)에 포함되지 않은 상기 합성 신호의 적어도 일 대역을 결합하는 단계(400)를 포함하는 방법.
  20. 컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램으로서,
    컴퓨터 또는 프로세서에서 실행될 때, 제19항의 오디오 프로세싱 방법을 수행하는,
    컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램
KR1020217023155A 2018-12-21 2019-12-12 펄스 프로세싱을 사용하여 주파수 향상 오디오 신호를 생성하기 위한 오디오 프로세서 및 방법 KR102619434B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP18215691 2018-12-21
EP18215691.9 2018-12-21
EP19166643.7 2019-04-01
EP19166643.7A EP3671741A1 (en) 2018-12-21 2019-04-01 Audio processor and method for generating a frequency-enhanced audio signal using pulse processing
PCT/EP2019/084974 WO2020126857A1 (en) 2018-12-21 2019-12-12 Audio processor and method for generating a frequency enhanced audio signal using pulse processing

Publications (2)

Publication Number Publication Date
KR20210107773A KR20210107773A (ko) 2021-09-01
KR102619434B1 true KR102619434B1 (ko) 2023-12-29

Family

ID=65011752

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217023155A KR102619434B1 (ko) 2018-12-21 2019-12-12 펄스 프로세싱을 사용하여 주파수 향상 오디오 신호를 생성하기 위한 오디오 프로세서 및 방법

Country Status (13)

Country Link
US (2) US11776554B2 (ko)
EP (2) EP3671741A1 (ko)
JP (1) JP7314280B2 (ko)
KR (1) KR102619434B1 (ko)
AU (1) AU2019409071B2 (ko)
BR (1) BR112021011312A2 (ko)
CA (1) CA3124158C (ko)
ES (1) ES2934964T3 (ko)
MX (1) MX2021007331A (ko)
SG (1) SG11202105709WA (ko)
TW (1) TWI751463B (ko)
WO (1) WO2020126857A1 (ko)
ZA (1) ZA202103742B (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116711007A (zh) * 2021-04-01 2023-09-05 深圳市韶音科技有限公司 一种语音增强方法和系统
CN115985333A (zh) * 2021-10-15 2023-04-18 广州视源电子科技股份有限公司 一种音频信号对齐方法、装置、存储介质及电子设备

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2798003B2 (ja) * 1995-05-09 1998-09-17 松下電器産業株式会社 音声帯域拡大装置および音声帯域拡大方法
SE512719C2 (sv) 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
JP2008502022A (ja) * 2004-06-08 2008-01-24 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ符号化
RU2421936C2 (ru) 2006-01-03 2011-06-20 СЛ Аудио А/С Способ и система для выравнивания громкоговорителя в комнате
US8135047B2 (en) * 2006-07-31 2012-03-13 Qualcomm Incorporated Systems and methods for including an identifier with a packet associated with a speech signal
TWI343560B (en) * 2006-07-31 2011-06-11 Qualcomm Inc Systems, methods, and apparatus for wideband encoding and decoding of active frames
JP5098569B2 (ja) 2007-10-25 2012-12-12 ヤマハ株式会社 帯域拡張再生装置
DE102008015702B4 (de) * 2008-01-31 2010-03-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur Bandbreitenerweiterung eines Audiosignals
MY150373A (en) * 2008-07-11 2013-12-31 Fraunhofer Ges Forschung Apparatus and method for calculating bandwidth extension data using a spectral tilt controlled framing
CN101642399B (zh) 2008-12-16 2011-04-06 中国科学院声学研究所 一种基于频率调制信息的人工耳蜗语音处理方法及处理器
PL2394268T3 (pl) 2009-04-08 2014-06-30 Fraunhofer Ges Forschung Urządzenie, sposób i program komputerowy do realizacji upmixu sygnału audio downmixu z użyciem wygładzania wartości faz
EP2362375A1 (en) * 2010-02-26 2011-08-31 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for modifying an audio signal using harmonic locking
JP5533248B2 (ja) 2010-05-20 2014-06-25 ソニー株式会社 音声信号処理装置および音声信号処理方法
JP2013016908A (ja) 2011-06-30 2013-01-24 Rohm Co Ltd 正弦波発生装置、デジタル信号プロセッサ、および音声出力装置
MY172161A (en) * 2013-01-29 2019-11-15 Fraunhofer Ges Forschung Apparatus and method for generating a frequency enhanced signal using shaping of the enhancement signal
WO2015063227A1 (en) * 2013-10-31 2015-05-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio bandwidth extension by insertion of temporal pre-shaped noise in frequency domain
EP2980792A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating an enhanced signal using independent noise-filling

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Disch Sascha et al, "Intelligent Gap Filling in Perceptual Transform Coding of Audio, " AES Convention 141, Sep. 2016, AES (2016.09.20.)*

Also Published As

Publication number Publication date
AU2019409071A1 (en) 2021-06-24
CA3124158A1 (en) 2020-06-25
TWI751463B (zh) 2022-01-01
KR20210107773A (ko) 2021-09-01
ZA202103742B (en) 2022-06-29
JP7314280B2 (ja) 2023-07-25
CN113272898A (zh) 2021-08-17
EP3671741A1 (en) 2020-06-24
EP3899937A1 (en) 2021-10-27
AU2019409071B2 (en) 2023-02-02
US20230395085A1 (en) 2023-12-07
BR112021011312A2 (pt) 2021-08-31
ES2934964T3 (es) 2023-02-28
TW202030723A (zh) 2020-08-16
WO2020126857A1 (en) 2020-06-25
US20210287687A1 (en) 2021-09-16
SG11202105709WA (en) 2021-07-29
MX2021007331A (es) 2021-07-15
CA3124158C (en) 2024-01-16
EP3899937B1 (en) 2022-11-02
JP2022516604A (ja) 2022-03-01
US11776554B2 (en) 2023-10-03

Similar Documents

Publication Publication Date Title
KR101369267B1 (ko) 오디오 인코더 및 대역폭 확장 디코더
AU2009210303B2 (en) Device and method for a bandwidth extension of an audio signal
KR101239812B1 (ko) 대역폭 확장 신호를 생성하기 위한 장치 및 방법
CN105706166B (zh) 对比特流进行解码的音频解码器设备和方法
US20230395085A1 (en) Audio processor and method for generating a frequency enhanced audio signal using pulse processing
US9805735B2 (en) Apparatus, method and computer program for generating a wideband signal using guided bandwidth extension and blind bandwidth extension
US8880410B2 (en) Apparatus and method for generating a bandwidth extended signal
US20230343352A1 (en) Apparatus and Method for Generating a Bandwidth Extended Signal
RU2786712C1 (ru) Аудиопроцессор и способ генерирования аудиосигнала с улучшенной частотной характеристикой с использованием импульсной обработки
CN113272898B (zh) 使用脉冲处理产生频率增强音频信号的音频处理器和方法
AU2015203736B2 (en) Audio encoder and bandwidth extension decoder

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant