KR102257100B1 - 보상 값을 사용하여 오디오 신호를 인코딩하기 위한 장치 및 방법 - Google Patents

보상 값을 사용하여 오디오 신호를 인코딩하기 위한 장치 및 방법 Download PDF

Info

Publication number
KR102257100B1
KR102257100B1 KR1020197008630A KR20197008630A KR102257100B1 KR 102257100 B1 KR102257100 B1 KR 102257100B1 KR 1020197008630 A KR1020197008630 A KR 1020197008630A KR 20197008630 A KR20197008630 A KR 20197008630A KR 102257100 B1 KR102257100 B1 KR 102257100B1
Authority
KR
South Korea
Prior art keywords
spectral band
analysis result
audio data
spectral
audio signal
Prior art date
Application number
KR1020197008630A
Other languages
English (en)
Other versions
KR20190042070A (ko
Inventor
샤샤 디쉬
프란츠 레우텔후버
얀 부테
마르쿠스 물트루스
베른트 에들러
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20190042070A publication Critical patent/KR20190042070A/ko
Application granted granted Critical
Publication of KR102257100B1 publication Critical patent/KR102257100B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/70Media network packetisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

오디오 신호를 인코딩하기 위한 장치는: 제1 스펙트럼 대역의 제1 오디오 데이터를 코어 인코딩하기 위한 코어 인코더; 제1 스펙트럼 대역과는 다른 제2 스펙트럼 대역에서 제2 오디오 데이터를 파라미터에 의해 코딩하는 파라메트릭 코더를 포함하며, 파라메트릭 코더는: 제1 분석 결과를 얻도록 제1 스펙트럼 대역의 제1 오디오 데이터를 분석하기 위한 그리고 제2 분석 결과를 얻도록 제2 스펙트럼 대역의 제2 오디오 데이터를 분석하기 위한 분석기; 제1 분석 결과 및 제2 분석 결과를 사용하여 보상 값을 계산하기 위한 보상기; 및 보상 값을 사용하여 제2 스펙트럼 대역의 제2 오디오 데이터로부터 계산된 파라미터를 포함한다.

Description

보상 값을 사용하여 오디오 신호를 인코딩하기 위한 장치 및 방법
본 발명은 오디오 코딩 및 디코딩에 관한 것으로, 구체적으로는 대역폭 확장 또는 스펙트럼 대역 복제(SBR: spectral band replication) 또는 지능형 갭 채움(IGF: intelligent gap filling)과 같은 스펙트럼 강화 기술들을 사용하는 오디오 인코딩/디코딩에 관한 것이다.
오디오 신호들의 저장 또는 송신은 종종 엄격한 비트레이트 제약들을 받는다. 과거에는, 매우 낮은 비트레이트만이 이용 가능했을 때, 코더들은 송신된 오디오 대역폭을 대폭 줄도록 강요되었다. 최신 오디오 코덱들은 요즘에는 대역폭 확장(BWE: bandwidth extension) 방법들을 사용함으로써 광대역 신호들을 코딩할 수 있다[1-2]. 이러한 알고리즘들은 고주파 콘텐츠(HF)의 파라메트릭 표현에 의존하는데, 이는 HF 스펙트럼 영역으로의 전이("패치(patching)") 및 파라미터 구동 후처리의 적용에 의해 디코딩된 신호의 파형 코딩된 저주파 부분(LF)으로부터 생성된다. 그러나 예컨대, 어떤 타깃 영역에 복사된 패치의 스펙트럼 미세 구조가 원래 콘텐츠의 스펙트럼 미세 구조와 크게 다르다면, 성가신 아티팩트들이 생겨 디코딩된 오디오 신호의 지각 품질을 떨어뜨릴 수도 있다.
BWE 방식들에서, 주어진 소위 크로스오버 주파수 이상의 HF 스펙트럼 영역의 재구성은 흔히 스펙트럼 패치에 기초한다. 통상적으로, HF 영역은 다수의 인접한 패치들로 구성되며, 이러한 패치들 각각은 주어진 크로스오버 주파수 아래의 LF 스펙트럼의 대역 통과(BP: band-pass) 영역들로부터 제공된다. 최첨단 시스템들은 한 세트의 인접한 부대역 계수들을 소스에서 타깃 영역으로 복사함으로써 필터 뱅크 표현 내에서 패치를 효율적으로 수행한다. 다음 단계에서, 스펙트럼 포락선은 인코더에서 측정되어 부가 정보로서 비트스트림으로 송신된 원래의 HF 신호의 포락선과 매우 유사하도록 조정된다.
그러나 종종 스펙트럼 미세 구조의 불일치가 존재하는데, 이는 아티팩트들의 지각으로 이어질 수도 있다. 일반적으로 알려진 불일치는 음색(tonality)과 관련이 있다. 원래의 HF가 다소 우세한 에너지를 가진 톤을 포함하고 톤의 스펙트럼 위치에 복사될 패치가 잡음이 있는 특징을 갖는다면, 이 대역 통과 잡음은 성가신 잡음 버스트로서 들리게 되도록 확대될 수 있다.
스펙트럼 대역 복제(SBR)는 현대의 오디오 코덱에서 이용되는 잘 알려진 BWE이다[1]. SBR에서, 음색 불일치의 문제는 인공 대체 사인 곡선들의 삽입으로 해결된다. 그러나 이것은 BWE 데이터의 비트 요구를 증가시키는 추가 부가 정보가 디코더에 송신될 것을 요구한다. 더욱이, 후속 블록들에 대해 톤의 삽입이 온/오프 토글된다면, 삽입된 톤들은 시간이 지남에 따라 불안정성으로 이어질 수 있다.
지능형 갭 채움(IGF)은 MPEG-H 3D 오디오 또는 3gpp EVS 코덱과 같은 최신 코덱들 내의 세미-파라메트릭 코딩 기술을 나타낸다. 저 비트레이트 제약들로 인해 인코더에서 양자화 프로세스에 의해 도입된 스펙트럼 홀들을 채우기 위해 IGF가 적용될 수 있다. 통상적으로, 한정된 비트 예산이 투명한 코딩을 허용하지 않는다면, 스펙트럼 홀들은 신호의 고주파(HF) 영역에서 먼저 나타나고, 가장 낮은 비트레이트들에 대해 전체 상위 스펙트럼 범위에 점점 더 많은 영향을 준다. 디코더 측에서, 이러한 스펙트럼 홀들은 저주파(LF) 콘텐츠로부터 세미-파라메트릭 방식으로 생성된 합성 HF 콘텐츠를 사용하여 IGF를 통해 대체되고, 추가 파라메트릭 부가 정보에 의해 후처리 제어된다.
IGF는 보다 낮은 주파수들로부터 스펙트럼 부분들(소위 타일들)을 복사함으로써 고주파 스펙트럼을 채우고 이득 계수를 적용함으로써 에너지들을 조정하는 것에 근본적으로 기반을 두고 있기 때문에, 원래의 신호에서 복사 프로세스의 소스로서 사용된 주파수 범위가 스펙트럼 미세 구조의 관점에서 그 목적지와 다르다면, 이는 문제가 있는 것으로 판명될 수 있다.
강력한 지각 영향을 가질 수 있는 그러한 하나의 경우는 음색의 차이이다. 이 음색 불일치는 두 가지 서로 다른 방식들로 발생할 수 있는데: 강한 음색을 가진 주파수 범위가 구조에서 잡음과 비슷한 것으로 추정되는 스펙트럼 영역으로 복사되거나, 원래 신호의 음색 성분을 대체하는 잡음으로 다른 방식으로 복사된다. IGF에서, 대부분의 오디오 신호들이 대개 더 높은 주파수들 쪽으로 잡음이 많아지는 전자의 경우는 스펙트럼 백색화의 적용에 의해 처리되는데, 여기서는 만약 있다 하더라도, 백색화가 얼마나 필요한지를 시그널링하는 파라미터들이 디코더에 송신된다. 후자의 경우, 파형 코딩을 통해 HF 대역의 음색 라인들을 보존하기 위해 코어 코더의 전체 대역 인코딩 능력을 사용함으로써 음색이 정정될 수 있다. 이러한 소위 "생존 라인들"은 강한 음색을 기반으로 선택될 수 있다. 파형 코딩은 비트레이트 측면에서 매우 까다롭고 저 비트레이트 시나리오들에서는, 이를 감당할 여지가 거의 없을 것이다. 더욱이, 성가신 아티팩트들을 야기할 음색 성분을 코딩하는 것과 코딩하지 않는 것 사이에서 프레임에서 프레임으로 토글링하는 것이 방지되어야 한다.
지능형 갭 채움 기술은 추가로 유럽 특허 출원 EP 2830054 A1호에 추가로 개시되고 기술되어 있다. IGF 기술은 한편으로는 대역폭 확장의 분리, 그리고 다른 한편으로는 코어 디코더가 동작하는 동일한 스펙트럼 도메인에서 대역폭 확장을 수행함으로써 코어 디코딩과 관련된 문제들을 해결한다. 따라서 전체 오디오 신호 범위를 인코딩 및 디코딩하는 전체 레이트 코어 인코더/디코더가 제공된다. 이것은 인코더 측의 다운샘플러 그리고 디코더 측의 업샘플러에 대한 필요성을 요구하지 않는다. 대신, 전체 처리가 전체 샘플링 레이트 또는 전대역폭 도메인에서 수행된다. 높은 코딩 이득을 얻기 위해, 고분해능으로 인코딩되어야 하는 제1 스펙트럼 부분들의 제1 세트를 발견하기 위해 오디오 신호가 분석되며, 여기서 이 제1 스펙트럼 부분들의 제1 세트는 일 실시예에서, 오디오 신호의 음색 부분들을 포함할 수 있다. 다른 한편으로, 제2 스펙트럼 부분들의 제2 세트를 구성하는 오디오 신호의 비-음색 또는 잡음 성분들은 낮은 스펙트럼 분해능으로 파라미터에 의해 인코딩된다. 인코딩된 오디오 신호는 다음에 단지, 높은 스펙트럼 분해능을 갖는 파형 보존 방식으로 인코딩된 제1 스펙트럼 부분들의 제1 세트, 그리고 추가로 제1 세트로부터 제공된 주파수 "타일들"을 사용하여 저분해능으로 파라미터에 의해 인코딩된 제2 스펙트럼 부분들의 제2 세트를 필요로 한다. 디코더 측에서, 전대역 디코더인 코어 디코더는 파형 보존 방식으로, 즉 임의의 추가 주파수 재생성이 있다는 어떠한 인식도 없이 제1 스펙트럼 부분들의 제1 세트를 재구성한다. 그러나 그렇게 생성된 스펙트럼은 많은 스펙트럼 갭들을 갖는다. 이러한 갭들은 이후에, 한편으로는 파라메트릭 데이터를 적용하는 주파수 재생성을 사용하고 다른 한편으로 소스 스펙트럼 범위, 즉 전체 레이트 오디오 디코더에 의해 재구성된 제1 스펙트럼 부분들을 사용함으로써 본 발명의 지능형 갭 채움(IGF) 기술로 채워진다.
IGF 기술은 또한 3GPP TS 26.445 V13.2.0(2016-06), 3세대 파트너십 프로젝트; 기술 규격 그룹 서비스들 및 시스템 양상; 강화된 음성 서비스들(EVS: Enhanced Voice Services)을 위한 코덱; 상세한 알고리즘 설명(릴리스 13)에 포함되고 개시된다. 특히, 인코더 측에 관해 이러한 참조의 섹션 5.3.3.2.11 "지능형 갭 채움"이 참조되고, 디코더 측 구현에 관해 섹션 6 그리고 특히 섹션 6.2.2.3.8 "IGF Apply" 및 다른 IGF 관련 구절들, 이를테면 섹션 6.2.2.2.9 "IGF 비트스트림 판독기" 또는 섹션 6.2.2.3.11 "IGF 시간 편평화"가 추가로 참조된다.
EP 2301027 B1호는 대역폭 확장 출력 데이터를 생성하기 위한 장치 및 방법을 개시한다. 유성음 신호들에서, 계산된 잡음 플로어를 낮추는 것은 원래 계산된 잡음 플로어와 비교할 때 지각적으로 더 높은 품질을 산출한다. 그 결과, 이 경우에 음성은 더 적은 잔향을 낸다. 오디오 신호들이 치찰음들을 포함하는 경우, 잡음 플로어의 인위적인 증가는 치찰음들과 관련된 패치 방법의 약점들을 덮을 수 있다. 그러므로 참조는 유성음과 같은 신호들에 대한 잡음 플로어의 감소 및 예컨대, 치찰음들을 포함하는 신호들에 대한 잡음 플로어의 증가를 제공하는 것을 개시한다. 서로 다른 신호들을 구별하기 위해, 실시예들은 에너지가 주로 더 높은 주파수들 또는 더 높은 고주파에 위치되는지 여부, 또는 다시 말해서, 오디오 신호의 스펙트럼 표현이 더 높은 주파수들 쪽으로 증가하는 기울기를 보여주는지 또는 감소하는 기울기를 보여주는지를 측정하는 에너지 분포 데이터(예컨대, 치찰음 파라미터)를 사용한다. 추가 구현들은 또한 제1 LPC 계수(선형 예측 코딩과 동일한 LPC)를 사용하여 치찰음 파라미터를 생성한다.
오디오 인코딩 또는 오디오 처리에 대한 개선된 개념을 제공하는 것이 본 발명의 과제이다.
이러한 과제는 제1 항의 오디오 신호를 인코딩하기 위한 장치, 제23 항의 오디오 신호를 인코딩하는 방법, 제24 항의 오디오 신호를 처리하기 위한 시스템, 제25 항의 오디오 신호를 처리하는 방법, 또는 제26 항의 컴퓨터 프로그램에 의해 달성된다.
오디오 신호를 인코딩하기 위한 장치는, 제1 스펙트럼 대역의 제1 오디오 데이터를 코어 인코딩하기 위한 코어 인코더, 및 제1 스펙트럼 대역과는 다른 제2 스펙트럼 대역에서 제2 오디오 데이터를 파라미터에 의해 코딩하는 파라메트릭 코더를 포함한다. 특히, 파라메트릭 코더는 제1 분석 결과를 얻도록 제1 스펙트럼 대역의 제1 오디오 데이터를 분석하기 위한 그리고 제2 분석 결과를 얻도록 제2 스펙트럼 대역의 제2 오디오 데이터를 분석하기 위한 분석기를 포함한다. 보상기는 제1 분석 결과 및 제2 분석 결과를 사용하여 보상 값을 계산한다. 게다가, 파라미터 계산기는 다음에, 보상기에 의해 결정된 보상 값을 사용하여 제2 스펙트럼 대역의 제2 오디오 데이터로부터 파라미터를 계산한다.
따라서 본 발명은 디코더 측에서 특정 파라미터를 사용하는 재구성이 오디오 신호에 의해 요구되는 특정한 특징을 다루는지 여부를 알아내기 위해, 통상적으로 소스 대역인 제1 스펙트럼 대역이 분석되어 제1 분석 결과를 얻는다는 결론을 기반으로 한다. 유사하게, 통상적으로 타깃 대역이며, 제1 스펙트럼 대역, 즉 소스 대역을 사용하여 디코더 측에서 재구성되는 제2 스펙트럼 대역이 분석기에 의해 추가로 분석되어 제2 분석 결과를 얻는다. 따라서 소스 대역뿐만 아니라 타깃 대역에 대해서도, 별도의 분석 결과가 계산된다.
그런 다음, 이 두 가지 분석 결과들을 바탕으로, 보상기가 수정된 값에 대한 어떠한 보상도 없이 얻게 되었을 특정 파라미터를 변경하기 위한 보상 값을 계산한다. 즉, 본 발명은 제2 스펙트럼 대역에 대한 파라미터가 원래의 오디오 신호로부터 계산되고 디코더에 송신되어 제2 스펙트럼 대역이 계산된 파라미터를 사용하여 재구성되는 통상적인 프로시저에서 벗어나며, 대신에 한편으로는 타깃 대역으로부터 계산된 보상 파라미터 그리고 다른 한편으로는 제1 분석 결과와 제2 분석 결과 모두에 의존하는 보상 값을 야기한다.
보상된 파라미터는 우선 비-보상 파라미터를 계산함으로써 계산될 수 있고, 그 다음에 이 비-보상 파라미터는 보상 값과 결합되어 보상된 파라미터를 얻을 수 있거나, 중간 결과로서 보상되지 않은 파라미터 없이 보상된 파라미터가 한 번에 계산될 수 있다. 그 다음, 보상된 파라미터가 인코더로부터 디코더로 송신될 수 있고, 그 다음에 디코더는 스펙트럼 대역 복제 또는 지능형 갭 채움과 같은 특정 대역폭 향상 기술 또는 보상된 파라미터 값을 사용하는 임의의 다른 프로시저를 적용한다. 따라서 파라미터가 원하는 스펙트럼 대역 향상 결과를 야기하는지 여부에 관계없이 특정 파라미터 계산 알고리즘에 대한 강한 순응은 파라미터 계산 외에도, 소스 대역 및 타깃 대역에서의 신호 분석, 및 소스 대역으로부터의 결과 및 타깃 대역으로부터의 결과, 즉 각각 제1 스펙트럼 대역 및 제2 스펙트럼 대역으로부터의 결과에 기초한 보상 값의 후속 계산을 수행함으로써 유연하게 극복된다.
바람직하게는, 분석기 및/또는 보상기가 심리 음향 불일치를 결정하는 일종의 심리 음향 모델을 적용한다. 그러므로 일 실시예에서, 보상 값의 계산은 음색과 같은 특정 신호 파라미터들의 심리 음향 불일치의 검출에 기초하고, 보상 전략이 적용되어 스펙트럼 대역 이득 계수들과 같은 다른 신호 파라미터들의 수정을 통해 전체적인 지각적 어노이언스(perceptual annoyance)를 최소화한다. 따라서 서로 다른 타입들의 아티팩트들을 절충함으로써, 지각적으로 균형이 잘 잡힌 결과가 얻어진다.
"어떠한 비용으로든 음색을 바로잡으려고 하는 "종래 기술의 접근 방식들과는 달리, 실시예들은 음색 불일치가 검출되는 스펙트럼의 문제가 있는 부분들의 감쇠(damping)의 적용을 통해 아티팩트들을 상당히 바로잡도록 교시함으로써, 스펙트럼 에너지 포락선 불일치를 음색 불일치에 대해 절충한다.
여러 신호 파라미터들의 입력시, 지각적 어노이언스 모델을 포함하는 보상 전략은 단순한 신호 파라미터 적합성이 아닌 최상의 지각 적합성을 얻기 위한 전략을 결정할 수 있다.
이 전략은 잠재적 아티팩트들의 지각적 중요성을 평가하고 전반적인 손상을 최소화할 파라미터 조합을 선택하는 것으로 구성된다.
이 접근 방식은 주로 MDCT와 같은 변환을 기반으로 하는 BWE 내에서 적용되는 것으로 의도된다. 그럼에도, 본 발명의 교시들은 일반적으로 예컨대, 직교 미러 필터 뱅크(QMF: Quadrature Mirror Filter bank) 기반 시스템 내에서 유사하게 적용 가능하다.
이 기술이 적용될 수 있는 가능한 한 가지 시나리오는 지능형 갭 채움(IGF)과 관련하여 잡음 대역들의 검출 및 후속 감쇠이다.
실시예들은 그 발생을 검출하고 대응하는 스케일링 인자를 감쇠시킴으로써 그 효과를 감소시키는 것을 통해 가능한 음색 불일치를 처리한다. 이것은 한편으로 원래의 스펙트럼 에너지 포락선으로부터의 편향으로 이어질 수 있지만, 다른 한편으로는 지각 품질의 전체적인 증가에 기여하는 HF 잡음의 감소로 이어질 수 있다.
따라서 실시예들은 특히, 예를 들어 소스 또는 제1 스펙트럼 대역과 타깃 또는 제2 스펙트럼 대역 사이의 스펙트럼 미세 구조의 불일치가 존재하는 경우들에, 지각적 어노이언스 모델에 의해 통상적으로 조종되는 새로운 파라메트릭 보상 기술을 통해 지각 품질을 향상시킨다.
이어서, 바람직한 실시예들이 첨부 도면들과 관련하여 설명된다.
도 1은 일 실시예에 따른 오디오 신호를 인코딩하기 위한 장치의 블록도를 예시한다.
도 2는 인코딩하기 위한 장치의 블록도를 보상 검출기에 초점을 맞추어 예시한다.
도 3a는 소스 범위 및 IGF 또는 대역폭 확장 범위를 갖는 오디오 스펙트럼 및 소스 대역과 목적지 대역 간의 연관된 매핑의 개략적 표현을 예시한다.
도 3b는 코어 인코더가 IGF 기술을 적용하고 제2 스펙트럼 대역에 생존 라인들이 존재하는 오디오 신호의 스펙트럼을 예시한다.
도 3c는 제1 분석 결과의 계산을 위해 사용될 제1 스펙트럼 대역의 시뮬레이션된 제1 오디오 데이터의 표현을 예시한다.
도 4는 보상기의 보다 상세한 표현을 예시한다.
도 5는 파라미터 계산기의 보다 상세한 표현을 예시한다.
도 6은 일 실시예의 보상 검출기 기능을 예시하기 위한 흐름도를 예시한다.
도 7은 비-보상 이득 계수를 계산하기 위한 파라미터 계산기의 기능을 예시한다.
도 8a는 인코딩되고 디코딩된 제1 스펙트럼 대역으로부터 제1 분석 결과를 계산하기 위한 코어 디코더를 갖는 인코더 구현을 예시한다.
도 8b는 제1 분석 결과를 얻도록 제2 스펙트럼 대역으로부터 시프트된 제1 스펙트럼 대역폭 라인을 생성하여 위해 패치 시뮬레이터가 적용되는 실시예에서의 인코더의 블록도를 예시한다.
도 9는 지능형 갭 채움 구현에서의 음색 불일치의 영향을 예시한다.
도 10은 일 실시예에서, 파라메트릭 인코더의 구현을 예시한다.
도 11a - 도 11c는 보상된 파라미터 값들을 사용하여 오디오 데이터를 인코딩하는 것으로부터 얻어진 청취 테스트 결과들을 예시한다.
도 1은 본 발명의 일 실시예에서 오디오 신호(100)를 인코딩하기 위한 장치를 예시한다. 이 장치는 코어 인코더(110) 및 파라메트릭 코더(120)를 포함한다. 게다가, 코어 인코더(110) 및 파라메트릭 코더(120)는 이들의 입력 측에서 스펙트럼 분석기(130)에 접속되고, 이들이 출력 측에서 출력 인터페이스(140)에 접속된다. 출력 인터페이스(140)는 인코딩된 오디오 신호(150)를 발생시킨다. 출력 인터페이스(140)는 한편으로는 인코딩된 코어 신호(160) 그리고 제2 스펙트럼 대역에 대한 적어도 파라미터 그리고 통상적으로는 입력 라인(170)에서의 제2 스펙트럼 대역에 대한 파라미터를 포함하는 전체 파라미터 표현을 수신한다. 게다가, 스펙트럼 분석기(130)는 오디오 신호(100)를 제1 스펙트럼 대역(180) 및 제2 스펙트럼 대역(190)으로 분리한다. 특히, 파라미터 계산기는 제1 분석 결과(122)를 얻도록 제1 스펙트럼 대역(180)의 제1 오디오 데이터를 분석하기 위한 그리고 제2 분석 결과(123)를 얻기 위해 제2 스펙트럼 대역(190)의 제2 오디오 데이터를 분석하기 위한, 도 1의 신호 분석기로서 예시된 분석기(121)를 포함한다. 제1 분석 결과(122)와 제2 분석 결과(123) 모두가 보상 값(125)을 계산하기 위한 보상기(124)에 제공된다. 따라서 보상기(124)는 보상 값을 계산하기 위해 제1 분석 결과(122) 및 제2 분석 결과(123)를 사용하도록 구성된다. 그 다음, 한편으로는 보상 값(125) 그리고 제2 스펙트럼 대역(190)으로부터의 적어도 제2 오디오 데이터(제1 스펙트럼 대역으로부터의 제1 스펙트럼 데이터가 역시 사용될 수 있음)가 모두, 보상 값(125)을 사용하여 제2 스펙트럼 대역의 제2 오디오 데이터로부터 파라미터(170)를 계산하기 위한 파라미터 계산기(126)에 제공된다.
도 1의 스펙트럼 분석기(130)는 예를 들어, 개개의 스펙트럼 대역들 또는 MDCT 라인들을 얻기 위한 간단한 시간/주파수 변환기일 수 있다. 따라서 이 구현에서, 스펙트럼 분석기(130)는 스펙트럼 데이터를 얻도록, 수정된 이산 코사인 변환(MDCT: modified discrete cosine transform)을 구현한다. 그 다음, 이 스펙트럼 데이터는 한편으로는 코어 인코더(110)에 대한 데이터 그리고 다른 한편으로는 파라메트릭 코더(120)에 대한 데이터를 분리하기 위해 추가로 분석된다. 코어 인코더(110)에 대한 데이터는 적어도 제1 스펙트럼 대역을 포함한다. 게다가, 코어 데이터는 코어 인코더가 하나보다 많은 소스 대역을 인코딩할 때 추가 소스 데이터를 더 포함할 수 있다.
따라서 코어 인코더는 스펙트럼 대역 복제 기술들의 경우에 크로스오버 주파수 이하의 전체 대역폭을 코어 인코딩될 입력 데이터로서 수신할 수 있는 한편, 파라메트릭 코더는 다음에, 이 크로스오버 주파수 이상의 모든 오디오 데이터를 수신한다.
그러나 지능형 갭 채움 프레임워크의 경우에, 코어 인코더(110)는 스펙트럼 분석기(130)에 의해 또한 분석되는 IGF 시작 주파수 이상의 스펙트럼 라인들을 추가로 수신할 수 있어, 스펙트럼 분석기(130)가 IGF 시작 주파수 훨씬 위에서 데이터를 추가로 결정하며, 여기서 IGF 시작 주파수 이상의 이 데이터는 코어 인코더에 의해 추가로 인코딩된다. 이를 위해, 스펙트럼 분석기(130)는 또한 예를 들어, 3GPP TS 26.445 V13.0.0(12)에 개시된 섹션 5.3.3.2.11.5 "IGF 음색 마스크"에서 또한 논의되는 "음색 마스크"로서 구현될 수 있다. 따라서 어떤 스펙트럼 성분이 코어 인코더로 송신되어야 하는지를 결정하기 위해, 스펙트럼 분석기(130)에 의해 음색 마스크가 계산된다. 따라서 중요한 모든 스펙트럼 콘텐츠가 식별되는 반면, IGF를 통한 파라메트릭 코딩에 잘 맞는 콘텐츠는 음색 마스크에 의해 0으로 양자화된다. 그럼에도, 스펙트럼 분석기(130)는 파라메트릭 코딩에 잘 맞는 스펙트럼 콘텐츠를 파라메트릭 코더(120)에 전달하며, 이 데이터는 예를 들어, 음색 마스크 처리에 의해 0으로 설정된 데이터일 수 있다.
도 2에 예시된 실시예에서, 파라메트릭 코더(120)는 제3 스펙트럼 대역에 대한 추가 파라미터(200)를 얻기 위해 이 제3 스펙트럼 대역의 제3 오디오 데이터를 파라미터에 의해 코딩하도록 추가로 구성된다. 이 경우, 분석기(121)는 제1 분석 결과(122) 및 제2 분석 결과(123) 외에도, 제3 분석 결과(204)를 얻기 위해 제3 스펙트럼 대역(202)의 제3 오디오 데이터를 분석하도록 구성된다.
게다가, 도 1로부터의 파라메트릭 코더(120)는 적어도 제3 분석 결과(204)를 사용하여, 제3 스펙트럼 대역이 보상될지 여부를 검출하기 위한 보상 검출기(210)를 추가로 포함한다. 이 검출의 결과는 제3 스펙트럼 대역에 대한 보상 상황을 지시하는 또는 지시하지 않는 제어 라인(212)에 의해 출력된다. 파라미터 계산기(126)는 보상 검출기가 제어 라인(212)에 의해 제공되는 것과 같이 제3 스펙트럼 대역이 보상되지 않을 것임을 검출할 때, 어떠한 보상 값도 없이 제3 스펙트럼 대역에 대한 추가 파라미터(200)를 계산하도록 구성된다. 그러나 보상 검출기가 제3 스펙트럼 대역이 보상되어야 한다고 검출한다면, 파라미터 계산기는 제3 분석 결과(200)로부터 보상기(124)에 의해 계산된 추가 보상 값으로 제3 스펙트럼 대역에 대한 추가 파라미터(200)를 계산하도록 구성된다.
바람직한 실시예에서, 정량적 보상이 적용되는 경우, 분석기(121)는 제1 분석 결과로서 제1 정량 값(122)을 그리고 제2 분석 결과로서 제2 정량 값(123)을 계산하도록 구성된다. 그 다음, 보상기(124)는 제1 정량 값으로부터 그리고 제2 정량 값으로부터 정량적 보상 값(125)을 계산하도록 구성된다. 마지막으로, 파라미터 계산기는 정량적 보상 값을 사용하여 정량적 파라미터를 계산하도록 구성된다.
그러나 본 발명은 정성 분석 결과들만이 얻어지는 경우에도 또한 적용 가능하다. 이 상황에서, 정성적 보상 값이 계산되는데, 이는 다음에, 특정한 비-보상 파라미터를 어느 정도 낮추거나 높이도록 파라미터 계산기를 제어한다. 따라서 두 분석 결과들이 함께 파라미터의 어떤 증가 또는 감소를 야기할 수 있으며, 어떤 증가 또는 감소는 고정되어 있고, 따라서 어떠한 정량적 결과에도 좌우되지 않는다. 그러나 후자의 계산들이 덜 계산 집약적이라 하더라도, 정량적 결과들이 고정된 증가/감소 증분들보다 선호된다.
바람직하게는, 분석기(121)는 제1 분석 결과를 얻도록 오디오 데이터의 제1 특징을 분석하고, 제2 분석 결과를 얻도록 제2 스펙트럼 대역의 제2 오디오 데이터의 동일한 제1 특징을 추가로 분석한다. 이와 달리, 파라미터 계산기는 제2 특징을 평가함으로써 제2 스펙트럼 대역의 제2 오디오 데이터로부터 파라미터를 계산하도록 구성되며, 여기서 이 제2 특징은 제1 특징과는 다르다.
예시적으로, 도 2는 제1 특징이 스펙트럼 미세 구조 또는 제1, 제2 또는 임의의 다른 대역과 같은 특정 대역 내의 에너지 분포인 상황을 예시한다. 이와 달리, 파라미터 계산기에 의해 적용되는 또는 파라미터 계산기에 의해 결정되는 제2 특징은 스펙트럼 포락선 측정치, 에너지 측정치 또는 전력 측정치, 또는 예를 들어, 이득 계수와 같은 대역에서의 전력/에너지의 절대적 또는 상대적 측정치를 제공하는, 일반적으로 진폭 관련 측정치이다. 그러나 이득 계수 특징과는 다른 특징을 측정하는 다른 파라미터들도 역시 파라미터 계산기에 의해 계산될 수 있다. 게다가, 한편으로는 개개의 소스 대역 그리고 다른 한편으로는 목적지 대역, 즉 각각 제1 스펙트럼 대역 및 제2 스펙트럼 대역에 대한 다른 특징들이 분석기(121)에 의해 적용되고 분석될 수 있다.
게다가, 분석기(121)는 제2 스펙트럼 대역(190)의 제2 오디오 데이터를 사용하지 않고 제1 분석 결과(122)를 계산하도록, 그리고 제1 스펙트럼 대역(180)의 제1 오디오 데이터를 사용하지 않고 제2 분석 결과(123)를 추가로 계산하도록 구성되며, 이 실시예에서, 제1 스펙트럼 대역과 제2 스펙트럼 대역은 서로에 대해 상호 배타적인데, 즉 서로 중첩하지 않는다.
게다가, 스펙트럼 분석기(130)는 오디오 신호의 프레임들을 구축하도록 또는 오디오 샘플들의 착신 스트림을 윈도우 처리(window)하여 오디오 샘플들의 프레임들을 얻도록 추가로 구성되며, 여기서 이웃하는 프레임들의 오디오 샘플들은 서로 중첩하고 있다. 예를 들어, 50% 중첩의 경우, 더 이전 프레임의 제2 부분은 후속 프레임의 전반부에 포함된 동일한 원본 오디오 샘플들로부터 도출된 오디오 샘플들을 가지며, 여기서 프레임 내의 오디오 샘플들은 윈도우 처리에 의해 원본 오디오 샘플들로부터 도출된다.
이 경우에, 오디오 신호가 예를 들어, 프레임 빌더 기능을 추가로 갖는 도 1의 블록(130)에 의해 추가로 제공되는 바와 같은 프레임들의 시간 시퀀스를 포함할 때, 보상기(124)는 이전 프레임에 대한 이전 보상 프레임 값을 사용하여 현재 프레임에 대한 현재 보상 값을 계산하도록 구성된다. 이것은 통상적으로 일종의 평활화 동작을 야기한다.
나중에 개요가 서술되는 바와 같이, 도 2에 예시된 보상 검출기(210)는 추가로 또는 대안으로 도 2의 다른 특징들로부터, 각각 221, 223에 예시된 전력 스펙트럼 입력 및 과도 입력을 포함할 수 있다.
특히, 보상 검출기(210)는 도 1의 원래의 오디오 신호(100)의 전력 스펙트럼이 이용 가능할 때, 파라미터 계산기(126)에 의해 사용될 보상만을 지시하도록 구성된다. 이 사실, 즉 전력 스펙트럼이 이용 가능한지 여부는 특정 데이터 엘리먼트 또는 플래그에 의해 시그널링된다.
게다가, 보상 검출기(210)는 과도 정보 라인(223)이 현재 프레임에 대해 과도 현상이 존재하지 않음을 시그널링할 때, 제어 라인(212)을 통한 보상 동작만을 허용하도록 구성된다. 따라서 라인(223)이 과도 현상이 존재한다고 시그널링하면, 임의의 분석 결과들과 무관하게 전체 보상 동작이 불가능해진다. 이는 물론, 제2 스펙트럼 대역에 대해 보상이 시그널링되었을 때 제3 스펙트럼 대역에 적용된다. 그러나 이것은 또한 특정 프레임에 대해, 과도 상황과 같은 상황이 검출될 때, 이 프레임에서 제2 스펙트럼 대역에 적용된다. 그런 다음, 특정 시간 프레임에 대해 어떠한 파라미터 보상도 전혀 일어나지 않는 상황이 발생할 수 있으며 발생할 것이다.
도 3a는 진폭들 A(f) 또는 제곱 진폭들 A2(f)의 스펙트럼의 표현을 예시한다. 특히, XOVER 또는 IGF 시작 주파수가 예시된다.
게다가, 한 세트의 중첩하는 소스 대역들이 예시되는데, 여기서 소스 대역들은 제1 스펙트럼 대역(180), 추가 소스 대역(302) 및 더 추가 소스 대역(303)을 포함한다. 추가로, IGF 또는 XOVER 주파수보다 높은 목적지 대역들은 예를 들어, 제2 스펙트럼 대역(190), 추가 목적지 대역(305), 더 추가 목적지 대역(307) 및 제3 스펙트럼 대역(202)이다.
통상적으로, IGF 또는 대역폭 확장 프레임워크 내의 매핑 기능들은 개개의 소스 대역들(180, 302, 303)과 개개의 목적지 대역들(305, 190, 307, 202) 사이의 매핑을 정의한다. 이러한 매핑은 3GPP TS 26.445의 경우와 같이 고정될 수도 있고, 또는 특정 IGF 인코더 알고리즘에 의해 적응적으로 결정될 수도 있다. 어떤 경우든, 도 3a는 아래 표에서, 중첩하지 않는 목적지 대역들 및 중첩하는 소스 대역들의 경우에 대한 목적지 대역과 소스 대역 사이의 매핑을, 이 매핑이 고정되어 있는지 또는 적응적으로 결정되는지 그리고 특정 프레임에 대해 실제로 적응적으로 결정되었는지에 관계없이 예시하며, 스펙트럼은 도 3a의 상부에 예시된다.
도 4는 보상기(124)의 보다 상세한 구현을 예시한다. 보상기(124)는 이 구현에서, 스펙트럼 평탄도 측정치, 파고율(crest factor), 스펙트럼 기울기 값 또는 제1 스펙트럼 대역에 대한 임의의 다른 종류의 파라메트릭 데이터일 수 있는 제1 분석 결과(122) 외에도, 제2 스펙트럼 대역에 대한 분석 결과(123)를 수신한다. 이러한 분석 결과는 또 다시, 제2 스펙트럼 대역에 대한 스펙트럼 평탄도 측정치, 제2 스펙트럼 대역에 대한 파고율 또는 기울기 값, 즉 제2 스펙트럼 대역으로 제한된 스펙트럼 기울기 값일 수 있지만, 제1 스펙트럼 대역에 대한 기울기 값 또는 스펙트럼 기울기 값은 또한 제1 스펙트럼 대역에 대해서도 제한된다. 추가로, 보상기(124)는 제2 스펙트럼 대역의 정지 라인과 같은 제2 스펙트럼 대역에 대한 스펙트럼 정보를 수신한다. 따라서 도 2의 파라메트릭 계산기(126)가 제3 스펙트럼 대역(202)의 제3 오디오 데이터를 파라미터에 의해 코딩하도록 구성된 상황에서, 제3 스펙트럼 대역은 제2 스펙트럼 대역보다 더 높은 주파수들을 포함한다. 이것은 도 3a의 예에서 또한 예시되며, 여기서 제3 스펙트럼 대역은 제2 스펙트럼 대역보다 더 높은 주파수들에 있는데, 즉 대역(202)이 대역(190)보다 더 높은 주파수들을 갖는다. 이 상황에서, 보상기(124)는 제3 스펙트럼 대역에 대한 보상 값을 계산할 때 가중치를 사용하도록 구성되며, 이 제3 가중치는 제2 스펙트럼 대역에 대한 보상 값을 계산하는 데 사용되는 가중치와는 다르다. 따라서 일반적으로, 보상기(124)는 보상 값(125)의 계산에 영향을 미치므로 동일한 다른 입력 값들에 대해, 보상 값은 더 높은 주파수들에 대해 더 작다.
가중치는 예를 들어, 나중에 설명되는 바와 같이, 지수(α)와 같은 제1 분석 결과 및 제2 분석 결과에 기초한 보상 값의 계산에 적용되는 지수일 수 있고, 또는 예를 들어, 곱셈 값 또는 심지어 가산 또는 감산될 값일 수 있어, 더 낮은 주파수들에 대해 파라미터가 계산될 때의 영향에 비해 더 높은 주파수들에 대해 다른 영향이 얻어진다.
추가로, 도 4에 예시된 바와 같이, 보상기는 제2 스펙트럼 대역에서의 제2 오디오 데이터의 음색대 잡음비에 의존하는 보상 값을 계산하기 위해 제2 스펙트럼 대역에 대한 음색대 잡음비를 수신한다. 따라서 제1 음색대 잡음비에 대해 제1 보상 값이 얻어지거나 제2 음색대 잡음비에 대해 제2 보상 값이 얻어지고, 여기서 제1 음색대 잡음비가 제2 음색대 잡음비보다 더 클 때 제1 보상 값이 제2 보상 값보다 더 크다.
언급한 바와 같이, 보상기(124)는 심리 음향 모델을 적용함으로써 보상 값을 일반적으로 결정하도록 구성되며, 여기서 심리 음향 모델은 보상 값을 얻기 위해 제1 분석 결과를 사용하여 제1 오디오 데이터와 제2 오디오 데이터 사이의 심리 음향 불일치를 평가하도록 구성된다. 심리 음향 불일치를 평가하는 이 심리 음향 모델은 다음의 SFM 계산들과 관련하여 나중에 논의되는 바와 같이 피드포워드(feedforward) 계산으로서 구현될 수 있거나, 대안으로 합성 프로시저에 의한 일종의 분석을 적용하는 피드백 계산 모듈일 수 있다. 게다가, 심리 음향 모델은 어떤 경우에 보상이 필요한지 그리고 어떤 경우에 보상이 필요하지 않은지를 결정하기 위해 특정 훈련 데이터에 의해 자동으로 훈련되는 신경망 또는 유사한 구조로서 또한 구현될 수 있다.
이어서, 도 2에 예시된 보상 검출기(210) 또는 일반적으로 파라미터 계산기(126)에 포함된 검출기의 기능이 예시된다.
보상 검출기 기능은 예를 들어, 도 6의 600 및 602에 예시된 바와 같이, 제1 분석 결과와 제2 분석 결과 사이의 차이가 미리 결정된 특징을 가질 때 보상 상황을 검출하도록 구성된다. 블록(600)은 제1 분석 결과와 제2 분석 결과 간의 차이를 계산하도록 구성되고, 그 다음에 블록(602)은 그 차이가 미리 결정된 특징 또는 미리 결정된 값을 갖는지 여부를 결정한다. 미리 결정된 특징이 거기에 없다고 결정된다면, 603에 예시된 바와 같이 어떠한 보상도 수행되지 않을 것으로 블록(602)에 의해 결정된다. 그러나 미리 결정된 특징이 존재한다고 결정된다면, 제어는 라인(604)을 통해 진행한다. 게다가, 검출기는 제2 분석 결과가 특정한 미리 결정된 값 또는 특정한 미리 결정된 특징을 갖는지 여부를 대안으로 또는 추가로 결정하도록 구성된다. 특징이 존재하지 않는다고 결정된다면, 라인(605)은 어떠한 보상도 수행되지 않을 것이라고 시그널링한다. 그러나 미리 결정된 값이 거기에 존재한다고 결정된다면, 제어는 라인(606)을 통해 진행한다. 실시예들에서, 라인들(604, 606)은 보상이 존재하는지 여부를 결정하기에 충분할 수 있다. 그러나 도 6에 예시된 실시예에서, 도 1의 제2 스펙트럼 대역(190)에 대한 제2 오디오 데이터의 스펙트럼 기울기에 기초한 추가 결정들은 나중에 설명되는 바와 같이 수행된다.
일 실시예에서, 분석기는 제1 분석 결과로서 제1 스펙트럼 대역에 대한 스펙트럼 평탄도 측정치, 파고율 또는 스펙트럼 평탄도 측정치와 파고율의 지수를 계산하도록, 그리고 제2 분석 결과로서 제2 오디오 데이터의 스펙트럼 평탄도 측정치 또는 파고율 또는 스펙트럼 평탄도 측정치와 파고율의 지수를 계산하도록 구성된다.
이러한 실시예에서, 파라미터 계산기(126)는 제2 오디오 데이터로부터 스펙트럼 포락선 정보 또는 이득 계수를 계산하도록 추가로 구성된다.
게다가, 이러한 실시예에서, 보상기(124)는, 제1 분석 결과와 제2 분석 결과 사이의 제1 차이에 대해, 제1 보상 값이 얻어지고, 제1 분석 결과와 제2 분석 결과 사이의 제2 차이에 대해 제2 보상 값이 계산되게 보상 값(125)을 계산하도록 구성되며, 여기서 제1 보상 값이 제2 보상 값보다 더 클 때 제1 차이는 제2 차이보다 더 크다.
다음에서, 도 6의 설명은 보상 상황이 검출되어야 하는지 여부에 대한 선택적인 추가 결정을 예시함으로써 계속될 것이다.
블록(608)에서, 제2 오디오 데이터로부터 스펙트럼 기울기가 계산된다. 이 스펙트럼 기울기가 610에 예시된 바와 같이 임계치 미만이라고 결정되면, 612에 예시된 바와 같이 보상 상황은 긍정적으로 확인된다. 그러나 스펙트럼 기울기가 미리 결정된 임계치 미만이 아니라 임계치보다 크다고 결정되면, 이 상황은 라인(614)에 의해 시그널링된다. 블록(616)에서, 음색 성분이 제2 스펙트럼 대역(190)의 경계에 가까운지 여부가 결정된다. 항목(618)으로 예시된 바와 같이 경계에 가까운 음색 성분이 있다고 결정되면, 보상 상황은 다시 한번 긍정적으로 확인된다. 그러나 경계에 가까운 음색 성분이 존재하지 않는다고 결정되면, 어떠한 보상도 취소되는데, 즉 라인(620)으로 예시된 바와 같이 오프 전환된다. 블록(616)에서의 결정, 즉 음색 성분이 경계에 가까운지 여부의 결정은 임의의 실시예에서, 시프트된 SFM 계산을 수행함으로써 이루어진다. 블록(608)에 의해 결정된 바와 같이 기울기에서 강한 감소가 있으면, SFM이 계산되는 주파수 영역은 대응하는 스케일 계수 대역(SFB: scale factor band) 또는 제2 스펙트럼 대역의 폭의 절반만큼 시프트 다운될 것이다. 강한 경사에 대해, SFM이 계산되는 주파수 영역은 제2 스펙트럼 대역의 폭의 절반만큼 시프트 업된다. 이런 식으로, 감쇠될 것으로 추정되는 음색 성분들은 낮은 SFM으로 인해 여전히 정확하게 검출될 수 있지만, 더 높은 SFM 값들의 경우에는 감쇠가 적용되지 않을 것이다.
다음에, 도 5가 보다 상세히 논의된다. 특히, 파라미터 계산기(126)는 제2 스펙트럼 대역, 즉 목적지 대역에 대한 오디오 데이터로부터 비-보상 파라미터를 계산하기 위한 계산기(501)를 포함할 수 있으며, 파라미터 계산기(126)는 비-보상 파라미터(502) 및 보상 값(125)을 결합하기 위한 결합기(503)를 추가로 포함한다. 비-보상 파라미터(502)가 이득 값이고 보상 값(125)이 정량적 보상 값일 때, 이 결합은 예를 들어, 곱셈일 수 있다. 그러나 결합기(503)에 의해 수행되는 결합은 또한, 보상 값을 지수로서 사용하는 가중 연산 또는 보상 값이 가산 또는 감산 값으로서 사용되는 가산 수정일 수 있다.
게다가, 비-보상 파라미터가 계산되고 그 다음에 결합 값과의 후속 결합이 수행되는 도 5에 예시된 실시예는 단지 일 실시예에 불과할 뿐이라는 점이 주목되어야 한다. 대안적인 실시예들에서, 보상 값은 보상된 파라미터에 대한 계산에 이미 도입되었을 수 있으므로 명시적인 비-보상 파라미터를 갖는 어떠한 중간 결과도 발생하지 않는다. 대신에, 단일 동작만이 수행되는데, 여기서는 이 "단일 동작"의 결과로서, 보상 값을 사용하여 그리고 보상 값(125)이 이러한 계산에 도입되지 않을 때, 비-보상 파라미터를 야기할 계산 알고리즘을 사용하여 보상된 파라미터가 계산된다.
도 7은 비-보상 파라미터를 계산하기 위해 계산기(501)에 의해 적용되는 프로시저를 예시한다. 도 7의 "IGF 스케일 계수 계산"의 표현은 대략 3gpp TS 26.445 V13.3.3 (2015/12)의 섹션 5.3.3.2.11.4에 대응한다. "복소" TCX 전력 스펙트럼(P)(스펙트럼 라인들의 실수부들 및 허수부들이 평가되는 스펙트럼)이 이용 가능한 경우, 도 5의 비-보상 파라미터를 계산하기 위한 계산기(501)는 700에 예시된 바와 같이 전력 스펙트럼(P)으로부터 제2 스펙트럼 대역에 대한 진폭 관련 측정치의 계산을 수행한다. 게다가, 계산기(501)는 702에 예시된 바와 같이 복소 스펙트럼(P)으로부터 제1 스펙트럼 대역에 대한 진폭 관련 측정치의 계산을 수행한다. 추가로, 계산기(501)는 704에 예시된 바와 같이 제1 스펙트럼 대역, 즉 소스 대역의 실수부로부터 진폭 관련 측정치의 계산을 수행하여, 3개의 진폭 관련 측정치들(Ecplx, target, Ecplx, source, Ereal, source)이 얻어지고 추가 이득 계수 계산 기능(706)에 입력되어 최종적으로 Ereal, source와 Ecplx, source 간의 지수에 Ecplx, target을 곱한 함수인 이득 계수를 얻는다.
대안으로, 복소 TCX 전력 스펙트럼이 이용 가능하지 않을 때, 진폭 관련 측정치는 도 7의 하부에 예시된 바와 같이 실수 제2 스펙트럼 대역으로부터만 계산된다.
게다가, TCX 전력 스펙트럼(P)은 예를 들어, 다음의 식에 기초하여 하위 조항 5.3.3.2.11.1.2에 예시된 바와 같이 계산된다는 점이 주목되어야 한다:
P(sb)=R2(sb) +I2(sb), sb=0,1,2,…, n-1.
여기서 n은 실제 TCX 윈도우 길이고, R은 현재 TCX 스펙트럼의 실수 값 부분(cos 변환)을 포함하는 벡터이며, I는 현재 TCX 스펙트럼의 허수(sin 변환) 부분을 포함하는 벡터이다. 특히, "TCX"라는 용어는 3gpp 용어와 관련이 있지만, 스펙트럼 분석기(130)에 의해 도 1의 코어 인코더(110) 또는 파라메트릭 코더(120)에 제공되는 제1 스펙트럼 대역 또는 제2 스펙트럼 대역의 스펙트럼 값들을 일반적으로 언급한다.
도 8a는 신호 분석기(121)가 인코딩되고 다시 디코딩된 제1 스펙트럼 대역을 계산하기 위한 그리고 자연스럽게, 인코딩/디코딩된 제1 스펙트럼 대역에서 오디오 데이터를 계산하기 위한 코어 디코더(800)를 더 포함하는 바람직한 실시예를 예시한다.
그러면, 코어 디코더(800)는 신호 분석기(821)에 포함된 분석 결과 계산기(801)로 인코딩된/디코딩된 제1 스펙트럼 대역을 공급하여 제1 분석 결과(122)를 계산한다. 게다가, 신호 분석기는 계산된 제2 분석 결과(123)를 계산하기 위해 도 1의 신호 분석기(121)에 포함된 제2 분석 결과 계산기(802)를 포함한다. 따라서 신호 분석기(121)는 원래의 제2 스펙트럼 대역으로부터 제2 분석 결과가 계산되는 한편, 인코딩되고 다시 디코딩된 제1 스펙트럼 대역을 사용하여 실제 제1 분석 결과(122)가 계산되는 식으로 구성된다. 따라서 분석 결과 계산기(801)로의 입력은 이미, 디코더에서 이용 가능한 제1 스펙트럼 대역에 대한 디코딩된 제1 오디오 데이터에 포함된 모든 양자화 에러들을 갖기 때문에, 디코더 측에서의 상황은 인코더 측에서 더 잘 시뮬레이션된다.
도 8b는 도 8a의 프로시저에 대한 대안으로 또는 도 8a의 프로시저에 대한 추가로 패치 시뮬레이터(804)를 갖는 신호 분석기의 바람직한 추가 구현을 예시한다. 패치 시뮬레이터(804)는 IGF 인코더의 기능, 즉 코어 인코더에 의해 실제로 인코딩되는 제2 목적지 대역 내에 라인들 또는 적어도 하나의 라인이 있을 수 있음을 구체적으로 인지한다.
특히, 이러한 상황이 도 3b에 예시된다.
도 3b는 도 3a와 유사하게 상부에 제1 스펙트럼 대역(180) 및 제2 스펙트럼 대역(190)을 예시한다. 그러나 도 3a에서 논의된 것 외에도, 제2 스펙트럼 대역은 제1 스펙트럼 대역(180)에 추가하여, 코어 인코더(110)에 의해 추가로 인코딩된 라인들로서 스펙트럼 분석기(130)에 의해 결정된 제2 스펙트럼 대역 내에 포함된 특정 라인들(351, 352)을 포함한다.
IGF 시작 주파수(310) 위의 특정 라인들의 이러한 특정 코딩은, 코어 인코더(110)가 IGF 시작 주파수보다 더 높은 fmax(354)까지의 나이퀴스트 주파수를 갖는 전체 대역 인코더인 상황을 반영한다. 이것은 크로스오버 주파수가 또한 최대 주파수이고 따라서 코어 인코더(110)의 나이퀴스트 주파수이기도 한 SBR 기술 관련 구현들과는 대조적이다.
테스트 시뮬레이터(804)가 제1 스펙트럼 대역(180) 또는 코어 디코더(800)로부터의 디코딩된 제1 스펙트럼 대역을 수신하고, 추가로 스펙트럼 분석기(130), 또는 코어 인코더 출력 신호에 포함되는 제2 스펙트럼 대역에 실제로 라인들이 있는 코어 인코더(110)로부터의 정보를 수신한다. 이것은 라인(806)을 통해 스펙트럼 분석기(130)에 의해 시그널링되거나 라인(808)을 통해 코어 인코더에 의해 시그널링된다. 패치 시뮬레이터(804)는 이제 4개의 스펙트럼 대역들에 대한 직송 제1 오디오 데이터를 사용함으로써 그리고 제2 스펙트럼 대역으로부터의 라인들(351, 352)을 제1 스펙트럼 대역으로 시프트함으로써 이러한 라인들을 제1 스펙트럼 대역에 삽입함으로써 제1 스펙트럼 대역에 대한 제1 오디오 데이터를 시뮬레이션한다. 따라서 라인들(351', 352')은 도 3b의 라인들(351, 352)을 제2 스펙트럼 대역으로부터 제1 스펙트럼 대역으로 시프트함으로써 얻어진 스펙트럼 라인들을 나타낸다. 바람직하게는, 스펙트럼 라인들(351, 352)은 제1 스펙트럼 대역에 대해, 대역 경계들 내의 이러한 라인들의 위치가 양 대역들에서 동일하도록, 즉 라인과 대역 경계 사이의 차 주파수가 제2 스펙트럼 대역(190) 및 제1 스펙트럼 대역(180)에 동일하도록 생성된다.
따라서 패치 시뮬레이터는 직송 제1 스펙트럼 대역 데이터를 갖는 그리고 추가로, 제2 스펙트럼 대역으로부터 제1 스펙트럼 대역으로 시프트된 라인들을 갖는 도 3c에 예시된 시뮬레이션된 데이터(808)를 출력한다. 이제, 분석 결과 계산기(801)는 특정 데이터(808)를 사용하여 제1 분석 결과(122)를 계산하는 한편, 분석 결과 계산기(802)는 제2 스펙트럼 대역의 원래의 제2 오디오 데이터, 즉 도 3b에 예시된 라인들(351, 352)을 포함하는 원래의 오디오 데이터로부터 제2 분석 결과(123)를 계산한다.
패치 시뮬레이터(804)에 의한 이 프로시저는 고 음색 또는 그 밖의 다른 것과 같은 추가 라인들(351, 352) 상에 특정 조건들을 넣을 필요가 없다는 이점을 갖는다. 그 대신에, 제2 스펙트럼 대역의 특정 라인들이 코어 인코더에 의해 인코딩될지 여부를 결정하는 것은 스펙트럼 분석기(130) 또는 코어 인코더(110)에 전적으로 달려있다. 그러나 이 동작의 결과는 도 8b에 예시된 바와 같이, 제1 분석 결과(122)의 계산을 위한 추가 입력으로서 이러한 라인들을 사용함으로써 자동으로 고려된다.
그 후, 지능형 갭 채움 프레임워크 내에서의 음색 불일치의 효과가 예시된다.
잡음 대역 아티팩트들을 검출하기 위해, 소스와 타깃 스케일 계수 대역(SFB)들 간의 음색의 차이가 결정되어야 한다. 음색 계산을 위해, 스펙트럼 평탄도 측정치(SFM: spectral flatness measure)가 사용될 수 있다. 소스 대역이 타깃 대역보다 훨씬 더 시끄러운 음색 불일치가 발견된다면, 일정한 양의 감쇠가 적용되어야 한다. 이러한 상황은 본 발명의 처리가 적용되지 않는 도 9에 도시되어 있다.
툴의 갑작스러운 온/오프 동작을 피하기 위해 감쇠율들에 약간의 평활화를 적용하는 것이 또한 합리적이다. 적절한 위치들에 감쇠를 적용하는 데 필요한 단계들에 대한 자세한 설명은 다음과 같다.( (TCX 전력 스펙트럼(P)이 이용 가능하고 프레임이 과도 상태가 아닌 경우에만 감쇠가 적용될 것이라는 점에 주목한다(플래그 isTransient 비활성).)
음색 불일치 검출: 파라미터들
제1 단계에서, 음색 불일치가 잡음 대역 아티팩트들을 유발할 수도 있는 그러한 SFB들이 식별되어야 한다. 이렇게 하기 위해, IGF 범위의 각각의 SFB 및 복사에 사용되는 대응하는 대역들의 음색이 결정되어야 한다. 음색을 계산하기 위한 하나의 적절한 측정치는 스펙트럼의 기하 평균을 그 산술 평균으로 나누는 것과 0 내지 1의 범위를 기반으로 하는 스펙트럼 평탄도 측정치(SFM)이다. 0에 가까운 값들은 강한 음색을 나타내는 한편, 1에 가까워지는 값은 잡음이 많은 스펙트럼의 기호이다. 공식은 다음과 같이 주어지며:
Figure 112019030587456-pct00001
여기서 P는 TCX 전력 스펙트럼이고, b는 시작 라인이며, e는 현재 SFB의 정지 라인인 한편, p는 다음과 같이 정의된다:
Figure 112019030587456-pct00002
SFM에 덧붙여, 파고율이 계산되는데, 이는 최대 에너지를 스펙트럼의 모든 주파수 빈들의 평균 에너지로 나눔으로써 스펙트럼 내에서 에너지가 어떻게 분산되는지의 표시를 또한 제공한다. SFM을 파고율로 나누면 현재 프레임에 대한 SFB의 음색 측정치가 된다. 파고율은 다음과 같이 계산되며:
Figure 112019030587456-pct00003
여기서 P는 TCX 전력 스펙트럼이고, b는 시작 라인이며, e는 현재 SFB의 정지 라인인 한편, Emax는 다음과 같이 정의된다:
Figure 112019030587456-pct00004
그러나 이전 프레임들의 결과들을 또한 사용하여 매끄러운 음색 추정을 달성하는 것이 합리적이다. 따라서 음색 추정은 다음 공식으로 수행되며:
Figure 112019030587456-pct00005
여기서 sfm은 실제 스펙트럼 평탄도 계산 결과를 나타내는 한편, SFM 변수는 평활화뿐만 아니라 파고율에 의한 나눗셈을 포함한다.
이제 소스와 목적지 간의 음색의 차이가 계산된다:
Figure 112019030587456-pct00006
이 차이의 양의 값들에 대해, 타깃 스펙트럼보다 잡음이 더 많은 것이 복사에 사용되는 조건이 충족된다. 이러한 SFB는 감쇠에 대한 가능성 있는 후보가 된다.
그러나 낮은 SFM 값이 반드시 강한 음색을 나타내는 것이 아니라, SFB에서 에너지의 갑작스런 감소 또는 경사에 또한 기인할 수 있다. 이것은 특히 SFB의 중간 어디에 대역 제한이 있는 항목들에 적용된다. 이것은 원치 않는 감쇠로 이어져, 약간 저역 통과 필터링된 신호의 인상을 생성할 수 있다.
이러한 경우들의 감쇠를 피하기 위해, 양의 SFMdiff를 갖는 모든 대역들에서 에너지의 스펙트럼 기울기를 계산함으로써 가능하게는 영향을 받는 SFB들이 결정되는데, 여기서 한 방향의 강한 기울기는 낮은 SFM 값을 야기하는 갑작스러운 강하를 나타낼 수도 있다. 스펙트럼 기울기는 다음 공식에 의해 주어진 회귀 라인의 기울기에 따라, SFB의 모든 스펙트럼 빈들을 통한 선형 회귀로서 계산되고:
Figure 112019030587456-pct00007
x는 빈 번호이고, P는 TCX 전력 스펙트럼이고, b는 시작 라인이며, e는 현재 SFB의 정지 라인이다.
그러나 SFB의 경계에 가까운 음색 성분은 가파른 경사를 또한 야기할 수도 있지만, 여전히 감쇠를 받아야 한다. 이 두 가지 경우들을 분리하기 위해서는, 가파른 기울기를 가진 대역들에 대해 다른 시프트된 SFM 계산이 수행되어야 한다.
기울기 값에 대한 임계치는 다음과 같이 정의되며:
Figure 112019030587456-pct00008
정규화로서 SFB 폭으로 나눈 것이다.
강한 감소 기울기 < -threshtilt가 존재한다면, SFM이 계산되는 주파수 영역은 SFB의 폭의 절반만큼 시프트 다운될 것이고; 강한 경사 기울기 > threshtilt의 경우에, 그 주파수 영역은 시프트 업된다. 이런 식으로, 감쇠될 것으로 추정되는 음색 성분들은 낮은 SFM으로 인해 여전히 정확하게 검출될 수 있지만, 더 높은 SFM 값들의 경우에는 감쇠가 적용되지 않을 것이다. 임계치는 0.04 값으로서 정의되며, 여기서 감쇠는 시프트된 SFM이 임계치 아래로 떨어지는 경우에만 적용된다.
지각적 어노이언스 모델
감쇠는 어떠한 긍정적인 SFMdiff에 대해서도 적용되지 않아야 하지만, 타깃 SFB가 실제로 바로 음색인 경우에만 의미가 있다. 특정 SFB에서 원래의 신호가 잡음이 있는 배경 신호에 겹쳐진다면, 훨씬 더 잡음이 많은 대역과의 지각 차이가 작아질 것이고 감쇠에 의한 에너지 손실로 인한 둔감함이 이익들보다 더 클 수 있다.
적정한 범위들 내에서의 적용을 보장하기 위해, 감쇠는 타깃 SFB가 실제로 바로 음색인 경우에만 사용되어야 한다. 그래서 아래 두 경우가 유지되는 경우에만 언제든지:
Figure 112019030587456-pct00009
그리고
Figure 112019030587456-pct00010
감쇠가 적용되어야 한다.
고려되어야 하는 다른 문제는 IGF 스펙트럼의 음색 성분들의 배경이다. 잡음 대역 아티팩트들에 의한 지각 저하는 원래의 음색 성분을 둘러싸고 있는 잡음과 같은 배경이 거의 없거나 전혀 없을 때마다 가장 분명해질 것이다. 이 경우, 원본을 IGF로 생성된 HF 스펙트럼과 비교할 때, 도입된 잡음 대역이 완전히 새로운 것으로 인식되고 그에 따라 매우 두드러지게 나타날 것이다. 다른 한편으로는, 이미 상당한 양의 배경 잡음이 존재한다면, 추가 잡음이 배경과 혼합되어, 더 적은 부조화 지각 차이를 야기한다. 따라서 적용된 감쇠의 양은 영향을 받은 SFB의 음색대 잡음비에 또한 좌우되어야 한다.
이 음색대 잡음비의 계산을 위해, SFB에 있는 모든 빈들(i)의 제곱된 TCX 전력 스펙트럼 값들(P)이 합산되고 (시작 라인(b) 및 정지 라인(e)으로 주어진) SFB의 폭으로 나뉘어 대역의 평균 에너지를 얻는다. 이 평균은 후속적으로, 대역의 모든 에너지들을 정규화하는 데 사용된다.
Figure 112019030587456-pct00011
그 다음, 정규화된 에너지(Pnorm,k)가 1 미만인 모든 빈들이 합산되어 잡음 부분(Pnoise)으로서 카운트되는 한편, 아래 식에 따른 1 + adap의 임계치를 초과하는 모든 것은:
Figure 112019030587456-pct00012
음색 부분(Ptonal)으로서 카운트된다. 이 임계치는 SFB의 폭에 좌우되므로, 더 작은 대역들은 음색 성분의 고 에너지 빈들의 더 큰 영향으로 인해 더 높은 평균을 감안하도록 더 낮은 임계치를 얻는다. 음색 및 잡음 부분으로부터 결국 로그비가 계산된다.
Figure 112019030587456-pct00013
감쇠는 소스와 목적지 사이의 SFM 차이와 타깃 SFB의 SFM에 따라 달라지는데, 여기서 더 높은 차이들과 더 작은 타깃 SFM은 모두 더 강한 감쇠로 이어져야 한다. 음색의 차이가 클수록 더 강한 감쇠가 적용되어야 하는 것이 합리적이다. 게다가, 타깃 SFM이 낮아진다면, 즉 타깃 SFB가 더욱 음색이라면, 감쇠량이 또한 더 빨리 증가해야 한다. 이는, 극도로 음색의 SFB들의 경우, SFM이 바로 감쇠 범위 내에 있는 SFB들에 대해서보다 더 강한 감쇠가 적용될 것임을 의미한다.
추가로, 가장 높은 대역들에서 에너지를 제거하는 것은 쉽게 대역 제한의 지각적 인상으로 이어질 수도 있지만, SFB들의 미세 구조는 더 높은 주파수들 쪽으로의 인간의 청각 시스템의 감도 감소로 인해 덜 중요해지므로, 더 높은 주파수들에 대해 감쇠가 또한 더 드물게 적용되어야 한다.
음색 불일치 보상: 감쇠율의 계산
이러한 모든 고려사항들을 단일 감쇠 공식에 통합하기 위해, 타깃과 소스 SFM 간의 비가 공식의 기준으로 채택된다. 이런 식으로, SFM의 더 큰 절대 차 및 더 작은 타깃 SFM 값은 더 강한 감쇠로 이어질 것이고, 이는 단순히 차이를 만드는 것보다 더 적합하다. 주파수 및 음색대 잡음비에 대해 종속성들을 또한 부가하기 위해, 조정 파라미터들이 이 비에 적용된다. 따라서 감쇠 공식은 다음과 같이 작성될 수 있으며:
Figure 112019030587456-pct00014
여기서 d는 스케일링 계수와 곱해질 감쇠율이고, α와 β는 다음과 같이 계산되는 감쇠 조정 파라미터들이며:
Figure 112019030587456-pct00015
여기서 e는 현재 SFB의 정지 라인이고,
Figure 112019030587456-pct00016
여기서 adap는 다음 식으로 계산된 SFB 폭에 좌우된다:
Figure 112019030587456-pct00017
더 높은 주파수들에 대해 더 적은 감쇠를 적용하기 위해 파라미터(α)는 주파수에 따라 감소하지만, 감쇠될 SFB의 음색대 잡음비가 임계치 아래로 떨어진다면 감쇠의 강도를 더 줄이기 위해 β가 사용된다. 이 임계치 아래로 상당히 떨어질수록 감쇠가 더 많이 감소된다.
감쇠는 특정 제약들 내에서만 활성화되기 때문에, 갑작스러운 온/오프 전환들을 방지하기 위해 평활화를 적용할 필요가 있다. 이를 실현하기 위해, 여러 가지 평활화 메커니즘들이 활성화된다.
과도 현상 직후에, TCX 로의 코어 스위치 또는 감쇠되지 않은 이전 프레임 감쇠는 단지 점진적으로 총력으로 적용되어, 고 에너지 과도 현상들 후에 극단적인 에너지 강하들을 피한다. 게다가, IIR 필터 형태의 망각 인자(forgetting factor)가 이용되어, 이전 프레임들의 결과들을 또한 고려한다.
모든 평활화 기술들은 다음 공식으로 구성되며:
Figure 112019030587456-pct00018
여기서 dprev는 이전 프레임의 감쇠율이다. 감쇠가 이전 프레임에서 활성화되지 않았다면, dprev는 dcurr로 덮어쓰지만 0.1의 최소값으로 제한된다. 평활화 변수는 과도 프레임들(플래그 isTransient 활성화) 동안 또는 코어 스위치들(플래그 isCelpToTCX 활성화) 이후에 2로 설정되고, 이전 프레임에서 감쇠가 비활성화였다면 1로 설정될 추가 평활화 인자이다. 감쇠가 있는 각각의 프레임에서 변수는 1씩 감소될 것이지만, 0 미만으로 떨어지지 않을 수 있다.
마지막 단계에서 감쇠율(d)이 스케일링 이득(g)과 곱해진다:
Figure 112019030587456-pct00019
도 10은 본 발명의 바람직한 구현을 예시한다.
예를 들어, 스펙트럼 분석기(130)에 의해 출력된 오디오 신호는 MDCT 스펙트럼 또는 심지어 도 10의 좌측에 (c)로 표시된 바와 같은 복소 스펙트럼으로서 이용 가능하다.
신호 분석기(121)는 블록(802)에 의해 타깃 콘텐츠의 음색을 검출하기 위해 그리고 항목(801)에서 (시뮬레이션된) 소스 콘텐츠의 음색을 검출하기 위해 도 10의 음색 검출기들(801, 802)에 의해 구현된다.
그런 다음, 보상 값을 얻기 위해 감쇠율 계산(124)이 수행되고, 그 다음 보상기(503)는 항목(501, 700-706)으로부터 획득된 데이터를 사용하여 동작한다. 항목(501) 및 항목(700-706)은 예를 들어, 도 7에서 항목(700-706)에 예시된 바와 같이 타깃 콘텐츠로부터의 포락선 추정 및 시뮬레이션된 소스 콘텐츠 및 후속 스케일링 계수 계산으로부터의 포락선 추정을 반영한다.
따라서 비-보상 스케일링 벡터가 도 5와 관련하여 논의된 것과 유사하게 값(502)으로서 블록(503)에 입력된다. 게다가, 잡음 모델(1000)은 별도의 빌딩 블록으로서 도 10에 예시되어 있지만, 이는 또한 도 4와 관련하여 논의된 바와 같이 감쇠율 계산기(124) 내에 직접 포함될 수 있다.
게다가, 예를 들어 항목 5.3.3.2.11.6.4 "IGF 백색화 레벨들의 코딩"에서 논의된 바와 같이, 백색화 추정기를 추가로 포함하는 도 10의 파라메트릭 IGF 인코더는 백색화 레벨들을 계산하도록 구성된다. 특히, IGF 백색화 레벨들은 타일당 1 또는 2 비트를 사용하여 계산되고 송신된다. 이 데이터는 결국 완전한 IGF 파라메트릭 데이터를 얻기 위해 비트스트림 멀티플렉서(140)에도 또한 도입된다.
게다가, 코어 인코더(110)에 의해 인코딩될 스펙트럼 라인들의 결정에 대한 블록(130)에 대응할 수 있는 블록 "희소 스펙트럼(sparsify spectrum)"이 추가로 제공되고, 도 10에서 개별 블록(1020)으로서 예시된다. 이 정보는 특정 IGF 상황을 반영하기 위해 보상기(503)에 의해 바람직하게 사용된다.
게다가, 도 10의 "포락선 추정" 블록 및 블록(801)의 좌측에 "시뮬레이션된"이라는 용어는 도 8a에 예시된 상황을 나타내며, 여기서 "시뮬레이션된 소스 콘텐츠"는 제1 스펙트럼 대역에서 코딩되고 다시 디코딩된 오디오 데이터이다.
대안으로, "시뮬레이션된" 소스 콘텐츠는 라인(180)으로 표시된 바와 같이 패치 시뮬레이터(804)에 의해 제1 스펙트럼 대역의 원래의 제1 오디오 데이터로부터 얻어진 데이터이거나, 코어 디코더(800)에 의해 얻어져 제2 스펙트럼 대역에서 제1 스펙트럼 대역으로 시프트된 라인들로 강화된 디코딩된 제1 스펙트럼 대역이다.
이어서, 3gpp TS 26.445 코덱의 개정된 버전을 구성하는 본 발명의 추가 실시예가 예시된다. 창의적인 처리를 규정하는 새로 추가된 텍스트는 다음과 같이 제공된다. 여기서는, 3gpp TS 26.445 규격에 이미 포함된 특정 하위 조항들이 명시적으로 언급된다.
5.3.3.2.11.1.9 스펙트럼 기울기 함수 SLOPE
P ∈ Pn을 하위 조항 5.3.3.2.11.1.2에 따라 계산된 TCX 전력 스펙트럼으로 하고, b를 시작 라인으로 그리고 e를 스펙트럼 기울기 측정 범위의 정지 라인으로 한다.
IGF가 적용된 SLOPE 함수는 다음과 같이 정의되고:
SLOPE:
Figure 112019030587456-pct00020
Figure 112019030587456-pct00021
여기서 n은 실제 TCX 윈도우 길이이고, x는 빈 번호이다.
5.3.3.2.11.1.10. 음색대 잡음비 함수 TNR
P ∈ Pn을 하위 조항 5.3.3.2.11.1.2에 따라 계산된 TCX 전력 스펙트럼으로 하고, b를 시작 라인으로 그리고 e를 음색대 잡음비 측정 범위의 정지 라인으로 한다.
IGF가 적용된 TNR 함수는 다음과 같이 정의되고:
TNR:
Figure 112019030587456-pct00022
Figure 112019030587456-pct00023
여기서 n은 실제 TCX 윈도우 길이이고, Pnorm(sb)는 다음과 같이 정의되며:
Figure 112019030587456-pct00024
adap는 다음과 같이 정의된다:
Figure 112019030587456-pct00025
감쇠:
IGF 감쇠율 계산을 위해서는, 프레임들에 걸쳐 필터 상태들을 유지하는 데 전부 크기가 nB인 6개의 정적 어레이들(타깃 및 소스 범위의 SFM 계산을 위한 prevTargetFIR, prevSrcFIR, prevTargetIIR prevSrcIIR뿐만 아니라 prevDampdampSmooth)이 필요하다. 추가로, 이전 프레임으로부터의 입력 플래그 isTransient의 정보를 저장하기 위해 정적 플래그 wasTransient가 필요하다.
필터 상태들의 재설정
벡터들(prevTargetFIR, prevSrcFIR, prevTargetIIR, prevSrcIIR, 그리고 prevDampdampSmooth)은 IGF 모듈에서 전부 크기가 nB인 정적 어레이들이며 다음과 같이 초기화된다:
k = 0, 1,…, nB - 1에 대해
Figure 112019030587456-pct00026
이 초기화는 다음에 의해 이루어질 것이다:
Figure 112019030587456-pct00027
코덱 시작과 함께
Figure 112019030587456-pct00028
임의의 비트레이트 스위치에 의해
Figure 112019030587456-pct00029
임의의 코덱 타입 스위치에 의해
Figure 112019030587456-pct00030
CELP에서 TCX 로의 전환, 예컨대 isCelpToTCX = true에 의해
Figure 112019030587456-pct00031
현재 프레임이 과도 특성들을 갖는다면, 예컨대 isTransient = true라면
Figure 112019030587456-pct00032
TCX 전력 스펙트럼(P)이 이용 가능하지 않다면
감쇠율의 계산
TCX 전력 스펙트럼(P)이 이용 가능하고 isTransient가 거짓이라면, 다음을 계산하고:
Figure 112019030587456-pct00033
그리고
Figure 112019030587456-pct00034
여기서 t(0), t(1), … , t(nB)는 이미 tF 함수와 매핑되었을 것이며, 하위 조항 5.3.3.2.11.1.1을 참조하면, m:N→N은 IGF 타깃 범위를 하위 조항 5.3.3.2.11.1.8에 기술된 IGF 소스 범위에 매핑하는 매핑 함수이고, nB는 스케일 계수 대역들의 수이며, 표 94를 참조한다. SFM은 하위 조항 5.3.3.2.11.1.3에 기술된 스펙트럼 평탄도 측정 함수이고, CREST는 하위 조항 5.3.3.2.11.1.4에서 기술된 파고율 함수이다.
isCelpToTCX가 참이거나 wasTransient가 참이라면, 다음을 설정한다:
k = 0, 1, … , nB - 1에 대해
Figure 112019030587456-pct00035
다음을 계산한다:
Figure 112019030587456-pct00036
그리고
Figure 112019030587456-pct00037
이러한 벡터들로 다음을 계산한다:
Figure 112019030587456-pct00038
Figure 112019030587456-pct00039
에 대해 다음과 같다면:
Figure 112019030587456-pct00040
또는
Figure 112019030587456-pct00041
다음과 같이 설정하고:
Figure 112019030587456-pct00042
그렇지 않으면 하위 조항 5.3.3.2.11.1.9에서 기술된 함수 SLOPE로 스펙트럼 기울기를 계산한다:
Figure 112019030587456-pct00043
Figure 112019030587456-pct00044
에 대해 다음과 같다면:
Figure 112019030587456-pct00045
또는 다르게, 다음과 같다면:
Figure 112019030587456-pct00046
여기서 threshTilt는 다음과 같이 정의되는데:
Figure 112019030587456-pct00047
시프트된 스펙트럼에 대한 SFM을 계산하고:
Figure 112019030587456-pct00048
시프트는 다음과 같이 정의된다:
Figure 112019030587456-pct00049
다음과 같다면:
Figure 112019030587456-pct00050
다음과 같이 설정하고:
Figure 112019030587456-pct00051
Figure 112019030587456-pct00052
에 대해 다음과 같다면:
Figure 112019030587456-pct00053
대역(k)에서 현재 프레임의 감쇠율(dampCurr)을 0으로 설정한다:
Figure 112019030587456-pct00054
그렇지 않으면, 다음과 같이 dampCurr(k)를 계산하고:
Figure 112019030587456-pct00055
여기서 alpha는 다음과 같이 정의되고:
Figure 112019030587456-pct00056
beta는 다음과 같이 정의되며:
Figure 112019030587456-pct00057
여기서 TNR은 하위 조항 5.3.3.2.11.1.10에서 기술된 음색대 잡음비 함수이고, adap는 다음과 같이 정의된다.
Figure 112019030587456-pct00058
Figure 112019030587456-pct00059
에 대해 다음과 같다면:
Figure 112019030587456-pct00060
다음과 같이 설정하고:
Figure 112019030587456-pct00061
크기가 nB인 감쇠율들(d)의 벡터를 계산한다:
Figure 112019030587456-pct00062
마지막으로, isTransient가 거짓이고, 전력 스펙트럼(P)이 이용 가능하다면, 필터들을 업데이트한다:
k = 0, 1 , … , nB - 1에 대해
Figure 112019030587456-pct00063
이전 부분의 값들/인덱스들/파라미터들의 이름들은 이 명세서 전체에서 논의된 대응하는 파라미터들/인덱스들/값들과 유사하다. 이어서, 청취 테스트들로부터의 여러 결과들이 도 11a - 도 11c와 관련하여 논의된다.
이러한 청취 테스트들이 수행되어, 가능해진 감쇠로 코딩된 항목들과 감쇠 없이 코딩된 항목들을 비교함으로써 감쇠의 이익을 보여주었다.
도 11a에 예시된 첫 번째 결과는 모노 항목들을 이용한 13.2kbps의 비트레이트 및 32㎑의 샘플 레이트에서의 a-B-비교-테스트이다. 13.2 kbps에서 a-B-테스트 감쇠 대 감쇠 없음을 보여주는 결과들이 도 11a에 도시된다.
도 11b에 예시된 두 번째 결과는 모노 항목들을 이용한 24.4kbps 및 32㎑의 샘플 레이트에서의 MUSHRA-테스트이다. 여기서는, 감쇠 없는 2개의 버전들이 감쇠가 적용된 새로운 버전과 비교되었다. 결과들이 도 11b(절대 점수들) 및 도 11c(차이 점수들)에 도시된다.
본 발명의 인코딩된 오디오 신호는 디지털 저장 매체 또는 비-일시적 저장 매체 상에 저장될 수 있고 또는 송신 매체, 예컨대 무선 송신 매체 또는 유선 송신 매체, 예컨대 인터넷을 통해 송신될 수 있다.
일부 양상들은 장치와 관련하여 설명되었지만, 이러한 양상들은 또한 대응하는 방법의 설명을 나타내며, 여기서 블록 또는 디바이스는 방법 단계 또는 방법 단계의 특징에 대응한다는 점이 명백하다. 비슷하게, 방법 단계와 관련하여 설명한 양상들은 또한 대응하는 장치의 대응하는 블록 또는 항목 또는 특징의 설명을 나타낸다.
특정 구현 요건들에 따라, 본 발명의 실시예들은 하드웨어로 또는 소프트웨어로 구현될 수 있다. 구현은 각각의 방법이 수행되도록 프로그래밍 가능 컴퓨터 시스템과 협력하는(또는 협력할 수 있는) 전자적으로 판독 가능 제어 신호들이 저장된 디지털 저장 매체, 예를 들어 플로피 디스크, DVD, CD, ROM, PROM, EPROM, EEPROM 또는 플래시 메모리를 사용하여 수행될 수 있다.
본 발명에 따른 일부 실시예들은 본 명세서에서 설명한 방법들 중 하나가 수행되도록, 프로그래밍 가능 컴퓨터 시스템과 협력할 수 있는 전자적으로 판독 가능 제어 신호들을 갖는 데이터 반송파를 포함한다.
일반적으로, 본 발명의 실시예들은 컴퓨터 프로그램 제품이 컴퓨터 상에서 실행될 때, 방법들 중 하나를 수행하기 위해 작동하는 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있다. 프로그램 코드는 예를 들어, 기계 판독 가능 반송파 상에 저장될 수 있다.
다른 실시예들은 기계 판독 가능 반송파 또는 비-일시적 저장 매체 상에 저장된, 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.
즉, 본 발명의 방법의 한 실시예는 이에 따라, 컴퓨터 상에서 컴퓨터 프로그램이 실행될 때 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
따라서 본 발명의 방법들의 추가 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함하여 그 위에 기록된 데이터 반송파(또는 디지털 저장 매체, 또는 컴퓨터 판독 가능 매체)이다.
따라서 본 발명의 방법의 추가 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 신호들의 데이터 스트림 또는 시퀀스이다. 신호들의 데이터 스트림 또는 시퀀스는 예를 들어, 데이터 통신 접속을 통해, 예를 들어 인터넷을 통해 전송되도록 구성될 수 있다.
추가 실시예는 처리 수단, 예를 들어 본 명세서에서 설명한 방법들 중 하나를 수행하도록 구성 또는 적응된 컴퓨터 또는 프로그래밍 가능 로직 디바이스를 포함한다.
추가 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.
일부 실시예들에서, 프로그래밍 가능 로직 디바이스(예를 들어, 필드 프로그래밍 가능 게이트 어레이)는 본 명세서에서 설명한 방법들의 기능들 중 일부 또는 전부를 수행하는데 사용될 수 있다. 일부 실시예들에서, 필드 프로그래밍 가능 게이트 어레이는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위해 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법들은 바람직하게 임의의 하드웨어 장치에 의해 수행된다.
앞서 설명한 실시예들은 단지 본 발명의 원리들에 대한 예시일 뿐이다. 본 명세서에서 설명한 배열들 및 세부사항들의 수정들 및 변형들이 다른 당업자들에게 명백할 것이라고 이해된다. 따라서 이는 본 명세서의 실시예들의 묘사 및 설명에 의해 제시된 특정 세부사항들로가 아닌, 첨부된 특허청구범위로만 한정되는 것을 취지로 한다.

Claims (26)

  1. 오디오 신호를 인코딩하기 위한 장치로서,
    제1 스펙트럼 대역의 제1 오디오 데이터를 코어 인코딩하기 위한 코어 인코더;
    상기 제1 스펙트럼 대역과는 다른 제2 스펙트럼 대역에서 제2 오디오 데이터를 파라미터에 의해 코딩하는 파라메트릭 코더를 포함하며,
    상기 파라메트릭 코더는,
    제1 분석 결과를 얻도록 상기 제1 스펙트럼 대역의 제1 오디오 데이터를 분석하기 위한 그리고 제2 분석 결과를 얻도록 상기 제2 스펙트럼 대역의 제2 오디오 데이터를 분석하기 위한 분석기;
    상기 제1 분석 결과 및 상기 제2 분석 결과를 사용하여 보상 값을 계산하기 위한 보상기; 및
    상기 보상 값을 사용하여 상기 제2 스펙트럼 대역의 상기 제2 오디오 데이터로부터 파라미터를 계산하기 위한 파라미터 계산기를 포함하고,
    상기 파라메트릭 코더는 제3 스펙트럼 대역의 제3 오디오 데이터를 파라미터에 의해 코딩하도록 구성되며;
    상기 분석기는 제3 분석 결과를 얻도록 상기 제3 스펙트럼 대역의 상기 제3 오디오 데이터를 분석하도록 구성되고;
    상기 파라메트릭 코더는 적어도 상기 제3 분석 결과를 사용하여, 상기 제3 스펙트럼 대역이 보상될지 여부를 검출하기 위한 보상 검출기를 더 포함하며,
    상기 파라미터 계산기는, 상기 보상 검출기가 상기 제3 스펙트럼 대역이 보상되지 않을 것임을 검출할 때, 어떠한 보상 값도 없이 상기 제3 스펙트럼 대역의 상기 오디오 데이터로부터 추가 파라미터를 계산하도록 구성되는,
    오디오 신호를 인코딩하기 위한 장치.
  2. 제1 항에 있어서,
    상기 분석기는 상기 제1 분석 결과로서 제1 정량 값을 그리고 상기 제2 분석 결과로서 제2 정량 값을 계산하도록 구성되며,
    상기 보상기는 상기 제1 정량 값으로부터 그리고 상기 제2 정량 값으로부터 정량적 보상 값을 계산하도록 구성되고,
    상기 파라미터 계산기는 상기 정량적 보상 값을 사용하여 정량적 파라미터를 계산하도록 구성되는,
    오디오 신호를 인코딩하기 위한 장치.
  3. 제1 항에 있어서,
    상기 분석기는 상기 제1 분석 결과를 얻도록 상기 제1 오디오 데이터의 제1 특징을 분석하도록, 상기 제2 분석 결과를 얻도록 상기 제2 스펙트럼 대역의 상기 제2 오디오 데이터의 동일한 제1 특징을 분석하도록 구성되고,
    상기 파라미터 계산기는 제2 특징을 평가함으로써 상기 제2 스펙트럼 대역의 상기 제2 오디오 데이터로부터 상기 파라미터를 계산하도록 구성되며, 상기 제2 특징은 상기 제1 특징과는 다른,
    오디오 신호를 인코딩하기 위한 장치.
  4. 제3 항에 있어서,
    상기 제1 특징은 제1 스펙트럼 대역 내의 스펙트럼 미세 구조 특징 또는 에너지 분포 특징이거나, 또는
    상기 제2 특징은 상기 제2 스펙트럼 대역 내의 스펙트럼 값들의 포락선 측정치 또는 에너지 관련 측정치 또는 전력 관련 측정치인,
    오디오 신호를 인코딩하기 위한 장치.
  5. 제1 항에 있어서,
    상기 제1 스펙트럼 대역과 상기 제2 스펙트럼 대역은 서로 상호 배타적이며,
    상기 분석기는 상기 제2 스펙트럼 대역의 상기 제2 오디오 데이터를 사용하지 않고 상기 제1 분석 결과를 계산하도록, 그리고 상기 제1 스펙트럼 대역의 상기 제1 오디오 데이터를 사용하지 않고 상기 제2 분석 결과를 계산하도록 구성되는,
    오디오 신호를 인코딩하기 위한 장치.
  6. 제1 항에 있어서,
    상기 오디오 신호는 프레임들의 시간 시퀀스를 포함하며,
    상기 보상기는 이전 프레임에 대한 이전 보상 값을 사용하여 현재 프레임에 대한 현재 보상 값을 계산하도록 구성되는,
    오디오 신호를 인코딩하기 위한 장치.
  7. 제1 항에 있어서,
    상기 파라메트릭 코더는 제3 스펙트럼 대역의 제3 오디오 데이터를 파라미터에 의해 코딩하도록 구성되고,
    상기 제3 스펙트럼 대역은 상기 제2 스펙트럼 대역보다 더 높은 주파수들을 포함하며,
    상기 보상기는 상기 제3 스펙트럼 대역에 대한 보상 값을 계산할 때 제3 가중치(d)를 사용하도록 구성되고,
    상기 제3 가중치는 상기 제2 스펙트럼 대역에 대한 보상 값을 계산하는 데 사용된 제2 가중치와는 다른,
    오디오 신호를 인코딩하기 위한 장치.
  8. 제1 항에 있어서,
    상기 분석기는 상기 제2 스펙트럼 대역에서 상기 제2 오디오 데이터의 음색대 잡음비를 추가로 계산하도록 구성되며, 또한
    상기 보상기는 제1 음색대 잡음비에 대해 제1 보상 값이 얻어지거나 제2 음색대 잡음비에 대해 제2 보상 값이 얻어지도록 상기 제2 오디오 데이터의 상기 음색대 잡음비에 따라 상기 보상 값을 계산하도록 구성되고, 상기 제1 보상 값은 상기 제2 보상 값보다 더 크며, 또한 상기 제1 음색대 잡음비는 상기 제2 음색대 잡음비보다 더 큰,
    오디오 신호를 인코딩하기 위한 장치.
  9. 제1 항에 있어서,
    상기 파라미터 계산기는 상기 제2 오디오 데이터로부터 비-보상 파라미터를 계산하도록, 그리고 상기 비-보상 파라미터와 상기 보상 값을 결합하여 상기 파라미터를 얻도록 구성되는,
    오디오 신호를 인코딩하기 위한 장치.
  10. 제1 항에 있어서,
    상기 제1 스펙트럼 대역의 코어 인코딩된 오디오 데이터 및 상기 파라미터를 출력하기 위한 출력 인터페이스를 더 포함하는,
    오디오 신호를 인코딩하기 위한 장치.
  11. 제1 항에 있어서,
    상기 보상기는 심리 음향 모델을 적용함으로써 상기 보상 값을 결정하도록 구성되며,
    상기 심리 음향 모델은 상기 보상 값을 얻기 위해 상기 제1 분석 결과 및 상기 제2 분석 결과를 사용하여 상기 제1 오디오 데이터와 상기 제2 오디오 데이터 사이의 심리 음향 불일치를 평가하도록 구성되는,
    오디오 신호를 인코딩하기 위한 장치.
  12. 제1 항에 있어서,
    상기 오디오 신호는 프레임들의 시간 시퀀스를 포함하며,
    상기 분석기는 상기 제1 분석 결과를 얻도록 프레임의 상기 제1 스펙트럼 대역의 제1 오디오 데이터를 분석하기 위한 그리고 상기 프레임에 대한 제2 분석 결과를 얻도록 상기 제2 스펙트럼 대역의 상기 프레임의 제2 오디오 데이터를 분석하도록 구성되고,
    상기 보상기는 상기 프레임에 대한 상기 제1 분석 결과 및 상기 프레임에 대한 상기 제2 분석 결과를 사용하여 상기 프레임에 대한 보상 값을 계산하도록 구성되며; 그리고
    상기 파라미터 계산기는 상기 프레임에 대한 상기 보상 값을 사용하여 상기 프레임의 상기 제2 스펙트럼 대역의 상기 제2 오디오 데이터로부터 상기 파라미터를 계산하도록 구성되거나, 또는
    상기 파라메트릭 코더는, 상기 제1 분석 결과 및 상기 제2 분석 결과에 기초하여, 프레임의 상기 제2 스펙트럼 대역에 대한 파라미터가 상기 보상 값을 사용하여 보상 상황에서 계산될지 또는 비-보상 상황에서 계산될지를 검출하기 위한 보상 검출기를 더 포함하는,
    오디오 신호를 인코딩하기 위한 장치.
  13. 제1 항에 있어서,
    상기 제1 분석 결과와 상기 제2 분석 결과의 차이가 미리 결정된 특징을 갖는 경우 또는 상기 제2 분석 결과가 미리 결정된 특징을 갖는 경우, 보상 상황을 검출하도록 보상 검출기가 구성되고,
    상기 보상 검출기는, 전력 스펙트럼이 상기 코어 인코더에 이용 가능하지 않을 때, 또는 현재 프레임이 과도(transient) 프레임인 것으로 검출될 때, 스펙트럼 대역이 보상되지 않을 것임을 검출하도록 구성되거나, 또는
    상기 보상기는 상기 제1 분석 결과 및 상기 제2 분석 결과의 지수(quotient)에 기초하여 상기 보상 값을 계산하도록 구성되는,
    오디오 신호를 인코딩하기 위한 장치.
  14. 제1 항에 있어서,
    상기 분석기는 상기 제1 분석 결과로서 상기 제1 스펙트럼 대역에 대한 스펙트럼 평탄도 측정치, 파고율(crest factor) 또는 상기 스펙트럼 평탄도 측정치와 상기 파고율의 지수를 계산하도록, 그리고 상기 제2 분석 결과로서 상기 제2 스펙트럼 대역에 대한 스펙트럼 평탄도 측정치 또는 파고율 또는 상기 스펙트럼 평탄도 측정치와 상기 파고율의 지수를 계산하도록 구성되거나, 또는
    상기 파라미터 계산기는 상기 제2 오디오 데이터로부터 스펙트럼 포락선 정보 또는 이득 계수를 계산하도록 구성되거나, 또는
    상기 보상기는, 상기 제1 분석 결과와 상기 제2 분석 결과 사이의 제1 차이에 대해, 제1 보상 값이 얻어지고, 상기 제1 분석 결과와 상기 제2 분석 결과 사이의 제2 차이에 대해 제2 보상 값이 계산되게 상기 보상 값을 계산하도록 구성되며,
    상기 제1 차이는 상기 제2 차이보다 더 크고, 상기 제1 보상 값은 상기 제2 보상 값보다 더 큰,
    오디오 신호를 인코딩하기 위한 장치.
  15. 제14 항에 있어서,
    상기 분석기는 상기 제2 오디오 데이터로부터 스펙트럼 기울기를 계산하도록 구성되고,
    상기 분석기는 상기 제2 스펙트럼 대역의 경계에 가까운 음색 성분이 존재하는지 여부를 조사하도록 구성되며,
    상기 파라메트릭 코더의 보상 검출기는, 상기 스펙트럼 기울기가 미리 결정된 임계치 미만인 경우에만, 또는 상기 스펙트럼 기울기가 미리 결정된 임계치 이상이고 상기 조사가 상기 경계에 가까운 음색 성분이 존재한다고 결정한 경우에, 상기 보상 값을 사용하여 상기 파라미터가 계산되어야 함을 결정하도록 구성되는,
    오디오 신호를 인코딩하기 위한 장치.
  16. 제1 항에 있어서,
    인코딩되고 디코딩된 제1 오디오 데이터를 얻도록 상기 제1 스펙트럼 대역의 인코딩된 제1 오디오 데이터를 디코딩하기 위한 디코더를 더 포함하며,
    상기 분석기는,
    상기 인코딩되고 디코딩된 제1 오디오 데이터를 사용하여 상기 제1 분석 결과를 계산하도록, 그리고
    인코딩하기 위한 상기 장치에 입력된 오디오 신호로부터 상기 제2 오디오 데이터로부터의 제2 분석 결과를 계산하도록 구성되는,
    오디오 신호를 인코딩하기 위한 장치.
  17. 제1 항에 있어서,
    상기 제2 스펙트럼 대역에 대한 패치(patching) 결과를 시뮬레이션하기 위한 패치 시뮬레이터를 더 포함하며,
    상기 패치 결과는 코어 인코딩된 오디오 신호에 포함된 상기 제2 스펙트럼 대역으로부터의 적어도 하나의 스펙트럼 라인을 포함하고;
    상기 분석기는,
    상기 제2 스펙트럼 대역으로부터의 상기 적어도 하나의 스펙트럼 라인 및 상기 제1 오디오 데이터를 사용하여 상기 제1 분석 결과를 계산하도록; 그리고
    인코딩을 위해 상기 장치에 입력된 상기 오디오 신호로부터 상기 제2 오디오 데이터로부터의 제2 분석 결과를 계산하도록 구성되는,
    오디오 신호를 인코딩하기 위한 장치.
  18. 제1 항에 있어서,
    상기 코어 인코더 상기 제1 오디오 데이터를 실수치의 스펙트럼들의 시퀀스로 인코딩하도록 구성되며,
    상기 분석기는 전력 스펙트럼들의 시퀀스로부터 상기 제1 분석 결과 및 상기 제2 분석 결과를 계산하도록 구성되고,
    전력 스펙트럼이 인코딩을 위해 상기 장치로 입력되는 상기 오디오 신호로부터 계산되거나 상기 코어 인코더에 의해 사용된 실수치의 스펙트럼으로부터 도출되는,
    오디오 신호를 인코딩하기 위한 장치.
  19. 제1 항에 있어서,
    상기 코어 인코더는 강화 시작 주파수까지 확장되는 적어도 코어 대역에서 상기 오디오 신호를 코어 인코딩하도록 구성되며,
    상기 코어 대역은 상기 제1 스펙트럼 대역 및 상기 제1 스펙트럼 대역과 중첩하는 적어도 하나의 추가 소스 대역를 포함하고,
    상기 오디오 신호는 상기 강화 시작 주파수에서부터 최대 주파수까지 확장되는 강화 범위를 포함하며,
    상기 제2 스펙트럼 대역 및 적어도 하나의 추가 타깃 대역이 상기 강화 범위에 포함되고, 상기 제2 스펙트럼 대역 및 상기 추가 타깃 대역은 서로 중첩하지 않는,
    오디오 신호를 인코딩하기 위한 장치.
  20. 제19 항에 있어서,
    상기 강화 시작 주파수는 크로스오버 주파수이고 코어 인코딩된 신호는 상기 크로스오버 주파수로 대역 제한되거나, 또는
    상기 강화 시작 주파수는 지능형 갭 채움(IGF: intelligent gap filling) 시작 주파수이고 코어 인코딩된 신호는 상기 강화 시작 주파수보다 더 큰 최대 주파수로 대역 제한되는,
    오디오 신호를 인코딩하기 위한 장치.
  21. 제1 항에 있어서,
    상기 파라미터 계산기는,
    상기 제2 스펙트럼 대역의 제2 오디오 데이터에 기초하여 상기 제2 스펙트럼 대역에 대한 이득 계수를 계산하고,
    상기 보상 값으로서 감쇠율(damping factor)을 계산하고, 그리고
    상기 대역에 대한 이득 계수에 상기 감쇠율을 곱하여, 보상된 이득 계수를 상기 파라미터로서 얻도록 구성되며,
    상기 장치는 상기 제1 스펙트럼 대역의 코어 인코딩된 오디오 데이터 및 상기 파라미터로서의 상기 보상된 이득 계수를 출력하기 위한 출력 인터페이스를 더 포함하는,
    오디오 신호를 인코딩하기 위한 장치.
  22. 오디오 신호를 인코딩하는 방법으로서,
    제1 스펙트럼 대역의 제1 오디오 데이터를 코어 인코딩하는 단계;
    상기 제1 스펙트럼 대역과는 다른 제2 스펙트럼 대역에서 제2 오디오 데이터를 파라미터에 의해 코딩하는 단계;
    제3 스펙트럼 대역에서 제3 오디오 데이터를 파라미터에 의해 코딩하는 단계;
    상기 제3 스펙트럼 대역에서 제3 분석 결과을 얻기 위해 상기 제3 오디오 데이터를 분석하는 단계;
    적어도 상기 제3 분석 결과를 사용하여 상기 제3 스펙트럼 대역이 보상될지 또는 보상되지 않을지를 검출하는 단계; 및
    상기 검출하는 단계가 상기 제3 스펙트럼 대역이 보상되지 않을 것임을 검출할 때, 어떠한 보상 값도 없이 상기 제3 스펙트럼 대역의 상기 제3 오디오 데이터로부터 추가 파라미터를 계산하는 단계를 포함하고,
    상기 파라미터에 의해 코딩하는 단계는:
    제1 분석 결과를 얻도록 상기 제1 스펙트럼 대역의 상기 제1 오디오 데이터를 분석하고 제2 분석 결과를 얻도록 상기 제2 스펙트럼 대역의 상기 제2 오디오 데이터를 분석하는 단계;
    상기 제1 분석 결과 및 상기 제2 분석 결과를 사용하여 보상 값을 계산하는 단계; 및
    상기 보상 값을 사용하여 상기 제2 스펙트럼 대역의 상기 제2 오디오 데이터로부터 파라미터를 계산하는 단계를 포함하는,
    오디오 신호를 인코딩하는 방법.
  23. 오디오 신호를 처리하기 위한 시스템으로서,
    제1 항의 오디오 신호를 인코딩하기 위한 장치; 및
    상기 제1 스펙트럼 대역의 인코딩된 제1 오디오 데이터 및 상기 제2 스펙트럼 대역의 제2 오디오 데이터를 나타내는 파라미터를 포함하는 인코딩된 오디오 신호를 수신하기 위한 디코더를 포함하며,
    상기 디코더는 상기 파라미터 및 상기 제1 스펙트럼 대역의 디코딩된 제1 오디오 데이터를 사용하여 상기 제2 스펙트럼 대역에 대한 합성 오디오 데이터를 재생하기 위해 스펙트럼 강화 동작을 수행하도록 구성되는,
    오디오 신호를 처리하기 위한 시스템.
  24. 오디오 신호를 처리하는 방법으로서,
    제22 항에 따라 오디오 신호를 인코딩하는 단계; 및
    상기 제1 스펙트럼 대역의 인코딩된 제1 오디오 데이터 및 상기 제2 스펙트럼 대역의 제2 오디오 데이터를 나타내는 파라미터를 포함하는 인코딩된 오디오 신호를 수신하는 단계; 및
    상기 파라미터 및 상기 제1 스펙트럼 대역의 디코딩된 제1 오디오 데이터를 사용하여 상기 제2 스펙트럼 대역에 대한 합성 오디오 데이터를 재생하기 위해 스펙트럼 강화 동작을 수행하는 단계를 포함하는,
    오디오 신호를 처리하는 방법.
  25. 컴퓨터 판독 가능 매체로서,
    컴퓨터에 의해서 컴퓨터 판독 가능 코드가 실행될 때, 제22 항 또는 제24 항의 방법을 수행하기 위한 컴퓨터 판독 가능 코드가 저장된,
    컴퓨터 판독 가능 매체.
  26. 삭제
KR1020197008630A 2016-08-23 2017-08-21 보상 값을 사용하여 오디오 신호를 인코딩하기 위한 장치 및 방법 KR102257100B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP16185398.1A EP3288031A1 (en) 2016-08-23 2016-08-23 Apparatus and method for encoding an audio signal using a compensation value
EP16185398.1 2016-08-23
PCT/EP2017/071048 WO2018036972A1 (en) 2016-08-23 2017-08-21 Apparatus and method for encoding an audio signal using a compensation value

Publications (2)

Publication Number Publication Date
KR20190042070A KR20190042070A (ko) 2019-04-23
KR102257100B1 true KR102257100B1 (ko) 2021-05-27

Family

ID=56799328

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020197008630A KR102257100B1 (ko) 2016-08-23 2017-08-21 보상 값을 사용하여 오디오 신호를 인코딩하기 위한 장치 및 방법

Country Status (18)

Country Link
US (2) US11521628B2 (ko)
EP (4) EP3288031A1 (ko)
JP (3) JP6806884B2 (ko)
KR (1) KR102257100B1 (ko)
CN (3) CN109863556B (ko)
AR (1) AR109391A1 (ko)
AU (1) AU2017317554B2 (ko)
BR (1) BR112019003711A2 (ko)
CA (1) CA3034686C (ko)
ES (2) ES2844930T3 (ko)
MX (1) MX2019002157A (ko)
PL (2) PL3796315T3 (ko)
PT (1) PT3504707T (ko)
RU (1) RU2727728C1 (ko)
SG (1) SG11201901645SA (ko)
TW (1) TWI653626B (ko)
WO (1) WO2018036972A1 (ko)
ZA (1) ZA201901624B (ko)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3288031A1 (en) * 2016-08-23 2018-02-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding an audio signal using a compensation value
EP3671741A1 (en) * 2018-12-21 2020-06-24 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Audio processor and method for generating a frequency-enhanced audio signal using pulse processing
CN111383643B (zh) * 2018-12-28 2023-07-04 南京中感微电子有限公司 一种音频丢包隐藏方法、装置及蓝牙接收机
KR20210003507A (ko) * 2019-07-02 2021-01-12 한국전자통신연구원 오디오 코딩을 위한 잔차 신호 처리 방법 및 오디오 처리 장치
CN113808597A (zh) * 2020-05-30 2021-12-17 华为技术有限公司 一种音频编码方法和音频编码装置
CN113808596A (zh) * 2020-05-30 2021-12-17 华为技术有限公司 一种音频编码方法和音频编码装置
TWI755901B (zh) * 2020-10-21 2022-02-21 美商音美得股份有限公司 包括移頻功能之即時音訊處理系統以及包括移頻功能之即時音訊處理程序
CN113612808B (zh) * 2021-10-09 2022-01-25 腾讯科技(深圳)有限公司 音频处理方法、相关设备、存储介质及程序产品

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100292994A1 (en) 2007-12-18 2010-11-18 Lee Hyun Kook method and an apparatus for processing an audio signal
US20160232912A1 (en) 2001-11-29 2016-08-11 Dolby International Ab High Frequency Regeneration of an Audio Signal with Synthetic Sinusoid Addition

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4296752B2 (ja) 2002-05-07 2009-07-15 ソニー株式会社 符号化方法及び装置、復号方法及び装置、並びにプログラム
JP2005114814A (ja) * 2003-10-03 2005-04-28 Nippon Telegr & Teleph Corp <Ntt> 音声符号化・復号化方法、音声符号化・復号化装置、音声符号化・復号化プログラム、及びこれを記録した記録媒体
EP2991075B1 (en) * 2004-05-14 2018-08-01 Panasonic Intellectual Property Corporation of America Speech coding method and speech coding apparatus
KR100636144B1 (ko) * 2004-06-04 2006-10-18 삼성전자주식회사 오디오 신호 부호화/복호화 장치 및 방법
ATE531037T1 (de) * 2006-02-14 2011-11-15 France Telecom Vorrichtung für wahrnehmungsgewichtung bei der tonkodierung/-dekodierung
JP4984983B2 (ja) * 2007-03-09 2012-07-25 富士通株式会社 符号化装置および符号化方法
EP2301028B1 (en) 2008-07-11 2012-12-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus and a method for calculating a number of spectral envelopes
JP5203077B2 (ja) * 2008-07-14 2013-06-05 株式会社エヌ・ティ・ティ・ドコモ 音声符号化装置及び方法、音声復号化装置及び方法、並びに、音声帯域拡張装置及び方法
KR101381513B1 (ko) * 2008-07-14 2014-04-07 광운대학교 산학협력단 음성/음악 통합 신호의 부호화/복호화 장치
ES2449476T3 (es) * 2010-03-09 2014-03-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato, procedimiento y programa de ordenador para procesar una señal de audio
US8751225B2 (en) * 2010-05-12 2014-06-10 Electronics And Telecommunications Research Institute Apparatus and method for coding signal in a communication system
KR101826331B1 (ko) * 2010-09-15 2018-03-22 삼성전자주식회사 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법
CN102800317B (zh) * 2011-05-25 2014-09-17 华为技术有限公司 信号分类方法及设备、编解码方法及设备
JP5942358B2 (ja) * 2011-08-24 2016-06-29 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
US8527264B2 (en) * 2012-01-09 2013-09-03 Dolby Laboratories Licensing Corporation Method and system for encoding audio data with adaptive low frequency compensation
PT3070713T (pt) * 2013-01-29 2018-04-24 Fraunhofer Ges Forschung Codificador de áudio, descodificador de áudio, método para fornecer uma informação de áudio codificada, método para fornecer uma informação de áudio descodificada, programa de computador e representação codificada utilizando uma extensão da largura de banda adaptável ao sinal
ES2626809T3 (es) * 2013-01-29 2017-07-26 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Concepto para compensación de conmutación del modo de codificación
US9741350B2 (en) * 2013-02-08 2017-08-22 Qualcomm Incorporated Systems and methods of performing gain control
CN105103224B (zh) * 2013-04-05 2019-08-02 杜比国际公司 用于交错波形编码的音频编码器和解码器
EP2830064A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection
KR102235413B1 (ko) * 2014-01-03 2021-04-05 돌비 레버러토리즈 라이쎈싱 코오포레이션 다채널 오디오에 응답하여 적어도 하나의 피드백 지연 네트워크를 이용한 바이노럴 오디오의 생성
EP2980795A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
EP2980794A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
US20160372127A1 (en) * 2015-06-22 2016-12-22 Qualcomm Incorporated Random noise seed value generation
KR102560906B1 (ko) 2016-04-04 2023-07-28 마자로 엔브이 가변 트랜스미션을 위한 유성 베리에이터
EP3288031A1 (en) * 2016-08-23 2018-02-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding an audio signal using a compensation value

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160232912A1 (en) 2001-11-29 2016-08-11 Dolby International Ab High Frequency Regeneration of an Audio Signal with Synthetic Sinusoid Addition
US20100292994A1 (en) 2007-12-18 2010-11-18 Lee Hyun Kook method and an apparatus for processing an audio signal

Also Published As

Publication number Publication date
CA3034686C (en) 2022-03-15
CN117198305A (zh) 2023-12-08
EP3796315A1 (en) 2021-03-24
EP4250289A3 (en) 2023-11-08
AU2017317554B2 (en) 2019-12-12
EP4250289A2 (en) 2023-09-27
CN117198306A (zh) 2023-12-08
MX2019002157A (es) 2019-07-01
US20190189137A1 (en) 2019-06-20
JP7385549B2 (ja) 2023-11-22
WO2018036972A1 (en) 2018-03-01
PT3504707T (pt) 2021-02-03
ZA201901624B (en) 2019-12-18
RU2727728C1 (ru) 2020-07-23
JP2021047441A (ja) 2021-03-25
EP3504707B1 (en) 2020-12-16
EP3796315C0 (en) 2023-09-20
JP2019528479A (ja) 2019-10-10
EP3504707A1 (en) 2019-07-03
ES2967183T3 (es) 2024-04-29
PL3796315T3 (pl) 2024-03-18
JP2023082142A (ja) 2023-06-13
US20220392465A1 (en) 2022-12-08
EP3288031A1 (en) 2018-02-28
CA3034686A1 (en) 2018-03-01
SG11201901645SA (en) 2019-03-28
CN109863556A (zh) 2019-06-07
US11521628B2 (en) 2022-12-06
TWI653626B (zh) 2019-03-11
JP6806884B2 (ja) 2021-01-06
AR109391A1 (es) 2018-11-28
BR112019003711A2 (pt) 2019-05-28
EP3796315B1 (en) 2023-09-20
KR20190042070A (ko) 2019-04-23
TW201812744A (zh) 2018-04-01
AU2017317554A1 (en) 2019-04-11
US11935549B2 (en) 2024-03-19
PL3504707T3 (pl) 2021-06-14
ES2844930T3 (es) 2021-07-23
CN109863556B (zh) 2023-09-26

Similar Documents

Publication Publication Date Title
KR102257100B1 (ko) 보상 값을 사용하여 오디오 신호를 인코딩하기 위한 장치 및 방법
JP6682683B2 (ja) 復号方法、コンピュータプログラム及び復号システム
RU2660605C2 (ru) Концепция заполнения шумом
KR101278546B1 (ko) 대역폭 확장 출력 데이터를 생성하기 위한 장치 및 방법
CA2715432C (en) System and method for enhancing a decoded tonal sound signal
Fuchs et al. Low delay LPC and MDCT-based audio coding in the EVS codec
BR112019020515A2 (pt) aparelho para pós-processamento de um sinal de áudio usando uma detecção de localização transiente
BR112019020491A2 (pt) aparelho e método para pós-processamento de um sinal de áudio usando formato com base em previsão

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right