KR20210021490A - 오디오 유사성 평가기, 오디오 인코더, 방법 및 컴퓨터 프로그램 - Google Patents

오디오 유사성 평가기, 오디오 인코더, 방법 및 컴퓨터 프로그램 Download PDF

Info

Publication number
KR20210021490A
KR20210021490A KR1020207037819A KR20207037819A KR20210021490A KR 20210021490 A KR20210021490 A KR 20210021490A KR 1020207037819 A KR1020207037819 A KR 1020207037819A KR 20207037819 A KR20207037819 A KR 20207037819A KR 20210021490 A KR20210021490 A KR 20210021490A
Authority
KR
South Korea
Prior art keywords
audio
modulation
audio signal
similarity
signal
Prior art date
Application number
KR1020207037819A
Other languages
English (en)
Other versions
KR102640748B1 (ko
Inventor
사샤 디쉬
스티븐 반 데르 파르
안드레아스 니더마이어
엘레나 부르디엘 페레즈
베른트 에들러
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20210021490A publication Critical patent/KR20210021490A/ko
Application granted granted Critical
Publication of KR102640748B1 publication Critical patent/KR102640748B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • G10L21/0388Details of processing therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
  • Toys (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

오디오 유사성 평가기는 입력 오디오 신호에 기초하여 복수의 주파수 범위들에 대해 엔벨로프 신호들을 획득한다. 오디오 유사성 평가기는 복수의 변조 주파수 범위들에 대해 엔벨로프 신호들과 연관된 변조 정보를 획득하도록 구성되며, 변조 정보는 엔벨로프 신호들의 변조를 기술한다. 오디오 유사성 평가기는 입력 오디오 신호 및 기준 오디오 신호 사이의 유사성에 대한 정보를 획득하기 위해, 기준 오디오 신호와 연관된 기준 변조 정보와 획득된 변조 정보를 비교하도록 구성된다. 오디오 인코더는 그러한 오디오 유사성 평가기를 이용한다. 또다른 오디오 유사성 평가기는 오디오 유사성 평가기를 이용하여 학습된 신경망을 이용한다.

Description

오디오 유사성 평가기, 오디오 인코더, 방법 및 컴퓨터 프로그램
본 발명에 따른 실시 예는 오디오 유사성 평가기에 관한 것이다.
본 발명에 따른 추가 실시 예는 오디오 인코더에 관한 것이다.
본 발명에 따른 추가 실시 예는 오디오 신호 간의 유사성을 평가하기 위한 방법에 관한 것이다.
본 발명에 따른 추가 실시 예는 오디오 신호를 인코딩하는 방법에 관한 것이다.
본 발명에 따른 추가 실시 예는 상기 방법을 수행하기 위한 컴퓨터 프로그램에 관한 것이다.
일반적으로, 본 발명에 따른 실시 예는 효율적인 지각 오디오 코덱을 위한 개선된 심리 음향 모델에 관한 것이다.
오디오 코딩은 이동 통신, 오디오 스트리밍, 오디오 방송, 텔레비전 등과 같은 많은 기술 분야에서 오디오 콘텐츠의 인코딩 및 디코딩이 중요하기 때문에 새로운 기술 분야가 되고 있다.
이하에서 지각 코딩에 대한 소개가 제공된다. 이하에서 논의되는 정의 및 세부 사항은 본 명세서에 개시된 실시 예와 관련하여 선택적으로 적용될 수 있음에 주목해야 한다.
지각적 코덱(perceptual codec)
mp3 또는 AAC와 같은 지각적 오디오 코덱은 오늘날의 멀티미디어 응용시 오디오를 코딩하는 데 널리 사용된다 [1]. 가장 널리 사용되는 코덱은 소위 파형 코더로, 이는 오디오의 시간 도메인 파형을 보존하고 인지적으로 제어된 양자화의 적용으로 인해 대부분 (들리지 않는) 잡음을 추가한다. 양자화는 일반적으로 시간-주파수 영역에서 발생할 수 있지만, 시간 영역에도 적용될 수 있다 [2]. 추가된 잡음을 들을 수 없게 하기 위해서, 심리 음향 모델, 일반적으로 지각 마스킹 모델의 제어하에서 형성된다.
오늘날의 오디오 응용시 낮은 비트 전송률에 대한 지속적인 요청이 있다. 지각 오디오 코덱은 전통적으로 이들 낮은 비트 전송률에서 적절한 지각 품질을 달성하기 위해 오디오 대역폭을 제한한다. 고효율 고급 오디오 코딩(HE-AAC) [4]의 스펙트럼 대역폭 복제(SBR) [3] 또는 MPEG-H 3D 오디오 [6] 및 3gpp 강화된 음성 ㅅ서비스(EVS) [7]의 지능형 갭 채움 (IGF) [5]와 같은 효율적인 세미-파라메트릭 기법이 대역 제한 오디오를 디코더 측에서 최대 대역폭까지 확장하는 데 사용된다. 이러한 기술을 대역폭 확장 (BWE)이라고 한다. 이러한 기술은 몇 가지 매개 변수에 의해 제어되는 누락된 고주파 콘텐츠의 추정치를 삽입한다. 일반적으로 가장 중요한 BWE 부가 정보는 엔벨로프 관련 데이터이다. 일반적으로, 추정 프로세스는 심리 음향 모델이 아닌 휴리스틱스에 의해 조정된다.
지각적 모델
오디오 코딩에 사용되는 심리 음향 모델은 주로 오류 신호가 인코딩할 원본 오디오 신호에 의해 인지적으로 마스킹되는지 여부를 평가하는 것에 따라 좌우된다. 이 접근 방식은 오류 신호가 파형 인코더에서 일반적으로 사용되는 양자화 프로세스로 인해 발생하는 경우에 잘 작동한다. 그러나, SBR 또는 IGF와 같은 파라메트릭 신호 표현의 경우, 아티팩트(artefact)가 거의 들리지 않을 때에도 오류 신호가 커지게 된다.
이것은 인간의 청각 시스템이 오디오 신호의 정확한 파형을 처리하지 않는다는 사실로 인한 것으로; 특정 상황에서 청각 시스템은 위상에 민감하지 않으며 스펙트럼 대역의 시간적 엔벨로프가 평가되는 주요 청각 정보가 된다. 예를 들어, 정현파 (부드러운 온셋 및 오프셋 포함)의 다른 시작 단계는 인지 가능한 효과를 갖지 않는다. 그러나, 고조파 복합 톤의 경우, 특히 여러 고조파가 하나의 청각 임계 대역에 속할 때, 상대적인 시작 위상이 지각적으로 중요할 수 있다 [8]. 이러한 고조파의 상대적 위상과 진폭은 원칙적으로 사람의 청각 시스템에 의해 처리될 수 있는 하나의 청각 임계 대역 내에서 표현되는 시간적 엔벨로프 모양에 영향을 미치게 된다.
이러한 상황을 고려할 때, 오디오 신호를 비교하고/하거나 계산 복잡성과 지각 관련성 사이의 개선된 균형을 제공하고/하거나 심리 음향 모델의 제어하에서 파라메트릭 기술을 처음으로 사용할 수 있게 하는 코딩 매개 변수에 대해 결정하기 위한 개념의 필요성이 대두되고 있다.
본 발명에 따른 실시 예는 오디오 유사성 평가기를 생성한다.
오디오 유사성 평가기는 (예를 들어, 스펙트럼 서브-대역에서 엔벨로프 복조를 수행하기 위해) 입력 오디오 신호에 기초하여 (예를 들어, 필터 뱅크 또는 감마 톤 필터 뱅크 및 정류 및 시간적 저역 통과 필터링 및 예를 들어 청각 시스템에서 사전 마스킹 및/또는 사후 마스킹을 모델링 할 수 있는 하나 이상의 적응 프로세스를 이용하여) 복수의 (바람직한 중첩) 주파수 범위에 대한 엔벨로프 신호를 획득하도록 구성된다.
오디오 유사성 평가기는 (예를 들어, 변조 필터 뱅크 또는 변조 필터를 사용하여) 복수의 변조 주파수 범위에 대한 엔벨로프 신호와 관련된 변조 정보 (예를 들어, 변조 필터의 출력 신호)를 획득하도록 구성되고, 이 때 변조 정보는 (예를 들어, 변조 필터 뱅크의 출력 신호 형태 또는 변조 필터의 출력 신호 형태로) 엔벨로프 신호의 변조를 설명한다 (또한 예를 들어 내부 표현으로 간주될 수 있다). 예를 들어, 오디오 유사성 평가기는 엔벨로프 변조 분석을 수행하도록 구성될 수 있다.
오디오 유사성 평가기는 입력 오디오 신호와 기준 오디오 신호 사이의 유사성에 대한 정보 (예를 들어, 입력 오디오 신호와 기준 오디오 신호 사이의 지각적 유사성을 설명하는 단일 값)를 획득하기 위해서, 획득한 변조 정보 (예를 들어, 내부 표현)를 기준 오디오 신호와 관련된 기준 변조 정보와 비교하도록 구성된다 (예를 들어, 내부 차이 표현을 사용하여, 이 때 내부 차이 표현은 예를 들어 획득 된 변조 정보와 기준 변조 정보 간의 차이를 설명할 수 있고, 공변조 정도에 기초한 내부 차이 표현의 스케일링 또는 내부 차이 표현의 양수 및 음수 값의 비대칭 가중치와 같은, 하나 이상의 가중 동작이나 수정 동작이 적용될 수 있다).
본 발명에 따른 이 실시 예는 복수의 변조 주파수 범위에 대한 엔벨로프 신호와 연관된 변조 정보가 (예를 들어, 엔벨로프 신호를 획득하고 변조 필터 뱅크일 수 있는 제 2 필터 뱅크를 사용하여 변조 정보를 획득하기 위해 제 1 필터 뱅크를 사용하여, 이 때 일부 사소한 추가 처리 단계도 정확도를 향상시키기 위해 사용됨) 적당한 노력으로 획득될 수 있다는 결과에 기초한다.
더욱이, 그러한 변조 정보는 많은 상황에서 인간의 청각적 인상에 잘 적응하는 것으로 밝혀졌으며, 이는 변조 정보의 유사성이 오디오 콘텐츠에 대한 유사한 인식에 해당함을 의미하는 반면, 주요 차이점은 일반적으로 오디오 콘텐츠가 다른 것으로 인식된다는 것을 나타내는 것을 의미한다. 따라서, 입력 오디오 신호의 변조 정보와 기준 오디오 신호와 관련된 변조 정보를 비교함으로써, 입력 오디오 신호가 기준 오디오 신호의 오디오 내용과 유사한 것으로 인식되는지 여부를 판단할 수 있다. 즉, 입력 오디오 신호와 관련된 변조 정보와 기준 오디오 신호와 관련된 변조 정보 간의 유사성 또는 차이를 나타내는 정량적 척도는 입력 오디오 신호의 오디오 콘텐츠와 기준 오디오 신호의 오디오 콘텐츠 사이의 유사성을 지각적으로 가중된 방식으로 나타내는 (정량적) 유사성 정보로서 역할을 할 수 있다.
따라서, 오디오 유사성 평가기에 의해 획득한 유사성 정보 (예를 들어, 입력 오디오 신호 (및/또는 기준 오디오 신호)의 특정 통로 (예를 들어, 프레임)와 관련된 단일 스칼라 값)는 (예를 들어, 입력 오디오 신호가 기준 오디오 신호의 저하 된 버전이라고 가정하는 경우) "입력 오디오 신호"가 기준 오디오 신호와 관련하여 지각적으로 저하되는 정도를 (예를 들어, 정량적 방식으로) 결정하는 데에 적합하다.
이 유사성 척도는 예를 들어, 손실 오디오 인코딩의 품질, 특히 손실 비파형 보존 오디오 인코딩의 품질을 결정하는 데 사용될 수 있다다고 밝혀졌다. 하나 이상의 주파수 범위에서 (엔벨로프 신호의) "변조"가 크게 변경되는 경우 예를 들어 유사성 정보는 비교적 큰 편차를 나타내므로, 일반적으로 청각적 인상이 저하되는 결과를 초래한다. 반면, 실제 신호 파형이 상당히 다른 경우에도, 다른 주파수 대역의 변조가 입력 오디오 신호와 기준 오디오 신호에서 유사한 경우, 유사성 평가기가 제공하는 유사성 정보는 일반적으로 비교적 높은 유사도 (또는 동등하게 비교적 작은 차이 또는 편차)를 나타낸다. 따라서 결과는 인간 청취자가 일반적으로 실제 파형에 특별히 민감하지 않다는 결과와 일치하지만, 서로 다른 주파수 대역에서 오디오 콘텐츠의 변조 특성과 관련하여 더 민감하다.
결론적으로, 본 명세서에서 설명된 유사성 평가기는 인간의 청각적 인상에 잘 적응된 유사성 정보를 제공한다.
바람직한 실시 예에서, 오디오 유사성 평가기는 엔벨로프 신호를 얻기 위해서, 중첩 필터 특성 (예를 들어, 중첩 통과 대역)을 갖는 복수의 필터 또는 필터링 동작 (예를 들어, 필터 뱅크 또는 감마 톤 필터 뱅크)을 적용하도록 구성된다 (이 때, 바람직하게, 필터의 대역폭 또는 필터링 동작이 필터의 중심 주파수가 증가함에 따라 증가함). 예를 들어, 상이한 엔벨로프 신호는 입력 오디오 신호의 상이한 음향 주파수 범위와 연관될 수 있다.
이 실시 예는 중첩 필터 특성을 갖는 필터 또는 필터링 동작을 사용하여 적당한 노력으로 엔벨로프 신호가 획득될 수 있다는 결과에 기초하는데, 왜냐하면 이것이 인간의 청각 시스템과 잘 일치하기 때문이다. 더욱이, 주파수가 증가함에 따라 필터나 필터링 동작의 대역폭을 증가시키는 것이 유리하다는 것이 밝혀졌는데, 왜냐하면 이것은 인간의 청각 시스템과 잘 일치하고 지각적으로 중요한 저주파 영역에서 양호한 주파수 해상도를 제공하면서 필터 수를 합리적으로 적게 유지하는 데 도움이 되기 때문이다. 따라서, 상이한 엔벨로프 신호는 일반적으로 입력 오디오 신호의 상이한 음향 주파수 범위와 연관되며, 이는 합리적인 주파수 해상도를 갖는 정확한 유사성 정보를 얻는 데 도움이 된다. 예를 들어, 상이한 주파수 범위에서 (예를 들어, 기준 오디오 신호에 대한 입력 오디오 신호의) 상이한 신호 저하가 이러한 방식으로 고려될 수 있다.
바람직한 실시 예에서, 오디오 유사성 평가기는 복수의 정류된 신호를 획득하기 위해서 (예를 들어, 내부 유모 세포를 모델링하기 위해서), 필터 또는 필터링 동작의 출력 신호에 정류 (예를 들어, 반파 정류)를 적용하도록 구성된다.
필터 또는 필터링 작업의 출력 신호에 정류를 적용함으로써 내부 유모 세포의 행동을 흡수할 수 있다. 또한 저역 통과 필터와 결합한 정류는 서로 다른 주파수 범위의 강도를 반영하는 엔벨로프 신호를 제공한다. 또한 정류 (가능하면 저역 통과 필터링)로 인해, 숫자 표현이 비교적 쉬어진다 (예를 들어 양수 값만 표현하면 되므로). 더욱이, 더 높은 주파수에 대한 위상 고정 및 그 손실의 현상은 상기 처리에 의해 모델링된다.
바람직한 실시 예에서, 오디오 유사성 평가기는 (예를 들어, 내부 유모 세포를 모델링하기 위해) 반파 정류 신호에 저역 통과 필터 또는 저역 통과 필터링 (예를 들어, 차단 주파수가 2500Hz 미만이거나 1500Hz 미만임)을 적용하도록 구성된다.
저역 통과 필터 또는 저역 통과 필터링 (예를 들어, 서로 다른 주파수 범위와 관련된 복수의 엔벨로프 신호의 각 엔벨로프 신호에 개별적으로 적용될 수 있음)을 사용하여, 내부 유모 세포의 비활성을 모델링할 수 있다. 또한, 저역 통과 필터링을 수행함으로써 데이터 샘플의 양이 감소되고 저역 통과 필터링된 (바람직하게는 정류된) 대역 통과 신호의 추가 처리가 용이해진다. 따라서, 바람직하게는 복수의 필터 또는 필터링 동작의 정류 및 저역 통과 필터링된 출력 신호가 엔벨로프 신호로 작용할 수 있다.
바람직한 실시 예에서, 오디오 유사성 평가기는 엔벨로프 신호를 획득하기 위해서, 자동 이득 제어를 적용하도록 구성된다.
엔벨로프 신호를 얻기 위해 자동 이득 제어를 적용하면, 엔벨로프 신호의 동적 범위가 제한되어 수치 문제를 줄일 수 있다. 또한, 게인의 적응을 위해 특정 시상수를 사용하는 자동 게인 제어의 사용으로 청각 시스템에서 발생하는 마스킹 효과를 모델링하므로, 오디오 유사성 평가기에 의해 획득한 정보의 유사성이 인간의 청각적 인상을 반영한다고 밝혀졌다.
바람직한 실시 예에서, 오디오 유사성 평가기는 입력 오디오 신호에 기초하여 복수의 필터 또는 필터 동작에 의해 제공되는 정류 및 저역 통과 필터링된 신호에 기초하여 엔벨로프 신호를 유도하기 위해 적용되는 이득을 변경하도록 구성된다.
(입력 오디오 신호를 기반으로) 복수의 필터 또는 필터 동작에 의해 제공되는 정류 및 저역 통과 필터링된 신호를 기반으로 엔벨로프 신호를 유도하는 데 적용되는 게인을 변경하는 것은 자동 이득 제어를 구현하는 효율적인 수단이라고 밝혀졌다. 자동 이득 제어는 복수의 필터 또는 필터 동작에 의해 제공되는 신호의 정류 및 저역 통과 필터링 후에 쉽게 구현될 수 있음을 밝혀졌다. 즉, 자동 이득 제어는 주파수 범위별로 개별적으로 적용되며, 이러한 행동은 사람의 청각 시스템과 잘 일치하는 것으로 밝혀졌다.
바람직한 실시 예에서, 오디오 유사성 평가기는 시변형 이득 값에 따라 시변형 스케일링을 적용하는, 일련의 두 개 이상의 적응 루프 (바람직하게는 5 개의 적응 루프)를 사용하는 입력 오디오 신호에 기초하여 복수의 필터 또는 필터링 동작 (예를 들어, 감마 톤 필터 뱅크에 의해 제공됨)에 의해 제공되는 신호의 정류 및 저역 통과 필터링된 버전을 처리하도록 구성된다 (예를 들어, 다단계 자동 이득 제어를 수행하기 위해서, 이 때 이득 값은 각 단계의 상대적으로 큰 입력 신호 또는 출력 신호에 대해 비교적 작은 값으로 설정되고, 이득 값은 각 단계의 비교적 더 적은 입력 값이나 출력 값에 대해 비교적 더 큰 값으로 설정됨). 선택적으로, 예를 들어 오버슈트, 예를 들어, "제한자"를 제한하거나 방지하기 위해 하나 이상의 출력 신호에 대한 제한이 있다.
오디오 유사성 평가기는 서로 다른 시상수를 사용하여 서로 다른 시변형 게인 값 (일련의 적응 루프 내 서로 다른 단계와 관련됨)을 조정하도록 구성된다 (예를 들어, 오디오 신호의 시작 부분에서 사전 마스킹을 모델링하고/하거나 오디오 신호의 오프셋 후 사후 마스킹을 모델링하기 위해).
시변 이득 값에 따라 시변 스케일링을 적용하는 일련의 두 개 이상의 적응 루프의 사용이 인간 청각 시스템에서 발생하는 다른 시상수를 모델링하는 데 잘 적응하는 것으로 인식되었다. 서로 다른 캐스케이드 적응 루프에서 사용되는 서로 다른 시변형 게인 값을 조정할 때, 사전 마스킹 및 사후 마스킹의 서로 다른 시상수를 고려할 수 있다. 또한, 인간의 청각 시스템에서 발생하는 추가적인 적응 마스킹 프로세스는 적당한 계산을 위한 노력으로 모델링될 수 있다. 예를 들어, 서로 다른 시변형 이득 값을 조정하는 데 사용되는 서로 다른 시상수는 사람의 청각 시스템에서 서로 다른 시상수에 적응될 수 있다.
결론적으로 시변 척도 값에 따라 시변 척도를 적용하는 두 개 이상의 적응 루프의 시리즈 (또는 캐스케이드) 사용하게 되면, 입력 오디오 신호와 기준 오디오 신호 사이의 유사성을 설명하는 유사성 정보를 얻기 위한 목적에 적합한 엔벨로프 신호를 제공한다.
바람직한 실시 예에서, 오디오 유사성 평가기는 (예를 들어, 상이한 변조 주파수를 갖는 엔벨로프 신호의 성분이 적어도 부분적으로 분리되도록) 변조 정보를 획득하기 위해 상이한 (중첩 가능한) 통과 대역을 갖는 복수의 변조 필터 (예를 들어, 변조 필터 뱅크)를 엔벨로프 신호에 적용하도록 구성된다 (이 때, 예를 들어, 상이한 변조 주파수 범위와 연관된 복수의 변조 필터가 제 1 음향 주파수 범위와 연관된 제 1 엔벨로프 신호에 적용되고, 예를 들어, 상이한 변조 주파수 범위와 연관된 복수의 변조 필터가 제 1 음향 주파수 범위와 다른 제 2 음향 주파수 범위와 관련된 제 2 엔벨로프 신호에 적용됨).
(다른 주파수 범위와 연관된) 엔벨로프 신호의 변조를 나타내는 의미있는 정보는 엔벨로프 신호를 필터링하는 변조 필터를 사용하여 적은 노력으로 획득될 수 있다고 밝혀졌다. 예를 들어, 서로 다른 통과 대역을 가진 변조 필터 세트를 엔벨로프 신호 중 하나에 적용하게 되면 임의의 엔벨로프 신호에 대한 (또는 주어진 엔벨로프 신호와 연관되거나, 입력 오디오 신호의 주파수 범위와 연관됨) 신호 (또는 값)의 세트가 결과된다. 따라서, 단일 엔벨로프 신호에 기초하여 복수의 변조 신호가 얻어질 수 있고, 복수의 엔벨로프 신호에 기초하여 상이한 세트의 변조 신호가 얻어 질 수 있다. 변조 신호들 각각은 변조 주파수 또는 변조 주파수 범위와 연관될 수 있다. 결과적으로, 변조 신호 (변조 필터에 의해 출력될 수 있음) 또는 보다 정확하게 그 세기는 엔벨로프 신호 (특정 주파수 범위와 관련됨)가 어떻게 변조 (예를 들어, 시간 변조)되는지를 설명할 수 있다. 따라서, 상이한 엔벨로프 신호에 대해 별도의 변조 신호 세트가 얻어질 수 있다.
이러한 변조 신호는 변조 정보를 얻기 위해 사용될 수 있으며, 이 때 변조 필터에 의해 제공되는 변조 신호로부터 변조 정보 (기준 오디오 신호와 연관된 변조 정보와 비교됨)를 유도하기 위해 상이한 후 처리 동작이 사용될 수 있다.
결론적으로, 복수의 변조 필터의 사용은 정보에 대한 변조 이득의 유도에 사용될 수 있는 구현이 간단한 접근 방식이라는 것이 밝혀졌다.
바람직한 실시 예에서, 변조 필터는 상이한 주파수 (예를 들어, 상이한 변조 주파수)를 갖는 엔벨로프 신호의 성분을 적어도 부분적으로 분리하도록 구성되며, 이 때 제 1 최저 주파수 변조 필터의 중심 주파수는 5Hz보다 작으며, 최고 주파수 변조 필터의 중심 주파수는 200Hz와 300Hz 사이의 범위에 있다.
이러한 변조 필터의 중앙 주파수를 사용하게 되면 인간의 지각에 가장 적합한 변조 주파수 범위가 포함된다는 것이 밝혀졌다.
바람직한 실시 예에서 오디오 유사성 평가기는 (예를 들어, 각 변조 필터의 중앙 주파수의 절반의 차단 주파수로 변조 필터의 출력 신호를 저역 통과 필터링하고, 변조 필터의 출력 신호로부터 저역 필터링으로부터 결과된 신호를 감하여) 변조 정보를 획득할 때 DC 성분을 제거하도록 구성된다.
변조 정보를 획득할 때 DC 성분을 제거하면 일반적으로 엔벨로프 신호에 포함되는 강력한 DC 성분에 의한 변조 정보의 저하를 피하는 데 도움이 된다는 것이 밝혀졌다. 또한 엔벨로프 신호를 기반으로 변조 정보를 획득할 때 DC 제거를 사용하여, 변조 필터의 가파른 정도는 상당히 작게 유지될 수 있으며, 이는 변조 필터의 구현을 용이하게 한다.
바람직한 실시 예에서, 오디오 유사성 평가기는 변조 정보를 획득할 때 위상 정보를 제거하도록 구성된다.
위상 정보를 제거하면, 이러한 정보를 무시할 수 있으며, 이는 입력 오디오 신호와 관련된 변조 정보와 기준 오디오 신호와 관련된 변조 정보의 비교시, 일반적으로 많은 경우 인간 청취자에게는 특히 중요하지 않다. 특히 비파형 보존 수정 (예를 들어, 비파형 보존 인코딩 및 디코딩 작업)이 입력 오디오 신호에 적용되는 경우, 변조 필터의 출력 신호의 위상 정보는 일반적으로 비교 결과를 저하시키는 것으로 나타났다. 따라서, 입력 오디오 신호와 기준 오디오 신호를 유사성의 정도가 적은 것으로 분류하는 것을, 사람의 지각이 이 신호들을 매우 유사한 것으로 분류하더라도, 피할 수 있다.
바람직한 실시 예에서, 오디오 유사성 평가기는 획득한 변조 정보 (예를 들어, 내부 표현)와 기준 오디오 신호와 연관된 기준 변조 정보 사이의 차이를 나타내는 스칼라 값을 유도하도록 구성된다 (예를 들어, 음향 주파수 범위 당 복수의 음향 주파수 범위 및 복수의 변조 주파수 범위에 대한 샘플 값을 포함할 수 있는 획득한 변조 정보와, 음향 주파수 범위 당 복수의 음향 주파수 범위 및 복수의 변조 주파수 범위에 대한 샘플 값을 또한 포함할 수 있는 기준 변조 정보 간 차이 제곱의 합을 나타내는 값).
(단일) 스칼라 값은 입력 오디오 신호와 연관된 변조 정보와 기준 오디오 신호와 연관된 변조 정보 간의 차이를 잘 나타낼 수 있다는 것이 밝혀졌다. 예를 들어, 변조 정보는 상이한 변조 주파수 및 복수의 주파수 범위에 대한 개별 신호 또는 값을 포함할 수 있다. 이러한 모든 신호 또는 값 간의 차이를 단일 스칼라 값으로 결합하여 ("거리 측정" 또는 "norm"의 형태를 취할 수 있음), 입력 오디오 신호와 기준 오디오 신호 사이의 유사성에 대해 간결하고 의미 있는 평가를 행할 수 있다. 또한 이러한 단일 스칼라 값은 코딩 매개 변수 (예를 들어, 인코딩 매개 변수 및/또는 디코딩 매개 변수)를 선택하거나, 입력 오디오 신호의 처리를 위해 적용될 수 있는 임의의 다른 오디오 신호 처리 매개 변수에 대해 결정하기 위해서 메커니즘에 의해 쉽게 사용될 수 있다.
차이 표현의 결정은 유사성 정보를 도출하기 위한 효율적인 중간 단계일 수 있다는 것이 밝혀졌다. 예를 들어, 차이 표현은 입력 오디오 신호를 기준 오디오 신호와 비교할 때 서로 다른 변조 주파수 빈 (예를 들어, 별도의 변조 주파수 빈의 세트가 서로 다른 주파수 범위와 연관된 서로 다른 엔벨로프 신호와 연관될 수 있음) 간의 차이를 나타낼 수 있다.
예를 들어, 차이 표현은 벡터일 수 있으며, 이 때 벡터의 각 엔트리는 변조 주파수 및 고려중인 (입력 오디오 신호 또는 기준 오디오 신호의) 주파수 범위와 연관될 수 있다. 이러한 차이 표현은 사후 처리에 적합하며 유사성 정보를 나타내는 단일 스칼라 값의 간단한 유도도 허용한다.
바람직한 실시 예에서, 오디오 유사성 평가기는 획득한 변조 정보 (예를 들어, 내부 표현)를 기준 오디오 신호와 연관된 기준 변조 정보와 비교하기 위해 차이 표현 (예를 들어, IDR)을 결정하도록 구성된다.
바람직한 실시 예에서, 오디오 유사성 평가기는 2 개 이상의 인접한 음향 주파수 범위에서 획득한 엔벨로프 신호 또는 변조 정보 간 또는 2 개 이상의 인접한 음향 주파수 범위에서 기준 신호와 연관된 엔벨로프 신호 간 또는 기준 변조 정보 간의 공변조에 따라 획득한 변조 정보 (예를 들어, 내부 표현)와 기준 오디오 신호와 연관된 기준 변조 정보 간의 차이의 가중치를 조정하도록 구성된다 (예를 들어, 상대적으로 낮은 수준의 공변조가 결과된 경우에 비해 상대적으로 높은 수준의 공변조가 결과된 경우, 획득한 변조 정보와 기준 변조 정보의 차이에 증가된 가중치가 부여되고, 공변조의 정도는 예를 들어, 다른 음향 주파수 범위와 관련된 시간적 엔벨로프 간의 공분산을 결정함으로써 결과된다).
획득한 변조 정보와 기준 변조 정보 (예를 들어, "차이 표현"으로 표현될 수 있음) 간의 차이의 가중치를 공변조 정보에 따라 조정하는 것은 인접한 주파수 범위에서 공변조가 있는 경우 변조 정보 간의 차이가 사람 청취자에 의해 더 강하게 인식될 수 있기 때문에 유리하다고 밝혀졌다. 예를 들어, 상대적으로 낮은 정도 또는 양의 공변조가 결과된 경우에 비해 상대적으로 높은 정도의 공변조가 결과되는 경우 획득한 변조 정보와 기준 변조 정보의 차이에 증가된 가중치를 연관시킴으로써, 유사성 정보의 결정이 인간 청각 시스템의 특성에 맞게 조정될 수 있다. 결과적으로 유사성 정보의 품질이 향상될 수 있다.
바람직한 실시 예에서, 오디오 유사성 평가기는, 입력 오디오 신호와 기준 오디오 신호 간의 유사성에 대한 정보 (예를 들어, 유사성에 대한 정보를 설명하는 단일 스칼라 값)를 결정할 때, 획득한 변조 정보 (예를 들어, 내부 표현)와 입력 오디오 신호에 신호 성분이 없음을 나타내는 기준 오디오 신호와 관련된 기준 변조 정보간의 차이와 비교하여, 획득한 변조 정보 (예를 들어, 내부 표현)와 입력 오디오 신호가 추가 신호 구성 요소를 포함함을 나타내는 기준 오디오 신호와 연관된 기준 변조 정보 간의 차이에 더 높은 가중치를 두도록 구성된다.
(입력 오디오 신호에 신호 성분이 없음을 나타내는 차이와 비교하여) 획득한 변조 정보와 오디오 신호가 추가 신호 성분을 포함함을 나타내는 기준 신호와 관련된 기준 변조 정보 간의 차이에 더 높은 가중치를 부여하는 것은, 입력 오디오 신호와 기준 오디오 신호 간의 차이에 대한 정보를 결정할 때 추가된 신호 (또는 신호 구성 요소 또는 반송파)의 기여도를 강조한다. 추가된 신호 (또는 신호 구성 요소 또는 반송파)는 일반적으로 누락된 신호 (또는 신호 구성 요소 또는 반송파)와 비교할 때 더 왜곡되는 것으로 인식된다. 이 사실은 입력 오디오 신호와 관련된 변조 정보와 기준 오디오 신호와 관련된 변조 정보 간 양 및 음의 값 차이의 "비대칭" 가중치에 의해 고려될 수 있다. 이러한 방식으로 유사성 정보를 인간 청각 시스템의 특성에 맞게 조정할 수 있다.
바람직한 실시 예에서, 오디오 유사성 평가기는 입력 오디오 신호와 기준 오디오 신호 간의 유사성에 대한 정보를 결정할 때 다른 가중치를 사용하여 획득한 변조 정보와 기준 변조 정보 (일반적으로 많은 수의 값을 포함함) 간의 차이의 양수 및 음수 값에 가중치를 부여하도록 구성된다.
획득한 변조 정보와 기준 변조 정보 간 (또는 더 정확하게는 위에서 언급한 벡터 항목 간) 차이의 양수 및 음수 값에 다른 가중치를 적용함으로써, 추가 및 누락된 신호 또는 신호 구성 요소 또는 반송파에 의한 서로 다른 영향을 매우 적은 계산 노력으로 고려할 수 있다.
본 발명에 따른 다른 실시 예는 오디오 신호를 인코딩하기 위한 오디오 인코더를 생성한다. 오디오 인코더는 인코딩될 오디오 신호와 인코딩된 오디오 신호 사이의 유사성 평가에 따라 하나 이상의 코딩 매개 변수 (예를 들어, 인코딩 매개 변수 또는 디코딩 매개 변수는 오디오 인코더에 의해 오디오 디코더로 신호를 보내는 것이 바람직함)를 결정하도록 구성된다. 오디오 인코더는 여기에서 논의된 오디오 유사성 평가기를 사용하여 인코딩될 오디오 신호와 인코딩된 오디오 신호 (예를 들어, 디코딩 버전) 간의 유사성을 평가하도록 구성된다 (이 때, 인코딩될 오디오 신호가 기준 오디오 신호로 사용되고, 하나 이상의 후보 매개 변수를 사용하여 인코딩된 오디오 신호의 디코딩된 버전이 오디오 유사성 평가기에 대한 입력 오디오 신호로 사용된다).
이 오디오 인코더는 위에서 언급한 유사성 정보의 결정이 오디오 인코딩에 의해 얻을 수 있는 청각적 인상의 평가에 적합하다는 결과에 기초한다. 예를 들어, 인코딩될 오디오 신호를 기준 신호로 사용하여 유사성 정보를 획득하고, 인코딩될 오디오 신호의 인코딩과 후속 디코딩된 버전을 유사성 정보의 결정을 위한 입력 오디오 신호로 사용함으로써, 인코딩 및 디코딩 프로세스가 지각 손실 거의 없이 인코딩될 오디오 신호를 재구성하는 데 적합한 지의 여부를 평가할 수 있다. 그러나, 위에서 언급한 유사성 정보의 결정은 파형의 일치보다는 얻을 수 있는 청각 인상에 초점을 맞춘다. 따라서, 획득한 유사성 정보를 사용하여 (코딩 매개 변수의 특정 선택 중에서) 어떤 코딩 매개 변수가 최상의 (또는 적어도 충분히 좋은) 청력 인상을 제공하는지 알 수 있다. 따라서, 상기 언급한 유사성 정보의 결정은 파형의 동일성 (또는 유사성)을 요구하지 않고 코딩 매개 변수에 대한 결정을 내리는 데 사용될 수 있다.
따라서, 비실용적인 제한 (파형 유사성 등)을 피하면서 코딩 매개 변수를 안정적으로 선택할 수 있다.
바람직한 실시 예에서, 오디오 인코더는 오디오 인코더에 의해 인코딩된 다른 주파수 범위의 오디오 콘텐츠를 기반으로 하여 (예를 들어, 오디오 인코더는 파라메트릭 또는 세미-파라메트릭 오디오 인코더임), 누락된 오디오 콘텐츠 (예를 들어, 오디오 인코더에 의해 파형 보존 방식으로 인코딩되지 않은 고주파 콘텐츠)를 도출하기 위해 오디오 디코더 측에서 사용될 처리 규칙을 정의하는 하나 이상의 대역폭 확장 매개 변수를 인코딩하도록 구성된다.
전술한 유사성 정보의 결정은 대역폭 확장 매개 변수의 선택에 매우 적합하다는 것이 밝혀졌다. 대역폭 확장 매개 변수인 매개 변수 대역폭 확장은 일반적으로 파형을 보존하지 않는다는 점에 유의해야 한다. 또한, 위에서 언급한 오디오 신호의 유사성 결정은 대역폭 확장이 일반적으로 활성화되고 인간의 청각 시스템이 일반적으로 위상에 민감하지 않은, 더 높은 오디오 주파수 범위에서 유사성 또는 차이를 평가하는 데 매우 적합하다는 것이 밝혀졌다. 따라서, 이 개념은 효율적이고 지각적으로 정확한 방식으로, 예를 들어 저주파 성분에 기초하여 고주파 성분을 도출 할 수 있는 대역폭 확장 개념을 판단할 수 있게 한다.
바람직한 실시 예에서, 오디오 인코더는 지능형 갭 채움 (예를 들어, MPEG-H 3D 오디오 표준, 예를 들어, 본 출원의 출원일에 사용 가능한 버전 또는 그 수정으로 정의된 바와 같이)을 사용하도록 구성되며, 오디오 인코더는 인코딩될 오디오 신호와 인코딩된 오디오 신호 사이의 유사성 평가를 사용하여 지능형 갭 채움의 하나 이상의 매개 변수를 결정하도록 구성된다 (이 때, 예를 들어, 인코딩될 오디오 신호가 기준 오디오 신호로 사용되고, 예를 들어, 하나 이상의 후보 지능형 갭 채우기 매개 변수를 사용하여 인코딩된 오디오 신호의 디코딩된 버전이 오디오 유사성 평가를 위한 입력 오디오 신호로서 사용됨).
오디오 신호 간의 유사성 평가에 대해 위에서 언급한 개념은 오디오 신호 간의 유사성을 결정할 때 청각적 인상에 매우 중요한 기준을 고려하기 때문에, "지능형 갭 채춤"의 맥락에서 사용하기에 적합하다는 것이 밝혀졌다.
바람직한 실시 예에서, 오디오 인코더는 인코딩될 오디오 신호와 인코딩된 오디오 신호 사이의 유사성 평가에 따라 대역폭 확장을 위한 소스 주파수 범위와 타겟 주파수 범위 사이의 하나 이상의 연관 (예를 들어, 선택 가능한 복수의 소스 주파수 범위 중 어떤 소스 주파수 범위를 기준으로 타겟 주파수 범위의 오디오 콘텐츠를 결정해야 하는지를 결정하는 연관) 및/또는 대역폭 확장을 위한 하나 이상의 처리 동작 매개 변수 (예를 들어, 소스 주파수 범위 및/또는 음조 속성의 적응 및/또는 스펙트럼 엔벨로프의 적응에 기초하여, 타겟 주파수 범위의 오디오 콘텐츠를 제공할 때 실행되는 화이트닝 동작 또는 랜덤 노이즈 대체와 같은 처리 동작의 매개 변수를 결정할 수 있음)를 선택하도록 구성된다.
소스 주파수 범위와 타겟 주파수 범위 사이의 하나 이상의 연관 선택 및/또는 대역폭 확장을 위한 하나 이상의 처리 작업 매개 변수 선택이 오디오 신호 간의 유사성을 평가하기 위해 위에서 언급한 접근 방식을 사용하여 좋은 결과를 얻을 수 있다고 밝혀졌다. 인코딩할 "원본" 오디오 신호를 (특정 연관 및/또는 소스 주파수 범위와 타겟 주파수 범위 사이 또는 소스 주파수 범위와 타겟 주파수 범위 사이의 특정 처리를 사용하여 다시 인코딩 및 디코딩되는) 인코딩 및 디코딩된 버전과 비교함으로써, 특정 협회가 원본과 유사한 청각적 인상을 제공하는지 여부를 판단할 수 있다.
다른 처리 작업 매개 변수의 선택에도 동일하게 적용된다. 따라서 오디오 인코딩 (및 오디오 디코딩)의 다른 설정에 대해, 인코딩 및 디코딩된 오디오 신호가 (원본) 입력 오디오 신호와 얼마나 잘 일치하는지 확인함으로써, 오디오 콘텐츠의 인코딩 및 디코딩된 버전을 오디오 콘텐츠의 원본 버전과 비교할 때 (소스 주파수 범위와 타겟 주파수 범위 간, 또는 소스 주파수 범위와 타겟 주파수 범위 간) 어느 특정 연관성이 최상의 유사성 (또는 적어도 충분히 좋은 유사성)을 제공하는지 알아낼 수 있다. 따라서 적절한 인코딩 설정 (예를 들어, 소스 주파수 범위와 대상 주파수 범위 간의 적절한 연관성)을 선택할 수 있다. 더욱이, 추가 처리 작업 매개 변수는 동일한 접근 방식을 사용하여 선택될 수도 있다.
바람직한 실시 예에서, 오디오 인코더는 대역폭 확장을 위해 소스 주파수 범위와 타겟 주파수 범위 사이의 하나 이상의 연관을 선택하도록 구성된다. 오디오 인코더는 이전 또는 새로운 타겟 주파수 범위에서 (예를 들어, 인코딩할 오디오 신호의) 엔벨로프의 변조 평가에 따라 소스 주파수 범위와 타겟 주파수 범위 사이의 연관성의 변경을 선택적으로 허용하거나 금지하도록 구성된다.
이러한 개념을 이용하여, 소스 주파수 범위와 타겟 주파수 범위 사이의 연관성의 변화가 눈에 띄는 아티팩트를 가져오는 경우, 소스 주파수 범위와 타겟 주파수 범위 간의 연관성 변경이 방지될 수 있다. 따라서, 지능형 갭 채움의 주파수 편이 사이의 전환이 제한될 수 있다. 예를 들어, 연관 변경으로 인한 변조를 (충분히) 마스킹하는 엔벨로프의 충분한 (예를 들어, 특정 임계 값보다 높은) 변조가 있는 것으로 확인된 경우 소스 주파수 범위와 타겟 주파수 범위 간의 연관성 변경이 선택적으로 허용될 수 있다.
바람직한 실시 예에서, 오디오 인코더는 인코더의 프레임 속도에 대응하는 변조 주파수 범위에서 (이전 또는 새로운) 타겟 주파수 범위에서 엔벨로프의 변조 강도를 결정하고 (예를 들어 유사성 측정 값이 변조 강도에 반비례하도록) 결정된 변조 강도에 따라 감도 측정을 결정하도록 구성된다.
오디오 인코더는 (예를 들어, 민감도 측정 값이 미리 결정된 임계 값보다 작은 경우에 타겟 주파수 범위와 소스 주파수 범위 간의 연관성의 변경만 허용하거나, 타겟 주파수 범위에서 임계 레벨보다 큰 변조 강도가 있을 때 타겟 주파수 범위와 소스 주파수 범위 사이의 연관성의 변경을 허용하기 위해서) 민감도 측정에 따라 타겟 주파수 범위와 소스 주파수 범위 간의 연관성을 변경하는 것이 허용 또는 금지되는지 여부를 결정하도록 구성된다.
따라서, 이러한 변화로 인한 (기생) 변조가 (기생 변조가 유도되는) 타겟 주파수 범위의 (원래) 변조에 의해 충분히 마스킹된 경우에만 타겟 주파수 범위와 소스 주파수 범위 간의 연관성의 변경이 발생한다는 결과에 도달할 수 있다. 따라서 가청 아티팩트를 효과적으로 방지할 수 있다.
본 발명에 따른 실시 예는 오디오 신호를 인코딩하기 위한 오디오 인코더를 생성하고, 이 때 오디오 인코더는 신경망(neural network)을 사용하여 인코딩될 오디오 신호에 따라 하나 이상의 코딩 매개 변수를 결정하도록 구성된다. 신경망은 본 명세서에서 논의되는 오디오 유사성 평가기를 사용하여 학습된다.
위에서 언급한 오디오 유사성 값 평가기를 사용하여 학습된 신경망을 사용하여 하나 이상의 코딩 매개 변수를 결정함으로써, 계산의 복잡성을 더욱 줄일 수 있다. 즉, 본 명세서에서 언급한 오디오 유사성 평가는 신경망에 대한 훈련 데이터를 제공하는 데 사용될 수 있고, 신경망은 오디오 유사성 평가기를 사용하여 오디오 품질을 평가함으로써 획득되는 코딩 매개 변수 결정과 충분히 유사한 코딩 매개 변수 결정을 내리기 위해 스스로 적응할 수 있다 (또는 적응될 수 있다).
본 발명에 따른 실시 예는 오디오 유사성 평가기를 생성한다.
오디오 유사성 평가기는 (예를 들어 스펙트럼 서브 밴드에서 엔벨로프 복조를 수행하기 위해서) 입력 오디오 신호를 기반으로 하여 (예를 들어, 필터 뱅크 또는 감마 톤 필터 뱅크 및 정류 및 시간적 저역 통과 필터링 및 예를 들어 청각 시스템에서 사전 마스킹 및/또는 사후 마스킹을 모델링할 수 있는 하나 이상의 적응 프로세스 사용하여) 복수의 (중첩 가능한) 주파수 범위에 대한 엔벨로프 신호를 얻도록 구성된다.
오디오 유사성 평가기는 입력 오디오 신호와 기준 오디오 신호 (예를 들어, 입력 오디오 신호와 기준 오디오 신호 사이의 지각적 유사성을 설명하는 단일 값)간의 유사성에 대한 정보를 얻기 위해서, 입력 오디오 신호의 분석 표현 (예 : 획득 된 변조 정보 또는 시간-주파수 도메인 표현과 같은 "내부 표현")을 기준 오디오 신호와 관련된 기준 분석 표현과 비교하도록 구성된다 (예를 들어, 내부 차이 표현을 사용하여, 이 때 내부 차이 표현은 예를 들어 획득된 분석 표현과 기준 분석 표현 사이의 차이를 설명할 수 있으며, 공변조의 정도에 기초한 내부 차이 표현의 스케일링 또는 내부 차이 표현의 양수 및 음수 값의 비대칭 가중치와 같이, 하나 이상의 가중 동작 또는 수정 동작이 적용될 수 있음).
오디오 유사성 평가기는 입력 오디오 신호의 2 개 이상의 인접한 음향 주파수 범위에서 (예를 들어, 획득한 엔벨로프 신호 또는 획득 된 변조 정보 간) 공변조 또는 기준 오디오 신호의 2 개 이상의 인접한 음향 주파수 범위에서 (예를 들어, 기준 신호와 연관된 엔벨로프 신호 간 또는 기준 변조 정보 간) 공변조에 따라, 획득한 분석 표현 (예를 들어, 변조 정보, 예를 들어 내부 표현)과 기준 분석 표현 (예를 들어, 기준 오디오 신호와 연관된 기준 변조 정보) 간의 차이 가중치를 조정하도록 구성된다 (이 때, 예를 들어, 상대적으로 낮은 혼화도가 결과된 경우에 비해 상대적으로 높은 혼화도가 결과된 경우 차이에 더 큰 가중치가 부여되고, 예를 들어, 서로 다른 음향 주파수 범위와 관련된 시간적 엔벨로프 사이의 공분산을 결정함으로써 공분산의 정도가 결과된다).
이 실시 예는 일반적으로 2 개 이상의 인접 주파수 범위에서의 공변조가 공변조된 주파수 범위에서의 왜곡이 비-공변조 (또는 약하게 공변조된) 인접 주파수 범위에서의 왜곡보다 더 강하게 인식되는 효과를 갖는다는 결과에 기초한다. 따라서, (비공변조되거나 약하게 공변조된 주파수 범위의 가중치와 비교할 때), 강하게 공변조된 주파수 범위에서 상대적으로 강하게 비교될 오디오 신호 간의 편차 (예 : 입력 오디오 신호와 기준 오디오 신호 간의 차이)를 가중하여, 오디오 품질의 평가는 사람의 지각에 잘 맞는 방식으로 수행될 수 있다. 일반적으로, 복수의 주파수 범위에 대한 엔벨로프 신호를 기반으로 할 수 있는 획득된 분석 표현 간의 차이를 비교할 수 있고, 그러한 분석 표현에서, 상대적으로 더 높은 공변조를 포함하는 주파수 범위는 상대적으로 더 작은 공변조를 포함하는 주파수 범위보다 더 강하게 가중될 수 있다.
본 발명에 따른 실시 예는 오디오 신호 간의 유사성을 평가하기 위한 방법을 생성한다.
이 방법은 (예를 들어, 스펙트럼 부대역에서 엔벨로프 복조를 수행하기 위해) 입력 오디오 신호에 기초하여 (예를 들어, 필터 뱅크 또는 감마 톤 필터 뱅크 및 정류 및 시간적 저역 통과 필터링 및 예를 들어 청각 시스템에서 사전 마스킹 및/또는 사후 마스킹을 모델링할 수 있는 하나 이상의 적응 프로세스 사용하여) 복수의 (바람직한 중첩) 주파수 범위에 대한 엔벨로프 신호를 획득하는 단계를 포함한다.
이 방법은 (예를 들어, 변조 필터 뱅크 사용 또는 변조 필터 사용하여) 복수의 변조 주파수 범위에 대한 엔벨로프 신호와 관련된 변조 정보 (예를 들어, 변조 필터의 출력 신호)를 획득하는 단계를 포함한다. 변조 정보는 (예를 들어, 변조 필터 뱅크의 출력 신호 형태로 또는 변조 필터의 출력 신호 형태로) 엔벨로프 신호 (예를 들어, 시간 엔벨로프 신호 또는 스펙트럼 엔벨로프 신호)의 변조를 설명한다. 변조 정보는 예를 들어 내부 표현으로 간주될 수 있으며, 예를 들어 엔벨로프 변조 분석을 수행하는 데 사용될 수 있다.
이 방법은 입력 오디오 신호와 기준 오디오 신호의 유사성에 대한 정보 (예를 들어, 입력 오디오 신호와 기준 오디오 신호 간의 지각 적 유사성을 설명하는 단일 값)를 얻기 위해서, 획득된 변조 정보 (예를 들어, 내부 표현)를 기준 오디오 신호와 관련된 기준 변조 정보와 비교하는 단계를 포함한다 (예를 들어, 내부 차이 표현을 사용하여, 이 때 내부 차이 표현은 예를 들어 획득된 변조 정보와 기준 변조 정보 간의 차이를 설명 할 수 있고, 공동 변조 정도에 기초한 내부 차이 표현의 스케일링 또는 내부 차이 표현의 양수 및 음수 값의 비대칭 가중치와 같이 하나 이상의 가중 동작 또는 수정 동작이 적용될 수 있다).
본 발명에 따른 실시 예는 오디오 신호를 인코딩하는 방법을 생성하고, 이 때 상기 방법은 인코딩될 오디오 신호와 인코딩된 오디오 신호 간의 유사성의 평가에 따라 하나 이상의 코딩 매개 변수를 결정하는 단계를 포함하고, 상기 방법은 본 명세서에서 논의되는 바와 같이 인코딩될 오디오 신호와 인코딩된 오디오 신호 간의 유사성을 평가하는 단계를 포함한다 (예를 들어, 인코딩될 오디오 신호가 기준 오디오 신호로 사용되고, 하나 이상의 후보 매개 변수를 사용하여 인코딩된 오디오 신호의 디코딩 버전이 오디오 유사성 평가기에 대한 입력 오디오 신호로 사용됨).
본 발명에 따른 실시 예는 오디오 신호를 인코딩하는 방법을 생성한다.
이 방법은 신경망을 사용하여 인코딩될 오디오 신호에 따라 하나 이상의 코딩 매개 변수를 결정하는 단계를 포함하고, 이 때 신경망은 본 명세서에서 논의된 오디오 신호 간의 유사성을 평가하는 방법을 사용하여 학습된다.
본 발명에 따른 실시 예는 오디오 신호 간 (예를 들어, 입력 오디오 신호와 기준 오디오 신호 간) 유사성을 평가하기 위한 방법을 생성한다.
이 방법은 (예를 들어, 스펙트럼 부대역에서 엔벨로프 복조를 수행하기 위해) 입력 오디오 신호에 기초하여 (예를 들어, 필터 뱅크 또는 감마 톤 필터 뱅크 및 정류 및 시간적 저역 통과 필터링 및 예를 들어 청각 시스템에서 사전 마스킹 및/또는 사후 마스킹을 모델링할 수 있는 하나 이상의 적응 프로세스 사용하여) 복수의 (바람직한 중첩) 주파수 범위에 대한 엔벨로프 신호를 획득하는 단계를 포함한다.
이 방법은 입력 오디오 신호와 기준 오디오 신호의 유사성에 대한 정보 (예를 들어, 입력 오디오 신호와 기준 오디오 신호 사이의 지각 적 유사성을 설명하는 단일 값)를 얻기 위해서, 입력 오디오 신호의 분석 표현 (예를 들어, 획득된 변조 정보 또는 시간-주파수 영역 표현과 같은 "내부 표현")을 기준 오디오 신호와 관련된 기준 분석 표현과 비교하는 것을 포함한다 (예를 들어, 내부 차이 표현을 사용하여, 이 때 내부 차이 표현은 예를 들어 획득한 분석 표현과 기준 분석 표현 사이의 차이를 설명 할 수 있으며, 공변조 정도에 기초한 내부 차이 표현의 스케일링 또는 내부 차이 표현의 양수 및 음수 값의 비대칭 가중과 같은, 하나 이상의 가중 동작 또는 수정 동작이 적용될 수 있음).
이 방법은 공변조에 따라서 획득한 분석 표현 (예를 들어, 변조 정보, 예를 들어 내부 표현)과 기준 분석 표현 (예를 들어, 기준 오디오 신호와 관련된 기준 변조 정보) 간의 차이의 가중치를 조정하는 단계를 포함한다. 예를 들어, 가중치는 입력 오디오 신호의 2 개 이상의 인접한 음향 주파수 범위에서 공조합 (예를 들어, 획득된 엔벨로프 신호 또는 획득된 변조 정보 사이)에 따라 조정된다. 대안적으로, 가중은 기준 오디오 신호의 2 개 이상의 인접한 음향 주파수 범위에서 (예를 들어, 기준 신호와 연관된 엔벨로프 신호 사이 또는 기준 변조 정보 간) 공변조에 따라 조정된다. 예를 들어, 상대적으로 낮은 수준의 공변조가 결과된 경우에 비해 상대적으로 높은 수준의 공변조가 결과된 경우 차이에 가중치가 증가한다. 예를 들어, 서로 다른 음향 주파수 범위와 관련된 시간적 엔벨로프 사이의 공분산을 결정하여 공변조의 정도를 찾을 수 있다.
이러한 방법은 위에서 언급한 오디오 유사성 평가기 및 위에서 언급한 오디오 인코더와 동일한 고려 사항을 기반으로 한다.
더욱이, 방법은 오디오 유사성 평가기 및 오디오 인코더와 관련하여 본 명세서에서 논의된 임의의 특징, 기능 및 세부 사항에 의해 보완될 수 있다. 방법은 이러한 특징, 기능 및 세부 사항을 개별적으로 또는 조합하여 보완될 수 있다.
본 발명에 따른 실시 예는 컴퓨터 프로그램이 컴퓨터에서 실행될 때 본 명세서에서 논의된 방법을 수행하기 위한 컴퓨터 프로그램을 생성한다.
컴퓨터 프로그램은 대응하는 장치 및 방법과 관련하여 본 명세서에 설명된 특징, 기능 및 세부 사항 중 임의의 것에 의해 보완될 수 있다.
본 발명에 따른 실시 예는 첨부된 도면을 참조하여 설명될 것이다:
도 1은 본 발명의 일 실시 예에 따른, 오디오 유사성 평가기를 나타내는 개략적인 블록도;
도 2a, 2b는 본 발명의 일 실시 예에 따른, 오디오 유사성 평가기를 나타내는 개략적인 블록도;
도 3은 본 발명의 일 실시 예에 따른, 자동 선택된 오디오 인코더를 나타내는 개략적인 블록도;
도 4는 본 발명의 일 실시 예에 따른, 변경 게이팅을 갖는 오디오 인코더를 나타내는 개략적인 블록도;
도 5a는 본 발명의 일 실시 예에 따른, 동작 모드에서 신경망을 갖는 오디오 인코더를 나타내는 개략적인 블록도;
도 5b는 본 발명의 일 실시 예에 따른, 학습 모드에서 오디오 인코더에 사용하기 위한 신경망을 나타내는 개략적인 블록도;
도 6은 본 발명의 일 실시 예에 따른, 오디오 유사성 평가기를 나타내는 개략적인 블록도;
도 7은 Dau 등의 청각 처리 모델의 신호 흐름과 처리 블록을 나타내는 개략도;
도 8은 감마-톤(gamma-tone) 필터 뱅크 임펄스 응답을 나타내는 개략도;
도 9는 Corti의 기관을 나타내는 개략도([14]에서 수정됨);
도 10은 IGF를 사용하는 오디오 디코더를 나타내는 개략적인 블록도;
도 11은 IGF 타일 선택의 개략도를 나타내는 개략도;
도 12는 IGF 자동화 선택 항목 생성을 나타내는 블록 개략도;
도 13은 자동화 제어를 통한 오디오 발췌부분 "3 요소"에 대한 IGF 타일 선택을 보여주는 개략도로, 이 때 각 프레임(원)에 대해, 소스 타일 "sT" 선택 [0,1,2,3]은 스펙트로그램에 오버레이되는 검은색 선으로 3 개의 타겟 타일 각각에 대해 표시된다;
도 14는 자동 제어를 통한 오디오 발췌부분 "3 요소"에 대한 IGF 화이트닝 레벨 선택을 나타내는 개략도로, 이 때 각 프레임(원)에 대해, 화이트닝 레벨 선택 [0,1,2]은 스펙트로그램에 오버레이되는 검은색 선으로 3 개의 타겟 타일 각각에 대해 표시된다;
표 1(도 12a)은 청취 테스트의 항목을 보여준다;
표 2(도 12b)는 청취 테스트의 조건을 보여준다;
도 15는 제안된 자동화 및 고정된 IGF 대조군의 절대적인 MUSHRA 점수를 나타내는 그래픽 표현도; 및
도 16은 제안된 자동화 및 고정된 IGF 대조군을 비교하는 MUSHRA 점수 차이를 나타내는 그래픽 표현도이다.
이하에서, 본 출원에 따른 실시 예가 설명될 것이다. 그러나, 이하에서 설명하는 실시 예는 개별적으로 사용될 수 있고 조합하여 사용될 수도 있음을 유의해야한다.
더욱이, 이하의 실시 예와 관련하여 설명된 특징, 기능 및 세부 사항은 개별적으로 그리고 조합하여 청구 범위에 의해 정의된 바와 같은 임의의 실시 예에 선택적으로 도입될 수 있다는 점에 유의해야 한다. 더욱이, 이하에서 설명되는 실시 예는 청구 범위에 정의된 특징, 기능 및 세부 사항 중 임의의 것에 의해 선택적으로 보충될 수 있다는 점에 유의해야 한다.
1. 도 1에 따른 오디오 유사성 평가기
도 1은 본 발명의 일 실시 예에 따른 오디오 유사성 평가기를 나타내는 개략적인 블록도이다.
도 1에 따른 오디오 유사성 평가기(100)는 입력 오디오 신호(110) (예를 들어, 오디오 유사성 평가기의 입력 오디오 신호)를 수신하고, 그에 기초하여, 예를 들어 스칼라 값의 형태를 취할 수 있는 유사성 정보(112)를 제공한다.
오디오 유사성 평가기(100)는 입력 오디오 신호에 기초하여 복수의 주파수 범위에 대한 엔벨로프 신호(122a, 122b, 122c)를 획득하도록 구성된 엔벨로프 선 신호 결정 블록 (또는 엔벨로프 신호 결정기)(120)를 포함한다. 바람직하게는, 엔벨로프 신호(122a-122c)가 제공되는 주파수 범위는 중첩될 수 있다. 예를 들어, 엔벨로프 신호 결정기는 필터 뱅크 또는 감마 톤 필터 뱅크 및 정류와 시간적 저역 통과 필터링 및 예를 들어 청각 시스템에서 사전 마스킹 및/또는 사후 마스킹을 모델링할 수 있는 하나 이상의 적응 프로세스를 사용할 수 있다. 즉, 엔벨로프 신호 결정 블록(120)은 예를 들어, 입력 오디오 신호의 스펙트럼 서브 밴드의 엔벨로프 복조를 수행할 수 있다.
더욱이, 오디오 유사성 평가기(100)는 엔벨로프 신호(122a-122c)를 수신하고 그에 기초하여 변조 정보(162a-162c)를 제공하는 변조 정보 결정 블록 (또는 변조 정보 결정기)(160)를 포함한다. 일반적으로, 변조 정보 결정 블록(160)는 복수의 변조 주파수 범위에 대한 엔벨로프 신호(122a-122c)와 연관된 변조 정보(162a-162c)를 획득하도록 구성된다. 변조 정보는 엔벨로프 신호의 (시간적) 변조를 설명한다.
변조 정보(162a-162c)는 예를 들어, 변조 필터의 출력 신호에 기초하여 제공되거나 변조 필터 뱅크의 출력 신호에 기초하여 제공될 수 있다. 예를 들어, 변조 정보(162a)는 제 1 주파수 범위와 연관될 수 있고, 예를 들어, 복수의 변조 주파수 범위에 대하여 (이 제 1 주파수 범위와 연관된) 제 1 엔벨로프 신호(122a)의 변조를 설명할 수 있다. 즉, 변조 정보(162a)는 스칼라 값이 아닐 수 있지만, 입력 오디오 신호의 제 1 주파수 범위와 연관된 제 1 엔벨로프 신호(122a)에 존재하는 상이한 변조 주파수와 연관된 복수의 값 (또는 값의 복수 시퀀스)을 포함할 수 있다. 유사하게, 제 2 변조 정보(162b)는 스칼라 값이 아닐 수 있지만, 입력 오디오 신호(110)의 제 2 주파수 범위와 연관된, 제 2 엔벨로프 신호(122b)에 존재하는 상이한 변조 주파수 범위와 연관된 복수의 값 또는 복수의 값 시퀀스를 포함할 수 있다. 따라서, (엔벨로프 신호 결정기(120)에 의해 별도의 엔벨로프 신호(122a-122c)가 제공되는) 고려중인 복수의 주파수 범위 각각에 대해, 변조 정보가 복수의 변조 주파수 범위에 대해 제공될 수 있다. 그러나 다르게 말하면, 입력 오디오 신호(110)의 일부 (예를 들어 프레임)에 대해, 복수 세트의 변조 정보 값이 제공되며, 이 때 상이한 세트는 입력 오디오 신호의 상이한 주파수 범위와 연관되고, 각각의 세트는 복수의 변조 주파수 범위를 기술한다 (즉, 각각의 세트는 하나의 엔벨로프 신호의 변조를 기술함).
더욱이, 오디오 유사성 평가기는 변조 정보(162a-162c) 및 기준 오디오 신호와 연관된 기준 변조 정보(182a-182c)를 수신하는 비교 블록 또는 비교기(180)를 포함한다. 또한, 비교 블록(180)은 입력 오디오 신호(110)와 기준 오디오 신호 간의 (지각 적으로 판단된) 유사성에 대한 정보를 얻기 위해서, 획득한 변조 정보(162a-162c) (입력 오디오 신호(110)에 기초하여 획득됨)를 기준 신호와 연관된 기준 변조 정보(182a-182c)와 비교하도록 구성된다.
예를 들어, 비교 블록(180)은 입력 오디오 신호와 기준 오디오 신호 사이의 지각적 유사성을 설명하는 단일 값을 유사성 정보(112)로 획득할 수 있다. 더욱이, 비교 블록(180)은 예를 들어, 내부 차이 표현을 사용할 수 있으며, 이 때 내부 차이 표현은 예를 들어, 획득한 변조 정보와 기준 변조 정보 사이의 차이를 설명할 수 있다. 예를 들어, 유사성 정보의 유도시 공변조의 정도에 기초한 내부 차이 표현의 스케일링과 내부 차이 표현의 양수 값과 음수 값의 비대칭 가중과 같은, 하나 이상의 가중 작업 또는 수정 작업이 적용될 수 있다.
그러나, 엔벨로프 신호 결정 블록(120), 변조 정보 결정 블록(160) 및 비교 블록(180)의 추가적 (선택적) 세부 사항이 이하에 설명되며 선택적으로 도 1의 오디오 유사성 평가기(100)에 개별적으로 및 조합하여 도입될 수 있다는 점에 유의해야 한다.
선택적으로, 기준 변조 정보(182a-182c)는 기준 오디오 신호(192)에 기초하여 선택적인 기준 변조 정보 결정 블록(190)을 사용하여 획득될 수 있다. 기준 변조 정보 결정 블록은, 예를 들어 기준 오디오 신호(192)에 기초하여 엔벨로프 신호 결정 블록(120) 및 변조 정보 결정 블록(160)과 동일한 기능을 수행할 수 있다.
그러나, 기준 변조 정보(182a-182c)는 또한 다른 소스, 예를 들어 데이터베이스 또는 메모리 또는 오디오 유사성 평가기의 일부가 아닌 원격 장치로부터 획득될 수 있다는 점에 유의해야 한다.
또한, 도 1에 도시된 블록은 아래에 상세히 설명되는 바와 같이, 하드웨어 구현 또는 소프트웨어 구현의 (기능적) 블록 또는 (기능적) 유닛으로 간주될 수 있다는 점에 유의해야 한다.
2. 도 2에 따른 오디오 유사성 평가기
도 2a 및 2b는 본 발명의 일 실시 예에 따른 오디오 유사성 평가기(200)의 개략적인 블록도를 도시한다.
오디오 유사성 평가기(200)는 입력 오디오 신호(210)를 수신하고 그에 기초하여 유사성 정보(212)를 제공하도록 구성된다. 더욱이, 오디오 유사성 평가기(200)는 기준 변조 정보(282)를 수신하거나 자체적으로 (예를 들어, 변조 정보가 계산되는 것과 동일한 방식으로) 기준 변조 정보(282)를 계산하도록 구성될 수 있다. 기준 변조 정보(282)는 일반적으로 기준 오디오 신호와 관련된다.
오디오 유사성 평가기(200)는 예를 들어, 엔벨로프 신호 결정 블록(120)의 기능을 포함할 수 있는 엔벨로프 신호 결정 블록(220)을 포함한다. 오디오 유사성 평가기는 또한 예를 들어 변조 정보 결정 블록(160)의 기능을 포함할 수 있는 변조 정보 결정 블록(260)을 포함할 수 있다. 더욱이, 오디오 유사성 평가기는, 예를 들어 비교 블록(180)에 대응할 수 있는, 비교 블록(280)을 포함할 수 있다.
더욱이, 오디오 유사성 평가기(200)는 선택적으로 서로 다른 입력 신호에 기초하여 동작할 수 있고 서로 다른 방식으로 구현될 수 있는, 공변조 결정 블록을 포함할 수 있다. 공변조 결정의 예가 오디오 유사성 평가기에 표시된다.
이하에서, 오디오 유사성 평가기(200)의 개별적인 기능 블록 또는 기능 유닛의 세부 사항을 설명한다.
엔벨로프 신호 결정 블록(220)은 입력 오디오 신호(210)를 수신하고 그에 기초하여 복수의 필터링된 (바람직하게는 대역 통과 필터링된) 신호(232a-232e)를 제공하는 필터링 블록(230)을 포함한다. 필터링 블록(230)은 예를 들어 필터 뱅크를 이용하여 구현될 수 있고, 예를 들어 기저막 필터링을 모델링할 수 있다. 예를 들어, 필터는 "청각 필터"로 간주될 수 있으며, 예를 들어, 감마 톤 필터 뱅크를 사용하여 구현될 수 있다. 즉, 필터링을 수행하는 대역 통과 필터의 대역폭은 필터의 중심 주파수가 증가함에 따라 증가할 수 있다. 따라서, 필터링된 신호(232a-232e) 각각은 입력 오디오 신호의 특정 주파수 범위를 나타낼 수 있으며, 여기서 주파수 범위는 중첩될 수 있다 (또는 일부 구현에서 중첩되지 않을 수 있다).
또한, 필터링된 신호(232a) 각각에 유사한 처리가 적용될 수 있으므로, 하나의 주어진 (대표적인) 필터링된 신호(232c)에 대한 하나의 처리 경로 만이 다음에 설명될 것이다. 그러나, 필터링된 신호(232c)의 처리와 관련하여 제공된 설명은 다른 필터링된 신호(232a, 232b, 232d, 232e)의 처리에도 해당할 수 있다 (여기서, 본 예에서는, 단순화를 위해 5 개의 필터링된 신호 만이 표시되는 반면, 실제 구현에서는 훨씬 더 많은 수의 필터링된 신호가 사용될 수 있다).
고려중인 필터링된 신호(232c)를 처리하는 처리 체인은 예를 들어 정류 블록(236), 저역 통과 필터링 블록(240) 및 적응 블록(250)를 포함할 수 있다.
예를 들어, 반파 정류 블록(236) (예를 들어, 음의 반파를 제거하고 맥동하는 양의 반파를 생성할 수 있음)가 필터링된 신호(232c)에 적용되어 정류된 신호(238)를 얻을 수 있다. 또한, 저역 통과 필터링 블록(240)이 정류된 신호(238)에 적용되어 평활 저역 통과 신호(242)를 획득한다. 저역 통과 필터링 블록은 예를 들어 1000Hz의 차단 주파수를 포함할 수 있지만, 다른 차단 주파수 (바람직하게는 1500Hz보다 작거나 2000Hz보다 작을 수 있음)가 적용될 수 있다.
저역 통과 필터링된 신호(242)는 예를 들어 복수의 계단식 "자동 이득 제어" 단계와 선택적으로 하나 이상의 제한 단계를 포함할 수 있는 적응 블록(250)에 의해 처리된다. 자동 이득 제어 단계는 "적응 루프"로 간주될 수도 있다. 예를 들어, 각각의 자동 이득 제어 (또는 적응 이득 제어) 단계는 루프 구조를 포함할 수 있다. 자동 이득 제어 단계 (또는 적응 루프)의 입력 신호 (예를 들어, 제 1 자동 이득 제어 단계의 경우, 저역 통과 필터링된 신호(242) 및 후속 자동 이득 제어 단계의 경우, 이전 자동 이득 제어 단계의 출력 신호)는 적응 이득 제어 블록(254)에 의해 스케일링될 수 있다. 자동 이득 제어 스테이지의 출력 신호(259)는 각각의 자동 이득 제어 스테이지의 입력 신호의 스케일링된 버전, 또는 스케일링된 버전(255)의 제한된 버전 (예를 들어, 선택적 제한 블록(256)이 사용되는 경우, 신호 값의 범위를 제한함)일 수 있다. 특히, 스케일링 블록(254)에 적용되는 이득은 시변일 수 있고, 수용 스테이지에 의해 제공되는 스케일링된 신호(255)에 따라, 개별 자동 이득 제어 스테이지와 연관된 시상수로 조정될 수 있다. 예를 들어, 저역 통과 필터링 블록(257)은 적응 이득 제어 블록(254)의 이득 (또는 스케일링 인자)을 결정하는 이득 제어 정보(258)를 유도하기 위해 적용될 수 있다. 저역 통과 필터링 블록(257)의 시간 상수는 단계마다 변할 수 있고, 그에 따라 인간 청각 시스템에서 발생하는 상이한 마스킹 효과를 모델링할 수 있다. 복수의 자동 이득 제어 단계를 사용하는 것이 특히 좋은 결과를 가져오는 것으로 밝혀졌으며, 여기서 5 개의 계단식 자동 이득 제어 단계를 사용하는 것을 권한다(필수는 아님).
예를 들어, 신호(242)를 얻기 위해서, 정류 및 저역 통과 필터링에 대한 (선택적) 대안으로서, 필터 또는 필터링 동작(230)의 출력 신호(232a-232e)에 기초하여 힐베르트 엔벨로프(Hilberty envelope)를 얻을 수 있다.
일반적으로 말하면, 예를 들어, 신호(242)를 얻기 위해서, 필터 또는 필터링 동작(230)의 출력 신호(232a-232e)를 (선택적으로) 복조하는 것이 가능하다.
결론적으로, 적응 블록(250)은 자동 이득 제어 단계의 시퀀스 (또는 캐스케이드)를 포함하며, 이 때 각각의 이득 제어 스테이지는 그 입력 신호 (저역 통과 필터링된 신호(242) 또는 이전 스테이지의 출력 신호)의 스케일링 및 선택적으로 제한 동작 (이에 의해 지나치게 큰 신호를 방지함)을 수행한다. 각 자동 이득 제어 단계에 적용되는 이득 또는 스케일링 계수는 각 스케일링 작업의 출력에 따라 피드백 루프 구조를 사용하여 결정되고, 이 때 예를 들어, 피드백 경로에서 저역 통과 필터를 사용하여 일부 비활성 (또는 지연)이 도입된다.
적응 블록에 관한 추가 세부 사항에 대해, 이하 설명되며, 이 때 아래에 설명된 세부 사항 중 임의의 것이 선택적으로 적응 블록(250)에 도입될 수 있다.
적응 블록(250)은 자동 이득 제어 단계의 캐스케이드 (또는 시퀀스)의 마지막 자동 이득 제어 단계의 출력 신호일 수 있는 적응 신호(252)를 제공한다. 적응 신호(252)는 예를 들어, 엔벨로프 신호로 간주될 수 있고, 예를 들어 엔벨로프 신호(122a 내지 122c) 중 하나에 대응할 수 있다.
대안적으로, 엔벨로프 신호(222a 내지 222e)를 얻기 위해서, 로그 변환이 선택적으로 적용될 수 있다.
또 다른 대안으로, 엔벨로프 신호(222a ~ 222e)를 얻기 위해서, 순방향 마스킹의 다른 모델링이 선택적으로 적용될 수 있다.
이미 언급된 바와 같이, 엔벨로프 신호 결정 블록(220)은 상이한 주파수 범위와 연관된 개별 엔벨로프 신호를 제공할 수 있다. 예를 들어, 필터링된 신호 (대역 통과 신호)(232a-232e) 당 하나의 엔벨로프 신호가 제공될 수 있다.
이하에서, 변조 정보 결정 블록의 세부 사항에 대해 설명한다.
변조 정보 결정 블록은 복수의 엔벨로프 신호(222a-222e) (예를 들어, 고려중인 입력 오디오 신호의 주파수 범위 당 하나의 엔벨로프 신호)를 수신한다. 또한, 변조 정보 결정 블록(260)은 변조 정보(262a-262e)를 제공한다 (예를 들어, 고려중인 엔벨로프 신호(222a-222e) 각각에 대해). 다음에서, 하나의 대표적인 엔벨로프 신호(222c)에 대한 처리가 설명되지만, 고려되는 모든 엔벨로프 신호(222a-222e)에 대해 유사하거나 동일한 처리가 수행될 수 있다.
예를 들어, 필터링 블록(264)은 엔벨로프 신호(222c)에 적용된다. 대안적으로, 필터링 블록(264) 내에서, 또는 필터링 블록(264)에 추가하여, 다운 샘플링이 적용될 수 있다. 필터링은 변조 필터 뱅크 또는 복수의 변조 필터에 의해 수행될 수 있다. 다시 말하면, 엔벨로프 신호(222c)의 상이한 주파수 범위는 필터링 도구(264)에 의해 분리될 수 있다 (여기서 상기 주파수 범위는 선택적으로 중첩될 수 있다). 따라서, 필터링 블록(264)은 일반적으로 엔벨로프 신호(222c)에 기초하여 복수의 변조 필터링된 신호(266a-266e)를 제공한다. (선택적) DC 제거 블록(270) 및 (선택적) 위상 정보 제거 블록(274)은 변조 필터링된 신호(266a-266e) 각각에 적용되어, 사후 처리된 변조-필터링된 신호(276a-276e)를 유도할 수 있다. 사후 처리된 변조 필터링된 신호(276a-276e)는 입력 오디오 신호(210)의 하나의 주파수 범위 내에서 상이한 변조 주파수 (또는 변조 주파수 범위)와 관련된다. 다시 말하면, 사후 처리된 변조 필터링된 신호(276a-276e)는 엔벨로프 신호(222c)가 기반으로 하는 입력 오디오 신호(210)의 주파수 범위와 연관된 변조 값의 세트를 나타낼 수 있다. 유사하게, 상이한 엔벨로프 신호(222a, 222b, 222d, 222e)에 기초하여 입력 오디오 신호의 상이한 주파수 범위와 연관된 사후 처리 및 변조 필터링된 신호가 획득될 수 있으며, 이 신호는 입력 오디오 신호의 각각의 주파수 범위와 관련된 변조 값의 추가 세트를 나타낼 수 있다.
결론적으로, 변조 정보 결정 블록(260)은 고려중인 입력 오디오 신호의 각 주파수 범위에 대한 변조 값 세트를 제공한다.
예를 들어, 변조 주파수 당 (또는 변조 주파수 범위 당) 및 고려중인 주파수 범위 당 하나의 변조 값만 제공되도록 정보의 양을 줄일 수 있으므로 사후 처리된 변조 필터링된 신호(276a-276e)가 각각 단일 값으로 효과적으로 표현된다 (여기서 이 단일 값은 변조 값으로 간주될 수 있음).
이하, 비교 블록(280)에 대한 세부 사항을 설명한다.
비교 블록(280)는 변조 값의 세트(262a-262e)를 수신하고, 이들 값은 전술 한 변조 정보 결정 블록(260)에 의해 제공된다. 또한, 비교 블록(280)은 일반적으로 기준 변조 값의 세트(282a-282e)를 수신하고, 이들 값은 일반적으로 기준 오디오 신호와 연관되고 전체적으로 기준 변조 정보(282)로 간주된다.
비교 블록(280)은 변조 값 세트(262a-262e)의 개별 변조 값에 시간적 평활화(284)를 선택적으로 적용한다. 더욱이, 비교 블록(280)는 각각의 변조 값과 이들의 관련 기준 변조 값 사이의 차이를 형성 (또는 계산)한다.
다음에서는, 하나의 개별 (대표적인) 변조 값에 대한 처리를 설명한다 (이 값은 변조 주파수 또는 변조 주파수 범위와 관련되고, 입력 오디오 신호(210)의 주파수 범위와도 관련됨). 고려중인 변조 값은 276c로 지정되고 관련 기준 변조 값은 283c로 지정된다는 점에 유의해야 한다. 알 수 있는 바와 같이, 시간적 평활화 블록(284c)는 차이 형성 블록(288c)이 적용되기 전에 변조 값(276c)에 선택적으로 적용된다. 차이 형성 블록(288c)은 변조 값(276c)과 그것과 관련된 기준 변조 값(283c) 사이의 차이를 결정한다. 따라서, 차이 값(289c)이 획득되고, 이 때 차이 값(289c)에 선택적으로 시간 평활화 블록(290c)이 적용될 수 있다. 또한, 가중 블록(292c)은 차이 값(289c) 또는 이것의 시간적 평활화 버전(291c)에 적용된다. 가중 블록(292c)은 예를 들어 차이 값(289c)이 연관되는 주파수 범위와 연관된 공변조 정보에 의존할 수 있다. 더욱이, 가중 블록(292c)은 또한 선택적으로 부호 의존적이거나 "비대칭적"일 수 있다.
예를 들어, 차이 값(289c)과 관련된 주파수 범위가 하나 이상의 인접 주파수 범위와 비교적 높은 공변조를 포함하는 경우, 비교적 높은 가중치가 차이 값(289c), 또는 이것의 시간적 평활화 버전(291c)에 적용될 수 있으며, 차이 값(289c)이 연관된 주파수 범위가, 하나 이상의 인접한 주파수 범위와 비교적 작은 공변조를 포함하는 경우, 비교적 작은 가중치가 차이 값(289c) 또는 이것의 시간적 평활화 버전(291c)에 적용될 수 있다. 더욱이, 차이 값(289c)의 음의 값 또는 이것의 시간적 평활화 버전(291c)과 비교할 때 차이 값(289c)의 양의 값 또는 이것의 시간적 평활화 버전(291c)에 비교적 더 높은 가중치가 적용될 수 있다 (또는 그 반대일 수 있다). 즉, 일반적으로 말해서, 부호 의존 가중 블럭이 차이 값(289c) 또는 그 시간적 평활화 버전(291)에 적용될 수 있다. 따라서, 가중된 차이 값(294c)이 획득한다.
그러나 일반적으로 가중된 차이 값 (또는 선택적 가중 블록이 생략된 경우, 비 가중된 차이 값)는 고려중인 입력 오디오 신호의 각 주파수 범위를 고려하여 각 변조 주파수 (또는 변조 주파수 범위)에 대해 획득한다는 점에 유의해야 한다. 따라서, 비교적 많은 수의 가중 차이 값이 획득되고, 이는 조합 처리 또는 평가 처리 블록(298)에 입력된다.
조합 처리 또는 평가 처리 블록(298)은 예를 들어, 가중된 차이 값 (함께 "차이 표현" 또는 "내부 차이 표현 IDR"을 형성함)에 기초하여 유사성 정보(212)를 구성하는 단일 스칼라 값을 형성할 수 있다. 예를 들어, 조합 처리 또는 평가 처리 블럭은 가중치 차이 값(294a 내지 294e)의 제곱합 조합을 수행하여, 유사성 정보(212)를 도출할 수 있다.
결론적으로, 엔벨로프 신호 결정 블록(220)은 예를 들어 고려중인 (입력 오디오 신호의) 각 주파수 대역에 대해 하나씩 엔벨로프 신호(222a-222e)를 제공한다. 이 처리에 필터링 블럭 또는 필터 뱅크, 정류 블록, 저역 통과 필터링 블록 및 적응 블록이 사용될 수 있다. 변조 정보 결정 블록은, 예를 들어 고려중인 변조 주파수 (또는 변조 주파수 범위) 및 고려중인 (입력 오디오 신호의) 주파수 범위 당 하나의 변조 값을 결정한다. 따라서 고려중인 (입력 오디오 신호의) 주파수 범위 당 하나의 변조 값 세트가 있다. 이 처리에 필터링 블록, DC 제거 블록 및 위상 정보 제거 블록이 사용될 수 있다. 마지막으로, 비교 블록(280)는 입력 오디오 신호에 기초하여 획득한 변조 값을 기준 오디오 신호와 연관된 기준 변조 값과 비교하고, 이 때 선택적으로 차이 값에 대해 가중 블록이 적용된다. 마지막으로, 가중된 차이 값은 단일 스칼라 값의 형태를 취할 수 있는 간결한 유사성 정보에 결합된다. 효과적으로, 비교 블록은 입력 오디오 신호에 기초하여 획득한 변조 값과 기준 오디오 신호와 관련된 변조 값 간의 차이를 나타내는 (스칼라) 값을 결정할 수 있다. 예를 들어, 비교는 "거리 값" 또는 "표준"을 형성할 수 있으며, 여기서 상이한 유형의 가중 블록이 선택적으로 적용될 수 있다.
다음에서는 공변조 (또는 공변조 정보) 결정을 위한 몇 가지 옵션에 대해 설명하며, 이 때 공변조 정보는 예를 들어, 차이 값 (예를 들어, 차이 값(289c)) 또는 그 시간적 평활화 버전 (예를 들어, 시간적 평활화된 차이 값(291c))의 가중치를 조정하는 데 사용될 수 있다는 점에 유의해야 한다.
예를 들어, 엔벨로프 신호(222a-222e)에 기초하여 공변조가 결정될 수 있다. 예를 들어, 공변조 결정기(299a)는 엔벨로프 신호(222a-222e)를 수신하고, 그에 기초하여 공변조 정보(299b)를 제공한다. 예를 들어, 공변조 결정기(299a)는 (예를 들어, 개별적으로) 서로 다른 엔벨로프 신호(222a-222e)에 저역 통과 필터링을 적용할 수 있다. 또한, 공변조 결정기(299a)는 예를 들어 2 개 이상의 인접한 (저역 통과 필터링된) 엔벨로프 신호의 공분산을 결정하여, 특정 주파수 범위와 관련된 공변조 정보를 획득할 수 있다. 예를 들어, 공변조 결정기(299a)는 주어진 (저역 통과 필터) 엔벨로프 신호(222c)와 인접한 주파수 범위와 연관된 2, 3, 4개 또는 그 이상의 엔벨로프 신호(222a, 222b, 222d, 222e) 사이의 공분산을 결정할 수 있으며, 따라서 고려중인 주파수 범위와 관련된 공변조 정보를 유도한다. 그러나, 공변조 결정기(299)는 복수의 주파수 범위에 대한 (또는 동등하게 복수의 엔벨로프 신호와 연관된) 개별 공변조 정보를 결정할 수 있다.
그러나, 또는 공변조 정보(262a-262e)에 기초하여 공변조 정보(299d)를 결정하는 공변조 결정기(299c)가 사용될 수 있다. 예를 들어, 공변조 결정기(299c)는 인접한 주파수 범위와 관련된 공변조 정보를 비교하여, (예를 들어, 상이한 주파수 범위에 대한) 공변조 정보를 획득할 수 있다. 예를 들어, 주어진 주파수 범위에 인접한 1, 2, 3, 4 개 이상의 주파수 범위에서의 변조가 주어진 주파수 범위의 변조와 유사하다면, 비교적 높은 수준의 공변조가 공변조 정보에 의해 표시될 수 있다(반대의 경우도 표시됨). 따라서, 공변조 결정기(299a)와 유사하게, 공변조 결정기(299c)는 상이한 주파수 범위와 관련된 개별적인 공변조 정보를 제공할 수 있다.
또는, 기준 오디오 신호에 기초하여 공변조 정보(299f)를 결정하는 공변조 결정기(299e)가 사용될 수 있다. 예를 들어, 공변조 결정기(299e)는 기준 변조 정보(282a-282e)에 기초하여 공변조 정보(299f)를 결정할 수 있다. 예를 들어, 공변조 결정기(299e)는 공변조 결정기(299c)와 동일한 기능을 포함할 수 있다.
그러나, 공변조 결정기(299e)는 또한 공변조 결정기(299a)와 동일한 접근법을 사용하여 기준 오디오 신호에 기초하여 공변조 정보(299f)를 결정할 수 있다.
그러나, 공변조 정보의 결정을 위한 다른 개념도 유용할 수 있다는 점에 유의해야 한다. 또한, 공변조 정보의 결정은 전체적으로 선택 사항으로 간주되어야 하는 것에 유의해야 한다.
선택적으로, 기준 변조 정보(282a-282e)는 기준 오디오 신호(281)에 기초하여 선택적인 기준 변조 정보 결정 블록(281a)를 사용하여 획득될 수 있다. 기준 변조 정보 결정 블록(281a)은 예를 들어 기준 오디오 신호(281)에 기초하여 엔벨로프 신호 결정 블록(220) 및 변조 정보 결정 블록(260)과 동일한 기능을 수행할 수 있다.
그러나, 기준 변조 정보(282a-282e)는 또한 다른 소스, 예를 들어 데이터베이스 또는 메모리 또는 오디오 유사성 평가기의 일부가 아닌 원격 장치로부터 획득될 수 있다는 점에 유의해야 한다.
결론적으로, 도 2a 및 2b는 본 발명의 일 실시 예에 따른 오디오 유사성 평가기의 기능을 개시한다. 그러나 기본 개념에서 벗어나지 않고 개별 기능을 생략하거나 실질적으로 수정할 수 있다는 점에 유의해야 한다. 오디오 유사성 평가기(100)의 개념 이상의 모든 세부 사항은 선택적인 것으로 간주되어야 하며, 생략되거나 개별적으로 수정될 수 있음에 유의해야 한다.
3. 도 3에 따른 오디오 인코더
도 3은 본 발명의 일 실시 예에 따른 오디오 인코더(300)의 개략적인 블록도를 도시한다.
인코더(300)는 입력 오디오 신호(310) (인코딩될 오디오 신호 또는 "원래 오디오 신호")를 수신하고, 그에 기초하여 인코딩된 오디오 신호(312)를 제공하도록 구성된다. 인코더(300)는 입력 오디오 신호(310)에 기초하여 인코딩된 오디오 신호(312)를 제공하도록 구성되는 인코딩 블록 (또는 인코더 또는 코어 인코더)(320)을 포함한다. 예를 들어, 인코딩(320)은 AAC 인코딩 개념 또는 그 확장 중 하나를 기반으로 할 수 있는 오디오 콘텐츠의 주파수 도메인 인코딩을 수행할 수 있다. 그러나, 인코딩 블록(320)은 예를 들어, 스펙트럼의 일부에 대해서만 주파수 도메인 인코딩을 수행할 수 있고, 파라메트릭 대역폭 확장 매개 변수 결정 및/또는 파라메트릭 갭 채움 (예를 들어, "지능형 갭 채움 (intelligent gap filling; IGF)") 매개 변수 결정을 적용하여, 이에 의해 인코딩된 오디오 신호 (스펙트럼 값의 인코딩 표현 및 하나 이상의 인코딩 매개 변수 또는 대역폭 확장 매개 변수의 인코딩 표현을 포함하는 비트 스트림일 수 있음)를 제공한다.
본 설명은 인코딩 매개 변수에 관한 것이라는 점에 유의해야 한다. 그러나, 인코딩 매개 변수 대신에, 모든 실시 예는 일반적으로 (일반적으로 인코더와 디코더 모두에 의해 또는 인코더에 의해서만 사용되는) 인코딩 매개 변수 또는 (일반적으로 디코더에서만 사용되지만, 일반적으로 인코더에 의해 디코더에 신호를 보내는) 디코딩 매개 변수일 수 있는, "코딩 매개 변수"를 사용할 수 있다.
일반적으로, 인코딩 블록(320)은 하나 이상의 인코딩 매개 변수(324)를 사용하여, 신호의 특성 및/또는 원하는 코딩 등가물로 조정될 수 있다. 인코딩 매개 변수는 예를 들어, 스펙트럼 값의 인코딩을 설명할 수 있고/있거나 소스 타일과 타겟 타일 간의 연관성, 화이트닝 매개 변수 등과 같이, 대역폭 확장 (또는 갭 채움)의 하나 이상의 특징을 설명할 수 있다.
그러나, 선형 예측 코딩 기반 인코딩과 같이, 다른 인코딩 개념을 사용할 수도 있다.
더욱이, 오디오 인코더는 인코딩될 오디오 신호와 인코딩된 오디오 신호 사이의 유사성의 평가에 따라 하나 이상의 인코딩 매개 변수를 결정하도록 구성된 인코딩 매개 변수 결정 블록을 포함한다. 특히, 인코딩 매개 변수 결정 블록(330)은 오디오 유사성 평가 블록(340)을 사용하여 인코딩될 오디오 신호 (즉, 입력 오디오 신호(310))와 인코딩된 오디오 신호 사이의 유사성을 평가하도록 구성된다. 예를 들어, 인코딩될 오디오 신호 (즉, 입력 오디오 신호(310))는 오디오 유사성 평가 블록(340)에 의한 유사성 평가를 위한 기준 오디오 신호(192, 281)로 사용되고, 고려중인 하나 이상의 인코딩 매개 변수를 사용하여 인코딩된 오디오 신호(352)의 디코딩된 버전(362)은 오디오 유사성 평가 블록(340)에 대한 입력 신호 (예를 들어, 신호(110, 210))로서 사용된다. 즉, 원래 오디오 신호(310)의 인코딩되고 뒤이어 디코딩된 버전(362)은 오디오 유사성 평가기에 대한 입력 신호(110, 210)에서와 같이 사용되며, 원래 오디오 신호(310)는 오디오 유사성 평가기에 대한 기준 신호(192, 281)로 사용된다.
따라서, 인코딩 매개 변수 결정 블록(330)은 예를 들어, 인코딩 블록(350) 및 디코딩 블록(360) 뿐만 아니라, 인코딩 매개 변수 선택 블록(370)을 포함할 수 있다. 예를 들어, 인코딩 매개 변수 선택 블록(370)은 인코딩 블록(350) (또한 선택적으로 디코딩 블록(360))과 결합될 수 있어, 인코딩 블록(350)에 의해 사용되는 인코딩 매개 변수 (일반적으로 디코딩 블록(360)에 의해 사용되는 디코딩 매개 변수에 대응함)를 제어한다. 따라서, 입력 오디오 신호(310)의 인코딩된 버전(352)은 인코딩 블록(350)에 의해 획득되고, 인코딩 및 디코딩된 버전(362)은 디코딩 블록(360)에 의해 획득되고, 여기서 입력 오디오 신호(310)의 인코딩 및 디코딩된 버전(362)은 유사성 평가를 위한 입력 신호로서 사용된다. 인코딩 블록(350) 및 디코딩 블록(360)을 통해 신호 경로에 도입된 가능한 코덱 지연은 유사성 평가 블록에 들어가기 전에 오디오 신호(310)의 직접 경로에서 보상되어야 한다.
따라서, 인코딩 매개 변수 선택 블록(370)은 오디오 유사성 평가 블록(340)으로부터 유사성 정보(342)를 수신한다. 일반적으로, 인코딩 매개 변수 선택 블록(370)은 다른 인코딩 매개 변수 또는 인코딩 매개 변수 세트에 대한 유사성 정보(342)를 수신한 다음에, 어떤 인코딩 매개 변수 또는 어떤 인코딩 매개 변수 세트가 (예를 들어, 오디오 디코더로 전송되어 저장되는 오디오 비트 스트림의 형태로) 오디오 인코더에 의해 출력되는 인코딩된 오디오 신호(312)의 제공에 사용되어야 하는지를 결정한다.
예를 들어, 인코딩 매개 변수 선택 블록(370)은 다른 인코딩 매개 변수에 대해 (또는 다른 인코딩 매개 변수 세트에 대해) 획득한 유사성 정보를 비교하여 이들 인코딩 매개 변수를 최상의 유사성 정보 또는 적어도 허용 가능한 양호한 유사성 정보가 결과되게 하는 인코딩된 오디오 신호(312)의 제공을 위해 선택한다.
더욱이, 유사성 평가 블록(340)은 예를 들어, 도 1에 따른 오디오 유사성 평가기(100)를 사용하거나 도 2에 따른 오디오 유사성 평가기(200)를 사용하여 (또는 본 명세서에서 논의되는 다른 오디오 유사성 중 임의의 것을 사용하여) 구현될 수 있다는 점에 유의해야 한다. 더욱이, 인코딩 블록(320)은 선택적으로 생략될 수 있다는 점에 유의해야 한다. 예를 들어, 인코딩 매개 변수 또는 인코딩 매개 변수를 선택할 때 중간 정보로 제공되는 인코딩된 오디오 정보(352)는 유지될 수 있고 (예를 들어, 임시 정보로 저장됨) 인코딩된 오디오 신호(312) 제공에 사용될 수 있다.
도 3에 따른 오디오 인코더(300)는 본 명세서에 설명된 특징, 기능 및 세부 사항 중 임의의 것에 의해, 개별적으로 및 결합하여 보완될 수 있다는 점에 유의해야한다. 특히, 본 명세서에 설명된 오디오 유사성 평가기의 세부 사항 중 임의의 세부 사항은 오디오 유사성 평가 블록(340)에 도입될 수 있다.
4. 도 4에 따른 오디오 인코더(400)
도 4는 본 발명의 일 실시 예에 따른 오디오 인코더(400)의 개략적인 블록도를 도시한다.
오디오 인코더(400)는 오디오 인코더(300)와 유사하므로, 위의 설명도 적용된다는 점에 유의해야 한다. 여기서, 오디오 인코더(400)는 입력 오디오 신호(410)를 수신하고 이를 기반으로 인코딩된 오디오 신호 또는 인코딩된 오디오 정보(412)를 제공하도록 구성되며, 이 정보는 예를 들어, 인코딩된 스펙트럼 값 및 인코딩된 인코딩 매개 변수를 포함하는 비트 스트림의 형태를 취할 수 있다.
오디오 인코더(400)는 예를 들어 인코딩 블록(320)에 대응할 수 있는 인코딩 블럭(420)을 포함한다. 그러나, 인코딩 블록(420)는 예를 들어, 대역폭 확장 매개 변수 제공을 포함하며, 이는 오디오 디코더 측에서, 매개 변수 안내 대역폭 확장(예를 들어, 갭 채움)에 대해 사용될 수 있는 (바람직하게 인코딩된) 대역폭 확장 매개 변수를 제공할 수 있다. 따라서, 인코딩은 예를 들어, 인코딩된 양자화된 MDCT 스펙트럼과 같은 인코딩된 스펙트럼 값 (예를 들어, 저주파 범위에서)을 제공할 수 있다. 더욱이, 인코딩 블록(420)은 예를 들어, 하나 이상의 소스 타일과 하나 이상의 타겟 타일 사이의 연관성 및 선택적으로 또한 화이트닝 레벨을 설명할 수 있는, (바람직하게 인코딩된) 대역폭 확장 매개 변수를 제공할 수 있다. 예를 들어, 대역폭 확장 매개 변수는 지능형 갭 채움(IGF) 측 정보의 형태를 취할 수 있다. 그러나 대역폭 확장 매개 변수는 다른 대역폭 확장 개념에 해당할 수도 있다. 따라서, 인코딩된 스펙트럼 값 및 대역폭 확장 매개 변수 모두가 인코딩된 오디오 표현에 포함될 수 있으며, 이는 비트 스트림의 형태를 취할 수 있다.
더욱이, 오디오 인코더(400)는 또한 인코딩 매개 변수 결정 블록(330)에 대응할 수 있는 인코딩 매개 변수 결정 블록(430)을 포함한다. 예를 들어, 인코딩 매개 변수 결정 블록(430)은 대역폭 확장에서 하나 이상의 소스 타일과 하나 이상의 타겟 타일 사이의 연관을 설명하는 하나 이상의 매개 변수 및 선택적으로 화이트닝 수준을 설명하는 매개 변수와 같은, 하나 이상의 대역폭 확장 매개 변수를 결정하는 데 사용될 수 있다.
선택적으로, 인코딩 매개 변수 결정 블록(430)은 또한 연관 변경 제한 블록(480)을 포함한다. 연관 변경 제한 블록(480)은 인코딩 매개 변수의 변경, 특히 이러한 매개 변수의 변경이 가청 왜곡을 야기할 경우 소스 타일과 타겟 타일 사이의 연관의 변경을 방지하도록 구성된다. 예를 들어, 연관 변경 제한 블록(480)은 예를 들어 엔벨로프 신호에서 변조의 강도(485)를 결정할 수 있는 변조 강도 결정 블록(484)을 포함할 수 있으며, 여기서 변조 강도 결정 블록(484)에 의해 고려되는 변조 주파수는 입력 오디오 신호의 프레임 레이트에 대응할 수 있다. 더욱이, 연관 변경 제한 블록(480)은 변조 강도 결정 블록(484)에 의해 제공된 변조 강도 정보에 기초하여 민감도 정보를 결정하는 민감도 척도 결정 블록(486)을 포함할 수 있다. 민감도 척도 결정 블록(486)에 의해 결정된 민감도 척도는 예를 들어, 소스 타일과 타겟 타일 사이의 연관성의 변화에 의해 청력 인상이 얼마나 저하될 수 있는지에 의해 설명될 수 있다. 민감도 척도 결정 블록(486)에 의해 제공된 민감도 측정이 소스 타일과 타겟 타일 사이의 연관성의 변화가 청각적 인상에 강한 (또는 중요하거나 눈에 띄는) 영향을 미칠 것임을 나타내는 경우, 소스 타일과 타겟 타일 사이의 연관 변경은 연관 변경 게이팅 블록(488)에 의해 방지된다. 예를 들어, 민감도 척도의 평가는 민감도 척도(487)를 임계 값과 비교하는 임계 값 비교 블록(489)을 사용하여 수행되어, 연관 변경이 허용되어야 하는지 또는 방지되어야 하는지 여부를 결정할 수 있다.
따라서, 인코딩 매개 변수 정보(424)는 "제한된" 인코딩 매개 변수의 형태로 제공되며, 여기서 제한은 연관 변경 제한 블록(480)에 의해서 소스 타일과 타겟 타일 사이의 연관 변경에 대해 부여된다.
결론적으로, 선택적 연관 변경 제한 블록(480)은 이러한 인코딩 매개 변수의 변경이 가청 왜곡을 초래할 때 인코딩 매개 변수의 변경을 방지할 수 있다. 특히, 연관 변경 제한 블록(480)은 이러한 연관 변경이 강하거나 현저하거나 눈에 띄는 청각적 인상의 저하를 초래할 경우 대역폭 확장에서 소스 타일과 타겟 타일 사이의 연관 변경을 방지할 수 있다. 청각 인상의 저하가 발생하는지 여부에 대한 평가는 위에서 설명한 바와 같이, 변조 강도의 평가를 기반으로 이루어진다.
그러나, 오디오 인코더(400)는 임의의 다른 오디오 인코더에 대해, 특징, 기능 및 세부 사항 중 임의의 것에 의해 개별적으로 및 조합해서 선택적으로 보완될 수 있다.
5. 도 5에 따른 오디오 인코더
도 5a는 본 발명의 일 실시 예에 따른 오디오 인코더(500)의 개략적인 블록도를 도시한다.
오디오 인코더(500)는 입력 오디오 신호(510)를 수신하고 그에 기초하여 인코딩된 오디오 신호(512)를 제공하도록 구성된다. 입력 오디오 신호(510)는 예를 들어, 입력 오디오 신호(310)에 대응할 수 있고, 인코딩된 오디오 신호(512)는 예를 들어, 실질적으로 인코딩된 오디오 신호(312)에 대응할 수 있다.
오디오 인코더(500)는 또한 전술한 인코딩 블록(320)에 실질적으로 대응할 수 있는 인코딩 블록(520)을 포함한다. 인코딩 블록(520)은 인코딩 매개 변수 결정 블록(330)을 대신하는 신경망(530)으로부터 인코딩 매개 변수 정보(524)를 수신한다. 신경망(530)은 예를 들어 입력 오디오 신호(510)를 수신하고 이를 기반으로 인코딩 매개 변수 정보(524)를 제공한다.
신경망(530)은 본 명세서에 개시된 오디오 유사성 평가기를 사용하거나 본 명세서에 개시된 인코딩 매개 변수 결정 블록(330, 430)을 사용하여 제공되는 학습 데이터(532)를 사용하여 학습된다는 점에 유의해야 한다. 다시 말해서, 학습 데이터(532)의 일부로서 신경망(530)에 제공되는 인코딩 매개 변수는 본 명세서에서 설명된 바와 같이 오디오 유사성 평가기(100, 200)를 사용하여 획득한다.
따라서, 신경망(530)은 일반적으로 오디오 유사성 평가기(100, 200)를 사용하여 인코딩 매개 변수에 대해 실제로 결정하는, 오디오 인코더(300) 또는 오디오 인코더(400)를 사용하여 획득되는 인코딩 매개 변수와 매우 유사한 인코딩 매개 변수(524)를 제공한다. 즉, 신경망(530)은 인코딩 매개 변수 결정 블록(330, 430)의 기능에 근사하도록 학습되고, 이는 신경망(530)을 학습시키기 위한 학습 데이터의 일부로서 오디오 유사성 평가기(100, 200)를 사용하여 획득한 인코딩 매개 변수를 사용함으로써 도달된다.
오디오 인코더(500) 및 일반적으로 오디오 인코더에서의 신경망(530)의 사용에 관한 추가 세부 사항이 이하 설명될 것이다.
다르게 말하면, 인코딩 매개 변수 결정 블록(330) 또는 인코딩 매개 변수 결정 블록(430)은 인코딩 매개 변수 결정 블록(330, 430)의 기능과 가능한 한 유사한 기능을 수행하도록 신경망을 학습시키기 위해서 신경망(530)에 학습 데이터를 제공하기 위해 사용될 수 있다.
학습 모드에서의 신경망(530)의 학습이 도 5b에 도시되어 있다. 학습을 위해, 바람직하게는 상이한 학습 입력 오디오 신호 및 상이한 학습 입력 오디오 신호와 연관된 학습 인코딩 매개 변수가 학습 데이터로서 신경망에 제공된다. 학습 입력 오디오 신호는 신경망에 대한 입력 신호로서 역할을 하며, 학습 인코딩 매개 변수는 신경망의 원하는 출력 신호가 된다. 학습 데이터로서 신경망에 제공되는 (학습) 인코딩 매개 변수는 일반적으로 (학습 모드 중 신경망에 제공되는 학습 입력 오디오 신호를 기반으로 하여) 본 명세서에서 논의된 오디오 유사성 평가기를 사용하거나 본 명세서에서 논의된 인코딩 매개 변수 결정 블록에 의해 미리 획득한다.
그러나, 오디오 인코더(500)는 본 명세서에서 설명된 특징, 기능 및 세부 사항 중 임의의 것에 의해 개별적으로 및 조합하여, 선택적으로 보완될 수 있다는 점에 유의해야 한다.
6. 도 6에 따른 오디오 유사성 평가기
도 6은 본 발명의 일 실시 예에 따른 오디오 유사성 평가기(600)의 개략적 인 블록도를 도시한다. 오디오 유사성 평가기(600)는 입력 오디오 신호(610)를 수신하고 이를 기반으로 유사성 정보(612)를 제공하도록 구성된다.
오디오 유사성 평가기(600)는 입력 오디오 신호(610)에 기초하여 복수의 (바람직하게 중첩되는) 주파수 범위에 대한 엔벨로프 신호(622a-622c)를 획득하도록 구성된 엔벨로프 신호 결정 블록(620)을 포함한다. 예를 들어, 필터 뱅크 또는 감마 톤 필터 뱅크는 엔벨로프 신호(622a-622c)를 제공하기 위해 사용될 수 있다. 선택적으로, 정류 및/또는 시간적 저역 통과 필터링 및/또는 하나 이상의 적응 프로세스 (예를 들어, 청각 시스템에서 사전 마스킹 및/또는 사후 마스킹을 모델링할 수 있음)는 또한 엔벨로프 신호(622a-622c)를 획득하기 위해 사용될 수 있다.
더욱이, 오디오 유사성 평가기는 분석 표현(662a-662c)을 획득하도록 구성된다. 분석 표현(662a-662c)은 예를 들어 엔벨로프 신호(622a-622c)에 대응할 수 있거나, 예를 들어 엔벨로프 신호(622a-622c)에 기초할 수 있다. 분석 표현(662a-662c)은 예를 들어, 변조 정보 또는 시간-주파수 영역 표현과 같은 "내부 표현"일 수 있다.
더욱이, 오디오 유사성 평가기(600)는 비교 블록(또는 비교기)(680)을 포함하고 따라서 입력 오디오 신호의 분석 표현(662a-662c)을 기준 오디오 신호와 연관된 기준 분석 표현(682a-682c)과 비교하도록 구성된다. 예를 들어, 비교 블록(680)은 내부 차이 표현의 형성을 포함할 수 있으며, 여기서 내부 차이 표현은 예를 들어 획득한 분석 표현과 기준 분석 표현 사이의 차이를 설명할 수 있다. 내부 차이 표현을 결정할 때 유사성 정보의 유도시 공변조의 정도에 기초한 내부 차이 표현의 스케일링과 내부 차이 표현의 양수 값과 음수 값의 비대칭 가중과 같은, 하나 이상의 가중 동작 또는 수정 동작이 적용될 수 있다. 이에 따라, 유사성 정보 (입력 오디오 신호와 기준 오디오 신호의 유사성에 대한 정보로 간주될 수 있음)를 획득할 수 있다. 유사성 정보는 예를 들어 입력 오디오 신호와 기준 오디오 신호 사이의 지각적 유사성을 설명하는 단일 값의 형태를 취할 수 있다.
오디오 유사성 평가기는 입력 오디오 신호의 2 개 이상의 인접한 음향 주파수 범위에서 공변조 (예를 들어, 획득한 엔벨로프 신호(622a-622c) 간 또는 획득한 변조 정보)에 따라, 또는 기준 오디오 신호의 2 개 이상의 음향 주파수 범위에서(예를 들어, 기준 신호와 관련된 엔벨로프 신호 간 또는 기준 신호와 관련된 기준 변조 정보 간) 공변조에 따라, 획득한 분석 표현(662a-662c) (예를 들어, 변조 정보 또는 일반적으로 "내부 표현")과 기준 분석 정보(682a-682c) (예를 들어, 기준 오디오 신호와 관련된 기준 변조 정보) 간의 차이의 가중을 조정하도록 구성된다. 예를 들어, 비교적 낮은 수준의 공변조가 (고려중인 주파수 범위에 대해) 결과된 경우와 비교할 때 상대적으로 높은 수준의 공변조가 (고려중인 주파수 범위에 대해) 결과되는 경우에, 증가된 가중치가 차이에 부여될 수 있다. 예를 들어, 서로 다른 음향 주파수 범위 (또는 임의의 다른 개념에 의해)와 연관된 시간적 엔벨로프 간의 공분산을 결정함으로써 공변조의 정도를 구할 수 있다.
즉, 오디오 유사성 평가기(600)에서, 분석 표현(662a-662c) (일반적으로 입력 오디오 신호의 단일 프레임에 대한 복수의 값을 포함함)과 기준 분석 표현(682a-682c) (일반적으로 입력 오디오 신호 또는 기준 오디오 신호의 단일 프레임에 대한 복수의 개별 값을 포함함) 간의 차이의 구성 요소가 강조되며 (비교적으로 강하게 가중 됨), 이는 다른 인접 주파수 대역과 비교적 높은 공변조를 갖는 주파수 대역과 관련된다.
따라서, 비교 블록(680)에서, 비교적 높은 공변조를 포함하는 주파수 대역에서 발생하는, 분석 표현(662a-662c)와 기준 분석 표현(682a-682c) 사이의 차이가 강조된다 (반면 비교적으로 더 작은 공변조를 구성하는 주파수 대역에 있는 경우 차이는 더 낮게 가중된다). 이러한 오디오 유사성 평가 블록은 양호한 신뢰성 (및 지각적 인상에 대한 동의)을 갖는 유사성 정보(612)를 가져오는 것으로 밝혀졌다.
그러나, 오디오 유사성 평가기(600)는 선택적으로 여기에 설명된 특징, 기능 및 세부 사항 중 임의의 것에 의해 개별적으로 및 조합하여 취해질 수 있다는 점에 유의해야 한다.
7. 오디오 품질 및 오디오 유사성 평가에 대한 고려 사항
7.1 Dau의 모델
임계 대역 내에 존재하는 시간적 엔벨로프 정보의 지각적 처리에 대한 특정 가정을 통합하는 모델링 접근 방식은 Dau 등에 의해 제안되었다 [9, 10]. 말초 청각 시스템의 효과적인 신호 처리를 나타내는 다양한 처리 단계 외에도([11] 참조), 이 모델은 각 임계 대역 내에서 보이는 시간적 엔벨로프 모양이 변조 필터 뱅크에 의해 처리된다고 가정한다. 이 변조 필터 뱅크는 변조 영역에서 청각 시스템의 스펙트럼 해상도를 나타낸다([12] 참조).
Dau의 모델 또는 Dau의 모델에서 파생된 (또는 기반으로 하는) 모델이 (예를 들어, 본 명세서에 개시된 오디오 유사성 평가기 및 오디오 인코더에서) 오디오 유사성의 평가에 양호한 성능으로 사용될 수 있음이 확인되었다.
7.2 BWE 제어를 위한 모델 이점
본 발명의 일 양상에 따르면, 이런 모델링 접근법을 사용하는 것은 BWE와 같은 파라메트릭 신호 표현에 바람직할 수 있다. 보다 구체적으로, 음악에서 자주 발생하는 음조 신호의 경우, 파라메트릭으로 표현된 파형 자체가 원래 신호의 파형과 크게 다를 때에도, 더 높은 주파수에서 복합 음의 저주파 부분을 복제하면 원래 신호의 엔벨로프 구조와 아주 잘 닮은 주기적 엔벨로프 구조가 생성된다.
본 발명의 일 양상에 따르면, 이 시간적 엔벨로프 정보의 지각된 유사성을 평가할 수 있는 지각 모델은 BWE 및 유사한 기술에서 잡음 및 음조 조정과 같은 시간적 엔벨로프에 영향을 미치는 인코딩 결정을 조정하는 데 도움이 될 수 있다.
따라서, 본 발명에 따른 실시 예는 오디오 유사성의 평가 및 어떤 인코딩 매개 변수가 사용되어야 하는지에 대한 결정을 위해, Dau의 모델 또는 이로부터 유도된 모델을 사용한다.
8. 심리 음향 모델의 제안
8.1 일반 고려 사항
이 단락에서는 제 1 처리 단계가 대부분 도 7에 도시된 바와 같아 Dau 등의 [9] 모델과 거의 유사한 모델이 제시된다. 이후 처리 단계에서, 모델은 일부 추가의 지각적인 현상을 포함하고 이 모델이 로컬 및 더 넓은 시간적 규모에서 지각 결과를 갖는 인코딩 결정에 적합하게 만들도록 선택적으로 확장된다. Dau 등의 원래 모델[9]과 일치하여, 이 모델에 대한 입력은 소위 내부 표현(IR)으로 변환된다. 이 IR은 입력 신호가 추가 청각 처리에 사용할 수 있는 모든 정보를 포함하는 지각 영역으로 변환된 것이다. IR에 추가된 내부 잡음로 인해, 입력 신호의 변화로 인한 IR의 작은 변화는 감지 가능하지 않게 된다. 이 프로세스는 입력 신호의 변화에 대한 지각적 감지 가능성을 모델링한다.
도 7은 Dau 등의 청각 처리 모델의 신호 흐름과 처리 블록의 개략도를 보여준다. 모델(700)은 예를 들어, 입력 오디오 신호(710)에 기저막 필터링을 적용할 수 있는 기저막 필터링 블록(720)을 포함한다. 기저막 필터링 블록(720)은 예를 들어 입력 오디오 신호(710)의 상이한 (중첩 가능성이 있는) 주파수 범위를 커버하는 복수의 대역 통과 신호를 제공한다. 기저막 필터링 블록(720)의 출력 신호(732a-732e)는 예를 들어, 필터링 블록(230)에 의해 제공된 신호(232a-232e)에 대응할 수 있다.
모델(700)은 또한 기저막 필터링 블록(720)의 상이한 출력 신호(732a-732e)에서 동작하는 복수의 병렬 신호 경로를 포함한다. 단순화를 위해, 예를 들어 엔벨로프 신호 결정 블록(220)의 정류 블록(236) 및 저역 통과 필터링 블록(240)에 대응할 수 있는, 반파 정류 및 저역 통과 필터링 블록(736)를 포함하는, 하나의 단일 처리 경로만이 도시되어 있다. 더욱이, 모델은 또한 예를 들어 적응 블록(250)에 대응할 수 있는 적응 블록(750)을 포함한다. 따라서, 반파 정류 및 저역 통과 필터링 블록(736) (기저막 필터링 블록(720)의 각각의 출력 신호(732c)에 적용됨)의 결과를 수신하는 적응 블록의 출력에서, 엔벨로프 신호(722c)가 제공되며, 이는 엔벨로프 신호(222c)에 대응할 수 있다. 더욱이, 모델(700)은 또한 기저막 필터링 블록(720)의 주파수 범위 (예를 들어, 기저막 필터링 블록(720)의 하나의 출력 신호(732c))와 연관된, 변조 필터 뱅크(760)를 포함한다. 다시 말해서, 기저막 필터링 블록의 상이한 주파수 범위와 연관된 복수의 (예를 들어, 별도의) 변조 필터 뱅크가 있을 수 있다. 변조 필터 뱅크(760)는 다른 변조 주파수와 관련된, 변조 신호(766a-766e)를 그 출력에서 제공한다.
모델(700)은 변조 필터 뱅크(760)의 출력 신호에 잡음을 추가하는 잡음 추가 블록(768)을 선택적으로 포함한다. 모델(700)은 또한 예를 들어 비교 블록(280)에 대응할 수 있는 "최적 검출기"(780)를 포함한다.
즉, 모델(700)의 구성 요소는 예를 들어 본 명세서에서 개시된 오디오 유사성 평가기에서 사용될 수 있다. 따라서, 모델(700)의 개별 구성 요소와 관련하여 이하에서 설명되는 특징, 기능 및 세부 사항은 본 명세서에서 설명되는 유사성 평가기 및 오디오 인코더에 개별적으로 조합하여 구현될 수 있다.
8.2 감마 톤 필터 뱅크 (세부 사항은 선택 사항)
예를 들어, 엔벨로프 신호 결정기(120, 220) 또는 필터링 블록(230)에서 사용될 수 있는 제안된 모델은 입력 신호(110, 210, 710)를, 예를 들어, 150Hz에서 16kHz까지의 주파수 범위에 걸쳐 지각적 규모가 균일한 간격으로 된 42 개의 필터로 구성되는, 4차 감마 톤 필터 뱅크로 처리하는 것으로 시작한다. 이 단계에서는 청각 달팽이관 내의 스펙트럼 신호 분석을 나타낸다. 기저막 임펄스 응답의 명백한 특징은 고주파 임펄스 응답이 감마 톤 필터 뱅크 임펄스 응답의 개략적 표현을 보여주는, 도 8에서 볼 수 있는 바와 같은 저주파 응답보다 훨씬 짧다는 것이다.
청각 필터 대역폭의 일반적인 추정치에 따라 중심 주파수의 약 12 %의 주파수 분해능을 달성하는 데 필요한 시간 분석 창의 길이는 ([13] 참조) 중심 주파수가 증가함에 따라 비례적으로 더 짧은 시간 창이 달성될 수 있다. 이것은 기저막의 기저 고주파 부분의 임펄스 응답이 근단 저주파 부분의 응답보다 더 짧은 이유를 설명해 준다. 물론 중앙 주파수의 12 %의 주파수 분해능은, 절대적인 측면에서 기저막의 고주파 영역은 낮은 스펙트럼 분해능과 높은 시간 분해능을 성취하는 반면, 저 주파수 영역의 경우, 그 반대가 되는 것을 의미한다.
8.3 내부 유모 세포 (세부 사항은 선택 사항)
각 감마 톤 필터 출력은 내부 유모 세포(inner hair cell)의 간단한 모델에 의해 처리되고, 이는 예를 들어, 반파 정류 블록 및 1000Hz에 차단 주파수가 있는 저역 통과 필터로 구성된다 (예를 들어, 참조 번호 736). 이 내부 유모 세포 모델의 출력은 본 명세서에서 제한된 시간 해상도를 갖는 것으로 가정되는 청각 신경 섬유에 대한 활동 전위의 비율을 나타낸다.
단순한 유모 세포 모델의 반파 정류는 입체 섬모 ('모발')가 한쪽으로 밀리면 이들의 이온관을 열어서 세포의 전위 변화를 가져온다는 사실과 관련이 있다 (코르티(Corti) 기관의 개략도를 보여주는 도 9 참조). 결과적인 전위의 변화율은 제한된다. 따라서, 청각 신경의 반응 속도는 상대적으로 낮은 주파수에서만 기저막 운동의 미세 구조와 동기화될 수 있다. 이러한 일반적인 동작은 저역 통과 필터 (예를 들어 참조 번호 736에도 표시됨)에 의해 구현된다.
내부 유모 세포 모델의 기능은 예를 들어, 엔벨로프 신호 결정 블록(220)의 블록(236, 240)에서 구현될 수 있다.
8.4 적응 프로세스, 마스킹 (세부 사항은 선택 사항)
내부 유모 세포 처리 후, (예를 들어) 5 개의 적응 루프의 시퀀스가 이어진다 (예를 들어, 적응 블록(750)에 포함됨). 그것들은 오디오 신호의 오프셋 이후에 관찰되는 전방향 마스킹 (사후 마스킹) 현상에서 분명해지는 청각 시스템에서 일어나는 적응 과정을 나타낸다. 예를 들어, 각 적응 루프는 동일한 적응 루프 (즉, 피드백 루프)의 저역 통과 필터링된 출력에 의해 감쇠되는 적응 이득 제어로 구성 (또는 포함)된다. 이러한 적응 루프의 기능을 이해하려면 신호의 시작 및 오프셋을 고려해야 한다. 신호가 시작될 때, 이전 입력/출력이 없었기 때문에 초기 감쇠가 적어, 적응 루프의 큰 '오버슈트' 출력이 결과된다. 저역 통과 필터링된 출력은 평형에 도달할 때까지 적응 루프의 출력을 상승시키고 감쇠하기 시작한다.
일정한 레벨의 입력 신호의 경우, 예를 들어 5 개의 적응 루프의 정상 상태 출력은 예를 들어 음량 인식에 따른 데시벨 변환과 매우 유사하도록 선형적으로 스케일링될 수 있다. 이 모델에서는, 신호 시작시 상당한 오버슈트를 방지하기 위해, 데시벨 변환된 입력 신호와 동일한 적응 루프의 출력에 엄한 제한이 적용된다. 신호의 오프셋에서, 저역 통과 필터 효과가 감소할 때까지 일정 시간 동안 감쇠가 지속된다. 이 감쇠는 전방향 마스킹의 효과, 즉, 선행하는 청각 '마스커' 신호로 인해 표적 신호를 감지하기 위한 민감도의 감소를 모델링한다.
이러한 적응은 예를 들어 적응 블록(250)에 의해 제공될 수 있다.
8.5 변조 필터 뱅크 (세부 사항은 선택 사항)
적응 루프에 이어, 예를 들어, 변조 필터 뱅크(760)가 있다. 이것은 예를 들어, 0Hz에서 20Hz까지 중앙 주파수를 갖는 5Hz 와이드 필터, 이어서 예를 들어 234 Hz의 최대 중앙 주파수에 도달할 때까지 변조 필터 대역폭에 해당하는 단계로 구분된 Q = 4인 필터의 범위로 이루어진다. 따라서 변조 영역의 스펙트럼 해상도는 [9]에서보다 이 모델에서 더 높으며 가장 높은 변조 주파수는 인간이 처리할 수 있는 최대 변조 주파수에 따라 제한된다([15] 참조). 예를 들어, 필터 출력은 양의 주파수만 나타내는 복합 값이다.
(선택적으로) 변조 필터에 대해 추가로 수정한다. Q 계수가 4에 불과하면, 각 변조 필터는 엔벨로프의 DC 구성 요소를 제한된 정도로만 감쇠시킬 수 있다. 엔벨로프의 DC 구성 요소가 변조된 구성 요소에 비해 큰 진폭을 갖는 경우, DC 구성 요소는 높은 중앙 주파수로 조정된 경우에도 변조 필터의 출력에서 지배적인 역할을 할 수 있다.
DC 구성 요소를 제거하기 위해, 각 변조 필터의 출력은 예를 들어, 변조 필터 중앙 주파수의 절반의 차단 주파수로 저역 통과 필터링된다. 그런 다음 변조 필터 뱅크 출력과 저역 통과 필터의 절대 값은 예를 들어, 서로 삭감된다. 이러한 방식으로 DC 구성 요소와 여기에서 청각 시스템에 의해 직접 처리되지 않는 것으로 가정되는 변조 위상 정보가 제거된다. 이러한 기능은 예를 들어, DC 제거 블록(270)에 의해 수행될 수 있다.
시간적 엔벨로프의 위상 정보 처리가 의미하는 것은 청각 이벤트의 정확한 타이밍이 감지될 수 있다는 것이다. Vafin 등의 연구 [16]은 청취자들이 시작 타이밍의 적은 변이에 민감하지 않다는 것을 보여준다. DC 제거는 특히 본 명세서에서 설명된 인코더 제어 단계와 관련이 있다 (예를 들어, 이후 단락 9.3). 이 단계는 선택적으로 하나에서 다른 인코딩 옵션으로의 전환이 허용되는지 여부를 결정하기 위해 입력으로 DC 구성 요소가 없는 변조의 강도를 필요로 한다 (또는 바람직하게 가져야 한다).
변조 필터 뱅크의 기능은 예를 들어, 필터링 블록(264)에 의해 수행될 수 있다. 예를 들어, 이 기능은 DC 제거 블록(270) 및 위상 정보 제거 블록(274)에 의해 보완될 수 있다.
8.6 내부 표현(IR)(세부 사항은 선택 사항)
모든 청각 필터에 대한 모든 변조 필터의 결과 출력은 예를 들어, 내부 표현(IR)을 구성한다. 원칙적으로 원본 신호와 인코딩된 신호의 IR을 비교될 수 있으며; 예를 들어, 전체 IR에서 모든 제곱 차이의 합은 원본 신호와 인코딩된 신호 간의 차이의 가청도에 대한 메트릭을 제공한다([17] 참조). 예를 들어, 이러한 비교는(예를 들어, 조합/평가 블록(298)를 사용하여) 비교 블록(280)에 의해 수행될 수 있다.
청각 처리의 추가 단계의 일부 양상을 포함하기 위해서, 두 IR (내부 차이 표현(IDR)이라고도 함) 간의 차이에 대해 (선택적으로) 세 가지 수정이 이루어진다.
결과된 IDR은 사용 가능한 인코딩 옵션에 대한 결정 (또는 다르게 말하면, 인코딩 매개 변수에 대한 결정)을 하는 데 사용할 수 있다. 각 인코딩 옵션에는 인코딩이 수행되는 특정 매개 변수의 선택이 수반된다. IDR은 해당 인코딩 옵션에 의해 생성되는 지각 왜곡 수준을 예측하는 메트릭을 제공한다. 최소 예측 지각 왜곡을 유도하는 인코딩 옵션이 (예를 들어, 인코딩 매개 변수 선택 블록(370)을 사용하여) 선택된다.
8.7 공변조 마스킹 릴리스(Comodulation Masking Release; CMR)(세부 사항은 선택 사항)
IDR의 첫 번째 (선택적인) 수정은 스펙트럼 대역의 공변조와 관련이 있다. 주파수 대역에 걸쳐 시간적으로 공변조되는 마스커의 경우, 추가된 톤은 시간적으로 상관되지 않은 마스커보다 훨씬 낮은 레벨([18] 참조)에서 감지될 수 있다. 이 효과를 공변조 마스킹 릴리스 (CMR)라고 한다. 또한 고주파에서 주파수 대역의 공변조는 마스킹을 줄여준다 [19].
이로 인해 공변조된 신호의 경우, 원래 신호와 인코딩된 신호 사이의 IR의 차이가 (예를 들어, 사람인 청취자에 의해) 더 쉽게 감지될 것이라고 추론할 수 있다.
이 효과를 설명하기 위해, IDR은 (예를 들어, 가중 블록(292a에서 292e)에서) 공변조의 정도에 따라 선택적으로 확장된다.
예를 들어, 4 개의 인접한 청각 필터 (고려된 필터 아래에 2 개, 고려된 필터 위에 2 개)와 함께 고려중인 청각 필터의 시간적 엔벨로프 간의 공분산 정도를 측정하여 공변조의 정도를 결정한다. 예를 들어, 적응 루프의 출력에 이어 선택적인 저역 통과 필터 (시간 상수 0.01 초)가 청각 필터 출력의 시간적 엔벨로프를 나타내는 데 사용되었다.
이러한 공변조 정도의 결정은 예를 들어, 공변조 결정기(299a)에 의해 수행될 수 있다.
모델 예측과 주관적인 평가의 예비 비교에서, CMR 효과를 모델에 포함시켜 더 나은 예측을 성취했다. 그럼에도 알고 있는 한, CMR은 지금까지 지각 오디오 코딩의 맥락에서 고려되지 않았다.
8.8 시간적 평활화 (세부 사항은 선택 사항)
둘째, 내부 표현은 (선택적으로) 약 100ms 동안 시간적 평활화된다. 이 시간적 평활화는 예를 들어 시간적 평활화 블록(290a 내지 290e)에 의해 수행될 수 있다.
이의 동기는 인간 청취자가 잡음의 시간적 변동의 존재를 잘 인식할 수 있지만 이들 확률적인 변동의 세부 사항에 대해서는 상대적으로 둔감하다는 것이다. 즉, 이와 같은 변조 강도만이 인식되고, 변조의 시간적 세부 사항에 대해서는 인식되지 못한다. Hanna[20]의 연구는 동일한 잡음 발생기에 의해 생성된 특히 더 긴 잡음 토큰은 서로 구별될 수 없다는 것을 보여준다.
8.9 지각적 비대칭 (세부 사항은 선택 사항)
셋째, 신호를 인코딩할 때 추가되는 신호 구성 요소가 제거된 구성 요소보다 오디오 품질 측면에서 더 해로운 영향을 미친다는 것이 선택적으로 고려되었다. 기본적인 가정은 추가된 구성 요소가 원래의 오디오 신호와 공통의 속성을 공유하지 않는 경우가 많으며 그 때문에 아티팩트로서 더 눈에 띄게 된다는 것이다.
이것은 (선택적으로) IR의 차이의 양수 값과 음수 값의 비대칭 가중으로 구현되었다. 비대칭 가중은 예를 들어 가중 블록(292a 내지 292e)에 의해 수행될 수 있다. 모델 예측과 주관적인 데이터의 예비 비교에서, 비대칭 가중은 더 나은 예측을 이끌어내는 것으로 나타났다.
9. 심리 음향 모델에 의한 IGF 제어
다음에서, 대역폭 확장 (예를 들어, 지능형 갭 채움(IGF)), (또는 대역폭 확장의 매개 변수)이 (예를 들어, 본 명세서에서 논의된 오디오 인코더에서) 본 명세서에서 논의된 오디오 유사성 평가기를 사용하여 제어될 수 있는 방법이 설명될 것이다.
9.1 IGF 도구 (세부 사항은 선택 사항)
지능형 갭 채움(IGF) [5]은 압축 부가 정보에 의해 안내되는 누락된 신호의 추정치로 디코딩된 오디오 신호의 스펙트럼 갭을 채우는, 2013년 MPEG-H 3D 오디오의 표준화 프로세스에 처음 도입된 세미-파라메트릭 오디오 코딩 기술이다[21] [6], 이와 같이, IGF의 적용은 비파형 보존이다. IGF는 기존 BWE로도 작용하여 전체 빈 고주파수 영역을 추정된 신호로 채우도록 구성할 수 있지만, 기존 BWE 기능을 넘어서 파형 코딩된 콘텐츠와 예상 콘텐츠를 혼합하여 나머지 스펙트럼 갭을 채울 수도 있다. 이렇게 하면 기존 BWE에 중요한 것으로 알려진 콘텐츠, 예를 들어, 스위프 신호는 충실하게 코딩될 수 있다.
도 10에서, IGF를 사용하는 디코더가 도시된다. (예를 들어 역양자화 기(1040)에서,) (예를 들어, 역다중화기 및 엔트로피 디코더(1020)를 사용하여 입력 비트 스트림(1010)로부터 추출된 양자화된 MDCT 스펙트럼(1022)의) 전송된 수정 이산 코사인 변환(MDCT) 계수의 역 양자화후, 이들 값 (예를 들어, 역 양자화된 스펙트럼 값(1042)) 및 IGF 부가 정보(1024) (예를 들어, 역 다중화기 및 엔트로피 디코더(1020)에 의해 입력 비트 스트림(1010)로부터 유도될 수 있음)는 IGF 디코더(1050)로 전달된다. 부가 정보(1024)를 사용하여, IGF 디코더(1050)는 스펙트럼의 전송된 저 대역(1042)으로부터 MDCT 계수를 선택하여 고 대역 추정치(1052)를 어셈블한다. 따라서 저 대역 및 고 대역은 소위 IGF 소스 타일 및 타겟 타일로 각각 구성된다.
도 11에 도시된 바와 같이, 스펙트럼 하단의 IGF 최소 주파수에서 IGF 시작 주파수까지 확장되는 IGF 소스 범위는 4개의 겹치는 소스 타일 sT[i]로 나뉜다 (예를 들어, I는 0에서 3까지의 값을 취할 수 있다). IGF 타겟 범위, 즉 재구성할 고주파 스펙트럼 대역은 IGF 시작 및 정지 주파수에 의해 결정된다. 다시 말하지만, 더 높은 주파수로 대역폭을 증가시키는 최대 4 개의 연속되는 타겟 타일 (예를 들어, 타일[0]에서 타일[4]로 지정됨)로 나뉜다.
IGF 디코딩 과정에서, IGF 범위는 전송된 부가 정보를 사용하여 원래 신호와 가장 잘 일치하도록 적절한 소스 타일을 타겟 타일로 복사하고 음조 속성 [22] 및 스펙트럼 엔벨로프 [23]을 조정하여 재구성된다.
이 단락에서 설명된 디코딩 프로세스는 예를 들어 오디오 인코더에 의한 인코딩 매개 변수를 적절하게 제공하여 제어될 수 있다는 점에 유의해야 한다. 예를 들어, 인코딩 매개 변수는 IGF 소스 타일 (예를 들어, sT[0 내지 sT[3]) 및 IGF 타겟 타일 (예를 들어, 타일[0] 내지 타일[4]) 사이의 연관성을 설명할 수 있다. 이러한 인코딩 매개 변수는 예를 들어 오디오 인코더(300 및 400)에서 결정될 수 있다.
9.2 IGF 제어
지각적으로 가장 잘 일치하는 스펙트럼 콘텐츠로 스펙트럼 갭을 채울 수 있도록, IGF는 이러한 콘텐츠를 생성할 수 있는 큰 정도의 자유도를 갖는다. 기본적으로, 고 대역(HF)을 채우는 신호는 저 대역(LF)에서 공급되는 시간-주파수 타일(예를 들어, sT[0] 내지 sT[3])으로 구성된다. 실제 매핑을 위한 소스 및 타겟 스펙트럼 범위 (예를 들어, sT[0] 내지 sT[3] 및 타일[0] 내지 타일[4])는 각 시간 프레임에 대한 다양한 가능성 중에서 개별적으로 선택될 수 있다.
음조를 조정하기 위해, IGF 화이트닝[22]을 사용하여 음조 소스 영역에서 가져온 시간-주파수 타일의 스펙트럼을 평활화하고 잡음이 있는 타겟 영역에 삽입될 수 있다. IGF는 세 가지 화이트닝 레벨, "오프", "중간", "강"을 제공하고, "강" 화이트닝 레벨은 타일의 원래 내용을 랜덤 잡음으로 대체하여 구성된다.
유연한 타일 선택과 화이트닝 옵션을 조합으로 취하면 엄청난 수인 n =(44)(34) = 20736개의 개별 조합이 생성되고, 여기서 (44)는 모든 다른 소스 타일 선택의 가능성이고 (34)는 모두 각 타일에 대해 독립적으로 선택할 수 있는 다른 화이트닝 옵션이다. (이 예에서는 4 개의 소스 타일에 각각 개별적으로 연관될 수 있으며, 3 개의 화이트닝 모드 중 하나에 개별적으로 연관될 수 있는 4 개의 타겟 타일이 있다고 가정한다.)
본 출원인은 높은 대역을 추정하기 위해 이러한 조합 중에서 지각적으로 가장 근접한 선택을 하기 위해서, 위에서 설명한 바와 같은 지각 모델을 사용할 것을 제안한다. 다시 말하면, 여기에 설명된 지각 모델은 예를 들어 지능형 갭 채움을 위한 매개 변수, 예를 들어 소스 타일과 타겟 타일 간의 연관성을 설명하는 매개 변수 및 화이트닝 모드를 설명하는 매개 변수를 선택하기 위해 오디오 인코더(300, 400)에서 사용될 수 있다.
이를 위해, IDR은 예를 들어, 도입된 지각 왜곡의 가청도에 대한 메트릭 (예를 들어, 유사성 정보(112, 212, 342, 424))으로서 작용하는 제곱차의 합을 (예를 들어, 비교 블록(180) 또는 비교 블록(280)에서) 도출하는 데 사용된다. 이 합계는 예를 들어 단일 인코딩 프레임을 초과하는 더 긴 시간 간격에 걸쳐 선택적으로 결정된다. 이렇게하면 선택한 인코딩 옵션 간에 자주 변경되는 것을 방지할 수 있다.
모델 내의 시간적 평활화 (단락 8.8 참조)는 과도한 음조 고대역 추정에 대한 잠재적 편향을 효과적으로 방지한다.
그러나, 위의 전략을 사용하여 내린 인코딩 결정은 여전히 본질적으로 로컬 결정 기준을 기반으로 하므로 두 타일링 옵션 간의 단순한 전환으로 인해 발생할 수 있는 지각 효과는 고려하지 않는다. 이 효과를 개선하기 위해 본 출원인은 지각적으로 필요한 경우 안정성을 보장하는 기준을 선택적으로 도입했다 (예를 들어, 연관 변경 제한 블록(380)에서 구현될 수 있음).
9.3 안정화 기준 (선택 사항; 세부 사항도 선택 사항)
설명된 바와 같이, IGF는 고주파 삽입을 위한 스펙트럼 소스 및 타겟 범위를 선택하기 위해 IGF 타일링의 다양한 대안 선택을 가능하게 한다. 스펙트럼 주파수 삽입의 정확한 이동이 프레임 단위로 시간이 지남에 따라 달라지면, 단일 연속 음조 구성 요소가 시간이 지남에 따라 서로 다른 고주파 사이에서 토글링될 수 있다. 이것은 매우 눈에 띄고 성가신 아티팩트가 된다. 이는 주파수의 편이가 인코더의 프레임 속도와 대략적으로 일치하는 변조 주파수에서 인코딩된 신호에 변조가 도입되기 때문에 발생한다고 가정된다. 더 긴 시간 척도에서만 존재하는 이러한 유형의 아티팩트를 피하기 위해서, IGF 주파수 편이 간 전환에 대한 제한이 선택적으로 통합되었다. 이러한 IGF 주파수 편이 간 (또는 동등하게, 대역폭 확장의 소스 타일과 타겟 타일 사이의 상이한 연관 간) 전환의 제한은 예를 들어 연관 변경 제한 블록(480)에 의해 달성된다.
IGF 주파수 편이 (또는 소스 타일과 타겟 타일 사이의 연관성)를 변경하는 것은, IGF 주파수 편이가 있을 때 (예를 들어, 소스 타일과 타겟 타일 간의 연관성 변경으로 인해 발생)(즉, 인코더의 프레임 속도에 해당), 원래 신호가 도입될 변조에 해당하는 범위에서 (비교적으로) 강한 변조 구성 요소를 갖는 경우에만 허용되는 것으로 가정했다. 이러한 이유로, 청취자가 타일링의 변화에 의해 유도된 주파수 편이의 도입에 얼마나 민감한지를 예측하는 민감도 척도가 선택적으로 유도된다 (예를 들어, 블록 486에서). 예를 들어, 이 민감도 척도는 인코더의 프레임 속도에 해당하는 변조 필터의 변조 강도에 반비례한다. 민감도가 이 고정 기준보다 낮을 때만 IGF 타일링 선택의 변경이 허용된다. 이것은 예를 들어, 임계 값 비교 블록(489) 및 연관 변경 게이팅(480)에 의해 성취될 수 있다.
10 실험 (설정 및 세부 사항은 선택 사항)
10.1 개요
지각적으로 최적화된 파라메트릭 코딩 기법의 매개 변수 선택을 수행하는 제안된 심리 음향 모델의 능력을 평가하기 위해서, 멀티-스티뮬러스 테스트 위드 히든 레퍼런스 앤 앵커 (Multi-Stimulus Test with Hidden Reference and Anchor; MUSHRA) [24] 청취 테스트가 준비되었다. 청취 테스트 항목은 다음과 같이 두 가지 유형의 세미-파라메트릭 IGF 도구를 사용하는 MPEG-H 3D 오디오 코덱 실험 오프라인 환경에서 생성되었다. 특성에 기반하는 화이트닝 레벨 추정과 결합된 고정 타일링 선택이 제안된 심리 음향 모델에 의해 자극된 두 매개 변수의 자동 선택과 비교되었다.
10.2 아이템 생성
청취 테스트를 위해, 모든 항목은 MPEG-H 인코더/디코더 오프라인 체인을 통해 처리되었다. 비트레이트는 IGF에 의해 도입된 것 이외의 지각적인 효과의 영향을 배제하기 위해 매우 높은 값으로 설정되었다. MPEG-H 3D 오디오 인코더 매개 변수는 IGF 대역에 대한 차선의 추정치가 명확한 가청 효과를 가지도록 설정되었다. 따라서, IGF 시작 주파수는 4.2kHz로, IGF 정지 주파수는 8.0kHz로 설정되었다. 결과적으로, 원래 항목은 처리된 버전과의 더 나은 비교를 위해 8.4kHz로 대역 제한되었다.
이 설정을 사용하면, IGF 타일링이 타겟 타일 3 개로만 제한되므로, 평가할 수 있는 IGF 매개 변수 조합의 수를 실제 실험에서의 계산 복잡성 측면에서 처리할 수 있는 수로 크게 줄일 수 있다. 조합 수를 더 줄이기 위해, "강" 화이트닝이 개별 타일의 무작위 잡음 대체로 구성된다는 사실 때문에, 하나 이상의 "강" 화이트닝 설정을 포함하는 동등한 조합이 세트에서 제거되었다 (부단락 3.2 참조). 처음에는, "강" 화이트닝이 없는 (23)(43) = 512 개의 다른 IGF 설정 조합이 있다. 하나, 둘 또는 세 개의 타겟 타일 모두가 강한 화이트닝을 사용하는 경우, 추가로 3(21)(41) + 3(22)(42) + 1 = 217개의 조합이 생성된다. 요약하면, 최종적으로 고려할 조합은 (부단락 9.2에 따라 최대 조합 수 n =(33)(43) = 1728 대신에) 729 개뿐이다.
비교 조건을 생성하기 위해, 코덱은 '1313'의 고정 타일링 (부단락 10.2 참조)을 사용하여 작동되었으며, 화이트닝은 기본적으로 스펙트럼 평탄도 측정(SFM)의 평가에 의해 제어되었다. 이것은 예를 들어, SBR에서 사용되는 것과 직접적으로 일치하며, 이 때 복사의 적응형 조정은 지원되지 않으며, 또한 현재 IGF 인코더 구현에도 일치하므로, 공정한 비교 조건을 구성한다.
자동화된 선택은 도 6과 같이 3 개의 연속적인 처리 단계에서 구현된 '무차별 대입 방식'을 사용하여 생성되었으며, 이는 IGF 자동 선택 항목의 생성을 개략적으로 보여준다.
제 1 단계에서, IGF 타일링 및 IGF 화이트닝의 사용 가능한 모든 조합에 대한 출력 (예를 들어, 모든 매개 변수 세트에 대해 인코딩 및 다시 디코딩된 오디오 신호(1230))은 (예를 들어, 입력 신호(1210)에 기초하여 오디오 인코더 또는 MPEG-H 인코더와 오디오 디코더 또는 MPEG-H 디코더(1224)를 사용하여) 강제적인 상수 매개 변수 모드 내에서 생성되었다. 이와 같이, 인코더(1220)는 강제 IGF 타일링 및 IGF 화이트닝 매개 변수를 변경하지 않았고, 하나의 버전을 인코딩하는 동안 이들을 일정하게 유지했다. 이러한 방식으로 처리된 항목에 대해 가능한 모든 IGF 타일링 및 IGF 화이트닝 버전의 신호(1230)가 생성되어 WAV 형식으로 저장되었다.
제 2 단계에서는 프레임 단위로 (예를 들어, 오디오 유사성 평가기(100, 200)에 대응하거나 오디오 유사성 평가기(100, 200)와 비교할 때 유사하거나 동일한 기능을 포함할 수 있는) 심리 음향 모델(1240)을 통해 이러한 wav 파일을 분석하여 제 1 단계에서 얻은 각 처리 결과의 지각 품질을 추정했다. 결정 데이터(1252)를 획득하고 이를 텍스트 파일에 기록하기 위해 (예를 들어, 다른 입력 오디오 신호에 대한 "유사성 정보"(112, 212)에 대응할 수 있는) n = 729 개의 상이한 처리 결과의 품질 추정이 (예를 들어, 결정 블록(1250)에 의해) 비교되었다.
도 13 및 도 14는 항목 '3요소'에 대한 모델로부터 획득한 (예를 들어, 선택된 인코딩 매개 변수(324, 424)에 대응할 수 있는) 결정 데이터(1252)를 디스플레이한다. 상당한 양의 스위칭과 이에 따른 동적 적응이 발생하는 것을 관찰할 수 있다. 이러한 결정 데이터는 예를 들어, 인코딩 매개 변수 선택 블록(370) 또는 인코딩 매개 변수 결정 블록(430)에 의해 제공될 수 있다. 다르게 말하면, 도 13은 소스 타일 중 어느 것이 고려중인 3 개의 타겟 타일과 연관되는지에 대한 시간적 진화를 보여준다. 도 13은 화이트닝 모드(또는 화이트닝 레벨) 중 어느 것이 3 개의 타겟 타일에 사용되는지에 대한 시간적 변화를 보여준다.
제3 처리 단계에서, 결정 데이터 (IGF 타일링 선택 및 프레임 당 IGF- 화이트닝 매개 변수)는 텍스트 파일에서 위에서 설명한대로 구성된 MPEG-H 인코더/디코더 체인(1260, 1270)으로 공급되어, 동적 선택을 하는 데에 사용된다. 최종 WAV 파일은 제안된 모델을 통한 자동 선택을 특징으로 하는 인코딩 및 디코딩된 버전(1272)을 생성했다.
"무차별 대입 방식"과 함께 오프라인 계산 설정은 원칙적으로 제안된 모델의 적합성을 입증하고, 이에 의해 해당 모델을 사용하여 상위 품질 한계를 제공하기 위해 선택되었다. 예를 들어 (선택적으로), 실제 응용 프로그램에서, 심층 신경망(DNN) (예를 들어, 신경망(530))은 현재 계산 비용의 일부만으로 모델 출력 (예를 들어, 유사성 정보(112, 212, 342) 또는 인코딩 매개 변수 정보(324, 424))을 학습하고 실질적으로 대체할 수 있다. 이러한 설정에서, 제안된 모델은 적절한 학습을 위해 (예를 들어, 신경망 학습 데이터(532)을 얻기 위해) 많은 양의 오디오 자료에 자동으로 주석을 달 수 있다.
결론적으로, 블록(1220, 1224, 1240, 1250, 1260)의 기능은 예를 들어, 오디오 인코더(300, 400)에서 (예를 들어, 블록 350, 360, 340, 370, 320에 의해 또는 블록(430, 420))에 의해 수행될 수 있다. 따라서, 오디오 인코더는 오디오 유사성 평가 블록(100, 200, 340)에서 (전체적으로 또는 부분적으로) 구현되는 제안된 모델을 사용하여 인코딩 매개 변수를 선택할 수 있다. 그러나, 오디오 인코더의 구현은 도 5의 실시 예에 도시된 바와 같이, 신경망을 사용할 때 더 효율적일 수 있고, 여기서 신경망에 대한 학습 데이터는 (예를 들어, 본 명세서에서 설명된 오디오 유사성 평가기를 사용하여) 제안된 모델을 사용하여 획득한다.
11. 결과
MUSHRA 청취 테스트의 항목으로 표 1에 나타낸 11 개의 음악 발췌 부분의 세트를 준비했다. 테스트는 표 2에 나열된 5 가지 조건으로 이루어진다. 청취는 정전기 STAX 헤드폰과 앰프를 사용하여 거실과 같은 환경에서 15 명의 전문 청취자에 의해 수행되었다. MUSHRA 테스트에서, 테스트 중인 모든 항목은 원본과 비교된다. 전체적으로 8.4kHz로 대역이 제한된 원본을 사용했기 때문에 (부단락 10.2에 설명된 이유로), 이들 원본은 "우수", "양호", "보통", "부족", "나쁨"의 범위의 등급에서 절대적 등급인 "우수"에 대응한다.
도 15는 청취자의 절대 점수를 보여준다. 코드화된 항목의 지각 품질 수준은 모두 절대적인 등급에서 볼 수 있듯이 '보통'에서 '양호'까지 범위에서 모두 등급이 매겨졌다. 자동화된 조건의 등급은 전체적으로 '양호'이다.
도 16은 제안된 자동화 조건과 고정 타일링 기준 조건의 차이 점수를 보여준다. 이러한 차이 점수로부터 5 개 이상의 MUSHRA 점수가 평균적으로 유의미하게 향상되었음을 확인할 수 있다. 항목 'B', 'C', 'G', 'H', 'I' 및 'J'는 각각 18, 7, 7, 3, 9, 10점의 현저한 향상을 보여준다. 개별 항목 중 어느 것도 크게 저하되지 않았다.
12. 토론
청취 테스트의 결과는 제안된 인코딩 방법으로 오디오 품질이 전반적으로 크게 향상되었음을 보여준다. 여기에서 두 가지 주요 결론을 도출할 수 있다. 첫째, 결과는 세미-파라메트릭 IGF 도구의 경우, 프레임 단위로 하나의 발췌 부분을 인코딩하는 동안 서로 다른 인코더 설정 간에 전환은 지각 품질의 향상을 가져올 수 있다. 둘째, 이러한 목적을 위해 새로 제안된 심리 음향 모델 (및 이에 따라 제안된 오디오 유사성 평가 블록(100, 200, 340))이 자동화 방식으로 파라메트릭 인코더(예를 들어, 인코딩 블록(320, 420))의 인코딩 매개 변수를 제어할 수 있음을 보여주었다.
적응형 인코딩 (청취 테스트의 자동 조건)을 사용하면 타일링 선택 (예를 들어, 소스 타일과 타겟 타일 간의 연관성)과 화이트닝 레벨의 모든 사용 가능한 조합 사이에서 잠재적으로 전환하는 것을 가능하게 한다. 대부분의 발췌 부분에서, 이것은 음조 아티팩트를 도입하지 않고 고주파에서 잡음와 유사한 (거친) 특성을 감소시키는 결과를 가져왔다.
구체적으로, 심리 음향 모델은 두 가지 방식으로 적용되었다.
한편으로는, 로컬 시간 척도에서 사용할 수 있는 다양한 인코딩 옵션과 관련된 지각적 저하에 대한 예측을 제공했다. 이로부터, 최상의 '로컬' 인코딩 옵션을 선택할 수 있다.
그러나, 이전 실험에서는 이 로컬 기반 인코딩 최적을 직접 적용하면 종종 눈에 띄는 전환 아티팩트가 발생하는 것으로 나타났다. 특히 안정적인 고주파 톤 구성 요소가 있을 때 다른 타일링 옵션으로 전환하면 매우 눈에 띄는 주파수 변조 아티팩트가 발생한다.
반면에 인코딩 옵션을 시기 부적절하게 전환하여 발생하는 인공물을 방지하기 위해 선택적으로 안정성 기준을 제공한다 (여기서 이러한 안정화 메커니즘은 예를 들어 연관 변경 제한을 사용하여 구현될 수 있다). 결과적으로, 모델 (또는 연관 변경 제한 블록(480))은 오디오 신호 내에서 어떤 순간에 하나에서 다른 타일링으로 전환할 수 있는지 결정하는 데 사용되었다. 이를 위한 기준으로서, 원본 오디오 발췌 부분이 변조 없이 높은 음조 주파수 영역을 나타낼 때 전환을 피해야 한다고 가정한다.
현재 구현에서는 (예를 들어, 인코딩 매개 변수 결정에서) 전환 허용의 경우에 어느 업데이트된 인코딩 매개 변수의 세트가 로컬에서 최상의 품질로 이어질지 결정된다. 오디오 발췌가 진행됨에 따라, 다른 특정 세트의 최상의 인코딩 매개 변수가 선택될 수 있지만, 이 세트로의 전환은 오랜 시간 동안 금지된다 (예를 들어, 연관 변경 제한 블록에 의해). 따라서 초기 인코딩 매개 변수가 차선이 되는 경우, 인코더는 그럼에도 불구하고 전역적으로 차선이 되는 세트를 더 오랫동안 유지해야 한다. 이 문제를 해결하기 위한 선택적 접근 방식은, 현재 인코딩 결정이 장차 발췌 부분의 품질에 어떤 영향을 미치는지 고려하기 위해서, 심리 음향 모델이 시간 내에 충분한 예견을 갖도록 (선택적으로) 허용하는 것이다.
자동화 인코딩 방법의 경우 고정 인코딩에 비해 전반적으로 개선되었지만, 개별 항목 'B'의 경우 매우 크게 개선되었으며, 항목 'C', 'G', 'I' 및 'J'도 상당히 개선되었다. 여기에서, 일반적인 관찰에 따라 자동화 버전은 심리 음향 모델 기반 접근 방식이 타일링 선택과 화이트닝 레벨의 지각적으로 적절한 조합을 선택할 수 있다는 일반적인 개념을 지원하는 고정 버전보다 잡음이 훨씬 덜하다.
13. 요약
기존의 청각 마스킹 모델은 파형 보존 코덱을 제어하는 데 매우 성공적인 것으로 나타났지만, 이러한 모델은 마찬가지로 파라메트릭 코딩 도구를 조종하는 데 적합하지 않은 것으로 밝혀졌다.
본 명세서에서는, 본 발명의 일 양상에 따라, (예를 들어, 인코딩 블록(320) 또는 인코딩 블록(420)의) 지각적인 코딩 기술을 보존하는 비파형의 매개 변수 (예를 들어, 인코딩 매개 변수)를 제어하기 위해서 개선된, 여기 기반 심리 음향 모델 (예를 들어, 오디오 유사성 평가기에서 구현될 수 있음)을 사용할 것을 제안한다. 이 모델에서 사용 가능한 인코딩 옵션 각각에 대해 소위 내부 차이 표현(IDR) (예를 들어, 차이 표현(294a 내지 294e))이 획득한다. IDR은 해당 인코딩 옵션을 적용하여 생성된 지각 왜곡의 수준을 예측하는 메트릭을 제공하는 것으로 표시된다. 최종 인코딩 프로세스를 제어하기 위해, 예측된 지각 왜곡을 최소화하는 인코딩 옵션이 (예를 들어, 인코딩 매개 변수 결정 블록(330, 430) 또는 인코딩 매개 변수 선택 블록(370)에 의해) 선택된다.
본 출원인은 기존의 지각 모델과 달리, 제안된 여기 기반 접근 방식이 MPEG-H 3D 오디오 및 세미-파라메트릭 지능형 갭 채움(IGF) 도구의 예에서 최신 오디오 코더 내에서 파라메트릭 코딩 도구의 신호 적응식 적용을 성공적으로 조정할 수 있음을 입증했다. MUSHRA 청취 테스트를 통해 자동화된 IGF 매개 변수 선택의 장점을 입증했다. '자동화 매개 변수 선택' 조건은 고정 IGF 타일링 체계와 음조 기반 화이트닝을 사용하는 단순한 설정보다 평균적으로 5 점 이상의 MUSHRA 점수를 받았다.
이 문서에 설명된 실험은 적응형 IGF 매개 변수 선택을 제어하기 위해 이러한 고급 모델의 원칙적 적용 가능성을 증명할 만큼 이론적이다. 본 출원인은 현재의 '무차별 대입 방식'을 사용하는 것이 계산 복잡성이 높아진다는 것을 알았다.
따라서 본 출원인은 선택적인 수정안으로 모델 출력에 대한 심층 신경망(DNN)을 학습시켜 제안된 모델의 실제 적용시 복잡성을 대폭적으로 줄이도록 구상했다.
14. 선택적 확장
이하에서는, "효율적인 지각 오디오 코덱을 위한 개선된 심리 음향 모델"에 대한 선택적인 확장 및 수정에 대해 설명한다.
14.1 확장의 소개
위에 제시된 본 발명의 주요 설명은 제안된 심리 음향 모델을 상세히 설명하고 제안된 모델을 MPEG-H 3D 오디오 인코더 내에서 IGF 매개 변수의 추정을 위한 컨트롤러로 사용하는 바람직한 실시 예를 보여준다.
실험 설정은 철저한 접근 ("무차별 대입") 방식을 사용하여 실험을 스케치하고, 이 때, 예를 들어, 추정될 매개 변수의 모든 가능한 조합은 최상의 것을 선택하기 위해 후속적으로 비교되는 다수의 출력을 생성하기 위해 사용된다.
동시에 본 출원인은 그러한 접근 방식이 계산적으로 매우 복잡하다고 언급한다.
따라서 본 출원인은 모델 자체의 값 비싼 분석적 미적분의 반복적인 적용을 선택적으로 대체하기 위해 실제로 심층 신경망(DNN)을 사용할 것을 제안한다.
14.2 DNN 접근
DNN 접근 방식의 사용은 선택 사항이며 위에서 언급한 개념의 대안으로 사용하거나 위에서 언급한 개념과 결합하여 사용 가능함에 유의해야 한다.
이러한 DNN 기반 접근 방식은 (예를 들어, 본 명세서에 언급된 오디오 유사성 평가기를 사용하여) 제안된 심리 음향 모델의 출력에 의해 자동으로 주석이 추가된 충분한 양의 오디오 자료를 사용하여 DNN (예를 들어, 신경망(530))을 학습하는 것으로 구성된다 (이 때 심리 음향 모델의 출력에 의해 주석이 추가된 오디오 자료는 신경망 학습 데이터(532)로 간주될 수 있음).
따라서 계산 복잡성은 DNN 학습의 (오프라인) 준비 단계로 이동하여 자동으로 주석이 달린 자료를 (예를 들어, 신경망 학습 데이터(532)로) 생성하고, 또한(예를 들어, 신경망(530)의) 학습 단계로 들어가 (예를 들어, 신경망(530)의) 계층의 DNN 노드의 적절한 가중치를 추정하도록 한다.
적용 단계에서, 예를 들어 인코딩 매개 변수를 결정하기 위해 오디오 인코더에서 사용될 수 있는 DNN (예를 들어, 신경망(530))은 그 아키텍처로 인해 약간의 복잡성을 갖는다.
실제 사용을 위해, 이러한 인코더 (예를 들어, 오디오 인코더(500))는 설명된 분석 심리 음향 모델의 출력 (예를 들어, 오디오 유사성 평가 블록(100, 200, 340)의 출력 또는 예를 들어 인코딩 매개 변수 선택 블록(330, 430)의 출력)에 근접하여 모방하는 (예를 들어, 오디오 유사성 평가기를 사용하여 오디오 정보를 학습시키는 것에서 파생된 매개 변수 정보를 사용하여 학습되는) 쉽게 학습된 DNN을 갖추고 있다.
14.3 실시 예 (세부 사항은 선택 사항)
일 구현 예에서, (예를 들어 DNN에 의해) 학습될 상기 모델 출력은 (예를 들어, 오디오 유사성 평가기에 의해 획득되는) 오디오 프레임 당 품질 측정치로서의 단일 숫자, 원본과 그 코드화 버전의 품질 측정치를 감하고 얻은 단일 숫자의 차이, 또는 내부 표현 또는 원본에 대한 차이의 다중 숫자일 수 있다.
다른 구현 예에서, DNN은 설명된 분석 심리 음향 모델을 사용하여 (또는 오디오 유사성 평가기를 사용하여) 입력 신호 (아마도 아래에서 설명하는 것과 다른 표현을 사용함) 및 도 6의 "단계 2" (최적 타일링 및 화이트닝)에서 얻은 결정 데이터에 대해 직접 학습된다. 그런 다음, DNN 출력을 사용하여 인코더 (예를 들어, MPEG-H 인코더)를 제어하여 지각적으로 최적인 방식으로 코딩 매개 변수를 조정할 수 있다 (이 때, 예를 들어, 인코딩 매개 변수는 신경망에 의해 출력됨). 따라서, 위에 제시된 무차별 대입 방식에서 요구되는 바와 같은 여러 다른 설정으로 입력 신호를 더 이상 인코딩할 필요가 없다.
DNN은 서로 다른 토폴로지를 가질 수 있다 (컨볼루션 신경망(CNN), 순환 신경망(RNN),...). DNN은 다른 입력에서 학습될 수 있다 (PCM 데이터 [프레임], 스펙트럼 데이터(푸리에 스펙트럼, 상수 Q 변환, 감마 톤 필터 뱅크, ...)).
15. 추가 의견 및 비고
3 가지 IGF 화이트닝 레벨 (off == 처리 없음, 중간 == 톤 피크의 감쇠, 강 == 잡음 대체)도 잡음 대체를 포함한다는 점에 유의해야 한다. 이 경우 타일의 내용은 무시되고 관련없는 잡음으로 대체된다. 이러한 모드는 예를 들어, 오디오 인코더에서 결정될 수 있다. 즉, IGF에서 화이트닝 레벨 "강함"은 기술적으로 소스 타일을 관련없는 잡음으로 대체한다.
더욱이, 일 실시 예에서, 선택적으로 오디오 신호의 특정 (예를 들어, 미리 결정된) 스펙트럼 성분만이 예를 들어 고 대역 또는 고주파 대역에서 설명된 바와 같이 분석된다. 이는 예를 들어 스펙트럼의 일부만 인코딩 결정에 영향을 받는 경우 복잡성을 줄이는 데 유용할 수 있다. 예를 들어, 이것은 4.2kHz에서 8.4kHz 사이의 범위를 벗어나는 스펙트럼의 어떤 부분도 분석 결과의 영향을 받지 않기 때문에, IGF를 사용하는 설명된 예에서 유용하다.
16. 결론
결론적으로, mp3와 같은 초기 지각 오디오 코더 이후, 인코딩 프로세스를 제어하는 기본 심리 음향 모델은 많은 극적인 변화를 겪지 않는다. 한편, 최신 오디오 코더에는 오디오 대역폭 확장과 같은 세미-파라메트릭 또는 파라메트릭 코딩 도구가 장착되어 있다. 이에 따라 추가된 양자화 잡음을 고려하면, 지각 코더에 사용된 초기 심리 음향 모델이 부분적으로 부적합하게 된다고 밝혀졌다.
일반적으로 말해서, 본 발명에 따른 실시 예는 예를 들어, 오디오 인코더에서 오디오 신호의 유사성 평가를 위해서, 1997년에 Dau 등이 고안한 기존 모델을 기반으로 개선된 심리 음향 여기 모델의 사용을 제안한다. 이 변조 기반 모델은 내부 청각 표현을 계산함으로써 정확한 입력 파형에서 본질적으로 독립적이다. MPEG-H 3D 오디오의 예와 세미-파라메트릭 지능형 갭 채움(IGF) 도구를 사용하여, IGF 매개 변수 선택 프로세스를 성공적으로 제어하여 전반적으로 향상된 지각 품질을 달성할 수 있음을 보여준다.
그러나, 본 명세서에 개시된 개념은 임의의 특정 오디오 인코더 또는 대역폭 확장 개념의 사용으로 제한되지 않는다는 점에 유의해야 한다.
17. 추가 설명
본 문서에서는, 예를 들어 "제안된 심리 음향 모델" 및 "심리 음향 모델에 의한 IGF 제어" 챕터에서 상이한 본 발명의 실시 예 및 양상이 설명된다.
그러나, 다른 챕터에서 설명된 특징, 기능 및 세부 사항은 또한 선택적으로 본 발명에 따른 실시 예에 도입될 수 있다.
또한, 추가 실시 예는 첨부된 청구 범위에 의해 정의될 것이다.
청구 범위에 의해 정의된 임의의 실시 예는 상기 언급된 장에서 설명된 임의의 세부 사항 (특징 및 기능)에 의해 보완될 수 있다는 점에 유의해야 한다.
또한, 상기 언급된 챕터에서 설명된 실시 예는 개별적으로 사용될 수 있고, 또한 다른 챕터의 임의의 특징 또는 청구항에 포함된 임의의 특징에 의해 보완될 수 있다.
또한, 본 명세서에 설명된 개별적인 양상은 개별적으로 또는 조합하여 사용될 수 있다는 점에 유의해야 한다. 따라서, 세부 사항은 상기 양상들 중 다른 하나에 세부 사항을 추가하지 않고 상기 개별 양상들 각각에 추가될 수 있다.
또한, 본 개시는 오디오 인코더 (입력 오디오 신호의 인코딩된 표현을 제공하기 위한 장치)에서 사용 가능한 특징을 명시적으로 또는 묵시적으로 설명한다는 점에 유의해야 한다. 따라서, 본 명세서에 설명된 임의의 특징은 오디오 인코더의 맥락에서 사용될 수 있다.
더욱이, 방법과 관련하여 본 명세서에 개시된 특징 및 기능은 장치 (이러한 기능을 수행하도록 구성됨)에서도 사용될 수 있다. 더욱이, 장치와 관련하여 본 명세서에 개시된 임의의 특징 및 기능은 대응하는 방법에서 사용될 수 있다. 다시 말하면, 본 명세서에 개시된 방법은 장치와 관련하여 설명된 특징 및 기능 중 임의의 것에 의해 보완될 수 있다.
또한, 본 명세서에 설명된 모든 특징 및 기능은 "대안적인 구현" 단락에서 설명되는 바와 같이 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 조합을 사용하여 구현될 수 있다.
18. 대안적인 구현
일부 양상들이 장치의 맥락에서 설명되지만, 이들 양상들은 또한 대응하는 방법의 설명을 나타내며, 여기서 블록 또는 장치는 방법 단계 또는 방법 단계의 특징에 대응한다. 유사하게, 방법 단계의 맥락에서 설명된 양상들은 또한 대응하는 장치의 대응하는 블록 또는 항목 또는 특징의 설명을 나타낸다. 방법의 단계들 중 일부 또는 전부는 예를 들어 마이크로 프로세서, 프로그램 가능한 컴퓨터 또는 전자 회로와 같은 하드웨어 장치에 의해 (또는 이를 사용하여) 실행될 수 있다. 일부 실시 예에서, 가장 중요한 방법 단계 중 하나 이상이 이러한 장치에 의해 실행될 수 있다.
특정 구현 요구 사항에 따라, 본 발명의 실시 예는 하드웨어 또는 소프트웨어로 구현될 수 있다. 이 구현은 각각의 방법이 수행되도록 프로그램 가능한 컴퓨터 시스템과 협력하는 (또는 협력할 수 있는), 전자적으로 판독 가능한 제어 신호가 저장되어 있는, 플로피 디스크, DVD, Blu-Ray, CD, ROM, PROM, EPROM, EEPROM 또는 FLASH 메모리와 같은 디지털 저장 매체를 사용하여 수행될 수 있다. 따라서, 디지털 저장 매체는 컴퓨터 판독 가능할 수 있다.
본 발명에 따른 일부 실시 예는 본 명세서에 설명된 방법 중 하나가 수행되도록 프로그램 가능한 컴퓨터 시스템과 협력할 수 있는 전자적으로 판독 가능한 제어 신호를 갖는 데이터 반송파를 포함한다.
일반적으로, 본 발명의 실시 예는 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있고, 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터에서 실행될 때 방법 중 하나를 수행하도록 동작한다. 프로그램 코드는 예를 들어 기계 판독 가능 반송파에 저장될 수 있다.
다른 실시 예는 기계 판독 가능 반송파에 저장된, 본 명세서에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.
즉, 본 발명의 방법의 실시 예는 본 명세서에 설명된 방법 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램으로, 이 때 컴퓨터 프로그램은 컴퓨터에서 실행된다.
따라서, 본 발명의 방법의 추가 실시 예는 본 명세서에서 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함하는 데이터 반송파 (또는 디지털 저장 매체 또는 컴퓨터 판독 가능 매체)이다. 데이터 반송파, 디지털 저장 매체 또는 기록 매체는 일반적으로 유형적 및/또는 비과도적이다.
따라서 본 발명의 방법의 추가 실시 예는 본 명세서에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 데이터 스트림 또는 신호 시퀀스이다. 데이터 스트림 또는 신호의 시퀀스는 예를 들어 데이터 통신 연결을 통해, 예를 들어 인터넷을 통해 전송되도록 구성될 수 있다.
추가 실시 예는 본 명세서에서 설명된 방법 중 하나를 수행하도록 구성되거나 적응된 처리 수단, 예를 들어 컴퓨터, 또는 프로그래밍 가능한 논리 장치를 포함한다.
추가 실시 예는 본 명세서에서 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.
본 발명에 따른 추가 실시 예는 본 명세서에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 (예를 들어, 전자적으로 또는 광학적으로) 수신기로 전송하도록 구성된 장치 또는 시스템을 포함한다. 수신기는 예를 들어 컴퓨터, 모바일 장치, 메모리 장치 등일 수 있다. 장치 또는 시스템은 예를 들어, 컴퓨터 프로그램을 수신기로 전송하기 위한 파일 서버를 포함할 수 있다.
일부 실시 예에서, 프로그래밍 가능 논리 장치 (예를 들어, 필드 프로그래밍 가능 게이트 어레이)는 본 명세서에 설명된 방법의 기능의 일부 또는 전부를 수행하는 데 사용될 수 있다. 일부 실시 예에서, 필드 프로그래밍 가능 게이트 어레이는 본 명세서에서 설명된 방법 중 하나를 수행하기 위해 마이크로 프로세서와 협력할 수 있다. 일반적으로, 방법은 바람직하게는 임의의 하드웨어 장치에 의해 수행된다.
본 명세서에 설명된 장치는 하드웨어 장치를 사용하거나, 컴퓨터를 사용하거나, 하드웨어 장치와 컴퓨터의 조합을 사용하여 구현될 수 있다.
본 명세서에 설명된 장치 또는 본 명세서에 설명된 장치의 임의의 구성 요소는 적어도 부분적으로 하드웨어 및/또는 소프트웨어로 구현될 수 있다.
본 명세서에서 설명된 방법은 하드웨어 장치를 사용하거나, 컴퓨터를 사용하거나, 하드웨어 장치와 컴퓨터의 조합을 사용하여 수행될 수 있다.
본 명세서에 설명된 방법, 또는 본 명세서에 설명된 장치의 임의의 구성 요소는 하드웨어 및/또는 소프트웨어에 의해 적어도 부분적으로 수행될 수 있다.
본 명세서에서 설명된 실시 예는 본 발명의 원리에 대한 예시일 뿐이다. 본 명세서에 기술된 배열 및 세부 사항의 수정 및 변경은 당업자에게 명백할 것임이 이해된다. 따라서, 본 명세서의 실시 예의 기술 및 설명에 의해 제시된 특정 세부 사항이 아니라 본 특허 청구항의 범위에 의해서만 제한되는 것이다.
참고 문헌
[1] Herre, J. 및 Disch, S., 지각적 오디오 코딩, pp, 757-799, 아카데믹 프레스, Elsevier Ltd., 2013.
[2] Schuller, G. 및 Harma, A., "예측 코딩을 사용한 저 지연 오디오 압축", 2002년 IEEE 음향, 음성 및 신호 처리 국제 회의, 2 권, 1853-1856, 2002.
[3] Dietz, M., Liljeryd, L., Kjorling, K. 및 Kunz, O., "스펙트럼 대역 복제, 오디오 코딩의 새로운 접근", 오디오 엔지니어링 협회 협약 112, 2002.
[4] Herre, J. 및 Dietz, M., "MPEG-4 고효율 AAC 코딩 [Nutshell의 표준]", 신호 프로세싱 매거진, IEEE (Vol. 25, 2008), pp. 137-142, 2008.
[5] Disch, S., Niedermeier, A., Helmrich, C.R., Neukam, C., Schmidt, K., Geiger, R., Lecomte, J., Ghido, F., Nagel, F. 및 Edler, B., "오디오의 지각 변환 코딩을 위한 지능형 갭 채움", 오디오 엔지니어링 협회 협약 141, 2016.
[6] ISO/IEC(MPEG-H) 23008-3, "이종 환경에서의 고효율 코딩 및 미디어 전달-파트 3: 3D 오디오", 2015.
[7] 3GPP, TS 26.445, EVS 코덱 상세 알고리즘 설명; 3GPP 기술 사양 (릴리스 12), 2014.
[8] Laitinen, M.-V., Disch, S. 및 Pulkki, V., "위상 스펙트럼의 변화에 대한 인간 청력의 민감도", J. Audio Eng. Soc (AES의 저널),(Vol. 61, No. 11, 2013), pp. 860-877, 2013.
[9] Dau, T., Kollmeier, B. 및 Kohlrausch, A.,“진폭 변조의 청각 처리 모델링: I. 협 대역 반송파를 사용한 감지 및 마스킹", J. Acoust. Soc. Am., 102, pp. 2892-2905, 1997.
[10] Dau, T., 진폭 변조의 청각 처리 모델링, Ph.D. thesis, 1996.
[11] Dau, T., Puschel, D. 및 Kohlrausch, A., "청각 시스템에서 '효과적' 신호 처리의 양자화 모델. I. 모델 구조", J. Acoust. Soc. Am., 99, pp. 3615-3622, 1996.
[12] Ewert, S., Verhey, J. 및 Dau, T., "엔벨로프-주파수 영역에서의 분광-시간 처리", J. Acoust. Soc. Am.,(112), pp. 2921-2931, 2003.
[13] Glasberg, B. and Moore, B., "노치 잡음 데이터로부터 청각 필터 모양의 유도", Hearing Research,(47), pp. 103-138, 1990.
[14] https://commons.wikimedia.org/wiki/File:Cochlea crosssection. svg, 7월 2018.
[15] Kohlrausch, A., Fassel, R. 및 Dau, T., "정현파 반송파에 대한 변조 및 비트 검출 임계 값에 대한 반송파 레벨 및 주파수의 영향", J. Acoust. Soc. Am., 108, pp 723-734, 2000.
[16] Vafin, R., Heusdens, R., van de Par, S., Kleijn, W., "과도 위치를 수정하여 오디오 신호 모델링 개선", 오디오 및 음향학에 대한 신호 처리 응용의 IEEE 워크샵 회의록, pp. 143-146, 2001.
[17] van de Par, S., Koppens, J., Oomen.W. 및 Kohlrausch, A., "분광 시간 마스킹에 기반한 오디오 코딩을 위한 새로운 지각 모델", 124차 AES 협약, 2008.
[18] Hall, J., Haggard, M. 및 Fernandes, M., "분광-시간 패턴 분석에 의한 잡음 감지", J. Acoust. Soc. Am.,(76), pp. 50-56, 1984.
[19] van de Par, S. 및 Kohlrausch, A., "한쪽 귀(CMR) 및 양쪽 귀(BMLD) 마스킹 릴리스의 비교", J. Acoust. Soc. Am., 103, pp. 1573-1579, 1998.
[20] Hanna, T., "대역폭 및 지속 시간의 함수로서 재현 가능한 잡음의 구별" Percept. Psychophys., 36, pp. 409-416, 1984.
[21] Herre, J., Hilpert, J., Kuntz, A. 및 Plogsties, J., "MPEG-H 오디오-UniversalSpatial/3D 오디오 코딩을 위한 새로운 표준", 137차 AES 협약, 2014.
[22] Schmidt, K. 및 Neukam, C., "지능형 갭 채움 도구의 낮은 복잡성 톤 제어", 2016 IEEE 국제 음향, 음성 및 신호 컨퍼런스 처리(ICASSP), pp. 644-648, 2016.
[23] Helmrich, C., Niedermeier, A., Disch, S. 및 Ghido, F., "오디오 변환 코딩을 위한 IGF를 통한 스펙트럼 엔벨로프 재구성", 음향, 음성 및 신호 처리에 대한 IEEE 국제 회의(ICASSP), 호주 브리즈번, 2015.
[24] ITU-R, 권장 BS.1534-1 중간 음질의 주관적 평가 방법(MUSHRA), Geneva, 2003.

Claims (29)

  1. 오디오 유사성 평가기(100; 200; 340)에 있어서,
    상기 오디오 유사성 평가기는 입력 오디오 신호(110, 210, 362)를 기반으로 복수의 주파수 범위에 대한 엔벨로프 신호들(122a-122c; 222a-222e)을 획득하도록 구성되고,
    상기 오디오 유사성 평가기는 복수의 변조 주파수 범위에 대한 상기 엔벨로프 신호들과 연관된 변조 정보(162a-162c; 262a-262e)를 획득하도록 구성되고 - 상기 변조 정보는 상기 엔벨로프 신호들의 변조를 설명함 -,
    상기 오디오 유사성 평가기는 상기 획득한 변조 정보를 기준 오디오 신호(310)와 연관된 기준 변조 정보(182a-182c; 282a-282e)와 비교하여, 상기 입력 오디오 신호와 상기 기준 오디오 신호 간의 유사성에 대한 정보(112; 212; 342)를 획득하도록 구성되는, 오디오 유사성 평가기(100; 200; 340).
  2. 제 1 항에 있어서, 상기 오디오 유사성 평가기는 상기 엔벨로프 신호들(122a-122c; 222a-222e)을 획득하기 위해서, 중첩 필터 특성을 갖는 복수의 필터 또는 필터링 동작(230)을 적용하도록 구성되는, 오디오 유사성 평가기(100; 200; 340).
  3. 제 1 항 또는 제 2 항에 있어서, 상기 오디오 유사성 평가기는 복수의 정류된 신호들(238)을 획득하기 위해서, 상기 필터 또는 필터링 동작(230)의 출력 신호들(232a 내지 232e)에 정류(236)를 적용하도록 구성되거나, 상기 오디오 유사성 평가기는 상기 필터 또는 필터링 동작(230)의 상기 출력 신호들(232a 내지 232e)에 기초하여 힐베르트 엔벨로프를 획득하도록 구성되거나, 상기 오디오 유사성 평가기는 상기 필터 또는 필터링 동작(230)의 상기 출력 신호들(232a 내지 232e)을 복조하도록 구성되는, 오디오 유사성 평가기(100; 200; 340).
  4. 제 3 항에 있어서, 상기 오디오 유사성 평가기는 저역 통과 필터 또는 저역 통과 필터링(240)을 상기 정류된 신호들(238)에 적용하도록 구성되는, 오디오 유사성 평가기(100; 200; 340).
  5. 제 1항 내지 제 4 항 중 어느 한 항에 있어서, 상기 오디오 유사성 평가기는 상기 엔벨로프 신호들(222a 내지 222e)을 획득하기 위해서 자동 이득 제어(250)를 적용하거나, 상기 엔벨로프 신호들(222a 내지 222e)을 획득하기 위해서 로그 변환을 적용하거나, 상기 엔벨로프 신호들(222a 내지 222e)을 획득하기 위해서 전방향 마스킹의 모델링을 적용하도록 구성되는, 오디오 유사성 평가기(100; 200; 340).
  6. 제 5 항에 있어서, 상기 오디오 유사성 평가기는 상기 입력 오디오 신호를 기반으로 하여 복수의 필터 또는 필터 동작(240)에 의해 제공되는 정류 및 저역 통과 필터링된 신호들(242)을 기반으로 상기 엔벨로프 신호들(222a 내지 222e)을 유도하기 위해 적용되는 이득을 변경하도록 구성되는, 오디오 유사성 평가기(100; 200; 340).
  7. 제 1 항 내지 제 6 항 중 어느 한 항에 있어서, 상기 오디오 유사성 평가기는 시간 변형 이득 값(258)에 따라 시간 변형 스케일링을 적용하는 일련의 두 개 이상의 적응 루프(254, 256, 257)를 사용하는 상기 입력 오디오 신호(210)를 기반으로 하여 복수의 필터 또는 필터링 동작(230)에 의해 제공된 신호들(232a 내지 232e)의 정류 및 저역 통과 필터링된 버전(242)을 처리하도록 구성되는, 오디오 유사성 평가기(100; 200; 340).
  8. 제 1 항 내지 제 7 항 중 어느 한 항에 있어서, 상기 오디오 유사성 평가기는 상기 변조 정보(262a 내지 262e)를 획득하기 위해 서로 다른 통과 대역을 갖는 복수의 변조 필터(264)를 상기 엔벨로프 신호들(222a ~ 222e)에 적용하도록 구성되고/되거나, 상기 오디오 유사성 평가기는 상기 변조 정보(262a 내지 262e)를 획득하기 위해 상기 엔벨로프 신호들(222a 내지 222e)에 다운 샘플링을 적용하도록 구성되는, 오디오 유사성 평가기(100; 200; 340).
  9. 제 8 항에 있어서, 상기 변조 필터(264)는 상이한 주파수를 갖는 상기 엔벨로프 신호들(222a 내지 222e)의 성분을 적어도 부분적으로 분리하도록 구성되고, 제 1 최저 주파수 변조 필터의 중앙 주파수는 5Hz보다 작으며, 최고 주파수 변조 필터의 중앙 주파수는 200Hz와 300Hz 사이의 범위에 있는, 오디오 유사성 평가기(100; 200; 340).
  10. 제 8 항 또는 제 9 항에 있어서, 상기 오디오 유사성 평가기는 상기 변조 정보(262a 내지 262e)를 획득할 때 DC 성분을 제거하도록 구성되는, 오디오 유사성 평가기(100; 200; 340).
  11. 제 8 항 내지 제 10 항 중 어느 한 항에 있어서, 상기 오디오 유사성 평가기는 상기 변조 정보(262a 내지 262e)를 획득할 때 위상 정보를 제거하도록 구성되는, 오디오 유사성 평가기(100; 200; 340).
  12. 제 1 항 내지 제 11 항 중 어느 한 항에 있어서, 상기 오디오 유사성 평가기는 상기 획득한 변조 정보(262a 내지 262e)와 기준 오디오 신호(310)와 관련된 상기 기준 변조 정보(282a 내지 282e) 간의 차이를 나타내는 스칼라 값(112; 212; 342)을 도출하도록 구성되는, 오디오 유사성 평가기(100; 200; 340).
  13. 제 1 항 내지 제 12 항 중 어느 한 항에 있어서, 상기 오디오 유사성 평가기는 상기 획득한 변조 정보(262a 내지 262e)를 기준 오디오 신호와 연관된 상기 기준 변조 정보(282a 내지 282e)와 비교하기 위해 차이 표현(294a 내지 294e)을 결정하도록 구성되는, 오디오 유사성 평가기(100; 200; 340).
  14. 제 1 항 내지 제 13 항 중 어느 한 항에 있어서, 상기 오디오 유사성 평가기는 두 개 이상의 인접한 음향 주파수 범위에서 상기 획득한 엔벨로프 신호들(222a 내지 222e) 또는 변조 정보(262a 내지 262e) 간 또는 둘 이상의 인접한 음향 주파수 범위에서 상기 기준 변조 정보(282a 내지 282e) 간 또는 상기 기준 신호와 연관된 엔벨로프 신호들 간의 공변조에 따라서, 상기 획득한 변조 정보(262a 내지 262e)와 기준 오디오 신호와 연관된 상기 기준 변조 정보(282a 내지 282e) 간의 차이(289a 내지 289e)의 가중치를 조정하도록 구성되는, 오디오 유사성 평가기(100; 200; 340).
  15. 제 1 항 내지 제 14 항 중 어느 한 항에 있어서, 상기 오디오 유사성 평가기는 상기 입력 오디오 신호와 상기 기준 오디오 신호 사이의 상기 유사성에 대한 상기 정보(212)를 결정할 때 상기 획득한 변조 정보(262a 내지 262e)와 입력 오디오 신호에 신호 성분이 없음을 나타내는 기준 오디오 신호와 연관된 상기 기준 변조 정보(282a 내지 282e) 간의 차이(289a 내지 289e)와 비교할 때, 상기 획득한 변조 정보(262a 내지 262e)와 상기 입력 오디오 신호(210)가 추가 신호 구성 요소를 포함하는 것을 나타내는 기준 오디오 신호와 연관된 상기 기준 변조 정보(282a 내지 282e) 간의 차이(289a 내지 289e)에 더 높은 가중치를 부여하도록 구성되는, 오디오 유사성 평가기(100; 200; 340).
  16. 제 1 항 내지 제 15 항 중 어느 한 항에 있어서, 상기 오디오 유사성 평가기는 상기 입력 오디오 신호와 상기 기준 오디오 신호 간의 상기 유사성에 대한 상기 정보를 결정할 때 여러 가중치를 사용하여 상기 획득한 변조 정보(262a 내지 262e)와 상기 기준 변조 정보(282a 내지 282e) 간의 차이(289a 내지 289e)의 양수 및 음수 값을 가중하도록 구성되는, 오디오 유사성 평가기(100; 200; 340).
  17. 오디오 신호(310; 410)를 인코딩하기 위한 오디오 인코더(300; 400)에 있어서,
    상기 오디오 인코더는 인코딩될 오디오 신호(310; 410)와 인코딩된 오디오 신호(362) 사이의 유사성 평가에 따라 하나 이상의 코딩 매개 변수(324; 424)를 결정하도록 구성되고,
    상기 오디오 인코더는 제 1 항 내지 제 16 항 중 어느 한 항에 따른 오디오 유사성 평가기(100; 200; 340)를 사용하여 상기 인코딩될 오디오 신호(310; 410)와 상기 인코딩된 오디오 신호(352) 사이의 상기 유사성을 평가하도록 구성된, 오디오 인코더(300; 400).
  18. 제 17 항에 있어서, 상기 오디오 인코더는 상기 오디오 인코더에 의해 인코딩된 상이한 주파수 범위의 오디오 콘텐츠(1042)에 기초하여 누락된 오디오 콘텐츠(1052)를 도출하기 위해 오디오 디코더(1000) 측에서 사용될 처리 규칙을 정의하는 하나 이상의 대역폭 확장 매개 변수(324; 424)를 인코딩하도록 구성되고;
    상기 오디오 인코더는 오디오 디코더 측에서 사용될 처리 규칙을 정의하는 하나 이상의 오디오 디코더 구성 매개 변수를 인코딩하도록 구성되는, 오디오 인코더(300; 400).
  19. 제 17 항 또는 제 18 항에 있어서, 상기 오디오 인코더는 지능형 갭 채움을 지원하도록 구성되고,
    상기 오디오 인코더는 상기 인코딩될 오디오 신호(310; 410)와 상기 인코딩된 오디오 신호(352) 사이의 상기 유사성의 평가를 사용하여 상기 지능형 갭 채움의 하나 이상의 매개 변수(324; 424)를 결정하도록 구성되는, 오디오 인코더(300; 400).
  20. 제 17 항 내지 제 19 항 중 어느 한 항에 있어서, 상기 오디오 인코더는 상기 인코딩될 오디오 신호(310; 410)와 상기 인코딩된 오디오 신호(362) 사이의 상기 유사성의 상기 평가에 따라 대역폭 확장을 위한 소스 주파수 범위(sT[.])와 타겟 주파수 범위(타일[.]) 사이의 하나 이상의 연관성 및/또는 대역폭 확장을 위한 하나 이상의 처리 작업 매개 변수를 선택하도록 구성되는, 오디오 인코더(300; 400).
  21. 제 17 항 내지 제 20 항 중 어느 한 항에 있어서, 상기 오디오 인코더는 대역폭 확장을 위해 소스 주파수 범위와 타겟 주파수 범위 사이의 하나 이상의 연관을 선택하도록 구성되고,
    상기 오디오 인코더는 이전 또는 새로운 타겟 주파수 범위에서 엔벨로프의 변조의 평가에 따라 소스 주파수 범위와 타겟 주파수 범위 사이의 연관의 변경을 선택적으로 허용하거나 금지하도록 구성되는, 오디오 인코더(300; 400).
  22. 제 21 항에 있어서, 상기 오디오 인코더는 상기 인코더의 프레임 속도에 해당하는 변조 주파수 범위의 타겟 주파수 범위에서 엔벨로프의 변조 강도(485)를 결정하고 상기 결정된 변조 강도에 따라 민감도 척도(487)를 결정하도록 구성되고,
    상기 오디오 인코더는 상기 민감도 척도에 따라 타겟 주파수 범위와 소스 주파수 범위 사이의 연관을 변경하는 것이 허용되는지 또는 금지되는지를 결정하도록 구성되는, 오디오 인코더(300; 400).
  23. 오디오 신호를 인코딩하기 위한 오디오 인코더(500)에 있어서,
    상기 오디오 인코더는 신경망(524)을 사용하여 인코딩될 오디오 신호(510)에 따라 하나 이상의 코딩 매개 변수(524)를 결정하도록 구성되고,
    상기 신경망은 제 1 항 내지 제 16 항 중 어느 한 항에 따른 오디오 유사성 평가기(100; 200)를 사용하여 학습되는, 오디오 인코더(500).
  24. 오디오 유사성 평가기(600)에 있어서,
    상기 오디오 유사성 평가기는 입력 오디오 신호(610)에 기초하여 복수의 주파수 범위에 대한 엔벨로프 신호들(622a 내지 622c)을 획득하도록 구성되고,
    상기 오디오 유사성 평가기는 입력 오디오 신호의 분석 표현(622a 내지 622c)을 기준 오디오 신호와 연관된 기준 분석 표현(682a 내지 682c)과 비교하여 상기 입력 오디오 신호와 상기 기준 오디오 신호 간의 유사성에 대한 정보(612)를 얻도록 구성되고,
    상기 오디오 유사성 평가기는 상기 입력 오디오 신호의 2 개 이상의 인접한 음향 주파수 범위에서의 공변조에 따라 또는 상기 기준 오디오 신호의 2 개 이상의 인접한 음향 주파수 범위에서의 공변조에 따라 상기 획득한 분석 표현(622a 내지 622c)과 상기 기준 분석 표현(682a 내지 682c) 간의 차이의 가중치를 조정하도록 구성되는, 오디오 유사성 평가기(600).
  25. 오디오 신호들 간 유사성을 평가하는 방법에 있어서,
    상기 방법은 입력 오디오 신호에 기초하여 복수의 주파수 범위에 대한 엔벨로프 신호들을 획득하는 단계를 포함하고,
    상기 방법은 복수의 변조 주파수 범위에 대한 상기 엔벨로프 신호들와 연관된 변조 정보를 획득하는 단계를 포함하고 - 상기 변조 정보는 상기 엔벨로프 신호들의 변조를 설명함 - ,
    상기 방법은 상기 획득한 변조 정보를 기준 오디오 신호와 관련된 기준 변조 정보와 비교하여, 상기 입력 오디오 신호와 상기 기준 오디오 신호 사이의 유사성에 대한 정보를 획득하는 단계를 포함하는, 오디오 신호들 간 유사성을 평가하는 방법.
  26. 오디오 신호를 인코딩하는 방법에 있어서,
    상기 방법은 인코딩될 오디오 신호와 인코딩된 오디오 신호 사이의 유사성 평가에 따라 하나 이상의 코딩 매개 변수를 결정하는 단계를 포함하고,
    상기 방법은 제 25항에 따른 상기 인코딩될 오디오 신호와 상기 인코딩된 오디오 신호 사이의 상기 유사성을 평가하는 단계를 포함하는, 오디오 신호를 인코딩하는 방법.
  27. 오디오 신호를 인코딩하는 방법에 있어서,
    상기 방법은 신경망을 사용하여 인코딩될 오디오 신호에 따라 하나 이상의 코딩 매개 변수를 결정하는 단계를 포함하고,
    상기 신경망은 제 25 항에 따른 오디오 신호들 간 유사성을 평가하기 위한 방법을 이용하여 학습되는, 오디오 신호를 인코딩하는 방법.
  28. 오디오 신호들 간 유사성을 평가하는 방법에 있어서,
    상기 방법은 입력 오디오 신호에 기초하여 복수의 주파수 범위에 대한 엔벨로프 신호들을 획득하는 단계를 포함하고,
    상기 방법은 상기 입력 오디오 신호의 분석 표현을 기준 오디오 신호와 관련된 기준 분석 표현과 비교하여, 상기 입력 오디오 신호와 상기 기준 오디오 신호 간의 유사성에 대한 정보를 획득하는 단계를 포함하고,
    상기 방법은 상기 입력 오디오 신호의 두 개 이상의 인접한 음향 주파수 범위에서의 공변조에 따라 또는 상기 기준 오디오 신호의 2 개 이상의 인접한 음향 주파수 범위에서의 공변조에 따라 상기 획득한 분석 표현과 상기 기준 분석 표현 간의 차이의 가중치를 조정하는 단계를 포함하는, 오디오 신호 간 유사성을 평가하는 방법.
  29. 제 25항 내지 28항 중 어느 한 항에 따른 방법을 실행하기 위한 컴퓨터 프로그램으로, 상기 컴퓨터 프로그램은 컴퓨터에서 실행가능한, 컴퓨터 프로그램.
KR1020207037819A 2018-05-30 2019-05-29 오디오 유사성 평가기, 오디오 인코더, 방법 및 컴퓨터 프로그램 KR102640748B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP18175251 2018-05-30
EP18175251.0 2018-05-30
EP18198992.2 2018-10-05
EP18198992.2A EP3576088A1 (en) 2018-05-30 2018-10-05 Audio similarity evaluator, audio encoder, methods and computer program
PCT/EP2019/064105 WO2019229190A1 (en) 2018-05-30 2019-05-29 Audio similarity evaluator, audio encoder, methods and computer program

Publications (2)

Publication Number Publication Date
KR20210021490A true KR20210021490A (ko) 2021-02-26
KR102640748B1 KR102640748B1 (ko) 2024-02-27

Family

ID=62567262

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020207037819A KR102640748B1 (ko) 2018-05-30 2019-05-29 오디오 유사성 평가기, 오디오 인코더, 방법 및 컴퓨터 프로그램

Country Status (10)

Country Link
US (1) US12051431B2 (ko)
EP (3) EP3576088A1 (ko)
JP (1) JP7301073B2 (ko)
KR (1) KR102640748B1 (ko)
CN (1) CN112470220B (ko)
BR (1) BR112020024361A2 (ko)
CA (2) CA3101911C (ko)
ES (1) ES2960785T3 (ko)
MX (1) MX2020012886A (ko)
WO (1) WO2019229190A1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR3084489B1 (fr) * 2018-07-26 2020-09-11 Etat Francais Represente Par Le Delegue General Pour Larmement Procede de detection d’au moins un equipement informatique compromis au sein d’un systeme d’information
CN113593586A (zh) * 2020-04-15 2021-11-02 华为技术有限公司 音频信号编码方法、解码方法、编码设备以及解码设备
EP4226370A4 (en) * 2020-10-05 2024-08-21 Univ Columbia SYSTEMS AND METHODS FOR BRAIN-BASED SPEECH SEPARATION
CN115497485A (zh) * 2021-06-18 2022-12-20 华为技术有限公司 三维音频信号编码方法、装置、编码器和系统
CN116386611B (zh) * 2023-04-20 2023-10-13 珠海谷田科技有限公司 一种教学声场环境的去噪方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080195398A1 (en) * 2007-02-12 2008-08-14 Samsung Electronics Co., Ltd. Audio encoding and decoding apparatus and method

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3183072B2 (ja) * 1994-12-19 2001-07-03 松下電器産業株式会社 音声符号化装置
JPH08263099A (ja) * 1995-03-23 1996-10-11 Toshiba Corp 符号化装置
JP3762204B2 (ja) 2000-09-07 2006-04-05 三菱電機株式会社 音声符号化・復号化機器の検査方法および検査装置
US6842733B1 (en) * 2000-09-15 2005-01-11 Mindspeed Technologies, Inc. Signal processing system for filtering spectral content of a signal for speech coding
DE10123366C1 (de) 2001-05-14 2002-08-08 Fraunhofer Ges Forschung Vorrichtung zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen
JP4272897B2 (ja) 2002-01-30 2009-06-03 パナソニック株式会社 符号化装置、復号化装置およびその方法
US7565213B2 (en) 2004-05-07 2009-07-21 Gracenote, Inc. Device and method for analyzing an information signal
WO2006018748A1 (en) * 2004-08-17 2006-02-23 Koninklijke Philips Electronics N.V. Scalable audio coding
US20090138271A1 (en) 2004-11-01 2009-05-28 Koninklijke Philips Electronics, N.V. Parametric audio coding comprising amplitude envelops
KR100803205B1 (ko) 2005-07-15 2008-02-14 삼성전자주식회사 저비트율 오디오 신호 부호화/복호화 방법 및 장치
WO2007034375A2 (en) * 2005-09-23 2007-03-29 Koninklijke Philips Electronics N.V. Determination of a distortion measure for audio encoding
US20070083365A1 (en) 2005-10-06 2007-04-12 Dts, Inc. Neural network classifier for separating audio sources from a monophonic audio signal
EP2362376A3 (en) 2010-02-26 2011-11-02 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for modifying an audio signal using envelope shaping
JP5533502B2 (ja) * 2010-09-28 2014-06-25 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
SG192796A1 (en) * 2011-02-18 2013-09-30 Ntt Docomo Inc Speech decoder, speech encoder, speech decoding method, speech encoding method, speech decoding program, and speech encoding program
CN110111801B (zh) 2013-01-29 2023-11-10 弗劳恩霍夫应用研究促进协会 音频编码器、音频解码器、方法及编码音频表示
EP2830056A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding an audio signal with intelligent gap filling in the spectral domain
ES2659838T3 (es) 2013-10-31 2018-03-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decodificador de audio y método para proporcionar una información de audio decodificada usando un ocultamiento de errores en base a una señal de excitación de dominio de tiempo
US10163447B2 (en) * 2013-12-16 2018-12-25 Qualcomm Incorporated High-band signal modeling
CN104485114B (zh) * 2014-11-27 2018-03-06 湖南省计量检测研究院 一种基于听觉感知特性的语音质量客观评估的方法
JP6668372B2 (ja) * 2015-02-26 2020-03-18 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 目標時間領域エンベロープを用いて処理されたオーディオ信号を得るためにオーディオ信号を処理するための装置および方法
EP3402217A1 (en) * 2017-05-09 2018-11-14 GN Hearing A/S Speech intelligibility-based hearing devices and associated methods

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080195398A1 (en) * 2007-02-12 2008-08-14 Samsung Electronics Co., Ltd. Audio encoding and decoding apparatus and method

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KARLHEINZ BRANDENBURG, et al. ISO/MPEG-1 audio: A generic standard for coding of high-quality digital audio. Journal of the Audio Engineering Society, 1994.10. *
Steven van de Par, et al. A new perceptual model for audio coding based on spectro-temporal masking. Audio Engineering Society Convention 124. 2008.05.17.* *

Also Published As

Publication number Publication date
MX2020012886A (es) 2021-04-28
CN112470220B (zh) 2024-07-05
CA3165021A1 (en) 2019-12-05
US20210082447A1 (en) 2021-03-18
WO2019229190A1 (en) 2019-12-05
EP3803865B1 (en) 2023-08-09
EP3576088A1 (en) 2019-12-04
KR102640748B1 (ko) 2024-02-27
US12051431B2 (en) 2024-07-30
ES2960785T3 (es) 2024-03-06
CN112470220A (zh) 2021-03-09
EP3803865A1 (en) 2021-04-14
CA3101911C (en) 2023-12-12
EP4270393A3 (en) 2023-12-20
JP2021526240A (ja) 2021-09-30
JP7301073B2 (ja) 2023-06-30
EP3803865C0 (en) 2023-08-09
EP4270393A2 (en) 2023-11-01
BR112020024361A2 (pt) 2021-03-02
CA3101911A1 (en) 2019-12-05

Similar Documents

Publication Publication Date Title
KR102640748B1 (ko) 오디오 유사성 평가기, 오디오 인코더, 방법 및 컴퓨터 프로그램
US10964334B2 (en) Audio decoder and method for providing a decoded audio information using an error concealment modifying a time domain excitation signal
US10262662B2 (en) Audio decoder and method for providing a decoded audio information using an error concealment based on a time domain excitation signal
RU2641461C2 (ru) Аудиокодер, аудиодекодер, способ обеспечения кодированной аудиоинформации, способ обеспечения декодированной аудиоинформации, компьютерная программа и кодированное представление с использованием сигнально-адаптивного расширения полосы пропускания
JP2020512593A (ja) 音響信号の人為的帯域幅制限処理に関する所定の特性を決定するための装置および方法
Disch et al. Improved psychoacoustic model for efficient perceptual audio codecs
TW202345142A (zh) 在音訊寫碼中使用傾斜用於頻譜時間改善頻譜間隙填充之方法及設備
RU2782981C2 (ru) Модуль оценки подобия аудиосигналов, аудиокодер, способы и компьютерная программа
TW202334940A (zh) 在音訊寫碼中使用不同雜訊填充方法進行頻譜時間上改良之頻譜間隙填充之方法及設備

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant