KR20150118954A - 저-복잡도 음조-적응 오디오 신호 양자화 - Google Patents

저-복잡도 음조-적응 오디오 신호 양자화 Download PDF

Info

Publication number
KR20150118954A
KR20150118954A KR1020157022139A KR20157022139A KR20150118954A KR 20150118954 A KR20150118954 A KR 20150118954A KR 1020157022139 A KR1020157022139 A KR 1020157022139A KR 20157022139 A KR20157022139 A KR 20157022139A KR 20150118954 A KR20150118954 A KR 20150118954A
Authority
KR
South Korea
Prior art keywords
spectral
dead zone
frame
audio signal
signal
Prior art date
Application number
KR1020157022139A
Other languages
English (en)
Other versions
KR101757341B1 (ko
Inventor
마틴 디에츠
구일라우메 푸흐스
크리스티안 헴리히
고란 마르코비치
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20150118954A publication Critical patent/KR20150118954A/ko
Application granted granted Critical
Publication of KR101757341B1 publication Critical patent/KR101757341B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/02Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos
    • G10H1/06Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/555Tonality processing, involving the key in which a musical piece or melody is played
    • G10H2210/561Changing the tonality within a musical piece
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 그것으로부터 인코딩된 신호(ES)를 생산하기 위하여 오디오 신호(AS)를 인코딩하기 위한 오디오 인코더(1)를 제공하는데, 오디오 인코더(1)는: 오디오 신호(AS)로부터 프레임들(F)을 추출하도록 구성되는 프레이밍 장치(2); 오디오 신호(AS)의 프레임(F)으로부터 유도된 스펙트럼 신호(SPS)의 스펙트럼 라인들(SL1-32, 도 2 참조)을 양자화 지수들(I0, I1)에 매핑하도록 구성되는 양자화기(3)를 포함하되, 상기 양자화기(3)는 스펙트럼 라인들(SL1-32)이 양자화 지수 제로(I0)에 매핑되는, 데드 존(DZ, 도 2 참조)을 가짐; 및 데드 존(DZ)을 변형하도록 구성되는 제어 장치(4);를 포함하고, 제어 장치(4)는 적어도 하나의 스펙트럼 라인(SL1-32) 또는 적어도 하나의 스펙트럼 라인들(SL1-32)의 그룹을 위한 적어도 하나의 음조 표시 값(TI5-32)을 계산하도록 구성되는 음조 계산 장치(5)를 포함하고, 제어 장치(4)는 음조 표시 값(TI5-32)에 의존하여 적어도 하나의 스펙트럼 라인(SL1-32) 또는 적어도 하나의 스펙트럼 라인들(SL1-32)의 그룹을 위하여 데드 존(DZ)을 변형하도록 구성된다.

Description

저-복잡도 음조-적응 오디오 신호 양자화{LOW-COMPLEXITY TONALITY-ADAPTIVE AUDIO SIGNAL QUANTIZATION}
본 발명은 디지털 오디오 신호 처리에 관한 것이다. 더 구체적으로 본 발명은 오디오 신호 양자화에 관한 것이다.
매우 낮은 비트레이트의 변환 코딩에 있어서, 프레임 당 비트들의 수는 일반적으로 디코딩된 신호 내의 아티팩트(artifact)들을 방지하는데 충분하지 않다. 음악 소음(musical noise)은 특히 하나의 프레임으로부터 그 다음 프레임으로의 특정 주파수에서 "켜지고 꺼지는", 즉 제로로 양자화되거나 또는 제로로 양자화되지 않은 변환 라인들(빈(bin)들)에 기인하여 정상 음악 또는 소음 스펙트럼에 나타날 수 있다. 그러한 코딩 접근법은 디코딩된 신호 영역에 원래 신호가 갖는 것보다 더 많은 음조 특성(따라서 용어 음악 소음)을 제공하지 못할 뿐만 아니라. 이는 또한 상기 스펙트럼 영역에 대한 중요한 장점을 전혀 생산하지 않고 대신에 확장 고효율-고급 오디오 코딩(xHE-AAC) [4]에서 사용되는 변환 코딩 여기(transform coded excitation, TCX) 또는 FD 코딩 시스템들에서의 소음 추가 알고리즘들 같은 빈-대체 기술을 적용한다. 실제로, 음속 코딩 소음의 경향이 있는 영역들의 분명하나 불충분한 코딩은 다른 스펙트럼 영역들, 특히 인간 청각 시스템이 민감한 낮은 주파수들에서 음속으로 더 잘 소비되는, 변환 코더의 엔트로피 코딩 단계 내의 비트들을 필요로 한다.
낮은 비트 레이트 오디오 코딩에서 음악 소음의 발생을 감소시키는 한 가지 방법은 즉각적인 입력 신호 특성 및 양자화된 스펙트럼의 비트 소비에 적응하도록 하기 위하여 입력 스펙트럼 라인들을 양자화 지수들에 매핑하는 양자화기의 행동을 변형하는 것이다. 더 정확하게는, 양자화 동안에 사용된 데드 존(dead-zone)은 신호 적응적으로 변경된다. 일부 접근법들이 공개되었다[5, 6, 및 그 안의 참고문헌들]. [5]에서, 양자화 적응은 코딩되려는 전체 스펙트럼 상에서 실행된다. 따라서 적응된 양자화기는 주어진 프레임의 모든 스펙트럼 빈에 대하여 동일하게 행동한다. 게다가, 최적 데드 존(zopt)을 갖는 양자화의 경우에 있어서, 비트 레이트 및 백워드 호환성 패널티(backward compatibility penalty)를 표현하는, 2 비트의 부가 정보가 디코더에 전송되어야만 한다. [6]에서, 양자화기는 주파수 대역 당 기반 상에 적응되나, 두 가지 대역 당 두 가지 양자화 시도가 수행되며, 더 나은 시도(특정 결정에 따른)만이 전송을 위하여 사용된다. 이는 복잡하다.
본 발명의 목적은 오디오 신호 처리를 위한 향상된 개념들을 제공하는 것이다. 더 구체적으로, 본 발명은 적응 오디오 신호 양자화를 위한 향상된 개념들을 제공하는 것이다. 본 발명의 목적은 청구항 1항에 따른 오디오 인코더, 청구항 15항에 따른 시스템, 청구항 16항에 따른 방법 및 청구항 17항에 따른 컴퓨터 프로그램에 의해 달성된다.
일 양상에서 본 발명은 그것으로부터 인코딩된 신호를 생산하기 위하여 오디오 신호의 인코딩을 위한 오디오 인코더를 제공하는데, 오디오 인코더는:
오디오 신호로부터 프레임들을 추출하도록 구성되는 프레이밍 장치(framing device);
오디오 신호의 프레임으로부터 유도된 스펙트럼 라인들을 양자화 지수들에 매핑하도록 구성되는 양자화기를 포함하되, 상기 양자화기는 스펙트럼 라인들이 양자화 지수 제로에 매핑되는, 데드 존을 가짐; 및
데드 존을 변형하도록 구성되는 제어 장치;를 포함하고,
제어 장치는 적어도 하나의 스펙트럼 라인 또는 적어도 하나의 스펙트럼 라인들의 그룹을 위한 적어도 하나의 음조 표시 값을 계산하도록 구성되는 음조 계산 장치를 포함하고,
제어 장치는 음조 표시 값에 의존하여 적어도 하나의 스펙트럼 라인 또는 적어도 하나의 스펙트럼 라인들의 그룹을 위하여 데드 존을 변형하도록 구성된다.
프레이밍 장치는 오디오 신호에 대한 윈도우 함수의 적용에 의해 오디오 신호로부터 프레임들을 추출하도록 구성될 수 있다. 신호 처리에서, 윈도우 함수(또한 아포디제이션 함수(apodization function) 또는 테이퍼링 함수(tapering function)로서 알려진)는 일부 선택된 간격 외부의 제로 값인 수학 함수이다. 신호에 대한 윈도우 함수의 적용에 의해, 신호는 일반적으로 프레임들로 불리는, 짧은 세그먼트들로 깨질 수 있다.
디지털 오디오 신호 처리에서, 양자화는 큰 입력 값들의 세트를 (계수 가능한) 작은 세트(일부 정밀 단위에 대한 반올림 값과 같은)로 매핑하는 과정이다. 양자화를 실행하는 장치 또는 알고리즘 함수는 양자화기로 불린다.
본 발명에 따르면, 스펙트럼 신호는 오디오 신호의 프레임들을 위하여 계산된다. 스펙트럼 신호는 시간-도메인 신호인, 오디오 신호의 각각의 프레임들의 스펙트럼을 포함할 수 있고, 각각의 스펙트럼은 주파수 도메인 내의 프레임들 중 어느 하나의 표현이다. 주파수 스펙트럼은 신호의 수학적 변환을 거쳐 발생될 수 있고, 결과로서 생기는 값들은 일반적으로 진폭 대 주파수로서 표현된다.
데드 존은 양자화 동안에 사용되는 구역이고, 스펙트럼 라인들(주파수 빈(frequency bin)들) 또는 스펙트럼 라인들의 그룹들(주파수 대역들)이 제로로 매핑된다. 데드 존은 일반적으로 제로의 진폭에 위치하는, 하부 한계, 및 상부 한계를 가지며, 이는 서로 다른 스펙트럼 라인들 또는 스펙트럼 라인들의 그룹들을 위하여 변경될 수 있다.
본 발명에 따르면, 데드 존은 제어 장치에 의해 변형될 수 있다. 제어 장치는 적어도 하나의 스펙트럼 라인 또는 적어도 하나의 스펙트럼 라인들의 그룹을 위한 적어도 하나의 음조 표시 값을 계산하도록 구성되는 음조 계산 장치를 포함한다.
용어 "음조"는 스펙트럼 신호의 음색 특성을 언급한다. 일반적으로 음조는 스펙트럼이 주기적 성분을 대부분 포함하는 경우에 높다고 말할 수 있는데, 이는 프레임의 스펙트럼이 두드러진 피크들을 포함하는 것을 의미한다. 음조 특성의 반대는 소음 특성이다. 후자의 경우에 프레임의 스펙트럼은 더 평평한(flat) 스펙트럼이다.
게다가, 제어 장치는 각각의 음조 표시 값에 의존하여 적어도 하나의 스펙트럼 라인 또는 적어도 하나의 스펙트럼 라인들의 그룹을 위하여 데드 존을 변형하도록 구성된다.
본 발명은 다음과 같은, 신호-적응 데드 존을 갖는 양자화 전략을 나타낸다:
● 현존하는 미디어 코덱들에서의 사용을 허용하는, 어떠한 부가 정보도 필요로 하지 않음,
● 양자화 이전에 복잡도를 절약하는, 어떠한 데드 존을 빈 또는 대역 당 사용하는지를 결정함,
● 대역 주파수 및/또는 신호 음조를 기초로 하여 빈 당 또는 대역 당 데드 존을 결정할 수 있음.
본 발명은 현존하는 코딩 인프라구조에 적용될 수 있는데 그 이유는 인코더 내의 신호 양자화기가 변경되고, 상응하는 디코더가 인코딩된 신호로부터 생산된 (변경되지 않은) 비트스트림을 판독하고 출력을 디코딩할 것이기 때문이다. [6] 및 그 안의 참조문헌들과 달리, 각각의 스펙트럼 라인들의 그룹 또는 각각의 스펙트럼 라인을 위한 데드 존은 양자화 이전에 선택되고, 따라서 그룹 또는 스펙트럼 라인 당 하나의 양자화 연산만이 필요하다. 최종적으로, 양자화기 결정은 두 개의 가능한 데드 존 값 사이를 선택하는 것에 한정되지 않고, 전체 범위의 값을 선택하는데 한정된다. 결정은 아래에 상세히 설명된다. 위에 설명된 음조 적응 양자화 전략은 저 지연-통합 음성 및 오디오 코딩(LD-USAC) 인코더의 변환 코딩 여기(transform coded excitation, TCX) 경로, 확장 고효율-고급 오디오 코딩의 저-지연 변형에서 구현될 수 있다[4].
본 발명의 바람직한 일 실시 예에 따르면, 제어 장치는 스펙트럼 라인들 중 어느 하나의 데드 존이 더 큰 음조를 갖는 스펙트럼 라인들 중 어느 하나에서의 데드 존보다 크거나 또는 스펙트럼 라인들의 그룹들 중 어느 하나의 데드 존이 더 큰 음조를 갖는 스펙트럼 라인들의 그룹들 중 어느 하나에서의 데드 존보다 큰 것과 같은 방법으로 데드 존을 변형하도록 구성된다. 이러한 특징들에 의해, 비-음조 스펙트럼 영역들은 제로로 양자화되는 경향이 있을 것인데, 이는 데이터의 양이 감소될 수 있다는 것을 의미한다.
본 발명의 바람직한 일 실시 예에 따르면, 제어 장치는 오디오 신호의 프레임의 파워 스펙트럼(power spectrum)을 계산하도록 구성되는 파워 스펙트럼 계산 장치를 포함하고, 파워 스펙트럼은 스펙트럼 라인들 또는 스펙트럼 라인들의 그룹들을 위한 파워 값들을 포함하며, 음조 계산 장치는 파워 스펙트럼을 기초로 하여 적어도 하나의 음조 표시 값을 계산하도록 구성된다. 파워 스펙트럼을 기초로 하여 적어도 하나의 음조 표시 값을 계산함으로써 계산 복잡도는 아주 낮게 유지된다.
본 발명의 바람직한 일 실시 예에 따르면, 스펙트럼 라인들 중 어느 하나를 위한 음조 표시 값은 각각의 스펙트럼 라인을 위한 파워 값 및 미리 정의된 수의 파워 스펙트럼의 그 주위의 파워 값들의 합의 비교를 기초로 하거나, 또는 스펙트럼 라인들의 그룹들 중 어느 하나를 위한 음조 표시 값은 각각의 스펙트럼 라인들의 그룹을 위한 파워 값 및 미리 정의된 수의 파워 스펙트럼의 그 주위의 파워 값들의 합의 비교를 기초로 한다. 파워 값을 이웃의 파워 값들과 비교함으로써 파워 스펙트럼의 피크 영역 또는 평면 영역이 쉽게 식별될 수 있고 따라서 음조 표시 값이 쉬운 방법으로 계산될 수 있다.
본 발명의 바람직한 일 실시 예에 따르면, 스펙트럼 라인들 중 어느 하나를 위한 음조 표시 값은 오디오 신호의 선행 프레임의 스펙트럼 라인의 음조 표시 값을 기초로 하거나, 또는 스펙트럼 라인들의 그룹들 중 어느 하나를 위한 음조 표시 값은 오디오 신호의 선행 프레임을 위한 스펙트럼 라인들 그룹의 음조 표시 값을 기초로 한다. 이러한 특징들에 의해 데드 존은 시간에 따라 원활한 방식으로 변형될 것이다.
본 발명의 바람직한 일 실시 예에 따르면, 음조 표시 값은 다음의 공식에 계산되는데:
Figure pct00001
여기서 i는 오디오 신호의 특정 프레임을 나타내는 지수이고, k는 특정 스펙트럼 라인을 나타내는 지수이며, P k,l i번째 프레임의 k번째 스펙트럼 라인의 파워 값이며, 혹은 음조 표시 값은 다음의 공식에 계산되며:
Figure pct00002
여기서 i는 오디오 신호의 특정 프레임을 나타내는 지수이고, m은 특정 스펙트럼 라인들의 그룹을 나타내는 지수이며, P k,m i번째 프레임의 m번째 스펙트럼 라인들의 그룹의 파워 값이다. 공식으로부터 음조 표시 값은 현재 프레임인, i번째 프레임의 파워 값, 및 선행 프레임인, i-1번째 프레임으로부터 계산된다는 것을 이해할 것이다. 공식은 i-1번째 프레임으로부터의 의존성을 생략함으로써 변경될 수 있다. 여기서 k번째 파워 값의 왼쪽 7개 및 오른쪽 7개의 이웃하는 파워 값들의 합이 계산되고 각각의 파워 값으로 나뉜다. 이러한 공식을 사용하여 낮은 음조 표시 값은 높은 음조를 나타낸다.
본 발명의 바람직한 일 실시 예에 따르면, 오디오 인코더는 데드 존을 변경하기 위하여 시작 주파수(start frequency)를 계산하도록 구성되는 시작 주파수 계산 장치를 포함하고, 데드 존은 시작 주파수보다 높거나 또는 동일한 주파수를 표현하는 스펙트럼 라인들만을 위하여 변형된다. 이는 데드 존이 저주파수들을 위하여 고정되고 고주파수들을 위하여 변동되는 것을 의미한다. 이러한 특징들은 더 나은 오디오 품질에 이르게 하는데 그 이유는 인간 청각 시스템이 저주파수에서 더 민감하기 때문이다.
본 발명의 바람직한 일 실시 예에 따르면, 시작 주파수 계산 장치는 오디오 신호의 샘플 레이트를 기초로 하거나 및/또는 인코딩된 신호로부터 생산된 비트스트림을 위하여 예상되는 최대 비트-레이트를 기초로 하여 시작 주파수를 계산하도록 구성된다, 이러한 특징에 의해 오디오 품질은 최적화될 수 있다.
본 발명의 바람직한 일 실시 예에 따르면, 오디오 인코더는 오디오 신호의 프레임으로부터 변형 이산 코사인 변환을 계산하도록 구성되는 변형 이산 코사인 변환 계산 장치 및 오디오 신호의 프레임으로부터 변형 이산 사인 변환을 계산하도록 구성되는 변형 이산 사인 변환 계산 장치를 포함하고, 파워 스펙트럼 계산 장치는 변형 이산 코사인 변환 및 변형 이산 사인 변환을 기초로 하여 파워 스펙트럼을 계산하도록 구성된다. 변형 이산 코사인 변환은 어쨌든 오디오 신호를 인코딩하는 목적으로 계산되어야만 한다. 따라서, 변형 이산 사인 변환만이 음조 적응 양자화의 목적을 위하여 부가적으로 계산되어진다. 따라서, 복잡도가 감소될 수 있다. 그러나, 이산 푸리에 변환 또는 홀수 이산 푸리에 변환과 같은 다른 변환들이 사용될 수 있다.
본 발명의 바람직한 일 실시 예에 따르면, 파워 스펙트럼 계산 장치는 공식 P k,i = (MDCT k,i )2 + (MDST k,i )2에 따라 파워 값들을 계산하도록 구성되는데, 여기서 i는 오디오 신호의 특정 프레임을 나타내는 지수이고, k는 특정 스펙트럼 라인을 나타내는 지수이며, MDCT k,i i번째 프레임의 k번째 스펙트럼 라인에서의 변형 이산 코사인 변환의 값이며, MDST k,i i번째 프레임의 k번째 스펙트럼 라인에서의 변형 이산 사인 변환의 값이며, P k,i i번째 프레임의 k번째 스펙트럼 라인의 파워 값이다. 위의 공식은 쉬운 방법으로 파워 값들을 계산하도록 허용한다.
본 발명의 바람직한 일 실시 예에 따르면, 오디오 인코더는 스펙트럼 신호를 생산하도록 구성되는 스펙트럼 신호 계산 장치를 포함하고, 스펙트럼 신호 계산 장치는 데드 존의 변형에 의해 에너지 손실이 보상되는 것과 같은 방법으로 스펙트럼 신호의 스펙트럼 라인들의 진폭들을 설정하도록 구성되는 진폭 설정 장치(amplitude setting device)를 포함한다. 이러한 특징들에 의해 양자화는 에너지 보존 방식으로 수행될 수 있다.
본 발명의 바람직한 일 실시 예에 따르면, 진폭 설정 장치는 각각의 스펙트럼 라인에서 데드 존의 변형에 의존하여 스펙트럼 신호의 진폭들을 설정하도록 구성된다. 예를 들면, 데드 존이 커진 스펙트럼 라인들은 이러한 목적을 위하여 약간 증폭될 수 있다.
본 발명의 바람직한 일 실시 예에 따르면, 스펙트럼 신호 계산 장치는 정규화 장치(normalizing device)를 포함한다. 이러한 특징에 의해 뒤따르는 양자화 단계가 쉬운 방법으로 수행될 수 있다.
본 발명의 바람직한 일 실시 예에 따르면, 변형 이산 코사인 변환 계산 장치에 의해 계산된 오디오 신호의 프레임으로부터 변형 이산 코사인 변환은 스펙트럼 신호 계산 장치에 제공된다. 이러한 특징에 의해 변형 이산 코사인 변환은 양자화 적응을 위한 목적 및 인코딩된 신호의 계산을 위한 목적으로 사용된다.
일 양상에서, 본 발명은 인코더 및 디코더를 포함하는 시스템을 제공하고, 인코더는 본 발명에 따라 지정된다.
일 양상에서, 본 발명은 그것으로부터 인코딩된 신호를 생산하기 위하여 오디오 신호를 인코딩하기 위한 방법을 제공하고 방법은:
오디오 신호로부터 프레임들을 추출하는 단계;
오디오 신호의 프레임으로부터 유도된 스펙트럼 라인들을 양자화 지수들에 매핑하는 단계를 포함하되, 상기 양자화기는 입력 스펙트럼 라인들이 양자화 지수 제로에 매핑되는, 데드 존이 사용됨; 및
데드 존을 변형하는 단계;를 포함하고,
적어도 하나의 스펙트럼 라인 또는 적어도 하나의 스펙트럼 라인들의 그룹을 위한 적어도 하나의 음조 표시 값이 계산되고,
음조 표시 값에 의존하여 적어도 하나의 스펙트럼 라인 또는 적어도 하나의 스펙트럼 라인들의 그룹을 위하여 데드 존이 변형된다.
일 양상에서 본 발명은 컴퓨터 또는 프로세서 상에서 구동될 때, 본 발명에 따른 방법을 실행하기 위한 컴퓨터 프로그램을 제공한다.
본 발명의 바람직한 실시 예들이 첨부된 도면들과 관련하여 그 뒤에 설명될 것이다.
도 1은 본 발명에 따른 인코더의 실시 예를 도시한다.
도 2는 본 발명에 따른 인코더의 작업 원리를 도시한다.
도 1은 본 발명에 따라 그것으로부터 인코딩된 신호(ES)를 생산하기 위하여 오디오 신호(AS)를 인코딩하기 위한 오디오 인코더(1)를 도시한다. 오디오 인코더(1)는:
오디오 신호(AS)로부터 프레임들(F)을 추출하도록 구성되는 프레이밍 장치(2);
오디오 신호(AS)의 프레임(F)으로부터 유도된 스펙트럼 신호(SPS)의 스펙트럼 라인들(SL1-32, 도 2 참조)을 양자화 지수들(I0, I1)에 매핑하도록 구성되는 양자화기(3)를 포함하되, 상기 양자화기(3)는 스펙트럼 라인들(SL1-32)이 양자화 지수 제로(I0)에 매핑되는, 데드 존(DZ, 도 2 참조)을 가짐; 및
데드 존(DZ)을 변형하도록 구성되는 제어 장치(4);를 포함하고,
제어 장치(4)는 적어도 하나의 스펙트럼 라인(SL1-32) 또는 적어도 하나의 스펙트럼 라인들(SL1-32)의 그룹을 위한 적어도 하나의 음조 표시 값(TI5-32)을 계산하도록 구성되는 음조 계산 장치(5)를 포함하고,
제어 장치(4)는 음조 표시 값(TI5-32)에 의존하여 적어도 하나의 스펙트럼 라인(SL1-32) 또는 적어도 하나의 스펙트럼 라인들(SL1-32)의 그룹을 위하여 데드 존(DZ)을 변형하도록 구성된다.
프레이밍 장치(2)는 오디오 신호(AS)에 대한 윈도우 함수의 적용에 의해 오디오 신호(AS)로부터 프레임들(F)을 추출하도록 구성될 수 있다. 신호 처리에서, 윈도우 함수(또한 아포디제이션 함수 또는 테이퍼링 함수로서 알려진)는 일부 선택된 간격의 외부의 제로 값인 수학 함수이다. 신호(AS)에 대한 윈도우 함수의 적용에 의해, 신호(AS)는 일반적으로 프레임들(F)로 불리는, 짧은 세그먼트들로 깨질 수 있다.
디지털 오디오 신호 처리에서, 양자화는 큰 입력 값들의 세트를 (계수 가능한) 작은 세트(일부 정밀 단위에 대한 반올림 값과 같은)로 매핑하는 과정이다. 양자화를 실행하는 장치 또는 알고리즘 함수는 양자화기로 불린다.
본 발명에 따르면, 스펙트럼 신호(SPS)는 오디오 신호(AS)의 프레임들(F)을 위하여 계산된다. 스펙트럼 신호(SPS)는 시간-도메인 신호인, 오디오 신호(AS)의 각각의 프레임들(F)의 스펙트럼을 포함할 수 있고, 각각의 스펙트럼은 주파수 도메인 내의 프레임들(F) 중 어느 하나의 표현이다. 주파수 스펙트럼은 신호(AS)의 수학적 변환을 거쳐 발생될 수 있고, 결과로서 생기는 값들은 일반적으로 진폭 대 주파수로서 표현된다.
데드 존(DZ)은 양자화 동안에 사용되는 구역이고, 스펙트럼 라인들((SL1-32, 주파수 빈들) 또는 스펙트럼 라인들(SL1-32)의 그룹들(주파수 대역들)이 제로로 매핑된다. 데드 존(DZ)은 일반적으로 제로의 진폭에 위치하는, 하부 한계, 및 상부 한계를 가지며, 이는 서로 다른 스펙트럼 라인들(SL1-32) 또는 스펙트럼 라인들(SL1-32)의 그룹들을 위하여 변경될 수 있다.
본 발명에 따르면, 데드 존(DZ)은 제어 장치(4)에 의해 변형될 수 있다. 제어 장치(4)는 적어도 하나의 스펙트럼 라인(SL1-32) 또는 적어도 하나의 스펙트럼 라인들(SL1-32)의 그룹을 위한 적어도 하나의 음조 표시 값(TI5-32)을 계산하도록 구성되는 음조 계산 장치(5)를 포함한다.
용어 "음조"는 스펙트럼 신호(SPS)의 음색 특성을 언급한다. 일반적으로 음조는 스펙트럼이 주기적 성분을 대부분 포함하는 경우에 높다고 말할 수 있는데, 이는 프레임(F)의 스펙트럼 또는 그 일부분이 두드러진 피크들을 포함하는 것을 의미한다. 음색 특성의 반대는 소음 특성이다. 후자의 경우에 프레임(F)의 스펙트럼 또는 그것들의 부분은 더 평평하다.
게다가, 제어 장치(4)는 각각의 음조 표시 값(TI5-32)에 의존하여 적어도 하나의 스펙트럼 라인(SL1-32) 또는 적어도 하나의 스펙트럼 라인들(SL1-32)의 그룹을 위하여 데드 존(Z)을 변형하도록 구성된다.
본 발명은 다음과 같은, 신호-적응 데드 존(DZ)을 갖는 양자화 전략을 나타낸다:
● 현존하는 미디어 코덱들에서의 사용을 허용하는, 어떠한 부가 정보도 필요로 하지 않음,
● 양자화 이전에 복잡도를 절약하는, 어떠한 데드 존(DZ)을 빈 또는 대역 당 사용하는지를 결정함,
● 대역 주파수 및/또는 신호 음조를 기초로 하여 빈 당 또는 대역 당 데드 존(DZ)을 결정할 수 있음.
본 발명은 현존하는 코딩 인프라구조에 적용될 수 있는데 그 이유는 인코더(1) 내의 신호 양자화기(3)가 변경되고, 상응하는 디코더가 인코딩된 신호로부터 생산된 (변경되지 않은) 비트스트림을 판독하고 출력을 디코딩할 것이기 때문이다. [6] 및 그 안의 참조문헌들과 달리, 각각의 스펙트럼 라인들(SL1-32)의 그룹 또는 각각의 스펙트럼 라인(SL1-32)을 위한 데드 존(DZ)은 양자화 이전에 선택되고, 따라서 그룹 또는 스펙트럼 라인(SL1-32) 당 하나의 양자화 연산만이 필요하다. 최종적으로, 양자화기 결정은 두 개의 가능한 데드 존 값 사이를 선택하는 것에 한정되지 않고, 전체 범위의 값을 선택하는데 한정된다. 결정은 아래에 상세히 설명된다. 위에 설명된 음조 적응 양자화 전략은 저 지연-통합 음성 및 오디오 코딩(LD-USAC) 인코더의 변환 코딩 여기(TCX) 경로, 확장 고효율-고급 오디오 코딩의 저-지연 변형에서 구현될 수 있다[4].
본 발명의 바람직한 일 실시 예에 따르면, 제어 장치(4)는 스펙트럼 라인들(SL1-32) 중 어느 하나에서의 데드 존(DZ)이 더 큰 음조를 갖는 스펙트럼 라인들(SL1-32) 중 어느 하나에서의 데드 존(DZ)보다 크거나 또는 스펙트럼 라인들(SL1-32)의 그룹들 중 어느 하나에서의 데드 존(DZ)이 더 큰 음조를 갖는 스펙트럼 라인들(SL1-32)의 그룹들 중 어느 하나에서의 데드 존(DZ)보다 큰 것과 같은 방법으로 데드 존(DZ)을 변형하도록 구성된다. 이러한 특징들에 의해, 비-음조 스펙트럼 영역들은 제로로 양자화되는 경향이 있을 것인데, 이는 데이터의 양이 감소될 수 있다는 것을 의미한다.
본 발명의 바람직한 일 실시 예에 따르면, 제어 장치(4)는 오디오 신호(AS)의 프레임(F)의 파워 스펙트럼(PS, 또한 도 2 참조)을 계산하도록 구성되는 파워 스펙트럼 계산 장치(6)를 포함하고, 파워 스펙트럼(PS)은 스펙트럼 라인들(SL1-32) 또는 스펙트럼 라인들(SL1-32)의 그룹들을 위한 파워 값들(PS5-32)을 포함하며, 음조 계산 장치(5)는 파워 스펙트럼(PS)을 기초로 하여 적어도 하나의 음조 표시 값(PS5-32)을 계산하도록 구성된다. 파워 스펙트럼(PS)을 기초로 하여 적어도 하나의 음조 표시 값(PS5-32)을 계산함으로써 계산 복잡도는 아주 낮게 유지된다. 게다가 정확도가 향상될 수 있다.
본 발명의 바람직한 일 실시 예에 따르면, 스펙트럼 라인들(SL1-32) 중 어느 하나를 위한 음조 표시 값(TI5-32)은 각각의 스펙트럼 라인(SL1-32)을 위한 파워 값(PS5-32) 및 미리 정의된 수의 파워 스펙트럼(PS)의 그 주위의 파워 값들(PS5-32)의 합의 비교를 기초로 하거나, 또는 스펙트럼 라인들의 그룹들(SL1-32) 중 어느 하나를 위한 음조 표시 값(TI5-32)은 각각의 스펙트럼 라인들(SL1-32)의 그룹을 위한 파워 값(PS5-32) 및 미리 정의된 수의 파워 스펙트럼(PS)의 그 주위의 파워 값들(PS5-32)의 합의 비교를 기초로 한다. 파워 값(PS5-32)을 이웃의 파워 값들(PS5-32)과 비교함으로써 파워 스펙트럼(PS)의 피크 영역 또는 평면 영역이 쉽게 식별될 수 있고 따라서 음조 표시 값(TI5-32)이 쉬운 방법으로 계산될 수 있다.
본 발명의 바람직한 일 실시 예에 따르면, 스펙트럼 라인들(SL1-32) 중 어느 하나를 위한 음조 표시 값(TI5-32)은 오디오 신호(AS)의 선행 프레임(F)의 스펙트럼 라인(SL1-32)의 음조 표시 값(TI5-32)을 기초로 하거나, 또는 스펙트럼 라인들(SL1-32)의 그룹들 중 어느 하나를 위한 음조 표시 값(TI5-32)은 오디오 신호(AS)의 선행 프레임(F)에 대한 스펙트럼 라인들(SL1-32)의 그룹의 음조 표시 값(TI5-32)을 기초로 한다. 이러한 특징들에 의해 데드 존(DZ)은 시간에 따라 원활한 방식으로 변형될 것이다.
본 발명의 바람직한 일 실시 예에 따르면, 음조 표시 값(TI5-32)은 다음의 공식에 계산되는데:
Figure pct00003
여기서 i는 오디오 신호(AS)의 특정 프레임(F)을 나타내는 지수이고, k는 특정 스펙트럼 라인(SL1-32)을 나타내는 지수이며, T k,l 는 상기 i번째 프레임(F)의 상기 k번째 스펙트럼 라인(SL1-32)의 음조 표시 값(TI5-32)이며, P k,l i번째 프레임의 k번째 스펙트럼 라인(SL1-32)의 파워 값(PS5-32)이며, 혹은 음조 표시 값(TI5-32)은 다음의 공식에 계산되며:
Figure pct00004
여기서 i는 오디오 신호(AS)의 특정 프레임(F)을 나타내는 지수이고, m은 특정 스펙트럼 라인들(SL1-32)의 그룹을 나타내는 지수이며, P k,m i번째 프레임의 m번째 스펙트럼 라인들(SL1-32)의 그룹의 파워 값(PS5-32)이다. 공식으로부터 음조 표시 값(TI5-32)은 현재 프레임(F)인, i번째 프레임의 파워 값(PS5-32), 및 선행 프레임(F)인, i-1번째 프레임으로부터 계산된다는 것을 이해할 것이다. 공식은 i-1번째 프레임으로부터의 의존성을 생략함으로써 변경될 수 있다. 여기서 특정 스펙트럼 라인(SL1-32)의 k번째 파워 값(PS5-32) 또는 스펙트럼 라인들(SL1-32)의 그룹의 m번째 파워 값(PS5-32)의 왼쪽 7개 및 오른쪽 7개의 이웃하는 파워 값들(PS5-32)의 합이 계산되고 각각의 파워 값(PS5-32)으로 나뉜다. 이러한 공식을 사용하여 낮은 음조 표시 값(TI5-32)은 높은 음조를 나타낸다.
본 발명의 바람직한 일 실시 예에 따르면, 오디오 인코더(1)는 데드 존(DZ)을 변경하기 위하여 시작 주파수(SF)를 계산하도록 구성되는 시작 주파수 계산 장치(7)를 포함하고, 데드 존(DZ)은 시작 주파수(SF)보다 높거나 또는 동일한 주파수를 표현하는 스펙트럼 라인들(SL1-32)만을 위하여 변형된다. 이는 데드 존(DZ)이 저주파수들을 위하여 고정되고 고주파수들을 위하여 변동되는 것을 의미한다. 이러한 특징들은 더 나은 오디오 품질에 이르게 하는데 그 이유는 인간 청각 시스템이 저주파수에서 더 민감하기 때문이다.
본 발명의 바람직한 일 실시 예에 따르면, 시작 주파수 계산 장치(7)는 오디오 신호(AS)의 샘플 레이트를 기초로 하거나 및/또는 인코딩된 신호(ES)로부터 생산된 비트스트림을 위하여 예상되는 최대 비트-레이트를 기초로 하여 시작 주파수(SF)를 계산하도록 구성된다, 이러한 특징에 의해 오디오 품질은 최적화될 수 있다.
본 발명의 바람직한 일 실시 예에 따르면, 오디오 인코더(1)는 오디오 신호(AS)의 프레임(F)으로부터 변형 이산 코사인 변환(CT)을 계산하도록 구성되는 변형 이산 코사인 변환 계산 장치(8) 및 오디오 신호(AS)의 프레임(F)으로부터 변형 이산 사인 변환(ST)을 계산하도록 구성되는 변형 이산 사인 변환 계산 장치(9)를 포함하고, 파워 스펙트럼 계산 장치(6)는 변형 이산 코사인 변환(CT) 및 변형 이산 사인 변환(ST)을 기초로 하여 파워 스펙트럼(PS)을 계산하도록 구성된다. 변형 이산 코사인 변환(CT)은 어쨌든 오디오 신호(AS)를 인코딩하는 목적으로 계산되어야만 한다. 따라서, 변형 이산 사인 변환(ST)만이 음조 적응 양자화의 목적을 위하여 부가적으로 계산되어진다. 따라서, 복잡도가 감소될 수 있다. 그러나, 이산 푸리에 변환 또는 홀수 이산 푸리에 변환과 같은 다른 변환들이 사용될 수 있다.
본 발명의 바람직한 일 실시 예에 따르면, 파워 스펙트럼 계산 장치(6)는 공식 P k,i = (MDCT k,i )2 + (MDST k,i )2에 따라 파워 값들을 계산하도록 구성되는데, 여기서 i는 오디오 신호(AS)의 특정 프레임(F)을 나타내는 지수이고, k는 특정 스펙트럼 라인(SL1-32)을 나타내는 지수이며, MDCT k,i i번째 프레임의 k번째 스펙트럼 라인에서의 변형 이산 코사인 변환(CT)의 값이며, MDST k,i i번째 프레임의 k번째 스펙트럼 라인에서의 변형 이산 사인 변환(ST)의 값이며, P k,i i번째 프레임의 k번째 스펙트럼 라인의 파워 값(PS5-32)이다. 위의 공식은 쉬운 방법으로 파워 값들(PS5-32)을 계산하도록 허용한다.
본 발명의 바람직한 일 실시 예에 따르면, 오디오 인코더(1)는 스펙트럼 신호(SPS)를 생산하도록 구성되는 스펙트럼 신호 계산 장치(10)를 포함하고, 스펙트럼 신호 계산 장치(10)는 데드 존(DZ)의 변형에 기인한 에너지 손실이 보상되는 것과 같은 방법으로 스펙트럼 신호(SPS)의 스펙트럼 라인들(SL1-32)의 진폭들을 설정하도록 구성되는 진폭 설정 장치(11)를 포함한다. 이러한 특징들에 의해 양자화는 에너지 보존 방식으로 수행될 수 있다.
본 발명의 바람직한 일 실시 예에 따르면, 진폭 설정 장치(11)는 각각의 스펙트럼 라인(SL1-32)에서 데드 존(DZ)의 변형에 의존하여 스펙트럼 신호(SPS)의 진폭들을 설정하도록 구성된다. 예를 들면, 데드 존(DZ)이 커진 스펙트럼 라인들(SL1-32)은 이러한 목적을 위하여 약간 증폭될 수 있다.
본 발명의 바람직한 일 실시 예에 따르면, 스펙트럼 신호 계산 장치(10)는 정규화 장치(12)를 포함한다. 이러한 특징에 의해 뒤따르는 양자화 단계가 쉬운 방법으로 수행될 수 있다.
본 발명의 바람직한 일 실시 예에 따르면, 변형 이산 코사인 변환 계산 장치(8)에 의해 계산된 오디오 신호(AS)의 프레임(F)으로부터의 변형 이산 코사인 변환(CT)은 스펙트럼 신호 계산 장치(10)에 제공된다. 이러한 특징에 의해 변형 이산 코사인 변환(CT)은 양자화 적응을 위한 목적 및 인코딩된 신호(AS)의 계산을 위한 목적으로 사용된다.
도 1은 본 발명의 적응 인코더(1) 내의 데이터 및 제어 정보의 흐름을 도시한다. 특정 주파수(SF) 위의 비-음조 스펙트럼 영역들은 낮은 비트-레이트들에서 상당히 광범위하게 제로로 양자화되는 경향을 가질 것이라는 것을 이해하여야 한다. 그러나, 이는 디코더 내의 제로 빈들 상에 적용된 소음 삽입이 소음 유사 스펙트럼들을 충분히 재구성할 것이고, 양자화는 저주파수 빈들을 더 미세하게 양자화하도록 사용될 수 있는, 비트들을 절약할 것으로 의도된다.
도 2는 본 발명에 따른 인코더의 작업 원리를 도시한다. 여기서, 본 발명에 따른 오디오 인코더(1)의 데드 존(DZ), 오디오 신호(AS)의 프레임(F)의 파워 값들(PS5-32)을 갖는 파워 스펙트럼(PS), 값들(TL5-32)을 포함하는 음조 및 스펙트럼(SP)의 스펙트럼 라인들(SL1-32)이 공동 좌표 시스템 내에 도시되는데, 여기서 x-축은 주파수를 나타내고 y-축은 진폭을 나타낸다. 단순성을 위하여 도 2에서 1보다 큰 매핑 지수는 도시되지 않는다는 것을 이해하여야 한다.
시작 주파수 계산 장치(7)에 의해 계산될 수 있는, 시작 주파수(SF) 아래에, 데드 존은 고정된 크기이다. 실시 예에서 스펙트럼 라인(SL1)은 데드 존(DZ) 외부에서 끝나고 따라서 이는 지수 0(I0)으로 매핑될 수 있으나, 반면에 스펙트럼 라인(SL7)은 데드 존(DZ) 내에서 끝나고 따라서 이는 지수 1(I10)으로 매핑될 수 있을 것이다. 그러나, 시작 주파수(SF)로의 시작과 더 높은 주파수로의 이동에서, 데드 존(DZ)의 크기는 제어 장치(4)에 의해 변형될 수 있다. 그러한 목적을 위하여, 파워 값들(PS5-32)이 위에 설명된 것과 같이 계산된다. 게다가, 값들(TL5-32)을 나타내는 음조가 파워 값들(PS5-32)로부터 계산된다.
k=20부터 k=23까지의 영역에서, 파워 스펙트럼(PS)은 값들(TI20-23)을 표시하는 낮은 음조를 야기하고, 높은 음조를 표시하는 피크를 갖는다. 위의 나머지 영역들에서 파워 스펙트럼(PS)을 위한 시작 주파수(SF)는 더 평평하고 따라서 그것들 각각의 영역들에서 낮은 음조를 나타내는, 값들(TI12-19 및 TI24-32)을 나타내는 음조는 상대적으로 높다. 그 결과 데드 존(DZ)은 k=12부터 k=19까지의 영역 및 k=24부터 k=32까지의 영역에서 확대된다. 데드 존(DZ)의 이러한 확대는 예를 들면, 음조 적응 양자화 없이 지수 1로 매핑될 수 있었던, 스펙트럼 라인(SL12) 및 스펙트럼 라인(SL25)이 이제 지수 0으로 매핑되는 것을 야기한다. 이러한 제로 양자화는 디코더로 전송되려는 데이터의 양을 감소시킨다.
본 발명의 바람직한 구현에서, 인코더 양자화는 다음과 같이 요약된다:
1. 시간-대-주파수 변환 단계 동안에, 변형 이산 코사인 변환(코사인 부분) 및 변형 이산 사인 변환(사인 부분)은 주어진 프레임을 위하여 윈도우잉된 입력 신호로부터 계산된다.
2. 입력 프레임의 변형 이산 코사인 변환은 양자화, 코딩, 및 변환을 위하여 사용된다. 변형 이산 사인 변환은 또한 빈 당 파워 스펙트럼(Pk = MDCTk2 + MDSTk2)을 계산하도록 사용된다.
3. 코딩 대역 당, 또는 바람직하게는 빈 당 Pk로, 음조 또는 스펙트럼 평탄도 측정이 계산된다. 이를 달성하기 위한 일부 방법들이 문헌(1, 2, 3]에 설명된다. 바람직하게는, 빈 당 소수의 연산만을 갖는 낮은 복잡도 버전이 사용된다. 본 발명의 경우에 있어서, Pk 및 그 주위의 Pk-7...k+7의 합 사이의 비교가 만들어지고 [3]에 설명된 탄생/소멸 트래커(birth/death tracker)와 유사한 이력으로 향상된다. 게다가, 특정 비트 레이트 의존 주파수 아래의 빈들은 항상 음조로서 고려된다.
4. 선택적 단계로서, 큰 양자화기 데드 존에 기인한 에너지 손실을 보상하기 위하여 양자화 이전에 스펙트럼의 약간의 증폭을 실행하도록 음조 또는 평탄도 측정이 사용될 수 있다. 더 정확하게는, 큰 양자화기 데드 존이 적용되는 빈들이 약난 증폭되고, 정상 또는 정상 데드 존(즉, 에너지를 보존하는 경향이 있는)에 사용되는 빈들은 변형되지 않는다.
5. 단계 3의 음조 또는 평탄도 측정은 이제 각각의 주파수 빈들 양자화하도록 사용되는 데드 존의 선택을 제어한다. Pk-7...k+7/Pk의 낮은 값들을 측정하는, 높은 음조를 갖는 것으로 결정된 빈들은 디폴드(즉, 대충 에너지를 보존하는) 데드 존으로 양자화되고, 낮은 음조를 갖는 빈들은 새로운 확대된 데드 존으로 양자화된다. 낮은 음조 빈은 따라서 높은 음조 빈보다 더 자주 제로로 양자화되려는 경향이 있다. 선택적으로, 빈의 데드 존의 크기는 디폴트(가장 작은) 및 최대 데드 존 크기 사이의 범위를 갖는, 빈 음조의 연속적인 함수로서 정의될 수 있다.
장치의 맥락에서 일부 양상들이 설명되었으나, 이러한 양상들은 또한 블록 또는 장치가 방법 단계 또는 방법 단계의 특징과 상응하는, 상응하는 방법의 설명을 나타낸다는 것은 자명하다. 유사하게, 방법 단계의 맥락에서 설명된 양상들은 또한 상응하는 블록 아이템 혹은 상응하는 장치의 특징을 나타낸다. 일부 또는 모든 방법 단계는 예를 들면 마이크로프로세서, 프로그램가능 컴퓨터 또는 전자 회로 같은 하드웨어 장치에 의해(또는 사용하여) 실행될 수 있다. 일부 실시 예들에서, 하나 또는 그 이상의 가장 중요한 방법 단계는 그러한 장치에 의해 실행될 수 있다.
특정 구현 요구사항들에 따라, 본 발명의 실시 예들은 하드웨어 또는 소프트웨어에서 구현될 수 있다. 구현은 예를 들면, 각각의 방법이 실행될 것과 같이 프로그램가능 컴퓨터 시스템과 협력하는(또는 협력할 수 있는), 그 안에 저장되는 전자적으로 판독 가능한 제어 신호들을 갖는, 디지털 저장 매체, 예를 들면, 플로피 디스크, DVD, CD, ROM, PROM, EPROM, EEPROM 또는 플래시 메모리를 사용하여 실행될 수 있다.
본 발명에 따른 일부 실시 예들은 여기에 설명된 방법들 중 어느 하나가 실행되는 것과 같이, 프로그램가능 컴퓨터 시스템과 협력할 수 있는, 전자적으로 판독 가능한 제어 신호들을 갖는 데이터 캐리어를 포함한다.
일반적으로, 본 발명의 실시 예들은 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있으며, 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터 상에서 구동할 때 방법들 중 어느 하나를 실행하도록 운영될 수 있다. 프로그램 코드는 예를 들면, 기계 판독가능 캐리어 상에 저장될 수 있다.
다른 실시 예들은 기계 판독가능 캐리어 상에 저장되는, 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램을 포함한다.
바꾸어 말하면, 본 발명의 방법의 일 실시 예는 따라서 컴퓨터 프로그램이 컴퓨터 상에 구동할 때, 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
본 발명의 방법의 또 다른 실시 예는 따라서 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램을 포함하는, 그 안에 기록되는 데이터 캐리어(또는 데이터 저장 매체, 또는 컴퓨터 판독가능 매체)이다. 데이터 캐리어, 디지털 저장 매체 또는 기록된 매체는 일반적으로 유형 및/또는 비-일시적이다.
본 발명의 방법의 또 다른 실시 예는 따라서 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램을 나타내는 데이터 스트림 또는 신호들의 시퀀스이다. 데이터 스트림 또는 신호들의 시퀀스는 예를 들면 데이터 통신 연결, 예를 들면 인터넷을 거쳐 전송되도록 구성될 수 있다.
또 다른 실시 예는 여기에 설명된 방법들 중 어느 하나를 실행하도록 구성되거나 혹은 적용되는, 처리 수단, 예를 들면 컴퓨터, 또는 프로그램가능 논리 장치를 포함한다.
또 다른 실시 예는 그 안에 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.
본 발명에 따른 또 다른 실시 예는 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터를 수신기로 전달하도록(예를 들면, 전자적으로 또는 광학적으로) 구성되는 장치 또는 시스템을 포함한다. 수신기는 예를 들면, 컴퓨터 모바일 장치, 메모리 장치 등일 수 있다. 장치 또는 시스템은 예를 들면 컴퓨터 프로그램을 수신기로 전달하기 위한 파일 서버를 포함할 수 있다.
일부 실시 예들에서, 여기에 설명된 방법들 중 일부 또는 모두를 실행하기 위하여 프로그램가능 논리 장치(예를 들면, 필드 프로그램가능 게이트 어레이)가 사용될 수 있다. 일부 실시 예들에서, 필드 프로그램가능 게이트 어레이는 여기에 설명된 방법들 중 어느 하나를 실행하기 위하여 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법들은 바람직하게는 어떠한 하드웨어 장치에 의해 실행된다.
위에 설명된 실시 예들은 단지 본 발명의 원리들을 위한 설명이다. 여기에 설명된 배치들과 상세내용들의 변형과 변경은 통상의 지식을 가진 자들에 자명할 것이라는 것을 이해할 것이다. 따라서, 본 발명은 여기에 설명된 실시 예들의 설명에 의해 표현된 특정 상세내용이 아닌 특허 청구항의 범위에 의해서만 한정되는 것으로 의도된다.
참고문헌:
[1] L. Daudet, “Sparse and Structured Decomposition of Signals with the Molecular Matching Pursuit,” IEEE Trans. on Audio, Speech, and Lang. Processing, Vol. 14, No. 5, Sep. 2006.
[2] F. Keiler, “Survey on Extraction of Sinusoids in Stationary Sounds,” in Proc. DAFX, 2002.
[3] R.J. McAulay and T.F. Quatieri, “Speech Analysis/Synthesis Based on a Sinusoidal Representation,” IEEE Trans. Acoustics, Speech, and Sig. Processing, Vol. 34, No. 4, Aug. 1986.
[4] M. Neuendorf et al., “MPEG Unified Speech and Audio Coding - The ISO/MPEG Standard for High-Efficiency Audio Coding of All Content Types,” in Proc. 132nd Convention of the AES, Budapest, Hungary, Apr. 2012. Also to appear in the Journal of the AES, 2013.
[5] M. Oger et al., “Model-Based Deadzone Optimization for Stack-Run Audio Coding with Uniform Scalar Quantization,” in Proc. ICASSP 2008, Las Vegas, USA, Apr. 2008.
[6] M. Schug, EP2122615, “Apparatus and method for encoding an information signal”, 2007.
1 : 오디오 인코더
2 : 프레이밍 장치
3 : 양자화기
4 : 제어 장치
5 : 음조 계산 장치
6 : 파워 스펙트럼 계산 장치
7 : 시작 주파수 계산 장치
8 : 변형 이산 코사인 변환 계산 장치
9 : 변형 이산 사인 변환 계산 장치
10 : 스펙트럼 신호 계산 장치
11. 진폭 설정 장치
12 : 정규화 장치
AS : 오디오 신호
ES : 인코딩된 신호
F : 프레임
SL1-32 : 스펙트럼 라인
SPS : 스펙트럼 신호
I : 지수
DZ : 데드 존
TI5-32 : 음조 표시 값
PS : 파워 스펙트럼
PS5-32 : 파워 값
SF : 시작 주파수
CT : 변형 이산 코사인 변환
ST : 변형 이산 사인 변환

Claims (17)

  1. 인코딩된 신호(ES)를 생산하기 위하여 오디오 신호(AS)를 인코딩하기 위한 오디오 인코더(1)에 있어서,
    상기 오디오 신호(AS)로부터 프레임들(F)을 추출하도록 구성되는 프레이밍 장치(2);
    상기 오디오 신호(AS)의 상기 프레임(F)으로부터 유도된 스펙트럼 신호(SPS)의 스펙트럼 라인들(SL1-32)을 양자화 지수들(I0, I1)에 매핑하도록 구성되는 양자화기(3)를 포함하되, 상기 양자화기(3)는 상기 스펙트럼 라인들(SL1-32)이 양자화 지수 제로(I0)에 매핑되는, 데드 존(DZ)을 가짐; 및
    상기 데드 존(DZ)을 변형하도록 구성되는 제어 장치(4);를 포함하고,
    상기 제어 장치(4)는 적어도 하나의 스펙트럼 라인(SL1-32) 또는 적어도 하나의 스펙트럼 라인들(SL1-32)의 그룹을 위한 적어도 하나의 음조 표시 값(TI5-32)을 계산하도록 구성되는 음조 계산 장치(5)를 포함하고,
    상기 제어 장치(4)는 상기 각각의 음조 표시 값(TI5-32)에 의존하여 상기 적어도 하나의 스펙트럼 라인(SL1-32) 또는 상기 적어도 하나의 스펙트럼 라인들(SL1-32)의 그룹을 위하여 상기 데드 존(DZ)을 변형하도록 구성되는 것을 특징으로 하는 오디오 인코더.
  2. 선행 항 중 어느 한 항에 있어서, 상기 제어 장치(4)는 상기 스펙트럼 라인들(SL1-32) 중 어느 하나에서의 상기 데드 존(DZ)이 더 큰 음조를 갖는 상기 스펙트럼 라인들(SL1-32) 중 어느 하나에서의 상기 데드 존(DZ)보다 크거나 또는 상기 스펙트럼 라인들(SL1-32)의 그룹들 중 어느 하나에서의 데드 존(DZ)이 더 큰 음조를 갖는 상기 스펙트럼 라인들(SL1-32)의 그룹들 중 어느 하나에서의 데드 존(DZ)보다 큰 것과 같은 방법으로 상기 데드 존(DZ)을 변형하도록 구성되는 것을 특징으로 하는 오디오 인코더.
  3. 제 1항 내지 2항 중 어느 한 항에 있어서, 상기 제어 장치(4)는 상기 오디오 신호(AS)의 상기 프레임(F)의 파워 스펙트럼(PS)을 계산하도록 구성되는 파워 스펙트럼 계산 장치(6)를 포함하고, 상기 파워 스펙트럼(PS)은 스펙트럼 라인들(SL1-32) 또는 스펙트럼 라인들(SL1-32)의 그룹들을 위한 파워 값들(PS5-32)을 포함하며, 상기 음조 계산 장치(5)는 상기 파워 스펙트럼(PS)에 의존하여 상기 적어도 하나의 음조 표시 값(PS5-32)을 계산하도록 구성되는 것을 특징으로 하는 오디오 인코더.
  4. 제 1항 내지 3항 중 어느 한 항에 있어서, 상기 스펙트럼 라인들(SL1-32) 중 어느 하나를 위한 상기 음조 표시 값(TI5-32)은 상기 각각의 스펙트럼 라인(SL1-32)을 위한 상기 파워 값(PS5-32) 및 미리 정의된 수의 상기 파워 스펙트럼(PS)의 그 주위의 파워 값들(PS5-32)의 합의 비교를 기초로 하거나, 또는 상기 스펙트럼 라인들의 그룹들(SL1-32) 중 어느 하나를 위한 상기 음조 표시 값(TI5-32)은 상기 각각의 스펙트럼 라인들(SL1-32)의 그룹을 위한 상기 파워 값(PS5-32) 및 미리 정의된 수의 상기 파워 스펙트럼(PS)의 그 주위의 파워 값들(PS5-32)의 합의 비교를 기초로 하는 것을 특징으로 하는 오디오 인코더.
  5. 제 1항 내지 4항 중 어느 한 항에 있어서, 상기 스펙트럼 라인들(SL1-32) 중 어느 하나를 위한 상기 음조 표시 값(TI5-32)은 상기 오디오 신호(AS)의 선행 프레임(F)의 상기 스펙트럼 라인(SL1-32)의 상기 음조 표시 값(TI5-32)을 기초로 하거나, 혹은 상기 스펙트럼 라인들(SL1-32)의 그룹들 중 어느 하나를 위한 상기 음조 표시 값(TI5-32)은 상기 오디오 신호(AS)의 선행 프레임(F)을 위한 상기 스펙트럼 라인들(SL1-32)의 그룹의 상기 음조 표시 값(TI5-32)을 기초로 하는 것을 특징으로 하는 오디오 인코더.
  6. 제 3항 내지 5항 중 어느 한 항에 있어서, 상기 음조 표시 값(TI5-32)은 아래의 공식에 계산되는데:
    Figure pct00005

    여기서 i는 상기 오디오 신호(AS)의 특정 프레임(F)을 나타내는 지수이고, k는 특정 스펙트럼 라인(SL1-32)을 나타내는 지수이며, T k,l 는 상기 i번째 프레임(F)의 상기 k번째 스펙트럼 라인(SL1-32)의 음조 표시 값(TI5-32)이며, P k,l 는 상기 i번째 프레임(F)의 상기 k번째 스펙트럼 라인(SL1-32)의 파워 값(PS5-32)이며, 혹은 상기 음조 표시 값(TI5-32)은 아래의 공식에 계산되며:
    Figure pct00006

    여기서 i는 상기 오디오 신호AS)의 특정 프레임(F)을 나타내는 지수이고, m은 특정 스펙트럼 라인들(SL1-32)의 그룹을 나타내는 지수이며, P k,m 은 상기 i번째 프레임의 상기 m번째 스펙트럼 라인들(SL1-32)의 그룹의 파워 값(PS5-32)인 것을 특징으로 하는 오디오 인코더.
  7. 제 1항 내지 6항 중 어느 한 항에 있어서, 상기 오디오 인코더(1)는 상기 데드 존(DZ)을 변경하기 위하여 시작 주파수(SF)를 계산하도록 구성되는 시작 주파수 계산 장치(7)를 포함하고, 상기 데드 존(DZ)은 상기 시작 주파수(SF)보다 높거나 또는 동일한 주파수를 표현하는 스펙트럼 라인들(SL1-32)만을 위하여 변형되는 것을 특징으로 하는 오디오 인코더.
  8. 제 1항 내지 7항 중 어느 한 항에 있어서, 상기 시작 주파수 계산 장치(7)는 상기 오디오 신호(AS)의 샘플 레이트를 기초로 하거나 및/또는 상기 인코딩된 신호(ES)로부터 생산된 비트스트림을 위하여 예상되는 최대 비트-레이트를 기초로 하여 상기 시작 주파수(SF)를 계산하도록 구성되는 것을 특징으로 하는 오디오 인코더.
  9. 제 3항 내지 8항 중 어느 한 항에 있어서, 상기 오디오 인코더(1)는 상기 오디오 신호(AS)의 상기 프레임(F)으로부터 변형 이산 코사인 변환(CT)을 계산하도록 구성되는 변형 이산 코사인 변환 계산 장치(8) 및 상기 오디오 신호(AS)의 상기 프레임(F)으로부터 변형 이산 사인 변환(ST)을 계산하도록 구성되는 변형 이산 사인 변환 계산 장치(9)를 포함하고, 상기 파워 스펙트럼 계산 장치(6)는 상기 변형 이산 코사인 변환(CT) 및 상기 변형 이산 사인 변환(ST)을 기초로 하여 상기 파워 스펙트럼(PS)을 계산하도록 구성되는 것을 특징으로 하는 오디오 인코더.
  10. 제 3항 내지 9항 중 어느 한 항에 있어서, 상기 파워 스펙트럼 계산 장치(6)는 공식 P k,i = (MDCT k,i )2 + (MDST k,i )2에 따라 상기 파워 값들(PS5-32)을 계산하도록 구성되는데, 여기서 i는 상기 오디오 신호(AS)의 특정 프레임(F)을 나타내는 지수이고, k는 특정 스펙트럼 라인을 나타내는 지수이며, MDCT k,i 는 상기 i번째 프레임의 상기 k번째 스펙트럼 라인에서의 상기 변형 이산 코사인 변환(CT)의 값이며, MDST k,i 는 상기 i번째 프레임의 상기 k번째 스펙트럼 라인에서의 상기 변형 이산 사인 변환(ST)의 값이며, P k,i 는 상기 i번째 프레임의 상기 k번째 스펙트럼 라인의 상기 파워 값(PS5-32)인 것을 특징으로 하는 오디오 인코더.
  11. 제 1항 내지 10항 중 어느 한 항에 있어서, 상기 오디오 인코더(1)는 상기 스펙트럼 신호(SPS)를 생산하도록 구성되는 스펙트럼 신호 계산 장치(10)를 포함하고, 상기 스펙트럼 신호 계산 장치(10)는 상기 데드 존(DZ)의 변형에 기인한 에너지 손실이 보상되는 것과 같은 방법으로 상기 스펙트럼 신호(SPS)의 상기 스펙트럼 라인들(SL1-32)의 진폭들을 설정하도록 구성되는 진폭 설정 장치(11)를 포함하는 것을 특징으로 하는 오디오 인코더.
  12. 제 1항 내지 11항 중 어느 한 항에 있어서, 상기 진폭 설정 장치(11)는 상기 각각의 스펙트럼 라인(SL1-32)에서 상기 데드 존(DZ)의 변형에 의존하여 상기 스펙트럼 신호(SPS)의 상기 진폭들을 설정하도록 구성되는 것을 특징으로 하는 오디오 인코더.
  13. 제 11항 또는 12항에 있어서, 상기 스펙트럼 신호 계산 장치(10)는 정규화 장치(12)를 포함하는 것을 특징으로 하는 오디오 인코더.
  14. 제 11항 내지 13항 중 어느 한 항에 있어서, 상기 변형 이산 코사인 변환 계산 장치(8)에 의해 계산된 상기 오디오 신호(AS)의 상기 프레임(F)으로부터의 상기 변형 이산 코사인 변환(CT)은 상기 스펙트럼 신호 계산 장치(10)에 제공되는 것을 특징으로 하는 오디오 인코더.
  15. 인코더(1) 및 디코더를 포함하는 시스템에 있어서, 상기 인코더(1)는 제 1항 내지 14항 중 어느 한 항에 따라 구성되는 것을 특징으로 하는 시스템.
  16. 인코딩된 신호(ES)를 생산하기 위하여 오디오 신호(AS)를 인코딩하기 위한 방법에 있어서,
    상기 오디오 신호(AS)로부터 프레임들(F)을 추출하는 단계;
    상기 오디오 신호(AS)의 상기 프레임(F)으로부터 유도된 스펙트럼 신호(SPS)의 스펙트럼 라인들(SL1-32)을 양자화 지수들(I0, I1)에 매핑하는 단계를 포함하되, 상기 상기 입력 스펙트럼 라인들(SL1-32)이 양자화 지수 제로(I0)에 매핑되는, 데드 존(DZ)이 사용됨; 및
    상기 데드 존(DZ)을 변형하는 단계;를 포함하고,
    적어도 하나의 스펙트럼 라인(SL1-32) 또는 적어도 하나의 스펙트럼 라인들(SL1-32)의 그룹을 위한 적어도 하나의 음조 표시 값(TI5-32)이 계산되고,
    상기 각각의 음조 표시 값(TI5-32)에 의존하여 상기 적어도 하나의 스펙트럼 라인(SL1-32) 또는 상기 적어도 하나의 스펙트럼 라인들(SL1-32)의 그룹을 위하여 상기 데드 존(DZ)이 변형되는 것을 특징으로 하는 오디오 신호(AS)를 인코딩하기 위한 방법.
  17. 컴퓨터 또는 프로세서 상에서 구동할 때, 제 16항의 방법을 실행하기 위한 컴퓨터 프로그램.
KR1020157022139A 2013-01-29 2014-01-28 저-복잡도 음조-적응 오디오 신호 양자화 KR101757341B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361758191P 2013-01-29 2013-01-29
US61/758,191 2013-01-29
PCT/EP2014/051624 WO2014118171A1 (en) 2013-01-29 2014-01-28 Low-complexity tonality-adaptive audio signal quantization

Publications (2)

Publication Number Publication Date
KR20150118954A true KR20150118954A (ko) 2015-10-23
KR101757341B1 KR101757341B1 (ko) 2017-07-14

Family

ID=50023575

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020157022139A KR101757341B1 (ko) 2013-01-29 2014-01-28 저-복잡도 음조-적응 오디오 신호 양자화

Country Status (20)

Country Link
US (3) US10468043B2 (ko)
EP (1) EP2939235B1 (ko)
JP (3) JP6334564B2 (ko)
KR (1) KR101757341B1 (ko)
CN (2) CN110047499B (ko)
AR (1) AR095087A1 (ko)
AU (1) AU2014211539B2 (ko)
BR (1) BR112015018050B1 (ko)
CA (1) CA2898789C (ko)
ES (1) ES2613651T3 (ko)
HK (1) HK1216263A1 (ko)
MX (1) MX346732B (ko)
MY (1) MY172848A (ko)
PL (1) PL2939235T3 (ko)
PT (1) PT2939235T (ko)
RU (1) RU2621003C2 (ko)
SG (1) SG11201505922XA (ko)
TW (1) TWI524331B (ko)
WO (1) WO2014118171A1 (ko)
ZA (1) ZA201506319B (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6334564B2 (ja) 2013-01-29 2018-05-30 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. 低複雑度の調性適応音声信号量子化
EP3396670B1 (en) * 2017-04-28 2020-11-25 Nxp B.V. Speech signal processing
CN113539281A (zh) * 2020-04-21 2021-10-22 华为技术有限公司 音频信号编码方法和装置
US11348594B2 (en) 2020-06-11 2022-05-31 Qualcomm Incorporated Stream conformant bit error resilience

Family Cites Families (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2841765B2 (ja) * 1990-07-13 1998-12-24 日本電気株式会社 適応ビット割当て方法及び装置
TW224553B (en) * 1993-03-01 1994-06-01 Sony Co Ltd Method and apparatus for inverse discrete consine transform and coding/decoding of moving picture
EP0692880B1 (en) * 1993-11-04 2001-09-26 Sony Corporation Signal encoder, signal decoder, recording medium and signal encoding method
US6167093A (en) * 1994-08-16 2000-12-26 Sony Corporation Method and apparatus for encoding the information, method and apparatus for decoding the information and method for information transmission
DE19505435C1 (de) 1995-02-17 1995-12-07 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Bestimmen der Tonalität eines Audiosignals
JP3308764B2 (ja) * 1995-05-31 2002-07-29 日本電気株式会社 音声符号化装置
DE19614108C1 (de) * 1996-04-10 1997-10-23 Fraunhofer Ges Forschung Anordnung zur Vermessung der Koordinaten eines an einem Objekt angebrachten Retroreflektors
US5924064A (en) * 1996-10-07 1999-07-13 Picturetel Corporation Variable length coding using a plurality of region bit allocation patterns
US6301304B1 (en) * 1998-06-17 2001-10-09 Lsi Logic Corporation Architecture and method for inverse quantization of discrete cosine transform coefficients in MPEG decoders
US6704705B1 (en) * 1998-09-04 2004-03-09 Nortel Networks Limited Perceptual audio coding
DE10134471C2 (de) * 2001-02-28 2003-05-22 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals
US7447631B2 (en) * 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
US7280700B2 (en) 2002-07-05 2007-10-09 Microsoft Corporation Optimization techniques for data compression
US8090577B2 (en) * 2002-08-08 2012-01-03 Qualcomm Incorported Bandwidth-adaptive quantization
US7502743B2 (en) 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
JP3881943B2 (ja) 2002-09-06 2007-02-14 松下電器産業株式会社 音響符号化装置及び音響符号化方法
US7318027B2 (en) * 2003-02-06 2008-01-08 Dolby Laboratories Licensing Corporation Conversion of synthesized spectral components for encoding and low-complexity transcoding
US7333930B2 (en) 2003-03-14 2008-02-19 Agere Systems Inc. Tonal analysis for perceptual audio coding using a compressed spectral representation
US7738554B2 (en) * 2003-07-18 2010-06-15 Microsoft Corporation DC coefficient signaling at small quantization step sizes
JP4168976B2 (ja) * 2004-05-28 2008-10-22 ソニー株式会社 オーディオ信号符号化装置及び方法
FR2882458A1 (fr) * 2005-02-18 2006-08-25 France Telecom Procede de mesure de la gene due au bruit dans un signal audio
US7983922B2 (en) * 2005-04-15 2011-07-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing
US7995649B2 (en) * 2006-04-07 2011-08-09 Microsoft Corporation Quantization adjustment based on texture level
US8059721B2 (en) * 2006-04-07 2011-11-15 Microsoft Corporation Estimating sample-domain distortion in the transform domain with rounding compensation
US20080049950A1 (en) * 2006-08-22 2008-02-28 Poletti Mark A Nonlinear Processor for Audio Signals
ATE509347T1 (de) 2006-10-20 2011-05-15 Dolby Sweden Ab Vorrichtung und verfahren zum codieren eines informationssignals
JP5065687B2 (ja) * 2007-01-09 2012-11-07 株式会社東芝 オーディオデータ処理装置及び端末装置
US8498335B2 (en) * 2007-03-26 2013-07-30 Microsoft Corporation Adaptive deadzone size adjustment in quantization
EP2077551B1 (en) * 2008-01-04 2011-03-02 Dolby Sweden AB Audio encoder and decoder
JP5262171B2 (ja) 2008-02-19 2013-08-14 富士通株式会社 符号化装置、符号化方法および符号化プログラム
WO2010001020A2 (fr) * 2008-06-06 2010-01-07 France Telecom Codage/decodage par plans de bits, perfectionne
CN102089808B (zh) * 2008-07-11 2014-02-12 弗劳恩霍夫应用研究促进协会 音频编码器、音频解码器、用于编码及解码音频信号的方法
JP4932917B2 (ja) 2009-04-03 2012-05-16 株式会社エヌ・ティ・ティ・ドコモ 音声復号装置、音声復号方法、及び音声復号プログラム
JP5749710B2 (ja) * 2009-05-16 2015-07-15 トムソン ライセンシングThomson Licensing 映像符号化及び復号化のための、改善された量子化の丸めのオフセットを調節する方法及び装置
EP4116969B1 (en) * 2010-04-09 2024-04-17 Dolby International AB Mdct-based complex prediction stereo coding
RU2619710C2 (ru) 2011-04-21 2017-05-17 Самсунг Электроникс Ко., Лтд. Способ квантования коэффициентов кодирования с линейным предсказанием, способ кодирования звука, способ деквантования коэффициентов кодирования с линейным предсказанием, способ декодирования звука и носитель записи
TWI473078B (zh) * 2011-08-26 2015-02-11 Univ Nat Central 音訊處理方法以及裝置
US8885706B2 (en) * 2011-09-16 2014-11-11 Google Inc. Apparatus and methodology for a video codec system with noise reduction capability
JP6334564B2 (ja) 2013-01-29 2018-05-30 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. 低複雑度の調性適応音声信号量子化
EP3483879A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation

Also Published As

Publication number Publication date
MY172848A (en) 2019-12-12
EP2939235B1 (en) 2016-11-16
WO2014118171A1 (en) 2014-08-07
US10468043B2 (en) 2019-11-05
PL2939235T3 (pl) 2017-04-28
JP2019164367A (ja) 2019-09-26
CN110047499A (zh) 2019-07-23
ES2613651T3 (es) 2017-05-25
TWI524331B (zh) 2016-03-01
CA2898789C (en) 2017-12-05
JP6334564B2 (ja) 2018-05-30
JP6526091B2 (ja) 2019-06-05
KR101757341B1 (ko) 2017-07-14
JP2017151454A (ja) 2017-08-31
AU2014211539B2 (en) 2017-04-20
EP2939235A1 (en) 2015-11-04
SG11201505922XA (en) 2015-08-28
US20210366499A1 (en) 2021-11-25
CN110047499B (zh) 2023-08-29
CN105103226A (zh) 2015-11-25
TW201440039A (zh) 2014-10-16
ZA201506319B (en) 2016-07-27
BR112015018050B1 (pt) 2021-02-23
BR112015018050A2 (pt) 2017-07-18
US11694701B2 (en) 2023-07-04
CA2898789A1 (en) 2014-08-07
US11094332B2 (en) 2021-08-17
CN105103226B (zh) 2019-04-16
RU2015136242A (ru) 2017-03-07
AU2014211539A1 (en) 2015-09-17
AR095087A1 (es) 2015-09-30
MX2015009753A (es) 2015-11-06
HK1216263A1 (zh) 2016-10-28
JP2016510426A (ja) 2016-04-07
US20200090671A1 (en) 2020-03-19
MX346732B (es) 2017-03-30
RU2621003C2 (ru) 2017-05-30
US20160027448A1 (en) 2016-01-28
JP6979048B2 (ja) 2021-12-08
PT2939235T (pt) 2017-02-07

Similar Documents

Publication Publication Date Title
US11694701B2 (en) Low-complexity tonality-adaptive audio signal quantization
KR101792712B1 (ko) 주파수 도메인 내의 선형 예측 코딩 기반 코딩을 위한 저주파수 강조
JP6970789B2 (ja) 高位周波数帯域における検出されたピークスペクトル領域を考慮してオーディオ信号を符号化するオーディオ符号器、オーディオ信号を符号化する方法、及びコンピュータプログラム
CN101968781B (zh) 在音频编码过程中根据mdct数据进行视窗类型判定的方法
KR20120128156A (ko) 샘플링 레이트 의존 시간 왜곡 윤곽 인코딩을 이용하는 오디오 신호 디코더, 오디오 신호 인코더, 방법, 및 컴퓨터 프로그램
CN105264596B (zh) 用于码激励线性预测类编码器的无边信息的噪声填充
CN109712633A (zh) 音频编码器和解码器
CN104584122A (zh) 使用改进的概率分布估计的基于线性预测的音频编码
CN103620674A (zh) 用于对音频信号的时间段进行编码和解码的变换音频编解码器和方法
US8825494B2 (en) Computation apparatus and method, quantization apparatus and method, audio encoding apparatus and method, and program
US10950251B2 (en) Coding of harmonic signals in transform-based audio codecs
Disch et al. Sinusoidal substitution—An integrated parametric tool for enhancement of transform-based perceptual audio coders

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant