KR20170035827A - 음향 신호 부호화 장치, 음향 신호 복호 장치, 음향 신호 부호화 방법 및 음향 신호 복호 방법 - Google Patents

음향 신호 부호화 장치, 음향 신호 복호 장치, 음향 신호 부호화 방법 및 음향 신호 복호 방법 Download PDF

Info

Publication number
KR20170035827A
KR20170035827A KR1020167024863A KR20167024863A KR20170035827A KR 20170035827 A KR20170035827 A KR 20170035827A KR 1020167024863 A KR1020167024863 A KR 1020167024863A KR 20167024863 A KR20167024863 A KR 20167024863A KR 20170035827 A KR20170035827 A KR 20170035827A
Authority
KR
South Korea
Prior art keywords
subband
bits
spectrum
unit
quantization
Prior art date
Application number
KR1020167024863A
Other languages
English (en)
Other versions
KR102165403B1 (ko
Inventor
다쿠야 가와시마
히로유키 에하라
Original Assignee
파나소닉 인텔렉츄얼 프로퍼티 코포레이션 오브 아메리카
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 파나소닉 인텔렉츄얼 프로퍼티 코포레이션 오브 아메리카 filed Critical 파나소닉 인텔렉츄얼 프로퍼티 코포레이션 오브 아메리카
Publication of KR20170035827A publication Critical patent/KR20170035827A/ko
Application granted granted Critical
Publication of KR102165403B1 publication Critical patent/KR102165403B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • G10L19/135Vector sum excited linear prediction [VSELP]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

음향 신호 부호화 장치(100)는, 입력 신호로부터 서브 밴드 스펙트럼을 출력하는 시간 주파수 변환부(101)와, 서브 밴드 에너지 양자화부(102)와, 서브 밴드 스펙트럼의 토널성을 분석하는 토낼리티 계산부(103)와, 토널성의 분석 결과 및 양자화 서브 밴드 에너지에 의거하여, 제2 양자화부에서 양자화하는 제2 서브 밴드를 선택하고, 제1 양자화부에서 양자화하는 제1 서브 밴드에 배분되는 제1 비트수를 결정하는 비트 배분부(104)와, 제1 비트수로 이루어지는 비트를 이용하여 부호화하는 제1 양자화부(106)와, 피치 필터를 이용하여 부호화하는 제2 양자화부(107)와, 다중화부(108)를 가진다.

Description

음향 신호 부호화 장치, 음향 신호 복호 장치, 음향 신호 부호화 방법 및 음향 신호 복호 방법{ACOUSTIC SIGNAL ENCODING DEVICE, ACOUSTIC SIGNAL DECODING DEVICE, METHOD FOR ENCODING ACOUSTIC SIGNAL, AND METHOD FOR DECODING ACOUSTIC SIGNAL}
본 개시는, 음향 신호나 음악 신호 등의 음향 신호의 음질을 개선하는 부호화 기술, 및 복호 기술에 관한다.
음향 신호를 저비트 레이트로 압축하는 부호화 기술은, 이동체 통신에 있어서의 전파 등의 유효 이용을 실현하는 중요한 기술이다. 또한, 근년 통화 음성의 품질 향상에 대한 기대가 높아지고 있고, 현장감이 높은 통화 서비스의 실현이 요구되고 있다. 이것을 실현하기 위해서는, 주파수 대역이 넓은 음향 신호를 고비트 레이트로 부호화하면 된다. 그러나, 이 접근은 전파나 주파수 대역의 유효 이용과 상반된다.
여기서, 예로서 G.719 규격(비특허 문헌 1)에 채용되어 있는 음향 신호 부호화 기술에 대해 검토한다.
G.719 규격에서는, 음향 신호를 부호화할 때에, 음향 신호를 주파수 변환한 스펙트럼에 대해 소정의 비트를 할당한다. 구체적으로는, 스펙트럼을 소정의 주파수 대역폭을 가지는 서브 밴드로 분할하여, 에너지가 큰 서브 밴드로부터 차례로 래티스(lattice) 벡터 양자화에 의해 양자화를 행하기 위한 유닛(필요 비트수의 단위)을 이하와 같이 배분한다.
(1) 전체 서브 밴드 중으로부터 에너지가 최대인 서브 밴드에 1유닛을 배분한다.
1스펙트럼당 1비트씩 배분하므로, 예를 들어 서브 밴드 내의 스펙트럼 샘플수가 8이라면, 1유닛은 8비트가 된다(또한, 1스펙트럼당 배분 가능한 비트수는 최대로 9비트이며, 예를 들어 서브 프레임의 스펙트럼 샘플수가 8이라면 최종적으로 72비트까지 할당이 가능).
(2) 1유닛을 배분한 서브 밴드는, 양자화 서브 밴드 에너지를 2레벨(6dB) 내린다. 만약, 1유닛을 배분한 서브 밴드로의 비트 할당이 최대값(9비트)을 초과하고 있으면, 다음회 이후의 루프에서 양자화 대상으로부터 제외한다.
(3) 상기 (1)로 돌아와 같은 처리를 반복한다.
도 6은, 각 서브 밴드에 있어서의 서브 밴드 에너지를 도시한다. 횡축은 주파수, 종축은 로그 눈금의 진폭을 나타낸다. 도면 중, 서브 밴드 에너지는 점이 아닌 횡선으로 나타나 있는데, 이 하나하나의 폭이, 각 서브 밴드의 주파수 대역폭을 나타내고 있다.
도 7, 도 8은, G.719 규격에서 정해진 부호화 방법을 이용한 경우의 각 서브 밴드로의 비트 배분 결과예를 도시하는 도이다. 각 도의 횡축은 주파수, 종축은 할당된 비트수를 나타낸다. 그리고, 도 7은, 비트 레이트가 128kbit/s, 도 8은, 비트 레이트가 64kbit/s의 경우이다.
128kbit/s의 경우는 할당 가능한 비트 자산이 풍부하게 있으므로, 많은 서브 밴드(스펙트럼)에, 최대값인 9비트를 할당하는 것이 가능하고, 음향 신호를 고품질로 유지할 수 있다.
이에 비해, 64kbit/s의 경우는, 최대값인 9비트가 할당된 서브 밴드가 없어지나, 반대로 비트가 할당되어 있지 않는 서브 밴드도 없어, 음향 신호의 품질의 열화를 억제하면서 전파나 주파수 대역의 유효 이용을 양립할 수 있다고 말할 수 있다.
일본국 특허 공표 2013-534328호 공보 국제 공개 제2005/027095호
ITU-T Standard G. 719, 2008년
그러나, 더욱더 전파나 주파수 대역의 유효 이용을 도모할 필요가 있다. 여기서, G.719 규격에서 채용되어 있는 상기 방법을 이용하여 20kbp/s 이하 정도의 저비트 레이트로 32kHz 정도의 샘플링 주파수의 음향 신호를 부호화하는 경우에는, 모든 서브 밴드를 양자화하기 위한 유닛(비트수)을 확보할 수 없게 된다고 하는 문제가 있다.
도 9는, 20kbit/s에서의 G.719 규격에서 정해진 부호화 방법을 이용한 경우의 각 서브 밴드로의 비트 배분 결과예를 도시하는 도이다. 이와 같이, 고주파수역 부분은 물론, 경우에 따라서는 청각상 중요한 저주파수역 부분에 대해서도 비트를 할당할 수 없게 되는 결과, 그 서브 밴드에 있어서의 스펙트럼은 부호화할 수 없게 되어, 음향 신호의 품질의 열화가 현저해진다.
이에 대해, 비트의 할당 방법을 다이나믹하게 변경하는 방법을 채용하는 것도 생각할 수 있다(특허 문헌 1).
그러나, 부호화 방법(양자화 방법)을 변경하지 않고 단일의 부호화 방법(양자화 방법)에서 비트 할당 방법을 변경함으로써, 음향 신호의 품질 열화의 대책에도 한계가 있다.
본 개시는, 전체의 비트 레이트를 저감시키면서도, 고품질의 음향 신호를 실현하기 위한 부호화 기술 및 복호 기술을 제공한다.
본 개시의 음향 신호 부호화 장치는, 입력 음향 신호를 주파수 영역으로 변환하여 스펙트럼을 생성하고, 스펙트럼을 소정의 주파수 대역마다의 서브 밴드로 분할하여 서브 밴드 스펙트럼을 출력하는 시간 주파수 변환부와, 서브 밴드마다 양자화 서브 밴드 에너지를 구하는 서브 밴드 에너지 양자화부와, 서브 밴드 스펙트럼의 토널(tonal)성을 분석하여 분석 결과를 출력하는 토낼리티 계산부와, 토널성의 분석 결과 및 양자화 서브 밴드 에너지에 의거하여, 서브 밴드 중으로부터 제2 양자화부에서 양자화하는 제2 서브 밴드를 선택하고, 제1 양자화부에서 양자화하는 제1 서브 밴드에 배분되는 제1 비트수를 결정하는, 비트 배분부와, 제1 양자화부 및 제2 양자화부로부터 출력된 부호화 정보, 양자화 서브 밴드 에너지, 및 토널성의 분석 결과를 포함하는 정보를 다중화하고, 출력하는 다중화부를 구성한다. 제1 양자화부는, 제1 서브 밴드에 포함되는 서브 밴드 스펙트럼을, 제1 비트수로 이루어지는 비트를 이용하여 펄스 부호화하고, 제2 양자화부는, 제2 서브 밴드에 포함되는 서브 밴드 스펙트럼을, 피치 필터를 이용하여 부호화한다.
또한, 이들의 포괄적 또는 구체적인 양태는, 시스템, 방법, 집적 회로, 또는 컴퓨터 프로그램으로 실현되어도 되고, 시스템, 장치, 방법, 집적 회로, 및 컴퓨터 프로그램의 임의 조합으로 실현되어도 된다.
본 개시의 부호화 장치, 복호 장치 등에 의하면, 전체의 비트 레이트를 저감시키면서도, 고품질의 음향 신호를 부호화 및 복호할 수 있다.
도 1은 본 개시의 실시 형태 1에 있어서의 부호화 장치의 구성도.
도 2는 본 개시의 실시 형태 1에 있어서의 부호화 장치의 비트 배분부의 상세 구성도.
도 3은 본 개시의 실시 형태 1에 있어서의 부호화 장치의 동작을 도시하는 설명도.
도 4는 본 개시의 실시 형태 2에 있어서의 복호 장치의 구성도.
도 5는 본 개시의 실시 형태 2에 있어서의 복호 장치의 비트 배분부의 상세 구성도.
도 6은 종래 기술의 부호화 장치에 있어서의 서브 밴드 에너지를 설명하는 설명도.
도 7은 종래 기술의 부호화 장치에 있어서의 서브 밴드로의 비트 배분 결과를 설명하는 설명도.
도 8은 종래 기술의 부호화 장치에 있어서의 서브 밴드로의 비트 배분 결과를 설명하는 설명도.
도 9는 종래 기술의 부호화 장치에 있어서의 서브 밴드로의 비트 배분 결과를 설명하는 설명도.
이하, 본 개시의 실시 형태의 구성 및 동작에 대해, 도면을 참조하여 설명한다. 또한, 본 개시의 부호화 장치로의 입력 신호, 및 복호 장치로부터의 출력 신호인 음향 신호는, 음성 신호, 보다 대역이 넓은 음악 신호, 또한 이들이 혼재하는 신호도 포함하는 개념이다.
본 개시에 있어서, 「입력 음향 신호」란, 음악 신호나 음성 신호, 혹은 양자가 혼재한 신호도 포함하는 개념이다. 또, 「양자화 서브 밴드 에너지」란, 서브 밴드 내의 서브 밴드 스펙트럼의 에너지의 총합 또는 평균인 서브 밴드 에너지를 양자화한 것이며, 서브 밴드 에너지는 예를 들어 서브 밴드 내의 서브 밴드 스펙트럼의 제곱합으로 구할 수 있다. 「토널성」이란, 특정의 주파수 성분에 스펙트럼의 피크가 서있는 정도를 말하고, 그 분석 결과는, 수치나 부호 등으로 표현할 수 있다. 「펄스 부호화」란, 펄스를 이용하여 스펙트럼을 근사하는 부호화를 말한다.
「상대적으로 낮다」란, 서브 밴드간을 비교하여 보다 낮은 것을 말하며, 예를 들어 전체 서브 밴드의 평균보다 낮은 경우나, 소정의 값보다 낮은 경우가 이것에 해당한다. 「고주파수역의 서브 밴드」란, 복수의 서브 밴드 중, 고주파수측에 위치하는 서브 밴드를 말한다.
또한, 실시 형태나 특허 청구의 범위에 기재된, 제1 (스펙트럼)양자화부, 제2 (스펙트럼)양자화부, 제1 (스펙트럼)복호부, 제2 (스펙트럼)복호부, 제1 서브 밴드, 제2 서브 밴드, 제3 서브 밴드, 제4 서브 밴드, 제1 비트수, 제2 비트수, 제3 비트수, 제4 비트수는, 각각 카테고리를 의미하는 것이며, 순서를 의미하는 것은 아니다.
(실시 형태 1)
도 1은, 실시 형태 1에 따르는 음향 신호 부호화 장치(100)의 구성, 및 동작을 도시하는 블럭도이다. 도 1에 도시하는 음향 신호 부호화 장치(100)는, 시간-주파수 변환부(101), 서브 밴드 에너지 양자화부(102), 토낼리티 계산부(103), 비트 배분부(104), 정규화부(105), 제1 스펙트럼 양자화부(106), 제2 스펙트럼 양자화부(107), 다중화부(108)에 의해 구성된다. 또, 다중화부(108)에는, 안테나(A)가 접속되어 있다. 그리고, 음향 신호 부호화 장치(100)와 안테나(A)를 합쳐, 단말 장치 또는 기지국 장치를 구성한다.
시간-주파수 변환부(101)는, 시간 영역의 입력 음향 신호를 주파수 영역으로 변환하여 입력 음향 신호 스펙트럼(이하, 「스펙트럼」이라고 한다)을 생성한다. 시간-주파수 변환의 예로서 MDCT(수정 이산 코사인 변환)를 들 수 있는데, 이것에 한정되지 않고, 예를 들어, DCT(이산 코사인 변환), DFT(이산 푸리에 변환), 푸리에 변환 등을 이용해도 된다.
또, 시간-주파수 변환부(101)는, 스펙트럼을 소정의 주파수 대역인 서브 밴드로 분할한다. 소정의 주파수 대역은, 등 간격인 경우 외, 예를 들어 고주파수역에서는 넓게 저주파수역에서는 좁게 하는 등, 상이한 간격이어도 된다.
그리고, 시간-주파수 변환부(101)는, 서브 밴드마다 분할한 스펙트럼을, 서브 밴드 스펙트럼으로서 서브 밴드 에너지 양자화부(102), 토낼리티 계산부(103), 및 정규화부(105)에 출력한다.
서브 밴드 에너지 양자화부(102)는, 서브 밴드마다 서브 밴드 스펙트럼의 에너지인 서브 밴드 에너지를 구하고, 이것을 양자화하여 양자화 서브 밴드 에너지를 구한다. 구체적으로는, 서브 밴드 내의 서브 밴드 스펙트럼의 제곱합으로 서브 밴드 에너지를 구할 수 있는데, 이것에 한정되지 않는다. 예를 들어, 서브 밴드마다 서브 밴드 스펙트럼의 진폭을 적분하여 서브 밴드 에너지를 구할 수 있다. 또, 서브 밴드 에너지를 평균화하는 경우는, 제곱합을 서브 밴드 내의 스펙트럼수(서브 밴드폭)로 제산한다. 그리고, 이와 같이 하여 구한 서브 밴드 에너지를 소정의 단계 폭으로 양자화한다.
그리고, 구한 양자화 서브 밴드 에너지를, 정규화부(105), 및 비트 배분부(104)에 출력함과 더불어, 양자화 서브 밴드 에너지를 부호화한 부호화 양자화 서브 밴드 에너지를 다중화부(108)에 출력한다.
토낼리티 계산부(103)는, 각 서브 밴드에 포함되는 서브 밴드 스펙트럼을 분석하여, 토널성을 판정한다. 토널성이란, 특정의 주파수 성분에 스펙트럼의 피크가 서있는 정도를 말하고, 눈에 띄는 피크가 존재하는 것을 의미하는 피크성을 포함하는 개념이다. 정량적으로는, 예를 들어, 대상으로 하는 서브 밴드 내의 평균 스펙트럼의 진폭과, 그 서브 밴드 내에 존재하는 최대 스펙트럼의 진폭의 비로 구할 수 있고, 이 값이 소정의 역치를 초과하는 경우, 그 서브 밴드의 스펙트럼은 토널성(피크성)을 가진다고 정의한다. 본 실시 형태에서는, 소정의 역치를 초과하고 있는 경우는 피크/토널 플래그로서 1을, 소정의 역치 이하의 경우는 피크/토널 플래그로서 0을 생성하고, 이것을 분석 결과로서 비트 배분부(104), 및 다중화부(108)에 출력한다. 물론, 상기 비를 직접 분석 결과로서 출력해도 된다.
토낼리티 계산부의 의의는 다음과 같다.
저비트 레이트 조건하에 있어서는, 잡음적인 스펙트럼과 같이 스펙트럼의 에너지가 서브 밴드 전체에 분산하고 있는 스펙트럼의 효율적인 양자화에는, 피치 필터에 의거하는 방법(즉, 저주파수역 스펙트럼을 이용하여 고주파수역 스펙트럼을 표현하는 방법)을 이용하는 것이 유효하다. 그러므로, 서브 밴드 내의 스펙트럼의 피크성/토널성의 척도(피크 파워와 평균 파워의 비 등)로부터 서브 밴드 내의 에너지 분산 정도를 판정하여, 피크성/토널성이 높지 않은 스펙트럼의 서브 밴드는 피치 필터에 의거하는 양자화의 대상으로 한다.
비트 배분부(104)는, 서브 밴드마다의 양자화 서브 밴드 에너지, 및 피크/토널 플래그를 참조하여, 각 서브 밴드에 있어서의 서브 밴드 스펙트럼에 대해, 부호화에 이용할 수 있는 총 비트수를 의미하는, 비트 자산으로부터 비트를 할당한다. 구체적으로는, 제1 스펙트럼 양자화부에서 양자화하는 서브 밴드인 제1 서브 밴드에 할당하는 비트수인, 제1 비트수를 계산·결정하고, 이것을 제1 스펙트럼 양자화부(106)에, 배분 비트 정보로서 출력한다. 또, 제2 스펙트럼 양자화부(107)에서 양자화하는 서브 밴드인, 제2 서브 밴드를 선택·특정하고, 이것을 제2 스펙트럼 양자화부(107)에 양자화 모드로서 출력한다.
비트 배분부(104)의 구성 및 동작의 상세는 후술한다.
또한, 비트 배분부(104)는, 본 실시 형태에서는, 피크/토널 플래그 및 서브 밴드마다의 양자화 서브 밴드 에너지 순으로 참조하는데, 참조의 순서는 임의이다.
또, 제2 스펙트럼 양자화부(107)에서 양자화의 대상이 되는 제2 서브 밴드는, 전체 대역을 후보로 해도 되나, 일반적으로 양자화 서브 밴드 에너지가 낮은 대역, 및 토널성이 낮은 대역은, 주로 고주파수역이기 때문에, 특정의 고주파수역에 존재하는 서브 밴드만을 대상으로 해도 된다. 예를 들어, 고주파수역의 4개 또는 5개의 서브 밴드만을 대상으로 할 수 있다.
혹은, 음향 신호는 통상, 저주파수역측이 토널성이 높고, 고주파수역측은 토널성이 낮기 때문에, 실질적으로는 고주파수역측의 서브 밴드가 피치 필터에 의거하는 양자화의 대상이 된다. 이로 인해, 토널성으로 선택된 서브 밴드로부터 고주파수역측은 모두 피치 필터에 의한 양자화의 대상으로 하고, 이 서브 밴드의 번호만을 양자화 모드로서 송신하는 방법이어도 된다.
정규화부(105)는, 입력된 양자화 서브 밴드 에너지로 각 서브 밴드 스펙트럼을 정규화(제산)함으로써, 정규화 서브 밴드 스펙트럼을 생성한다. 이에 의해, 서브 밴드간에서의 진폭의 크기의 차이가 정규화된다. 그리고, 정규화부(105)는, 정규화 서브 밴드 스펙트럼을 제1 스펙트럼 양자화부(106), 및 제2 스펙트럼 양자화부(107)에 출력한다.
또한, 정규화부(105)는 임의의 구성이다.
또, 정규화부(105)는, 본 실시 형태에서는 1개의 구성인데, 제1 스펙트럼 양자화부(106), 및 제2 스펙트럼 양자화부(107)의 각각의 전단에 배치하여 2개로 해도 된다.
제1 스펙트럼 양자화부(106)는, 제1 양자화부의 일 예이며, 비트 배분부(104)에서 배분된 제1 비트수로 이루어지는 비트를 이용하여, 입력된 정규화 서브 밴드 스펙트럼 중 제 1 스펙트럼 양자화부(106)에서 양자화해야 할 제1 서브 밴드에 속하는 서브 밴드 스펙트럼을 양자화한다. 그리고, 양자화의 결과를, 양자화 스펙트럼으로서 제2 스펙트럼 양자화부(107)에 출력함과 더불어, 양자화 스펙트럼을 부호화하여 생성한 제1 부호화 정보를 다중화부(108)에 출력한다.
제1 스펙트럼 양자화부(106)는 펄스 부호부를 이용하는데, 펄스 부호부의 예로서, 래티스 벡터 양자화를 행하는 래티스 벡터 양자화부, 소수의 펄스로 서브 밴드 스펙트럼을 근사하는 펄스 부호화를 행하는 펄스 부호화부를 들 수 있다. 즉, 토널성이 높은 스펙트럼의 양자화에 적절한 양자화 방법, 소수의 펄스로 양자화하는 방법이면, 임의의 양자화부를 이용할 수 있다.
또한, 매우 낮은 비트 레이트에서는, 래티스 벡터 양자화보다 소수의 펄스로 서브 밴드 스펙트럼을 근사하는 펄스 부호화에 의한 양자화가 보다 음질을 유지하는 효과를 기대할 수 있다.
제2 스펙트럼 양자화부(107)는, 제2 양자화부의 일 예이며, 예를 들어 이하와 같은 확장 대역(피치 필터에 의한 예측 모델)에 의한 양자화법을 채택할 수 있다.
여기서, 피치 필터란, 이하의 식 1로 표기되는 처리를 행하는 처리 블록이다.
[수학식 1]
Figure pct00001
일반적으로 피치 필터란, 시간축의 신호에 대해 피치 주기(T)를 강조하는(주파수축 상에서 피치 성분을 강조하는) 필터를 가리키고, 탭수가 1의 경우, 이산 신호 x[i]에 대해 예를 들어 식 1로 표기되는 디지털 필터이다. 그러나, 본 실시 형태에 있어서의 피치 필터는, 식 1로 표기되는 처리를 행하는 처리 블록으로서 정의되며, 반드시 시간축의 신호에 대해 피치 강조를 행하는 것은 아니다.
본 실시 형태에서는, 상기 피치 필터(식 1로 표기되는 처리 블록)를 양자화 MDCT 계수열 Mq[i]에 적용한다. 구체적으로는 식 1에 있어서, x[i]=0(i≥K, K는 부호화 대상으로 하는 MDCT 계수의 주파수 하한), y[i]Mq[i](i<K)로서 y[i](K≤i≤K', K'는 부호화 대상으로 하는 MDCT 계수의 주파수 상한)를 산출한다. 부호화 대상으로 하는 MDCT 계수 Mt[i]와 산출된 y[i]의 오차를 최소로 하는 T를 래그 정보로서 부호화한다. 이러한 피치 필터에 의거하는 스펙트럼 부호화는, 특허 문헌 2 등에 개시되어 있다.
제2 스펙트럼 양자화부(107)는, 양자화 모드를 참조하여 제2 스펙트럼 양자화부(107)에서 양자화해야 할 제2 서브 밴드(정규화 서브 밴드 스펙트럼)를 특정한다. 이것에 의해, 상기 K 및 K'가 특정된다. 그리고, 특정한 제2 서브 밴드(주파수 K~K')에 따르는 정규화 서브 밴드 스펙트럼(상기 Mt[i], K≤i≤K'에 상당)이, 양자화 스펙트럼(상기 Mq[i], i<K에 상당)과의 관계에서 상관이 최대가 되는 양자화 스펙트럼의 서브 밴드 혹은 대역을 탐색하고, 그 위치를 래그 정보(상기 T에 상당)로서 생성한다. 래그 정보는, 서브 밴드나 대역의 절대 위치나 상대 위치, 혹은 서브 밴드의 번호를 예로서 들 수 있다. 그리고, 제2 스펙트럼 양자화부(107)는, 래그 정보를 부호화하고, 제2 부호화 정보로서 다중화부(108)에 출력한다.
또한, 본 실시 형태에서는, 부호화 양자화 서브 밴드 에너지를 다중화부(108)에서 다중화하여 송신하고 있어, 복호부측에서 게인을 생성할 수 있기 때문에, 게인은 부호화하고 있지 않다. 그러나, 게인을 부호화하여 보내도록 해도 된다. 그때는, 양자화해야 할 제2 서브 밴드와 상관이 최대가 되는 양자화 스펙트럼의 서브 밴드 사이의 게인을 산출하고, 제2 스펙트럼 양자화부(107)는, 래그 정보 및 게인을 부호화하여, 제2 부호화 정보로서 다중화부(108)에 출력한다.
또한, 고주파수역의 서브 밴드는 저주파수역의 서브 밴드보다 밴드폭을 넓게 설정하는 것이 일반적인데, 복사되는 저주파수역의 서브 밴드의 일부에 대해, 에너지가 작기 때문에, 래티스 벡터 양자화의 대상이 되지 않는 경우도 있을 수 있다. 이러한 경우에는, 그러한 서브 밴드는 제로 스펙트럼으로 간주하거나, 잡음 부가를 행하여 서브 밴드간의 스펙트럼의 급변을 회피하면 된다.
다중화부(108)는, 양자화 서브 밴드 에너지, 제1 부호화 정보, 제2 부호화 정보, 및 피크/토널 플래그를 다중화하여 부호화 정보로서 안테나(A)에 출력한다.
그리고, 안테나(A)는, 부호화 정보를 음향 신호 복호 장치를 향해 송신한다. 부호화 정보는, 각종 노드나 기지국을 경유하여 음향 신호 복호 장치에 이른다.
다음에, 비트 배분부(104)의 상세에 대해 설명한다.
도 2는, 실시 형태 1에 따르는 음향 신호 부호화 장치(100)의 비트 배분부(104)의 상세한 구성, 및 동작을 도시하는 블럭도이다. 도 2에 도시하는 비트 배분부(104)는, 비트 리저버(111), 비트 리저버(112), 비트 배분 계산부(113), 양자화 모드 결정부(114)로 구성된다.
비트 리저버(111)는, 토낼리티 계산부(103)의 출력인 피크/토널 플래그를 참조하여, 피크/토널 플래그가 0인 경우, 제2 스펙트럼 양자화부(107)에서 행해지는 제2 스펙트럼 양자화에 필요한 비트수를 확보한다.
본 실시 형태에서는, 피치 필터에 의거하여, 래그 정보의 부호화에 필요한 비트수를 확보한다. 그리고, 확보된 비트수는, 양자화에 이용할 수 있는 총 비트수인 비트 자산으로부터 제외되고, 남은 비트 자산이 비트 리저버(112)에 출력된다. 또한, 비트 자산은 서브 밴드 에너지 양자화부(102)로부터 공급되고 있는데, 이것은 양자화 서브 밴드 에너지를 가변 길이 부호화하기 위해 필요한 비트수를 제외한 비트가, 제1 스펙트럼 양자화부(106), 제2 스펙트럼 양자화부(107), 및 피크/토널 플래그의 양자화(부호화)에 이용할 수 있는 것을 표현한 것이다. 서브 밴드 에너지 양자화부(102)가 비트 자산의 정보를 생성한다고는 할 수 없다.
비트 리저버(112)는, 피크/토널 플래그에 이용하는 비트수를 확보한다. 예를 들어, 본 실시 형태에서는, 피크/토널 플래그를 고주파수역의 5서브 밴드로 보내므로, 비트 리저버(112)는 5비트를 확보한다.
그리고, 비트 리저버(112)는, 비트 리저버(111)로부터 입력된 비트 자산으로부터 비트 리저버(112)로 확보된 비트수를 제외한 비트수를, 적응 비트 배분부 중의 비트 배분 계산부(113)에 출력한다. 또한, 비트 리저버(111) 및 비트 리저버(112)로 확보된 비트수의 합계가, 제3 비트수가 된다. 또, 피크/토널 플래그가 제로인 서브 밴드가, 제3 서브 밴드에 해당한다.
또한, 비트 리저버(111)와 비트 리저버(112)는 순서를 바꿔 넣어도 된다. 또, 본 실시 형태에서는, 비트 리저버(111)와 비트 리저버(112) 블록을 나누고 있는데, 이것을 하나의 블록에서 동시에 행해도 된다. 혹은, 이들 동작을, 비트 배분 계산부(113) 중에서 행해도 된다.
비트 배분 계산부(113)는, 제1 스펙트럼 양자화부(106)에서 양자화하는 서브 밴드로의 비트 배분을 계산한다. 구체적으로는, 우선, 비트 리저버(112)로부터 출력된 비트수를, 양자화 서브 밴드 에너지를 참조하여 각 서브 밴드에 배분한다. 배분 방법은, 종래 기술의 항에서 설명한 대로, 양자화 서브 밴드 에너지의 대소로 청각적으로 중요한지의 여부를 판단하여, 중요하다고 생각해지는 서브 밴드에 비트 배분을 중점적으로 행한다. 결과적으로, 양자화 서브 밴드 에너지가 제로, 또는 제로 및 소정의 값보다 낮은 서브 밴드에 비트가 배분되지 않는다.
또, 배분시, 입력되는 피크/토널 플래그를 참조하여, 피크/토널 플래그가 0인 서브 밴드(제3 서브 밴드)는 비트 배분의 대상으로부터 제외한다. 즉, 피크성이 높은 서브 밴드(여기에서는 피크/토널 플래그가 1로 설정되어 있는 서브 밴드)만을 비트 배분의 대상 서브 밴드로서 비트를 배분해 나간다. 그리고, 비트가 배분되어야 할 서브 밴드(제1 서브 밴드)를 특정함과 더불어 각 서브 밴드에 배분되는 비트수를 합하여 배분 비트 정보로 하고, 이것을 우선 양자화 모드 결정부(114)에 출력한다.
양자화 모드 결정부(114)는, 비트 배분 계산부(113)로부터 출력된 배분 비트 정보 및 피크/토널 플래그를 수신한다. 그리고, 토널성이 높지만(제1 스펙트럼 양자화부(106)의 양자화 대상인) 비트 배분되어 있지 않은 고주파수역 서브 밴드가 있는 경우는, 이 서브 밴드는 제2 스펙트럼 양자화부(107)에서 양자화하는 서브 밴드(제4 서브 밴드)로 다시 정의하고, 제2 스펙트럼 양자화부에서의 양자화에 필요한 비트수(제4 비트수)를 배분 비트 정보로부터 감산하기 위해 비트 배분 계산부(113)에 출력한다. 즉, 그 대역에 제2 스펙트럼 양자화부(107)에서 양자화하는데 필요한 비트수를 할당하고, 그 할당한 비트수(제4 비트수)를 출력한다. 이것을 대신하여, 할당한 비트수만큼 제1 스펙트럼 양자화부(106)에서 사용할 수 있는 비트 자산으로부터 빼고, 이것을 비트 배분 계산부(113)에 출력해도 된다.
또, 양자화 모드 결정부(114)는, 제2 스펙트럼 양자화부(107)에서 양자화하는 서브 밴드를 특정하고, 이것을 제2 스펙트럼 양자화부(107)에 양자화 모드로서 출력한다. 구체적으로는, 토낼리티가 낮은(피크/토널 플래그가 0인) 고주파수역 서브 밴드(제3 서브 밴드), 및 비트가 배분되어 있지 않은 고주파수역 서브 밴드(제4 서브 밴드)를, 제2 스펙트럼 양자화부(107)에서 양자화하는 서브 밴드(제2 서브 밴드)로 정하고, 양자화 모드로서 출력한다.
다시 비트 배분 계산부(113)에 있어서, 비트 리저버(112)로부터 입력된 비트수(비트 자산)로부터 양자화 모드 결정부(114)로부터 수신한 비트수(제4 비트수)를 뺌으로써 비트 자산을 갱신하고, 제1 스펙트럼 양자화부(106)에서 양자화하는 서브 밴드로의 비트 배분을 재계산한다. 갱신된 비트 자산을 양자화 모드 결정부로부터 수취하는 경우는, 갱신된 비트 자산을 이용하여, 제1 스펙트럼 양자화부(106)에서 양자화하는 서브 밴드로의 비트 배분을 재계산한다. 최종적으로, 제1 비트수는, 총 비트수(비트 자산)로부터, 제3 비트수 및 제4 비트수를 뺀 값이 된다.
그리고, 재계산 후의 비트수(제1 비트수) 및 제1 스펙트럼 양자화부(106)에서 양자화하는 서브 밴드(제1 서브 밴드)의 정보를, 배분 비트 정보로서, 이번에는 제1 스펙트럼 양자화부(106)에 출력한다.
또한, 제1회째에 비트 배분 계산부(113)에서 비트 배분을 계산한 결과, 어떤 서브 밴드도 비트 배분되고 있는 등 재계산의 필요가 없는 경우는, 직접 배분 비트 정보를 제1 스펙트럼 양자화부(106)에 출력해도 된다.
도 3은, 실시 형태 1에 따르는 음향 신호 부호화 장치(100)의 동작, 구체적으로는, 비트 배분부(104)의 동작을 나타내는 흐름도이다.
우선, 비트 배분부(104)는, 서브 밴드 에너지 양자화부(102)로부터, 양자화 서브 밴드 에너지를 취득한다(S1).
다음에, 비트 배분부(104)는, 고주파수역에 있어서의 피크/토널 플래그를 토낼리티 계산부(103)로부터 취득한다(S2).
그리고, 비트 배분부(104)는, 피크/토널 플래그에 의거하여, 제2 스펙트럼 양자화부(107)에서 양자화해야 할 서브 밴드(제3 서브 밴드)를 특정함과 더불어, 비트 리저버(111) 및 비트 리저버(112)에 있어서, 제2 스펙트럼 양자화부(107)에서 양자화하기 위한 비트(제3 비트수)를 확보한다(S3).
비트 배분부(104)는, 비트 배분 계산부(113)에 있어서, 양자화 서브 밴드 에너지에 의거하여, 제1 스펙트럼 양자화부(106)의 양자화 대상으로 되어 있는 서브 밴드로 배분하는 비트수를 결정한다(S4).
비트 배분부(104)는, 양자화 모드 결정부(114)에 있어서, 비트 배분 계산부(113)에서 결정된 고주파수역 서브 밴드로의 배분 비트를 체크하고, 필요에 따라 제2 스펙트럼 양자화부(107)에서 양자화해야 할 서브 밴드(제2 서브 밴드)를 재특정하며, 제1 서브 밴드 양자화부(106)를 위한 비트 자산을 갱신한다(S5).
그리고, 마지막으로, 비트 배분부(104)는, 다시 비트 배분 계산부(113)에 있어서, 갱신한 비트 자산을 이용하여, 제1 스펙트럼 양자화부(106)로의 비트 배분(제1 비트수)을 재계산한다(S6).
이상, 본 실시 형태의 음향 신호 부호화 장치에 의하면, 전체의 비트 레이트를 저감시키면서도, 고품질의 음향 신호의 부호화를 실현할 수 있다.
특히, 도 2, 도 3의 구성, 및 동작에 의하면, 서브 밴드폭이 특히 넓어지는 고주파수역에, 양자화를 하지 않는(비트 배분이 0이 되는) 서브 밴드를 발생시키는 일 없이, 제1 양자화부에서 양자화하는 서브 밴드수를 최대로 하는 비트 배분을 실현할 수 있다. 따라서, 한정된 비트 레이트에 있어서 베스트 퍼포먼스를 끌어낼 수 있는, 적응 비트 배분을 실현할 수 있다.
(실시 형태 2)
도 4는, 실시 형태 2에 따르는 음향 신호 복호 장치(200)의 구성, 및 동작을 도시하는 블럭도이다. 도 4에 도시하는 음향 신호 복호 장치(200)는, 분리부(201), 서브 밴드 에너지 복호부(202), 비트 배분부(203), 제1 스펙트럼 복호부(204), 제2 스펙트럼 복호부(205), 역정규화부(206), 주파수-시간 변환부(207)에 의해 구성된다. 또, 분리부(201)에는, 안테나(A)가 접속되어 있다. 그리고, 음향 신호 복호 장치(200) 및 안테나(A)를 합쳐, 단말 장치 또는 기지국 장치를 구성한다.
분리부(201)는, 안테나(A)로 수신된 부호화 정보를 수신하고, 부호화 양자화 서브 밴드 에너지, 제1 부호화 정보, 제2 부호화 정보, 및 피크/토널 플래그를 분리한다. 그리고, 부호화 양자화 서브 밴드 에너지는 서브 밴드 에너지 복호부(202), 제1 부호화 정보는 제1 스펙트럼 복호부(204), 제2 부호화 정보는 제2 스펙트럼 복호부(205), 그리고 피크/토널 플래그는 비트 배분부(203)로 출력된다.
서브 밴드 에너지 복호부(202)는, 부호화 양자화 서브 밴드 에너지를 복호하여, 복호 양자화 서브 밴드 에너지를 생성하고, 비트 배분부(203) 및 역정규화부(206)에 출력된다.
비트 배분부(203)는, 서브 밴드마다의 복호 양자화 서브 밴드 에너지, 및 피크/토널 플래그를 참조하여, 제1 스펙트럼 복호부(204) 및 제2 스펙트럼 복호부(205)에서 할당하는 비트의 배분을 결정한다. 구체적으로는, 제1 스펙트럼 복호부(204)에서 제1 부호화 정보를 복호했을 때에 할당하는 비트수(제1 비트수) 및 비트가 할당되는 서브 밴드(제1 서브 밴드)를 결정하고, 배분 비트 정보로서 출력함과 더불어, 제2 스펙트럼 복호부(205)에서 복호되는 제2 부호화 정보가 복호되어야 할 서브 밴드(제2 서브 밴드)를 특정·선택하며, 이것을 제2 스펙트럼 복호부(205)에 양자화 모드로서 출력한다.
비트 배분부(203)는, 도 5에 도시한 대로, 부호화 장치측에서 설명한 비트 배분부(104)의 구성 및 동작과 같으므로, 동작의 상세는 부호화 장치측의 비트 배분부(104)의 설명을 인용한다.
제1 스펙트럼 복호부(204)는, 배분 비트 정보에 나타난 제1 비트수를 이용하여 제1 부호화 정보를 복호해 제1 복호 스펙트럼을 생성하고, 제2 스펙트럼 복호부(205)에 출력한다.
제2 스펙트럼 복호부(205)는, 양자화 모드에서 특정된 서브 밴드에 제1 복호 스펙트럼을 이용하여 제2 부호화 정보를 복호해 제2 복호 스펙트럼을 생성하고, 상기 제2 복호 스펙트럼과 제1 복호 스펙트럼을 결합하여 재생 스펙트럼을 생성하고, 출력한다.
역정규화부(206)는, 복호 양자화 서브 밴드 에너지를 참조하여 재생 스펙트럼의 진폭(게인)을 조정하고, 이것을 주파수-시간 변환부(207)에 출력한다.
주파수-시간 변환부(207)는, 주파수 영역의 재생 스펙트럼을 시간 영역의 출력 음향 신호로 변환하여 출력한다. 주파수-시간 변환의 예로서, 주파수-시간으로 든 변환의 역변환을 들 수 있다.
이상, 본 실시 형태의 음향 신호 복호 장치에 의하면, 전체의 비트 레이트를 저감시키면서도, 고품질의 음향 신호의 복호를 실현할 수 있다.
(총괄)
이상, 실시 형태 1, 2에서 본 개시의 음향 신호 부호화 장치 및 음향 신호 복호 장치를 설명했다. 본 개시의 부호화 장치 및 복호 장치는, 시스템 보드나 반도체 소자로 대표되는 반완성품이나 부품 레벨의 형태여도 되고, 단말 장치나 기지국 장치와 같은 완성품 레벨의 형태도 포함하는 개념이다. 본 개시의 부호화 장치 및 복호 장치가 반완성품이나 부품 레벨의 형태인 경우는, 안테나, DA/AD 컨버터, 증폭부, 스피커, 및 마이크 등과 조합함으로써 완성품 레벨의 형태가 된다.
또한, 도 1, 도 2, 도 4, 도 5의 블럭도는, 전용으로 설계된 하드웨어의 구성 및 동작(방법)을 나타냄과 더불어, 범용의 하드웨어에 본 개시의 동작(방법)을 실행하기 위한 프로그램을 인스톨하여 프로세서로 실행함으로써 실현되는 경우도 포함한다. 범용의 하드웨어인 전자 계산기로서, 예를 들어 퍼스널 컴퓨터, 스마트 폰 등의 각종 휴대 정보 단말, 및 휴대 전화 등을 들 수 있다.
또, 전용으로 설계된 하드웨어는, 휴대 전화나 고정 전화 등의 완성품 레벨(컨슈머 엘렉트로닉스)에 한정하지 않고, 시스템 보드나 반도체 소자 등, 반완성품이나 부품 레벨도 포함하는 것이다.
산업상의 이용 가능성
본 개시에 따르는 음향 신호 부호화 장치 및 음향 신호 복호 장치는, 음향 신호의 기록, 전송, 재생에 관계하는 기부(機部)에 응용이 가능하다.
100: 음향 신호 부호화 장치 101: 시간-주파수 변환부
102: 서브 밴드 에너지 양자화부 103: 토낼리티 계산부
104: 비트 배분부 105: 정규화부
106: 제1 스펙트럼 양자화부 107: 제2 스펙트럼 양자화부
108: 다중화부 111: 비트 리저버
112: 비트 리저버 113: 비트 배분 계산부
114: 양자화 모드 결정부 200: 음향 신호 복호 장치
201: 분리부 202: 서브 밴드 에너지 복호부
203: 비트 배분부 204: 제1 스펙트럼 복호부
205: 제2 스펙트럼 복호부 206: 역정규화부
207: 주파수-시간 변환부 211: 비트 리저버
212: 비트 리저버 213: 비트 배분 계산부
214: 양자화 모드 결정부

Claims (14)

  1. 입력 음향 신호를 주파수 영역으로 변환하여 스펙트럼을 생성하고, 상기 스펙트럼을 소정의 주파수 대역마다의 서브 밴드로 분할하여 서브 밴드 스펙트럼을 출력하는 시간 주파수 변환부와,
    상기 서브 밴드마다 양자화 서브 밴드 에너지를 구하는 서브 밴드 에너지 양자화부와,
    상기 서브 밴드 스펙트럼의 토널(tonal)성을 분석하여 분석 결과를 출력하는 토낼리티 계산부와,
    상기 토널성의 분석 결과 및 상기 양자화 서브 밴드 에너지에 의거하여, 상기 서브 밴드 중으로부터 제2 양자화부에서 양자화하는 제2 서브 밴드를 선택하고, 제1 양자화부에서 양자화하는 제1 서브 밴드에 배분되는 제1 비트수를 결정하는, 비트 배분부와,
    상기 제1 양자화부 및 상기 제2 양자화부로부터 출력된 부호화 정보, 상기 양자화 서브 밴드 에너지, 및 상기 토널성의 분석 결과를 포함하는 정보를 다중화하고, 출력하는 다중화부를 구비하며,
    상기 제1 양자화부는, 상기 제1 서브 밴드에 포함되는 서브 밴드 스펙트럼을, 상기 제1 비트수로 이루어지는 비트를 이용하여 펄스 부호화하고,
    상기 제2 양자화부는, 상기 제2 서브 밴드에 포함되는 서브 밴드 스펙트럼을, 피치 필터를 이용하여 부호화하는, 음향 신호 부호화 장치.
  2. 청구항 1에 있어서,
    상기 비트 배분부는,
    고주파수역의 상기 서브 밴드로부터 상기 제2 서브 밴드를 선택하는, 음향 신호 부호화 장치.
  3. 청구항 2에 있어서,
    상기 비트 배분부는,
    상기 토널성이 소정의 역치보다 낮은 상기 서브 밴드를, 상기 제2 서브 밴드로서 선택하는, 음향 신호 부호화 장치.
  4. 청구항 2에 있어서,
    상기 비트 배분부는,
    상기 양자화 서브 밴드 에너지가 제로 또는 소정의 값보다 낮은 상기 서브 밴드를, 상기 제2 서브 밴드로서 선택하는, 음향 신호 부호화 장치.
  5. 청구항 1에 있어서,
    상기 비트 배분부는,
    양자화에 이용할 수 있는 총 비트수로부터, 상기 제2 서브 밴드에 배분되는 제2 비트수를 뺀 것을, 상기 제1 비트수로서 결정하는, 음향 신호 부호화 장치.
  6. 청구항 5에 있어서,
    상기 비트 배분부는,
    상기 총 비트수 중으로부터, 상기 토널성의 분석 결과에 의거하여 선택된 제3 서브 밴드에 배분되는 제3 비트수를 계산하고,
    상기 총 비트수로부터 상기 제3 비트수를 뺀 비트수를 상기 양자화 서브 밴드 에너지에 의거하여 상기 제1 서브 밴드에 할당했을 때에, 비트가 할당되지 않는 상기 서브 밴드를 제4 서브 밴드로서 선택하며, 상기 제4 서브 밴드를 상기 제2 양자화부에서 부호화하는 경우에 배분되는 제4 비트수를 계산하고,
    상기 제3 서브 밴드 및 상기 제4 서브 밴드를 상기 제2 양자화부에서 양자화하는 상기 제2 서브 밴드로서 새롭게 선택하며, 상기 총 비트수로부터 상기 제3 비트수 및 상기 제4 비트수를 뺀 비트수를 상기 제1 양자화부에서 양자화하는 상기 제1 서브 밴드에 배분하는 상기 제1 비트수로서 결정하는, 음향 신호 부호화 장치.
  7. 청구항 1에 있어서,
    상기 토낼리티 계산부의 분석 결과는, 토널성이 소정의 역치보다 높은지 여부를 나타내는 플래그로서 출력되는, 음향 신호 부호화 장치.
  8. 음향 신호 부호화 장치로부터 출력된 부호화 정보를 복호하는 음향 신호 복호 장치로서,
    상기 부호화 정보를, 제1 부호화 정보, 제2 부호화 정보, 서브 밴드마다 구해진 에너지가 양자화된 양자화 서브 밴드 에너지, 및 서브 밴드마다 계산되는 토널성의 분석 결과로 분리하는 분리부와,
    상기 토널성의 분석 결과 및 상기 양자화 서브 밴드 에너지에 의거하여, 상기 서브 밴드 중으로부터 제2 복호부에서 복호하는 상기 제2 서브 밴드를 선택하고, 제1 복호부에서 복호하는 제1 서브 밴드에 배분되는 상기 제1 비트수를 결정하는 비트 배분부와,
    상기 제2 복호부로부터 출력되는 스펙트럼을 시간 영역으로 변환하여 출력 음향 신호를 생성하고 출력하는 주파수 시간 변환부를 구비하며,
    상기 제1 복호부는, 상기 제1 부호화 정보를, 상기 제1 비트수로 이루어지는 비트를 이용하여 복호함으로써 제1 복호 스펙트럼을 생성하고,
    상기 제2 복호부는, 상기 제2 부호화 정보를 복호하여 제2 복호 스펙트럼을 생성하며, 상기 제2 복호 스펙트럼과 상기 제1 복호 스펙트럼을 이용하여 복호함으로써 재생 스펙트럼을 생성하는, 음향 신호 복호 장치.
  9. 청구항 1에 기재된 음향 신호 부호화 장치와,
    상기 부호화 정보를 송신하는 안테나를 가지는, 단말 장치.
  10. 청구항 1에 기재된 음향 신호 부호화 장치와,
    상기 부호화 정보를 송신하는 안테나를 가지는, 기지국 장치.
  11. 상기 부호화 정보를 수신하여 상기 분리부에 출력하는 안테나와,
    청구항 8에 기재된 음향 신호 복호 장치를 가지는, 단말 장치.
  12. 상기 부호화 정보를 수신하여 상기 분리부에 출력하는 안테나와,
    청구항 8에 기재된 음향 신호 복호 장치를 가지는, 기지국 장치.
  13. 입력 음향 신호를 주파수 영역으로 변환하여 스펙트럼을 생성하고,
    상기 스펙트럼을 소정의 주파수 대역마다의 서브 밴드로 분할하여 서브 밴드 스펙트럼을 출력하며,
    상기 서브 밴드마다 양자화 서브 밴드 에너지를 구하고,
    상기 서브 밴드 스펙트럼의 토널성을 분석하여 분석 결과를 출력하며,
    상기 토널성의 분석 결과 및 상기 양자화 서브 밴드 에너지에 의거하여, 상기 서브 밴드 중으로부터 제2 서브 밴드를 선택하고,
    제1 서브 밴드에 배분되는 제1 비트수를 결정하며,
    상기 제1 서브 밴드에 포함되는 상기 서브 밴드 스펙트럼을, 상기 제1 비트수로 이루어지는 비트를 이용하여 부호화해 제1 부호화 정보를 생성하고,
    상기 제2 서브 밴드에 포함되는 상기 서브 밴드 스펙트럼을, 피치 필터를 이용하여 부호화해 제2 부호화 정보를 생성하며,
    상기 제1 부호화 정보 및 상기 제2 부호화 정보를 다중화하여 출력하는, 음향 신호 부호화 방법.
  14. 음향 신호 부호화 장치로부터 출력된 부호화 정보를 복호하는 음향 신호 복호 방법으로서,
    상기 부호화 정보를, 제1 부호화 정보, 제2 부호화 정보, 서브 밴드마다 구해진 에너지가 양자화된 양자화 서브 밴드 에너지, 및 서브 밴드마다 계산되는 토널성의 분석 결과로 분리하고,
    상기 토널성의 분석 결과 및 상기 양자화 서브 밴드 에너지에 의거하여, 상기 서브 밴드 중으로부터 제2 서브 밴드를 선택하며,
    제1 서브 밴드에 배분되는 제1 비트수를 결정하고,
    상기 제1 부호화 정보를, 상기 제1 비트수로 이루어지는 비트를 이용하여 복호해 제1 복호 스펙트럼을 생성하며,
    상기 제2 부호화 정보를 복호하여 제2 복호 스펙트럼을 생성하고, 상기 제2 복호 스펙트럼과 상기 제1 복호 스펙트럼을 이용하여 복호해 재생 스펙트럼을 생성하며,
    상기 재생 스펙트럼을 시간 영역으로 변환하여 출력 음향 신호를 생성하고 출력하는, 음향 신호 복호 방법.
KR1020167024863A 2014-07-25 2015-07-03 음향 신호 부호화 장치, 음향 신호 복호 장치, 음향 신호 부호화 방법 및 음향 신호 복호 방법 KR102165403B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201462028805P 2014-07-25 2014-07-25
US62/028,805 2014-07-25
JPJP-P-2014-219214 2014-10-28
JP2014219214 2014-10-28
PCT/JP2015/003358 WO2016013164A1 (ja) 2014-07-25 2015-07-03 音響信号符号化装置、音響信号復号装置、音響信号符号化方法および音響信号復号方法

Publications (2)

Publication Number Publication Date
KR20170035827A true KR20170035827A (ko) 2017-03-31
KR102165403B1 KR102165403B1 (ko) 2020-10-14

Family

ID=55162710

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020167024863A KR102165403B1 (ko) 2014-07-25 2015-07-03 음향 신호 부호화 장치, 음향 신호 복호 장치, 음향 신호 부호화 방법 및 음향 신호 복호 방법

Country Status (13)

Country Link
US (3) US10311879B2 (ko)
EP (3) EP3413307B1 (ko)
JP (1) JP6717746B2 (ko)
KR (1) KR102165403B1 (ko)
CN (2) CN106133831B (ko)
AU (1) AU2015291897B2 (ko)
BR (1) BR112017000629B1 (ko)
CA (1) CA2958429C (ko)
MX (1) MX356371B (ko)
PL (2) PL3174050T3 (ko)
RU (1) RU2669706C2 (ko)
SG (1) SG11201701197TA (ko)
WO (1) WO2016013164A1 (ko)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106463143B (zh) 2014-03-03 2020-03-13 三星电子株式会社 用于带宽扩展的高频解码的方法及设备
SG11201609834TA (en) 2014-03-24 2016-12-29 Samsung Electronics Co Ltd High-band encoding method and device, and high-band decoding method and device
JP6611042B2 (ja) * 2015-12-02 2019-11-27 パナソニックIpマネジメント株式会社 音声信号復号装置及び音声信号復号方法
US10586546B2 (en) 2018-04-26 2020-03-10 Qualcomm Incorporated Inversely enumerated pyramid vector quantizers for efficient rate adaptation in audio coding
US10573331B2 (en) * 2018-05-01 2020-02-25 Qualcomm Incorporated Cooperative pyramid vector quantizers for scalable audio coding
US10734006B2 (en) 2018-06-01 2020-08-04 Qualcomm Incorporated Audio coding based on audio pattern recognition
BR112021025420A2 (pt) * 2019-07-08 2022-02-01 Voiceage Corp Método e sistema para codificar metadados em fluxos de áudio e para adaptação de taxa de bits intraobjeto e interobjeto flexível
EP3786948A1 (en) * 2019-08-28 2021-03-03 Fraunhofer Gesellschaft zur Förderung der Angewand Time-varying time-frequency tilings using non-uniform orthogonal filterbanks based on mdct analysis/synthesis and tdar
CN113192517B (zh) 2020-01-13 2024-04-26 华为技术有限公司 一种音频编解码方法和音频编解码设备
WO2021244417A1 (zh) * 2020-05-30 2021-12-09 华为技术有限公司 一种音频编码方法和音频编码装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5870703A (en) * 1994-06-13 1999-02-09 Sony Corporation Adaptive bit allocation of tonal and noise components
WO2005027095A1 (ja) 2003-09-16 2005-03-24 Matsushita Electric Industrial Co., Ltd. 符号化装置および復号化装置
JP2013534328A (ja) 2010-07-30 2013-09-02 クゥアルコム・インコーポレイテッド ダイナミックなビット割り当てのためのシステム、方法、装置およびコンピュータ読取り可能媒体

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3283413B2 (ja) 1995-11-30 2002-05-20 株式会社日立製作所 符号化復号方法、符号化装置および復号装置
JP3157116B2 (ja) * 1996-03-29 2001-04-16 三菱電機株式会社 音声符号化伝送システム
US7389227B2 (en) * 2000-01-14 2008-06-17 C & S Technology Co., Ltd. High-speed search method for LSP quantizer using split VQ and fixed codebook of G.729 speech encoder
US7333930B2 (en) * 2003-03-14 2008-02-19 Agere Systems Inc. Tonal analysis for perceptual audio coding using a compressed spectral representation
US7844451B2 (en) 2003-09-16 2010-11-30 Panasonic Corporation Spectrum coding/decoding apparatus and method for reducing distortion of two band spectrums
DE102004007184B3 (de) * 2004-02-13 2005-09-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Vorrichtung zum Quantisieren eines Informationssignals
DE102004007200B3 (de) * 2004-02-13 2005-08-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audiocodierung
JP2005265865A (ja) * 2004-02-16 2005-09-29 Matsushita Electric Ind Co Ltd オーディオ符号化のためのビット割り当て方法及び装置
JP4168976B2 (ja) * 2004-05-28 2008-10-22 ソニー株式会社 オーディオ信号符号化装置及び方法
US7562021B2 (en) * 2005-07-15 2009-07-14 Microsoft Corporation Modification of codewords in dictionary used for efficient coding of digital media spectral data
BRPI0721079A2 (pt) * 2006-12-13 2014-07-01 Panasonic Corp Dispositivo de codificação, dispositivo de decodificação e método dos mesmos
JP5403949B2 (ja) 2007-03-02 2014-01-29 パナソニック株式会社 符号化装置および符号化方法
KR101355376B1 (ko) 2007-04-30 2014-01-23 삼성전자주식회사 고주파수 영역 부호화 및 복호화 방법 및 장치
EP2077551B1 (en) 2008-01-04 2011-03-02 Dolby Sweden AB Audio encoder and decoder
CN101853663B (zh) * 2009-03-30 2012-05-23 华为技术有限公司 比特分配方法、编码装置及解码装置
CN102063905A (zh) * 2009-11-13 2011-05-18 数维科技(北京)有限公司 一种用于音频解码的盲噪声填充方法及其装置
US20130030796A1 (en) * 2010-01-14 2013-01-31 Panasonic Corporation Audio encoding apparatus and audio encoding method
CN102194458B (zh) * 2010-03-02 2013-02-27 中兴通讯股份有限公司 频带复制方法、装置及音频解码方法、系统
US8660195B2 (en) * 2010-08-10 2014-02-25 Qualcomm Incorporated Using quantized prediction memory during fast recovery coding
CN104737227B (zh) 2012-11-05 2017-11-10 松下电器(美国)知识产权公司 语音音响编码装置、语音音响解码装置、语音音响编码方法和语音音响解码方法
KR102200643B1 (ko) 2012-12-13 2021-01-08 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 음성 음향 부호화 장치, 음성 음향 복호 장치, 음성 음향 부호화 방법 및 음성 음향 복호 방법
MX343673B (es) * 2013-04-05 2016-11-16 Dolby Int Ab Codificador y decodificador de audio.
US9940942B2 (en) * 2013-04-05 2018-04-10 Dolby International Ab Advanced quantizer
CN111710342B (zh) 2014-03-31 2024-04-16 弗朗霍弗应用研究促进协会 编码装置、解码装置、编码方法、解码方法及程序

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5870703A (en) * 1994-06-13 1999-02-09 Sony Corporation Adaptive bit allocation of tonal and noise components
WO2005027095A1 (ja) 2003-09-16 2005-03-24 Matsushita Electric Industrial Co., Ltd. 符号化装置および復号化装置
JP2013534328A (ja) 2010-07-30 2013-09-02 クゥアルコム・インコーポレイテッド ダイナミックなビット割り当てのためのシステム、方法、装置およびコンピュータ読取り可能媒体

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ITU-T Standard G. 719, 2008년
Low-complexity, full-band audio coding for high-quality, conversational applications. Recommendation ITU-T G.719. 2008.06.* *

Also Published As

Publication number Publication date
EP3413307A1 (en) 2018-12-12
US11521625B2 (en) 2022-12-06
US10643623B2 (en) 2020-05-05
AU2015291897A1 (en) 2017-03-09
CA2958429C (en) 2020-03-10
EP3174050B1 (en) 2018-11-14
US20200219518A1 (en) 2020-07-09
CN106133831A (zh) 2016-11-16
MX356371B (es) 2018-05-25
BR112017000629B1 (pt) 2021-02-17
EP3174050A4 (en) 2017-05-31
SG11201701197TA (en) 2017-03-30
US10311879B2 (en) 2019-06-04
MX2016015786A (es) 2017-02-27
EP3723086A1 (en) 2020-10-14
EP3174050A1 (en) 2017-05-31
AU2015291897B2 (en) 2019-02-21
PL3174050T3 (pl) 2019-04-30
RU2017102311A (ru) 2018-08-27
JPWO2016013164A1 (ja) 2017-04-27
WO2016013164A1 (ja) 2016-01-28
US20170069328A1 (en) 2017-03-09
EP3723086B1 (en) 2024-09-11
CN106133831B (zh) 2021-10-26
CN114023341A (zh) 2022-02-08
RU2017102311A3 (ko) 2018-08-27
KR102165403B1 (ko) 2020-10-14
EP3413307B1 (en) 2020-07-15
PL3413307T3 (pl) 2021-01-11
US20190228783A1 (en) 2019-07-25
RU2669706C2 (ru) 2018-10-15
BR112017000629A2 (pt) 2017-11-14
CA2958429A1 (en) 2016-01-28
JP6717746B2 (ja) 2020-07-01

Similar Documents

Publication Publication Date Title
KR102165403B1 (ko) 음향 신호 부호화 장치, 음향 신호 복호 장치, 음향 신호 부호화 방법 및 음향 신호 복호 방법
US10685660B2 (en) Voice audio encoding device, voice audio decoding device, voice audio encoding method, and voice audio decoding method
US11232803B2 (en) Encoding device, decoding device, encoding method, decoding method, and non-transitory computer-readable recording medium
JP2018205766A (ja) 方法、符号化器、復号化器、及び移動体機器
CN111370008B (zh) 解码装置、编码装置、解码方法、编码方法、终端装置、以及基站装置
JP6957444B2 (ja) 音響信号符号化装置、音響信号復号装置、音響信号符号化方法および音響信号復号方法
JP2001100796A (ja) オーディオ信号符号化装置

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant