KR20150095702A - 음성 음향 부호화 장치, 음성 음향 복호 장치, 음성 음향 부호화 방법 및 음성 음향 복호 방법 - Google Patents

음성 음향 부호화 장치, 음성 음향 복호 장치, 음성 음향 부호화 방법 및 음성 음향 복호 방법 Download PDF

Info

Publication number
KR20150095702A
KR20150095702A KR1020157016672A KR20157016672A KR20150095702A KR 20150095702 A KR20150095702 A KR 20150095702A KR 1020157016672 A KR1020157016672 A KR 1020157016672A KR 20157016672 A KR20157016672 A KR 20157016672A KR 20150095702 A KR20150095702 A KR 20150095702A
Authority
KR
South Korea
Prior art keywords
group
energy
bits
envelope
spectrum
Prior art date
Application number
KR1020157016672A
Other languages
English (en)
Other versions
KR102200643B1 (ko
Inventor
종시안 리우
스리칸쓰 나지세티
마사히로 오시키리
Original Assignee
파나소닉 인텔렉츄얼 프로퍼티 코포레이션 오브 아메리카
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 파나소닉 인텔렉츄얼 프로퍼티 코포레이션 오브 아메리카 filed Critical 파나소닉 인텔렉츄얼 프로퍼티 코포레이션 오브 아메리카
Publication of KR20150095702A publication Critical patent/KR20150095702A/ko
Application granted granted Critical
Publication of KR102200643B1 publication Critical patent/KR102200643B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

효율적인 비트 배분을 행하여, 음질의 향상을 도모하는 음성 음향 부호화 장치, 음성 음향 복호 장치, 음성 음향 부호화 방법 및 음성 음향 복호 방법을 제공한다. 탁월 주파수 밴드 식별부(301)가, 입력 음성 음향 신호의 스펙트럼 중의 놈 계수치가 극대치를 가지는 탁월 주파수 밴드를 식별하고, 탁월 그룹 결정부(302-1~302-N) 및 비탁월 그룹 결정부(303)가, 모든 서브밴드를, 탁월 주파수 밴드를 포함하는 탁월 그룹과 탁월 주파수 밴드를 포함하지 않는 비탁월 그룹으로 그룹화한다. 그룹 비트 배분부(308)가 그룹마다의 에너지 및 놈 분산에 기초하여, 각 그룹에 비트를 배분하고, 서브밴드 비트 배분부(309)가 그룹마다 배분된 비트를 그룹의 에너지에 대한 놈 비율에 따라 각 서브밴드에 더 배분한다.

Description

음성 음향 부호화 장치, 음성 음향 복호 장치, 음성 음향 부호화 방법 및 음성 음향 복호 방법{VOICE AUDIO ENCODING DEVICE, VOICE AUDIO DECODING DEVICE, VOICE AUDIO ENCODING METHOD, AND VOICE AUDIO DECODING METHOD}
본 발명은, 변환 부호화 방식을 이용한 음성 음향 부호화 장치, 음성 음향 복호 장치, 음성 음향 부호화 방법 및 음성 음향 복호 방법에 관한 것이다.
0.02-20kHz 대역의 풀 밴드(FB: Full band)의 음성 신호 또는 음악 신호를 효율적으로 부호화할 수 있는 방식으로서, ITU-T(International Telecommunication Union Telecommunication Standardization Sector)에서 규격화된 기술이 있다. 이 기술에서는, 입력 신호를 주파수 영역으로 변환하여, 20kHz까지의 대역을 부호화하고 있다(변환 부호화).
여기서, 변환 부호화는, 이산 코사인 변환(DCT: Discrete Cosine Transform) 또는 수정 이산 코사인 변환(MDCT: Modified Discrete Cosine Transform) 등의 시간 주파수 변환을 사용하여, 입력 신호를 시간 영역으로부터 주파수 영역으로 변환하여, 신호를 청각 특성에 정확하게 대응시켜서 매핑할 수 있도록 하는 부호화 방식이다.
변환 부호화에 있어서는, 스펙트럼(spectrum) 계수가 복수의 주파수 서브밴드(Subband)로 분할된다. 각 서브밴드의 부호화에 있어서, 보다 많은 양자화 비트를, 사람의 귀에 있어 지각적으로 중요한 밴드에 할당함으로써, 음질을 전체적으로 높일 수 있다.
이 목적을 달성하기 위하여, 효율적인 비트 할당 방법이 검토되고 있고, 예를 들면, 비특허 문헌 1에 명시된 기술이 알려져 있다. 이하, 특허 문헌 1에 명시된 비트 할당 방법에 대해 도 1 및 도 2를 사용하여 설명한다.
도 1은, 특허 문헌 1에 명시된 음성 음향 부호화 장치의 구성을 나타내는 블록도이다. 48kHz로 샘플링된 입력 신호가 음성 음향 부호화 장치의 과도 검출기(過渡 檢出器)(11) 및 변환부(12)에 입력된다.
과도 검출기(11)는, 입력 신호로부터, 음성의 시단부(始端部) 또는 종단부(終端部)에 대응하는 과도 프레임, 또는 그 이외의 음성 구간에 대응하는 정상 프레임의 어느 것인가를 검출하고, 변환부(12)는, 과도 검출기(11)에 의해 검출된 프레임이 과도 프레임인지 정상 프레임인지에 따라, 고주파수분해능(高周波數分解能)변환 또는 저주파수분해능(低周波數分解能)변환을 입력 신호의 프레임에 적용하여, 스펙트럼 계수(또는 변환계수)를 취득한다.
놈(norm) 추정부(13)는, 변환부(12)에 의해 얻어진 스펙트럼 계수를 대역폭이 다른 밴드로 분할한다. 또, 놈 추정부(13)는, 분할한 각 밴드의 놈(또는 에너지)을 추정한다.
놈(norm) 양자화부(14)는, 놈 추정부(13)에 의해 추정된 각 밴드의 놈에 기초하여, 모든 밴드의 놈으로 되어있는 스펙트럼 포락선을 구하고, 구한 스펙트럼 포락선을 양자화한다.
스펙트럼 정규화부(15)는, 변환부(12)에 의해 얻어진 스펙트럼 계수를, 놈 양자화부(14)에 의해 양자화된 놈을 이용하여 정규화한다.
놈(norm) 조정부(16)는, 놈 양자화부(14)에 의해 양자화된 놈을 적응 스펙트럼 가중치에 기초하여, 조정한다.
비트 할당부(17)는, 놈 조정부(16)에 의해 조정된 양자화 놈을 이용하여, 프레임내의 밴드마다 사용가능한 비트를 할당한다.
격자 벡터 부호화부(18)는, 스펙트럼 정규화부(15)에 의해 정규화된 스펙트럼 계수를, 비트 할당부(17)에 의해 밴드마다 할당된 비트로 격자 벡터 부호화를 행한다.
노이즈 레벨 조정부(19)는, 격자 벡터 부호화부(18)에 있어서의 부호화전(前)의 스펙트럼 계수의 레벨을 추정하고, 추정한 레벨을 부호화한다. 이것에 의해, 노이즈 레벨 조정 인덱스가 구해진다.
멀티플렉서(multiplexer)(20)는, 변환부(12)가 취득한 입력 신호의 프레임 구성, 즉, 정상 프레임인지 과도 프레임인지를 나타내는 과도 신호 플래그, 놈 양자화부(14)에 의해 양자화된 놈, 격자 벡터 부호화부(18)에 의해 얻어진 격자 부호 벡터, 및, 노이즈 레벨 조정부(19)에 의해 얻어진 노이즈 레벨 조정 인덱스를 다중화해서 비트 스트림을 형성하여, 비트 스트림을 음성 음향 복호 장치에 송신한다.
도 2는, 특허 문헌 1에 명시된 음성 음향 복호 장치의 구성을 나타내는 블록도이다. 음성 음향 부호화 장치로부터 송신된 비트 스트림이 음성 음향 복호 장치에 있어서 수신되어, 디멀티플렉서(demultiplexer)(21)에 의해 역다중화된다.
놈 역양자화부(22)는, 양자화된 놈을 역양자화하여, 전(全)밴드의 놈으로 된 스펙트럼 포락선을 구하고, 놈 조정부(23)는, 놈 역양자화부(22)에 의해 역양자화된 놈을 적응 스펙트럼 가중치에 기초하여, 조정한다.
비트 할당부(24)는, 놈 조정부(23)에 의해 조정된 놈을 이용하여, 프레임내의 밴드마다 사용가능한 비트를 할당한다. 즉, 비트 할당부(24)는, 정규화된 스펙트럼 계수의 격자 벡터 부호를 복호하기 위하여 필수인 비트 할당을 재계산한다.
격자 복호부(25)는, 과도 신호 플래그를 복호하고, 복호한 과도 신호 플래그가 나타내는 프레임 구성, 및, 비트 할당부(24)에 의해 할당된 비트에 기초하여, 격자 부호 벡터를 복호하고, 스펙트럼 계수를 취득한다.
스펙트럼 필 생성기(26)는, 격자 복호부(25)에 의해 복호된 스펙트럼 계수에 기초하여 작성되는 코드북(Codebook)을 이용하여, 비트가 배분되지 않은 저주파수의 스펙트럼 계수를 재생성한다. 또, 스펙트럼 필 생성기(26)는, 노이즈 레벨 조정 인덱스를 이용하여, 재생성된 스펙트럼 계수의 레벨을 조정한다. 또, 스펙트럼 필 생성기(26)는, 고주파수의 부호화되어 있지 않은 스펙트럼 계수를, 저주파수의 부호화된 스펙트럼 계수를 이용하여 재생성한다.
가산기(27)는, 복호된 스펙트럼 계수 및 재생성된 스펙트럼 계수를 합하여, 정규화된 스펙트럼 계수를 생성한다.
포락선 성형부(28)는, 가산기(27)에 의해 생성된 정규화 스펙트럼 계수에, 놈 역양자화부(22)에 의해 역양자화된 스펙트럼 포락선을 적용하여, 풀 밴드 스펙트럼 계수를 생성한다.
역변환부(29)는, 포락선 성형부(28)에 의해 생성된 풀 밴드 스펙트럼 계수에 역수정 이산 코사인 변환(IMDCT: Inverse Modified Discrete Cosine Transform) 등의 역변환을 적용하여, 시간 영역 신호로 변환한다.
여기에서는, 정상 프레임일 경우에는 고주파수분해능의 역변환이 적용되고, 과도 프레임일 경우에는 저주파수분해능의 역변환이 적용된다.
G.719에서는, 스펙트럼 계수가 스펙트럼 그룹으로 분할된다. 각 스펙트럼 그룹은, 도 3에 나타내는 바와 같이, 동일한 길이의 서브벡터(subvector)의 밴드로 분할된다. 서브벡터는 그룹 사이에서 다른 길이를 가지며, 이 길이는 주파수의 증가와 함께 증가한다. 변환의 분해능에 대해서는, 저주파수에서는, 보다 높은 주파수 분해능을 사용하고, 고주파수에서는, 보다 낮은 주파수 분해능을 사용한다. G.719에서 설명되고 있는 것처럼, 그룹화를 함으로써, 부호화 중에 사용가능한 비트 버지트(Bit Budget)를 효율적으로 사용할 수 있게 된다.
또, G.719에서는, 비트 할당 방법이 부호화 장치 및 복호 장치에 있어서 동일하다. 여기서, 비트 할당 방법에 대해서 도 4를 이용해 설명한다.
도 4에 나타내는 바와 같이, 스텝(이하, 「ST」라고 약칭함)31에서는, 심리 음향 가중치 및 마스킹 효과를 조정하기 위하여, 양자화된 놈(Norm)이 비트 할당 전에 조정된다.
ST32에서는, 전체 서브밴드 중 최대 놈을 가지는 서브밴드가 식별되고, ST33에서는, 최대 놈을 가지는 서브밴드에 있어서, 각 스펙트럼 계수에 대해 1비트가 할당된다. 즉, 스펙트럼 계수의 수만큼 비트가 할당된다.
ST34에서는, 할당한 비트에 따라, 놈을 감소시키고, ST35에서는, 남은 할당 가능 비트수가 8비트 이상인지 아닌지가 판정된다. 남은 할당 가능 비트수가 8비트 이상일 때는, ST32로 되돌아가고, 남은 할당 가능 비트수가 8비트 미만일 때에는, 비트 할당 절차를 종료한다.
이와 같이, 비트 할당 방법은, 조정된 양자화 놈을 이용하여, 프레임 내의 사용가능한 비트를 서브밴드 사이에서 할당한다. 그리고, 정규화된 스펙트럼 계수가, 각 서브밴드에 할당된 비트로 격자 벡터 부호화에 의해 부호화된다.
그렇지만, 상기 비트 할당 방법에서는, 스펙트럼 밴드를 그룹화할 때, 입력 신호 특성을 고려하고 있지 않기 때문에, 효율적인 비트 배분을 행할 수 없어, 더 한 층의 고음질화를 바랄 수 없다는 문제가 있다.
본 발명의 목적은, 효율적인 비트 배분을 행하여, 음질의 향상을 도모하는 음성 음향 부호화 장치, 음성 음향 복호 장치, 음성 음향 부호화 방법 및 음성 음향 복호 방법을 제공하는 것이다.
본 발명의 음성 음향 부호화 장치는, 입력 신호를 시간 영역으로부터 주파수 영역으로 변환하는 변환 수단과, 상기 입력 신호의 주파수 스펙트럼이 분할되어 되는 복수의 서브밴드의 각각에 대해서, 에너지 레벨을 나타내는 에너지 포락선을 추정하는 추정 수단과, 상기 에너지 포락선을 양자화하는 양자화 수단과, 양자화된 상기 에너지 포락선을 복수의 그룹으로 그룹화하는 그룹 결정 수단과, 상기 복수의 그룹에 비트를 할당하는 제1 비트 할당 수단과, 상기 복수의 그룹에 할당된 비트를 그룹마다 서브밴드에 할당하는 제2 비트 할당 수단과, 상기 서브밴드에 할당된 비트를 이용하여, 상기 주파수 스펙트럼을 부호화하는 부호화 수단을 구비하는 구성을 취한다.
본 발명의 음성 음향 복호 장치는, 양자화된 스펙트럼 포락선을 역양자화하는 역양자화 수단과, 양자화된 상기 스펙트럼 포락선을 복수의 그룹으로 그룹화하는 그룹 결정 수단과, 상기 복수의 그룹으로 비트를 할당하는 제1 비트 할당 수단과, 상기 복수의 그룹에 할당된 비트를 그룹마다 서브밴드에 할당하는 제2 비트 할당 수단과, 상기 서브밴드에 할당된 비트를 이용하여, 음성 음향 신호의 주파수 스펙트럼을 복호하는 복호 수단과, 복호된 상기 주파수 스펙트럼에 역양자화된 상기 스펙트럼 포락선을 적용하여, 복호 스펙트럼을 재현하는 포락선 성형 수단과, 상기 복호 스펙트럼을 주파수 영역으로부터 시간 영역으로 역변환하는 역변환 수단을 구비하는 구성을 취한다.
본 발명의 음성 음향 부호화 방법은, 입력 신호를 시간 영역으로부터 주파수 영역으로 변환하고, 상기 입력 신호의 주파수 스펙트럼이 분할되어 되는 복수의 서브밴드 각각에 대하여, 에너지 레벨을 나타내는 에너지 포락선을 추정하고, 상기 에너지 포락선을 양자화하고, 양자화된 상기 에너지 포락선을 복수의 그룹으로 그룹화하고, 상기 복수의 그룹에 비트를 할당하고, 상기 복수의 그룹에 할당된 비트를 그룹마다 서브밴드에 할당하고, 상기 서브밴드에 할당된 비트를 이용하여, 상기 주파수 스펙트럼을 부호화하도록 했다.
본 발명의 음성 음향 복호 방법은, 양자화된 스펙트럼 포락선을 역양자화하고, 양자화된 상기 스펙트럼 포락선을 복수의 그룹으로 그룹화하고, 상기 복수의 그룹에 비트를 할당하고, 상기 복수의 그룹에 할당된 비트를 그룹마다 서브밴드에 할당하고, 상기 서브밴드에 할당된 비트를 이용하여, 음성 음향 신호의 주파수 스펙트럼을 복호하고, 복호된 상기 주파수 스펙트럼에 역양자화된 상기 스펙트럼 포락선을 적용하여, 복호 스펙트럼을 재현하고, 상기 복호 스펙트럼을 주파수 영역으로부터 시간 영역으로 역변환하도록 했다.
본 발명에 의하면, 효율적인 비트 배분을 행하여, 음질 향상을 꾀할 수 있다.
도 1은 특허 문헌 1에 명시된 음성 음향 부호화 장치의 구성을 나타내는 블록도이다.
도 2는 특허 문헌 1에 명시된 음성 음향 복호 장치의 구성을 나타내는 블록도이다.
도 3은 특허 문헌 1에 명시된 정상 모드에 있어서의 스펙트럼 계수의 그룹화를 나타내는 도면이다.
도 4는 특허 문헌 1에 명시된 비트 할당 방법을 나타내는 흐름도이다.
도 5는, 본 발명의 한 실시형태에 따른 음성 음향 부호화 장치의 구성을 나타내는 블록도이다.
도 6은, 본 발명의 한 실시형태에 따른 음성 음향 복호 장치의 구성을 나타내는 블록도이다.
도 7은, 도 5에 나타낸 비트 할당부의 내부 구성을 나타내는 블록도이다.
도 8은, 본 발명의 한 실시형태에 따른 그룹화 방법을 설명하기 위한 도면이다.
도 9는 놈 분산을 나타내는 도면이다.
이하, 본 발명의 실시형태에 대해, 도면을 참조하여 상세하게 설명한다.
(한 실시형태)
도 5는, 본 발명의 한 실시형태에 따른 음성 음향 부호화 장치(100)의 구성을 나타내는 블록도이다. 48kHz로 샘플링 된 입력 신호가 음성 음향 부호화 장치(100)의 과도 검출기(101) 및 변환부(102)에 입력된다.
과도 검출기(101)는, 입력 신호로부터, 음성의 시단부 또는 종단부에 대응하는 과도 프레임, 또는 그 이외의 음성 구간에 대응하는 정상 프레임의 어느 쪽인가를 검출하고, 검출 결과를 변환부(102)에 출력한다. 변환부(102)는, 과도 검출기(101)로부터 출력된 검출 결과가 과도 프레임인지 정상 프레임인지에 따라, 고주파수분해능 변환 또는 저주파수분해능 변환을 입력 신호의 프레임에 적용하여, 스펙트럼 계수(또는 변환계수)를 취득하여, 놈 추정부(103) 및 스펙트럼 정규화부(105)에 출력한다. 또, 변환부(102)는, 과도 검출기(101)로부터 출력된 검출 결과인 프레임 구성, 즉 정상 프레임인지 과도 프레임인지를 나타내는 과도 신호 플래그를 멀티플렉서(110)에 출력한다.
놈 추정부(103)는, 변환부(102)로부터 출력된 스펙트럼 계수를 대역폭이 다른 밴드로 분할하고, 분할한 각 밴드의 놈(또는 에너지)을 추정한다. 놈 추정부(103)는, 추정한 각 밴드의 놈을 놈 양자화부(104)에 출력한다.
놈 양자화부(104)는, 놈 추정부(103)로부터 출력된 각 밴드의 놈에 기초하여, 모든 밴드의 놈으로 된 스펙트럼 포락선을 구하고, 구한 스펙트럼 포락선을 양자화하고, 양자화한 스펙트럼 포락선을 스펙트럼 정규화부(105) 및 놈 조정부(106)에 출력한다.
스펙트럼 정규화부(105)는, 변환부(102)로부터 출력된 스펙트럼 계수를, 놈 양자화부(104)로부터 출력된 양자화 스펙트럼 포락선에 의해 정규화하고, 정규화한 스펙트럼 계수를 격자 벡터 부호화부(108)에 출력한다.
놈 조정부(106)는, 놈 양자화부(104)로부터 출력된 양자화 스펙트럼 포락선을 적응 스펙트럼 가중치에 기초하여 조정하고, 조정한 양자화 스펙트럼 포락선을 비트 할당부(107)에 출력한다.
비트 할당부(107)는, 놈 조정부(106)로부터 출력된, 조정된 양자화 스펙트럼 포락선을 이용하여, 프레임 내의 밴드마다 사용가능한 비트를 할당하고, 할당한 비트를 격자 벡터 부호화부(108)에 출력한다. 또한, 비트 할당부(107)의 상세한 것에 대해서는 후술한다.
격자 벡터 부호화부(108)는, 스펙트럼 정규화부(105)에 의해 정규화된 스펙트럼 계수를, 비트 할당부(107)에 의해 밴드마다 할당된 비트로 격자 벡터 부호화를 행하고, 격자 부호 벡터를 노이즈 레벨 조정부(109) 및 멀티플렉서(110)에 출력한다.
노이즈 레벨 조정부(109)는, 격자 벡터 부호화부(108)에 있어서의 부호화전(前) 스펙트럼 계수의 레벨을 추정하고, 추정한 레벨을 부호화한다. 이것에 의해, 노이즈 레벨 조정 인덱스가 구해진다. 노이즈 레벨 조정 인덱스는 멀티플렉서(110)에 출력된다.
멀티플렉서(110)는, 변환부(102)로부터 출력된 과도 신호 플래그, 놈 양자화부(104)로부터 출력된 양자화된 스펙트럼 포락선, 격자 벡터 부호화부(108)로부터 출력된 격자 부호 벡터, 및, 노이즈 레벨 조정부(109)로부터 출력된 노이즈 레벨 조정 인덱스를 다중화하여 비트 스트림을 형성하고, 비트 스트림을 음성 음향 복호 장치에 송신한다.
도 6은, 본 발명의 한 실시형태에 따른 음성 음향 복호 장치(200)의 구성을 나타내는 블록도이다. 음성 음향 부호화 장치(100)로부터 송신된 비트 스트림이 음성 음향 복호 장치(200)에 있어서 수신되어, 디멀티플렉서(201)에 의해 역다중화 된다.
놈 역양자화부(202)는, 멀티플렉서로부터 출력된 양자화된 스펙트럼 포락선(즉, 놈)을 역양자화하여, 모든 밴드의 놈으로 된 스펙트럼 포락선을 구하고, 구한 스펙트럼 포락선을 놈 조정부(203)에 출력한다.
놈 조정부(203)는, 놈 역양자화부(202)로부터 출력된 스펙트럼 포락선을 적응 스펙트럼 가중치에 기초하여 조정하고, 조정한 스펙트럼 포락선을 비트 할당부(204)에 출력한다.
비트 할당부(204)는, 놈 조정부(203)로부터 출력된 스펙트럼 포락선을 이용하여, 프레임 내의 밴드마다 사용가능한 비트를 할당한다. 즉, 비트 할당부(204)는, 정규화된 스펙트럼 계수의 격자 벡터 부호를 복호하기 위하여 필수인 비트 할당을 재계산한다. 할당한 비트는 격자 복호부(205)에 출력된다.
격자 복호부(205)는, 디멀티플렉서(201)로부터 출력된 과도 신호 플래그가 나타내는 프레임 구성, 및, 비트 할당부(204)로부터 출력된 비트에 기초하여, 디멀티플렉서(201)로부터 출력된 격자 부호 벡터를 복호하여, 스펙트럼 계수를 취득한다. 스펙트럼 계수는, 스펙트럼 필 생성기(206) 및 가산기(207)에 출력된다.
스펙트럼 필 생성기(206)는, 격자 복호부(205)로부터 출력된 스펙트럼 계수에 기초하여 작성되는 코드북을 이용하여, 비트가 배분되지 않았던 저주파수의 스펙트럼 계수를 재생성한다. 또, 스펙트럼 필 생성기(206)는, 디멀티플렉서(201)로부터 출력된 노이즈 레벨 조정 인덱스를 이용하여, 재생성된 스펙트럼 계수의 레벨을 조정한다. 또, 스펙트럼 필 생성기(206)는, 고주파수의 부호화되어 있지 않은 스펙트럼 계수를, 저주파수의 부호화된 스펙트럼 계수를 이용하여 재생성한다. 레벨이 조정된 저주파수의 스펙트럼 계수, 및, 재생성된 고주파수의 스펙트럼 계수는 가산기(207)에 출력된다.
가산기(207)는, 격자 복호부(205)로부터 출력된 스펙트럼 계수 및, 스펙트럼 필 생성기(206)로부터 출력된 스펙트럼 계수를 합하여, 정규화된 스펙트럼 계수를 생성하고, 정규화된 스펙트럼 계수를 포락선 성형부(208)에 출력한다.
포락선 성형부(208)는, 가산기(207)에 의해 생성된 정규화 스펙트럼 계수에, 놈 역양자화부(202)로부터 출력된 스펙트럼 포락선을 적용하여, 풀 밴드 스펙트럼 계수(복호 스펙트럼에 상당)를 생성한다. 생성된 풀 밴드 스펙트럼 계수는, 역변환부(209)에 출력된다.
역변환부(209)는, 포락선 성형부(208)로부터 출력된 풀 밴드 스펙트럼 계수에 역수정 이산 코사인 변환(IMDCT: Inverse Modified Discrete Cosine Transform)등의 역변환을 적용하여, 시간 영역 신호로 변환하여, 출력 신호를 출력한다. 여기에서는, 정상 프레임일 경우에는 고주파수분해능의 역변환이 적용되고, 과도 프레임일 경우에는 저주파수분해능의 역변환이 적용된다.
다음에, 상술한 비트 할당부(107)의 상세한 것에 대하여 도 7을 이용해 설명한다. 또한, 음성 음향 부호화 장치(100)의 비트 할당부(107)와, 음성 음향 복호 장치(200)의 비트 할당부(204)는 동일한 구성이기 때문에, 여기에서는, 비트 할당부(107)에 대해서만 설명하고, 비트 할당부(204)의 설명은 생략한다.
도 7은, 도 5에 나타낸 비트 할당부(107)의 내부 구성을 나타내는 블록도이다. 탁월(卓越) 주파수 밴드 식별부(301)는, 놈 조정부(106)로부터 출력된 양자화 스펙트럼 포락선에 기초하여, 스펙트럼 중의 놈 계수치가 극대치(極大値)를 가지는 서브밴드인 탁월 주파수 밴드를 식별하고, 식별한 각 탁월 주파수 밴드를 탁월 그룹 결정부(302-1~302N)에 각각 출력한다. 탁월 주파수 밴드의 결정 방법으로서, 놈 계수치가 극대치를 가지는 주파수 밴드로 하는 것 외에, 예를 들면, 전체 서브밴드 중에서 놈 계수치가 최대치를 가지는 밴드를 탁월 주파수 밴드로 하거나, 미리 정해진 임계값 또는 전체 서브밴드의 놈으로부터 산출되는 임계값을 초과하는 놈 계수치를 가지는 밴드를 탁월 주파수 밴드로 하거나 하는 것이 생각된다.
탁월 그룹 결정부(302-1~302N)는, 탁월 주파수 밴드 식별부(301)로부터 출력된 탁월 주파수 밴드를 중심으로, 입력 신호 특성에 따라 적응적으로 그룹폭을 결정한다. 구체적으로는, 그룹폭은, 탁월 주파수 밴드를 중심으로 한 양측에 있어서의 놈 계수치의 하향 구배(勾配)가 멈출 때까지를 그룹폭으로 한다. 탁월 그룹 결정부(302-1~302N)는, 그룹폭에 포함되는 주파수 밴드를 탁월 그룹으로 결정하고, 결정한 탁월 그룹을 비탁월(非卓越) 그룹 결정부(303)에 출력한다. 또한, 탁월 주파수 밴드가 엣지(사용가능 주파수의 가장자리)에 있을 때는, 하향 구배의 한쪽만이 그룹에 포함된다.
비탁월 그룹 결정부(303)는, 탁월 그룹 결정부(302-1~302N)로부터 출력된 탁월 그룹 이외의 연속하는 서브밴드를 탁월 주파수 밴드가 없는 비탁월 그룹으로 결정한다. 비탁월 그룹 결정부(303)는, 탁월 그룹 및 비탁월 그룹을 그룹 에너지 산출부(304) 및 놈 분산 산출부(306)에 출력한다.
그룹 에너지 산출부(304)는, 비탁월 그룹 결정부(303)로부터 출력된 탁월 그룹 및 비탁월 그룹에 대해서, 그룹마다의 에너지를 산출하고, 산출한 에너지를 총 에너지 산출부(305) 및 그룹 비트 배분부(308)에 출력한다. 그룹마다의 에너지는 다음 수학식(1)에 의해 산출된다.
Figure pct00001
여기서, k는 그룹의 인덱스, Energy(G(k))는 그룹 k의 에너지, i는 그룹 2의 서브밴드 인덱스, M은 그룹 k의 서브밴드의 총수, Norm(i)는 그룹 n의 서브밴드 i의 놈 계수치를 나타낸다.
총 에너지 산출부(305)는, 그룹 에너지 산출부(304)로부터 출력된 그룹마다의 에너지를 모두 가산하고, 모든 그룹의 총 에너지를 산출한다. 산출된 총 에너지는 그룹 비트 배분부(308)에 출력된다. 총 에너지는 다음 수학식(2)에 의해 산출된다.
Figure pct00002
여기서, Energytotal은 모든 그룹의 총 에너지, N은 스펙트럼 중의 그룹 총 수, k는 그룹의 인덱스, Energy(G(k))는 그룹 k의 에너지를 나타낸다.
놈 분산 산출부(306)는, 비탁월 그룹 결정부(303)로부터 출력된 탁월 그룹 및 비탁월 그룹에 대해, 그룹마다의 놈 분산을 산출하고, 산출한 놈 분산을 총 놈 분산 산출부(307) 및 그룹 비트 배분부(308)에 출력한다. 그룹마다의 놈 분산은 다음 수학식(3)에 의해 산출된다.
Figure pct00003
여기서, k는 그룹의 인덱스, Normvar(G(k))는 그룹 k의 놈 분산, Normmax(G(k))는 그룹 k의 최대 놈 계수치, Normmin(G(k))는 그룹 k의 최소 놈 계수치를 나타낸다.
총 놈 분산 산출부(307)는, 놈 분산 산출부(306)로부터 출력된 그룹마다의 놈 분산에 기초하여, 모든 그룹의 총 놈 분산을 산출한다. 산출된 총 놈 분산은 그룹 비트 배분부(308)에 출력된다. 총 놈 분산은 다음 수학식(4)에 의해 산출된다.
Figure pct00004
여기서, Norm artotal은 모든 그룹의 총 놈 분산, N은 스펙트럼 중의 그룹 총 수, k는 그룹의 인덱스, Normvar(G(k))는, 그룹 k의 놈 분산을 나타낸다.
그룹 비트 배분부(308)(제1 비트 할당 수단에 상당)는, 그룹 에너지 산출부(304)로부터 출력된 그룹마다의 에너지, 총 에너지 산출부(305)로부터 출력된 모든 그룹의 총 에너지, 놈 분산 산출부(306)로부터 출력된 그룹마다의 놈 분산, 및, 총 놈 분산 산출부(307)로부터 출력된 모든 그룹의 총 놈 분산에 기초하여, 그룹마다 비트 배분을 행하고, 그룹마다 배분된 비트를 서브밴드 비트 배분부(309)에 출력한다. 그룹마다 배분되는 비트는 다음 수학식(5)에 의해 산출된다.
Figure pct00005
여기서, k는 그룹의 인덱스, Bits(G(k))는 그룹 k에 배분된 비트수, Bitstotal은 사용가능한 모든 비트수, scale1은 에너지에 의해 할당된 비트의 비율, Energy(G(k))는 그룹 k의 에너지, Energytotal은 모든 그룹의 총 에너지, Normvar(G(k))는 그룹 k의 놈 분산을 나타낸다.
또, 위의 수학식(5)에 있어서, scale1는,[0, 1] 범위의 값을 취하여, 에너지 또는 놈 분산에 의해 할당된 비트의 비율을 조정한다. scale1의 값이 클수록, 에너지에 의해 할당되는 비트가 많아지고, 극단적인 경우, 그 값이 1이면, 모든 비트가 에너지에 의해 할당된다. scale1의 값이 작을수록, 놈 분산에 의해 할당되는 비트가 많아지고, 극단적인 경우, 그 값이 0이면, 모든 비트가 놈 분산에 의해 할당된다.
그룹 비트 배분부(308)가, 상술한 것처럼 그룹마다 비트 배분을 행함으로써, 탁월 그룹에는, 보다 많은 비트를 배분하고, 비탁월 그룹에는, 보다 적은 비트를 배분할 수 있다.
이와 같이, 그룹 비트 배분부(308)에서는, 그룹의 지각적 중요도가 에너지 및 놈 분산에 의해 결정되어, 탁월 그룹을 보다 강조할 수 있다. 또, 놈 분산은, 마스킹 이론과 일치하여, 이것을 이용함으로써, 지각적 중요도를 보다 정확하게 결정할 수 있다.
서브밴드 비트 배분부(309)(제2 비트 할당 수단에 상당)는, 그룹 비트 배분부(308)로부터 출력된 그룹마다의 비트에 기초하여, 각 그룹내의 서브밴드에 비트가 배분되고, 그룹마다의 서브밴드에 할당한 비트를 비트 할당 결과로서 격자 벡터 부호화부(108)에 출력한다. 여기에서는, 지각적으로 보다 중요한 서브밴드에는, 보다 많은 비트가 배분되고, 지각적으로 그다지 중요하지 않은 서브밴드에는, 보다 적은 비트가 배분된다. 그룹 내의 각 서브밴드에 배분되는 비트는 다음 수학식(6)에 의해 산출된다.
Figure pct00006
여기서, BitsG (k) sb (i)는 그룹 k의 서브밴드 i에 할당된 비트, i는 그룹 k의 서브밴드 인덱스, Bits(G(k))는 그룹 k에 할당된 비트, Energy(G(k))는 그룹 k의 에너지, Norm(i)는 그룹 k의 서브밴드 i의 놈 계수치를 나타낸다.
다음에, 그룹화 방법에 대하여 도 8을 이용해 설명한다. 도 8(a)에 나타내는 등의 양자화 스펙트럼 포락선이 피크 주파수 밴드 식별부(301)에 입력되었다고 한다. 피크 주파수 밴드 식별부(301)는, 입력된 양자화 스펙트럼 포락선에 기초하여, 탁월 주파수 밴드 9, 20을 식별한다(도 8(b) 참조).
탁월 그룹 생성부(302-1~302-N)에서는, 탁월 주파수 밴드 9, 20을 중심으로 한 양쪽에 있어서의 놈 계수치의 하향 구배가 멈출 때까지가 동일한 탁월 그룹으로 결정된다. 도 8의 예에서는, 탁월 주파수 밴드 9에 대해서는, 서브밴드 6~12가 탁월 그룹(그룹 2)으로 되고, 탁월 주파수 밴드 20에 대해서는, 서브밴드 17~22를 탁월 그룹(그룹 4)으로 결정한다(도 8(c) 참조).
비탁월 그룹 결정부(303)에서는, 탁월 그룹 이외가 연속하는 주파수 밴드가 탁월 주파수 밴드가 없는 비탁월 그룹으로 결정된다. 도 8의 예에서는, 서브밴드 1~5(그룹 1), 서브밴드 13~16(그룹 3), 서브밴드 23~25(그룹 5)가 각각 비탁월 그룹으로 결정된다(도 8(c) 참조).
이 결과, 양자화 스펙트럼 포락선은, 5개의 그룹, 즉, 2개의 탁월 그룹(그룹 2, 4)과 3개의 비탁월 그룹(그룹 1, 3, 5)으로 그룹화된다.
이러한 그룹화 방법에 의해, 입력 신호 특성에 따라 적응적으로 그룹폭을 결정할 수 있다. 또, 이 방법에서는, 음성 음향 복호 장치에 있어서도 사용할 수 있는 양자화된 놈 계수를 이용하기 때문에, 추가 정보를 음성 음향 복호 장치에 송신할 필요가 없다.
또한, 놈 분산 산출부(306)에서는, 그룹마다의 놈 분산이 산출된다. 참고로, 도 8의 예에서 그룹 2에 있어서의 놈 분산 Energyvar(G(2))를 도 9에 나타낸다.
다음에, 지각적 중요도에 대해서 설명한다. 일반적으로, 음성 음향 신호의 스펙트럼 중에는, 복수의 피크(산) 및 밸리(골짜기)가 있다. 피크는, 음성 음향 신호의 탁월 주파수에 위치하는 스펙트럼 성분(탁월음 성분)으로 구성된다. 피크는, 지각적으로 매우 중요하다. 피크의 지각적 중요도는, 피크 에너지와 밸리 에너지의 차(差), 즉, 놈 분산을 이용해 판단할 수 있다. 이론적으로는, 피크가, 인접하는 주파수 밴드와 비교해 충분히 큰 에너지를 가질 경우, 그 피크는 충분한 비트수로 부호화되어야 하며, 불충분한 비트수로 부호화되면, 혼입하는 부호화 노이즈가 부각되어 버려, 음질이 저하한다. 한편, 밸리는, 음성 음향 신호의 탁월음 성분으로 구성되지 않아, 지각적으로 중요하지 않다.
본 실시형태에 있어서의 주파수 밴드의 그룹화 방법에서는, 탁월 주파수 밴드는 스펙트럼의 피크에 대응하고 있어, 주파수 밴드를 그룹화하는 것은, 피크(탁월 주파수 밴드를 가지는 탁월 그룹)와 밸리(탁월 주파수 밴드가 없는 비탁월 그룹)를 분리하는 것이 된다.
그룹 비트 배분부(308)에서는, 피크의 지각적 중요도를 결정한다. G.719 등의 기술에서는, 에너지에 의해서만 지각적 중요도를 결정하고 있었던 것에 비해서, 본 실시형태에서는, 에너지 및 놈(에너지) 분산의 양쪽에 의해 지각적 중요도를 결정하고, 결정한 지각적 중요도에 기초하여 각 그룹에 배분할 비트를 결정한다.
또, 서브밴드 비트 배분부(309)에서는, 그룹 내의 놈 분산이 큰 경우, 이 그룹은 피크의 하나임을 의미하고, 피크는 지각적으로 보다 중요하여, 최대치를 가지는 놈 계수는 정확하게 부호화되어야 한다. 이 때문에, 이 피크의 서브밴드에는 보다 많은 비트가 배분된다. 한편, 그룹 내의 놈 분산이 매우 작은 경우, 이 그룹은, 밸리의 하나임을 의미하고, 밸리는 지각적으로 중요한 것은 아니어, 그다지 정확하게 부호화될 필요는 없다. 이 때문에, 이 그룹의 각 서브밴드에는 적은 비트가 배분된다.
이와 같이, 본 실시형태에 의하면, 입력 음성 음향 신호의 스펙트럼중의 놈 계수치가 극대치를 가지는 탁월 주파수 밴드를 식별하고, 모든 서브밴드를, 탁월 주파수 밴드를 포함하는 탁월 그룹과 탁월 주파수 밴드를 포함하지 않는 비탁월 그룹으로 그룹화하고, 그룹마다의 에너지 및 놈 분산에 기초하여, 각 그룹에 비트를 배분하고, 그룹마다 배분된 비트를 그룹 에너지에 대한 놈의 비율에 따라 각 서브밴드에 더 배분한다. 이것에 의해, 지각적으로 중요한 그룹 및 서브밴드에 많은 비트를 할당할 수가 있어, 효율적인 비트 배분을 행할 수 있다. 이 결과, 음질의 향상을 도모할 수 있다.
또한, 본 실시형태에 있어서의 놈 계수는, 서브밴드 에너지를 나타내는 것이고, 에너지 포락선이라고도 한다.
2012년 12월 13일에 출원한 특허출원 2012-272571의 일본 출원에 포함되는 명세서, 도면 및 요약서의 개시 내용은, 모두 본원에 원용된다.
본 발명에 따른 음성 음향 부호화 장치, 음성 음향 복호 장치, 음성 음향 부호화 방법 및 음성 음향 복호 방법은, 무선통신 단말장치, 무선통신 기지국 장치, 전화 회의 단말장치, 비디오 회의 단말장치, 및, 음성 오버 인터넷 프로토콜(VoIP) 단말장치 등에 적용할 수가 있다.
101: 과도 검출기 102: 변환부
103: 놈 추정부 104: 놈 양자화부
105: 스펙트럼 정규화부 106, 203: 놈 조정부
107, 204: 비트 할당부 108: 격자 벡터 부호화부
109: 노이즈 레벨 조정부 110: 멀티플렉서
201: 디멀티플렉서 202: 놈 역양자화부
205: 격자 복호부 206: 스펙트럼 필 생성기
207: 가산기 208: 포락선 성형부
209: 역변환부 301: 탁월 주파수 밴드 식별부
302-1~302-N: 탁월 그룹 결정부
303: 비탁월 그룹 결정부 304: 그룹 에너지 산출부
305: 총 에너지 산출부 306: 놈 분산 산출부
307: 총 놈 분산 산출부 308: 그룹 비트 배분부
309: 서브밴드 비트 배분부

Claims (10)

  1. 입력 신호를 시간 영역으로부터 주파수 영역으로 변환하는 변환 수단과,
    상기 입력 신호의 주파수 스펙트럼이 분할되어 된 복수의 서브밴드의 각각에 대해서, 에너지 레벨을 나타내는 에너지 포락선을 추정하는 추정 수단과,
    상기 에너지 포락선을 양자화하는 양자화 수단과,
    양자화된 상기 에너지 포락선을 복수의 그룹으로 그룹화하는 그룹 결정 수단과,
    상기 복수의 그룹에 비트를 할당하는 제1 비트 할당 수단과,
    상기 복수의 그룹에 할당된 비트를 그룹마다 서브밴드에 할당하는 제2 비트 할당 수단과,
    상기 서브밴드에 할당된 비트를 이용하여, 상기 주파수 스펙트럼을 부호화하는 부호화 수단을
    구비하는 음성 음향 부호화 장치.
  2. 청구항 1에 있어서,
    상기 주파수 스펙트럼 중, 에너지 포락선이 극대치를 가지는 서브밴드인 탁월 주파수 밴드를 식별하는 탁월 주파수 밴드 식별 수단을 더 구비하고,
    상기 그룹 결정 수단은,
    상기 탁월 주파수 밴드 및, 상기 탁월 주파수 밴드의 양쪽에 있어서의 에너지 포락선의 하향 구배를 이루는 서브밴드를 탁월 그룹으로 결정하고, 상기 탁월 주파수 밴드 이외의 연속하는 서브밴드를 비탁월 그룹으로 결정하는,
    음성 음향 부호화 장치.
  3. 청구항 1에 있어서,
    그룹마다의 에너지를 산출하는 에너지 산출 수단과,
    그룹마다의 에너지 포락선 분산을 산출하는 분산 산출 수단을 더 구비하고,
    상기 제1 비트 할당 수단은,
    산출된 상기 그룹마다의 에너지 및 상기 그룹마다의 에너지 포락선 분산에 기초하여, 에너지 및 에너지 포락선 분산의 적어도 한쪽이 클수록, 보다 많은 비트를 그룹에 할당하고, 에너지 및 에너지 포락선 분산의 적어도 한쪽이 작을수록, 보다 적은 비트를 그룹에 할당하는,
    음성 음향 부호화 장치.
  4. 청구항 1에 있어서,
    상기 제2 비트 할당 수단은,
    상기 서브밴드의 에너지 포락선이 클수록, 해당 서브밴드에 보다 많은 비트를 할당하고, 상기 서브밴드의 에너지 포락선이 작을수록, 해당 서브밴드에 보다 적은 비트를 할당하는,
    음성 음향 부호화 장치.
  5. 양자화된 스펙트럼 포락선을 역양자화하는 역양자화 수단과,
    양자화된 상기 스펙트럼 포락선을 복수의 그룹으로 그룹화하는 그룹 결정 수단과,
    상기 복수의 그룹에 비트를 할당하는 제1 비트 할당 수단과,
    상기 복수의 그룹에 할당된 비트를 그룹마다 서브밴드에 할당하는 제2 비트 할당 수단과,
    상기 서브밴드에 할당된 비트를 이용하여, 음성 음향 신호의 주파수 스펙트럼을 복호하는 복호 수단과,
    복호된 상기 주파수 스펙트럼에 역양자화된 상기 스펙트럼 포락선을 적용하여, 복호 스펙트럼을 재현하는 포락선 성형 수단과,
    상기 복호 스펙트럼을 주파수 영역으로부터 시간 영역으로 역변환하는 역변환 수단을
    구비하는 음성 음향 복호 장치.
  6. 청구항 5에 있어서,
    상기 주파수 스펙트럼 중, 에너지 포락선이 극대치를 가지는 서브밴드인 탁월 주파수 밴드를 식별하는 탁월 주파수 밴드 식별 수단을 더 구비하고,
    상기 그룹 결정 수단은,
    상기 탁월 주파수 밴드, 및, 상기 탁월 주파수 밴드의 양쪽에 있어서의 에너지 포락선의 하향 구배를 이루는 서브밴드를 탁월 그룹으로 결정하고, 상기 탁월 주파수 밴드 이외의 연속하는 서브밴드를 비탁월 그룹으로 결정하는,
    음성 음향 복호 장치.
  7. 청구항 5에 있어서,
    그룹마다의 에너지를 산출하는 에너지 산출 수단과,
    그룹마다의 에너지 포락선 분산을 산출하는 분산 산출 수단을 더 구비하고,
    상기 제1 비트 할당 수단은,
    산출된 상기 그룹마다의 에너지 및 상기 그룹마다의 에너지 포락선 분산에 기초하여, 에너지 및 에너지 포락선 분산의 적어도 한쪽이 클수록, 보다 많은 비트를 그룹에 할당하고, 에너지 및 에너지 포락선 분산의 적어도 한쪽이 작을수록, 보다 적은 비트를 그룹에 할당하는,
    음성 음향 복호 장치.
  8. 청구항 5에 있어서,
    상기 제2 비트 할당 수단은,
    상기 서브밴드의 에너지 포락선이 클수록, 해당 서브밴드에 보다많은 비트를 할당하고, 상기 서브밴드의 에너지 포락선이 작을수록, 해당 서브밴드에 보다 적은 비트를 할당하는,
    음성 음향 복호 장치.
  9. 입력 신호를 시간 영역으로부터 주파수 영역으로 변환하고,
    상기 입력 신호의 주파수 스펙트럼이 분할되어 된 복수의 서브밴드의 각각에 대하여, 에너지 레벨을 나타내는 에너지 포락선을 추정하고,
    상기 에너지 포락선을 양자화하고,
    양자화된 상기 에너지 포락선을 복수의 그룹으로 그룹화하고,
    상기 복수의 그룹에 비트를 할당하고,
    상기 복수의 그룹에 할당된 비트를 그룹마다 서브밴드에 할당하고,
    상기 서브밴드에 할당된 비트를 이용하여, 상기 주파수 스펙트럼을 부호화하는,
    음성 음향 부호화 방법.
  10. 양자화된 스펙트럼 포락선을 역양자화하고,
    양자화된 상기 스펙트럼 포락선을 복수의 그룹으로 그룹화하고,
    상기 복수의 그룹에 비트를 할당하고,
    상기 복수의 그룹에 할당된 비트를 그룹마다 서브밴드에 할당하고,
    상기 서브밴드에 할당된 비트를 이용하여, 음성 음향 신호의 주파수 스펙트럼을 복호하고,
    복호된 상기 주파수 스펙트럼에 역양자화된 상기 스펙트럼 포락선을 적용하여, 복호 스펙트럼을 재현하고,
    상기 복호 스펙트럼을 주파수 영역으로부터 시간 영역으로 역변환하는,
    음성 음향 복호 방법.
KR1020157016672A 2012-12-13 2013-11-26 음성 음향 부호화 장치, 음성 음향 복호 장치, 음성 음향 부호화 방법 및 음성 음향 복호 방법 KR102200643B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2012272571 2012-12-13
JPJP-P-2012-272571 2012-12-13
PCT/JP2013/006948 WO2014091694A1 (ja) 2012-12-13 2013-11-26 音声音響符号化装置、音声音響復号装置、音声音響符号化方法及び音声音響復号方法

Publications (2)

Publication Number Publication Date
KR20150095702A true KR20150095702A (ko) 2015-08-21
KR102200643B1 KR102200643B1 (ko) 2021-01-08

Family

ID=50934002

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020157016672A KR102200643B1 (ko) 2012-12-13 2013-11-26 음성 음향 부호화 장치, 음성 음향 복호 장치, 음성 음향 부호화 방법 및 음성 음향 복호 방법

Country Status (13)

Country Link
US (3) US9767815B2 (ko)
EP (3) EP3457400B1 (ko)
JP (3) JP6535466B2 (ko)
KR (1) KR102200643B1 (ko)
CN (2) CN107516531B (ko)
BR (1) BR112015013233B8 (ko)
ES (3) ES2706148T3 (ko)
HK (1) HK1249651A1 (ko)
MX (1) MX341885B (ko)
PL (3) PL2933799T3 (ko)
PT (2) PT3232437T (ko)
RU (1) RU2643452C2 (ko)
WO (1) WO2014091694A1 (ko)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
PL2933799T3 (pl) * 2012-12-13 2017-12-29 Panasonic Intellectual Property Corporation Of America Urządzenie kodujące głos, urządzenie dekodujące głos, sposób kodowania głosu i sposób dekodowania głosu
BR112016010273B1 (pt) * 2013-11-07 2022-05-31 Telefonaktiebolaget Lm Ericsson (Publ) Método para particionamento de vetores de entrada para codificação de sinais de áudio, unidade de particionamento, codificador e meio não-transitório legível por máquina
EP3040987B1 (en) * 2013-12-02 2019-05-29 Huawei Technologies Co., Ltd. Encoding method and apparatus
JP6318904B2 (ja) * 2014-06-23 2018-05-09 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム
MX356371B (es) 2014-07-25 2018-05-25 Fraunhofer Ges Forschung Dispositivo de codificacion de señal acustica, dispositivo de decodificacion de señal acustica, metodo para codificar una señal acustica y metodo para decodificar una señal acustica.
US10699721B2 (en) * 2017-04-25 2020-06-30 Dts, Inc. Encoding and decoding of digital audio signals using difference data
KR20190069192A (ko) 2017-12-11 2019-06-19 한국전자통신연구원 오디오 신호의 채널 파라미터 예측 방법 및 장치
US10559315B2 (en) 2018-03-28 2020-02-11 Qualcomm Incorporated Extended-range coarse-fine quantization for audio coding
US10586546B2 (en) 2018-04-26 2020-03-10 Qualcomm Incorporated Inversely enumerated pyramid vector quantizers for efficient rate adaptation in audio coding
US10734006B2 (en) 2018-06-01 2020-08-04 Qualcomm Incorporated Audio coding based on audio pattern recognition
US10580424B2 (en) * 2018-06-01 2020-03-03 Qualcomm Incorporated Perceptual audio coding as sequential decision-making problems
US10762910B2 (en) 2018-06-01 2020-09-01 Qualcomm Incorporated Hierarchical fine quantization for audio coding
CN109286922B (zh) * 2018-09-27 2021-09-17 珠海市杰理科技股份有限公司 蓝牙提示音处理方法、系统、可读存储介质和蓝牙设备
KR20200142787A (ko) 2019-06-13 2020-12-23 네이버 주식회사 멀티미디어 신호 인식을 위한 전자 장치 및 그의 동작 방법
CN112037802B (zh) * 2020-05-08 2022-04-01 珠海市杰理科技股份有限公司 基于语音端点检测的音频编码方法及装置、设备、介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120029925A1 (en) * 2010-07-30 2012-02-02 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for dynamic bit allocation
WO2012144128A1 (ja) * 2011-04-20 2012-10-26 パナソニック株式会社 音声音響符号化装置、音声音響復号装置、およびこれらの方法

Family Cites Families (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4899384A (en) * 1986-08-25 1990-02-06 Ibm Corporation Table controlled dynamic bit allocation in a variable rate sub-band speech coder
US5222189A (en) * 1989-01-27 1993-06-22 Dolby Laboratories Licensing Corporation Low time-delay transform coder, decoder, and encoder/decoder for high-quality audio
US5893065A (en) * 1994-08-05 1999-04-06 Nippon Steel Corporation Apparatus for compressing audio data
US5956674A (en) 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
JP3189660B2 (ja) * 1996-01-30 2001-07-16 ソニー株式会社 信号符号化方法
US6246945B1 (en) * 1996-08-10 2001-06-12 Daimlerchrysler Ag Process and system for controlling the longitudinal dynamics of a motor vehicle
JPH10233692A (ja) * 1997-01-16 1998-09-02 Sony Corp オーディオ信号符号化装置および符号化方法並びにオーディオ信号復号装置および復号方法
KR100261254B1 (ko) * 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 데이터 부호화/복호화방법 및 장치
KR100261253B1 (ko) 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 부호화/복호화 방법및 장치
JP3466507B2 (ja) * 1998-06-15 2003-11-10 松下電器産業株式会社 音声符号化方式、音声符号化装置、及びデータ記録媒体
DE69924922T2 (de) * 1998-06-15 2006-12-21 Matsushita Electric Industrial Co., Ltd., Kadoma Audiokodierungsmethode und Audiokodierungsvorrichtung
JP3434260B2 (ja) * 1999-03-23 2003-08-04 日本電信電話株式会社 オーディオ信号符号化方法及び復号化方法、これらの装置及びプログラム記録媒体
JP4843142B2 (ja) 1999-04-16 2011-12-21 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション 音声符号化のための利得−適応性量子化及び不均一符号長の使用
US6246345B1 (en) 1999-04-16 2001-06-12 Dolby Laboratories Licensing Corporation Using gain-adaptive quantization and non-uniform symbol lengths for improved audio coding
JP4242516B2 (ja) * 1999-07-26 2009-03-25 パナソニック株式会社 サブバンド符号化方式
JP4168976B2 (ja) * 2004-05-28 2008-10-22 ソニー株式会社 オーディオ信号符号化装置及び方法
KR100888474B1 (ko) * 2005-11-21 2009-03-12 삼성전자주식회사 멀티채널 오디오 신호의 부호화/복호화 장치 및 방법
JP4548348B2 (ja) 2006-01-18 2010-09-22 カシオ計算機株式会社 音声符号化装置及び音声符号化方法
KR101434198B1 (ko) * 2006-11-17 2014-08-26 삼성전자주식회사 신호 복호화 방법
WO2008072670A1 (ja) * 2006-12-13 2008-06-19 Panasonic Corporation 符号化装置、復号装置、およびこれらの方法
JP4973397B2 (ja) 2007-09-04 2012-07-11 日本電気株式会社 符号化装置および符号化方法、ならびに復号化装置および復号化方法
CA2705968C (en) * 2007-11-21 2016-01-26 Lg Electronics Inc. A method and an apparatus for processing a signal
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
WO2010031003A1 (en) * 2008-09-15 2010-03-18 Huawei Technologies Co., Ltd. Adding second enhancement layer to celp based core layer
KR101301245B1 (ko) * 2008-12-22 2013-09-10 한국전자통신연구원 스펙트럼 계수의 서브대역 할당 방법 및 장치
US8386266B2 (en) * 2010-07-01 2013-02-26 Polycom, Inc. Full-band scalable audio codec
CN102081927B (zh) * 2009-11-27 2012-07-18 中兴通讯股份有限公司 一种可分层音频编码、解码方法及系统
JP5511848B2 (ja) 2009-12-28 2014-06-04 パナソニック株式会社 音声符号化装置および音声符号化方法
WO2011086924A1 (ja) 2010-01-14 2011-07-21 パナソニック株式会社 音声符号化装置および音声符号化方法
US8831932B2 (en) * 2010-07-01 2014-09-09 Polycom, Inc. Scalable audio in a multi-point environment
EP2631905A4 (en) 2010-10-18 2014-04-30 Panasonic Corp DEVICE FOR TONE CODING AND TONE DECODING
CN105225669B (zh) * 2011-03-04 2018-12-21 瑞典爱立信有限公司 音频编码中的后量化增益校正
KR101995694B1 (ko) * 2011-04-20 2019-07-02 파나소닉 인텔렉츄얼 프로퍼티 코포레이션 오브 아메리카 허프만 부호화를 실행하기 위한 장치 및 방법
AU2012256550B2 (en) 2011-05-13 2016-08-25 Samsung Electronics Co., Ltd. Bit allocating, audio encoding and decoding
CN102208188B (zh) * 2011-07-13 2013-04-17 华为技术有限公司 音频信号编解码方法和设备
EP2772912B1 (en) * 2011-10-28 2016-08-10 Panasonic Intellectual Property Corporation of America Audio encoding apparatus, audio decoding apparatus, audio encoding method, and audio decoding method
US9454972B2 (en) 2012-02-10 2016-09-27 Panasonic Intellectual Property Corporation Of America Audio and speech coding device, audio and speech decoding device, method for coding audio and speech, and method for decoding audio and speech
PL2933799T3 (pl) * 2012-12-13 2017-12-29 Panasonic Intellectual Property Corporation Of America Urządzenie kodujące głos, urządzenie dekodujące głos, sposób kodowania głosu i sposób dekodowania głosu
EP3040987B1 (en) * 2013-12-02 2019-05-29 Huawei Technologies Co., Ltd. Encoding method and apparatus
JP6358500B2 (ja) 2014-06-06 2018-07-18 株式会社リコー クリーニングブレード、画像形成装置、及びプロセスカートリッジ

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120029925A1 (en) * 2010-07-30 2012-02-02 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for dynamic bit allocation
WO2012144128A1 (ja) * 2011-04-20 2012-10-26 パナソニック株式会社 音声音響符号化装置、音声音響復号装置、およびこれらの方法
US20130339012A1 (en) * 2011-04-20 2013-12-19 Panasonic Corporation Speech/audio encoding apparatus, speech/audio decoding apparatus, and methods thereof

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ITU-T Recommendation G.719, "Low-complexity full-band audio coding for high-quality conversation applications,"ITU-T, 2009.
Low-complexity, full-band audio coding for high-quality, conversational applications. Recommendation ITU-T G.719. 2008.06.* *

Also Published As

Publication number Publication date
EP3232437A1 (en) 2017-10-18
WO2014091694A1 (ja) 2014-06-19
CN104838443A (zh) 2015-08-12
MX341885B (es) 2016-09-07
EP3232437B1 (en) 2018-11-21
HK1249651A1 (zh) 2018-11-02
RU2015121716A (ru) 2017-01-16
EP2933799B1 (en) 2017-07-12
EP2933799A1 (en) 2015-10-21
RU2643452C2 (ru) 2018-02-01
EP3457400C0 (en) 2023-08-16
BR112015013233B1 (pt) 2021-02-23
EP2933799A4 (en) 2016-01-13
US20150317991A1 (en) 2015-11-05
PL3457400T3 (pl) 2024-02-19
US20170345431A1 (en) 2017-11-30
JP2019191594A (ja) 2019-10-31
JP6535466B2 (ja) 2019-06-26
EP3457400A1 (en) 2019-03-20
US10102865B2 (en) 2018-10-16
PT2933799T (pt) 2017-09-05
CN107516531A (zh) 2017-12-26
ES2643746T3 (es) 2017-11-24
BR112015013233B8 (pt) 2021-03-16
PL2933799T3 (pl) 2017-12-29
ES2706148T3 (es) 2019-03-27
CN107516531B (zh) 2020-10-13
US20190027155A1 (en) 2019-01-24
BR112015013233A2 (pt) 2017-07-11
PL3232437T3 (pl) 2019-05-31
JP7010885B2 (ja) 2022-01-26
CN104838443B (zh) 2017-09-22
JPWO2014091694A1 (ja) 2017-01-05
ES2970676T3 (es) 2024-05-30
MX2015006161A (es) 2015-08-07
KR102200643B1 (ko) 2021-01-08
JP2022050609A (ja) 2022-03-30
PT3232437T (pt) 2019-01-11
US10685660B2 (en) 2020-06-16
US9767815B2 (en) 2017-09-19
EP3457400B1 (en) 2023-08-16

Similar Documents

Publication Publication Date Title
JP7010885B2 (ja) 音声または音響符号化装置、音声または音響復号装置、音声または音響符号化方法及び音声または音響復号方法
JP2019168699A (ja) ビット割り当て装置
JP5267362B2 (ja) オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラムならびに映像伝送装置
JP6717746B2 (ja) 音響信号符号化装置、音響信号復号装置、音響信号符号化方法および音響信号復号方法
KR101621641B1 (ko) 신호 코딩 및 디코딩 방법 및 장치
EP3525206B1 (en) Encoding method and apparatus
US9111533B2 (en) Audio coding device, method, and computer-readable recording medium storing program
US9548057B2 (en) Adaptive gain-shape rate sharing
JP6400590B2 (ja) 音響信号符号化装置、音響信号復号装置、端末装置、基地局装置、音響信号符号化方法及び復号方法
JP2019070823A (ja) 音響信号符号化装置、音響信号復号装置、音響信号符号化方法および音響信号復号方法

Legal Events

Date Code Title Description
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant