KR101576318B1 - 스펙트럼 평활화 장치, 부호화 장치, 복호 장치, 통신 단말 장치, 기지국 장치 및 스펙트럼 평활화 방법 - Google Patents

스펙트럼 평활화 장치, 부호화 장치, 복호 장치, 통신 단말 장치, 기지국 장치 및 스펙트럼 평활화 방법 Download PDF

Info

Publication number
KR101576318B1
KR101576318B1 KR1020117002822A KR20117002822A KR101576318B1 KR 101576318 B1 KR101576318 B1 KR 101576318B1 KR 1020117002822 A KR1020117002822 A KR 1020117002822A KR 20117002822 A KR20117002822 A KR 20117002822A KR 101576318 B1 KR101576318 B1 KR 101576318B1
Authority
KR
South Korea
Prior art keywords
subband
spectrum
smoothing
value
frequency
Prior art date
Application number
KR1020117002822A
Other languages
English (en)
Other versions
KR20110049789A (ko
Inventor
도모후미 야마나시
마사히로 오시키리
도시유키 모리이
히로유키 에하라
Original Assignee
파나소닉 인텔렉츄얼 프로퍼티 코포레이션 오브 아메리카
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 파나소닉 인텔렉츄얼 프로퍼티 코포레이션 오브 아메리카 filed Critical 파나소닉 인텔렉츄얼 프로퍼티 코포레이션 오브 아메리카
Publication of KR20110049789A publication Critical patent/KR20110049789A/ko
Application granted granted Critical
Publication of KR101576318B1 publication Critical patent/KR101576318B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components

Abstract

음성 신호로부터 산출되는 스펙트럼에 대해서, 비선형 변환한 후에, 평활화를 행하는 구성에 있어서, 양호한 음성 품질을 유지하면서, 처리 연산량을 큰폭으로 삭감시키는 스펙트럼 평활화 장치를 개시한다. 이 스펙트럼 평활화 장치에 있어서, 서브밴드 분할부(102)는, 입력 스펙트럼을 복수의 서브밴드로 분할하고, 대표값 산출부(103)는, 서브밴드마다, 산술 평균 및 기하 평균을 이용해 대표값을 산출하고, 비선형 변환부(104)는, 각 대표값에 대해서 값이 클수록 보다 강조하는 특성의 비선형 변환을 행하고, 평활화부(105)는, 해당 서브밴드 마다의 비선형 변환된 대표값을 주파수 영역에서 평활화한다.

Description

스펙트럼 평활화 장치, 부호화 장치, 복호 장치, 통신 단말 장치, 기지국 장치 및 스펙트럼 평활화 방법{SPECTRAL SMOOTHING DEVICE, ENCODING DEVICE, DECODING DEVICE, COMMUNICATION TERMINAL DEVICE, BASE STATION DEVICE, AND SPECTRAL SMOOTHING METHOD}
본 발명은, 음성 신호의 스펙트럼을 평활화하는 스펙트럼 평활화 장치, 부호화 장치, 복호 장치, 통신 단말 장치, 기지국 장치 및 스펙트럼 평활화 방법에 관한 것이다.
인터넷 통신으로 대표되는 패킷 통신 시스템이나, 이동 통신 시스템 등으로 음성·악음 신호를 전송하는 경우, 음성·악음 신호의 전송 효율을 높이기 위해, 압축·부호화 기술이 자주 사용된다. 또, 최근에는, 단순히 저비트레이트(低bit rate)로 음성·악음 신호를 부호화하는 한편, 보다 고품질의 음성·악음 신호를 부호화하는 기술에 대한 요구가 높아지고 있다.
이러한 요구에 대해서, 음성 신호를 직교변환(시간-주파수 변환)하여, 음성 신호의 주파수 성분(스펙트럼)을 산출하고, 산출한 스펙트럼에 대해서, 선형 변환 및 비선형 변환등의 처리를 행하여 복호 신호의 품질을 높이기 위한 여러가지 기술이 개발되어 오고 있다(예를 들면, 특허 문헌 1 참조). 특허 문헌 1에 개시되는 방법에서는, 우선 일정시간 길이의 음성 신호로부터 해당 음성 신호에 포함되는 주파수 스펙트럼을 분석하고, 분석한 스펙트럼에 대해서, 스펙트럼 강도의 값이 클수록, 보다 강조하는 비선형 변환 처리를 행한다. 다음에, 비선형 변환 처리된 스펙트럼에 대해서, 주파수 영역에서 선형의 평활화 처리를 행한다. 그 후, 비선형 변환 특성을 없애기 위한 역(逆)비선형 변환 처리를 행하고, 다시 평활화 특성을 없애기 위한 역평활화 처리를 행함으로써, 음성 신호에 포함되는 전(全)대역의 잡음 성분을 억제한다. 이와 같이, 특허 문헌 1에 개시되는 방법에서는, 음성 신호로부터 얻어지는 스펙트럼의 전(全) 샘플에 대해 비선형 변환 처리를 행한 후, 스펙트럼의 평활화를 행함으로써, 양호한 품질의 음성 신호를 얻는다. 또한, 특허 문헌 1에는, 비선형 처리의 예로서, 거듭제곱, 대수 변환 등의 변환 방법이 열거되어 있다.
일본 공개 특허 공보 제 2002-244695 호 국제 공개 공보 제 2007/037361호 팜플렛
Yuichiro TAKAMIZAWA, Toshiyuki NOMURA and Masao IKEKAWA, "High-Quality and Processor-Efficient Implementation of and MPEG-2 AAC Encoder", IEICE TRANS. INF. &SYST., VOL.E86-D, No.3 MARCH 2003
그렇지만, 특허 문헌 1에 개시되는 방법에서는, 음성 신호로부터 얻어지는 스펙트럼의 전(全)샘플에 대해서 비선형 변환 처리를 행하기 때문에, 처리 연산량이 방대해 진다는 문제점이 존재한다. 또, 처리 연산량을 삭감하기 위해서, 단순히, 스펙트럼의 샘플로부터 일부 샘플을 추출하고, 추출한 샘플에 대해서 비선형 변환 처리를 행하는 것만으로는, 비선형 변환 후에 스펙트럼의 평활화를 행하여도, 충분히 높은 음성 품질을 얻을 수 있는 것은 아니다.
본 발명의 목적은, 음성 신호로부터 산출되는 스펙트럼에 대해서, 비선형 변환한 후에, 평활화를 행하는 구성에 있어서, 양호한 음성 품질을 유지하면서, 처리 연산량을 큰폭으로 삭감시킬 수 있는 스펙트럼 평활화 장치, 부호화 장치, 복호 장치, 통신 단말 장치, 기지국 장치 및 스펙트럼 평활화 방법을 제공하는 것이다.
본 발명의 스펙트럼 평활화 장치는, 입력되는 신호를 시간-주파수 변환하여 주파수 성분을 생성하는 시간-주파수 변환 수단과, 상기 주파수 성분을 복수의 서브밴드로 분할하는 서브밴드 분할 수단과, 상기 분할된 각 서브밴드에 대해서, 산술 평균의 계산 및 그 계산 결과를 이용한 곱셈 연산을 이용해 서브밴드의 대표값을 산출하는 대표값 산출 수단과, 상기 서브밴드 마다의 대표값에 대해서 비선형 변환을 행하는 비선형 변환 수단과, 상기 비선형 변환된 대표값을 주파수 영역에서 평활화하는 평활화 수단을 구비하는 구성을 취한다.
본 발명의 스펙트럼 평활화 방법은, 입력되는 신호를 시간-주파수 변환하여 주파수 성분을 생성하는 시간-주파수 변환 스텝과, 상기 주파수 성분을 복수의 서브밴드로 분할하는 서브밴드 분할 스텝과, 상기 분할된 각 서브밴드에 대해서, 산술 평균의 계산 및 그 계산 결과를 이용한 곱셈 연산을 이용해 서브밴드의 대표값을 산출하는 대표값 산출 스텝과, 상기 서브밴드 마다의 대표값에 대해서 비선형 변환을 행하는 비선형 변환 스텝과, 상기 비선형 변환된 대표값을 주파수 영역에서 평활화하는 평활화 스텝을 가지도록 했다.
본 발명에 의하면, 양호한 음성 품질을 유지하면서, 처리 연산량을 큰폭으로 삭감시키는 것이 가능하게 된다.
도 1은 본 발명의 실시형태 1에 따른 처리의 개요를 나타내는 스펙트럼 개략도,
도 2는 실시형태 1에 따른 스펙트럼 평활화 장치의 주요부 구성을 나타내는 블록도,
도 3은 실시형태 1에 따른 대표값 산출부의 주요부 구성을 나타내는 블록도,
도 4는 실시형태 1에 있어서의 입력 신호의 서브밴드 및 서브 그룹의 구성을 나타내는 개략도,
도 5는 본 발명의 실시형태 2에 따른 부호화 장치 및 복호 장치를 가지는 통신 시스템의 구성을 나타내는 블록도,
도 6은 실시형태 2에 따른 도 5에 나타낸 부호화 장치의 내부의 주요한 구성을 나타내는 블록도,
도 7은 실시형태 2에 따른 도 6에 나타낸 제2 레이어 부호화부의 내부의 주요한 구성을 나타내는 블록도,
도 8은 실시형태 2에 따른 도 7에 나타낸 스펙트럼 평활부의 주요한 구성을 나타내는 블록도,
도 9는 실시형태 2에 따른 도 7에 나타낸 필터링부에 있어서의 필터링 처리의 상세한 것에 대해서 설명하기 위한 도면,
도 10은 실시형태 2에 따른 도 7에 나타낸 탐색부에 있어서 서브밴드 SBp에 대해서 최적 피치 계수 Tp'를 탐색하는 처리의 순서를 나타내는 흐름도,
도 11은 실시형태 2에 따른 도 5에 나타낸 복호 장치의 내부의 주요한 구성을 나타내는 블록도,
도 12는 실시형태 2에 따른 도 11에 나타낸 제2 레이어 복호부의 내부의 주요한 구성을 나타내는 블록도.
이하, 본 발명의 실시형태에 대해서, 도면을 참조하여 상세히 설명한다.
(실시형태 1)
우선, 본 발명의 실시형태에 따른 스펙트럼 평활화 방법의 개요에 대해서, 도 1을 이용해 설명한다. 도 1은, 본 실시형태에 따른 스펙트럼 평활화 방법의 개요를 설명하기 위한 스펙트럼 도면이다.
도 1(a)에, 입력 신호의 스펙트럼을 나타낸다. 본 실시형태에서는, 우선, 입력 신호의 스펙트럼을 복수의 서브밴드로 분할한다. 도 1(b)에, 복수의 서브밴드로 분할된 입력 신호의 스펙트럼의 양상을 나타낸다. 또한, 도 1의 스펙트럼 도면은, 본 발명의 개요를 설명하기 위한 것으로서, 예를 들면, 본 발명은, 도면 내의 서브밴드수로 제한되는 것은 아니다.
다음에, 각 서브밴드마다 대표값을 산출한다. 구체적으로는, 서브밴드내의 샘플을 다시 복수의 서브 그룹으로 분할한다. 그리고, 서브 그룹마다 스펙트럼의 절대값의 산술 평균(상가(相加) 평균)을 산출한다.
다음에, 각 서브 그룹의 산술 평균값의 기하 평균(幾何平均)(상승(相乘) 평균)을 서브밴드마다 산출한다. 또한, 상기의 기하 평균값은, 이 시점에서는 아직 정확한 기하 평균값이 아니라, 각 서브 그룹의 산술 평균값을 단순하게 서로 곱한 값을 산출하며, 정확한 기하 평균값은, 후술하는 비선형 변환 후에 구하는 것으로 한다. 상기의 처리는 한층 더 연산량 삭감을 위한 것으로서, 물론 이 시점에서 정확한 기하 평균값을 구해도 상관없다.
상기의 기하 평균값을 각 서브밴드의 대표값으로 한다. 도 1(c)에, 점선으로 나타내는 입력 신호의 스펙트럼에 겹쳐서, 각 서브밴드의 대표값을 나타낸다. 또한, 설명을 알기 쉽게하기 위해, 도 1(c)에는, 각 서브 그룹의 산술 평균값을 단순하게 곱한 값을 대신하여, 정확한 기하 평균값을 대표값으로서 나타낸다.
다음에, 각 서브밴드의 대표값에 대해서, 입력 신호의 스펙트럼에 대해서 스펙트럼 강도의 값이 클수록, 보다 강조하는 비선형 변환(예를 들면, 대수 변환)을 행한 후, 주파수 영역에서 평활화 처리를 행한다. 그 후, 역비선형 변환(예를 들면, 대수 역변환)을 행하여, 각 서브밴드마다 평활화 스펙트럼을 산출한다. 도1(d)에, 점선으로 나타내는 입력 신호의 스펙트럼에 겹쳐서, 각 서브밴드 마다의 평활화 스펙트럼을 나타낸다.
이러한 처리에 의해, 대수 영역에 있어서의 스펙트럼의 평활화를, 음성 품질의 열화를 억제하면서 또 처리 연산량을 큰폭으로 삭감할 수가 있다. 이하, 해당 효과를 얻는 본 발명의 실시형태에 따른 스펙트럼 평활화 장치의 구성에 대해서 설명한다.
본 실시형태에 따른 스펙트럼 평활화 장치는, 입력 스펙트럼을 평활화하고, 평활화 후의 스펙트럼(이하 「평활화 스펙트럼」이라고 함)을 출력 신호로서 출력한다. 보다 구체적으로는, 스펙트럼 평활화 장치는, 입력 신호를 N샘플씩에 단락지어(N은 자연수), N샘플을 1 프레임으로 하여 프레임마다 평활화 처리를 행한다. 여기서, 평활화 처리의 대상이 되는 입력 신호를 xn(n=0,…, N-1)라고 표시한다. xn은, N샘플씩 단락지어진 입력 신호 중, n+1번째 샘플을 나타낸다.
도 2에, 본 실시형태에 따른 스펙트럼 평활화 장치(100)의 주요부 구성을 나타낸다.
도 2에 나타내는 스펙트럼 평활화 장치(100)는, 시간-주파수 변환 처리부(101), 서브밴드 분할부(102), 대표값 산출부(103), 비선형 변환부(104), 평활화부(105), 및 역비선형 변환부(106)로 주로 구성된다.
시간-주파수 변환 처리부(101)는, 입력 신호 xn에 대해서 고속 푸리에 변환(FFT:Fast Fourier Transform)을 행하여, 주파수 성분의 스펙트럼 S1(k)(이하, 입력 스펙트럼)를 산출한다.
그리고, 시간-주파수 변환 처리부(101)는, 입력 스펙트럼 S1(k)를 서브밴드 분할부(102)에 출력한다.
서브밴드 분할부(102)는, 시간-주파수 변환 처리부(101)로부터 입력되는 입력 스펙트럼 S1(k)를 P개(P는 2이상의 정수)의 서브밴드로 분할한다. 이하에서는, 서브밴드 분할부(102)가, 각 서브밴드의 샘플수가 동일하게 되도록, 입력 스펙트럼 S1(k)를 분할하는 경우를 예로 설명한다. 또한, 각 서브밴드의 샘플수는, 서브밴드마다 차이가 나도 괜찮다. 서브밴드 분할부(102)는, 서브밴드로 분할된 스펙트럼(이하 「서브밴드 스펙트럼」이라고도 말함)을 대표값 산출부(103)에 출력한다.
대표값 산출부(103)는, 서브밴드 분할부(102)로부터 입력되는, 서브밴드로 분할된 입력 스펙트럼의 각 서브밴드에 대해서 대표값을 산출하고, 산출한 서브밴드 마다의 대표값을 비선형 변환부(104)에 출력한다. 대표값 산출부(103)의 자세한 처리에 대해서는 후술한다.
도 3에, 대표값 산출부(103)의 내부 구성을 나타낸다. 도3에 나타내는 대표값 산출부(103)는, 상가 평균 산출부(201), 및 상승 평균 산출부(202)를 구비한다.
우선, 서브밴드 분할부(102)로부터 서브밴드 스펙트럼이 상가 평균 산출부(201)에 입력된다.
상가 평균 산출부(201)는, 입력된 서브밴드 스펙트럼의 각 서브밴드를, 다시 Q개(Q는 2이상의 정수)의 서브 그룹(제0 서브 그룹~ 제Q-1 서브 그룹)으로 분할한다. 또한, 이하에서는, Q개의 각 서브 그룹이, 각각 R개(R은 2이상의 정수)의 샘플로 구성되는 경우를 예로 설명한다. 또한, 여기에서는 Q개의 각 서브 그룹이 모두 R개의 샘플로 구성되는 경우에 대해서 설명하지만, 각 서브 그룹내의 샘플은 물론 다른 수이어도 상관없다.
도 4에, 서브밴드 및 서브 그룹의 구성예를 나타낸다. 도 4는, 일례로서 1 서브밴드를 구성하는 샘플수가 8이고, 서브밴드를 구성하는 서브 그룹수Q가 2이며, 서브 그룹내의 샘플수R이 4인 경우를 나타낸다.
다음에, 상가평균 산출부(201)는, Q개의 서브 그룹 각각에 대해서, 수학식(1)을 이용하여, 각 서브 그룹에 포함되는 스펙트럼(FFT 계수)의 절대값의 산술 평균(상가평균)을 산출한다.
Figure 112011008463591-pct00001
또한, 식(1)에 있어서, AVE1q는, 제q서브 그룹에 포함되는 스펙트럼(FFT 계수)의 절대값의 산술 평균(상가평균)이고, BSq는, 제q서브 그룹의 선두 샘플의 인덱스를 나타낸다.
다음에, 상가 평균 산출부(201)는, 산출한 서브밴드 마다의 산술 평균(상가 평균)값 스펙트럼 AVE1q(q=0~Q-1)(서브밴드 산술 평균값 스펙트럼)을 상승 평균 산출부(202)에 출력한다.
상승 평균 산출부(202)는, 상가 평균 산출부(201)로부터 입력되는 서브밴드 마다의 산술 평균값(상가 평균) 스펙트럼 AVE1q(q=0~Q-1)를, 수학식(2)에 나타내는 것처럼 전부 곱하여, 서브밴드마다 대표값 스펙트럼 (서브밴드 대표값 스펙트럼) AVE2p(p=0~P-1)를 산출한다.
Figure 112011008463591-pct00002
식(2)에 있어서, P는, 서브밴드수이다.
다음에, 상승 평균 산출부(202)는, 산출한 서브밴드 대표값 스펙트럼 AVE2p(p=0~P-1)를 비선형 변환부(104)에 출력한다.
비선형 변환부(104)는, 상승 평균 산출부(202)로부터 입력되는 서브밴드 대표값 스펙트럼 AVE2p(p=0~P-1)에 대해서, 수학식(3)을 이용하여, 각 대표값에 대해서 값이 클수록 보다 강조하는 특성의 비선형 변환을 행하고, 제1 서브밴드 대수 대표값 스펙트럼 AVE3p(p=0~P-1)를 산출한다. 여기에서는, 비선형 변환 처리로서 대수 변환을 행하는 경우에 대해서 설명한다.
Figure 112011008463591-pct00003
다음에, 비선형 변환부(104)는, 수학식(4)을 이용하여, 산출한 제1 서브밴드 대수 대표값 스펙트럼 AVE3p(p=0~P-1)에 대해서, 서브 그룹수Q의 역수를 곱함으로써 제2 서브밴드 대수 대표값 스펙트럼 AVE4p(p=0~P-1)를 산출한다.
Figure 112011008463591-pct00004
상승 평균 산출부(202)에 있어서의 식(2)의 처리에서는, 단순히 각 서브밴드의 서브밴드 산술 평균값 스펙트럼 AVE1p가 곱해진 것뿐이었지만, 비선형 변환부(104)에 있어서의 식(4)의 처리에 의해 기하 평균(상승 평균)이 산출되게 된다. 이와 같이, 본 실시형태에서는, 식(3)을 이용해 대수 영역으로 변환한 후에, 수학식 (4)을 이용해 서브 그룹수Q의 역수를 곱한다. 이것에 의해, 연산량이 큰 누승근(累乘根)의 계산을, 단순한 나눗셈으로 대체할 수가 있다. 게다가 서브 그룹수Q가 정수인 경우에는, Q의 역수를 미리 산출해 둠으로써, 누승근의 계산을 단순한 곱셈으로 대체시킬 수 있으므로, 연산량을 보다 삭감하는 것이 가능하게 된다.
다음에, 비선형 변환부(104)는, 식(4)를 이용해 산출한 제2 서브밴드 대수 대표값 스펙트럼 AVE4p(p=0~P-1)를 평활화부(105)에 출력한다.
다시, 도 2로 돌아와, 평활화부(105)는, 비선형 변환부(104)로부터 입력되는 제2 서브밴드 대수 대표값 스펙트럼 AVE4p(p=0~P-1)에 대해서, 수학식(5)을 이용해, 주파수 영역에서 평활화하여, 대수 평활화 스펙트럼 AVE5p(p=0~P-1)를 산출한다.
Figure 112011008463591-pct00005
또한, 수학식(5)은, 평활화 필터링 처리를 나타내며, 식(5)에 있어서, MA_LEN는 평활화 필터링의 차수(次數)를 나타고, Wi는 평활화 필터의 가중치를 나타낸다.
또, 수학식(5)은, 서브밴드 인덱스 p가, p≥(MA_LEN-1)/2이고, 또, p≤P-1-(MA_LEN-1)/2인 경우의 대수 평활화 스펙트럼의 산출 방법이다. 서브밴드 인덱스 p가 선두, 혹은, 최후미 부근일 경우에는, 경계 조건을 고려하여, 수학식(6), 및 수학식(7)을 이용해 각각 스펙트럼을 평활화한다.
Figure 112011008463591-pct00006
Figure 112011008463591-pct00007
또한, 평활화부(105)는, 상술한 바와 같이 평활화 필터링 처리에 의한 평활화 처리로서, 단순한 이동평균에 의한 평활화를 실시해도 좋다(Wi가 모든 i에 대해서 1일 때는, 이동평균에 의한 평활화가 된다). 또, 창함수(가중치)는, 해닝 창(Hanning Window)나 기타 창함수를 이용해도 좋다.
다음에, 평활화부(105)는 산출한 대수 평활화 스펙트럼 AVE5p(p=0~P-1)를 역비선형 변환부(106)에 출력한다.
역비선형 변환부(106)는, 평활화부(105)로부터 입력되는 대수 평활화 스펙트럼 AVE5p(p=0~P-1)에 대해서 역비선형 변환으로서, 대수 역변환을 행하고, 대수 평활화 스펙트럼을 대수 영역의 값으로부터 선형 영역의 값으로 변환한다. 역비선형 변환부(106)는, 수학식(8)을 이용해, 대수 평활화 스펙트럼 AVE5p(p=0~P-1)에 대해서 대수 역변환을 행하여, 평활화 스펙트럼 AVE6p(p=0~P-1)를 산출한다.
Figure 112011008463591-pct00008
또, 역비선형 변환부(106)는, 각 서브밴드내의 샘플의 값을, 산출한 선형 영역의 평활화 스펙트럼 AVE6p(p=0~P-1)의 값으로서, 전(全)샘플의 평활화 스펙트럼을 산출한다.
역비선형 변환부(106)는, 전샘플의 평활화 스펙트럼값을 스펙트럼 평활화 장치(100)의 처리 결과로서 출력한다.
이상, 본 발명에 따른 스펙트럼 평활화 장치 및 스펙트럼 평활화 방법에 대해서 설명했다.
이상과 같이, 본 실시형태에서는, 서브밴드 분할부(102)는, 입력 스펙트럼을 복수의 서브밴드로 분할하고, 대표값 산출부(103)는, 서브밴드마다, 산술 평균, 및, 곱셈 연산 혹은 기하 평균을 이용해 대표값을 산출하고, 비선형 변환부(104)는, 각 대표값에 대해서 값이 클수록 보다 강조하는 특성의 비선형 변환을 행하고, 평활화부(105)는, 해당 서브밴드 마다의 비선형 변환된 대표값을 주파수 영역에서 평활화한다.
이와 같이, 스펙트럼의 전샘플을 복수의 서브밴드로 분할하고, 각 서브밴드에 대해서, 산술 평균(상가평균)과, 곱셈 연산 혹은 기하 평균(상승 평균)을 조합하여 대표값을 얻고, 해당 대표값을 비선형 변환한 후에 평활화함으로써, 양호한 음성 품질을 유지하면서 또 처리 연산량을 큰폭으로 줄일 수 있게 된다.
상술한 바와 같이, 본 발명에 있어서 서브밴드내의 샘플의 산술 평균과, 곱셈 연산 혹은 기하 평균을 조합해서 서브밴드의 대표값을 산출하는 구성을 취함으로써, 서브밴드내의 샘플값의 산술 평균값(상가 평균값), 즉, 선형 영역에서의 평균값을, 단순히 각 서브밴드의 대표값으로 하는 경우에 있어서, 서브밴드내의 샘플값의 크기의 격차에 의해 발생할 수 있는 음성 품질의 열화를 회피할 수 있다.
또한, 본 실시형태에서는, 시간-주파수 변환 처리로서 고속 푸리에 변환(FFT)을 예로 들어 설명했지만, 본 발명은 이것으로 한정되지 않고, 고속 푸리에 변환(FFT) 이외의 시간-주파수 변환 방법을 이용할 경우에도 동일하게 적용된다. 예를 들면, 비특허 문헌 1에서는, 청각 마스킹값의 산출(도2 참조) 시에, 고속 푸리에 변환(FFT)이 아니라, 수정 이산 코사인 변환(MDCT:Modified Discrete Cosine Transform)을 이용해 주파수 성분(스펙트럼)을 산출하고 있다. 이와 같이 시간-주파수 변환 처리부에 있어서, 수정 이산 코사인 변환(MDCT)이나 기타 시간-주파수 변환 방법을 이용하는 구성에 대해서도, 마찬가지로 본 발명은 적용된다.
또한, 상술한 구성에서는, 상승 평균 산출부(202)는, 산술 평균 (상가평균)값 스펙트럼 AVE1q(q=0~Q-1)를 곱한 것뿐이며, 누승근의 계산을 행하지 않았다. 그 때문에, 상승 평균 산출부(202)는, 정확하게는, 상승 평균값을 산출하고 있는 것은 아니다. 이것은, 상술한 바와 같이, 비선형 변환부(104)에 있어서, 비선형 변환 처리로서 식(3)을 이용해 대수 영역으로 변환한 후에, 식(4)를 이용해 서브 그룹수Q의 역수를 곱함으로써, 누승근의 계산을 단순한 나눗셈(곱셈)으로 대체시킬 수 있기 때문에, 연산량을 보다 삭감할 수 있기 때문이다.
따라서, 본 발명은, 반드시 상술의 구성으로 한정되는 것은 아니다. 예를 들면, 상승 평균 산출부(202)에 있어서, 산술 평균(상가 평균)값 스펙트럼 AVE1q(q=0~Q-1)에 대해서, 서브밴드마다 전서브 그룹의 산술 평균값 스펙트럼의 값을 곱한 후에, 서브 그룹수의 누승근을 산출하고, 산출한 누승근을 서브밴드 대표값 스펙트럼 AVE2p(p=0~P-1)로서 비선형 변환부(104)에 출력하는 구성에 있어서도 동일하게 본 발명을 적용할 수 있다. 즉, 어느 경우도, 평활화부(105)는, 비선형 변환된 서브밴드 마다의 대표값을 얻을 수 있다. 또한, 이 경우에는, 비선형 변환부(104)에 있어서, 식(4)의 연산을 생략하면 된다.
또한, 본 실시형태에서는, 서브밴드 마다의 대표값을, 우선 서브 그룹의 산술 평균값을 구하고, 다음에 서브밴드내의 전서브그룹의 산술 평균값의 기하 평균값으로 하는 경우에 대해서 설명했다. 그러나, 본 발명은 이것으로 한정되지 않으며, 서브 그룹을 구성하는 샘플수가 1인 경우, 즉 각 서브 그룹의 산술 평균값을 산출하지 않고, 서브밴드내의 전샘플의 기하 평균값을 서브밴드의 대표값으로 하는 경우에도 동일하게 적용할 수 있다. 또한, 이 구성에 있어서도, 상술한 바와 같이, 정확하게 기하 평균값을 산출하지 않고, 비선형 변환을 행한 후에 서브 그룹수의 역수를 곱함으로써 대수 영역에서 기하 평균값을 산출해도 좋다.
또한, 이상의 설명에서는, 역비선형 변환부(106)에 있어서, 동일 서브밴드내의 샘플의 스펙트럼값을 모두 동일한 값으로 했다. 그러나, 본 발명은 이것으로 한정되지 않으며, 역비선형 변환부(106)의 후단에, 역평활화 처리부를 설치하여, 역평활화 처리부가, 각 서브밴드내에서 샘플마다 가중치를 붙여 역평활화 처리를 행하여도 좋다. 또, 이 역평활화 처리는, 평활화부(105)와 완전한 역(逆) 변환이 아니어도 좋다.
또, 이상의 설명에서는, 비선형 변환부(104)가, 비선형 변환 처리로서 대수 변환을 행하고, 역비선형 변환부(106)가, 역비선형 변환 처리로서 대수 역변환을 행하는 경우를 예로 설명했지만, 비선형 변환 처리는, 이것에 한하지 않고, 거듭제곱 등을 이용해도 좋으며, 역비선형 변환 처리에, 해당 비선형 변환 처리의 역처리를 행하도록 하면 좋다. 단, 수학식(4)을 이용하여 서브 그룹수Q의 역수를 곱함으로써, 누승근의 계산을 단순한 나눗셈(곱셈)으로 대체시킬 수 있기때문에, 연산량을 보다 삭감할 수 있는 것은, 비선형 변환부(104)가, 비선형 변환으로서 대수 변환을 행함에 의한다. 따라서, 비선형 변환 처리로서, 대수 변환 이외의 처리를 행할 경우에는, 서브 그룹 마다의 산술 평균값에 대해 기하 평균값을 산출함으로써, 서브밴드 마다의 대표값을 산출하고, 해당 대표값에 대해서 비선형 처리를 실시하면 좋다.
또, 서브밴드수, 서브 그룹 수로서는, 예를 들면, 입력 신호의 샘플링 주파수가 32 kHz이고, 1 프레임 길이가 20 msec인 경우, 즉, 입력 신호가 640 샘플 있는 경우, 서브밴드수를 80으로 설정하고, 서브 그룹수를 2로 설정하고, 각 서브 그룹의 샘플수를 4로 설정하고, 평활화 필터링의 차수를 7로 설정한다고 하는 경우가 일례로서 들 수 있다. 단, 본 발명은, 해당 설정에 한정되는 것은 아니고, 이들이 다른 수치로 설정될 경우에도 마찬가지로 적용할 수 있다.
또, 본 발명에 따른 스펙트럼 평활화 장치 및 스펙트럼 평활화 방법은, 음성 부호화 장치 및 음성 부호화 방법, 음성 복호 장치 및 음성 복호 방법, 음성 인식 장치 및 음성 인식 방법 등, 스펙트럼 영역에 있어서 평활화를 행하는 스펙트럼 평활화 부분 전부에 적용할 수가 있다. 예를 들면, 특허 문헌 2에 공개되어 있는 대역 확장 기술에서는, 고역 스펙트럼을 생성하는 파라미터를 산출하기 위해서 행하는 저역 스펙트럼에 대한 전(前)처리로서 LPC(Linear Predictive Coefficient) 로부터 스펙트럼 포락을 산출하고, 산출한 스펙트럼 포락을 이용해 저역 스펙트럼으로부터 스펙트럼 포락을 제거하는 처리를 행하고 있지만, 특허 문헌 2의 스펙트럼 포락 제거 처리에 이용하는 스펙트럼 포락을 대신하여, 본 발명에 따른 스펙트럼 평활화 방법을 저역 스펙트럼에 적용해서 산출한 평활화 스펙트럼을 이용하는 것도 가능하다.
또, 본 실시형태에서는, 입력되는 입력 스펙트럼 S1(k)를 각 서브밴드의 샘플수가 동일한 P개(P는 2이상의 정수)의 서브밴드로 분할하는 구성에 대해 설명했지만, 본 발명은 이것에 한정하지 않고, 각 서브밴드의 샘플수가 다른 구성에 대해서도 동일하게 적용할 수 있다. 예를 들면, 저역측의 서브밴드일수록 샘플수가 적고, 고역측의 서브밴드일수록 샘플수가 많아지도록 서브밴드를 분할하는 구성을 예로서 들 수 있다. 일반적으로, 인간의 청감은, 고역측일수록 주파수 분해능이 낮다고 말할 수 있기때문에, 상기와 같은 구성으로 함으로써, 보다 효율적으로 스펙트럼을 평활화할 수 있다. 또, 각 서브밴드를 구성하는 서브 그룹에 대해서도 마찬가지이다. 즉, 본 실시형태에서는, Q개의 각 서브 그룹이 전부 R개의 샘플로 구성되는 경우에 대해서 설명했지만, 본 발명은 이것에 한하지 않고, 저역측의 서브 그룹일수록 샘플수가 적고, 고역측의 서브 그룹일수록 샘플수가 많아지도록 서브 그룹을 분할하는 등의 구성에 대해서도 이와 같이 적용할 수 있다.
또, 본 실시형태에서는, 평활화 처리로서 가중이동평균을 예로서 설명했지만, 본 발명은 이것에 한하지 않고, 여러 가지의 평활화 처리에 대해서도 이와같이 적용할 수가 있다. 예를 들면, 상술한 바와 같이, 각 서브밴드의 샘플수가 다른(고역일수록 샘플수가 많아지는) 구성에 있어서, 이동평균의 필터의 탭 수가 좌우 대칭이 아니라, 고역일수록 작은 탭 수로 해도 상관없다. 고역의 서브밴드일수록 샘플수가 많은 경우에는, 고역측의 탭 수가 작은 이동 평균 필터를 이용함으로써, 청감적으로 보다 적합한 평활화 처리가 가능하게 된다. 물론, 본 발명은, 고역일수록 큰 탭 수인, 좌우 비대칭의 이동 평균 필터를 이용하는 경우에도 동일하게 적용할 수 있다.
(실시형태 2)
본 실시형태에서는, 실시형태 1에서 설명한 스펙트럼 평활화 처리를, 특허 문헌 2 등에 공개되어 있는 대역 확장 부호화 시의 전(前) 처리에 이용하는 경우의 구성을 설명한다.
도 5는, 본 발명의 실시형태 2에 따른 부호화 장치 및 복호 장치를 가지는 통신 시스템의 구성을 나타내는 블록도이다. 도5에 있어서, 통신 시스템은, 부호화 장치와 복호 장치를 구비하고, 각각 전송로를 경유하여 통신가능한 상태로 되어 있다. 또한, 부호화 장치 및 복호 장치는 모두, 통상, 기지국 장치 혹은 통신 단말장치 등에 탑재되어 이용된다.
부호화 장치(301)는, 입력 신호를 N샘플씩 단락지어(N은 자연수), N샘플을 1 프레임으로 하여 프레임마다 부호화를 행한다. 여기서, 부호화의 대상이 되는 입력 신호를 xn(n=0,…, N-1)으로 표시하기로 한다. N은, N샘플씩 단락지어진 입력 신호 중, n+1번째의 신호 요소를 나타낸다. 부호화된 입력 정보(부호화 정보)는, 전송로(302)를 경유하여 복호 장치(303)에 송신된다.
복호 장치(303)는, 전송로(302)를 경유하여, 부호화 장치(301)로부터 송신된 부호화 정보를 수신하고, 이것을 복호하여 출력 신호를 얻는다.
도 6은, 도 5에 나타낸 부호화 장치(301)의 내부의 주요한 구성을 나타내는 블록도이다. 입력 신호의 샘플링 주파수를 SRinput라고 하면, 다운 샘플링 처리부(311)는, 입력 신호의 샘플링 주파수를 SRinput로부터 SRbase까지 다운 샘플링하고(SRbase<SRinput), 다운 샘플링한 입력 신호를 다운 샘플링 후 입력 신호로서 제1 레이어 부호화부(312)에 출력한다.
제1 레이어 부호화부(312)는, 다운 샘플링 처리부(311)로부터 입력되는 다운 샘플링 후 입력 신호에 대해서, 예를 들면 CELP(Code Excited Linear Prediction) 방식의 음성 부호화 방법을 이용해 부호화를 행하여 제1 레이어 부호화 정보를 생성하고, 생성한 제1 레이어 부호화 정보를 제1 레이어 복호부(313) 및 부호화 정보 통합부(317)에 출력한다.
제1 레이어 복호부(313)는, 제1 레이어 부호화부(312)로부터 입력되는 제1 레이어 부호화 정보에 대해서, 예를 들면 CELP 방식의 음성 복호 방법을 이용해 복호를 행하여 제1 레이어 복호 신호를 생성하고, 생성한 제1 레이어 복호 신호를 업 샘플링 처리부(314)에 출력한다.
업 샘플링 처리부(314)는, 제1 레이어 복호부(313)로부터 입력되는 제1 레이어 복호 신호의 샘플링 주파수를 SRbase로부터 SRinput까지 업 샘플링하고, 업 샘플링한 제1 레이어 복호 신호를 업 샘플링 후 제 1 레이어 복호 신호로서 시간-주파수 변환 처리부(315)에 출력한다.
지연부(318)는, 입력 신호에 소정 길이의 지연을 부여한다. 이 지연은, 다운 샘플링 처리부(311), 제1 레이어 부호화부(312), 제1 레이어 복호부(313), 및 업 샘플링 처리부(314)에서 발생하는 시간 지연을 보정하기 위한 것이다.
시간-주파수 변환 처리부(315)는, 버퍼 buf1n 및 buf2n(n=0,…, N-1)를 내부에 가지고, 입력 신호 xn 및 업 샘플링 처리부(314)로부터 입력되는 업 샘플링 후 제 1 레이어 복호 신호 yn을 수정 이산 코사인 변환(MDCT:Modified Discrete Cosine Transform) 한다.
다음에, 시간-주파수 변환 처리부(315)에 있어서의 직교변환 처리에 대해서, 그 계산 순서와 내부 버퍼로의 데이터 출력에 관해서 설명한다.
우선, 시간-주파수 변환 처리부(315)는, 하기의 수학식(9) 및 수학식(10)에 의해 버퍼 buf1n 및 buf2n 각각을, 「0」을 초기값으로서 초기화한다.
Figure 112011008463591-pct00009
Figure 112011008463591-pct00010
그 다음에, 시간-주파수 변환 처리부(315)는, 입력 신호 xn, 업 샘플링 후 제 1 레이어 복호 신호 yn에 대해서 하기의 수학식(11) 및 수학식(12)에 따라 MDCT 하여, 입력 신호의 MDCT 계수(이하, 입력 스펙트럼이라고 부름) S2(k) 및 업 샘플링 후 제 1 레이어 복호 신호 yn의 MDCT 계수(이하, 제1 레이어 복호 스펙트럼이라고 부름) S1(k)를 구한다.
Figure 112011008463591-pct00011
Figure 112011008463591-pct00012
여기서, k는 1 프레임에 있어서의 각 샘플의 인덱스를 나타낸다. 시간-주파수 변환 처리부(315)는, 입력 신호 xn과 버퍼 buf1n을 결합시킨 벡터인 xn'를 하기의 수학식(13)에 의해 구한다. 또, 시간-주파수 변환 처리부(315)는, 업 샘플링 후 제 1 레이어 복호 신호 yn과 버퍼 buf2n을 결합시킨 벡터인 yn'를 하기의 수학식(14)에 의해 구한다.
Figure 112011008463591-pct00013
Figure 112011008463591-pct00014
다음에, 시간-주파수 변환 처리부(315)는, 수학식(15) 및 수학식(16)에 의해 버퍼 buf1n 및 buf2n를 갱신한다.
Figure 112011008463591-pct00015
Figure 112011008463591-pct00016
그리고, 시간-주파수 변환 처리부(315)는, 입력 스펙트럼 S2(k) 및 제1 레이어 복호 스펙트럼 S1(k)를 제2 레이어 부호화부(316)에 출력한다.
제2 레이어 부호화부(316)는, 시간-주파수 변환 처리부(315)로부터 입력되는 입력 스펙트럼 S2(k) 및 제1 레이어 복호 스펙트럼 S1(k)를 이용해 제2 레이어 부호화 정보를 생성하고, 생성한 제2 레이어 부호화 정보를 부호화 정보 통합부(317)에 출력한다. 또한, 제2 레이어 부호화부(316)의 상세한 것에 대해서는 후술한다.
부호화 정보 통합부(317)는, 제1 레이어 부호화부(312)로부터 입력되는 제1 레이어 부호화 정보와 제2 레이어 부호화부(316)로부터 입력되는 제2 레이어 부호화 정보를 통합하고, 통합된 정보원(情報源) 부호에 대해서, 필요하면 전송 오류 부호등을 부가한 다음 이것을 부호화 정보로서 전송로(302)에 출력한다.
다음에, 도 6에 나타낸 제2 레이어 부호화부(316)의 내부의 주요한 구성에 대해서 도 7을 이용해 설명한다.
제2 레이어 부호화부(316)는, 대역 분할부(360), 스펙트럼 평활화부(361), 필터 상태 설정부(362), 필터링부(363), 탐색부(364), 피치 계수 설정부(365), 게인 부호화부(366) 및 다중화부(367)를 구비하고, 각 부는 이하의 동작을 행한다.
대역 분할부(360)는, 시간-주파수 변환 처리부(315)로부터 입력되는 입력 스펙트럼 S2(k)의 고역부(FL≤k<FH)를 P개의 서브밴드 SBp(p=0, 1,…, P-1)로 분할한다. 그리고, 대역 분할부(360)는, 분할한 각 서브밴드의 밴드폭 BWp(p=0, 1,…, P-1) 및 선두 인덱스 BSp(p=0, 1,…, P-1)(FL≤BSp<FH)를 대역 분할 정보로서 필터링부(363), 탐색부(364) 및 다중화부(367)에 출력한다. 이하, 입력 스펙트럼 S2(k) 중, 서브밴드 SBp에 대응하는 부분을 서브밴드 스펙트럼 S2p(k) (BSp≤k<BSp+BWp)라고 적는다.
스펙트럼 평활화부(361)는, 시간-주파수 변환 처리부(315)로부터 입력되는 제1 레이어 복호 스펙트럼 S1(k)(0≤k<FL)에 대해서 평활화 처리를 실시하고, 평활화 처리 후의 평활화 제 1 레이어 복호 스펙트럼 S1'(k) (0≤k<FL)를 필터 상태 설정부(362)에 출력한다.
도 8에 스펙트럼 평활화부(361)의 내부 구성을 나타낸다. 스펙트럼 평활화부(361)는, 서브밴드 분할부(102), 대표값 산출부(103), 비선형 변환부(104), 평활화부(105), 역비선형 변환부(106)로 주로 구성된다. 여기서, 각 처리부는, 실시형태 1에서 설명한 처리부와 동일하기 때문에, 동일한 부호를 붙이고 설명을 생략한다.
필터 상태 설정부(362)는, 스펙트럼 평활화부(361)로부터 입력되는 평활화 제 1 레이어 복호 스펙트럼 S1'(k)(0≤k<FL)를, 후단의 필터링부(363)에서 이용하는 필터의 내부 상태로서 설정한다. 필터링부(363)에 있어서의 전(全)주파수 대역의 스펙트럼 S(k)의 0≤k<FL의 대역에, 평활화 제 1 레이어 복호 스펙트럼 S1'(k)가 필터의 내부 상태(필터 상태)로서 저장된다.
필터링부(363)는, 멀티 탭의 피치 필터를 구비하고, 필터 상태 설정부(362)에 의해 설정된 필터 상태와, 피치 계수 설정부(365)로부터 입력되는 피치 계수와, 대역 분할부(360)로부터 입력되는 대역 분할 정보에 기초하여, 제1 레이어 복호 스펙트럼을 필터링하여, 각 서브밴드 SBp(p=0, 1,…, P-1)의 추정값 스펙트럼 S2p'(k)(BSp≤k<BSp+BWp) (p=0, 1,…, P-1)(이하, 「서브밴드 SBp의 추정 스펙트럼」이라고 부름)를 산출한다. 필터링부(363)는, 서브밴드 SBp의 추정 스펙트럼 S2p'(k)를 탐색부(364)에 출력한다. 또한, 필터링부(363)에 있어서의 필터링 처리의 상세한 것에 대해서는 후술한다. 또한, 멀티 탭의 탭 수는 1이상의 임의의 값(정수)을 취할 수 있는 것으로 한다.
탐색부(364)는, 대역 분할부(360)로부터 입력되는 대역 분할 정보에 기초하여, 필터링부(363)로부터 입력되는 서브밴드 SBp의 추정 스펙트럼 S2p'(k)와, 시간-주파수 변환 처리부(315)로부터 입력되는 입력 스펙트럼 S2(k)의 고역부(FL≤k<FH)에 있어서의 각 서브밴드 스펙트럼 S2p(k)의 유사도를 산출한다. 이 유사도의 산출은, 예를 들면 상관 연산 등에 의해 행해진다. 또, 필터링부(363), 탐색부(364) 및 피치 계수 설정부(365)의 처리는, 서브밴드마다 폐루프의 탐색 처리를 구성하고, 각 폐루프에 있어서, 탐색부(364)는, 피치 계수 설정부(365)로부터 필터링부(363)에 입력되는 피치 계수 T를 여러 가지로 변화시킴으로써, 각 피치 계수에 대응하는 유사도를 산출한다. 탐색부(364)는, 서브밴드 마다의 폐루프에 있어서, 예를 들면, 서브밴드 SBp에 대응하는 폐루프에 있어서 유사도가 최대가 되는 최적 피치 계수 Tp'(단 Tmin~Tmax의 범위)를 구하고, P개의 최적 피치 계수를 다중화부(367)에 출력한다. 탐색부(364)는, 각 최적 피치 계수 Tp'를 이용해, 각 서브밴드 SBp와 유사(類似)한, 제1 레이어 복호 스펙트럼의 일부 대역을 산출한다. 또, 탐색부(364)는, 각 최적 피치 계수 Tp'(p=0, 1,…, P-1)에 대응하는 추정 스펙트럼 S2p'(k)를 게인 부호화부(366)에 출력한다. 또한, 탐색부(364)에 있어서의 최적 피치 계수 Tp'(p=0, 1,…, P-1)의 탐색 처리의 상세한 것에 대해서는 후술한다.
피치 계수 설정부(365)는, 탐색부(364)의 제어 하에, 필터링부(363) 및 탐색부(364)와 함께, 제1 서브밴드 SB0에 대응하는 폐루프의 탐색 처리를 행하는 경우에는, 피치 계수 T를, 미리 정해진 탐색 범위 Tmin~Tmax안에서 조금씩 변화시키면서, 필터링부(363)에 순차적으로 출력한다.
게인 부호화부(366)는, 시간-주파수 변환 처리부(315)로부터 입력되는 입력 스펙트럼 S2(k)의 고역부(FL≤k<FH)에 대한 게인 정보를 산출한다. 구체적으로는, 게인 부호화부(366)는, 주파수대역 FL≤k<FH를 J개의 서브밴드로 분할하고, 입력 스펙트럼 S2(k)의 서브밴드 마다의 스펙트럼 파워를 구한다. 이 경우, 제j+1 서브밴드의 스펙트럼 파워 Bj는 하기의 수학식(17)으로 표시된다.
Figure 112011008463591-pct00017
수학식(17)에 있어서, BLj는 제j+1 서브밴드의 최소 주파수, BHj는 제j+1 서브밴드의 최대 주파수를 나타낸다. 또, 게인 부호화부(366)는, 탐색부(364)로부터 입력되는 각 서브밴드의 추정 스펙트럼 S2p'(k)(p=0, 1,…, P-1)를 주파수 영역에서 연속시켜 입력 스펙트럼의 고역부의 추정 스펙트럼 S2'(k)를 구성한다. 그리고, 게인 부호화부(366)는, 입력 스펙트럼 S2(k)에 대해서 스펙트럼 파워를 산출했을 경우와 마찬가지로, 추정 스펙트럼 S2'(k)의 서브밴드 마다의 스펙트럼 파워 B'j를 하기의 수학식(18)에 따라 산출한다. 그 다음에, 게인 부호화부(366)는, 입력 스펙트럼 S2(k)에 대한 추정 스펙트럼의 S2'(k)의 서브밴드 마다의 스펙트럼 파워의 변동량 Vj를 수학식(19)에 따라 산출한다.
Figure 112011008463591-pct00018
Figure 112011008463591-pct00019
그리고, 게인 부호화부(366)는, 변동량 Vj를 부호화하고, 부호화 후의 변동량 VQj에 대응하는 인덱스를 다중화부(367)에 출력한다.
다중화부(367)는, 대역 분할부(360)로부터 입력되는 대역 분할 정보와, 탐색부(364)로부터 입력되는 각 서브밴드 SBp(p=0, 1,…, P-1)에 대한 최적 피치 계수 Tp'와, 게인 부호화부(366)로부터 입력되는 변동량 VQj의 인덱스를 제2 레이어 부호화 정보로서 다중화하여, 부호화 정보 통합부(317)에 출력한다. 또한, Tp'와 VQj의 인덱스를 직접, 부호화 정보 통합부(317)에 입력하고, 부호화 정보 통합부(317)에서 제1 레이어 부호화 정보와 다중화해도 좋다.
그 다음에, 도7에 나타낸 필터링부(363)에 있어서의 필터링 처리의 상세한 것에 대해, 도 9를 이용해 설명한다.
필터링부(363)는, 필터 상태 설정부(362)로부터 입력되는 필터 상태와, 피치 계수 설정부(365)로부터 입력되는 피치 계수 T와, 대역 분할부(360)로부터 입력되는 대역 분할 정보를 이용해, 서브밴드 SBp(p=0, 1,…, P-1)에 대해서, 대역 BSp≤k<BSp+BWp(p=0, 1,…, P-1)에 있어서의 추정 스펙트럼을 생성한다. 필터링부(363)에 있어서 이용하는 필터의 전달 함수 F(z)는 하기의 수학식(20)으로 표시된다.
이하, 서브밴드 SBp를 예로 들어, 서브밴드 스펙트럼 S2p(k)의 추정 스펙트럼 S2p'(k)를 생성하는 처리를 설명한다.
Figure 112011008463591-pct00020
수학식(20)에 있어서, T는 피치 계수 설정부(365)로부터 주어지는 피치 계수, βi는 미리 내부에 기억되어 있는 필터 계수를 나타내고 있다. 예를 들면, 탭 수가 3일 경우, 필터 계수의 후보는(β-101)=(0.1, 0.8, 0.1)을 예로서 들 수 있다. 이 외에 (β-101)=(0.2, 0.6, 0.2), (0.3, 0.4, 0.3)등의 값도 적당하다. 또, (β-101)=(0.0, 1.0, 0.0)의 값이어도 좋으며, 이 경우에는 대역 0≤k<FL의 제1 레이어 복호 스펙트럼의 일부 대역을 그 형상을 변화시키지 않고 그대로 BSp≤k<BSp+BWp의 대역에 복사하는 것을 의미한다. 또, 식(20)에 있어서 M=1이라고 한다. M은 탭 수에 관한 지표이다.
필터링부(363)에 있어서의 전주파수 대역의 스펙트럼 S(k)의 0≤k<FL의 대역에는, 평활화 제 1 레이어 복호 스펙트럼 S1'(k)가 필터의 내부 상태(필터 상태)로서 저장된다.
S(k)의 BSp≤k<BSp+BWp의 대역에는, 이하의 순서의 필터링 처리에 의해 서브밴드 SBp의 추정 스펙트럼 S2p'(k)가 저장된다. 즉, S2p'(k)에는, 기본적으로, 이 k보다 T만큼 낮은 주파수의 스펙트럼 S(k-T)가 대입된다. 단, 스펙트럼의 원활성을 증가시키기 위해서, 실제로는, 스펙트럼 S(k-T)로부터 i만큼 떨어진 근방의 스펙트럼 S(k-T+i)에 소정의 필터 계수βi를 곱한 스펙트럼βi·S(k-T+i)를, 모든 i에 대해서 가산한 스펙트럼을 S2p'(k)에 대입한다. 이 처리는 하기의 수학식(21)으로 표시된다.
Figure 112011008463591-pct00021
상기 연산을, 주파수가 낮은 k=BSp부터 차례로, k를 BSp≤k<BSp+BWp의 범위에서 변화시켜 행함으로써, BSp≤k<BSp+BWp에 있어서의 추정 스펙트럼 S2p'(k)를 산출한다.
이상의 필터링 처리는, 피치 계수 설정부(365)로부터 피치 계수 T가 주어질 때마다, BSp≤k<BSp+BWp의 범위에 있어서, 그때마다 S(k)를 제로 클리어하여 행해진다. 즉, 피치 계수 T가 변화할 때마다 S(k)는 산출되고, 탐색부(364)에 출력된다.
도 10은, 도 7에 나타낸 탐색부(364)에 있어서 서브밴드 SBp에 대해서 최적 피치 계수 Tp'를 탐색하는 처리의 순서를 나타내는 흐름도이다. 또한, 탐색부(364)는, 도10에 나타낸 순서를 반복함으로써, 각 서브밴드 SBp(p=0, 1,…, P-1)에 대응하는 최적 피치 계수 Tp'(p=0, 1,…, P-1)를 탐색한다.
우선, 탐색부(364)는, 유사도의 최소값을 보존하기 위한 변수인 최소 유사도 Dmin를 「+∞」로 초기화한다(ST110). 그 다음에, 탐색부(364)는, 하기의 수학식(22)에 따라, 어떤 피치 계수에 있어서의 입력 스펙트럼 S2(k)의 고역부(FL≤k<FH)와, 추정 스펙트럼 S2p'(k)의 유사도 D를 산출한다(ST120).
Figure 112011008463591-pct00022
수학식(22)에 있어서, M'는, 유사도 D를 산출할 때의 샘플수를 나타내며, 각 서브밴드의 밴드폭 이하의 임의의 값으로 좋다. 또한, 식(22) 중에는 S2p'(k)가 존재하지 않지만, 이것은 BSp와 S2'(k)를 이용하여 S2p'(k)를 나타내고 있기 때문이다.
그 다음에, 탐색부(364)는 산출한 유사도 D가 최소 유사도 Dmin보다 작은지 아닌지를 판정한다(ST130). ST120에 있어서 산출된 유사도 D가 최소 유사도 Dmin보다 작을 경우(ST130:「YES」)에는, 탐색부(364)는, 유사도 D를 최소 유사도 Dmin에 대입한다(ST140). 한편, ST120에 있어서 산출된 유사도 D가 최소 유사도 Dmin 이상인 경우(ST130:「NO」)에는, 탐색부(364)는, 탐색 범위에 걸친 처리가 종료했는지 아닌지를 판정한다. 즉, 탐색부(364)는, 탐색 범위내의 모든 피치 계수 각각에 대해서, ST120에 있어서 상기의 식(22)에 따라 유사도를 산출했는지 아닌지를 판정한다(ST150). 탐색 범위에 걸쳐서 처리가 종료하지 않았을 경우(ST150:「NO」)에는, 탐색부(364)는 처리를 다시 ST120로 되돌린다. 그리고, 탐색부(364)는, 전회인 ST120의 절차에 있어서 식(22)에 따라 유사도를 산출했을 경우와는 다른 피치 계수에 대해서, 식(22)에 따라 유사도를 산출한다. 한편, 탐색 범위에 걸친 처리가 종료했을 경우(ST150:「YES」)에는, 탐색부(364)에는, 최소 유사도 Dmin에 대응하는 피치 계수 T를 최적 피치 계수 Tp'로서 다중화부(367)에 출력한다(ST160).
그 다음에, 도 5에 나타낸 복호 장치(303)에 대해 설명한다.
도 11은, 복호 장치(303)의 내부의 주요한 구성을 나타내는 블록도이다.
도 11에 있어서, 부호화 정보 분리부(331)는, 입력된 부호화 정보중에서 제1 레이어 부호화 정보와 제2 레이어 부호화 정보를 분리하여, 제1 레이어 부호화 정보를 제1 레이어 복호부(332)에 출력하고, 제2 레이어 부호화 정보를 제2 레이어 복호부(335)에 출력한다.
제1 레이어 복호부(332)는, 부호화 정보 분리부(331)로부터 입력되는 제1 레이어 부호화 정보에 대해서 복호를 행하고, 생성된 제1 레이어 복호 신호를 업 샘플링 처리부(333)에 출력한다. 여기서, 제1 레이어 복호부(332)의 동작은, 도6에 나타낸 제1 레이어 복호부(313)와 동일하기 때문에, 상세한 설명은 생략한다.
업 샘플링 처리부(333)는, 제1 레이어 복호부(332)로부터 입력되는 제1 레이어 복호 신호에 대해서 샘플링 주파수를 SRbase로부터 SRinput까지 업 샘플링하는 처리를 행하고, 얻어지는 업 샘플링 후 제 1 레이어 복호 신호를 시간-주파수 변환 처리부(334)에 출력한다.
시간-주파수 변환 처리부(334)는, 업 샘플링 처리부(333)로부터 입력되는 업 샘플링 후 제 1 레이어 복호 신호에 대해서 직교변환 처리(MDCT)를 실시하고, 얻어지는 업 샘플링 후 제 1 레이어 복호 신호의 MDCT 계수(이하, 제1 레이어 복호 스펙트럼이라고 부름) S1(k)를 제2 레이어 복호부(335)에 출력한다. 여기서, 시간-주파수 변환 처리부(334)의 동작은, 도6에 나타낸 시간-주파수 변환 처리부(315)의 업 샘플링 후 제 1 레이어 복호 신호에 대한 처리와 동일하기 때문에, 상세한 설명은 생략한다.
제2 레이어 복호부(335)는, 시간-주파수 변환 처리부(334)로부터 입력되는 제1 레이어 복호 스펙트럼 S1(k), 부호화 정보 분리부(331)로부터 입력되는 제2 레이어 부호화 정보를 이용해, 고역성분을 포함한 제2 레이어 복호 신호를 생성하여 출력 신호로서 출력한다.
도 12는, 도 11에 나타낸 제2 레이어 복호부(335)의 내부의 주요한 구성을 나타내는 블록도이다.
분리부(351)는, 부호화 정보 분리부(331)로부터 입력되는 제2 레이어 부호화 정보를, 각 서브밴드의 밴드폭 BWp(p=0, 1,…, P-1), 선두 인덱스 BSp(p=0, 1,…, P-1)(FL≤BSp<FH)를 포함한 대역 분할 정보와, 필터링에 관한 정보인 최적 피치 계수 Tp'(p=0, 1,…, P-1)와, 게인에 관한 정보인 부호화 후 변동량 VQj(j=0, 1,…, J-1)의 인덱스로 분리한다. 또, 분리부(351)는, 대역 분할 정보 및 최적 피치 계수 Tp'(p=0, 1,…, P-1)를 필터링부(354)에 출력하고, 부호화 후 변동량 VQj(j=0, 1,…, J-1)의 인덱스를 게인 복호부(355)에 출력한다. 또한, 부호화 정보 분리부(331)에 있어서, 대역 분할 정보와, Tp'(p=0, 1,…, P-1)와, VQj(j=0, 1,…, J-1)의 인덱스를 분리를 끝낼 경우는, 분리부(351)를 배치하지 않아도 좋다.
스펙트럼 평활화부(352)는, 시간-주파수 변환 처리부(334)로부터 입력되는 제1 레이어 복호 스펙트럼 S1(k)(0≤k<FL)에 대해서 평활화 처리를 실시하고, 평활화 후의 평활화 제1 레이어 복호 스펙트럼 S1'(k)(0≤k<FL)을 필터 상태 설정부(353)에 출력한다. 스펙트럼 평활화부(352)의 처리는, 제2 레이어 부호화부(316)내의 스펙트럼 평활화부(361)와 동일하기 때문에, 여기에서는 설명을 생략한다.
필터 상태 설정부(353)는, 스펙트럼 평활화부(352)로부터 입력되는 평활화 제1 레이어 복호 스펙트럼 S1'(k)(0≤k<FL)을, 필터링부(354)에서 이용하는 필터 상태로서 설정한다. 여기서, 필터링부(354)에 있어서의 전주파수 대역 0≤k<FH의 스펙트럼을 편의적으로 S(k)라고 부르는 경우, S(k)의 0≤k<FL의 대역에, 평활화 제 1 레이어 복호 스펙트럼 S1'(k)가 필터의 내부 상태(필터 상태)로서 저장된다. 여기서, 필터 상태 설정부(353)의 구성 및 동작은, 도 7에 나타낸 필터 상태 설정부(362)와 동일하기 때문에, 상세한 설명은 생략한다.
필터링부(354)는, 멀티 탭(탭 수가 1보다 많음)의 피치 필터를 구비한다. 필터링부(354)는, 분리부(351)로부터 입력되는 대역 분할 정보와, 필터 상태 설정부(353)에 의해 설정된 필터 상태와, 분리부(351)로부터 입력되는 피치 계수 Tp'(p=0, 1,…, P-1)와, 미리 내부에 저장하고 있는 필터 계수에 기초하여, 평활화 제1 레이어 복호 스펙트럼 S1'(k)를 필터링하고, 상기의 식(21)에 나타내는, 각 서브밴드 SBp(p=0, 1,…, P-1)의 추정값 스펙트럼 S2p'(k)(BSp≤k<BSp+BWp) (p=0, 1,…, P-1)를 산출한다. 필터링부(354)에서도, 상기의 식(20)에 나타낸 필터 함수가 이용된다. 단, 이 경우의 필터링 처리 및 필터 함수는, 식(20), 식(21)에 있어서의 T를 Tp'로 대체한 것으로 한다.
게인 복호부(355)는, 분리부(351)로부터 입력되는, 부호화 후 변동량 VQj의 인덱스를 복호하고, 변동량 Vj의 양자화값인 변동량 VQj를 구한다.
스펙트럼 조정부(356)는, 필터링부(354)로부터 입력되는 각 서브밴드 SBp(p=0, 1,…, P-1)의 추정값 스펙트럼 S2p'(k)(BSp≤k<BSp+BWp) (p=0, 1,…, P-1)를 주파수 영역에서 연속시켜서 입력 스펙트럼의 추정 스펙트럼 S2'(k)를 구한다. 또, 스펙트럼 조정부(356)는, 하기의 수학식(23)에 따라, 추정 스펙트럼 S2'(k)에 게인 복호부(355)로부터 입력되는 서브밴드 마다의 변동량 VQj를 곱한다. 이것에 의해, 스펙트럼 조정부(356)는, 추정 스펙트럼 S2'(k)의 주파수대역FL≤k<FH에 있어서의 스펙트럼 형상을 조정하고, 복호 스펙트럼 S3(k)를 생성하여 시간-주파수 변환 처리부(357)에 출력한다.
Figure 112011008463591-pct00023
다음에, 스펙트럼 조정부(356)는, 수학식(24)과 같이 하여, 시간-주파수 변환 처리부(334)로부터 입력되는 제1 레이어 복호 스펙트럼 S1(k)(0≤k<FL)을 복호 스펙트럼 S3(k)의 저역부(0≤k<FL)에 대입한다. 여기서, 복호 스펙트럼 S3(k)의 저역부(0≤k<FL)는, 제1 레이어 복호 스펙트럼 S1(k)로 되어있고, 복호 스펙트럼 S3(k)의 고역부(FL≤k<FH)는, 스펙트럼 형상 조정 후의 추정 스펙트럼 S2'(k)로 되어있다.
Figure 112011008463591-pct00024
시간-주파수 변환 처리부(357)는, 스펙트럼 조정부(356)로부터 입력되는 복호 스펙트럼 S3(k)를 시간 영역의 신호로 직교변환하고, 얻어지는 제2 레이어 복호 신호를 출력 신호로서 출력한다. 여기에서는, 필요에 따라 적절한 윈도윙(windowing) 및 겹쳐서 가산 등의 처리를 행하여, 프레임 간에 발생하는 불연속을 회피한다.
이하, 시간-주파수 변환 처리부(357)에 있어서의 구체적인 처리에 대해 설명한다.
시간-주파수 변환 처리부(357)는, 버퍼 buf'(k)를 내부에 가지고 있으며, 하기의 수학식(25)에 나타내는 것처럼 버퍼 buf'(k)를 초기화한다.
Figure 112011008463591-pct00025
또, 시간-주파수 변환 처리부(357)는, 스펙트럼 조정부(356)로부터 입력되는 제2 레이어 복호 스펙트럼 S3(k)를 이용해 하기의 수학식(26)에 따라, 제2 레이어 복호 신호 yn”를 구하여 출력한다.
Figure 112011008463591-pct00026
수학식(26)에 있어서, Z4(k)는, 하기의 수학식(27)에 나타내는 것처럼, 복호 스펙트럼 S3(k)와 버퍼 buf'(k)를 결합시킨 벡터이다.
Figure 112011008463591-pct00027
다음에, 시간-주파수 변환 처리부(357)는, 하기의 수학식(28)에 따라 버퍼 buf'(k)를 갱신한다.
Figure 112011008463591-pct00028
다음에, 시간-주파수 변환 처리부(357)는, 복호 신호 yn”를 출력 신호로서 출력한다.
이와 같이, 본 실시형태에 의하면, 저역부의 스펙트럼을 이용해 대역 확장을 행하여 고역부의 스펙트럼을 추정하는 부호화/복호에 있어서, 전(前)처리로서 저역부의 스펙트럼에 대해서 상가평균과 상승 평균을 조합한 평활화 처리를 실시한다. 이것에 의해, 대역 확장 부호화 방식에 대해서도, 복호 신호에 큰 품질 열화를 발생시키는 일 없이, 처리 연산량을 큰폭으로 삭감할 수 있다.
또, 본 실시형태에서는, 대역 확장 부호화 때에, 복호하여 얻어지는 저역 복호 스펙트럼에 대해서 평활화 처리를 행하고, 평활화된 저역 복호 스펙트럼을 이용해 고역스펙트럼을 추정하여, 부호화하는 구성에 대해 설명했지만, 본 발명은 이것에 한하지 않고, 입력 신호의 저역 스펙트럼에 대해서 평활화 처리를 행하고, 평활화된 입력 스펙트럼으로부터 고역스펙트럼을 추정하여, 부호화하는 구성에 대해서도 동일하게 적용할 수 있다.
또, 본 발명에 따른 스펙트럼 평활화 장치 및 스펙트럼 평활화 방법은, 상기 실시형태로 한정되지 않고, 여러 가지로 변경하여 실시할 수 있다. 예를 들면, 각 실시형태는, 적절하게 조합해서 실시하는 것이 가능하다.
또, 신호 처리 프로그램을, 메모리, 디스크, 테이프, CD, DVD등의 기계 판독가능한 기록 매체에 기록, 기입을 하여, 동작을 행하는 경우에 대해서도, 본 발명은 적용할 수 있으며, 본 실시형태와 동일한 작용 및 효과를 얻을 수 있다.
또, 상기 실시형태에서는, 본 발명을 하드웨어로 구성하는 경우를 예로 들어 설명했지만, 본 발명은 소프트웨어로 실현하는 것도 가능하다.
또, 상기 실시형태의 설명에 이용한 각 기능 블록은, 전형적으로는 집적회로인 LSI로서 실현된다. 이것들은 개별적으로 1 칩화되어도 좋고, 일부 또는 모두를 포함하도록 1 칩화되어도 좋다. 여기에서는, LSI라고 했지만, 집적도의 차이에 의해, IC, 시스템 LSI, 슈퍼 LSI, 울트라 LSI라고 호칭되는 일도 있다.
또, 집적회로화의 수법은 LSI에 한하는 것은 아니고, 전용 회로 또는 범용 프로세서로 실현해도 좋다. LSI 제조 후에, 프로그램하는 것이 가능한 FPGA(Field Programmable Gate Array)나, LSI 내부의 회로 셀의 접속이나 설정을 재구성 가능한 리컨피규러블/프로세서를 이용해도 좋다.
또, 반도체 기술의 진보 또는 파생하는 별개의 기술에 의해 LSI에 대체되는 집적회로화의 기술이 등장하면, 당연히, 그 기술을 이용해 기능 블록의 집적화를 행하여도 좋다. 바이오 기술의 적용등이 가능성으로서 있을 수 있다.
2008년 8월 8일에 출원한 특허출원 2008-205645 및 2009년 4월 10일에 출원한 특허출원 2009-096222에 포함되는 명세서, 도면 및 요약서의 개시 내용은, 모두 본원에 원용된다.
(산업상의 이용 가능성)
본 발명에 따른 스펙트럼 평활화 장치, 부호화 장치, 복호 장치, 통신 단말장치, 기지국 장치 및 스펙트럼 평활화 방법은, 스펙트럼 영역에서의 평활화를 적은 연산량으로 실현할 수 있으며, 예를 들면, 패킷 통신 시스템, 이동 통신 시스템 등에 적용할 수 있다.
100 : 스펙트럼 평활화 장치
101, 315, 334, 357 : 시간-주파수 변환 처리부
102 : 서브밴드 분할부 103 : 대표값 산출부
104 : 비선형 변환부 105 : 평활화부
106 : 역비선형 변환부 201 : 상가평균 산출부
202 : 상승 평균 산출부 301 : 부호화 장치
302 : 전송로 303 : 복호 장치
311 : 다운 샘플링 처리부 312 : 제 1 레이어 부호화부
313, 332 : 제 1 레이어 복호부 314, 333 : 업 샘플링 처리부
316 : 제 2 레이어 부호화부 317 : 부호화 정보 통합부
318 : 지연부 331 : 부호화 정보 분리부
335 : 제2 레이어 복호부 351 : 분리부
352, 361 : 스펙트럼 평활화부 353, 362 : 필터 상태 설정부
354, 363 : 필터링부 355 : 게인 복호부
356 : 스펙트럼 조정부 360 : 대역 분할부
364 : 탐색부 365 : 피치 계수 설정부
366 : 게인 부호화부 367 : 다중화부

Claims (13)

  1. 입력되는 신호를 시간-주파수 변환하여 주파수 성분을 생성하는 시간-주파수 변환 수단과,
    상기 주파수 성분을 복수의 서브밴드로 분할하는 서브밴드 분할 수단과,
    상기 분할된 각 서브밴드를 다시 복수의 서브 그룹으로 분할하고, 상기 서브 그룹에 포함되는 샘플의 산술 평균값을 산출하고, 상기 서브 그룹 마다의 산술 평균값을 곱하는 연산을 행한 결과를 이용해 기하 평균값을 산출함으로써, 서브밴드 마다의 대표값을 산출하는 대표값 산출 수단과,
    상기 서브밴드 마다의 대표값에 대해서 비선형 변환을 행하는 비선형 변환 수단과,
    상기 비선형 변환된 대표값을 주파수 영역에서 평활화하는 평활화 수단
    을 구비하는 스펙트럼 평활화 장치.
  2. 제 1 항에 있어서,
    평활화된 대표값에 대해서, 상기 비선형 변환과 역특성의 역비선형 변환을 행하는 역비선형 변환 수단을 더 구비하는, 스펙트럼 평활화 장치.
  3. 제 1 항에 있어서,
    상기 비선형 변환 수단은, 상기 각 대표값에 대해서, 값이 클수록, 보다 강조하는 특성의 비선형 변환을 행하는, 스펙트럼 평활화 장치.
  4. 제 1 항에 있어서,
    상기 비선형 변환 수단은, 상기 비선형 변환으로서 로그 대수 변환을 행하는, 스펙트럼 평활화 장치.
  5. 삭제
  6. 삭제
  7. 입력되는 신호를 시간-주파수 변환하여 주파수 성분을 생성하는 시간-주파수 변환 수단과,
    상기 주파수 성분을 복수의 서브밴드로 분할하는 서브밴드 분할 수단과,
    상기 분할된 각 서브밴드를 다시 복수의 서브 그룹으로 분할하고, 상기 서브 그룹에 포함되는 샘플의 산술 평균값을 산출하고, 상기 서브 그룹 마다의 산술 평균값을 곱한 값을 상기 서브밴드 마다의 대표값으로서 산출하는 대표값 산출 수단과,
    상기 서브밴드 마다의 대표값에 대해서 비선형 변환을 행하는 비선형 변환 수단과,
    상기 비선형 변환된 대표값을 주파수 영역에서 평활화하는 평활화 수단
    을 구비하되,
    상기 비선형 변환 수단은, 상기 서브밴드 마다의 대표값에 대해서 상기 비선형 변환을 행함으로써 서브밴드 마다의 중간값을 산출하고, 상기 서브밴드 마다의 중간값에 대해서, 각 서브밴드내의 서브 그룹수의 역수를 곱하여 얻어지는 값을, 상기 비선형 변환된 대표값으로서 산출하는,
    스펙트럼 평활화 장치.
  8. 입력 신호의 소정 주파수 이하의 저역 부분을 부호화하여 제 1 부호화 정보를 생성하는 제 1 부호화 수단과,
    상기 제 1 부호화 정보를 복호하여 복호 신호를 생성하는 복호 수단과,
    상기 입력 신호의 상기 소정 주파수보다 높은 고역부분을 복수의 서브밴드로 분할하고, 상기 입력 신호 또는 상기 복호 신호로부터 상기 복수의 서브밴드를 각각 추정함으로써 제 2 부호화 정보를 생성하는 제 2 부호화 수단을 구비하는 대역 확장 부호화를 행하는 부호화 장치이며,
    상기 제 2 부호화 수단은,
    상기 복호 신호를 입력하여 평활화하는 청구항 1, 2, 3, 4, 7 중 어느 한 항에 기재된 스펙트럼 평활화 장치를 구비하고,
    상기 입력 신호 또는 평활화 후의 상기 복호 신호로부터 상기 복수의 서브밴드를 각각 추정하는,
    부호화 장치.
  9. 부호화 장치에 있어서 생성된, 부호화측 입력 신호의 소정 주파수 이하의 저역 부분을 부호화해서 얻어지는 제 1 부호화 정보와, 상기 부호화측 입력 신호의 상기 소정 주파수보다 높은 고역부분을 복수의 서브밴드로 분할하고, 상기 부호화측 입력 신호 또는 상기 제 1 부호화 정보를 복호해서 얻어지는 제 1 복호 신호로부터, 상기 복수의 서브밴드를 각각 추정함으로써 생성된 제 2 부호화 정보를 수신하는 수신 수단과,
    상기 제 1 부호화 정보를 복호하여 제 2 복호 신호를 생성하는 제 1 복호 수단과,
    상기 제 2 부호화 정보를 이용하여, 상기 제 2 복호 신호로부터 상기 부호화측 입력 신호의 고역부분을 추정함으로써 제 3 복호 신호를 생성하는 제 2 복호 수단을 구비하는 대역 확장 복호를 행하는 복호 장치이며,
    상기 제 2 복호 수단은,
    상기 제 2 복호 신호를 입력시켜 평활화하는 청구항 1, 2, 3, 4, 7 중 어느 한 항에 기재한 스펙트럼 평활화 장치를 구비하고,
    평활화 후의 상기 제 2 복호 신호로부터 상기 부호화측 입력 신호의 고역부분을 추정하는,
    복호 장치.
  10. 청구항 1, 2, 3, 4, 7 중 어느 한 항에 기재한 스펙트럼 평활화 장치를 구비하는 통신 단말장치.
  11. 청구항 1, 2, 3, 4, 7 중 어느 한 항에 기재한 스펙트럼 평활화 장치를 구비하는 기지국 장치.
  12. 입력되는 신호를 시간-주파수 변환해서 주파수 성분을 생성하는 시간-주파수 변환 스텝과,
    상기 주파수 성분을 복수의 서브밴드로 분할하는 서브밴드 분할 스텝과,
    상기 분할된 각 서브밴드를 다시 복수의 서브 그룹으로 분할하고, 상기 서브 그룹에 포함되는 샘플의 산술 평균값을 산출하고, 상기 서브 그룹 마다의 산술 평균값을 곱하는 연산을 행한 결과를 이용해 기하 평균값을 산출함으로써, 서브밴드 마다의 대표값을 산출하는 대표값 산출 스텝과,
    상기 서브밴드 마다의 대표값에 대해서 비선형 변환을 행하는 비선형 변환 스텝과,
    상기 비선형 변환된 대표값을 주파수 영역에서 평활화하는 평활화 스텝
    을 가지는 스펙트럼 평활화 방법.
  13. 입력되는 신호를 시간-주파수 변환하여 주파수 성분을 생성하는 시간-주파수 변환 스텝과,
    상기 주파수 성분을 복수의 서브밴드로 분할하는 서브밴드 분할 스텝과,
    상기 분할된 각 서브밴드를 다시 복수의 서브 그룹으로 분할하고, 상기 서브 그룹에 포함되는 샘플의 산술 평균값을 산출하고, 상기 서브 그룹 마다의 산술 평균값을 곱한 값을 상기 서브밴드 마다의 대표값으로서 산출하는 대표값 산출 스텝과,
    상기 서브밴드 마다의 대표값에 대해서 비선형 변환을 행하는 비선형 변환 스텝과,
    상기 비선형 변환된 대표값을 주파수 영역에서 평활화하는 평활화 스텝을
    을 갖되,
    상기 비선형 변환 스텝은, 상기 서브밴드 마다의 대표값에 대해서 상기 비선형 변환을 행함으로써 서브밴드 마다의 중간값을 산출하고, 상기 서브밴드 마다의 중간값에 대해서, 각 서브밴드내의 서브 그룹수의 역수를 곱하여 얻어지는 값을, 상기 비선형 변환된 대표값으로서 산출하는,
    스펙트럼 평활화 방법.
KR1020117002822A 2008-08-08 2009-08-07 스펙트럼 평활화 장치, 부호화 장치, 복호 장치, 통신 단말 장치, 기지국 장치 및 스펙트럼 평활화 방법 KR101576318B1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2008205645 2008-08-08
JPJP-P-2008-205645 2008-08-08
JP2009096222 2009-04-10
JPJP-P-2009-096222 2009-04-10

Publications (2)

Publication Number Publication Date
KR20110049789A KR20110049789A (ko) 2011-05-12
KR101576318B1 true KR101576318B1 (ko) 2015-12-09

Family

ID=41663498

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020117002822A KR101576318B1 (ko) 2008-08-08 2009-08-07 스펙트럼 평활화 장치, 부호화 장치, 복호 장치, 통신 단말 장치, 기지국 장치 및 스펙트럼 평활화 방법

Country Status (11)

Country Link
US (1) US8731909B2 (ko)
EP (1) EP2320416B1 (ko)
JP (1) JP5419876B2 (ko)
KR (1) KR101576318B1 (ko)
CN (1) CN102099855B (ko)
BR (1) BRPI0917953B1 (ko)
DK (1) DK2320416T3 (ko)
ES (1) ES2452300T3 (ko)
MX (1) MX2011001253A (ko)
RU (1) RU2510536C9 (ko)
WO (1) WO2010016271A1 (ko)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5754899B2 (ja) 2009-10-07 2015-07-29 ソニー株式会社 復号装置および方法、並びにプログラム
JP5609737B2 (ja) 2010-04-13 2014-10-22 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP5850216B2 (ja) 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
CA3203400C (en) 2010-07-19 2023-09-26 Dolby International Ab Processing of audio signals during high frequency reconstruction
JP6075743B2 (ja) * 2010-08-03 2017-02-08 ソニー株式会社 信号処理装置および方法、並びにプログラム
JP5707842B2 (ja) 2010-10-15 2015-04-30 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
EP2720222A1 (en) * 2012-10-10 2014-04-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for efficient synthesis of sinusoids and sweeps by employing spectral patterns
US9319790B2 (en) 2012-12-26 2016-04-19 Dts Llc Systems and methods of frequency response correction for consumer electronic devices
WO2015041070A1 (ja) 2013-09-19 2015-03-26 ソニー株式会社 符号化装置および方法、復号化装置および方法、並びにプログラム
KR20230042410A (ko) 2013-12-27 2023-03-28 소니그룹주식회사 복호화 장치 및 방법, 및 프로그램
US20160379661A1 (en) * 2015-06-26 2016-12-29 Intel IP Corporation Noise reduction for electronic devices
US10043527B1 (en) * 2015-07-17 2018-08-07 Digimarc Corporation Human auditory system modeling with masking energy adaptation
WO2018225412A1 (ja) * 2017-06-07 2018-12-13 日本電信電話株式会社 符号化装置、復号装置、平滑化装置、逆平滑化装置、それらの方法、およびプログラム
JP6439843B2 (ja) * 2017-09-14 2018-12-19 ソニー株式会社 信号処理装置および方法、並びにプログラム

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH046450A (ja) * 1990-04-24 1992-01-10 Sumitomo Light Metal Ind Ltd Al合金材上の溶着金属定量方法
JPH0522151A (ja) * 1991-07-09 1993-01-29 Toshiba Corp 帯域分割形符号化方式
DE4212339A1 (de) * 1991-08-12 1993-02-18 Standard Elektrik Lorenz Ag Codierverfahren fuer audiosignale mit 32 kbit/s
US5495552A (en) * 1992-04-20 1996-02-27 Mitsubishi Denki Kabushiki Kaisha Methods of efficiently recording an audio signal in semiconductor memory
JP3087814B2 (ja) * 1994-03-17 2000-09-11 日本電信電話株式会社 音響信号変換符号化装置および復号化装置
JP4274614B2 (ja) * 1999-03-09 2009-06-10 パナソニック株式会社 オーディオ信号復号方法
EP1199812A1 (en) * 2000-10-20 2002-04-24 Telefonaktiebolaget Lm Ericsson Perceptually improved encoding of acoustic signals
DE10105339B4 (de) * 2001-02-05 2004-05-13 november Aktiengesellschaft Gesellschaft für Molekulare Medizin Verfahren zur fälschungssicheren Markierung, fälschungssichere Markierung und Kit
JP3586205B2 (ja) * 2001-02-22 2004-11-10 日本電信電話株式会社 音声スペクトル改善方法、音声スペクトル改善装置、音声スペクトル改善プログラム、プログラムを記憶した記憶媒体
JP3976169B2 (ja) * 2001-09-27 2007-09-12 株式会社ケンウッド 音声信号加工装置、音声信号加工方法及びプログラム
JP3926726B2 (ja) * 2001-11-14 2007-06-06 松下電器産業株式会社 符号化装置および復号化装置
US7590250B2 (en) * 2002-03-22 2009-09-15 Georgia Tech Research Corporation Analog audio signal enhancement system using a noise suppression algorithm
US7447631B2 (en) * 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
JP3881932B2 (ja) * 2002-06-07 2007-02-14 株式会社ケンウッド 音声信号補間装置、音声信号補間方法及びプログラム
JP4161628B2 (ja) * 2002-07-19 2008-10-08 日本電気株式会社 エコー抑圧方法及び装置
US7277550B1 (en) * 2003-06-24 2007-10-02 Creative Technology Ltd. Enhancing audio signals by nonlinear spectral operations
CN1322488C (zh) * 2004-04-14 2007-06-20 华为技术有限公司 一种语音增强的方法
JP4810422B2 (ja) * 2004-05-14 2011-11-09 パナソニック株式会社 符号化装置、復号化装置、およびこれらの方法
KR100634506B1 (ko) * 2004-06-25 2006-10-16 삼성전자주식회사 저비트율 부호화/복호화 방법 및 장치
CN101273404B (zh) 2005-09-30 2012-07-04 松下电器产业株式会社 语音编码装置以及语音编码方法
US8126706B2 (en) * 2005-12-09 2012-02-28 Acoustic Technologies, Inc. Music detector for echo cancellation and noise reduction
EP1928115A1 (en) * 2006-11-30 2008-06-04 Nokia Siemens Networks Gmbh & Co. Kg Adaptive modulation and coding in a SC-FDMA system
JP2008205645A (ja) 2007-02-16 2008-09-04 Mitsubishi Electric Corp アンテナ装置
JP2009096222A (ja) 2007-10-12 2009-05-07 Komatsu Ltd 建設機械

Also Published As

Publication number Publication date
EP2320416A1 (en) 2011-05-11
JPWO2010016271A1 (ja) 2012-01-19
BRPI0917953B1 (pt) 2020-03-24
MX2011001253A (es) 2011-03-21
JP5419876B2 (ja) 2014-02-19
WO2010016271A1 (ja) 2010-02-11
CN102099855A (zh) 2011-06-15
RU2510536C2 (ru) 2014-03-27
EP2320416B1 (en) 2014-03-05
US20110137643A1 (en) 2011-06-09
EP2320416A4 (en) 2012-08-22
ES2452300T3 (es) 2014-03-31
RU2011104350A (ru) 2012-09-20
DK2320416T3 (da) 2014-05-26
KR20110049789A (ko) 2011-05-12
US8731909B2 (en) 2014-05-20
CN102099855B (zh) 2012-09-26
RU2510536C9 (ru) 2015-09-10
BRPI0917953A2 (pt) 2015-11-10

Similar Documents

Publication Publication Date Title
KR101576318B1 (ko) 스펙트럼 평활화 장치, 부호화 장치, 복호 장치, 통신 단말 장치, 기지국 장치 및 스펙트럼 평활화 방법
KR101661374B1 (ko) 부호화 장치, 복호 장치 및 이들 방법
EP3288034B1 (en) Decoding device, and method thereof
JP5448850B2 (ja) 符号化装置、復号装置およびこれらの方法
US9076434B2 (en) Decoding and encoding apparatus and method for efficiently encoding spectral data in a high-frequency portion based on spectral data in a low-frequency portion of a wideband signal
WO2009081568A1 (ja) 符号化装置、復号装置および符号化方法
WO2009084221A1 (ja) 符号化装置、復号装置およびこれらの方法
US20090171673A1 (en) Encoding apparatus and encoding method
WO2013057895A1 (ja) 符号化装置及び符号化方法
WO2011058752A1 (ja) 符号化装置、復号装置およびこれらの方法

Legal Events

Date Code Title Description
A201 Request for examination
N231 Notification of change of applicant
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20181128

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20191202

Year of fee payment: 5