KR102089602B1 - 음성 복호 장치, 음성 부호화 장치, 음성 복호 방법, 음성 부호화 방법, 음성 복호 프로그램, 및 음성 부호화 프로그램 - Google Patents
음성 복호 장치, 음성 부호화 장치, 음성 복호 방법, 음성 부호화 방법, 음성 복호 프로그램, 및 음성 부호화 프로그램 Download PDFInfo
- Publication number
- KR102089602B1 KR102089602B1 KR1020197031274A KR20197031274A KR102089602B1 KR 102089602 B1 KR102089602 B1 KR 102089602B1 KR 1020197031274 A KR1020197031274 A KR 1020197031274A KR 20197031274 A KR20197031274 A KR 20197031274A KR 102089602 B1 KR102089602 B1 KR 102089602B1
- Authority
- KR
- South Korea
- Prior art keywords
- decoding
- signal
- time envelope
- frequency
- frequency band
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 125
- 238000007493 shaping process Methods 0.000 claims abstract description 158
- 108091026890 Coding region Proteins 0.000 claims description 16
- 230000003362 replicative effect Effects 0.000 claims description 7
- 230000002123 temporal effect Effects 0.000 abstract description 70
- 230000005236 sound signal Effects 0.000 abstract description 19
- 238000013139 quantization Methods 0.000 description 32
- 238000010586 diagram Methods 0.000 description 24
- 238000004458 analytical method Methods 0.000 description 18
- 238000001914 filtration Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 11
- 230000002087 whitening effect Effects 0.000 description 10
- 238000006243 chemical reaction Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000012300 Sequence Analysis Methods 0.000 description 5
- 230000000630 rising effect Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 230000010076 replication Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010367 cloning Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/028—Noise substitution, i.e. substituting non-tonal spectral components by noisy source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Mathematical Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Stereo-Broadcasting Methods (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
Abstract
적은 비트수로 부호화된 주파수 대역의 성분의 시간 영역에서의 변형을 경감하여, 품질을 개선하는 것을 목적으로 한다.
부호화된 음성 신호를 복호하여 음성 신호를 출력하는 음성 복호 장치(10)로서, 복호부(10a)는, 부호화된 음성 신호를 포함하는 부호화 계열을 복호하여 복호 신호를 얻는다. 선택적 시간 포락(包絡) 정형부(整形部)(10b)는, 부호화 계열의 복호에 관한 복호 관련 정보에 기초하여, 복호 신호에서의 주파수 대역의 시간 포락을 정형한다.
부호화된 음성 신호를 복호하여 음성 신호를 출력하는 음성 복호 장치(10)로서, 복호부(10a)는, 부호화된 음성 신호를 포함하는 부호화 계열을 복호하여 복호 신호를 얻는다. 선택적 시간 포락(包絡) 정형부(整形部)(10b)는, 부호화 계열의 복호에 관한 복호 관련 정보에 기초하여, 복호 신호에서의 주파수 대역의 시간 포락을 정형한다.
Description
본 발명은, 음성 복호 장치, 음성 부호화 장치, 음성 복호 방법, 음성 부호화 방법, 음성 복호 프로그램 및 음성 부호화 프로그램에 관한 것이다.
음성 신호, 음향 신호의 데이터량을 수십 분의 1로 압축하는 음성 부호화 기술은, 신호의 전송·축적에 있어서 극히 중요한 기술이다. 널리 이용되고 있는 음성 부호화 기술의 예로서, 주파수 영역에서 신호를 부호화하는 변환 부호화 방식을 들 수 있다.
변환 부호화에 있어서는, 낮은 비트 레이트에서 높은 품질을 얻기 위해, 입력 신호에 따라 주파수 대역마다 부호화에 필요로 하는 비트를 할당하는 적응 비트 할당이 널리 사용되고 있다. 부호화에 의한 변형을 최소화하는 비트 할당 방법은, 각각의 주파수 대역의 신호 파워에 따른 할당이며, 거기에 인간의 청각을 가미(加味)한 형태에서의 비트 할당도 행해지고 있다.
한편, 할당 비트수가 매우 적은 주파수 대역의 품질을 개선하기 위한 기술이 있다. 특허 문헌 1에서는, 소정의 임계값보다 할당된 비트수가 적은 주파수 대역의 변환 계수를, 그 외의 주파수 대역의 변환 계수로 근사(近似)시키는 방법이 개시되어 있다. 또한, 특허 문헌 2에서는, 주파수 대역 내에서 파워가 작으므로, 제로로 양자화 되어버린 성분에 대하여, 의사(擬似) 잡음 신호를 생성하는 방법, 다른 주파수 대역의 제로로 양자화되어 있지 않은 성분의 신호를 복제하는 방법이 개시되어 있다.
또한, 음성 신호, 음향 신호는 일반적으로 고주파수 대역보다 저주파수 대역에 파워가 치우쳐, 주관 품질에 주어지는 영향도 큰 것을 가미하여, 입력 신호의 고주파수 대역은 부호화한 저주파수 대역을 사용하여 생성하는 대역 확장 기술도 널리 사용되고 있다. 대역 확장 기술은, 적은 비트수로 고주파수 대역을 생성 가능하므로, 저비트 레이트로 높은 품질을 얻는 것이 가능하다. 특허 문헌 3에서는, 저주파수 대역의 스펙트럼을 고주파수 대역에 복사한 후에, 부호화기로부터 송신되는 고주파수 대역 스펙트럼의 성질에 관한 정보에 기초하여 스펙트럼 형상을 조정하여 고주파수 대역을 생성하는 방법이 개시되어 있다.
상기한 기술에서는, 적은 비트수로 부호화된 주파수 대역의 성분이 원음의 상기 성분에 주파수 영역에서 유사하도록 생성하고 있다. 한편, 시간 영역에서는 변형이 눈에 띄게 되어, 품질이 열화되는 경우가 있다.
상기한 문제를 감안하여, 본 발명은, 적은 비트수로 부호화된 주파수 대역의 성분의 시간 영역에서의 변형을 경감하여, 품질을 개선할 수 있는 음성 복호 장치, 음성 부호화 장치, 음성 복호 방법, 음성 부호화 방법, 음성 복호 프로그램, 및 음성 부호화 프로그램을 제공하는 것을 목적으로 한다.
상기 문제점을 해결하기 위해, 본 발명의 일측면에 관한 음성 복호 장치는, 부호화된 음성 신호를 복호하여 음성 신호를 출력하는 음성 복호 장치로서, 상기 부호화된 음성 신호를 포함하는 부호화 계열을 복호하여 복호 신호를 얻는 복호부와, 상기 부호화 계열의 복호에 관한 복호 관련 정보에 기초하여, 복호 신호에서의 주파수 대역의 시간 포락(time envelope)을 정형(整形; shaping)하는 선택적 시간 포락 정형부(整形部)를 구비한다. 신호의 시간 포락은, 시간 방향에 대한 신호의 에너지 또는 파워[및 이들과 등가(等價)의 파라미터]의 변동을 나타낸다. 본 구성에 의해, 적은 비트수로 부호화된 주파수 대역의 복호 신호의 시간 포락을 원하는 시간 포락으로 정형하여, 품질을 개선하는 것이 가능해진다.
또한, 본 발명의 다른 일측면에 관한 음성 복호 장치는, 부호화된 음성 신호를 복호하여 음성 신호를 출력하는 음성 복호 장치로서, 상기 부호화된 음성 신호를 포함하는 부호화 계열과 상기 음성 신호의 시간 포락에 관한 시간 포락 정보를 분리하는 역다중화부와, 상기 부호화 계열을 복호하여 복호 신호를 얻는 복호부와, 상기 시간 포락 정보와 상기 부호화 계열의 복호에 관한 복호 관련 정보 중 하나 이상에 기초하여, 복호 신호에서의 주파수 대역의 시간 포락을 정형하는 선택적 시간 포락 정형부를 구비한다. 본 구성에 의해, 상기 음성 신호의 부호화 계열을 생성하고 출력하는 음성 부호화 장치에 의해 상기 음성 부호화 장치에 입력되는 음성 신호를 참조하여 생성된 시간 포락 정보에 기초하여, 적은 비트수로 부호화된 주파수 대역의 복호 신호의 시간 포락을 원하는 시간 포락으로 정형하여, 품질을 개선하는 것이 가능해진다.
복호부는, 상기 부호화 계열을 복호 및/또는 역양자화하여 주파수 영역의 복호 신호를 얻는 복호·역양자화부와, 상기 복호·역양자화부에서의 복호 및/또는 역양자화의 과정에서 얻어지는 정보, 및 상기 부호화 계열을 해석하여 얻어지는 정보 중 하나 이상을 복호 관련 정보로서 출력하는 복호 관련 정보 출력부와, 상기 주파수 영역의 복호 신호를 시간 영역의 신호로 변환하여 출력하는 시간 주파수 역변환부를 구비하는 것이라도 된다. 본 구성에 의해, 적은 비트수로 부호화된 주파수 대역의 복호 신호의 시간 포락을 원하는 시간 포락으로 정형하여, 품질을 개선하는 것이 가능해진다.
또한, 복호부는, 상기 부호화 계열을 제1 부호화 계열과 제2 부호화 계열로 분리하는 부호화 계열 해석부와, 상기 제1 부호화 계열을 복호 및/또는 역양자화하여 제1 복호 신호를 얻어 상기 복호 관련 정보로서 제1 복호 관련 정보를 얻는 제1 복호부와, 상기 제2 부호화 계열과 제1 복호 신호 중 하나 이상을 사용하여 제2 복호 신호를 얻어 출력하고, 상기 복호 관련 정보로서 제2 복호 관련 정보를 출력하는 제2 복호부를 구비하는 것이라도 된다. 본 구성에 의해, 복수의 복호부에 의해 복호되어 복호 신호가 생성될 때도, 적은 비트수로 부호화된 주파수 대역의 복호 신호의 시간 포락을 원하는 시간 포락으로 정형하여, 품질을 개선하는 것이 가능해진다.
제1 복호부는, 상기 제1 부호화 계열을 복호 및/또는 역양자화하여 제1 복호 신호를 얻는 제1 복호·역양자화부와, 상기 제1 복호·역양자화부에서의 복호 및/또는 역양자화의 과정에서 얻어지는 정보, 및 상기 제1 부호화 계열을 해석하여 얻어지는 정보 중 하나 이상을 제1 복호 관련 정보로서 출력하는 제1 복호 관련 정보 출력부를 구비하는 것이라도 된다. 본 구성에 의해, 복수의 복호부에 의해 복호되어 복호 신호가 생성될 때, 적어도 제1 복호부와 관련된 정보에 기초하여, 적은 비트수로 부호화된 주파수 대역의 복호 신호의 시간 포락을 원하는 시간 포락으로 정형하여, 품질을 개선하는 것이 가능해진다.
제2 복호부는, 상기 제2 부호화 계열과 상기 제1 복호 신호 중 하나 이상을 사용하여 제2 복호 신호를 얻는 제2 복호·역양자화부와, 상기 제2 복호·역양자화부에서의 제2 복호 신호를 얻는 과정에서 얻어지는 정보, 및 상기 제2 부호화 계열을 해석하여 얻어지는 정보 중 하나 이상을 제2 복호 관련 정보로서 출력하는 제2 복호 관련 정보 출력부를 구비하는 것이라도 된다. 본 구성에 의해, 복수의 복호부에 의해 복호되어 복호 신호가 생성될 때, 적어도 제2 복호부와 관련된 정보에 기초하여, 적은 비트수로 부호화된 주파수 대역의 복호 신호의 시간 포락을 원하는 시간 포락으로 정형하여, 품질을 개선하는 것이 가능해진다.
선택적 시간 포락 정형부는, 상기 복호 신호를 주파수 영역의 신호로 변환하는 시간·주파수 변환부와, 상기 복호 관련 정보에 기초하여, 상기 주파수 영역의 복호 신호를 각각의 주파수 대역의 시간 포락을 정형하는 주파수 선택적 시간 포락 정형부와, 각각의 상기 주파수 대역의 시간 포락을 정형된 주파수 영역의 복호 신호를 시간 영역의 신호로 변환하는 시간·주파수 역변환부를 구비하는 것이라도 된다. 본 구성에 의해, 주파수 영역에 있어서 적은 비트수로 부호화된 주파수 대역의 복호 신호의 시간 포락을 원하는 시간 포락으로 정형하여, 품질을 개선하는 것이 가능해진다.
복호 관련 정보는, 각각의 주파수 대역의 부호화 비트수에 관련되는 정보인 것이라도 된다. 본 구성에 의해, 각각의 주파수 대역의 부호화 비트 수에 따라 상기 주파수 대역의 복호 신호의 시간 포락을 원하는 시간 포락으로 정형하여, 품질을 개선하는 것이 가능해진다.
복호 관련 정보는, 각각의 주파수 대역의 양자화 단계에 관련되는 정보인 것으로 해도 된다. 본 구성에 의해, 각각의 주파수 대역의 양자화 단계에 따라 상기 주파수 대역의 복호 신호의 시간 포락을 원하는 시간 포락으로 정형하여, 품질을 개선하는 것이 가능해진다.
복호 관련 정보는, 각각의 주파수 대역의 부호화 방식에 관련되는 정보인 것이라도 된다. 본 구성에 의해, 각각의 주파수 대역의 부호화 방식에 따라 상기 주파수 대역의 복호 신호의 시간 포락을 원하는 시간 포락으로 정형하여, 품질을 개선하는 것이 가능해진다.
복호 관련 정보는, 각각의 주파수 대역에 주입되는 잡음 성분에 관련되는 정보인 것이라도 된다. 본 구성에 의해, 각각의 주파수 대역에 주입되는 잡음 성분에 따라 상기 주파수 대역의 복호 신호의 시간 포락을 원하는 시간 포락으로 정형하여, 품질을 개선하는 것이 가능해진다.
주파수 선택적 시간 포락 정형부는, 시간 포락을 정형하는 주파수 대역에 대응하는 상기 복호 신호를, 상기 복호 신호를 주파수 영역에 있어서 선형(線形) 예측 분석하여 얻어진 선형 예측 계수를 사용한 필터를 사용하여 원하는 시간 포락으로 정형하는 것이라도 된다. 본 구성에 의해, 주파수 영역에서의 복호 신호를 사용하여, 적은 비트수로 부호화된 주파수 대역의 복호 신호의 시간 포락을 원하는 시간 포락으로 정형하여, 품질을 개선하는 것이 가능해진다.
주파수 선택적 시간 포락 정형부는, 시간 포락을 정형하지 않는 주파수 대역에 대응하는 상기 복호 신호를 주파수 영역에 있어서 다른 신호로 치환한 후, 시간 포락을 정형하는 주파수 및 시간 포락을 정형하지 않는 주파수에 대응하는 복호 신호를, 주파수 영역에 있어서 선형 예측 분석하여 얻어진 선형 예측 계수를 사용한 필터를 사용하여, 주파수 영역에 있어서 상기 시간 포락을 정형하는 주파수 및 시간 포락을 정형하지 않는 주파수에 대응하는 복호 신호를 필터링 처리함으로써 원하는 시간 포락으로 정형하고, 시간 포락 정형 후에, 상기 시간 포락을 정형하지 않는 주파수 대역에 대응하는 복호 신호는 다른 신호로 치환하기 전의 원래의 신호로 되돌리는 것이라도 된다. 본 구성에 의해, 보다 적은 연산량에 의해, 주파수 영역에서의 복호 신호를 사용하여, 적은 비트수로 부호화된 주파수 대역의 복호 신호의 시간 포락을 원하는 시간 포락으로 정형하여, 품질을 개선하는 것이 가능해진다.
또한, 본 발명의 다른 일측면에 관한 음성 복호 장치는, 부호화된 음성 신호를 복호하여 음성 신호를 출력하는 음성 복호 장치로서, 상기 부호화된 음성 신호를 포함하는 부호화 계열을 복호하여 복호 신호를 얻는 복호부와, 상기 복호 신호를 주파수 영역에 있어서 선형 예측 분석하여 얻어진 선형 예측 계수를 사용한 필터를 사용하여, 주파수 영역에 있어서 상기 복호 신호를 필터링 처리함으로써 원하는 시간 포락으로 정형하는 시간 포락 정형부를 구비한다. 본 구성에 의해, 주파수 영역에서의 복호 신호를 사용하여, 상기 적은 비트수로 부호화된 복호 신호의 시간 포락을 원하는 시간 포락으로 정형하여, 품질을 개선하는 것이 가능해진다.
또한, 본 발명의 다른 일측면에 관한 음성 부호화 장치는, 입력되는 음성 신호를 부호화하여 부호화 계열을 출력하는 음성 부호화 장치로서, 상기 음성 신호를 부호화하여 상기 음성 신호를 포함하는 부호화 계열을 얻는 부호화부와, 상기 음성 신호의 시간 포락에 관한 정보를 부호화하는 시간 포락 정보 부호화부와, 상기 부호화부에서 얻어지는 부호화 계열과, 상기 시간 포락 정보 부호화부에서 얻어지는 시간 포락에 관한 정보의 부호화 계열을 다중화하는 다중화부를 구비한다.
또한, 본 발명의 일측면에 이러한 태양(態樣)은, 이하와 같이 음성 복호 방법, 음성 부호화 방법, 음성 복호 프로그램, 및 음성 부호화 프로그램으로서 파악할 수 있다.
즉, 본 발명의 일측면에 관한 음성 복호 방법은, 부호화된 음성 신호를 복호하여 음성 신호를 출력하는 음성 복호 장치의 음성 복호 방법으로서, 상기 부호화된 음성 신호를 포함하는 부호화 계열을 복호하여 복호 신호를 얻는 복호 단계와, 상기 부호화 계열의 복호에 관한 복호 관련 정보에 기초하여, 복호 신호에서의 주파수 대역의 시간 포락을 정형하는 선택적 시간 포락 정형 단계를 포함한다.
또한, 본 발명의 일측면에 관한 음성 복호 방법은, 부호화된 음성 신호를 복호하여 음성 신호를 출력하는 음성 복호 장치의 음성 복호 방법으로서, 상기 부호화된 음성 신호를 포함하는 부호화 계열과 상기 음성 신호의 시간 포락에 관한 시간 포락 정보를 분리하는 역다중화 단계와, 상기 부호화 계열을 복호하여 복호 신호를 얻는 복호 단계와, 상기 시간 포락 정보와 상기 부호화 계열의 복호에 관한 복호 관련 정보 중 하나 이상에 기초하여, 복호 신호에서의 주파수 대역의 시간 포락을 정형하는 선택적 시간 포락 정형 단계를 포함한다.
또한, 본 발명의 일측면에 관한 음성 복호 프로그램은, 상기 부호화된 음성 신호를 포함하는 부호화 계열을 복호하여 복호 신호를 얻는 복호 단계와, 상기 부호화 계열의 복호에 관한 복호 관련 정보에 기초하여, 복호 신호에서의 주파수 대역의 시간 포락을 정형하는 선택적 시간 포락 정형 단계를 컴퓨터로 하여금 실행하게 한다.
또한, 본 발명의 일측면에 관한 음성 복호 방법은, 부호화된 음성 신호를 복호하여 음성 신호를 출력하는 음성 복호 장치의 음성 복호 방법으로서, 상기 부호화된 음성 신호를 포함하는 부호화 계열과 상기 음성 신호의 시간 포락에 관한 시간 포락 정보를 분리하는 역다중화 단계와, 상기 부호화 계열을 복호하여 복호 신호를 얻는 복호 단계와, 상기 시간 포락 정보와 상기 부호화 계열의 복호에 관한 복호 관련 정보 중 하나 이상에 기초하여, 복호 신호에서의 주파수 대역의 시간 포락을 정형하는 선택적 시간 포락 정형 단계를 컴퓨터로 하여금 실행하게 한다.
또한, 본 발명의 일측면에 관한 음성 복호 방법은, 부호화된 음성 신호를 복호하여 음성 신호를 출력하는 음성 복호 장치의 음성 복호 방법으로서, 상기 부호화된 음성 신호를 포함하는 부호화 계열을 복호하여 복호 신호를 얻는 복호 단계와, 상기 복호 신호를 주파수 영역에 있어서 선형 예측 분석하여 얻어진 선형 예측 계수를 사용한 필터를 사용하여, 주파수 영역에 있어서 상기 복호 신호를 필터링 처리함으로써 원하는 시간 포락으로 정형하는 시간 포락 정형 단계를 포함한다.
또한, 본 발명의 일측면에 관한 음성 부호화 방법은, 입력되는 음성 신호를 부호화하여 부호화 계열을 출력하는 음성 부호화 장치의 음성 부호화 방법으로서, 상기 음성 신호를 부호화하여 상기 음성 신호를 포함하는 부호화 계열을 얻는 부호화 단계와, 상기 음성 신호의 시간 포락에 관한 정보를 부호화하는 시간 포락 정보 부호화 단계와, 상기 부호화 단계에서 얻어지는 부호화 계열과, 상기 시간 포락 정보 부호화 단계에서 얻어지는 시간 포락에 관한 정보의 부호화 계열을 다중화하는 다중화 단계를 포함한다.
또한, 본 발명의 일측면에 관한 음성 복호 프로그램은, 부호화된 음성 신호를 포함하는 부호화 계열을 복호하여 복호 신호를 얻는 복호 단계와, 상기 복호 신호를 주파수 영역에 있어서 선형 예측 분석하여 얻어진 선형 예측 계수를 사용한 필터를 사용하여, 주파수 영역에 있어서 상기 복호 신호를 필터링 처리함으로써 원하는 시간 포락으로 정형하는 시간 포락 정형 단계를 컴퓨터로 하여금 실행하게 한다.
또한, 본 발명의 일측면에 관한 음성 부호화 프로그램은, 음성 신호를 부호화하여 상기 음성 신호를 포함하는 부호화 계열을 얻는 부호화 단계와, 상기 음성 신호의 시간 포락에 관한 정보를 부호화하는 시간 포락 정보 부호화 단계와, 상기 부호화 단계에서 얻어지는 부호화 계열과, 상기 시간 포락 정보 부호화 단계에서 얻어지는 시간 포락에 관한 정보의 부호화 계열을 다중화하는 다중화 단계를 컴퓨터로 하여금 실행하게 한다.
본 발명에 의하면, 적은 비트수로 부호화된 주파수 대역의 복호 신호의 시간 포락을 원하는 시간 포락으로 정형하여, 품질을 개선하는 것이 가능해진다.
도 1은, 제1 실시형태에 관한 음성 복호 장치(10)의 구성을 나타낸 도면이다.
도 2는 제1 실시형태에 관한 음성 복호 장치(10)의 동작을 나타낸 플로우차트이다.
도 3은 제1 실시형태에 관한 음성 복호 장치(10)의 복호부(10a)의 제1 예의 구성을 나타낸 도면이다.
도 4는, 제1 실시형태에 관한 음성 복호 장치(10)의 복호부(10a)의 제1 예의 동작을 나타낸 플로우차트이다.
도 5는 제1 실시형태에 관한 음성 복호 장치(10)의 복호부(10a)의 제2 예의 구성을 나타낸 도면이다.
도 6은 제1 실시형태에 관한 음성 복호 장치(10)의 복호부(10a)의 제2 예의 동작을 나타낸 플로우차트이다.
도 7은 제1 실시형태에 관한 음성 복호 장치(10)의 복호부(10a)의 제2 예의 제1 복호부의 구성을 나타낸 도면이다.
도 8은 제1 실시형태에 관한 음성 복호 장치(10)의 복호부(10a)의 제2 예의 제1 복호부의 동작을 나타낸 플로우차트이다.
도 9는 제1 실시형태에 관한 음성 복호 장치(10)의 복호부(10a)의 제2 예의 제2 복호부의 구성을 나타낸 도면이다.
도 10은 제1 실시형태에 관한 음성 복호 장치(10)의 복호부(10a)의 제2 예의 제2 복호부의 동작을 나타낸 플로우차트이다.
도 11은 제1 실시형태에 관한 음성 복호 장치(10)의 선택적 시간 포락 정형부(10b)의 제1 예의 구성을 나타낸 도면이다.
도 12는 제1 실시형태에 관한 음성 복호 장치(10)의 선택적 시간 포락 정형부(10b)의 제1 예의 동작을 나타낸 플로우차트이다.
도 13은 시간 포락 정형 처리를 나타낸 설명도이다.
도 14는 제2 실시형태에 관한 음성 복호 장치(11)의 구성을 나타낸 도면이다.
도 15는 제2 실시형태에 관한 음성 복호 장치(11)의 동작을 나타낸 플로우차트이다.
도 16은 제2 실시형태에 관한 음성 부호화 장치(21)의 구성을 나타낸 도면이다.
도 17은 제2 실시형태에 관한 음성 부호화 장치(21)의 동작을 나타낸 플로우차트이다.
도 18은 제3 실시형태에 관한 음성 복호 장치(12)의 구성을 나타낸 도면이다.
도 19는 제3 실시형태에 관한 음성 복호 장치(12)의 동작을 나타낸 플로우차트이다.
도 20은 제4 실시형태에 관한 음성 복호 장치(13)의 구성을 나타낸 도면이다.
도 21은 제4 실시형태에 관한 음성 복호 장치(13)의 동작을 나타낸 플로우차트이다.
도 22는 본 실시형태의 음성 복호 장치 또는 음성 부호화 장치로서 기능하는 컴퓨터의 하드웨어 구성을 나타낸 도면이다.
도 23은 음성 복호 장치로서 기능하게 하기 위한 프로그램 구성을 나타낸 도면이다.
도 24는 음성 부호화 장치로서 기능하게 하기 위한 프로그램 구성을 나타낸 도면이다.
도 2는 제1 실시형태에 관한 음성 복호 장치(10)의 동작을 나타낸 플로우차트이다.
도 3은 제1 실시형태에 관한 음성 복호 장치(10)의 복호부(10a)의 제1 예의 구성을 나타낸 도면이다.
도 4는, 제1 실시형태에 관한 음성 복호 장치(10)의 복호부(10a)의 제1 예의 동작을 나타낸 플로우차트이다.
도 5는 제1 실시형태에 관한 음성 복호 장치(10)의 복호부(10a)의 제2 예의 구성을 나타낸 도면이다.
도 6은 제1 실시형태에 관한 음성 복호 장치(10)의 복호부(10a)의 제2 예의 동작을 나타낸 플로우차트이다.
도 7은 제1 실시형태에 관한 음성 복호 장치(10)의 복호부(10a)의 제2 예의 제1 복호부의 구성을 나타낸 도면이다.
도 8은 제1 실시형태에 관한 음성 복호 장치(10)의 복호부(10a)의 제2 예의 제1 복호부의 동작을 나타낸 플로우차트이다.
도 9는 제1 실시형태에 관한 음성 복호 장치(10)의 복호부(10a)의 제2 예의 제2 복호부의 구성을 나타낸 도면이다.
도 10은 제1 실시형태에 관한 음성 복호 장치(10)의 복호부(10a)의 제2 예의 제2 복호부의 동작을 나타낸 플로우차트이다.
도 11은 제1 실시형태에 관한 음성 복호 장치(10)의 선택적 시간 포락 정형부(10b)의 제1 예의 구성을 나타낸 도면이다.
도 12는 제1 실시형태에 관한 음성 복호 장치(10)의 선택적 시간 포락 정형부(10b)의 제1 예의 동작을 나타낸 플로우차트이다.
도 13은 시간 포락 정형 처리를 나타낸 설명도이다.
도 14는 제2 실시형태에 관한 음성 복호 장치(11)의 구성을 나타낸 도면이다.
도 15는 제2 실시형태에 관한 음성 복호 장치(11)의 동작을 나타낸 플로우차트이다.
도 16은 제2 실시형태에 관한 음성 부호화 장치(21)의 구성을 나타낸 도면이다.
도 17은 제2 실시형태에 관한 음성 부호화 장치(21)의 동작을 나타낸 플로우차트이다.
도 18은 제3 실시형태에 관한 음성 복호 장치(12)의 구성을 나타낸 도면이다.
도 19는 제3 실시형태에 관한 음성 복호 장치(12)의 동작을 나타낸 플로우차트이다.
도 20은 제4 실시형태에 관한 음성 복호 장치(13)의 구성을 나타낸 도면이다.
도 21은 제4 실시형태에 관한 음성 복호 장치(13)의 동작을 나타낸 플로우차트이다.
도 22는 본 실시형태의 음성 복호 장치 또는 음성 부호화 장치로서 기능하는 컴퓨터의 하드웨어 구성을 나타낸 도면이다.
도 23은 음성 복호 장치로서 기능하게 하기 위한 프로그램 구성을 나타낸 도면이다.
도 24는 음성 부호화 장치로서 기능하게 하기 위한 프로그램 구성을 나타낸 도면이다.
첨부 도면을 참조하면서 본 발명의 실시형태를 설명한다. 가능한 경우에는, 동일한 부분에는 동일한 부호를 부여하고, 중복되는 설명을 생략한다.
[제1 실시형태]
도 1은, 제1 실시형태에 관한 음성 복호 장치(10)의 구성을 나타낸 도면이다. 음성 복호 장치(10)의 통신 장치는, 음성 신호를 부호화한 부호화 계열을 수신하고, 또한 복호한 음성 신호를 외부에 출력한다. 음성 복호 장치(10)는, 도 1에 나타낸 바와 같이, 기능적으로는, 복호부(10a), 선택적 시간 포락 정형부(10b)를 구비한다.
도 2는, 제1 실시형태에 관한 음성 복호 장치(10)의 동작을 나타낸 플로우차트이다.
복호부(10a)는, 부호화 계열을 복호하여, 복호 신호를 생성한다(단계 S10-1).
선택적 시간 포락 정형부(10b)는, 상기 복호부로부터 부호화 계열을 복호할 때 얻어지는 정보인 복호 관련 정보와 복호 신호를 수취하고, 복호 신호의 성분의 시간 포락을 선택적으로 원하는 시간 포락으로 정형한다(단계 S10-2). 그리고, 이후의 기재에 있어서, 신호의 시간 포락은, 시간 방향에 대한 신호의 에너지 또는 파워(및 이들과 등가의 파라미터)의 변동을 나타내는 것으로 한다.
도 3은, 제1 실시형태에 관한 음성 복호 장치(10)의 복호부(10a)의 제1 예의 구성을 나타낸 도면이다. 복호부(10a)는, 도 3에 나타낸 바와 같이, 기능적으로는, 복호/역양자화부(10aA), 복호 관련 정보 출력부(10aB), 시간 주파수 역변환부(10aC)를 구비한다.
도 4는, 제1 실시형태에 관한 음성 복호 장치(10)의 복호부(10a)의 제1 예의 동작을 나타낸 플로우차트이다.
복호/역양자화부(10aA)는, 부호화 계열의 부호화 방식에 따라 부호화 계열에 대하여 복호, 역양자화 중 하나 이상을 실시하여 주파수 영역 복호 신호를 생성한다(단계 S10-1-1).
복호 관련 정보 출력부(10aB)는, 상기 복호/역양자화부(10aA)에 의해 복호 신호를 생성할 때 얻어지는 복호 관련 정보를 받아 복호 관련 정보를 출력한다(단계 S10-1-2). 또한, 부호화 계열을 받아 해석하여 복호 관련 정보를 얻어, 복호 관련 정보를 출력해도 된다. 복호 관련 정보로서는, 예를 들면, 주파수 대역마다 부호화 비트수라도 되고, 이것과 동등한 정보(예를 들면, 주파수 대역마다 1주파수 성분 근처의 평균 부호화 비트수)라도 된다. 또한, 주파수 성분마다의 부호화 비트수라도 된다. 또한, 주파수 대역마다 양자화 단계 사이즈라도 된다. 또한, 주파수 성분의 양자화값이라도 된다. 여기서, 주파수 성분이란, 예를 들면, 소정 시간 주파수 변환의 변환 계수이다. 또한, 주파수 대역마다 에너지 또는 파워라도 된다. 또한, 소정의 주파수 대역(주파수 성분이라도 됨)을 제시하는 정보로 해도 된다. 또한, 예를 들면, 복호 신호 생성 시에 다른 시간 포락 정형에 관한 처리를 포함하는 경우에는, 상기 시간 포락 정형 처리에 관한 정보라도 되고, 예를 들면, 상기 시간 포락 정형 처리를 할 것인지의 여부의 정보, 상기 시간 포락 정형 처리에 의해 정형되는 시간 포락에 관한 정보, 상기 시간 포락 정형 처리의 시간 포락 정형의 강도의 정보 중 적어도 하나라도 된다. 전술한 예 중 하나 이상이 복호 관련 정보로서 출력된다.
시간 주파수 역변환부(10aC)는, 상기 주파수 영역 복호 신호를 소정 시간 주파수 역변환에 의해 시간 영역의 복호 신호로 변환하여 출력한다(단계 S10-1-3). 단, 주파수 영역 복호 신호에 시간 주파수 역변환을 행하지 않고 출력해도 된다. 예를 들면, 선택적 시간 포락 정형부(10b)가 입력 신호로서 주파수 영역의 신호를 요구하는 경우가 해당된다.
도 5는, 제1 실시형태에 관한 음성 복호 장치(10)의 복호부(10a)의 제2 예의 구성을 나타낸 도면이다. 복호부(10a)는, 도 5에 나타낸 바와 같이, 기능적으로는, 부호화 계열 해석부(10aD), 제1 복호부(10aE), 제2 복호부(10aF)를 구비한다.
도 6은, 제1 실시형태에 관한 음성 복호 장치(10)의 복호부(10a)의 제2 예의 동작을 나타낸 플로우차트이다.
부호화 계열 해석부(10aD)는, 부호화 계열을 해석하여, 제1 부호화 계열과 제2 부호화 계열로 분리한다(단계 S10-1-4).
제1 복호부(10aE)는, 제1 부호화 계열을 제1 복호 방식에 의해 복호하여 제1 복호 신호를 생성하고, 상기 복호에 관한 정보인 제1 복호 관련 정보를 출력한다(단계 S10-1-5).
제2 복호부(10aF)는, 상기 제1 복호 신호를 사용하여, 제2 부호화 계열을 제2 복호 방식에 의해 복호하여 복호 신호를 생성하고, 상기 복호에 관한 정보인 제2 복호 관련 정보를 출력한다(단계 S10-1-6). 본 예에 있어서는, 이 제1 복호 관련 정보 및 제2 복호 관련 정보를 합한 것이, 복호 관련 정보이다.
도 7은, 제1 실시형태에 관한 음성 복호 장치(10)의 복호부(10a)의 제2 예의 제1 복호부의 구성을 나타낸 도면이다. 제1 복호부(10aE)는, 도 7에 나타낸 바와 같이, 기능적으로는, 제1 복호/역양자화부(10aE-a), 제1 복호 관련 정보 출력부(10aE-b)를 구비한다.
도 8은, 제1 실시형태에 관한 음성 복호 장치(10)의 복호부(10a)의 제2 예의 제1 복호부의 동작을 나타낸 플로우차트이다.
제1 복호/역양자화부(10aE-a)는, 제1 부호화 계열의 부호화 방식에 따라 제1 부호화 계열에 대하여 복호, 역양자화 중 하나 이상을 실시하여 제1 복호 신호를 생성하여 출력한다(단계 S10-1-5-1).
제1 복호 관련 정보 출력부(10aE-b)는, 상기 제1 복호/역양자화부(10aE-a)에 의해 제1 복호 신호를 생성할 때 얻어지는 제1 복호 관련 정보를 받아 제1 복호 관련 정보를 출력한다(단계 S10-1-5-2). 또한, 제1 부호화 계열을 받아 해석하여 제1 복호 관련 정보를 얻어, 제1 복호 관련 정보를 출력해도 된다. 제1 복호 관련 정보의 예로서는, 상기 복호 관련 정보 출력부(10aB)가 출력하는 복호 관련 정보의 예와 같아도 된다. 또한, 제1 복호부의 복호 방식이 제1 복호 방식인 것을 제1 복호 관련 정보로 해도 된다. 또한, 제1 복호 신호에 포함되는 주파수 대역(주파수 성분이라도 됨)(제1 부호화 계열에 부호화되어 있는 음성 신호의 주파수 대역(주파수 성분이라도 됨)을 나타내는 정보를 제1 복호 관련 정보로 해도 된다.
도 9는, 제1 실시형태에 관한 음성 복호 장치(10)의 복호부(10a)의 제2 예의 제2 복호부의 구성을 나타낸 도면이다. 제2 복호부(10aF)는, 도 9에 나타낸 바와 같이, 기능적으로는, 제2 복호/역양자화부(10aF-a), 제2 복호 관련 정보 출력부(10aF-b), 복호 신호 합성부(10aF-c)를 구비한다.
도 10은, 제1 실시형태에 관한 음성 복호 장치(10)의 복호부(10a)의 제2 예의 제2 복호부의 동작을 나타낸 플로우차트이다.
제2 복호/역양자화부(10aF-1)는, 제2 부호화 계열의 부호화 방식에 따라 제2 부호화 계열에 대하여 복호, 역양자화 중 하나 이상을 행하여 제2 복호 신호를 생성하여 출력한다(단계 S10-1-6-1). 제2 복호 신호의 생성 시에는, 제1 복호 신호를 사용해도 된다. 제2 복호부의 복호 방식(제2 복호 방식)은, 대역 확장 방식이라도 되고, 제1 복호 신호를 사용한 대역 확장 방식이라도 된다. 또한, 특허 문헌 1(일본 공개특허 평9-153811호 공보)에 나타낸 바와 같이, 제1 부호화 방식에 의해 할당된 비트수가 소정의 임계값보다 적었던 주파수 대역의 변환 계수를, 제2 부호화 방식으로서 다른 주파수 대역의 변환 계수로 근사시키는 부호화 방식에 대응하는 복호 방식이라도 된다. 또한, 또한 특허 문헌 2(미국 특허 제7447631)에 나타낸 바와 같이, 제1 부호화 방식에 의해 제로로 양자화된 주파수의 성분에 대하여, 제2 부호화 방식에 의해 의사 잡음 신호를 생성하거나 또는 다른 주파수 성분의 신호를 복제하는 부호화 방식에 대응하는 복호 방식이라도 된다. 또한, 상기 주파수의 성분에 대하여, 제2 부호화 방식에 의해 다른 주파수 성분의 신호를 사용하여 근사시키는 부호화 방식에 대응하는 복호 방식이라도 된다. 또한, 제1 부호화 방식에 의해 제로로 양자화된 주파수의 성분은, 제1 부호화 방식으로 부호화되지 않은 주파수의 성분이라고 해석할 수 있다. 이들의 경우, 제1 부호화 방식에 대응하는 복호 방식이 제1 복호부의 복호 방식인 제1 복호 방식, 제2 부호화 방식에 대응하는 복호 방식이 제2 복호부의 복호 방식인 제2 복호 방식으로 해도 된다.
제2 복호 관련 정보 출력부(10aF-b)는, 상기 제2 복호/역양자화부(10aF-a)에 의해 제2 복호 신호를 생성할 때 얻어지는 제2 복호 관련 정보를 받아 제2 복호 관련 정보를 출력한다(단계 S10-1-6-2). 또한, 제2 부호화 계열을 받아 해석하여 제2 복호 관련 정보를 얻어, 제2 복호 관련 정보를 출력해도 된다. 제2 복호 관련 정보의 예로서는, 상기 복호 관련 정보 출력부(10aB)가 출력하는 복호 관련 정보의 예와 같아도 된다.
또한, 제2 복호부의 복호 방식이 제2 복호 방식인 것을 나타내는 정보를 제2 복호 관련 정보로 해도 된다. 예를 들면, 제2 복호 방식이 대역 확장 방식인 것을 나타내는 정보를 제2 복호 관련 정보로 해도 된다. 또한, 예를 들면, 대역 확장 방식으로 생성되는 제2 복호 신호의 각각의 주파수 대역에 대한 대역 확장 방식을 나타내는 정보를 제2 복호 정보로 해도 된다. 각각의 상기 주파수 대역에 대한 대역 확장 방식을 나타내는 정보로서는, 예를 들면, 다른 주파수 대역으로부터 신호를 복제하고, 다른 주파수 대역의 신호로 상기 주파수의 신호를 근사한, 의사 잡음 신호를 생성한, 사인 신호를 부가한 등의 정보로 해도 된다. 또한, 예를 들면, 다른 주파수 대역의 신호로 상기 주파수의 신호를 근사시킬 때는 근사 방법에 관한 정보라도 된다. 또한, 예를 들면, 다른 주파수 대역의 신호로 상기 주파수의 신호를 근사시킬 때 백색화를 사용한 경우에는, 백색화의 강도에 관한 정보를 제2 복호 정보로 해도 된다. 또한, 예를 들면, 다른 주파수 대역의 신호로 상기 주파수의 신호를 근사시킬 때 의사 잡음 신호를 부가한 경우에는, 의사 잡음 신호의 레벨에 관한 정보를 제2 복호 정보로 해도 된다. 또한, 예를 들면, 의사 잡음 신호를 생성한 경우에는, 의사 잡음 신호의 레벨에 관한 정보를 제2 복호 정보로 해도 된다.
또한, 예를 들면, 제2 복호 방식이, 제1 부호화 방식에 의해 할당된 비트수가 소정의 임계값보다 적었던 주파수 대역의 변환 계수를, 다른 주파수 대역의 변환 계수에서의 근사, 및 의사 잡음 신호의 변환 계수를 부가(치환이라도 됨) 중 어느 하나 또는 양쪽으로 하는 부호화 방식에 대응하는 복호 방식인 것을 나타내는 정보를 제2 복호 관련 정보로 해도 된다. 예를 들면, 상기 주파수 대역의 변환 계수의 근사 방법에 관한 정보를 제2 복호 관련 정보로 해도 된다. 예를 들면, 근사 방법으로서 다른 주파수 대역의 변환 계수를 백색화하는 방법을 이용한 경우에는, 백색화의 강도에 관한 정보를 제2 복호 정보로 해도 된다. 예를 들면, 상기 의사 잡음 신호의 레벨에 관한 정보를 제2 복호 정보로 해도 된다.
또한, 예를 들면, 제2 부호화 방식이, 제1 부호화 방식에 의해 제로로 양자화된(즉, 제1 부호화 방식에 의해 부호화되지 않은) 주파수의 성분에 대하여, 의사 잡음 신호를 생성하거나 또는 다른 주파수 성분의 신호를 복제하는 부호화 방식인 것을 나타내는 정보를 제2 복호 관련 정보로 해도 된다. 예를 들면, 각 주파수 성분에 대하여, 제1 부호화 방식에 의해 제로로 양자화된(즉, 제1 부호화 방식에 의해 부호화되지 않은) 주파수의 성분인가의 여부를 나타내는 정보를, 제2 복호 관련 정보로 해도 된다. 예를 들면, 상기 주파수 성분에 대하여 의사 잡음 신호를 생성하거나 다른 주파수 성분의 신호를 복제할 것인지를 나타내는 정보를, 제2 복호 관련 정보로 해도 된다. 또한, 예를 들면, 상기 주파수 성분에 대하여 다른 주파수 성분의 신호를 복제하는 경우, 복제 방법에 관한 정보를 제2 복호 관련 정보로 해도 된다. 복제 방법에 관한 정보로서는, 예를 들면, 복제원(複製元)의 주파수라도 된다. 또한, 예를 들면, 복제 시에 복제원의 주파수 성분에 대하여 처리를 가하는지의 여부, 또한 가하는 처리에 관한 정보라도 된다. 또한, 예를 들면, 상기 복제원의 주파수 성분에 대하여 가하는 처리가 백색화의 경우에는, 백색화의 강도에 관한 정보라도 된다. 또한, 예를 들면, 상기 복제원의 주파수 성분에 대하여 가하는 처리가 의사 잡음 신호 부가의 경우에는, 의사 잡음 신호의 레벨에 관한 정보라도 된다.
복호 신호 합성부(10aF-c)는, 제1 복호 신호와 제2 복호 신호로부터, 복호 신호를 합성하여 출력한다(단계 S10-1-6-3). 제2 부호화 방식이 대역 확장 방식인 경우는, 일반적으로는, 제1 복호 신호가 저주파수 대역의 신호, 제2 복호 신호가 고주파수 대역의 신호이며, 복호 신호는 이들 양쪽의 주파수 대역을 가지게 된다.
도 11은, 제1 실시형태에 관한 음성 복호 장치(10)의 선택적 시간 포락 정형부(10b)의 제1 예의 구성을 나타낸 도면이다. 선택적 시간 포락 정형부(10b)는, 도 11에 나타낸 바와 같이, 기능적으로는, 시간 주파수 변환부(10bA), 주파수 선택부(10bB), 주파수 선택적 시간 포락 정형부(10bC), 시간 주파수 역변환부(10bD)를 구비한다.
도 12는, 제1 실시형태에 관한 음성 복호 장치(10)의 선택적 시간 포락 정형부(10b)의 제1 예의 동작을 나타낸 플로우차트이다.
시간 주파수 변환부(10bA)는, 시간 영역의 복호 신호를 소정 시간 주파수 변환에 의해 주파수 영역의 복호 신호로 변환한다(단계 S10-2-1). 단, 복호 신호가 주파수 영역의 신호의 경우에는, 상기 시간 주파수 변환부(10bA), 및 상기 처리 단계 S10-2-1을 생략할 수 있다.
주파수 선택부(10bB)는, 주파수 영역의 복호 신호 및 복호 관련 정보 중 하나 이상을 사용하여, 주파수 영역의 복호 신호에 있어서 시간 포락 정형 처리를 행하는 주파수 대역을 선택한다(단계 S10-2-2). 상기 주파수 선택 처리는, 시간 포락 정형 처리를 행하는 주파수 성분을 선택해도 된다. 상기 선택되는 주파수 대역(주파수 성분이라도 됨)은, 복호 신호 중 일부의 주파수 대역(주파수 성분이라도 됨)이라도 되고, 또한 복호 신호의 모든 주파수 대역(주파수 성분이라도 됨)이라도 된다.
예를 들면, 복호 관련 정보가 주파수 대역마다 부호화 비트수인 경우에는, 상기 부호화 비트수가 소정의 임계값보다 작은 주파수 대역을, 시간 포락 정형 처리를 행하는 주파수 대역으로서 선택해도 된다. 상기 주파수 대역마다 부호화 비트수과 동등한 정보의 경우에도, 마찬가지로, 소정의 임계값이라는 비교에 의해 시간 포락 정형 처리를 행하는 주파수 대역을 선택할 수 있는 것은 명백하다. 또한, 예를 들면, 복호 관련 정보가 주파수 성분마다의 부호화 비트수인 경우에는, 상기 부호화 비트수가 소정의 임계값보다 작은 주파수 성분을, 시간 포락 정형 처리를 행하는 주파수 성분으로서 선택해도 된다. 예를 들면, 변환 계수를 부호화되어 있지 않은 주파수 성분을, 시간 포락 정형 처리를 행하는 주파수 성분으로서 선택해도 된다. 또한, 예를 들면, 복호 관련 정보가 주파수 대역마다 양자화 단계 사이즈인 경우, 상기 양자화 단계 사이즈가 소정의 임계값보다 큰 주파수 대역을, 시간 포락 정형 처리를 행하는 주파수 대역으로서 선택해도 된다. 또한, 예를 들면, 복호 관련 정보가 주파수 성분의 양자화값인 경우, 상기 양자화값을 소정의 임계값과 비교하여, 시간 포락 정형 처리를 행하는 주파수 대역을 선택해도 된다. 예를 들면, 양자화 변환 계수가 소정의 임계값보다 작은 성분을, 시간 포락 정형 처리를 행하는 주파수 성분으로서 선택해도 된다. 또한, 예를 들면, 복호 관련 정보가 주파수 대역마다 에너지 또는 파워인 경우, 상기 에너지 또는 파워를 소정의 임계값과 비교하여, 시간 포락 정형 처리를 행하는 주파수 대역을 선택해도 된다. 예를 들면, 선택적 시간 포락 정형 처리의 대상이 되는 주파수 대역의 에너지 또는 파워가 소정의 임계값보다 작을 경우에는, 상기 주파수 대역에는 시간 포락 정형 처리를 행하지 않은 것으로 해도 된다.
또한, 예를 들면, 복호 관련 정보가 다른 시간 포락 정형 처리에 관한 정보인 경우에는, 상기 시간 포락 정형 처리가 행해지지 않은 주파수 대역을, 본 발명에서의 시간 포락 정형 처리를 행하는 주파수 대역으로서 선택해도 된다.
또한, 예를 들면, 복호부(10a)가 복호부(10a)의 제2 예에서 기재된 구성으로서, 복호 관련 정보가 제2 복호부의 부호화 방식인 경우에, 제2 복호부의 부호화 방식에 따라 제2 복호부에 의해 복호되는 주파수 대역을, 시간 포락 정형 처리를 행하는 주파수 대역으로서 선택해도 된다. 예를 들면, 제2 복호부의 부호화 형식이 대역 확장 방식인 경우에, 제2 복호부에 의해 복호되는 주파수 대역을, 시간 포락 정형 처리를 행하는 주파수 대역으로서 선택해도 된다. 예를 들면, 제2 복호부의 부호화 형식이 시간 영역에서의 대역 확장 방식인 경우에, 제2 복호부에 의해 복호되는 주파수 대역을, 시간 포락 정형 처리를 행하는 주파수 대역으로서 선택해도 된다. 예를 들면, 제2 복호부의 부호화 형식이 주파수 영역에서의 대역 확장 방식인 경우에, 제2 복호부에 의해 복호되는 주파수 대역을, 시간 포락 정형 처리를 행하는 주파수 대역으로서 선택해도 된다. 예를 들면, 대역 확장 방식에 의해 다른 주파수 대역으로부터 신호를 복제한 주파수 대역을, 시간 포락 정형 처리를 행하는 주파수 대역으로서 선택해도 된다. 예를 들면, 대역 확장 방식에 의해 다른 주파수 대역의 신호를 사용하여 상기 주파수의 신호를 근사한 주파수 대역을, 시간 포락 정형 처리를 행하는 주파수 대역으로서 선택해도 된다. 예를 들면, 대역 확장 방식에 의해 의사 잡음 신호를 생성한 주파수 대역을, 시간 포락 정형 처리를 행하는 주파수 대역으로서 선택해도 된다. 예를 들면, 대역 확장 방식에 의해 사인 신호를 부가한 주파수 대역를 제외한 주파수 대역을, 시간 포락 정형 처리를 행하는 주파수 대역으로서 선택해도 된다.
또한, 예를 들면, 복호부(10a)가 복호부(10a)의 제2 예에서 기재된 구성으로서, 제2 부호화 방식이 제1 부호화 방식에 의해 할당된 비트수가 소정의 임계값보다 적었던 주파수 대역 또는 성분(제1 부호화 방식에 의해 부호화되어 있지 않은 주파수 대역 또는 성분이라도 됨)의 변환 계수를, 다른 주파수 대역 또는 성분의 변환 계수를 사용한 근사, 및 의사 잡음 신호의 변환 계수를 부가(치환이라도 됨) 중 어느 하나 또는 양쪽으로 하는 부호화 방식인 경우에 있어서, 변환 계수를 다른 주파수 대역 또는 성분의 변환 계수를 사용하여 근사한 주파수 대역 또는 성분을, 시간 포락 정형 처리를 행하는 주파수 대역 또는 성분으로서 선택해도 된다. 예를 들면, 의사 잡음 신호의 변환 계수를 부가(치환이라도 됨)한 주파수 대역 또는 성분을, 시간 포락 정형 처리를 행하는 주파수 대역 또는 성분으로서 선택해도 된다. 예를 들면, 변환 계수를 다른 주파수 대역 또는 성분의 변환 계수를 사용하여 근사시킬 때의 근사 방법에 따라 시간 포락 정형 처리를 행하는 주파수 대역 또는 성분으로서 선택해도 된다. 예를 들면, 근사 방법으로서 다른 주파수 대역 또는 성분의 변환 계수를 백색화하는 방법을 이용한 경우에는, 백색화의 강도에 따라 시간 포락 정형 처리를 행하는 주파수 대역 또는 성분을 선택해도 된다. 예를 들면, 의사 잡음 신호의 변환 계수를 부가(치환이라도 됨)하는 경우에 있어서, 상기 의사 잡음 신호의 레벨에 따라 시간 포락 정형 처리를 행하는 주파수 대역 또는 성분을 선택해도 된다.
또한, 예를 들면, 복호부(10a)가 복호부(10a)의 제2 예에서 기재된 구성으로서, 제2 부호화 방식이, 제1 부호화 방식에 의해 제로로 양자화된(즉, 제1 부호화 방식에 의해 부호화되지 않음) 주파수의 성분에 대하여, 의사 잡음 신호를 생성하거나 또는 다른 주파수 성분의 신호를 복제(다른 주파수 성분의 신호를 사용한 근사시켜도 됨)하는 부호화 방식인 경우에 있어서, 의사 잡음 신호를 생성한 주파수 성분을, 시간 포락 정형 처리를 행하는 주파수 성분으로서 선택해도 된다. 예를 들면, 다른 주파수 성분의 신호를 복제(다른 주파수 성분의 신호를 사용하여 근사시켜도 됨)한 주파수 성분을, 시간 포락 정형 처리를 행하는 주파수 성분으로서 선택해도 된다. 예를 들면, 상기 주파수 성분에 대하여 다른 주파수 성분의 신호를 복제(다른 주파수 성분의 신호를 사용하여 근사시켜도 됨)하는 경우, 복제원[근사원(近似元)]의 주파수에 따라 시간 포락 정형 처리를 행하는 주파수 성분을 선택해도 된다. 예를 들면, 복제 시에 복제원의 주파수 성분에 대하여 처리를 가하는지의 여부에 따라 시간 포락 정형 처리를 행하는 주파수 성분을 선택해도 된다. 예를 들면, 복제(근사라도 됨) 시에 복제원(근사원)의 주파수 성분에 대하여 가하는 처리에 따라 시간 포락 정형 처리를 행하는 주파수 성분을 선택해도 된다. 예를 들면, 상기 복제원(근사원)의 주파수 성분에 대하여 가하는 처리가 백색화의 경우에는, 백색화의 강도에 따라 시간 포락 정형 처리를 행하는 주파수 성분을 선택해도 된다. 예를 들면, 근사 시의 근사 방법에 따라 시간 포락 정형 처리를 행하는 주파수 성분을 선택해도 된다.
주파수 성분 또는 주파수 대역의 선택 방법은, 상기한 예를 조합시켜도 된다. 또한, 주파수 영역의 복호 신호 및 복호 관련 정보 중 하나 이상을 사용하여, 주파수 영역의 복호 신호에 있어서 시간 포락 정형 처리를 행하는 주파수 성분 또는 대역을 선택하면 되고, 주파수 성분 또는 주파수 대역의 선택 방법은 상기한 예에 한정되지 않는다.
주파수 선택적 시간 포락 정형부(10bC)는, 복호 신호의 상기 주파수 선택부(10bB)에서 선택된 주파수 대역의 시간 포락을 원하는 시간 포락으로 정형한다(단계 S10-2-3). 상기 시간 포락 정형의 실시는, 주파수 성분 단위라도 된다.
시간 포락의 정형 방법은, 예를 들면, 선택된 주파수 대역의 변환 계수를 선형 예측 분석하여 얻어진 선형 예측 계수를 사용한 선형 예측 역필터(inverse filter)로 필터링함으로써, 시간 포락을 평탄하게 하는 방법이라도 된다. 상기 선형 예측 역필터의 전달 함수 A(z)는, 이산(離散) 시간계(時間系)에서의 상기 선형 예측 역필터의 응답을 나타내는 함수이며,
[수식 1]
로 표현할 수 있다. p는 예측 차수(次數)이며, αi(i = 1, . , p)는 선형 예측 계수이다. 예를 들면, 선택된 주파수 대역의 변환 계수를, 상기 선형 예측 계수를 사용한 선형 예측 필터로 필터링함으로써, 시간 포락을 상승 및/또는 하강하거나 하는 방법이라도 된다. 상기 선형 예측 필터의 전달 함수는,
[수식 2]
로 표현할 수 있다.
상기 선형 예측 계수를 사용하는 시간 포락 정형 처리에 있어서는, 대역폭 확대율 ρ을 사용하여, 시간 포락을 평탄하게 하거나 또는 상승 및/또는 하강하거나로 하는 강도를 조정해도 된다.
[수식 3]
[수식 4]
상기한 예는, 복호 신호를 시간 주파수 변환한 변환 계수뿐아니라, 복호 신호를 필터 뱅크에 의해 주파수 영역의 신호로 변환하여 얻어지는 서브 밴드 신호의 임의의 시간 t에서의 서브 샘플에 대하여 처리해도 된다. 상기한 예에서는, 복호 신호에 대하여 주파수 영역에 있어서 선형 예측 분석에 기초한 필터링을 행함으로써, 복호 신호의 시간 영역에서의 파워의 분포를 바꾸어 시간 포락을 정형할 수 있다.
또한, 예를 들면, 복호 신호를 필터 뱅크에 의해 주파수 영역의 신호로 변환 한 서브 밴드 신호의 진폭을, 임의의 시간 세그먼트에 있어서, 시간 포락 정형 처리를 행하는 주파수 성분(또는, 주파수 대역)의 평균 진폭으로 함으로써 시간 포락을 평탄하게 해도 된다. 이로써, 시간 포락 정형 처리 전의 상기 시간 세그먼트의 상기 주파수 성분(또는, 주파수 대역)의 에너지를 유지한 채, 시간 포락을 평탄하게 할 수 있다. 마찬가지로, 시간 포락 정형 처리 전의 상기 시간 세그먼트의 상기 주파수 성분(또는, 주파수 대역)의 에너지를 유지한 채, 서브 밴드 신호의 진폭을 변경함으로써 시간 포락을 상승/하강하거나 해도 된다.
또한, 예를 들면, 도 13에 나타낸 바와 같이, 상기 주파수 선택부(10bB)에 의해 시간 포락을 정형하는 주파수 성분 또는 주파수 대역으로서 선택되지 않은 주파수 성분 또는 주파수 대역(비선택 주파수 성분 또는 비선택 주파수 대역이라고 함)을 포함하는 주파수 대역에 있어서, 복호 신호의 비선택 주파수 성분(비선택 주파수 대역이라도 됨)의 변환 계수(또는 서브 샘플)를 다른 값으로 치환한 후, 상기 시간 포락 정형 방법에 의해 시간 포락 정형 처리를 행한 후에, 상기 비선택 주파수 성분(비선택 주파수 대역이라도 됨)의 변환 계수(또는 서브 샘플)를 치환하기 전의 원래의 값으로 되돌림으로써, 비선택 주파수 성분(비선택 주파수 대역이라도 됨)을 제외한 주파수 성분(주파수 대역)에 시간 포락 정형 처리를 행해도 된다.
이로써, 비선택 주파수 성분(또는, 비선택 주파수 대역)이 점재(点在)함으로써 시간 포락 정형 처리를 행하는 주파수 성분(또는 주파수 대역)이 미세하게 분할되는 경우에도, 분할되는 주파수 성분(또는 주파수 대역)을 모아서 시간 포락 정형 처리할 수 있어, 연산량을 삭감할 수 있다. 예를 들면, 상기 선형 예측 분석을 사용하는 시간 포락 정형 방법에 있어서는, 미세하게 분할된 시간 포락 정형 처리를 행하는 주파수 성분(또는, 주파수 대역)에 대하여 선형 예측 분석을 하는 데 대하여, 상기 분할된 주파수 성분(또는, 주파수 대역)을 비선택 주파수 성분(또는, 비선택 주파수 대역)도 포함하여 모아서 한 번의 선형 예측 분석을 하면 되고, 또한 선형 예측 역필터(선형 예측 필터라도 됨)에서의 필터링 처리도, 상기 분할된 주파수 성분(또는, 주파수 대역)을 비선택 주파수 성분(또는, 비선택 주파수 대역)도 포함하여 모아서 한 번의 필터링으로 할 수 있어, 저연산량으로 실현할 수 있다.
상기 비선택 주파수 성분(비선택 주파수 대역이라도 됨)의 변환 계수(또는 서브 샘플)의 치환은, 예를 들면, 상기 비선택 주파수 성분(비선택 주파수 대역이라도 됨)의 변환 계수(또는 서브 샘플) 및 그 인접한 주파수 성분(또는, 주파수 대역이라도 됨)을 포함한 진폭의 평균값을 사용하여, 상기 비선택 주파수 성분(비선택 주파수 대역이라도 됨)의 변환 계수(또는 서브 샘플)의 진폭을 치환해도 된다. 이 때는, 예를 들면, 변환 계수의 부호는 원래의 변환 계수의 부호를 유지해도 되고, 서브 샘플의 위상은 원래의 서브 샘플의 위상을 유지해도 된다. 또한, 예를 들면, 상기 주파수 성분(주파수 대역이라도 됨)의 변환 계수(또는 서브 샘플)가 양자화/부호화되어 있지 않고, 다른 주파수 성분(주파수 대역이라도 됨)의 변환 계수(또는 서브 샘플)와 복제·근사, 및/또는 의사 잡음 신호의 생성·부가, 및/또는 사인 신호의 부가에 의해 생성된 주파수 성분(주파수 대역이라도 됨)에 대하여 시간 포락 정형 처리를 행하면 선택된 경우에는, 비선택 주파수 성분(비선택 주파수 대역이라도 됨)의 변환 계수(또는 서브 샘플)를 의사적(擬似的)으로 다른 주파수 성분(주파수 대역이라도 됨)의 변환 계수(또는 서브 샘플)로 복제·근사, 및/또는 의사 잡음 신호의 생성·부가, 및/또는 사인 신호의 부가에 의해 생성한 변환 계수(또는 서브 샘플)로 치환해도 된다. 선택된 주파수 대역의 시간 포락의 정형 방법은 상기한 방법을 조합시켜도 되고, 시간 포락 정형 방법은 상기한 예에 한정되지 않는다.
시간 주파수 역변환부(10bD)는, 주파수 선택적으로 시간 포락 정형을 행해진 복호 신호를 시간 영역의 신호로 변환하여 출력한다(단계 S10-2-4).
[제2 실시형태]
도 14는, 제2 실시형태에 관한 음성 복호 장치(11)의 구성을 나타낸 도면이다. 음성 복호 장치(11)의 통신 장치는, 음성 신호를 부호화한 부호화 계열을 수신하고, 또한 복호한 음성 신호를 외부에 출력한다. 음성 복호 장치(11)는, 도 14에 나타낸 바와 같이, 기능적으로는, 역다중화부(11a), 복호부(10a), 선택적 시간 포락 정형부(11b)를 구비한다.
도 15는, 제2 실시형태에 관한 음성 복호 장치(11)의 동작을 나타낸 플로우차트이다.
역다중화부(11a)는, 부호화 계열을 복호/역양자화하여 복호 신호를 얻는 부호화 계열과 시간 포락 정보로 분리한다(단계 S11-1). 복호부(10a)는, 부호화 계열을 복호하여, 복호 신호를 생성한다(단계 S10-1). 시간 포락 정보가 부호화 및/또는 양자화되어 있는 경우에는, 복호 및/또는 역양자화하여 시간 포락 정보를 얻는다.
시간 포락 정보로서는, 예를 들면, 부호화 장치에 의해 부호화한 입력 신호의 시간 포락이 평탄한 것을 나타내는 정보라도 된다. 예를 들면, 상기 입력 신호의 시간 포락이 상승인 것을 나타내는 정보라도 된다. 예를 들면, 상기 입력 신호의 시간 포락이 하강인 것을 나타내는 정보라도 된다.
또한, 예를 들면, 시간 포락 정보는, 상기 입력 신호의 시간 포락의 평탄의 정도를 나타내는 정보라도 되고, 예를 들면, 상기 입력 신호의 시간 포락의 상승의 정도를 나타내는 정보라도 되고, 예를 들면, 상기 입력 신호의 시간 포락의 하강의 정도를 나타내는 정보라도 된다.
또한, 예를 들면, 시간 포락 정보는, 선택적 시간 포락 정형부에 의해 시간 포락을 정형하는지의 여부를 나타내는 정보라도 된다.
선택적 시간 포락 정형부(11b)는, 복호부(10a)로부터 부호화 계열을 복호할 때 얻어지는 정보인 복호 관련 정보와 복호 신호를 수취하고, 상기 역다중화부 보다 시간 포락 정보를 수취하고, 이들 중 적어도 하나에 기초하여, 복호 신호의 성분의 시간 포락을 선택적으로 원하는 시간 포락으로 정형한다(단계 S11-2).
선택적 시간 포락 정형부(11b)에서의 선택적 시간 포락 정형 방법은, 예를 들면, 선택적 시간 포락 정형부(10b)와 같아도 되고, 또한 시간 포락 정보를 가미하여 선택적 시간 포락 정형을 행해도 된다. 예를 들면, 시간 포락 정보가 부호화 장치에 의해 부호화한 입력 신호의 시간 포락이 평탄한 것을 나타내는 정보인 경우에는, 상기 정보에 기초하여, 시간 포락을 평탄하게 정형해도 된다. 예를 들면, 시간 포락 정보가 상기 입력 신호의 시간 포락이 상승인 것을 나타내는 정보인 경우에는, 상기 정보에 기초하여, 시간 포락을 상승으로 정형해도 된다. 예를 들면, 시간 포락 정보가 상기 입력 신호의 시간 포락이 하강인 것을 나타내는 정보인 경우에는, 상기 정보에 기초하여, 시간 포락을 하강으로 정형해도 된다.
또한, 예를 들면, 시간 포락 정보가 상기 입력 신호의 시간 포락의 평탄의 정도를 나타내는 정보인 경우에는, 상기 정보에 기초하여 시간 포락을 평탄하게 하는 강도를 조정해도 된다. 예를 들면, 시간 포락 정보가 상기 입력 신호의 시간 포락의 상승의 정도를 나타내는 정보인 경우에는, 상기 정보에 기초하여 시간 포락을 상승으로 하는 강도를 조정해도 된다. 예를 들면, 시간 포락 정보가 상기 입력 신호의 시간 포락의 하강의 정도를 나타내는 정보인 경우에는, 상기 정보에 기초하여 시간 포락을 하강으로 하는 강도를 조정해도 된다.
또한, 예를 들면, 시간 포락 정보가 선택적 시간 포락 정형부(11b)에 의해 시간 포락을 정형하는지의 여부를 나타내는 정보인 경우에는, 상기 정보에 기초하여 시간 포락 정형 처리를 행하는지의 여부를 결정해도 된다.
또한, 예를 들면, 상기한 예의 시간 포락 정보로 상기 시간 포락 정보에 기초하여 시간 포락 정형 처리를 행하는데 있어서, 시간 포락 정형을 행하는 주파수 대역(주파수 성분이라도 됨)을 제1 실시형태와 마찬가지로 선택하고, 복호 신호에서의 상기 선택된 주파수 대역(주파수 성분이라도 됨)의 시간 포락을 원하는 시간 포락으로 정형해도 된다.
도 16은, 제2 실시형태에 관한 음성 부호화 장치(21)의 구성을 나타낸 도면이다. 음성 부호화 장치(21)의 통신 장치는, 부호화의 대상이 되는 음성 신호를 외부로부터 수신하고, 또한 부호화된 부호화 계열을 외부에 출력한다. 음성 부호화 장치(21)는, 도 16에 나타낸 바와 같이, 기능적으로는, 부호화부(21a), 시간 포락 정보 부호화부(21b), 다중화부(21c)를 구비한다.
도 17은, 제2 실시형태에 관한 음성 부호화 장치(21)의 동작을 나타낸 플로우차트이다.
부호화부(21a)는, 입력된 음성 신호를 부호화하여 부호화 계열을 생성한다(단계 S21-1). 부호화부(21a)에서의 음성 신호의 부호화 방식은, 상기 복호부(10a)의 복호 방식에 대응하는 부호화 방식이다.
시간 포락 정보 부호화부(21b)는, 입력된 음성 신호와 상기 부호화부(21a)에 의해 음성 신호를 부호화할 때 얻어지는 정보 중 적어도 하나로부터 시간 포락 정보를 생성한다. 생성된 시간 포락 정보는 부호화/양자화되어도 된다(단계 S21-2). 시간 포락 정보는, 예를 들면, 상기 음성 복호 장치(11)의 역다중화부(11a)에서 얻어지는 시간 포락 정보로 해도 된다.
또한, 예를 들면, 음성 복호 장치(11)의 복호부에 의해 복호 신호를 생성할 때 본 발명과는 다른 시간 포락 정형에 관한 처리를 하고, 상기 시간 포락 정형 처리에 관한 정보를 음성 부호화 장치(21)에 의해 유지하고 있는 경우, 상기 정보를 사용하여 시간 포락 정보를 생성해도 된다. 예를 들면, 본 발명과는 다른 시간 포락 처리를 할 것인지의 여부의 정보에 기초하여, 음성 복호 장치(11)의 선택적 시간 포락 정형부(11b)에 의해 시간 포락을 정형하는지의 여부를 나타내는 정보를 생성해도 된다.
또한, 예를 들면, 상기 음성 복호 장치(11)의 선택적 시간 포락 정형부(11b)에서는, 상기 제1 실시형태에 관한 음성 복호 장치(10)의 선택적 시간 포락 정형부(10b)의 제1 예에서 기재된 선형 예측 분석을 사용한 시간 포락 정형의 처리를 행하는 경우에는, 상기 시간 포락 정형 처리에서의 선형 예측 분석과 마찬가지로, 입력된 음성 신호의 변환 계수(서브 밴드 샘플이라도 됨)를 선형 예측 분석한 결과를 사용하여 시간 포락 정보를 생성해도 된다. 구체적으로는, 예를 들면, 상기 선형 예측 분석에 의한 예측 이득을 산출하고, 상기 예측 이득에 기초하여 시간 포락 정보를 생성해도 된다. 예측 이득의 산출 시에는, 입력된 음성 신호의 모든 주파수 대역의 변환 계수(서브 밴드 샘플이라도 됨)를 선형 예측 분석해도 되고, 또한 입력된 음성 신호의 일부의 주파수 대역의 변환 계수(서브 밴드 샘플이라도 됨)를 선형 예측 분석해도 된다. 또한, 입력된 음성 신호를 복수의 주파수 대역로 분할하여 상기 주파수 대역마다 변환 계수(서브 밴드 샘플이라도 됨)의 선형 예측 분석을 해도 되고, 이 때는 복수의 예측 이득을 산출할 수 있어, 상기 복수의 예측 이득을 사용하여 시간 포락 정보를 생성해도 된다.
또한, 예를 들면, 상기 부호화부(21a)에 의해 음성 신호를 부호화할 때 얻어지는 정보는, 복호부(10a)가 상기 제2 예의 구성의 경우, 제1 복호 방식에 대응하는 부호화 방식(제1 부호화 방식)에서의 부호화 시에 얻어지는 정보와 제2 복호 방식에 대응하는 부호화 방식(제2 부호화 방식)에서의 부호화 시에 얻어지는 정보 중 하나 이상이라도 된다.
다중화부(21c)는, 상기 부호화부에 의해 얻어진 부호화 계열과 상기 시간 포락 정보 부호화부에 의해 얻어진 시간 포락 정보를 다중화하여 출력한다(단계 S21-3).
[제3 실시형태]
도 18은, 제3 실시형태에 관한 음성 복호 장치(12)의 구성을 나타낸 도면이다. 음성 복호 장치(12)의 통신 장치는, 음성 신호를 부호화한 부호화 계열을 수신하고, 또한 복호한 음성 신호를 외부에 출력한다. 음성 복호 장치(12)는, 도 18에 나타낸 바와 같이, 기능적으로는, 복호부(10a), 시간 포락 정형부(12a)를 구비한다.
도 19는, 제3 실시형태에 관한 음성 복호 장치(12)의 동작을 나타낸 플로우차트이다. 복호부(10a)는, 부호화 계열을 복호하여, 복호 신호를 생성한다(단계 S10-1). 그리고, 시간 포락 정형부(12a)는, 상기 복호부(10a)로부터 출력되는 복호 신호의 시간 포락을 원하는 시간 포락으로 정형한다(단계 S12-1). 시간 포락의 정형 방법은, 상기 제1 실시형태와 마찬가지로, 복호 신호의 변환 계수를 선형 예측 분석하여 얻어진 선형 예측 계수를 사용한 선형 예측 역필터로 필터링함으로써, 시간 포락을 평탄하게 하는 방법이라도 되고, 상기 선형 예측 계수를 사용한 선형 예측 필터로 필터링함으로써, 시간 포락을 상승 및/또는 하강으로 하는 방법이라도 되고, 또한 대역폭 확대율을 사용하여 평탄/상승/하강의 강도를 제어해도 되고, 또한 복호 신호의 변환 계수 대신에 복호 신호를 필터 뱅크에 의해 주파수 영역의 신호로 변환하여 얻어지는 서브 밴드 신호의 임의의 시간 t에서의 서브 샘플에 대하여 상기한 예의 시간 포락 정형을 행해도 된다. 또한, 상기 제1 실시형태와 마찬가지로, 임의의 시간 세그먼트에 있어서, 원하는 시간 포락으로 되도록, 상기 서브 밴드 신호의 진폭을 수정해도 되고, 예를 들면, 시간 포락 정형 처리를 행하는 주파수 성분(또는, 주파수 대역)의 평균 진폭으로 함으로써 시간 포락을 평탄하게 해도 된다. 상기한 시간 포락 정형은 복호 신호의 모든 주파수 대역에 행해도 되고, 소정의 주파수 대역에 행해도 된다.
[제4 실시형태]
도 20은, 제4 실시형태에 관한 음성 복호 장치(13)의 구성을 나타낸 도면이다. 음성 복호 장치(13)의 통신 장치는, 음성 신호를 부호화한 부호화 계열을 수신하고, 또한 복호한 음성 신호를 외부에 출력한다. 음성 복호 장치(13)는, 도 20에 나타낸 바와 같이, 기능적으로는, 역다중화부(11a), 복호부(10a), 시간 포락 정형부(13a)를 구비한다.
도 21은, 제4 실시형태에 관한 음성 복호 장치(13)의 동작을 나타낸 플로우차트이다. 역다중화부(11a)는, 부호화 계열을 복호/역양자화하여 복호 신호를 얻는 부호화 계열과 시간 포락 정보로 분리하고(단계 S11-1), 복호부(10a)는, 부호화 계열을 복호하여, 복호 신호를 생성한다(단계 S10-1). 그리고, 시간 포락 정형부(13a)는, 역다중화부(11a)로부터 시간 포락 정보를 수취하고, 상기 시간 포락 정보에 기초하여, 복호부(10a)로부터 출력되는 복호 신호의 시간 포락을 원하는 시간 포락으로 정형한다(단계 S13-1).
상기 시간 포락 정보는, 상기 제2 실시형태와 마찬가지로, 부호화 장치에 의해 부호화한 입력 신호의 시간 포락이 평탄한 것을 나타내는 정보, 상기 입력 신호의 시간 포락이 상승인 것을 나타내는 정보, 상기 입력 신호의 시간 포락이 하강인 것을 나타내는 정보라도 되고, 또한 예를 들면, 상기 입력 신호의 시간 포락의 평탄의 정도를 나타내는 정보, 상기 입력 신호의 시간 포락의 상승의 정도를 나타내는 정보, 상기 입력 신호의 시간 포락의 하강의 정도를 나타내는 정보라도 되고, 또한 시간 포락 정형부(13a)에 의해 시간 포락을 정형하는지의 여부를 나타내는 정보라도 된다.
[하드웨어 구성]
전술한 음성 복호 장치(10, 11, 12, 13) 및 음성 부호화 장치(21)는 각각, CPU 등의 하드웨어로 구성되어 있는 것이다. 도 11은, 음성 복호 장치(10, 11, 12, 13) 및 음성 부호화 장치(21) 각각의 하드웨어 구성의 일례를 나타낸 도면이다. 음성 복호 장치(10, 11, 12, 13) 및 음성 부호화 장치(21)는 각각, 물리적으로는, 도 11에 나타낸 바와 같이, CPU(100), 주기억 장치인 RAM(101) 및 ROM(102), 디스플레이 등의 입출력 장치(103), 통신 모듈(104), 및 보조 기억 장치(105) 등을 포함하는 컴퓨터 시스템으로서 구성되어 있다.
음성 복호 장치(10, 11, 12, 13) 및 음성 부호화 장치(21)는 각각의 각 기능 블록의 기능은 각각, 도 22에 나타내는 CPU(100), RAM(101) 등의 하드웨어 상에 소정의 컴퓨터 소프트웨어를 읽어들이게 함으로써, CPU(100)의 제어 하에서 입출력 장치(103), 통신 모듈(104), 및 보조 기억 장치(105)를 동작시키는 동시에, RAM(101)에서의 데이터의 판독 및 기입(write)을 행함으로써 실현된다.
[프로그램 구성]
계속하여, 전술한 음성 복호 장치(10, 11, 12, 13) 및 음성 부호화 장치(21)는 각각에 의한 처리를 컴퓨터로 하여금 실행하도록 하기 위한 음성 복호 프로그램(50) 및 음성 부호화 프로그램(60)을 설명한다.
도 23에 나타낸 바와 같이, 음성 복호 프로그램(50)은, 컴퓨터에 삽입되어 액세스되거나, 또는 컴퓨터가 구비하는 기록 매체(40)에 형성된 프로그램 저장 영역(41) 내에 저장된다. 보다 구체적으로는, 음성 복호 프로그램(50)은, 음성 복호 장치(10)가 구비하는 기록 매체(40)에 형성된 프로그램 저장 영역(41) 내에 저장된다.
음성 복호 프로그램(50)은, 복호 모듈(50a), 선택적 시간 포락 정형 모듈(50b)을 실행시킴으로써 실현되는 기능은, 전술한 음성 복호 장치(10)의 복호부(10a), 선택적 시간 포락 정형부(10b)의 기능과 각각 마찬가지이다. 또한, 복호 모듈(50a)은, 복호/역양자화부(10aA), 복호 관련 정보 출력부(10aB), 및 시간 주파수 역변환부(10aC)로서 기능하기 위한 모듈을 구비한다. 또한, 복호 모듈(50a)은, 부호화 계열 해석부(10aD), 제1 복호부(10aE), 제2 복호부(10aF)로서 기능하기 위한 모듈을 구비하도록 해도 된다.
또한, 선택적 시간 포락 정형 모듈(50b)은, 시간 주파수 변환부(10bA), 주파수 선택부(10bB), 주파수 선택적 시간 포락 정형부(10bC), 시간 주파수 역변환부(10bD)로서 기능하기 위한 모듈을 구비한다.
또한, 음성 복호 프로그램(50)은, 전술 음성 복호 장치(11)로 기능하기 위해, 역다중화부(11a), 복호부(10a), 선택적 시간 포락 정형부(11b)로서 기능하기 위한 모듈을 구비한다.
또한, 음성 복호 프로그램(50)은, 전술 음성 복호 장치(12)로서 기능하기 위해, 복호부(10a), 시간 포락 정형부(12a)로서 기능하기 위한 모듈을 구비한다.
또한, 음성 복호 프로그램(50)은, 음성 복호 장치(13)로서 기능하기 위해, 역다중화부(11a), 복호부(10a), 시간 포락 정형부(13a)로서 기능하기 위한 모듈을 구비한다.
또한, 도 24에 나타낸 바와 같이, 음성 부호화 프로그램(60)은, 컴퓨터에 삽입되어 액세스되는, 또는 컴퓨터가 구비하는 기록 매체(40)에 형성된 프로그램 저장 영역(41) 내에 저장된다. 보다 구체적으로는, 음성 부호화 프로그램(60)은, 음성 부호화 장치(21)가 구비하는 기록 매체(40)에 형성된 프로그램 저장 영역(41) 내에 저장된다.
음성 부호화 프로그램(60)은, 부호화 모듈(60a), 시간 포락 정보 부호화 모듈(60b), 및 다중화 모듈(60c)을 구비하여 구성된다. 부호화 모듈(60a), 시간 포락 정보 부호화 모듈(60b), 및 다중화 모듈(60c)을 실행시킴으로써 실현되는 기능은, 전술한 음성 부호화 장치(21)의 부호화부(21a), 시간 포락 정보 부호화부(21b), 및 다중화부(21c)의 기능과 각각 마찬가지이다.
그리고, 음성 복호 프로그램(50) 및 음성 부호화 프로그램(60) 각각은, 그 일부 또는 전부가, 통신 회선 등의 전송 매체를 통하여 전송되어 다른 기기(機器)에 의해 수신되어 기록(인스톨을 포함함)되는 구성으로 해도 된다. 또한, 음성 복호 프로그램(50) 및 음성 부호화 프로그램(60) 각각의 각 모듈은, 1개의 컴퓨터가 아니고, 복수의 컴퓨터 중 어느 하나에 인스톨되어도 된다. 이 경우, 상기 복수의 컴퓨터에 의한 컴퓨터 시스템 따라서 전술한 음성 복호 프로그램(50) 및 음성 부호화 프로그램(60) 각각의 처리가 행해진다.
10aF-1: 역양자화부, 10: 음성 복호 장치, 10a: 복호부, 10aA: 복호/역양자화부, 10aB: 복호 관련 정보 출력부, 10aC: 시간 주파수 역변환부, 10aD: 부호화 계열 해석부, 10aE: 제1 복호부, 10aE-a: 제1 복호/역양자화부, 10aE-b: 제1 복호 관련 정보 출력부, 10aF: 제2 복호부, 10aF-a: 제2 복호/역양자화부, 10aF-b: 제2 복호 관련 정보 출력부, 10aF-c: 복호 신호 합성부, 10b: 선택적 시간 포락 정형부, 10bA: 시간 주파수 변환부, 10bB: 주파수 선택부, 10bC: 주파수 선택적 시간 포락 정형부, 10bD: 시간 주파수 역변환부, 11: 음성 복호 장치, 11a: 역다중화부, 11b: 선택적 시간 포락 정형부, 12: 음성 복호 장치, 12a: 시간 포락 정형부, 13: 음성 복호 장치, 13a: 시간 포락 정형부, 21: 음성 부호화 장치, 21a: 부호화부, 21b: 시간 포락 정보 부호화부, 21c: 다중화부.
Claims (2)
- 부호화된 음성 신호를 복호하여 음성 신호를 출력하는 음성 복호 장치로서,
상기 부호화된 음성 신호를 포함하는 부호화 계열을 복호하여 복호 신호를 얻는 복호부; 및
상기 부호화 계열의 복호에 관한 복호 관련 정보에 기초하여, 상기 복호 신호에서의 주파수 대역의 시간 포락을 정형하는 선택적 시간 포락 정형부;
를 포함하고,
상기 복호부는, 일부의 주파수 대역에서 당해 주파수 대역과 다른 주파수 대역의 신호의 복제에 의해 복호 신호를 얻고,
상기 선택적 시간 포락 정형부는, 상기 시간 포락을 정형하지 않는 주파수 대역에 대응하는 상기 복호 신호를 주파수 영역에 있어서 다른 신호로 치환하는,
음성 복호 장치. - 부호화된 음성 신호를 복호하여 음성 신호를 출력하는 음성 복호 장치의 음성 복호 방법으로서,
상기 부호화된 음성 신호를 포함하는 부호화 계열을 복호하여 복호 신호를 얻는 복호 단계; 및
상기 부호화 계열의 복호에 관한 복호 관련 정보에 기초하여, 복호 신호에서의 주파수 대역의 시간 포락을 정형하는 선택적 시간 포락 정형 단계
를 포함하고,
상기 복호 단계는, 일부의 주파수 대역에서 당해 주파수 대역과 다른 주파수 대역의 신호의 복제에 의해 복호 신호를 얻고,
상기 선택적 시간 포락 정형 단계는, 시간 포락을 정형하지 않는 주파수 대역에 대응하는 상기 복호 신호를 주파수 영역에 있어서 다른 신호로 치환하는,
음성 복호 방법.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JPJP-P-2014-060650 | 2014-03-24 | ||
JP2014060650A JP6035270B2 (ja) | 2014-03-24 | 2014-03-24 | 音声復号装置、音声符号化装置、音声復号方法、音声符号化方法、音声復号プログラム、および音声符号化プログラム |
PCT/JP2015/058608 WO2015146860A1 (ja) | 2014-03-24 | 2015-03-20 | 音声復号装置、音声符号化装置、音声復号方法、音声符号化方法、音声復号プログラム、および音声符号化プログラム |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020187028501A Division KR102038077B1 (ko) | 2014-03-24 | 2015-03-20 | 음성 복호 장치, 음성 부호화 장치, 음성 복호 방법, 음성 부호화 방법, 음성 복호 프로그램, 및 음성 부호화 프로그램 |
Related Child Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020207006992A Division KR102124962B1 (ko) | 2014-03-24 | 2015-03-20 | 음성 복호 장치, 음성 부호화 장치, 음성 복호 방법, 음성 부호화 방법, 음성 복호 프로그램, 및 음성 부호화 프로그램 |
KR1020207006991A Division KR102126044B1 (ko) | 2014-03-24 | 2015-03-20 | 음성 복호 장치, 음성 부호화 장치, 음성 복호 방법, 음성 부호화 방법, 음성 복호 프로그램, 및 음성 부호화 프로그램 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20190122896A KR20190122896A (ko) | 2019-10-30 |
KR102089602B1 true KR102089602B1 (ko) | 2020-03-16 |
Family
ID=54195375
Family Applications (7)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020177026665A KR101906524B1 (ko) | 2014-03-24 | 2015-03-20 | 음성 복호 장치, 음성 부호화 장치, 음성 복호 방법, 음성 부호화 방법, 음성 복호 프로그램, 및 음성 부호화 프로그램 |
KR1020207006992A KR102124962B1 (ko) | 2014-03-24 | 2015-03-20 | 음성 복호 장치, 음성 부호화 장치, 음성 복호 방법, 음성 부호화 방법, 음성 복호 프로그램, 및 음성 부호화 프로그램 |
KR1020197031274A KR102089602B1 (ko) | 2014-03-24 | 2015-03-20 | 음성 복호 장치, 음성 부호화 장치, 음성 복호 방법, 음성 부호화 방법, 음성 복호 프로그램, 및 음성 부호화 프로그램 |
KR1020207017473A KR102208915B1 (ko) | 2014-03-24 | 2015-03-20 | 음성 복호 장치, 음성 부호화 장치, 음성 복호 방법, 음성 부호화 방법, 음성 복호 프로그램, 및 음성 부호화 프로그램 |
KR1020167026675A KR101782935B1 (ko) | 2014-03-24 | 2015-03-20 | 음성 복호 장치, 음성 부호화 장치, 음성 복호 방법, 음성 부호화 방법, 음성 복호 프로그램, 및 음성 부호화 프로그램 |
KR1020187028501A KR102038077B1 (ko) | 2014-03-24 | 2015-03-20 | 음성 복호 장치, 음성 부호화 장치, 음성 복호 방법, 음성 부호화 방법, 음성 복호 프로그램, 및 음성 부호화 프로그램 |
KR1020207006991A KR102126044B1 (ko) | 2014-03-24 | 2015-03-20 | 음성 복호 장치, 음성 부호화 장치, 음성 복호 방법, 음성 부호화 방법, 음성 복호 프로그램, 및 음성 부호화 프로그램 |
Family Applications Before (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020177026665A KR101906524B1 (ko) | 2014-03-24 | 2015-03-20 | 음성 복호 장치, 음성 부호화 장치, 음성 복호 방법, 음성 부호화 방법, 음성 복호 프로그램, 및 음성 부호화 프로그램 |
KR1020207006992A KR102124962B1 (ko) | 2014-03-24 | 2015-03-20 | 음성 복호 장치, 음성 부호화 장치, 음성 복호 방법, 음성 부호화 방법, 음성 복호 프로그램, 및 음성 부호화 프로그램 |
Family Applications After (4)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020207017473A KR102208915B1 (ko) | 2014-03-24 | 2015-03-20 | 음성 복호 장치, 음성 부호화 장치, 음성 복호 방법, 음성 부호화 방법, 음성 복호 프로그램, 및 음성 부호화 프로그램 |
KR1020167026675A KR101782935B1 (ko) | 2014-03-24 | 2015-03-20 | 음성 복호 장치, 음성 부호화 장치, 음성 복호 방법, 음성 부호화 방법, 음성 복호 프로그램, 및 음성 부호화 프로그램 |
KR1020187028501A KR102038077B1 (ko) | 2014-03-24 | 2015-03-20 | 음성 복호 장치, 음성 부호화 장치, 음성 복호 방법, 음성 부호화 방법, 음성 복호 프로그램, 및 음성 부호화 프로그램 |
KR1020207006991A KR102126044B1 (ko) | 2014-03-24 | 2015-03-20 | 음성 복호 장치, 음성 부호화 장치, 음성 복호 방법, 음성 부호화 방법, 음성 복호 프로그램, 및 음성 부호화 프로그램 |
Country Status (20)
Country | Link |
---|---|
US (3) | US10410647B2 (ko) |
EP (3) | EP4293667A3 (ko) |
JP (1) | JP6035270B2 (ko) |
KR (7) | KR101906524B1 (ko) |
CN (2) | CN106133829B (ko) |
AU (7) | AU2015235133B2 (ko) |
BR (1) | BR112016021165B1 (ko) |
CA (2) | CA2942885C (ko) |
DK (2) | DK3621073T3 (ko) |
ES (2) | ES2772173T3 (ko) |
FI (1) | FI3621073T3 (ko) |
HU (1) | HUE065961T2 (ko) |
MX (1) | MX354434B (ko) |
MY (1) | MY165849A (ko) |
PH (1) | PH12016501844A1 (ko) |
PL (2) | PL3125243T3 (ko) |
PT (2) | PT3621073T (ko) |
RU (7) | RU2631155C1 (ko) |
TW (6) | TWI807906B (ko) |
WO (1) | WO2015146860A1 (ko) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5997592B2 (ja) | 2012-04-27 | 2016-09-28 | 株式会社Nttドコモ | 音声復号装置 |
JP6035270B2 (ja) | 2014-03-24 | 2016-11-30 | 株式会社Nttドコモ | 音声復号装置、音声符号化装置、音声復号方法、音声符号化方法、音声復号プログラム、および音声符号化プログラム |
EP2980795A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor |
DE102017204181A1 (de) | 2017-03-14 | 2018-09-20 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Sender zum Emittieren von Signalen und Empfänger zum Empfangen von Signalen |
EP3382700A1 (en) | 2017-03-31 | 2018-10-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for post-processing an audio signal using a transient location detection |
EP3382701A1 (en) * | 2017-03-31 | 2018-10-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for post-processing an audio signal using prediction based shaping |
US11496152B2 (en) * | 2018-08-08 | 2022-11-08 | Sony Corporation | Decoding device, decoding method, and program |
CN111314778B (zh) * | 2020-03-02 | 2021-09-07 | 北京小鸟科技股份有限公司 | 基于多种压缩制式的编解码融合处理方法、系统及装置 |
WO2024218334A1 (en) * | 2023-04-21 | 2024-10-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for audio signal coding with temporal noise shaping on subband signals |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120245947A1 (en) | 2009-10-08 | 2012-09-27 | Max Neuendorf | Multi-mode audio signal decoder, multi-mode audio signal encoder, methods and computer program using a linear-prediction-coding based noise shaping |
Family Cites Families (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2100747B2 (de) | 1970-01-08 | 1973-01-04 | Trw Inc., Redondo Beach, Calif. (V.St.A.) | Anordnung zur digitalen Geschwindigkeitsregelung zur Aufrechterhaltung einer gewählten konstanten Geschwindigkeit eines Kraftfahrzeuges |
JPS5913508B2 (ja) | 1975-06-23 | 1984-03-30 | オオツカセイヤク カブシキガイシヤ | アシルオキシ置換カルボスチリル誘導体の製造法 |
JP3155560B2 (ja) | 1991-05-27 | 2001-04-09 | 株式会社コガネイ | マニホールドバルブ |
JP3283413B2 (ja) | 1995-11-30 | 2002-05-20 | 株式会社日立製作所 | 符号化復号方法、符号化装置および復号装置 |
CN1232951C (zh) * | 2001-03-02 | 2005-12-21 | 松下电器产业株式会社 | 编码装置和译码装置 |
US7447631B2 (en) | 2002-06-17 | 2008-11-04 | Dolby Laboratories Licensing Corporation | Audio coding system using spectral hole filling |
JP4649208B2 (ja) * | 2002-07-16 | 2011-03-09 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | オーディオコーディング |
JP2004134900A (ja) * | 2002-10-09 | 2004-04-30 | Matsushita Electric Ind Co Ltd | 符号化信号復号化装置および復号化方法 |
US7672838B1 (en) * | 2003-12-01 | 2010-03-02 | The Trustees Of Columbia University In The City Of New York | Systems and methods for speech recognition using frequency domain linear prediction polynomials to form temporal and spectral envelopes from frequency domain representations of signals |
CA2457988A1 (en) * | 2004-02-18 | 2005-08-18 | Voiceage Corporation | Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization |
TWI393120B (zh) * | 2004-08-25 | 2013-04-11 | Dolby Lab Licensing Corp | 用於音訊信號編碼及解碼之方法和系統、音訊信號編碼器、音訊信號解碼器、攜帶有位元流之電腦可讀取媒體、及儲存於電腦可讀取媒體上的電腦程式 |
WO2006051451A1 (en) * | 2004-11-09 | 2006-05-18 | Koninklijke Philips Electronics N.V. | Audio coding and decoding |
JP4800645B2 (ja) * | 2005-03-18 | 2011-10-26 | カシオ計算機株式会社 | 音声符号化装置、及び音声符号化方法 |
SG161223A1 (en) * | 2005-04-01 | 2010-05-27 | Qualcomm Inc | Method and apparatus for vector quantizing of a spectral envelope representation |
KR100933548B1 (ko) * | 2005-04-15 | 2009-12-23 | 돌비 스웨덴 에이비 | 비상관 신호의 시간적 엔벨로프 정형화 |
WO2007107670A2 (fr) * | 2006-03-20 | 2007-09-27 | France Telecom | Procede de post-traitement d'un signal dans un decodeur audio |
RU2393646C1 (ru) * | 2006-03-28 | 2010-06-27 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Усовершенствованный способ для формирования сигнала при восстановлении многоканального аудио |
US8260609B2 (en) * | 2006-07-31 | 2012-09-04 | Qualcomm Incorporated | Systems, methods, and apparatus for wideband encoding and decoding of inactive frames |
BRPI0818927A2 (pt) * | 2007-11-02 | 2015-06-16 | Huawei Tech Co Ltd | Método e aparelho para a decodificação de áudio |
DE102008009719A1 (de) * | 2008-02-19 | 2009-08-20 | Siemens Enterprise Communications Gmbh & Co. Kg | Verfahren und Mittel zur Enkodierung von Hintergrundrauschinformationen |
CN101335000B (zh) * | 2008-03-26 | 2010-04-21 | 华为技术有限公司 | 编码的方法及装置 |
JP5203077B2 (ja) | 2008-07-14 | 2013-06-05 | 株式会社エヌ・ティ・ティ・ドコモ | 音声符号化装置及び方法、音声復号化装置及び方法、並びに、音声帯域拡張装置及び方法 |
CN101436406B (zh) * | 2008-12-22 | 2011-08-24 | 西安电子科技大学 | 音频编解码器 |
JP4921611B2 (ja) | 2009-04-03 | 2012-04-25 | 株式会社エヌ・ティ・ティ・ドコモ | 音声復号装置、音声復号方法、及び音声復号プログラム |
JP4932917B2 (ja) | 2009-04-03 | 2012-05-16 | 株式会社エヌ・ティ・ティ・ドコモ | 音声復号装置、音声復号方法、及び音声復号プログラム |
CA2763793C (en) * | 2009-06-23 | 2017-05-09 | Voiceage Corporation | Forward time-domain aliasing cancellation with application in weighted or original signal domain |
CA2778382C (en) * | 2009-10-20 | 2016-01-05 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio signal encoder, audio signal decoder, method for encoding or decoding an audio signal using an aliasing-cancellation |
US20130173275A1 (en) * | 2010-10-18 | 2013-07-04 | Panasonic Corporation | Audio encoding device and audio decoding device |
JP2012163919A (ja) * | 2011-02-09 | 2012-08-30 | Sony Corp | 音声信号処理装置、および音声信号処理方法、並びにプログラム |
CA2827249C (en) * | 2011-02-14 | 2016-08-23 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for processing a decoded audio signal in a spectral domain |
KR101897455B1 (ko) * | 2012-04-16 | 2018-10-04 | 삼성전자주식회사 | 음질 향상 장치 및 방법 |
JP5997592B2 (ja) | 2012-04-27 | 2016-09-28 | 株式会社Nttドコモ | 音声復号装置 |
JP6035270B2 (ja) | 2014-03-24 | 2016-11-30 | 株式会社Nttドコモ | 音声復号装置、音声符号化装置、音声復号方法、音声符号化方法、音声復号プログラム、および音声符号化プログラム |
-
2014
- 2014-03-24 JP JP2014060650A patent/JP6035270B2/ja active Active
-
2015
- 2015-03-20 KR KR1020177026665A patent/KR101906524B1/ko active IP Right Grant
- 2015-03-20 PT PT192055960T patent/PT3621073T/pt unknown
- 2015-03-20 KR KR1020207006992A patent/KR102124962B1/ko active IP Right Grant
- 2015-03-20 CA CA2942885A patent/CA2942885C/en active Active
- 2015-03-20 KR KR1020197031274A patent/KR102089602B1/ko active IP Right Grant
- 2015-03-20 RU RU2016141264A patent/RU2631155C1/ru active
- 2015-03-20 CN CN201580015128.8A patent/CN106133829B/zh active Active
- 2015-03-20 KR KR1020207017473A patent/KR102208915B1/ko active IP Right Grant
- 2015-03-20 US US15/128,364 patent/US10410647B2/en active Active
- 2015-03-20 AU AU2015235133A patent/AU2015235133B2/en active Active
- 2015-03-20 PL PL15768907T patent/PL3125243T3/pl unknown
- 2015-03-20 HU HUE19205596A patent/HUE065961T2/hu unknown
- 2015-03-20 EP EP23207259.5A patent/EP4293667A3/en active Pending
- 2015-03-20 KR KR1020167026675A patent/KR101782935B1/ko active IP Right Grant
- 2015-03-20 EP EP15768907.6A patent/EP3125243B1/en active Active
- 2015-03-20 KR KR1020187028501A patent/KR102038077B1/ko active IP Right Grant
- 2015-03-20 KR KR1020207006991A patent/KR102126044B1/ko active IP Right Grant
- 2015-03-20 CA CA2990392A patent/CA2990392C/en active Active
- 2015-03-20 BR BR112016021165-0A patent/BR112016021165B1/pt active IP Right Grant
- 2015-03-20 CN CN201710975669.6A patent/CN107767876B/zh active Active
- 2015-03-20 EP EP19205596.0A patent/EP3621073B1/en active Active
- 2015-03-20 WO PCT/JP2015/058608 patent/WO2015146860A1/ja active Application Filing
- 2015-03-20 PT PT157689076T patent/PT3125243T/pt unknown
- 2015-03-20 ES ES15768907T patent/ES2772173T3/es active Active
- 2015-03-20 DK DK19205596.0T patent/DK3621073T3/da active
- 2015-03-20 PL PL19205596.0T patent/PL3621073T3/pl unknown
- 2015-03-20 ES ES19205596T patent/ES2974029T3/es active Active
- 2015-03-20 FI FIEP19205596.0T patent/FI3621073T3/fi active
- 2015-03-20 RU RU2017131210A patent/RU2654141C1/ru active
- 2015-03-20 MY MYPI2016703472A patent/MY165849A/en unknown
- 2015-03-20 DK DK15768907.6T patent/DK3125243T3/da active
- 2015-03-20 MX MX2016012393A patent/MX354434B/es active IP Right Grant
- 2015-03-24 TW TW111125591A patent/TWI807906B/zh active
- 2015-03-24 TW TW106133758A patent/TWI666632B/zh active
- 2015-03-24 TW TW104109387A patent/TWI608474B/zh active
- 2015-03-24 TW TW109116739A patent/TWI773992B/zh active
- 2015-03-24 TW TW112119560A patent/TW202338789A/zh unknown
- 2015-03-24 TW TW108117901A patent/TWI696994B/zh active
-
2016
- 2016-09-21 PH PH12016501844A patent/PH12016501844A1/en unknown
-
2018
- 2018-02-28 AU AU2018201468A patent/AU2018201468B2/en active Active
- 2018-04-27 RU RU2018115787A patent/RU2707722C2/ru active
-
2019
- 2019-07-31 US US16/528,163 patent/US11437053B2/en active Active
- 2019-10-31 AU AU2019257487A patent/AU2019257487B2/en active Active
- 2019-10-31 AU AU2019257495A patent/AU2019257495B2/en active Active
- 2019-11-13 RU RU2019136372A patent/RU2718421C1/ru active
-
2020
- 2020-03-20 RU RU2020111648A patent/RU2732951C1/ru active
- 2020-09-14 RU RU2020130138A patent/RU2741486C1/ru active
-
2021
- 2021-01-18 RU RU2021100857A patent/RU2751150C1/ru active
- 2021-01-29 AU AU2021200603A patent/AU2021200603B2/en active Active
- 2021-01-29 AU AU2021200607A patent/AU2021200607B2/en active Active
- 2021-01-29 AU AU2021200604A patent/AU2021200604B2/en active Active
-
2022
- 2022-07-27 US US17/874,975 patent/US20220366924A1/en active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120245947A1 (en) | 2009-10-08 | 2012-09-27 | Max Neuendorf | Multi-mode audio signal decoder, multi-mode audio signal encoder, methods and computer program using a linear-prediction-coding based noise shaping |
Non-Patent Citations (4)
Title |
---|
Audio codec processing functions, Extended Adaptive Multi-Rate - Wideband (AMR-WB+) codec. 3GPP TS 26.290 version 9.0.0 Release 9, 2009.09. |
ISO/IEC FDIS 23003-3:2011(E), Information technology - MPEG audio technologies - Part 3: Unified speech and audio coding. ISO/IEC JTC 1/SC 29/WG 11. 2011.09.20.* |
Marina Bosi, et al. ISO/IEC MPEG-2 advanced audio coding. Journal of the Audio engineering society, 1997, Vol.45. No.10, pp.789-814.* |
Text of ISO/IEC13818-7:2004 (MPEG-2 AAC 3rd edition). ISO/IEC JTC1/SC29/WG11 N6428. 2004.03.* |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102089602B1 (ko) | 음성 복호 장치, 음성 부호화 장치, 음성 복호 방법, 음성 부호화 방법, 음성 복호 프로그램, 및 음성 부호화 프로그램 | |
JP6691251B2 (ja) | 音声復号装置、音声復号方法、および音声復号プログラム | |
JP6872056B2 (ja) | 音声復号装置および音声復号方法 | |
JP6511033B2 (ja) | 音声符号化装置および音声符号化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A107 | Divisional application of patent | ||
A201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
A107 | Divisional application of patent | ||
GRNT | Written decision to grant |