KR20010033539A - 음성 부호화 방법 및 음성 복호화 방법 및, 음성 부호화장치 및 음성 복호화 장치 - Google Patents
음성 부호화 방법 및 음성 복호화 방법 및, 음성 부호화장치 및 음성 복호화 장치 Download PDFInfo
- Publication number
- KR20010033539A KR20010033539A KR1020007007047A KR20007007047A KR20010033539A KR 20010033539 A KR20010033539 A KR 20010033539A KR 1020007007047 A KR1020007007047 A KR 1020007007047A KR 20007007047 A KR20007007047 A KR 20007007047A KR 20010033539 A KR20010033539 A KR 20010033539A
- Authority
- KR
- South Korea
- Prior art keywords
- time series
- speech
- code field
- driving code
- driving
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000011156 evaluation Methods 0.000 claims abstract description 62
- 230000003595 spectral effect Effects 0.000 claims abstract description 25
- 239000013598 vector Substances 0.000 claims description 131
- 238000001228 spectrum Methods 0.000 claims description 29
- 230000015572 biosynthetic process Effects 0.000 claims description 22
- 238000003786 synthesis reaction Methods 0.000 claims description 22
- 238000005070 sampling Methods 0.000 claims description 7
- 230000006835 compression Effects 0.000 abstract description 2
- 238000007906 compression Methods 0.000 abstract description 2
- 230000003044 adaptive effect Effects 0.000 description 45
- 238000010586 diagram Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 230000004044 response Effects 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000009172 bursting Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
- G10L19/135—Vector sum excited linear prediction [VSELP]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/012—Comfort noise or silence coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/083—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/09—Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/10—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
- G10L19/107—Sparse pulse excitation, e.g. by using algebraic codebook
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
- G10L19/125—Pitch excitation, e.g. pitch synchronous innovation CELP [PSI-CELP]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0002—Codebook adaptations
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0004—Design or structure of the codebook
- G10L2019/0005—Multi-stage vector quantisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0007—Codebook element generation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0011—Long term prediction filters, i.e. pitch estimation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0012—Smoothing of parameters of the decoder interpolation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0016—Codebook for LPC parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Algebra (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Mathematical Physics (AREA)
- Pure & Applied Mathematics (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Analogue/Digital Conversion (AREA)
Abstract
본 발명은 음성 신호를 디지털 신호로 압축 부호화하는 음성 부호화 및 복호화에 있어서, 적은 정보량으로 품질이 높은 음성을 재생하는 방법 및 장치에 관한 것으로,
부호 구동 선형 예측(CELP) 음성 부호화에 있어서, 스펙트럼 정보, 파워 정보 및 피치 정보 중 1개 이상의 부호 또는 부호화 결과를 사용하여 해당 부호화 구간에 있어서의 음성의 잡음성 정도를 평가하고, 평가 결과에 따라서 다른 구동 부호장(19, 20)을 사용하도록 하였다.
Description
종래, 고능률 음성 부호화 방법로서는 부호 구동 선형 예측(Code-Excited Linear Prediction: CELP) 부호화가 대표적이고, 그 기술에 대해서는 「Code- excited linear prediction(CELP): High-quality speech at very low bit rates」(M.R.Shroeder and B.S.Atal저, ICASSP '85, pp.937-940, 1985)에 기술되어 있다.
도 6은 CELP 음성 부호화 및 복호화 방법의 전체 구성의 일례를 도시한 것이고, 도면 중 참조번호 101은 부호화부, 102는 복호화부, 103은 다중화 수단, 104는 분리 수단이다. 부호화부(101)는 선형 예측 파라미터 분석 수단(105), 선형 예측 파라미터 부호화 수단(106), 합성 필터(107), 적응 부호장(108), 구동 부호장(109), 게인 부호화 수단(110), 거리 계산 수단(111), 가중 가산 수단(138)으로 구성되어 있다. 또한, 복호화부(102)는 선형 예측 파라미터 복호화 수단(112), 합성 필터(113), 적응 부호장(114), 구동 부호장(115), 게인 복호화 수단(116), 가중 가산 수단(139)으로 구성되어 있다.
CELP 음성 부호화에서는 5 내지 50 ms 정도를 1프레임으로 하여, 그 프레임의 음성을 스펙트럼 정보와 음원 정보로 나누어 부호화한다. 우선, CELP 음성 부호화 방법의 동작에 대해서 설명한다. 부호화부(101)에 있어서, 선형 예측 파라미터 분석 수단(105)은 입력 음성(S101)을 분석하고, 음성의 스펙트럼 정보인 선형 예측 파라미터를 추출한다. 선형 예측 파라미터 부호화 수단(106)은 그 선형 예측 파라미터를 부호화하고, 부호화한 선형 예측 파라미터를 합성 필터(107)의 계수로서 설정한다.
다음에 음원 정보의 부호화에 대해 설명한다. 적응 부호장(108)에는 과거의 구동 음원 신호가 기억되어 있고, 거리 계산 수단(111)으로부터 입력되는 적응 부호에 대응하여 과거의 구동 음원 신호를 주기적으로 되풀이한 시계열 벡터를 출력한다. 구동 부호장(109)에는 예를 들면, 학습용 음성과 그 부호화 음성과의 왜곡이 작게 되도록 학습하여 구성된 복수의 시계열 벡터가 기억되어 있고, 거리 계산 수단(111)으로부터 입력되는 구동 부호에 대응한 시계열 벡터를 출력한다. 적응 부호장(108), 구동 부호장(109)으로부터의 각 시계열 벡터는 게인 부호화 수단(110;gain coding means)으로부터 주어지는 각각의 게인에 따라서 가중 가산 수단(138)에서 가중 가산되고, 그 가산 결과를 구동 음원 신호로서 합성 필터(107)로 공급하여 부호화 음성을 얻는다. 거리 계산 수단(111)은 부호화 음성과 입력 신호(S101)와의 거리를 구하고, 거리가 최소가 되는 적응 부호, 구동 부호, 게인을 탐색한다. 상기 부호화가 종료한 후, 선형 예측 파라미터의 부호, 입력 음성과 부호화 음성과의 왜곡을 최소로 하는 적응 부호, 구동 부호, 게인의 부호를 부호화 결과로서 출력한다.
다음에 CPEL 음성 복호화 방법의 동작에 대해서 설명한다.
한편, 복호화부(102)에 있어서, 선형 예측 파라미터 복호화 수단(112)은 선형 예측 파라미터의 부호로부터 선형 예측 파라미터를 복호화하고, 합성 필터(113)의 계수로서 설정한다. 다음에, 적응 부호장(114)은 적응 부호에 대응하여, 과거의 구동 음원 신호를 주기적으로 되풀이한 시계열 벡터를 출력하며, 또한 구동 부호장(115)은 구동 부호에 대응한 시계열 벡터를 출력한다. 이들 시계열 벡터는 게인 복호화 수단(116)에서 게인의 부호로부터 복호화한 각각의 게인에 따라서 가중 가산 수단(139)에서 가중 가산되고, 그 가산 결과가 구동 음원 신호로서 합성 필터(113)로 공급되어 출력 음성(S103)이 얻어진다.
또한 CELP 음성 부호화 및 복호화 방법에서 재생 음성 품질의 향상을 목적으로 개량된 종래의 음성 부호화 및 복호화 방법으로서, 「Phonetically-based vector excitation coding of speech at 3.6kbps」(S.Wang and A. Gersho저, ICASSP'89, pp.49-52, 1989)에 예시된 것이 있다. 도 6과의 대응 수단에 동일 부호를 붙인 도 7은 종래의 음성 부호화 및 복호화 방법의 전체 구성의 일례를 도시하고, 도면 중 부호화부(101)에 있어서, 참조번호 117은 음성 상태 판정 수단, 118은 구동 부호장 전환 수단, 119는 제 1 구동 부호장, 120은 제 2 구동 부호장이다. 또한 도면 중 복호화 수단(102)에 있어서 참조번호 121은 구동 부호장 전환 수단, 122는 제 1 구동 부호장, 123은 제 2 구동 부호장이다. 이러한 구성에 의한 부호화 및 복호화 방법의 동작을 설명한다. 우선 부호화 수단(101)에 있어서, 음성 상태 판정 수단(117)은 입력 음성(S101)을 분석하고, 음성의 상태를 예를 들면 유성/무성의 2개의 상태 중 어느 쪽인가를 판정한다. 구동 부호장 전환 수단(118)은 그 음성 상태 판정 결과에 따라서, 예를 들면 유성이면 제 1 구동 부호장(119)을, 무성이면 제 2 구동 부호장(120)을 사용하는 것으로 부호화에 사용하는 구동 부호장을 전환하고, 또한, 어느쪽의 구동 부호장을 사용하였는가를 부호화한다.
다음에 복호화 수단(102)에 있어서, 구동 부호장 전환 수단(121)은 부호화 수단(101)에서 어느쪽의 구동 부호장을 사용하였는가의 부호에 따라서, 부호화 수단(101)에서 사용한 것과 동일한 구동 부호장을 사용하는 것으로서 제 1 구동 부호장(122)과 제 2 구동 부호장(123)을 전환한다. 이와 같이 구성함으로써, 음성의 각 상태마다 부호화에 알맞은 구동 부호장을 준비하고, 입력된 음성의 상태에 따라서 구동 부호장을 전환하여 사용함으로써 재생 음성의 품질을 향상할 수 있다.
또한 송출 비트수를 증가하지 않고, 복수의 구동 부호장을 전환하는 종래의 음성 부호화 및 복호화 방법으로서 특개평8-185198호 공보에 개시된 것이 있다. 이것은 적응 부호장에서 선택한 피치 주기에 따라서, 복수개의 구동 부호장을 전환하여 사용하는 것이다. 이로 인해, 전송 정보를 늘리지 않고 입력 음성 특징에 적응한 구동 부호장을 사용할 수 있다.
상술한 바와 같이 도 6에 도시하는 종래의 음성 부호화 및 복호화 방법에서는 단일의 구동 부호장을 사용하여 합성 음성을 생성하고 있다. 저 비트율로도 품질이 높은 부호화 음성을 얻기 위해서는 구동 부호장에 격납하는 시계열 벡터는 펄스를 많이 포함하는 비잡음적인 것이 된다. 이로 인해, 배경 잡음이나 마찰성 잡음 등 잡음적인 음성을 부호화, 합성한 경우, 부호화 음성은 지리지리, 치리치리와 같은 부자연한 소리를 발하게 되는 문제가 있었다. 구동 부호장을 잡음적인 시계열 벡터로만 구성하면 이러한 문제는 해결하지만, 부호화 음성 전체로서의 품질이 열화한다.
또한 개량된 도 7에 도시하는 종래의 음성 부호화 및 복호화 방법에서는 입력 음성의 상태에 따라서 복수의 구동 부호장을 전환하여 부호화 음성을 생성하고 있다. 이로 인해 예를 들면 입력 음성이 잡음적인 무성 부분에서는 잡음적인 시계열 벡터로 구성된 구동 부호장을, 또한 그 이외의 유성 부분에서는 비잡음적인 시계열 벡터로 구성된 구동 부호장을 사용할 수 있고, 잡음적인 음성을 부호화, 합성하여도 부자연한 지리지리한 소리를 발하지 않게 된다. 그러나, 복호화측에서도 부호화측과 동일한 구동 부호장을 사용하기 위해서, 새로이 어느 구동 부호장을 사용하었는가의 정보를 부호화, 전송할 필요가 생기고, 이것이 저 비트율화가 방해되는 문제가 있었다.
또한 송출 비트수를 증가하지 않고, 복수의 구동 부호장을 전환하는 종래의 음성 부호화 및 복호화 방법에서는 적응 부호장에서 선택되는 피치 주기에 따라서 구동 부호장을 전환하고 있다. 그러나, 적응 부호장에서 선택되는 피치 주기는 실제의 음성 피치 주기와는 달리, 그 값에서만 입력 음성의 상태가 잡음적인가 비잡음적인가를 판정할 수 없으므로, 음성의 잡음적인 부분의 부호화 음성이 부자연하다고 하는 과제는 해결되지 않는다.
본 발명은 이러한 과제를 해결하기 위해서 이루어진 것으로, 저 비트율로도 품질이 높은 음성을 재생하는 음성 부호화 및 복호화 방법 및, 장치를 제공하는 것이다.
본 발명은 음성 신호를 디지털 신호로 압축 부호화 및 복호화할 때에 사용하는 음성 부호화 및 복호화 방법 및, 음성 부호화 및 복호화 장치에 관한 것으로, 특히 저 비트율로 품질이 높은 음성을 재생하기 위한 음성 부호화 방법 및 음성 복호화 방법 및, 음성 부호화 장치 및 음성 복호화 장치에 관한 것이다.
도 1은 본 발명에 의한 음성 부호화 및 음성 복호화 장치의 실시예 1의 전체구성을 도시하는 블록도.
도 2는 도 1의 실시예 1에 있어서의 잡음 정도의 평가에 대한 설명을 제공하는 표.
도 3은 본 발명에 의한 음성 부호화 및 음성 복호화 장치의 실시예 3의 전체구성을 도시하는 블록도.
도 4는 본 발명에 의한 음성 부호화 및 음성 복호화 장치의 실시예 5의 전체구성을 도시하는 블록도.
도 5는 도 4의 실시예 5에 있어서의 가중 결정 처리의 설명을 제공하는 노선도.
도 6은 종래의 CELP 음성 부호화 및 복호화 장치의 전체 구성을 도시하는 블록도.
도 7은 종래의 개량된 CELP 음성 부호화 및 복호화 장치의 전체 구성을 도시하는 블록도.
상술한 과제를 해결하기 위해서 본 발명의 음성 부호화 방법은 스펙트럼 정보, 파워 정보, 피치 정보 중 적어도 1개의 부호 또는 부호화 결과를 사용하여 상기 부호화 구간에서의 음성의 잡음성의 정도를 평가하고, 평가 결과에 따라서 복수의 구동 부호장 중 1개를 선택하도록 하였다.
또한, 다음 발명의 음성 부호화 방법은 격납하고 있는 시계열 벡터의 잡음성정도가 다른 복수의 구동 부호장을 구비하고, 음성의 잡음성 정도의 평가 결과에 따라서, 복수의 구동 부호장을 전환하도록 하였다.
또한, 다음 발명의 음성 부호화 방법은 음성의 잡음성 정도의 평가 결과에 따라서, 구동 부호장에 격납하고 있는 시계열 벡터의 잡음성 정도를 변화시키도록 하였다.
또한, 다음 발명의 음성 부호화 방법은 잡음적인 시계열 벡터를 격납하여 하고 있는 구동 부호장을 구비하고, 음성의 잡음성 정도의 평가 결과에 따라서, 구동음원의 신호 샘플을 샘플링함으로써 잡음성 정도가 낮은, 시계열 벡터를 생성하도록 하였다.
또한, 다음 발명의 음성 부호화 방법은 잡음적일 시계열 벡터를 격납하고 있는 제 1 구동 부호장과, 비잡음적인 시계열 벡터를 격납하고 있는 제 2 구동 부호장을 구비하고, 음성의 잡음성 정도의 평가 결과에 따라서, 제 1 구동 부호장의 시계열 벡터와 제 2 구동 부호장의 시계열 벡터를 가중 가산한 시계열 벡터를 생성하도록 하였다.
또한 다음 발명의 음성 복호화 방법은 스펙트럼 정보, 파워 정보, 피치 정보중 적어도 1개의 부호 또는 복호화 결과를 사용하여 해당 복호화 구간에 있어서의 음성의 잡음성 정도를 평가하고, 평가 결과에 따라서 복수의 구동 부호장 중의 1개를 선택하도록 한다.
또한, 다음 발명의 음성 복호화 방법은 격납하고 있는 시계열 벡터의 잡음성 정도가 다른 복수의 구동 부호장을 구비하고, 음성의 잡음성 정도의 평가 결과에 따라서, 복수의 구동 부호장을 전환하도록 하였다.
또한, 다음 발명의 음성 복호화 방법은 음성의 잡음성 정도의 평가 결과에 따라서, 구동 부호장에 격납하고 있는 시계열 벡터의 잡음성 정도를 변화시키도록 하였다.
또한, 다음 발명의 음성 복호화 방법은 잡음적인 시계열 벡터를 격납하고 있는 구동 부호장을 구비하고, 음성의 잡음성 정도의 평가 결과에 따라서, 구동 음원의 신호 샘플을 샘플링함으로써 잡음성 정도가 낮은 시계열 벡터를 생성하도록 하였다.
또한, 다음 발명의 음성 복호화 방법은 잡음적인 시계열 벡터를 격납하고 있는 제 1 구동 부호장과, 비잡음적인 시계열 벡터를 격납하고 있는 제 2 구동 부호장을 구비하고, 음성의 잡음성 정도의 평가 결과에 따라서, 제 1 구동 부호장의 시계열 벡터와 제 2 구동 부호장의 시계열 벡터를 가중 가산한 시계열 벡터를 생성하도록 하였다.
또한, 다음 발명의 음성 부호화 장치는 입력 음성의 스펙트럼 정보를 부호화하고, 부호화 결과의 1요소로서 출력하는 스펙트럼 정보 부호화부와, 이 스펙트럼 정보 부호화부로부터의 부호화된 스펙트럼 정보로부터 얻어지는 스펙트럼 정보, 파워 정보 중 적어도 1개의 부호 또는 부호화 결과를 사용하여 해당 부호화 구간에 있어서의 음성의 잡음성 정도를 평가하여, 평가 결과를 출력하는 잡음도 평가부와, 비잡음적인 복수의 시계열 벡터가 기억된 제 1 구동 부호장과, 잡음적인 복수의 시계열 벡터가 기억된 제 2 구동 부호장과, 상기 잡음도 평가부의 평가 결과에 의해, 제 1 구동 부호장과 제 2 구동 부호장을 전환하는 구동 부호장 전환부와, 상기 제 1 구동 부호장 또는 제 2 구동 부호장으로부터의 시계열 벡터를 각각의 시계열 벡터의 게인에 따라서 가중 가산하는 가중 가산부와, 이 가중된 시계열 벡터를 구동 음원 신호로 하여, 이 구동 음원 신호와 상기 스펙트럼 정보 부호화부로부터의 부호화된 스펙트럼 정보에 의거하여 부호화 음성을 얻는 합성 필터와, 이 부호화 음성과 상기 입력 음성과의 거리를 구하고, 거리가 최소가 되는 구동 부호, 게인을 탐색하여, 그 결과를 구동 부호, 게인의 부호를 부호화 결과로서 출력하는 거리 계산부를 구비하였다.
또한, 다음 발명의 음성 복호화 장치는 스펙트럼 정보의 부호로부터 스펙트럼 정보를 복호화하는 스펙트럼 정보 복호화부와, 이 스펙트럼 정보 복호화부로부터의 복호화된 스펙트럼 정보로부터 얻어지는 스펙트럼 정보, 파워 정보중 적어도 1개의 복호화 결과 또는 상기 스펙트럼 정보의 부호를 사용하여 해당 복호화 구간에 있어서의 음성의 잡음성 정도를 평가하고, 평가 결과를 출력하는 잡음도 평가부와, 비잡음적인 복수의 시계열 벡터가 기억된 제 1 구동 부호장과, 잡음적인 복수의 시계열 벡터가 기억된 제 2 구동 부호장과, 시계열 잡음도 평가부의 평가 결과에 의해, 제 1 구동 부호장과 제 2 구동 부호장을 전환하는 구동 부호장 전환부와, 상기 제 1 구동 부호장 또는 제 2 구동 부호장으로부터의 시계열 벡터를 각각의 시계열 벡터의 게인에 따라서 가중 가산하는 가중 가산부와, 이 가중된 시계열 벡터를 구동 음원 신호로 하고, 이 구동 음원 신호와 상기 스펙트럼 정보 복호화부로부터의 복호화된 스펙트럼 정보에 의거하여 복호화 음성을 얻는 합성 필터를 구비하였다.
본 발명에 따른 음성 부호화 장치는 부호 구동 선형 예측(CELP) 음성 부호화 장치에 있어서, 스펙트럼 정보, 파워 정보, 피치 정보 중 적어도 1개의 부호 또는 부호화 결과를 사용하여 해당 부호화 구간에서의 음성의 잡음성 정도를 평가하는 잡음도 평가부와, 상기 잡음도 평가부의 평가 결과에 따라서 복수의 구동 부호장을 전환하는 구동 부호장 전환부를 구비한 것을 특징으로 한다.
본 발명에 따른 음성 복호화 장치는 부호 구동 선형 예측(CELP) 음성 복호화 장치에 있어서, 스펙트럼 정보, 파워 정보, 피치 정보 중 적어도 1개의 부호 또는 복호화 결과를 사용하여 해당 복호화 구간에 있어서의 음성의 잡음성 정도를 평가하는 잡음도 평가부와, 상기 잡음도 평가부의 평가 결과에 따라서 복수의 구동 부호장을 전환하는 구동 부호장 전환부를 구비한 것을 특징으로 한다.
이하 도면을 참조하면서, 본 발명의 실시예에 대해서 설명한다.
실시예 1
도 1은 본 발명에 의한 음성 부호화 방법 및 음성 복호화 방법의 실시예 1의 전체 구성을 도시한다. 도면 중, 참조번호 1은 부호화부, 2는 복호화부, 3은 다중화부, 4는 분리부이다. 부호화부(1)는 선형 예측 파라미터 분석부(5), 선형 예측 파라미터 부호화부(6), 합성 필터(7), 적응 부호장(8), 게인 부호화부(10), 거리계산부(11),제 1 구동 부호장(19), 제 2 구동 부호장(20), 잡음도 평가부(24), 구동 부호장 전환부(25), 가중 가산부(38)로 구성된다. 또한, 복호화부(2)는 선형 예측 파라미터 복호화부(12), 합성 필터(13), 적응 부호장(14), 제 1 구동 부호장(22), 제 2 구동 부호장(23), 잡음도 평가부(26), 구동 부호장 전환부(27), 게인 복호화부(16), 가중 가산부(39)로 구성되어 있다. 도면 1중 참조번호 5는 입력 음성(S1)을 분석하고, 음성의 스펙트럼 정보인 선형 예측 파라미터를 추출하는 스펙트럼 정보 분석부로서의 선형 예측 파라미터 분석부, 6은 스펙트럼 정보인 그 선형 예측 파라미터를 부호화하고, 부호화한 선형 예측 파라미터를 합성 필터(7)의 계수로서 설정하는 스펙트럼 정보부호화부로서의 선형 예측 파라미터 부호화부, 19, 22는 비잡음적인 복수의 시계열 벡터가 기억된 제 1 구동 부호장, 20, 23은 잡음적인 복수의 시계열 벡터가 기억된 제 2 구동 부호장, 24, 26은 잡음의 정도를 평가하는 잡음도 평가부, 25, 27은 잡음 정도에 의해 구동 부호장을 전환하는 구동 부호장 전환부이다.
이하, 동작을 설명한다. 우선, 부호화부(1)에 있어서, 선형 예측 파라미터 분석부(5)는 입력 음성(S1)을 분석하고, 음성 스펙트럼 정보인 선형 예측 파라미터를 추출한다. 선형 예측 파라미터 부호화부(6)는 그 선형 예측 파라미터를 부호화하고, 부호화한 선형 예측 파라미터를 합성 필터(7)의 계수로서 설정함과 동시에, 잡음도 평가부(24)로 출력한다. 다음에, 음원 정보의 부호화에 대해서 설명한다. 적응 부호장(8)에는 과거의 구동 음원 신호가 기억되어 있고, 거리 계산부(11)로부터 입력되는 적응 부호에 대응하여 과거의 구동 음원 신호를 주기적으로 되풀이한 시계열 벡터를 출력한다. 잡음도 평가부(24)는 상기 선형 예측 파라미터 부호화부(6)로부터 입력된 부호화한 선형 예측 파라미터와 적응 부호로부터 예를 들면 도 2에 도시하는 바와 같이 스펙트럼의 경사, 단기 예측 이득, 피치 변동으로부터 해당 부호화 구간의 잡음의 정도를 평가하고, 평가 결과를 구동 부호장 전환부(25)에 출력한다. 구동 부호장 전환부(25)는 상기 잡음도의 평가 결과에 따라서, 예를 들면 잡음도가 낮으면 제 1 구동 부호장(19)을, 잡음도가 높으면 제 2 구동 부호장(20)을 사용하는 것으로 하여 부호화에 사용되는 구동 부호장을 전환한다.
제 1 구동 부호장(19)에는 비잡음적인 복수의 시계열 벡터, 예를 들면 학습용 음성과 그 부호화 음성과의 왜곡이 작아지도록 학습하여 구성된 복수의 시계열 벡터가 기억되어 있다. 또한, 제 2 구동 부호장(20)에는 잡음적인 복수의 시계열 벡터, 예를 들면 랜덤 잡음으로부터 생성한 복수의 시계열 벡터가 기억되어 있고, 거리 계산부(11)로부터 입력되는 각각 구동 부호에 대응한 시계열 벡터를 출력한다. 적응 부호장(8), 제 1 구동 음원 부호장(19) 또는 제 2 구동 부호장(20)으로부터의 각 시계열 벡터는 게인 부호화부(10)로부터 주어지는 각각의 게인에 따라서 가중 가산부(38)에서 가중 가산되고, 그 가산 결과를 구동 음원 신호로서 합성 필터(7)로 공급되어 부호화 음성을 얻는다. 거리 계산부(11)는 부호화 음성과 입력 음성(S1)과의 거리를 구하고, 거리가 최소가 되는 적응 부호, 구동 부호, 게인을 탐색한다. 이상 부호화가 종료한 후, 선형 예측 파라미터의 부호, 입력 음성과 부호화 음성과의 왜곡을 최소로 하는 적응 부호, 구동 부호, 게인의 부호를 부호화 결과(S2)로서 출력한다. 이상이 실시예 1의 음성 부호화 방법에 특징적인 동작이다.
다음에 복호화부(2)에 대해 설명한다. 복호화부(2)에서는 선형 예측 파라미터 복호화부(12)는 선형 예측 파라미터의 부호로부터 선형 예측 파라미터를 복호화 하고, 합성 필터(13)의 계수로서 설정함과 동시에, 잡음도 평가부(26)로 출력한다. 다음에, 음원 정보의 복호화에 대해 설명한다. 적응 부호장(14)은 적응 부호에 대응하여, 과거의 구동 음원 신호를 주기적으로 되풀이한 시계열 벡터를 출력한다. 잡음도 평가부(26)는 상기 선형 예측 파라미터 복호화부(12)로부터 입력된 복호화 한 선형 예측 파라미터와 적응 부호로부터 부호화부(1)의 잡음도 평가부(24)와 같은 방법으로 잡음 정도를 평가하고, 평가 결과를 구동 부호장 전환부(27)에 출력한다. 구동 부호장 전환부(27)는 상기 잡음도의 평가 결과에 따라서, 부호화부(1)의 구동 부호장 전환부(25)와 동일하게 제 1 구동 부호장(22)과 제 2 구동 부호장(23)을 전환한다.
제 1 구동 부호장(22)에는 비잡음적인 복수의 시계열 벡터, 예를 들면, 학습용 음성과 그 부호화 음성과의 왜곡이 작아지도록 학습하여 구성된 복수의 시계열 벡터가, 제 2 구동 부호장(23)에는 잡음적인 복수의 시계열 벡터, 예를 들면 랜덤잡음으로부터 생성한 복수의 시계열 벡터가 기억되어 있고, 각각 구동 부호에 대응한 시계열 벡터를 출력한다. 적응 부호장(14)과 제 1 구동 부호장(22) 또는 제 2 구동 부호장(23)으로부터의 시계열 벡터는 게인 복호화부(16)에서 게인의 부호로부터 복호화한 각각의 게인에 따라서 가중 가산부(39)에서 가중 가산되고, 그 가산 결과를 구동 음원 신호로서 합성 필터(13)로 공급되어 출력 음성(S3)이 얻어진다. 이상이 실시예 1의 음성 복호화 방법에 특징적인 동작이다.
실시예 1에 의하면, 입력 음성의 잡음 정도를 부호 및 부호화 결과로부터 평가하고, 평가 결과에 따라서 다른 구동 부호장을 사용함으로써, 적은 정보량으로, 품질이 높은 음성을 재생할 수 있다.
또한, 상기 실시예에서는 구동 부호장(19, 20, 22, 23)에는 복수의 시계열 벡터가 기억되어 있는 경우를 설명하였지만, 적어도 1개의 시계열 벡터가 기억되어 있으면, 실시가능하다.
실시예 2
상술의 실시예 1에서는 2개의 구동 부호장을 전환하여 사용하고 있지만, 이것을 대신하여, 3개 이상의 구동 부호장을 구비하고, 잡음 정도에 따라서 전환하여 사용하여도 된다. 실시예 2에 의하면, 음성을 잡음/비잡음의 2가지만이 아니고, 약간 잡음적인 등의 중간적인 음성에 대하여도 또한 알맞은 구동 부호장을 사용할 수 있으므로, 품질이 높은 음성을 재생할 수 있다.
실시예 3
도 1과의 대응 부분에 동일 부호를 붙인 도 3은 본 발명의 음성 부호화 방법 및 음성 복호화 방법의 실시예 3의 전체 구성을 도시하고, 도면 중 참조번호 28, 30은 잡음적인 시계열 벡터를 격납한 구동 부호장, 29, 31은 시계열 벡터의 저진폭 샘플의 진폭치를 영으로 하는 샘플러이다.
이하, 동작을 설명한다. 우선, 부호화부(1)에 있어서, 선형 예측 파라미터 분석부(5)는 입력 음성(S1)을 분석하고, 음성의 스펙트럼 정보인 선형 예측 파라미터를 추출한다. 선형 예측 파라미터 부호화부(6)는 그 선형 예측 파라미터를 부호화하고, 부호화한 선형 예측 파라미터를 합성 필터(7)의 계수로서 설정함과 동시에, 잡음도 평가부(24)로 출력한다. 다음에, 음원 정보의 부호화에 대해서 설명한다. 적응 부호장(8)에는 과거의 구동 음원 신호가 기억되어 있고, 거리계산부(11)로부터 입력되는 적응 부호에 대응하여 과거의 구동 음원 신호를 주기적으로 되풀이한 시계열 벡터를 출력한다. 잡음도 평가부(24)는 상기 선형 예측 파라미터 부호화부(6)로부터 입력된 부호화한 선형 예측 파라미터와 적응 부호로부터, 예를 들면 스펙트럼의 경사, 단기 예측 이득, 피치 변동으로부터 해당 부호화 구간의 잡음 정도를 평가하고, 평가 결과를 샘플러(29)에 출력한다.
구동 부호장(28)에는 예를 들면 랜덤 잡음으로부터 생성한 복수의 시계열 벡터가 기억되어 있고, 거리계산부(11)로부터 입력되는 구동 부호에 대응한 시계열 벡터를 출력한다. 샘플러(29)는 상기 잡음도의 평가 결과에 따라서, 잡음도가 낮으면 상기 구동 부호장(28)으로부터 입력된 시계열 벡터에 대하여, 예를 들면 소정의 진폭치에 만족하지 않은 샘플의 진폭치를 영으로 한 시계열 벡터를 출력하고, 또한, 잡음도가 높으면 상기 구동 부호장(28)으로부터 입력된 시계열 벡터를 그대로 출력한다. 적응 부호장(8), 샘플러(29)로부터의 각 시계열 벡터는 게인 부호화부(10)로부터 주어지는 각각의 게인에 따라서 가중 가산부(38)에서 가중 가산되고, 그 가산 결과를 구동 음원 신호로서 합성 필터(7)로 공급되어 부호화 음성을 얻는다. 거리계산부(11)는 부호화 음성과 입력 음성(S1)과의 거리를 구하고, 거리가 최소가 되는 적응 부호, 구동 부호, 게인을 탐색한다. 이상 부호화가 종료한 후, 선형 예측 파라미터의 부호, 입력 음성과 부호화 음성의 왜곡을 최소로 하는 적응 부호, 구동 부호, 게인의 부호를 부호화 결과(S2)로서 출력한다. 이상이 실시예 3의 음성 부호화 방법에 특징적인 동작이다.
다음에 복호화부(2)에 대해 설명한다. 복호화부(2)에서는 선형 예측 파라미터 복호화부(12)는 선형 예측 파라미터의 부호로부터 선형 예측 파라미터를 복호화 하고, 합성 필터(13)의 계수로서 설정함과 동시에, 잡음도 평가부(26)로 출력한다. 다음에, 음원 정보의 복호화에 대해 설명한다. 적응 부호장(14)은 적응 부호에 대응하여, 과거의 구동 음원 신호를 주기적으로 되풀이한 시계열 벡터를 출력한다. 잡음도 평가부(26)는 상기 선형 예측 파라미터 복호화부(12)로부터 입력된 복호화 한 선형 예측 파라미터와 적응 부호로부터 부호화부(1)의 잡음도 평가부(24)와 동일한 방법으로 잡음의 정도를 평가하고, 평가 결과를 샘플러(31)에 출력한다.
구동 부호장(30)은 구동 부호에 대응한 시계열 벡터를 출력한다. 샘플러(31)는 상기 잡음도 평가 결과에 따라서, 상기 부호화부(1)의 샘플러(29)와 동일한 처리에 의해 시계열 벡터를 출력한다. 적응 부호장(14), 샘플러(31)로부터의 각 시계열 벡터는 게인 복호화부(16)로부터 주어지는 각각의 게인에 따라서 가중 가산부(39)에서 가중하여 가산되고, 그 가산 결과를 구동 음원 신호로서 합성 필터(13)로 공급되어 출력 음성(S3)이 얻어진다.
실시예 3에 의하면, 잡음적인 시계열 벡터를 격납하고 있는 구동 부호장을 구비하고, 음성의 잡음성 정도의 평가 결과에 따라서, 구동 음원의 신호 샘플을 샘플링함으로써 잡음성 정도가 낮은 구동 음원을 생성함으로써, 적은 정보량으로, 품질이 높은 음성을 재생할 수 있다. 또한, 복수의 구동 부호장을 구비할 필요가 없기 때문에, 구동 부호장의 기억용 메모리량을 적게 하는 효과도 있다.
실시예 4
상술의 실시예 3에서는 시계열 벡터의 샘플을 샘플링/샘플링하지 않음의 2가지로 하고 있지만, 이것을 대신하여, 잡음의 정도에 따라서 샘플을 샘플링할 때의 진폭임계치를 변경해도 된다. 실시예 4에 의하면, 음성을 잡음/비잡음의 2가지만이 아니라, 약간 잡음적인 등의 중간적인 음성에 대하여도 또한 알맞은 시계열 벡터를 생성하고, 사용할 수 있으므로, 품질이 높은 음성을 재생할 수 있다.
실시예 5
도 1과의 대응 부분에 동일 부호를 붙인 도 4는 본 발명의 음성 부호화 방법 및 음성 복호화 방법의 실시예 5의 전체 구성을 도시하고, 도면 중 참조번호 32, 35는 잡음적인 시계열 벡터를 기억하고 있는 제 1 구동 부호장, 33, 36은 비잡음적인 시계열 벡터를 기억하고 있는 제 2 구동 부호장, 34, 37은 무게 결정부이다.
이하, 동작을 설명한다. 우선, 부호화부(1)에 있어서, 선형 예측 파라미터 분석부(5)는 입력 음성(S1)을 분석하고, 음성의 스펙트럼 정보인 선형 예측 파라미터를 추출한다. 선형 예측 파라미터 부호화부(6)는 그 선형 예측 파라미터를 부호화하고, 부호화한 선형 예측 파라미터를 합성 필터(7)의 계수로서 설정함과 동시에, 잡음도 평가부(24)로 출력한다. 다음에, 음원 정보의 부호화에 대하여 설명한다. 적응 부호장(8)에는 과거의구동 음원 신호가 기억되어 있고, 거리계산부(11)로부터 입력되는 적응 부호에 대응하여 과거의 구동 음원 신호를 주기적으로 되풀이한 시계열 벡터를 출력한다. 잡음도 평가부(24)는 상기 선형 예측 파라미터 부호화부(6)로부터 입력된 부호화한 선형 예측 파라미터와 적응 부호로부터, 예를 들면 스펙트럼의 경사, 단기 예측 이득, 피치 변동으로부터 해당 부호화 구간의 잡음의 정도를 평가하여, 평가 결과를 무게 결정부(34)에 출력한다.
제 1 구동 부호장(32)에는 예를 들면 랜덤 잡음으로부터 생성한 복수의 잡음적인 시계열 벡터가 기억되어 있고, 구동 부호에 대응한 시계열 벡터를 출력한다. 제 2 구동 부호장(33)에는 예를 들면 학습용 음성과 그 부호화 음성과의 왜곡이 작게 되도록 학습하여 구성된 복수의 시계열 벡터가 기억되어 있고, 거리 계산부(11)로부터 입력되는 구동 부호에 대응한 시계열 벡터를 출력한다. 무게 결정부(34)는 상기 잡음도 평가부(24)로부터 입력된 잡음도의 평가 결과에 따라서, 예를 들면 도 5에 따라서, 제 1 구동 부호장(32)으로부터의 시계열 벡터와 제 2 구동 부호장(33)으로부터의 시계열 벡터에 주어지는 무게를 결정한다. 제 1 구동 부호장(32), 제 2 구동 부호장(33)으로부터의 각 시계열 벡터는 상기 무게 결정부(34)로부터 주어지는 무게에 따라서 가중하여 가산된다. 적응 부호장(8)으로부터 출력된 시계열 벡터와, 상기 가중 가산하여 생성된 시계열 벡터는 게인 부호화부(10)로부터 주어지는 각각의 게인에 따라서 가중 가산부(38)에서 가중하여 가산되고, 그 가산 결과를 구동 음원 신호로서 합성 필터(7)로 공급하여 부호화 음성을 얻는다. 거리 계산부(11)는 부호화 음성과 입력 음성(S1)과의 거리를 구하고, 거리가 최소가 되는 적응 부호, 구동 부호, 게인을 탐색한다. 이 부호화가 종료한 후, 선형 예측 파라미터의 부호, 입력 음성과 부호화 음성과의 왜곡을 최소로 하는 적응 부호, 구동 부호, 게인의 부호를 부호화 결과로서 출력한다.
다음에 복호화부(2)에 대해서 설명한다. 복호화부(2)에서는 선형 예측 파라미터 복호화부(12)는 선형 예측 파라미터의 부호로부터 선형 예측 파라미터를 복호화하고, 합성 필터(13)의 계수로서 설정함과 동시에, 잡음도 평가부(26)로 출력한다. 다음에, 음원 정보의 복호화 에 대해서 설명한다. 적응 부호장(14)은 적응 부호에 대응하여, 과거의 구동 음원 신호를 주기적으로 되풀이한 시계열 벡터를 출력한다. 잡음도 평가부(26)는 상기 선형 예측 파라미터 복호화부(12)로부터 입력된 복호화한 선형 예측 파라미터와 적응 부호로부터 부호화부(1)의 잡음도 평가부(24)와 동일한 방법으로 잡음의 정도를 평가하여, 평가 결과를 무게 결정부(37)에 출력한다.
제 1 구동 부호장(35) 및 제 2 구동 부호장(36)은 구동 부호에 대응한 시계열 벡터를 출력한다. 무게 결정부(37)는 상기 잡음도 평가부(26)로부터 입력된 잡음도 평가 결과에 따라서, 부호화부(1)의 무게 결정부(34)와 동일하게 무게를 부여하기로 한다. 제 1 구동 부호장(35), 제 2 구동 부호장(36)으로부터의 각 시계열 벡터는 상기 무게 결정부(37)로부터 주어지는 각각의 무게에 따라서 가중 가산된다. 적응 부호장(14)으로부터 출력된 시계열 벡터와, 상기 가중 가산하여 생성된 시계열 벡터는 게인 복호화부(16)에서 게인의 부호로부터 복호화한 각각의 게인에 따라서 가중 가산부(39)에서 가중 가산되고, 그 가산 결과가 구동 음원 신호로서 합성 필터(13)로 공급되어 출력 음성(S3)이 얻어진다.
실시예 5에 의하면, 음성의 잡음 정도를 부호 및 부호화 결과로부터 평가하고, 평가 결과에 따라서 잡음적인 시계열 벡터와 비잡음적인 시계열 벡터를 가중 가산하여 사용함으로써, 적은 정보량으로, 품질이 높은 음성을 재생할 수 있다. 실시예 6
상술의 실시예 1 내지 5에서 또한, 잡음 정도의 평가 결과에 따라서 게인의 부호장을 변경하여도 된다. 실시예 6에 의하면, 구동 부호장에 따라서 알맞은 게인의 부호장을 사용할 수 있으므로, 품질이 높은 음성을 재생할 수 있다.
실시예 7
상술의 실시예 1 내지 6에서는 음성의 잡음 정도를 평가하고, 그 평가 결과에 따라서 구동 부호장을 전환하고 있지만, 유성의 올라감이나 파열성의 자음 등을 각각 판정, 평가하고, 그 평가 결과에 따라서 구동 부호장을 전환하여도 된다. 이 실시예 7에 의하면, 음성의 잡음적인 상태 뿐만 아니라, 유성의 올라감이나 파열성자음 등 더욱, 미세하게 분류하여, 각각 알맞은 구동 부호장을 사용할 수 있으므로, 품질이 높은 음성을 재생할 수 있다.
실시예 8
상술의 실시예 1 내지 6에서는 도 2에 도시하는 스펙트럼 경사, 단기 예측이득, 피치 변동으로부터, 부호화 구간의 잡음의 정도를 평가하고 있지만, 적응 부호장 출력에 대한 게인치의 대소를 사용하여 평가하여도 된다.
본 발명에 따른 음성 부호화 방법 및 음성 복호화 방법 및 음성 부호화 장치 및 음성 복호화 장치에 의하면, 스펙트럼 정보, 파워 정보, 피치 정보 중 적어도 1개의 부호 또는 부호화 결과를 사용하여 해당 부호화 구간에 있어서의 음성의 잡음성 정도를 평가하고, 평가 결과에 따라서 다른 구동 부호장을 사용하기 때문에, 적은 정보량으로 품질이 높은 음성을 재생할 수 있다.
또한 본 발명에 의하면, 음성 부호화 방법 및 음성 복호화 방법에서, 격납하고 있는 구동 음원의 잡음성 정도가 다른 복수의 구동 부호장을 구비하고, 음성의 잡음성 정도의 평가 결과에 따라서, 복수의 구동 부호장을 전환하여 사용하므로, 적은 정보량으로 품질이 높은 음성을 재생할 수 있다.
또한 본 발명에 의하면, 음성 부호화 방법 및 음성 복호화 방법에서, 음성의 잡음성 정도의 평가 결과에 따라서, 구동 부호장에 격납하고 있는 시계열 벡터의 잡음성 정도를 변화시킨 것으로, 적은 정보량으로 품질이 높은 음성을 재생할 수 있다.
또한 본 발명에 의하면, 음성 부호화 방법 및 음성 복호화 방법에서, 잡음적인 시계열 벡터를 격납하고 있는 구동 부호장을 구비하고, 음성의 잡음성 정도의 평가 결과에 따라서, 시계열 벡터의 신호 샘플을 샘플링함으로써 잡음성 정도가 낮은 시계열 벡터를 생성하였으므로, 적은 정보량으로 품질이 높은 음성을 재생할 수 있다.
또한 본 발명에 의하면, 음성 부호화 방법 및 음성 복호화 방법에서, 잡음적인 시계열 벡터를 격납하고 있는 제 1 구동 부호장과, 비잡음적인 시계열 벡터를 격납하고 있는 제 2 구동 부호장을 구비하고, 음성의 잡음성 정도의 평가 결과에 따라서, 제 1 구동 부호장의 시계열 벡터와 제 2 구동 부호장의 시계열 벡터를 가중 가산한 시계열 벡터를 생성하였기 때문에, 적은 정보량으로 품질이 높은 음성을 재생할 수 있다.
Claims (14)
- 부호 구동 선형 예측(Code-Excited Linear Prediction: CELP) 음성 부호화 방법에 있어서,스펙트럼 정보, 파워 정보 및 피치 정보 중 1개 이상의 부호 또는 부호화 결과를 사용하여 해당 부호화 구간에 있어서의 음성의 잡음성 정도를 평가하는 단계 및,평가 결과에 따라서 복수의 구동 부호장 중 1개를 선택하는 단계를 포함하는 것을 특징으로 하는 음성 부호화 방법.
- 제 1 항에 있어서,격납하고 있는 시계열 벡터의 잡음성 정도가 다른 복수의 구동 부호장을 구비하는 단계 및,음성의 잡음성 정도의 평가 결과에 따라서, 상기 복수의 구동 부호장을 전환하여 사용하는 단계를 더 포함하는 것을 특징으로 하는 음성 부호화 방법.
- 제 1 항에 있어서,음성의 잡음성 정도의 평가 결과에 따라서, 구동 부호장에 격납하고 있는 시계열 벡터의 잡음성 정도를 변화시키는 단계를 더 포함하는 것을 특징으로 하는 음성 부호화 방법.
- 제 3 항에 있어서,잡음적인 시계열 벡터를 격납하고 있는 구동 부호장을 구비하는 단계 및,음성의 잡음성 정도의 평가 결과에 따라서, 상기 시계열 벡터의 신호 샘플을 샘플링함으로써 잡음성 정도가 낮은 시계열 벡터를 생성하는 단계를 더 포함하는 것을 특징으로 하는 음성 부호화 방법.
- 제 3 항에 있어서,잡음적인 시계열 벡터를 격납하고 있는 제 1 구동 부호장과, 비잡음적인 시계열 벡터를 격납하고 있는 제 2 구동 부호장을 구비하는 단계 및,음성의 잡음성 정도의 평가결과에 따라서, 상기 제 1 구동 부호장의 시계열 벡터와 상기 제 2 구동 부호장의 시계열 벡터를 가중 가산한 시계열 벡터를 생성하는 단계를 더 포함하는 것을 특징으로 하는 음성 부호화 방법.
- 부호 구동 선형 예측(CELP)음성 복호화 방법에 있어서,스펙트럼 정보, 파워 정보 및 피치 정보 중 1개 이상의 부호 또는 복호화 결과를 사용하여 해당 복호화 구간에 있어서의 음성의 잡음성 정도를 평가하는 단계 및,평가 결과에 따라서 복수의 구동 부호장 중 1개의 부호장을 선택하는 단계를 포함하는 것을 특징으로 하는 음성 복호화 방법.
- 제 6 항에 있어서,격납하고 있는 시계열 벡터의 잡음성 정도가 다른 복수의 구동 부호장을 구비하는 단계 및,음성의 잡음성 정도의 평가 결과에 따라서, 상기 복수의 구동 부호장을 전환하여 사용하는 단계를 더 포함하는 것을 특징으로 하는 음성 복호화 방법.
- 제 6 항에 있어서,음성의 잡음성 정도의 평가 결과에 따라서, 구동 부호장에 격납하고 있는 시계열 벡터의 잡음성 정도를 변화시키는 단계를 더 포함하는 것을 특징으로 하는 음성 복호화 방법.
- 제 8 항에 있어서,잡음적인 시계열 벡터를 격납하고 있는 구동 부호장을 구비하는 단계 및,음성의 잡음성 정도의 평가 결과에 따라서, 상기시계열 벡터의 신호 샘플을 샘플링함으로써 잡음성 정도가 낮은 시계열 벡터를 생성하는 단계를 더 포함하는 것을 특징으로 하는 음성 복호화 방법.
- 제 8 항에 있어서,잡음적인 시계열 벡터를 격납하고 있는 제 1 구동 부호장과, 비잡음적인 시계열 벡터를 격납하고 있는 제 2 구동 부호장을 구비하는 단계 및,음성의 잡음성 정도의 평가 결과에 따라서, 상기 제 1 구동 부호장의 시계열 벡터와 상기 제 2 구동 부호장의 시계열 벡터를 가중 가산한 시계열 벡터를 생성하는 단계를 더 포함하는 것을 특징으로 하는 음성 복호화 방법.
- 입력 음성의 스펙트럼 정보를 부호화하고, 부호화 결과의 1요소로서 출력하는 스펙트럼 정보 부호화부,상기 스펙트럼 정보 부호화부로부터의 부호화된 스펙트럼 정보로부터 얻어지는 스펙트럼 정보 및 파워 정보 중 1 개 이상의 부호 또는 부호화 결과를 사용하여 해당 부호화 구간에 있어서의 음성의 잡음성 정도를 평가하고, 평가 결과를 출력하는 잡음도 평가부,비잡음적인 복수의 시계열 벡터가 기억된 제 1 구동 부호장,잡음적인 복수의 시계열 벡터가 기억된 제 2 구동 부호장과, 상기 잡음도 평가부의 평가 결과에 의해, 제 1 구동 부호장과 제 2 구동 부호장을 전환하는 구동 부호장 전환부,상기 제 1 구동 부호장 또는 제 2 구동 부호장으로부터의 시계열 벡터를 각각의 시계열 벡터의 게인에 따라서 가중 가산하는 가중 가산부,상기 가중된 시계열 벡터를 구동 음원 신호로 하고, 이 구동 음원 신호와 상기 스펙트럼 정보 부호화부에서의 부호화된 스펙트럼 정보에 근거하여 부호화 음성을 얻는 합성 필터 및,상기 부호화 음성과 상기 입력 음성과의 거리를 구하고, 거리가 최소가 되는 구동 부호, 게인을 탐색하고, 그 결과를 구동 부호, 게인의 부호를 부호화 결과로서 출력하는 거리 계산부를 구비한 것을 특징으로 하는 음성 부호화 장치.
- 스펙트럼 정보의 부호로부터 스펙트럼 정보를 복호화하는 스펙트럼 정보 복호화부,상기 스펙트럼 정보 복호화부로부터의 복호화된 스펙트럼 정보로부터 얻어지는 스펙트럼 정보 및 파워 정보 중 1개 이상의 복호화 결과 또는 상기 스펙트럼 정보의 부호를 사용하여 해당 복호화 구간에 있어서의 음성의 잡음성 정도를 평가하여, 평가 결과를 출력하는 잡음도 평가부,비잡음적인 복수의 시계열 벡터가 기억된 제 1 구동 부호장,잡음적인 복수의 시계열 벡터가 기억된 제 2 구동 부호장과 상기 잡음도 평가부의 평가 결과에 의해, 제 1 구동 부호장과 제 2 구동 부호장을 전환하는 구동 부호장 전환부,상기 제 1 구동 부호장 또는 제 2 구동 부호장으로부터의 시계열 벡터를 각각의 시계열 벡터의 게인에 따라서 가중 가산하는 가중 가산부 및,상기 가중 시계열 벡터를 구동 음원 신호로 하고, 이 구동 음원 신호와 상기 스펙트럼 정보 복호화부로부터의 복호화 된 스펙트럼 정보에 의거하여 복호화 음성 을 얻는 합성 필터를 구비한 것을 특징으로 하는 음성 복호화 장치.
- 부호 구동 선형 예측(CELP)음성 부호화 장치에 있어서,스펙트럼 정보, 파워 정보 및 피치 정보중 1개 이상의 부호 또는 부호화 결과를 사용하여 해당 부호화 구간에 있어서의 음성의 잡음성 정도를 평가하는 잡음도 평가부 및,상기 잡음 평가부의 평가 결과에 따라서 복수의 구동 부호장을 전환하는 구동 부호 전환부를 구비한 것을 특징으로 하는 음성 부호화 장치.
- 부호 구동 선형 예측(CELP)음성 복호화 장치에 있어서,스펙트럼 정보, 파워 정보 및 피치 정보 중 1개 이상의 부호 또는 복호화 결과를 사용하여 해당 복호화 구간에 있어서의 음성의 잡음성 정도를 평가하는 잡음도 평가부 및,상기 잡음도 평가부의 평가 결과에 따라서 복수의 구동 부호장을 전환하는 구동 부호장 전환부를 구비한 것을 특징으로 하는 음성 복호화 장치.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP97-354754 | 1997-12-24 | ||
JP35475497 | 1997-12-24 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20010033539A true KR20010033539A (ko) | 2001-04-25 |
KR100373614B1 KR100373614B1 (ko) | 2003-02-26 |
Family
ID=18439687
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR10-2000-7007047A KR100373614B1 (ko) | 1997-12-24 | 1998-12-07 | 음성 부호화 방법 및 음성 복호화 방법 및, 음성 부호화장치 및 음성 복호화 장치 |
Country Status (11)
Country | Link |
---|---|
US (18) | US7092885B1 (ko) |
EP (8) | EP1052620B1 (ko) |
JP (2) | JP3346765B2 (ko) |
KR (1) | KR100373614B1 (ko) |
CN (5) | CN1737903A (ko) |
AU (1) | AU732401B2 (ko) |
CA (4) | CA2722196C (ko) |
DE (3) | DE69837822T2 (ko) |
IL (1) | IL136722A0 (ko) |
NO (3) | NO20003321L (ko) |
WO (1) | WO1999034354A1 (ko) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101453200B1 (ko) * | 2012-04-04 | 2014-10-22 | 모토로라 모빌리티 엘엘씨 | 정보 신호를 코딩하기 위한 후보 코드-벡터를 생성하는 방법 및 장치 |
US10304470B2 (en) | 2013-10-18 | 2019-05-28 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Concept for encoding an audio signal and decoding an audio signal using deterministic and noise like information |
US10373625B2 (en) | 2013-10-18 | 2019-08-06 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Concept for encoding an audio signal and decoding an audio signal using speech related spectral shaping information |
Families Citing this family (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1052620B1 (en) * | 1997-12-24 | 2004-07-21 | Mitsubishi Denki Kabushiki Kaisha | Sound encoding method and sound decoding method, and sound encoding device and sound decoding device |
DE60018696T2 (de) * | 1999-07-01 | 2006-04-06 | Koninklijke Philips Electronics N.V. | Robuste sprachverarbeitung von verrauschten sprachmodellen |
WO2001002929A2 (en) * | 1999-07-02 | 2001-01-11 | Tellabs Operations, Inc. | Coded domain noise control |
JP2001075600A (ja) * | 1999-09-07 | 2001-03-23 | Mitsubishi Electric Corp | 音声符号化装置および音声復号化装置 |
JP4619549B2 (ja) * | 2000-01-11 | 2011-01-26 | パナソニック株式会社 | マルチモード音声復号化装置及びマルチモード音声復号化方法 |
JP4510977B2 (ja) * | 2000-02-10 | 2010-07-28 | 三菱電機株式会社 | 音声符号化方法および音声復号化方法とその装置 |
FR2813722B1 (fr) * | 2000-09-05 | 2003-01-24 | France Telecom | Procede et dispositif de dissimulation d'erreurs et systeme de transmission comportant un tel dispositif |
JP3404016B2 (ja) * | 2000-12-26 | 2003-05-06 | 三菱電機株式会社 | 音声符号化装置及び音声符号化方法 |
JP3404024B2 (ja) | 2001-02-27 | 2003-05-06 | 三菱電機株式会社 | 音声符号化方法および音声符号化装置 |
JP3566220B2 (ja) * | 2001-03-09 | 2004-09-15 | 三菱電機株式会社 | 音声符号化装置、音声符号化方法、音声復号化装置及び音声復号化方法 |
KR100467326B1 (ko) * | 2002-12-09 | 2005-01-24 | 학교법인연세대학교 | 추가 비트 할당 기법을 이용한 음성 부호화 및 복호화를위한 송수신기 |
US20040244310A1 (en) * | 2003-03-28 | 2004-12-09 | Blumberg Marvin R. | Data center |
WO2006121101A1 (ja) * | 2005-05-13 | 2006-11-16 | Matsushita Electric Industrial Co., Ltd. | 音声符号化装置およびスペクトル変形方法 |
CN1924990B (zh) * | 2005-09-01 | 2011-03-16 | 凌阳科技股份有限公司 | Midi音讯的播放架构和方法与其应用的多媒体装置 |
US20090164211A1 (en) * | 2006-05-10 | 2009-06-25 | Panasonic Corporation | Speech encoding apparatus and speech encoding method |
US8712766B2 (en) * | 2006-05-16 | 2014-04-29 | Motorola Mobility Llc | Method and system for coding an information signal using closed loop adaptive bit allocation |
MY152845A (en) * | 2006-10-24 | 2014-11-28 | Voiceage Corp | Method and device for coding transition frames in speech signals |
EP2538406B1 (en) * | 2006-11-10 | 2015-03-11 | Panasonic Intellectual Property Corporation of America | Method and apparatus for decoding parameters of a CELP encoded speech signal |
JPWO2008072732A1 (ja) * | 2006-12-14 | 2010-04-02 | パナソニック株式会社 | 音声符号化装置および音声符号化方法 |
US8160872B2 (en) * | 2007-04-05 | 2012-04-17 | Texas Instruments Incorporated | Method and apparatus for layered code-excited linear prediction speech utilizing linear prediction excitation corresponding to optimal gains |
CN101971251B (zh) * | 2008-03-14 | 2012-08-08 | 杜比实验室特许公司 | 像言语的信号和不像言语的信号的多模式编解码方法及装置 |
US9056697B2 (en) * | 2008-12-15 | 2015-06-16 | Exopack, Llc | Multi-layered bags and methods of manufacturing the same |
US8649456B2 (en) | 2009-03-12 | 2014-02-11 | Futurewei Technologies, Inc. | System and method for channel information feedback in a wireless communications system |
US8675627B2 (en) * | 2009-03-23 | 2014-03-18 | Futurewei Technologies, Inc. | Adaptive precoding codebooks for wireless communications |
US9208798B2 (en) | 2012-04-09 | 2015-12-08 | Board Of Regents, The University Of Texas System | Dynamic control of voice codec data rate |
PL2922053T3 (pl) | 2012-11-15 | 2019-11-29 | Ntt Docomo Inc | Urządzenie do kodowania audio, sposób kodowania audio, program do kodowania audio, urządzenie do dekodowania audio, sposób dekodowania audio, i program do dekodowania audio |
RU2662921C2 (ru) | 2013-06-10 | 2018-07-31 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Устройство и способ для кодирования, обработки и декодирования огибающей аудиосигнала путем моделирования представления совокупной суммы с использованием квантования и кодирования распределения |
CN104934035B (zh) * | 2014-03-21 | 2017-09-26 | 华为技术有限公司 | 语音频码流的解码方法及装置 |
CN110444217B (zh) | 2014-05-01 | 2022-10-21 | 日本电信电话株式会社 | 解码装置、解码方法、记录介质 |
US9934790B2 (en) | 2015-07-31 | 2018-04-03 | Apple Inc. | Encoded audio metadata-based equalization |
JP6759927B2 (ja) * | 2016-09-23 | 2020-09-23 | 富士通株式会社 | 発話評価装置、発話評価方法、および発話評価プログラム |
WO2018084305A1 (ja) * | 2016-11-07 | 2018-05-11 | ヤマハ株式会社 | 音声合成方法 |
US10878831B2 (en) | 2017-01-12 | 2020-12-29 | Qualcomm Incorporated | Characteristic-based speech codebook selection |
JP6514262B2 (ja) * | 2017-04-18 | 2019-05-15 | ローランドディー.ジー.株式会社 | インクジェットプリンタおよび印刷方法 |
CN112201270B (zh) * | 2020-10-26 | 2023-05-23 | 平安科技(深圳)有限公司 | 语音噪声的处理方法、装置、计算机设备及存储介质 |
EP4053750A1 (en) * | 2021-03-04 | 2022-09-07 | Tata Consultancy Services Limited | Method and system for time series data prediction based on seasonal lags |
Family Cites Families (63)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0197294A (ja) | 1987-10-06 | 1989-04-14 | Piran Mirton | 木材パルプ等の精製機 |
JPH0333900A (ja) * | 1989-06-30 | 1991-02-14 | Fujitsu Ltd | 音声符号化方式 |
CA2019801C (en) | 1989-06-28 | 1994-05-31 | Tomohiko Taniguchi | System for speech coding and an apparatus for the same |
US5261027A (en) * | 1989-06-28 | 1993-11-09 | Fujitsu Limited | Code excited linear prediction speech coding system |
JP2940005B2 (ja) * | 1989-07-20 | 1999-08-25 | 日本電気株式会社 | 音声符号化装置 |
CA2021514C (en) * | 1989-09-01 | 1998-12-15 | Yair Shoham | Constrained-stochastic-excitation coding |
US5754976A (en) * | 1990-02-23 | 1998-05-19 | Universite De Sherbrooke | Algebraic codebook with signal-selected pulse amplitude/position combinations for fast coding of speech |
JPH0451200A (ja) * | 1990-06-18 | 1992-02-19 | Fujitsu Ltd | 音声符号化方式 |
US5293449A (en) * | 1990-11-23 | 1994-03-08 | Comsat Corporation | Analysis-by-synthesis 2,4 kbps linear predictive speech codec |
JP2776050B2 (ja) | 1991-02-26 | 1998-07-16 | 日本電気株式会社 | 音声符号化方式 |
US5680508A (en) * | 1991-05-03 | 1997-10-21 | Itt Corporation | Enhancement of speech coding in background noise for low-rate speech coder |
US5396576A (en) * | 1991-05-22 | 1995-03-07 | Nippon Telegraph And Telephone Corporation | Speech coding and decoding methods using adaptive and random code books |
JPH05232994A (ja) | 1992-02-25 | 1993-09-10 | Oki Electric Ind Co Ltd | 統計コードブック |
JPH05265496A (ja) * | 1992-03-18 | 1993-10-15 | Hitachi Ltd | 複数のコードブックを有する音声符号化方法 |
JP3297749B2 (ja) | 1992-03-18 | 2002-07-02 | ソニー株式会社 | 符号化方法 |
US5495555A (en) * | 1992-06-01 | 1996-02-27 | Hughes Aircraft Company | High quality low bit rate celp-based speech codec |
CA2107314C (en) * | 1992-09-30 | 2001-04-17 | Katsunori Takahashi | Computer system |
CA2108623A1 (en) * | 1992-11-02 | 1994-05-03 | Yi-Sheng Wang | Adaptive pitch pulse enhancer and method for use in a codebook excited linear prediction (celp) search loop |
JP2746033B2 (ja) * | 1992-12-24 | 1998-04-28 | 日本電気株式会社 | 音声復号化装置 |
EP0654909A4 (en) * | 1993-06-10 | 1997-09-10 | Oki Electric Ind Co Ltd | PREDICTIVE LINEAR ENCODER-ENCODER WITH CODES EXCITATION. |
JP2624130B2 (ja) | 1993-07-29 | 1997-06-25 | 日本電気株式会社 | 音声符号化方式 |
JPH0749700A (ja) | 1993-08-09 | 1995-02-21 | Fujitsu Ltd | Celp型音声復号器 |
CA2154911C (en) * | 1994-08-02 | 2001-01-02 | Kazunori Ozawa | Speech coding device |
JPH0869298A (ja) | 1994-08-29 | 1996-03-12 | Olympus Optical Co Ltd | 再生装置 |
JP3557662B2 (ja) * | 1994-08-30 | 2004-08-25 | ソニー株式会社 | 音声符号化方法及び音声復号化方法、並びに音声符号化装置及び音声復号化装置 |
JPH08102687A (ja) * | 1994-09-29 | 1996-04-16 | Yamaha Corp | 音声送受信方式 |
JPH08110800A (ja) | 1994-10-12 | 1996-04-30 | Fujitsu Ltd | A−b−S法による高能率音声符号化方式 |
JP3328080B2 (ja) * | 1994-11-22 | 2002-09-24 | 沖電気工業株式会社 | コード励振線形予測復号器 |
JPH08179796A (ja) * | 1994-12-21 | 1996-07-12 | Sony Corp | 音声符号化方法 |
JP3292227B2 (ja) | 1994-12-28 | 2002-06-17 | 日本電信電話株式会社 | 符号励振線形予測音声符号化方法及びその復号化方法 |
EP0723258B1 (en) * | 1995-01-17 | 2000-07-05 | Nec Corporation | Speech encoder with features extracted from current and previous frames |
KR0181028B1 (ko) * | 1995-03-20 | 1999-05-01 | 배순훈 | 분류 디바이스를 갖는 개선된 비디오 신호 부호화 시스템 |
JPH08328598A (ja) * | 1995-05-26 | 1996-12-13 | Sanyo Electric Co Ltd | 音声符号化・復号化装置 |
US5864797A (en) | 1995-05-30 | 1999-01-26 | Sanyo Electric Co., Ltd. | Pitch-synchronous speech coding by applying multiple analysis to select and align a plurality of types of code vectors |
JP3515216B2 (ja) * | 1995-05-30 | 2004-04-05 | 三洋電機株式会社 | 音声符号化装置 |
JPH0922299A (ja) * | 1995-07-07 | 1997-01-21 | Kokusai Electric Co Ltd | 音声符号化通信方式 |
US5819215A (en) * | 1995-10-13 | 1998-10-06 | Dobson; Kurt | Method and apparatus for wavelet based data compression having adaptive bit rate control for compression of digital audio or other sensory data |
JP3680380B2 (ja) * | 1995-10-26 | 2005-08-10 | ソニー株式会社 | 音声符号化方法及び装置 |
DE69516522T2 (de) | 1995-11-09 | 2001-03-08 | Nokia Mobile Phones Ltd., Salo | Verfahren zur Synthetisierung eines Sprachsignalblocks in einem CELP-Kodierer |
FI100840B (fi) * | 1995-12-12 | 1998-02-27 | Nokia Mobile Phones Ltd | Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin |
JP4063911B2 (ja) | 1996-02-21 | 2008-03-19 | 松下電器産業株式会社 | 音声符号化装置 |
GB2312360B (en) | 1996-04-12 | 2001-01-24 | Olympus Optical Co | Voice signal coding apparatus |
JPH09281997A (ja) * | 1996-04-12 | 1997-10-31 | Olympus Optical Co Ltd | 音声符号化装置 |
JP3094908B2 (ja) | 1996-04-17 | 2000-10-03 | 日本電気株式会社 | 音声符号化装置 |
KR100389895B1 (ko) * | 1996-05-25 | 2003-11-28 | 삼성전자주식회사 | 음성 부호화 및 복호화방법 및 그 장치 |
JP3364825B2 (ja) | 1996-05-29 | 2003-01-08 | 三菱電機株式会社 | 音声符号化装置および音声符号化復号化装置 |
JPH1020891A (ja) * | 1996-07-09 | 1998-01-23 | Sony Corp | 音声符号化方法及び装置 |
JP3707154B2 (ja) * | 1996-09-24 | 2005-10-19 | ソニー株式会社 | 音声符号化方法及び装置 |
JP3174742B2 (ja) | 1997-02-19 | 2001-06-11 | 松下電器産業株式会社 | Celp型音声復号化装置及びcelp型音声復号化方法 |
DE69712535T2 (de) | 1996-11-07 | 2002-08-29 | Matsushita Electric Industrial Co., Ltd. | Vorrichtung zur Erzeugung eines Vektorquantisierungs-Codebuchs |
US5867289A (en) * | 1996-12-24 | 1999-02-02 | International Business Machines Corporation | Fault detection for all-optical add-drop multiplexer |
SE9700772D0 (sv) * | 1997-03-03 | 1997-03-03 | Ericsson Telefon Ab L M | A high resolution post processing method for a speech decoder |
US6167375A (en) * | 1997-03-17 | 2000-12-26 | Kabushiki Kaisha Toshiba | Method for encoding and decoding a speech signal including background noise |
US5893060A (en) | 1997-04-07 | 1999-04-06 | Universite De Sherbrooke | Method and device for eradicating instability due to periodic signals in analysis-by-synthesis speech codecs |
US6029125A (en) | 1997-09-02 | 2000-02-22 | Telefonaktiebolaget L M Ericsson, (Publ) | Reducing sparseness in coded speech signals |
US6058359A (en) * | 1998-03-04 | 2000-05-02 | Telefonaktiebolaget L M Ericsson | Speech coding including soft adaptability feature |
JPH11119800A (ja) | 1997-10-20 | 1999-04-30 | Fujitsu Ltd | 音声符号化復号化方法及び音声符号化復号化装置 |
EP1052620B1 (en) * | 1997-12-24 | 2004-07-21 | Mitsubishi Denki Kabushiki Kaisha | Sound encoding method and sound decoding method, and sound encoding device and sound decoding device |
US6415252B1 (en) * | 1998-05-28 | 2002-07-02 | Motorola, Inc. | Method and apparatus for coding and decoding speech |
US6453289B1 (en) * | 1998-07-24 | 2002-09-17 | Hughes Electronics Corporation | Method of noise reduction for speech codecs |
US6104992A (en) * | 1998-08-24 | 2000-08-15 | Conexant Systems, Inc. | Adaptive gain reduction to produce fixed codebook target signal |
US6385573B1 (en) * | 1998-08-24 | 2002-05-07 | Conexant Systems, Inc. | Adaptive tilt compensation for synthesized speech residual |
ITMI20011454A1 (it) | 2001-07-09 | 2003-01-09 | Cadif Srl | Procedimento impianto e nastro a base di bitume polimero per il riscaldamento superficiale ed ambiantale delle strutture e delle infrastrutt |
-
1998
- 1998-12-07 EP EP98957197A patent/EP1052620B1/en not_active Expired - Lifetime
- 1998-12-07 CN CNA2005100895281A patent/CN1737903A/zh active Pending
- 1998-12-07 EP EP03090370A patent/EP1426925B1/en not_active Expired - Lifetime
- 1998-12-07 CA CA2722196A patent/CA2722196C/en not_active Expired - Lifetime
- 1998-12-07 JP JP2000526920A patent/JP3346765B2/ja not_active Expired - Lifetime
- 1998-12-07 KR KR10-2000-7007047A patent/KR100373614B1/ko active IP Right Grant
- 1998-12-07 EP EP09014423.9A patent/EP2154680B1/en not_active Expired - Lifetime
- 1998-12-07 EP EP09014422.1A patent/EP2154679B1/en not_active Expired - Lifetime
- 1998-12-07 CA CA002315699A patent/CA2315699C/en not_active Expired - Lifetime
- 1998-12-07 CA CA002636684A patent/CA2636684C/en not_active Expired - Lifetime
- 1998-12-07 EP EP06008656A patent/EP1686563A3/en not_active Withdrawn
- 1998-12-07 US US09/530,719 patent/US7092885B1/en not_active Expired - Lifetime
- 1998-12-07 DE DE69837822T patent/DE69837822T2/de not_active Expired - Lifetime
- 1998-12-07 CN CNA031584632A patent/CN1494055A/zh active Pending
- 1998-12-07 EP EP05015793A patent/EP1596368B1/en not_active Expired - Lifetime
- 1998-12-07 EP EP05015792A patent/EP1596367A3/en not_active Ceased
- 1998-12-07 CA CA2636552A patent/CA2636552C/en not_active Expired - Lifetime
- 1998-12-07 IL IL13672298A patent/IL136722A0/xx unknown
- 1998-12-07 EP EP09014424A patent/EP2154681A3/en not_active Ceased
- 1998-12-07 WO PCT/JP1998/005513 patent/WO1999034354A1/ja active Application Filing
- 1998-12-07 DE DE69736446T patent/DE69736446T2/de not_active Expired - Lifetime
- 1998-12-07 CN CN2005100563318A patent/CN1658282A/zh active Pending
- 1998-12-07 DE DE69825180T patent/DE69825180T2/de not_active Expired - Fee Related
- 1998-12-07 CN CNB988126826A patent/CN1143268C/zh not_active Expired - Lifetime
- 1998-12-07 AU AU13526/99A patent/AU732401B2/en not_active Expired
- 1998-12-07 CN CN200510088000A patent/CN100583242C/zh not_active Expired - Lifetime
-
2000
- 2000-06-23 NO NO20003321A patent/NO20003321L/no not_active Application Discontinuation
-
2003
- 2003-11-17 NO NO20035109A patent/NO323734B1/no not_active IP Right Cessation
-
2004
- 2004-01-06 NO NO20040046A patent/NO20040046L/no not_active Application Discontinuation
-
2005
- 2005-03-28 US US11/090,227 patent/US7363220B2/en not_active Expired - Fee Related
- 2005-07-26 US US11/188,624 patent/US7383177B2/en not_active Expired - Fee Related
-
2007
- 2007-01-16 US US11/653,288 patent/US7747441B2/en not_active Expired - Fee Related
- 2007-10-29 US US11/976,878 patent/US20080071526A1/en not_active Abandoned
- 2007-10-29 US US11/976,830 patent/US20080065375A1/en not_active Abandoned
- 2007-10-29 US US11/976,828 patent/US20080071524A1/en not_active Abandoned
- 2007-10-29 US US11/976,841 patent/US20080065394A1/en not_active Abandoned
- 2007-10-29 US US11/976,883 patent/US7747433B2/en not_active Expired - Fee Related
- 2007-10-29 US US11/976,840 patent/US7747432B2/en not_active Expired - Fee Related
- 2007-10-29 US US11/976,877 patent/US7742917B2/en not_active Expired - Fee Related
-
2008
- 2008-12-11 US US12/332,601 patent/US7937267B2/en not_active Expired - Fee Related
-
2009
- 2009-01-30 JP JP2009018916A patent/JP4916521B2/ja not_active Expired - Lifetime
-
2011
- 2011-03-28 US US13/073,560 patent/US8190428B2/en not_active Expired - Fee Related
-
2012
- 2012-02-17 US US13/399,830 patent/US8352255B2/en not_active Expired - Fee Related
- 2012-09-14 US US13/618,345 patent/US8447593B2/en not_active Expired - Fee Related
-
2013
- 2013-03-11 US US13/792,508 patent/US8688439B2/en not_active Expired - Fee Related
-
2014
- 2014-02-25 US US14/189,013 patent/US9263025B2/en not_active Expired - Fee Related
-
2016
- 2016-02-12 US US15/043,189 patent/US9852740B2/en not_active Expired - Fee Related
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101453200B1 (ko) * | 2012-04-04 | 2014-10-22 | 모토로라 모빌리티 엘엘씨 | 정보 신호를 코딩하기 위한 후보 코드-벡터를 생성하는 방법 및 장치 |
US10304470B2 (en) | 2013-10-18 | 2019-05-28 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Concept for encoding an audio signal and decoding an audio signal using deterministic and noise like information |
US10373625B2 (en) | 2013-10-18 | 2019-08-06 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Concept for encoding an audio signal and decoding an audio signal using speech related spectral shaping information |
US10607619B2 (en) | 2013-10-18 | 2020-03-31 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Concept for encoding an audio signal and decoding an audio signal using deterministic and noise like information |
US10909997B2 (en) | 2013-10-18 | 2021-02-02 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Concept for encoding an audio signal and decoding an audio signal using speech related spectral shaping information |
US11798570B2 (en) | 2013-10-18 | 2023-10-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Concept for encoding an audio signal and decoding an audio signal using deterministic and noise like information |
US11881228B2 (en) | 2013-10-18 | 2024-01-23 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E. V. | Concept for encoding an audio signal and decoding an audio signal using speech related spectral shaping information |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100373614B1 (ko) | 음성 부호화 방법 및 음성 복호화 방법 및, 음성 부호화장치 및 음성 복호화 장치 | |
JP4800285B2 (ja) | 音声復号化方法及び音声復号化装置 | |
JP4170288B2 (ja) | 音声符号化方法及び音声符号化装置 | |
JP3736801B2 (ja) | 音声復号化方法及び音声復号化装置 | |
JP3563400B2 (ja) | 音声復号化装置及び音声復号化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20130117 Year of fee payment: 11 |
|
FPAY | Annual fee payment |
Payment date: 20140120 Year of fee payment: 12 |
|
FPAY | Annual fee payment |
Payment date: 20150127 Year of fee payment: 13 |
|
FPAY | Annual fee payment |
Payment date: 20160125 Year of fee payment: 14 |
|
FPAY | Annual fee payment |
Payment date: 20180130 Year of fee payment: 16 |