KR20010033539A - 음성 부호화 방법 및 음성 복호화 방법 및, 음성 부호화장치 및 음성 복호화 장치 - Google Patents

음성 부호화 방법 및 음성 복호화 방법 및, 음성 부호화장치 및 음성 복호화 장치 Download PDF

Info

Publication number
KR20010033539A
KR20010033539A KR1020007007047A KR20007007047A KR20010033539A KR 20010033539 A KR20010033539 A KR 20010033539A KR 1020007007047 A KR1020007007047 A KR 1020007007047A KR 20007007047 A KR20007007047 A KR 20007007047A KR 20010033539 A KR20010033539 A KR 20010033539A
Authority
KR
South Korea
Prior art keywords
time series
speech
code field
driving code
driving
Prior art date
Application number
KR1020007007047A
Other languages
English (en)
Other versions
KR100373614B1 (ko
Inventor
야마우라타다시
Original Assignee
다니구찌 이찌로오, 기타오카 다카시
미쓰비시덴키 가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=18439687&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=KR20010033539(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by 다니구찌 이찌로오, 기타오카 다카시, 미쓰비시덴키 가부시키가이샤 filed Critical 다니구찌 이찌로오, 기타오카 다카시
Publication of KR20010033539A publication Critical patent/KR20010033539A/ko
Application granted granted Critical
Publication of KR100373614B1 publication Critical patent/KR100373614B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • G10L19/135Vector sum excited linear prediction [VSELP]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/083Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • G10L19/107Sparse pulse excitation, e.g. by using algebraic codebook
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • G10L19/125Pitch excitation, e.g. pitch synchronous innovation CELP [PSI-CELP]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0002Codebook adaptations
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0004Design or structure of the codebook
    • G10L2019/0005Multi-stage vector quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0007Codebook element generation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0011Long term prediction filters, i.e. pitch estimation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0012Smoothing of parameters of the decoder interpolation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0016Codebook for LPC parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Algebra (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Analogue/Digital Conversion (AREA)

Abstract

본 발명은 음성 신호를 디지털 신호로 압축 부호화하는 음성 부호화 및 복호화에 있어서, 적은 정보량으로 품질이 높은 음성을 재생하는 방법 및 장치에 관한 것으로,
부호 구동 선형 예측(CELP) 음성 부호화에 있어서, 스펙트럼 정보, 파워 정보 및 피치 정보 중 1개 이상의 부호 또는 부호화 결과를 사용하여 해당 부호화 구간에 있어서의 음성의 잡음성 정도를 평가하고, 평가 결과에 따라서 다른 구동 부호장(19, 20)을 사용하도록 하였다.

Description

음성 부호화 방법 및 음성 복호화 방법 및, 음성 부호화 장치 및 음성 복호화 장치{Sound encoding method and sound decoding method, and sound encoding device and sound decoding device}
종래, 고능률 음성 부호화 방법로서는 부호 구동 선형 예측(Code-Excited Linear Prediction: CELP) 부호화가 대표적이고, 그 기술에 대해서는 「Code- excited linear prediction(CELP): High-quality speech at very low bit rates」(M.R.Shroeder and B.S.Atal저, ICASSP '85, pp.937-940, 1985)에 기술되어 있다.
도 6은 CELP 음성 부호화 및 복호화 방법의 전체 구성의 일례를 도시한 것이고, 도면 중 참조번호 101은 부호화부, 102는 복호화부, 103은 다중화 수단, 104는 분리 수단이다. 부호화부(101)는 선형 예측 파라미터 분석 수단(105), 선형 예측 파라미터 부호화 수단(106), 합성 필터(107), 적응 부호장(108), 구동 부호장(109), 게인 부호화 수단(110), 거리 계산 수단(111), 가중 가산 수단(138)으로 구성되어 있다. 또한, 복호화부(102)는 선형 예측 파라미터 복호화 수단(112), 합성 필터(113), 적응 부호장(114), 구동 부호장(115), 게인 복호화 수단(116), 가중 가산 수단(139)으로 구성되어 있다.
CELP 음성 부호화에서는 5 내지 50 ms 정도를 1프레임으로 하여, 그 프레임의 음성을 스펙트럼 정보와 음원 정보로 나누어 부호화한다. 우선, CELP 음성 부호화 방법의 동작에 대해서 설명한다. 부호화부(101)에 있어서, 선형 예측 파라미터 분석 수단(105)은 입력 음성(S101)을 분석하고, 음성의 스펙트럼 정보인 선형 예측 파라미터를 추출한다. 선형 예측 파라미터 부호화 수단(106)은 그 선형 예측 파라미터를 부호화하고, 부호화한 선형 예측 파라미터를 합성 필터(107)의 계수로서 설정한다.
다음에 음원 정보의 부호화에 대해 설명한다. 적응 부호장(108)에는 과거의 구동 음원 신호가 기억되어 있고, 거리 계산 수단(111)으로부터 입력되는 적응 부호에 대응하여 과거의 구동 음원 신호를 주기적으로 되풀이한 시계열 벡터를 출력한다. 구동 부호장(109)에는 예를 들면, 학습용 음성과 그 부호화 음성과의 왜곡이 작게 되도록 학습하여 구성된 복수의 시계열 벡터가 기억되어 있고, 거리 계산 수단(111)으로부터 입력되는 구동 부호에 대응한 시계열 벡터를 출력한다. 적응 부호장(108), 구동 부호장(109)으로부터의 각 시계열 벡터는 게인 부호화 수단(110;gain coding means)으로부터 주어지는 각각의 게인에 따라서 가중 가산 수단(138)에서 가중 가산되고, 그 가산 결과를 구동 음원 신호로서 합성 필터(107)로 공급하여 부호화 음성을 얻는다. 거리 계산 수단(111)은 부호화 음성과 입력 신호(S101)와의 거리를 구하고, 거리가 최소가 되는 적응 부호, 구동 부호, 게인을 탐색한다. 상기 부호화가 종료한 후, 선형 예측 파라미터의 부호, 입력 음성과 부호화 음성과의 왜곡을 최소로 하는 적응 부호, 구동 부호, 게인의 부호를 부호화 결과로서 출력한다.
다음에 CPEL 음성 복호화 방법의 동작에 대해서 설명한다.
한편, 복호화부(102)에 있어서, 선형 예측 파라미터 복호화 수단(112)은 선형 예측 파라미터의 부호로부터 선형 예측 파라미터를 복호화하고, 합성 필터(113)의 계수로서 설정한다. 다음에, 적응 부호장(114)은 적응 부호에 대응하여, 과거의 구동 음원 신호를 주기적으로 되풀이한 시계열 벡터를 출력하며, 또한 구동 부호장(115)은 구동 부호에 대응한 시계열 벡터를 출력한다. 이들 시계열 벡터는 게인 복호화 수단(116)에서 게인의 부호로부터 복호화한 각각의 게인에 따라서 가중 가산 수단(139)에서 가중 가산되고, 그 가산 결과가 구동 음원 신호로서 합성 필터(113)로 공급되어 출력 음성(S103)이 얻어진다.
또한 CELP 음성 부호화 및 복호화 방법에서 재생 음성 품질의 향상을 목적으로 개량된 종래의 음성 부호화 및 복호화 방법으로서, 「Phonetically-based vector excitation coding of speech at 3.6kbps」(S.Wang and A. Gersho저, ICASSP'89, pp.49-52, 1989)에 예시된 것이 있다. 도 6과의 대응 수단에 동일 부호를 붙인 도 7은 종래의 음성 부호화 및 복호화 방법의 전체 구성의 일례를 도시하고, 도면 중 부호화부(101)에 있어서, 참조번호 117은 음성 상태 판정 수단, 118은 구동 부호장 전환 수단, 119는 제 1 구동 부호장, 120은 제 2 구동 부호장이다. 또한 도면 중 복호화 수단(102)에 있어서 참조번호 121은 구동 부호장 전환 수단, 122는 제 1 구동 부호장, 123은 제 2 구동 부호장이다. 이러한 구성에 의한 부호화 및 복호화 방법의 동작을 설명한다. 우선 부호화 수단(101)에 있어서, 음성 상태 판정 수단(117)은 입력 음성(S101)을 분석하고, 음성의 상태를 예를 들면 유성/무성의 2개의 상태 중 어느 쪽인가를 판정한다. 구동 부호장 전환 수단(118)은 그 음성 상태 판정 결과에 따라서, 예를 들면 유성이면 제 1 구동 부호장(119)을, 무성이면 제 2 구동 부호장(120)을 사용하는 것으로 부호화에 사용하는 구동 부호장을 전환하고, 또한, 어느쪽의 구동 부호장을 사용하였는가를 부호화한다.
다음에 복호화 수단(102)에 있어서, 구동 부호장 전환 수단(121)은 부호화 수단(101)에서 어느쪽의 구동 부호장을 사용하였는가의 부호에 따라서, 부호화 수단(101)에서 사용한 것과 동일한 구동 부호장을 사용하는 것으로서 제 1 구동 부호장(122)과 제 2 구동 부호장(123)을 전환한다. 이와 같이 구성함으로써, 음성의 각 상태마다 부호화에 알맞은 구동 부호장을 준비하고, 입력된 음성의 상태에 따라서 구동 부호장을 전환하여 사용함으로써 재생 음성의 품질을 향상할 수 있다.
또한 송출 비트수를 증가하지 않고, 복수의 구동 부호장을 전환하는 종래의 음성 부호화 및 복호화 방법으로서 특개평8-185198호 공보에 개시된 것이 있다. 이것은 적응 부호장에서 선택한 피치 주기에 따라서, 복수개의 구동 부호장을 전환하여 사용하는 것이다. 이로 인해, 전송 정보를 늘리지 않고 입력 음성 특징에 적응한 구동 부호장을 사용할 수 있다.
상술한 바와 같이 도 6에 도시하는 종래의 음성 부호화 및 복호화 방법에서는 단일의 구동 부호장을 사용하여 합성 음성을 생성하고 있다. 저 비트율로도 품질이 높은 부호화 음성을 얻기 위해서는 구동 부호장에 격납하는 시계열 벡터는 펄스를 많이 포함하는 비잡음적인 것이 된다. 이로 인해, 배경 잡음이나 마찰성 잡음 등 잡음적인 음성을 부호화, 합성한 경우, 부호화 음성은 지리지리, 치리치리와 같은 부자연한 소리를 발하게 되는 문제가 있었다. 구동 부호장을 잡음적인 시계열 벡터로만 구성하면 이러한 문제는 해결하지만, 부호화 음성 전체로서의 품질이 열화한다.
또한 개량된 도 7에 도시하는 종래의 음성 부호화 및 복호화 방법에서는 입력 음성의 상태에 따라서 복수의 구동 부호장을 전환하여 부호화 음성을 생성하고 있다. 이로 인해 예를 들면 입력 음성이 잡음적인 무성 부분에서는 잡음적인 시계열 벡터로 구성된 구동 부호장을, 또한 그 이외의 유성 부분에서는 비잡음적인 시계열 벡터로 구성된 구동 부호장을 사용할 수 있고, 잡음적인 음성을 부호화, 합성하여도 부자연한 지리지리한 소리를 발하지 않게 된다. 그러나, 복호화측에서도 부호화측과 동일한 구동 부호장을 사용하기 위해서, 새로이 어느 구동 부호장을 사용하었는가의 정보를 부호화, 전송할 필요가 생기고, 이것이 저 비트율화가 방해되는 문제가 있었다.
또한 송출 비트수를 증가하지 않고, 복수의 구동 부호장을 전환하는 종래의 음성 부호화 및 복호화 방법에서는 적응 부호장에서 선택되는 피치 주기에 따라서 구동 부호장을 전환하고 있다. 그러나, 적응 부호장에서 선택되는 피치 주기는 실제의 음성 피치 주기와는 달리, 그 값에서만 입력 음성의 상태가 잡음적인가 비잡음적인가를 판정할 수 없으므로, 음성의 잡음적인 부분의 부호화 음성이 부자연하다고 하는 과제는 해결되지 않는다.
본 발명은 이러한 과제를 해결하기 위해서 이루어진 것으로, 저 비트율로도 품질이 높은 음성을 재생하는 음성 부호화 및 복호화 방법 및, 장치를 제공하는 것이다.
본 발명은 음성 신호를 디지털 신호로 압축 부호화 및 복호화할 때에 사용하는 음성 부호화 및 복호화 방법 및, 음성 부호화 및 복호화 장치에 관한 것으로, 특히 저 비트율로 품질이 높은 음성을 재생하기 위한 음성 부호화 방법 및 음성 복호화 방법 및, 음성 부호화 장치 및 음성 복호화 장치에 관한 것이다.
도 1은 본 발명에 의한 음성 부호화 및 음성 복호화 장치의 실시예 1의 전체구성을 도시하는 블록도.
도 2는 도 1의 실시예 1에 있어서의 잡음 정도의 평가에 대한 설명을 제공하는 표.
도 3은 본 발명에 의한 음성 부호화 및 음성 복호화 장치의 실시예 3의 전체구성을 도시하는 블록도.
도 4는 본 발명에 의한 음성 부호화 및 음성 복호화 장치의 실시예 5의 전체구성을 도시하는 블록도.
도 5는 도 4의 실시예 5에 있어서의 가중 결정 처리의 설명을 제공하는 노선도.
도 6은 종래의 CELP 음성 부호화 및 복호화 장치의 전체 구성을 도시하는 블록도.
도 7은 종래의 개량된 CELP 음성 부호화 및 복호화 장치의 전체 구성을 도시하는 블록도.
상술한 과제를 해결하기 위해서 본 발명의 음성 부호화 방법은 스펙트럼 정보, 파워 정보, 피치 정보 중 적어도 1개의 부호 또는 부호화 결과를 사용하여 상기 부호화 구간에서의 음성의 잡음성의 정도를 평가하고, 평가 결과에 따라서 복수의 구동 부호장 중 1개를 선택하도록 하였다.
또한, 다음 발명의 음성 부호화 방법은 격납하고 있는 시계열 벡터의 잡음성정도가 다른 복수의 구동 부호장을 구비하고, 음성의 잡음성 정도의 평가 결과에 따라서, 복수의 구동 부호장을 전환하도록 하였다.
또한, 다음 발명의 음성 부호화 방법은 음성의 잡음성 정도의 평가 결과에 따라서, 구동 부호장에 격납하고 있는 시계열 벡터의 잡음성 정도를 변화시키도록 하였다.
또한, 다음 발명의 음성 부호화 방법은 잡음적인 시계열 벡터를 격납하여 하고 있는 구동 부호장을 구비하고, 음성의 잡음성 정도의 평가 결과에 따라서, 구동음원의 신호 샘플을 샘플링함으로써 잡음성 정도가 낮은, 시계열 벡터를 생성하도록 하였다.
또한, 다음 발명의 음성 부호화 방법은 잡음적일 시계열 벡터를 격납하고 있는 제 1 구동 부호장과, 비잡음적인 시계열 벡터를 격납하고 있는 제 2 구동 부호장을 구비하고, 음성의 잡음성 정도의 평가 결과에 따라서, 제 1 구동 부호장의 시계열 벡터와 제 2 구동 부호장의 시계열 벡터를 가중 가산한 시계열 벡터를 생성하도록 하였다.
또한 다음 발명의 음성 복호화 방법은 스펙트럼 정보, 파워 정보, 피치 정보중 적어도 1개의 부호 또는 복호화 결과를 사용하여 해당 복호화 구간에 있어서의 음성의 잡음성 정도를 평가하고, 평가 결과에 따라서 복수의 구동 부호장 중의 1개를 선택하도록 한다.
또한, 다음 발명의 음성 복호화 방법은 격납하고 있는 시계열 벡터의 잡음성 정도가 다른 복수의 구동 부호장을 구비하고, 음성의 잡음성 정도의 평가 결과에 따라서, 복수의 구동 부호장을 전환하도록 하였다.
또한, 다음 발명의 음성 복호화 방법은 음성의 잡음성 정도의 평가 결과에 따라서, 구동 부호장에 격납하고 있는 시계열 벡터의 잡음성 정도를 변화시키도록 하였다.
또한, 다음 발명의 음성 복호화 방법은 잡음적인 시계열 벡터를 격납하고 있는 구동 부호장을 구비하고, 음성의 잡음성 정도의 평가 결과에 따라서, 구동 음원의 신호 샘플을 샘플링함으로써 잡음성 정도가 낮은 시계열 벡터를 생성하도록 하였다.
또한, 다음 발명의 음성 복호화 방법은 잡음적인 시계열 벡터를 격납하고 있는 제 1 구동 부호장과, 비잡음적인 시계열 벡터를 격납하고 있는 제 2 구동 부호장을 구비하고, 음성의 잡음성 정도의 평가 결과에 따라서, 제 1 구동 부호장의 시계열 벡터와 제 2 구동 부호장의 시계열 벡터를 가중 가산한 시계열 벡터를 생성하도록 하였다.
또한, 다음 발명의 음성 부호화 장치는 입력 음성의 스펙트럼 정보를 부호화하고, 부호화 결과의 1요소로서 출력하는 스펙트럼 정보 부호화부와, 이 스펙트럼 정보 부호화부로부터의 부호화된 스펙트럼 정보로부터 얻어지는 스펙트럼 정보, 파워 정보 중 적어도 1개의 부호 또는 부호화 결과를 사용하여 해당 부호화 구간에 있어서의 음성의 잡음성 정도를 평가하여, 평가 결과를 출력하는 잡음도 평가부와, 비잡음적인 복수의 시계열 벡터가 기억된 제 1 구동 부호장과, 잡음적인 복수의 시계열 벡터가 기억된 제 2 구동 부호장과, 상기 잡음도 평가부의 평가 결과에 의해, 제 1 구동 부호장과 제 2 구동 부호장을 전환하는 구동 부호장 전환부와, 상기 제 1 구동 부호장 또는 제 2 구동 부호장으로부터의 시계열 벡터를 각각의 시계열 벡터의 게인에 따라서 가중 가산하는 가중 가산부와, 이 가중된 시계열 벡터를 구동 음원 신호로 하여, 이 구동 음원 신호와 상기 스펙트럼 정보 부호화부로부터의 부호화된 스펙트럼 정보에 의거하여 부호화 음성을 얻는 합성 필터와, 이 부호화 음성과 상기 입력 음성과의 거리를 구하고, 거리가 최소가 되는 구동 부호, 게인을 탐색하여, 그 결과를 구동 부호, 게인의 부호를 부호화 결과로서 출력하는 거리 계산부를 구비하였다.
또한, 다음 발명의 음성 복호화 장치는 스펙트럼 정보의 부호로부터 스펙트럼 정보를 복호화하는 스펙트럼 정보 복호화부와, 이 스펙트럼 정보 복호화부로부터의 복호화된 스펙트럼 정보로부터 얻어지는 스펙트럼 정보, 파워 정보중 적어도 1개의 복호화 결과 또는 상기 스펙트럼 정보의 부호를 사용하여 해당 복호화 구간에 있어서의 음성의 잡음성 정도를 평가하고, 평가 결과를 출력하는 잡음도 평가부와, 비잡음적인 복수의 시계열 벡터가 기억된 제 1 구동 부호장과, 잡음적인 복수의 시계열 벡터가 기억된 제 2 구동 부호장과, 시계열 잡음도 평가부의 평가 결과에 의해, 제 1 구동 부호장과 제 2 구동 부호장을 전환하는 구동 부호장 전환부와, 상기 제 1 구동 부호장 또는 제 2 구동 부호장으로부터의 시계열 벡터를 각각의 시계열 벡터의 게인에 따라서 가중 가산하는 가중 가산부와, 이 가중된 시계열 벡터를 구동 음원 신호로 하고, 이 구동 음원 신호와 상기 스펙트럼 정보 복호화부로부터의 복호화된 스펙트럼 정보에 의거하여 복호화 음성을 얻는 합성 필터를 구비하였다.
본 발명에 따른 음성 부호화 장치는 부호 구동 선형 예측(CELP) 음성 부호화 장치에 있어서, 스펙트럼 정보, 파워 정보, 피치 정보 중 적어도 1개의 부호 또는 부호화 결과를 사용하여 해당 부호화 구간에서의 음성의 잡음성 정도를 평가하는 잡음도 평가부와, 상기 잡음도 평가부의 평가 결과에 따라서 복수의 구동 부호장을 전환하는 구동 부호장 전환부를 구비한 것을 특징으로 한다.
본 발명에 따른 음성 복호화 장치는 부호 구동 선형 예측(CELP) 음성 복호화 장치에 있어서, 스펙트럼 정보, 파워 정보, 피치 정보 중 적어도 1개의 부호 또는 복호화 결과를 사용하여 해당 복호화 구간에 있어서의 음성의 잡음성 정도를 평가하는 잡음도 평가부와, 상기 잡음도 평가부의 평가 결과에 따라서 복수의 구동 부호장을 전환하는 구동 부호장 전환부를 구비한 것을 특징으로 한다.
이하 도면을 참조하면서, 본 발명의 실시예에 대해서 설명한다.
실시예 1
도 1은 본 발명에 의한 음성 부호화 방법 및 음성 복호화 방법의 실시예 1의 전체 구성을 도시한다. 도면 중, 참조번호 1은 부호화부, 2는 복호화부, 3은 다중화부, 4는 분리부이다. 부호화부(1)는 선형 예측 파라미터 분석부(5), 선형 예측 파라미터 부호화부(6), 합성 필터(7), 적응 부호장(8), 게인 부호화부(10), 거리계산부(11),제 1 구동 부호장(19), 제 2 구동 부호장(20), 잡음도 평가부(24), 구동 부호장 전환부(25), 가중 가산부(38)로 구성된다. 또한, 복호화부(2)는 선형 예측 파라미터 복호화부(12), 합성 필터(13), 적응 부호장(14), 제 1 구동 부호장(22), 제 2 구동 부호장(23), 잡음도 평가부(26), 구동 부호장 전환부(27), 게인 복호화부(16), 가중 가산부(39)로 구성되어 있다. 도면 1중 참조번호 5는 입력 음성(S1)을 분석하고, 음성의 스펙트럼 정보인 선형 예측 파라미터를 추출하는 스펙트럼 정보 분석부로서의 선형 예측 파라미터 분석부, 6은 스펙트럼 정보인 그 선형 예측 파라미터를 부호화하고, 부호화한 선형 예측 파라미터를 합성 필터(7)의 계수로서 설정하는 스펙트럼 정보부호화부로서의 선형 예측 파라미터 부호화부, 19, 22는 비잡음적인 복수의 시계열 벡터가 기억된 제 1 구동 부호장, 20, 23은 잡음적인 복수의 시계열 벡터가 기억된 제 2 구동 부호장, 24, 26은 잡음의 정도를 평가하는 잡음도 평가부, 25, 27은 잡음 정도에 의해 구동 부호장을 전환하는 구동 부호장 전환부이다.
이하, 동작을 설명한다. 우선, 부호화부(1)에 있어서, 선형 예측 파라미터 분석부(5)는 입력 음성(S1)을 분석하고, 음성 스펙트럼 정보인 선형 예측 파라미터를 추출한다. 선형 예측 파라미터 부호화부(6)는 그 선형 예측 파라미터를 부호화하고, 부호화한 선형 예측 파라미터를 합성 필터(7)의 계수로서 설정함과 동시에, 잡음도 평가부(24)로 출력한다. 다음에, 음원 정보의 부호화에 대해서 설명한다. 적응 부호장(8)에는 과거의 구동 음원 신호가 기억되어 있고, 거리 계산부(11)로부터 입력되는 적응 부호에 대응하여 과거의 구동 음원 신호를 주기적으로 되풀이한 시계열 벡터를 출력한다. 잡음도 평가부(24)는 상기 선형 예측 파라미터 부호화부(6)로부터 입력된 부호화한 선형 예측 파라미터와 적응 부호로부터 예를 들면 도 2에 도시하는 바와 같이 스펙트럼의 경사, 단기 예측 이득, 피치 변동으로부터 해당 부호화 구간의 잡음의 정도를 평가하고, 평가 결과를 구동 부호장 전환부(25)에 출력한다. 구동 부호장 전환부(25)는 상기 잡음도의 평가 결과에 따라서, 예를 들면 잡음도가 낮으면 제 1 구동 부호장(19)을, 잡음도가 높으면 제 2 구동 부호장(20)을 사용하는 것으로 하여 부호화에 사용되는 구동 부호장을 전환한다.
제 1 구동 부호장(19)에는 비잡음적인 복수의 시계열 벡터, 예를 들면 학습용 음성과 그 부호화 음성과의 왜곡이 작아지도록 학습하여 구성된 복수의 시계열 벡터가 기억되어 있다. 또한, 제 2 구동 부호장(20)에는 잡음적인 복수의 시계열 벡터, 예를 들면 랜덤 잡음으로부터 생성한 복수의 시계열 벡터가 기억되어 있고, 거리 계산부(11)로부터 입력되는 각각 구동 부호에 대응한 시계열 벡터를 출력한다. 적응 부호장(8), 제 1 구동 음원 부호장(19) 또는 제 2 구동 부호장(20)으로부터의 각 시계열 벡터는 게인 부호화부(10)로부터 주어지는 각각의 게인에 따라서 가중 가산부(38)에서 가중 가산되고, 그 가산 결과를 구동 음원 신호로서 합성 필터(7)로 공급되어 부호화 음성을 얻는다. 거리 계산부(11)는 부호화 음성과 입력 음성(S1)과의 거리를 구하고, 거리가 최소가 되는 적응 부호, 구동 부호, 게인을 탐색한다. 이상 부호화가 종료한 후, 선형 예측 파라미터의 부호, 입력 음성과 부호화 음성과의 왜곡을 최소로 하는 적응 부호, 구동 부호, 게인의 부호를 부호화 결과(S2)로서 출력한다. 이상이 실시예 1의 음성 부호화 방법에 특징적인 동작이다.
다음에 복호화부(2)에 대해 설명한다. 복호화부(2)에서는 선형 예측 파라미터 복호화부(12)는 선형 예측 파라미터의 부호로부터 선형 예측 파라미터를 복호화 하고, 합성 필터(13)의 계수로서 설정함과 동시에, 잡음도 평가부(26)로 출력한다. 다음에, 음원 정보의 복호화에 대해 설명한다. 적응 부호장(14)은 적응 부호에 대응하여, 과거의 구동 음원 신호를 주기적으로 되풀이한 시계열 벡터를 출력한다. 잡음도 평가부(26)는 상기 선형 예측 파라미터 복호화부(12)로부터 입력된 복호화 한 선형 예측 파라미터와 적응 부호로부터 부호화부(1)의 잡음도 평가부(24)와 같은 방법으로 잡음 정도를 평가하고, 평가 결과를 구동 부호장 전환부(27)에 출력한다. 구동 부호장 전환부(27)는 상기 잡음도의 평가 결과에 따라서, 부호화부(1)의 구동 부호장 전환부(25)와 동일하게 제 1 구동 부호장(22)과 제 2 구동 부호장(23)을 전환한다.
제 1 구동 부호장(22)에는 비잡음적인 복수의 시계열 벡터, 예를 들면, 학습용 음성과 그 부호화 음성과의 왜곡이 작아지도록 학습하여 구성된 복수의 시계열 벡터가, 제 2 구동 부호장(23)에는 잡음적인 복수의 시계열 벡터, 예를 들면 랜덤잡음으로부터 생성한 복수의 시계열 벡터가 기억되어 있고, 각각 구동 부호에 대응한 시계열 벡터를 출력한다. 적응 부호장(14)과 제 1 구동 부호장(22) 또는 제 2 구동 부호장(23)으로부터의 시계열 벡터는 게인 복호화부(16)에서 게인의 부호로부터 복호화한 각각의 게인에 따라서 가중 가산부(39)에서 가중 가산되고, 그 가산 결과를 구동 음원 신호로서 합성 필터(13)로 공급되어 출력 음성(S3)이 얻어진다. 이상이 실시예 1의 음성 복호화 방법에 특징적인 동작이다.
실시예 1에 의하면, 입력 음성의 잡음 정도를 부호 및 부호화 결과로부터 평가하고, 평가 결과에 따라서 다른 구동 부호장을 사용함으로써, 적은 정보량으로, 품질이 높은 음성을 재생할 수 있다.
또한, 상기 실시예에서는 구동 부호장(19, 20, 22, 23)에는 복수의 시계열 벡터가 기억되어 있는 경우를 설명하였지만, 적어도 1개의 시계열 벡터가 기억되어 있으면, 실시가능하다.
실시예 2
상술의 실시예 1에서는 2개의 구동 부호장을 전환하여 사용하고 있지만, 이것을 대신하여, 3개 이상의 구동 부호장을 구비하고, 잡음 정도에 따라서 전환하여 사용하여도 된다. 실시예 2에 의하면, 음성을 잡음/비잡음의 2가지만이 아니고, 약간 잡음적인 등의 중간적인 음성에 대하여도 또한 알맞은 구동 부호장을 사용할 수 있으므로, 품질이 높은 음성을 재생할 수 있다.
실시예 3
도 1과의 대응 부분에 동일 부호를 붙인 도 3은 본 발명의 음성 부호화 방법 및 음성 복호화 방법의 실시예 3의 전체 구성을 도시하고, 도면 중 참조번호 28, 30은 잡음적인 시계열 벡터를 격납한 구동 부호장, 29, 31은 시계열 벡터의 저진폭 샘플의 진폭치를 영으로 하는 샘플러이다.
이하, 동작을 설명한다. 우선, 부호화부(1)에 있어서, 선형 예측 파라미터 분석부(5)는 입력 음성(S1)을 분석하고, 음성의 스펙트럼 정보인 선형 예측 파라미터를 추출한다. 선형 예측 파라미터 부호화부(6)는 그 선형 예측 파라미터를 부호화하고, 부호화한 선형 예측 파라미터를 합성 필터(7)의 계수로서 설정함과 동시에, 잡음도 평가부(24)로 출력한다. 다음에, 음원 정보의 부호화에 대해서 설명한다. 적응 부호장(8)에는 과거의 구동 음원 신호가 기억되어 있고, 거리계산부(11)로부터 입력되는 적응 부호에 대응하여 과거의 구동 음원 신호를 주기적으로 되풀이한 시계열 벡터를 출력한다. 잡음도 평가부(24)는 상기 선형 예측 파라미터 부호화부(6)로부터 입력된 부호화한 선형 예측 파라미터와 적응 부호로부터, 예를 들면 스펙트럼의 경사, 단기 예측 이득, 피치 변동으로부터 해당 부호화 구간의 잡음 정도를 평가하고, 평가 결과를 샘플러(29)에 출력한다.
구동 부호장(28)에는 예를 들면 랜덤 잡음으로부터 생성한 복수의 시계열 벡터가 기억되어 있고, 거리계산부(11)로부터 입력되는 구동 부호에 대응한 시계열 벡터를 출력한다. 샘플러(29)는 상기 잡음도의 평가 결과에 따라서, 잡음도가 낮으면 상기 구동 부호장(28)으로부터 입력된 시계열 벡터에 대하여, 예를 들면 소정의 진폭치에 만족하지 않은 샘플의 진폭치를 영으로 한 시계열 벡터를 출력하고, 또한, 잡음도가 높으면 상기 구동 부호장(28)으로부터 입력된 시계열 벡터를 그대로 출력한다. 적응 부호장(8), 샘플러(29)로부터의 각 시계열 벡터는 게인 부호화부(10)로부터 주어지는 각각의 게인에 따라서 가중 가산부(38)에서 가중 가산되고, 그 가산 결과를 구동 음원 신호로서 합성 필터(7)로 공급되어 부호화 음성을 얻는다. 거리계산부(11)는 부호화 음성과 입력 음성(S1)과의 거리를 구하고, 거리가 최소가 되는 적응 부호, 구동 부호, 게인을 탐색한다. 이상 부호화가 종료한 후, 선형 예측 파라미터의 부호, 입력 음성과 부호화 음성의 왜곡을 최소로 하는 적응 부호, 구동 부호, 게인의 부호를 부호화 결과(S2)로서 출력한다. 이상이 실시예 3의 음성 부호화 방법에 특징적인 동작이다.
다음에 복호화부(2)에 대해 설명한다. 복호화부(2)에서는 선형 예측 파라미터 복호화부(12)는 선형 예측 파라미터의 부호로부터 선형 예측 파라미터를 복호화 하고, 합성 필터(13)의 계수로서 설정함과 동시에, 잡음도 평가부(26)로 출력한다. 다음에, 음원 정보의 복호화에 대해 설명한다. 적응 부호장(14)은 적응 부호에 대응하여, 과거의 구동 음원 신호를 주기적으로 되풀이한 시계열 벡터를 출력한다. 잡음도 평가부(26)는 상기 선형 예측 파라미터 복호화부(12)로부터 입력된 복호화 한 선형 예측 파라미터와 적응 부호로부터 부호화부(1)의 잡음도 평가부(24)와 동일한 방법으로 잡음의 정도를 평가하고, 평가 결과를 샘플러(31)에 출력한다.
구동 부호장(30)은 구동 부호에 대응한 시계열 벡터를 출력한다. 샘플러(31)는 상기 잡음도 평가 결과에 따라서, 상기 부호화부(1)의 샘플러(29)와 동일한 처리에 의해 시계열 벡터를 출력한다. 적응 부호장(14), 샘플러(31)로부터의 각 시계열 벡터는 게인 복호화부(16)로부터 주어지는 각각의 게인에 따라서 가중 가산부(39)에서 가중하여 가산되고, 그 가산 결과를 구동 음원 신호로서 합성 필터(13)로 공급되어 출력 음성(S3)이 얻어진다.
실시예 3에 의하면, 잡음적인 시계열 벡터를 격납하고 있는 구동 부호장을 구비하고, 음성의 잡음성 정도의 평가 결과에 따라서, 구동 음원의 신호 샘플을 샘플링함으로써 잡음성 정도가 낮은 구동 음원을 생성함으로써, 적은 정보량으로, 품질이 높은 음성을 재생할 수 있다. 또한, 복수의 구동 부호장을 구비할 필요가 없기 때문에, 구동 부호장의 기억용 메모리량을 적게 하는 효과도 있다.
실시예 4
상술의 실시예 3에서는 시계열 벡터의 샘플을 샘플링/샘플링하지 않음의 2가지로 하고 있지만, 이것을 대신하여, 잡음의 정도에 따라서 샘플을 샘플링할 때의 진폭임계치를 변경해도 된다. 실시예 4에 의하면, 음성을 잡음/비잡음의 2가지만이 아니라, 약간 잡음적인 등의 중간적인 음성에 대하여도 또한 알맞은 시계열 벡터를 생성하고, 사용할 수 있으므로, 품질이 높은 음성을 재생할 수 있다.
실시예 5
도 1과의 대응 부분에 동일 부호를 붙인 도 4는 본 발명의 음성 부호화 방법 및 음성 복호화 방법의 실시예 5의 전체 구성을 도시하고, 도면 중 참조번호 32, 35는 잡음적인 시계열 벡터를 기억하고 있는 제 1 구동 부호장, 33, 36은 비잡음적인 시계열 벡터를 기억하고 있는 제 2 구동 부호장, 34, 37은 무게 결정부이다.
이하, 동작을 설명한다. 우선, 부호화부(1)에 있어서, 선형 예측 파라미터 분석부(5)는 입력 음성(S1)을 분석하고, 음성의 스펙트럼 정보인 선형 예측 파라미터를 추출한다. 선형 예측 파라미터 부호화부(6)는 그 선형 예측 파라미터를 부호화하고, 부호화한 선형 예측 파라미터를 합성 필터(7)의 계수로서 설정함과 동시에, 잡음도 평가부(24)로 출력한다. 다음에, 음원 정보의 부호화에 대하여 설명한다. 적응 부호장(8)에는 과거의구동 음원 신호가 기억되어 있고, 거리계산부(11)로부터 입력되는 적응 부호에 대응하여 과거의 구동 음원 신호를 주기적으로 되풀이한 시계열 벡터를 출력한다. 잡음도 평가부(24)는 상기 선형 예측 파라미터 부호화부(6)로부터 입력된 부호화한 선형 예측 파라미터와 적응 부호로부터, 예를 들면 스펙트럼의 경사, 단기 예측 이득, 피치 변동으로부터 해당 부호화 구간의 잡음의 정도를 평가하여, 평가 결과를 무게 결정부(34)에 출력한다.
제 1 구동 부호장(32)에는 예를 들면 랜덤 잡음으로부터 생성한 복수의 잡음적인 시계열 벡터가 기억되어 있고, 구동 부호에 대응한 시계열 벡터를 출력한다. 제 2 구동 부호장(33)에는 예를 들면 학습용 음성과 그 부호화 음성과의 왜곡이 작게 되도록 학습하여 구성된 복수의 시계열 벡터가 기억되어 있고, 거리 계산부(11)로부터 입력되는 구동 부호에 대응한 시계열 벡터를 출력한다. 무게 결정부(34)는 상기 잡음도 평가부(24)로부터 입력된 잡음도의 평가 결과에 따라서, 예를 들면 도 5에 따라서, 제 1 구동 부호장(32)으로부터의 시계열 벡터와 제 2 구동 부호장(33)으로부터의 시계열 벡터에 주어지는 무게를 결정한다. 제 1 구동 부호장(32), 제 2 구동 부호장(33)으로부터의 각 시계열 벡터는 상기 무게 결정부(34)로부터 주어지는 무게에 따라서 가중하여 가산된다. 적응 부호장(8)으로부터 출력된 시계열 벡터와, 상기 가중 가산하여 생성된 시계열 벡터는 게인 부호화부(10)로부터 주어지는 각각의 게인에 따라서 가중 가산부(38)에서 가중하여 가산되고, 그 가산 결과를 구동 음원 신호로서 합성 필터(7)로 공급하여 부호화 음성을 얻는다. 거리 계산부(11)는 부호화 음성과 입력 음성(S1)과의 거리를 구하고, 거리가 최소가 되는 적응 부호, 구동 부호, 게인을 탐색한다. 이 부호화가 종료한 후, 선형 예측 파라미터의 부호, 입력 음성과 부호화 음성과의 왜곡을 최소로 하는 적응 부호, 구동 부호, 게인의 부호를 부호화 결과로서 출력한다.
다음에 복호화부(2)에 대해서 설명한다. 복호화부(2)에서는 선형 예측 파라미터 복호화부(12)는 선형 예측 파라미터의 부호로부터 선형 예측 파라미터를 복호화하고, 합성 필터(13)의 계수로서 설정함과 동시에, 잡음도 평가부(26)로 출력한다. 다음에, 음원 정보의 복호화 에 대해서 설명한다. 적응 부호장(14)은 적응 부호에 대응하여, 과거의 구동 음원 신호를 주기적으로 되풀이한 시계열 벡터를 출력한다. 잡음도 평가부(26)는 상기 선형 예측 파라미터 복호화부(12)로부터 입력된 복호화한 선형 예측 파라미터와 적응 부호로부터 부호화부(1)의 잡음도 평가부(24)와 동일한 방법으로 잡음의 정도를 평가하여, 평가 결과를 무게 결정부(37)에 출력한다.
제 1 구동 부호장(35) 및 제 2 구동 부호장(36)은 구동 부호에 대응한 시계열 벡터를 출력한다. 무게 결정부(37)는 상기 잡음도 평가부(26)로부터 입력된 잡음도 평가 결과에 따라서, 부호화부(1)의 무게 결정부(34)와 동일하게 무게를 부여하기로 한다. 제 1 구동 부호장(35), 제 2 구동 부호장(36)으로부터의 각 시계열 벡터는 상기 무게 결정부(37)로부터 주어지는 각각의 무게에 따라서 가중 가산된다. 적응 부호장(14)으로부터 출력된 시계열 벡터와, 상기 가중 가산하여 생성된 시계열 벡터는 게인 복호화부(16)에서 게인의 부호로부터 복호화한 각각의 게인에 따라서 가중 가산부(39)에서 가중 가산되고, 그 가산 결과가 구동 음원 신호로서 합성 필터(13)로 공급되어 출력 음성(S3)이 얻어진다.
실시예 5에 의하면, 음성의 잡음 정도를 부호 및 부호화 결과로부터 평가하고, 평가 결과에 따라서 잡음적인 시계열 벡터와 비잡음적인 시계열 벡터를 가중 가산하여 사용함으로써, 적은 정보량으로, 품질이 높은 음성을 재생할 수 있다. 실시예 6
상술의 실시예 1 내지 5에서 또한, 잡음 정도의 평가 결과에 따라서 게인의 부호장을 변경하여도 된다. 실시예 6에 의하면, 구동 부호장에 따라서 알맞은 게인의 부호장을 사용할 수 있으므로, 품질이 높은 음성을 재생할 수 있다.
실시예 7
상술의 실시예 1 내지 6에서는 음성의 잡음 정도를 평가하고, 그 평가 결과에 따라서 구동 부호장을 전환하고 있지만, 유성의 올라감이나 파열성의 자음 등을 각각 판정, 평가하고, 그 평가 결과에 따라서 구동 부호장을 전환하여도 된다. 이 실시예 7에 의하면, 음성의 잡음적인 상태 뿐만 아니라, 유성의 올라감이나 파열성자음 등 더욱, 미세하게 분류하여, 각각 알맞은 구동 부호장을 사용할 수 있으므로, 품질이 높은 음성을 재생할 수 있다.
실시예 8
상술의 실시예 1 내지 6에서는 도 2에 도시하는 스펙트럼 경사, 단기 예측이득, 피치 변동으로부터, 부호화 구간의 잡음의 정도를 평가하고 있지만, 적응 부호장 출력에 대한 게인치의 대소를 사용하여 평가하여도 된다.
본 발명에 따른 음성 부호화 방법 및 음성 복호화 방법 및 음성 부호화 장치 및 음성 복호화 장치에 의하면, 스펙트럼 정보, 파워 정보, 피치 정보 중 적어도 1개의 부호 또는 부호화 결과를 사용하여 해당 부호화 구간에 있어서의 음성의 잡음성 정도를 평가하고, 평가 결과에 따라서 다른 구동 부호장을 사용하기 때문에, 적은 정보량으로 품질이 높은 음성을 재생할 수 있다.
또한 본 발명에 의하면, 음성 부호화 방법 및 음성 복호화 방법에서, 격납하고 있는 구동 음원의 잡음성 정도가 다른 복수의 구동 부호장을 구비하고, 음성의 잡음성 정도의 평가 결과에 따라서, 복수의 구동 부호장을 전환하여 사용하므로, 적은 정보량으로 품질이 높은 음성을 재생할 수 있다.
또한 본 발명에 의하면, 음성 부호화 방법 및 음성 복호화 방법에서, 음성의 잡음성 정도의 평가 결과에 따라서, 구동 부호장에 격납하고 있는 시계열 벡터의 잡음성 정도를 변화시킨 것으로, 적은 정보량으로 품질이 높은 음성을 재생할 수 있다.
또한 본 발명에 의하면, 음성 부호화 방법 및 음성 복호화 방법에서, 잡음적인 시계열 벡터를 격납하고 있는 구동 부호장을 구비하고, 음성의 잡음성 정도의 평가 결과에 따라서, 시계열 벡터의 신호 샘플을 샘플링함으로써 잡음성 정도가 낮은 시계열 벡터를 생성하였으므로, 적은 정보량으로 품질이 높은 음성을 재생할 수 있다.
또한 본 발명에 의하면, 음성 부호화 방법 및 음성 복호화 방법에서, 잡음적인 시계열 벡터를 격납하고 있는 제 1 구동 부호장과, 비잡음적인 시계열 벡터를 격납하고 있는 제 2 구동 부호장을 구비하고, 음성의 잡음성 정도의 평가 결과에 따라서, 제 1 구동 부호장의 시계열 벡터와 제 2 구동 부호장의 시계열 벡터를 가중 가산한 시계열 벡터를 생성하였기 때문에, 적은 정보량으로 품질이 높은 음성을 재생할 수 있다.

Claims (14)

  1. 부호 구동 선형 예측(Code-Excited Linear Prediction: CELP) 음성 부호화 방법에 있어서,
    스펙트럼 정보, 파워 정보 및 피치 정보 중 1개 이상의 부호 또는 부호화 결과를 사용하여 해당 부호화 구간에 있어서의 음성의 잡음성 정도를 평가하는 단계 및,
    평가 결과에 따라서 복수의 구동 부호장 중 1개를 선택하는 단계를 포함하는 것을 특징으로 하는 음성 부호화 방법.
  2. 제 1 항에 있어서,
    격납하고 있는 시계열 벡터의 잡음성 정도가 다른 복수의 구동 부호장을 구비하는 단계 및,
    음성의 잡음성 정도의 평가 결과에 따라서, 상기 복수의 구동 부호장을 전환하여 사용하는 단계를 더 포함하는 것을 특징으로 하는 음성 부호화 방법.
  3. 제 1 항에 있어서,
    음성의 잡음성 정도의 평가 결과에 따라서, 구동 부호장에 격납하고 있는 시계열 벡터의 잡음성 정도를 변화시키는 단계를 더 포함하는 것을 특징으로 하는 음성 부호화 방법.
  4. 제 3 항에 있어서,
    잡음적인 시계열 벡터를 격납하고 있는 구동 부호장을 구비하는 단계 및,
    음성의 잡음성 정도의 평가 결과에 따라서, 상기 시계열 벡터의 신호 샘플을 샘플링함으로써 잡음성 정도가 낮은 시계열 벡터를 생성하는 단계를 더 포함하는 것을 특징으로 하는 음성 부호화 방법.
  5. 제 3 항에 있어서,
    잡음적인 시계열 벡터를 격납하고 있는 제 1 구동 부호장과, 비잡음적인 시계열 벡터를 격납하고 있는 제 2 구동 부호장을 구비하는 단계 및,
    음성의 잡음성 정도의 평가결과에 따라서, 상기 제 1 구동 부호장의 시계열 벡터와 상기 제 2 구동 부호장의 시계열 벡터를 가중 가산한 시계열 벡터를 생성하는 단계를 더 포함하는 것을 특징으로 하는 음성 부호화 방법.
  6. 부호 구동 선형 예측(CELP)음성 복호화 방법에 있어서,
    스펙트럼 정보, 파워 정보 및 피치 정보 중 1개 이상의 부호 또는 복호화 결과를 사용하여 해당 복호화 구간에 있어서의 음성의 잡음성 정도를 평가하는 단계 및,
    평가 결과에 따라서 복수의 구동 부호장 중 1개의 부호장을 선택하는 단계를 포함하는 것을 특징으로 하는 음성 복호화 방법.
  7. 제 6 항에 있어서,
    격납하고 있는 시계열 벡터의 잡음성 정도가 다른 복수의 구동 부호장을 구비하는 단계 및,
    음성의 잡음성 정도의 평가 결과에 따라서, 상기 복수의 구동 부호장을 전환하여 사용하는 단계를 더 포함하는 것을 특징으로 하는 음성 복호화 방법.
  8. 제 6 항에 있어서,
    음성의 잡음성 정도의 평가 결과에 따라서, 구동 부호장에 격납하고 있는 시계열 벡터의 잡음성 정도를 변화시키는 단계를 더 포함하는 것을 특징으로 하는 음성 복호화 방법.
  9. 제 8 항에 있어서,
    잡음적인 시계열 벡터를 격납하고 있는 구동 부호장을 구비하는 단계 및,
    음성의 잡음성 정도의 평가 결과에 따라서, 상기시계열 벡터의 신호 샘플을 샘플링함으로써 잡음성 정도가 낮은 시계열 벡터를 생성하는 단계를 더 포함하는 것을 특징으로 하는 음성 복호화 방법.
  10. 제 8 항에 있어서,
    잡음적인 시계열 벡터를 격납하고 있는 제 1 구동 부호장과, 비잡음적인 시계열 벡터를 격납하고 있는 제 2 구동 부호장을 구비하는 단계 및,
    음성의 잡음성 정도의 평가 결과에 따라서, 상기 제 1 구동 부호장의 시계열 벡터와 상기 제 2 구동 부호장의 시계열 벡터를 가중 가산한 시계열 벡터를 생성하는 단계를 더 포함하는 것을 특징으로 하는 음성 복호화 방법.
  11. 입력 음성의 스펙트럼 정보를 부호화하고, 부호화 결과의 1요소로서 출력하는 스펙트럼 정보 부호화부,
    상기 스펙트럼 정보 부호화부로부터의 부호화된 스펙트럼 정보로부터 얻어지는 스펙트럼 정보 및 파워 정보 중 1 개 이상의 부호 또는 부호화 결과를 사용하여 해당 부호화 구간에 있어서의 음성의 잡음성 정도를 평가하고, 평가 결과를 출력하는 잡음도 평가부,
    비잡음적인 복수의 시계열 벡터가 기억된 제 1 구동 부호장,
    잡음적인 복수의 시계열 벡터가 기억된 제 2 구동 부호장과, 상기 잡음도 평가부의 평가 결과에 의해, 제 1 구동 부호장과 제 2 구동 부호장을 전환하는 구동 부호장 전환부,
    상기 제 1 구동 부호장 또는 제 2 구동 부호장으로부터의 시계열 벡터를 각각의 시계열 벡터의 게인에 따라서 가중 가산하는 가중 가산부,
    상기 가중된 시계열 벡터를 구동 음원 신호로 하고, 이 구동 음원 신호와 상기 스펙트럼 정보 부호화부에서의 부호화된 스펙트럼 정보에 근거하여 부호화 음성을 얻는 합성 필터 및,
    상기 부호화 음성과 상기 입력 음성과의 거리를 구하고, 거리가 최소가 되는 구동 부호, 게인을 탐색하고, 그 결과를 구동 부호, 게인의 부호를 부호화 결과로서 출력하는 거리 계산부를 구비한 것을 특징으로 하는 음성 부호화 장치.
  12. 스펙트럼 정보의 부호로부터 스펙트럼 정보를 복호화하는 스펙트럼 정보 복호화부,
    상기 스펙트럼 정보 복호화부로부터의 복호화된 스펙트럼 정보로부터 얻어지는 스펙트럼 정보 및 파워 정보 중 1개 이상의 복호화 결과 또는 상기 스펙트럼 정보의 부호를 사용하여 해당 복호화 구간에 있어서의 음성의 잡음성 정도를 평가하여, 평가 결과를 출력하는 잡음도 평가부,
    비잡음적인 복수의 시계열 벡터가 기억된 제 1 구동 부호장,
    잡음적인 복수의 시계열 벡터가 기억된 제 2 구동 부호장과 상기 잡음도 평가부의 평가 결과에 의해, 제 1 구동 부호장과 제 2 구동 부호장을 전환하는 구동 부호장 전환부,
    상기 제 1 구동 부호장 또는 제 2 구동 부호장으로부터의 시계열 벡터를 각각의 시계열 벡터의 게인에 따라서 가중 가산하는 가중 가산부 및,
    상기 가중 시계열 벡터를 구동 음원 신호로 하고, 이 구동 음원 신호와 상기 스펙트럼 정보 복호화부로부터의 복호화 된 스펙트럼 정보에 의거하여 복호화 음성 을 얻는 합성 필터를 구비한 것을 특징으로 하는 음성 복호화 장치.
  13. 부호 구동 선형 예측(CELP)음성 부호화 장치에 있어서,
    스펙트럼 정보, 파워 정보 및 피치 정보중 1개 이상의 부호 또는 부호화 결과를 사용하여 해당 부호화 구간에 있어서의 음성의 잡음성 정도를 평가하는 잡음도 평가부 및,
    상기 잡음 평가부의 평가 결과에 따라서 복수의 구동 부호장을 전환하는 구동 부호 전환부를 구비한 것을 특징으로 하는 음성 부호화 장치.
  14. 부호 구동 선형 예측(CELP)음성 복호화 장치에 있어서,
    스펙트럼 정보, 파워 정보 및 피치 정보 중 1개 이상의 부호 또는 복호화 결과를 사용하여 해당 복호화 구간에 있어서의 음성의 잡음성 정도를 평가하는 잡음도 평가부 및,
    상기 잡음도 평가부의 평가 결과에 따라서 복수의 구동 부호장을 전환하는 구동 부호장 전환부를 구비한 것을 특징으로 하는 음성 복호화 장치.
KR10-2000-7007047A 1997-12-24 1998-12-07 음성 부호화 방법 및 음성 복호화 방법 및, 음성 부호화장치 및 음성 복호화 장치 KR100373614B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP97-354754 1997-12-24
JP35475497 1997-12-24

Publications (2)

Publication Number Publication Date
KR20010033539A true KR20010033539A (ko) 2001-04-25
KR100373614B1 KR100373614B1 (ko) 2003-02-26

Family

ID=18439687

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2000-7007047A KR100373614B1 (ko) 1997-12-24 1998-12-07 음성 부호화 방법 및 음성 복호화 방법 및, 음성 부호화장치 및 음성 복호화 장치

Country Status (11)

Country Link
US (18) US7092885B1 (ko)
EP (8) EP1052620B1 (ko)
JP (2) JP3346765B2 (ko)
KR (1) KR100373614B1 (ko)
CN (5) CN1737903A (ko)
AU (1) AU732401B2 (ko)
CA (4) CA2722196C (ko)
DE (3) DE69837822T2 (ko)
IL (1) IL136722A0 (ko)
NO (3) NO20003321L (ko)
WO (1) WO1999034354A1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101453200B1 (ko) * 2012-04-04 2014-10-22 모토로라 모빌리티 엘엘씨 정보 신호를 코딩하기 위한 후보 코드-벡터를 생성하는 방법 및 장치
US10304470B2 (en) 2013-10-18 2019-05-28 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for encoding an audio signal and decoding an audio signal using deterministic and noise like information
US10373625B2 (en) 2013-10-18 2019-08-06 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for encoding an audio signal and decoding an audio signal using speech related spectral shaping information

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1052620B1 (en) * 1997-12-24 2004-07-21 Mitsubishi Denki Kabushiki Kaisha Sound encoding method and sound decoding method, and sound encoding device and sound decoding device
DE60018696T2 (de) * 1999-07-01 2006-04-06 Koninklijke Philips Electronics N.V. Robuste sprachverarbeitung von verrauschten sprachmodellen
WO2001002929A2 (en) * 1999-07-02 2001-01-11 Tellabs Operations, Inc. Coded domain noise control
JP2001075600A (ja) * 1999-09-07 2001-03-23 Mitsubishi Electric Corp 音声符号化装置および音声復号化装置
JP4619549B2 (ja) * 2000-01-11 2011-01-26 パナソニック株式会社 マルチモード音声復号化装置及びマルチモード音声復号化方法
JP4510977B2 (ja) * 2000-02-10 2010-07-28 三菱電機株式会社 音声符号化方法および音声復号化方法とその装置
FR2813722B1 (fr) * 2000-09-05 2003-01-24 France Telecom Procede et dispositif de dissimulation d'erreurs et systeme de transmission comportant un tel dispositif
JP3404016B2 (ja) * 2000-12-26 2003-05-06 三菱電機株式会社 音声符号化装置及び音声符号化方法
JP3404024B2 (ja) 2001-02-27 2003-05-06 三菱電機株式会社 音声符号化方法および音声符号化装置
JP3566220B2 (ja) * 2001-03-09 2004-09-15 三菱電機株式会社 音声符号化装置、音声符号化方法、音声復号化装置及び音声復号化方法
KR100467326B1 (ko) * 2002-12-09 2005-01-24 학교법인연세대학교 추가 비트 할당 기법을 이용한 음성 부호화 및 복호화를위한 송수신기
US20040244310A1 (en) * 2003-03-28 2004-12-09 Blumberg Marvin R. Data center
WO2006121101A1 (ja) * 2005-05-13 2006-11-16 Matsushita Electric Industrial Co., Ltd. 音声符号化装置およびスペクトル変形方法
CN1924990B (zh) * 2005-09-01 2011-03-16 凌阳科技股份有限公司 Midi音讯的播放架构和方法与其应用的多媒体装置
US20090164211A1 (en) * 2006-05-10 2009-06-25 Panasonic Corporation Speech encoding apparatus and speech encoding method
US8712766B2 (en) * 2006-05-16 2014-04-29 Motorola Mobility Llc Method and system for coding an information signal using closed loop adaptive bit allocation
MY152845A (en) * 2006-10-24 2014-11-28 Voiceage Corp Method and device for coding transition frames in speech signals
EP2538406B1 (en) * 2006-11-10 2015-03-11 Panasonic Intellectual Property Corporation of America Method and apparatus for decoding parameters of a CELP encoded speech signal
JPWO2008072732A1 (ja) * 2006-12-14 2010-04-02 パナソニック株式会社 音声符号化装置および音声符号化方法
US8160872B2 (en) * 2007-04-05 2012-04-17 Texas Instruments Incorporated Method and apparatus for layered code-excited linear prediction speech utilizing linear prediction excitation corresponding to optimal gains
CN101971251B (zh) * 2008-03-14 2012-08-08 杜比实验室特许公司 像言语的信号和不像言语的信号的多模式编解码方法及装置
US9056697B2 (en) * 2008-12-15 2015-06-16 Exopack, Llc Multi-layered bags and methods of manufacturing the same
US8649456B2 (en) 2009-03-12 2014-02-11 Futurewei Technologies, Inc. System and method for channel information feedback in a wireless communications system
US8675627B2 (en) * 2009-03-23 2014-03-18 Futurewei Technologies, Inc. Adaptive precoding codebooks for wireless communications
US9208798B2 (en) 2012-04-09 2015-12-08 Board Of Regents, The University Of Texas System Dynamic control of voice codec data rate
PL2922053T3 (pl) 2012-11-15 2019-11-29 Ntt Docomo Inc Urządzenie do kodowania audio, sposób kodowania audio, program do kodowania audio, urządzenie do dekodowania audio, sposób dekodowania audio, i program do dekodowania audio
RU2662921C2 (ru) 2013-06-10 2018-07-31 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для кодирования, обработки и декодирования огибающей аудиосигнала путем моделирования представления совокупной суммы с использованием квантования и кодирования распределения
CN104934035B (zh) * 2014-03-21 2017-09-26 华为技术有限公司 语音频码流的解码方法及装置
CN110444217B (zh) 2014-05-01 2022-10-21 日本电信电话株式会社 解码装置、解码方法、记录介质
US9934790B2 (en) 2015-07-31 2018-04-03 Apple Inc. Encoded audio metadata-based equalization
JP6759927B2 (ja) * 2016-09-23 2020-09-23 富士通株式会社 発話評価装置、発話評価方法、および発話評価プログラム
WO2018084305A1 (ja) * 2016-11-07 2018-05-11 ヤマハ株式会社 音声合成方法
US10878831B2 (en) 2017-01-12 2020-12-29 Qualcomm Incorporated Characteristic-based speech codebook selection
JP6514262B2 (ja) * 2017-04-18 2019-05-15 ローランドディー.ジー.株式会社 インクジェットプリンタおよび印刷方法
CN112201270B (zh) * 2020-10-26 2023-05-23 平安科技(深圳)有限公司 语音噪声的处理方法、装置、计算机设备及存储介质
EP4053750A1 (en) * 2021-03-04 2022-09-07 Tata Consultancy Services Limited Method and system for time series data prediction based on seasonal lags

Family Cites Families (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0197294A (ja) 1987-10-06 1989-04-14 Piran Mirton 木材パルプ等の精製機
JPH0333900A (ja) * 1989-06-30 1991-02-14 Fujitsu Ltd 音声符号化方式
CA2019801C (en) 1989-06-28 1994-05-31 Tomohiko Taniguchi System for speech coding and an apparatus for the same
US5261027A (en) * 1989-06-28 1993-11-09 Fujitsu Limited Code excited linear prediction speech coding system
JP2940005B2 (ja) * 1989-07-20 1999-08-25 日本電気株式会社 音声符号化装置
CA2021514C (en) * 1989-09-01 1998-12-15 Yair Shoham Constrained-stochastic-excitation coding
US5754976A (en) * 1990-02-23 1998-05-19 Universite De Sherbrooke Algebraic codebook with signal-selected pulse amplitude/position combinations for fast coding of speech
JPH0451200A (ja) * 1990-06-18 1992-02-19 Fujitsu Ltd 音声符号化方式
US5293449A (en) * 1990-11-23 1994-03-08 Comsat Corporation Analysis-by-synthesis 2,4 kbps linear predictive speech codec
JP2776050B2 (ja) 1991-02-26 1998-07-16 日本電気株式会社 音声符号化方式
US5680508A (en) * 1991-05-03 1997-10-21 Itt Corporation Enhancement of speech coding in background noise for low-rate speech coder
US5396576A (en) * 1991-05-22 1995-03-07 Nippon Telegraph And Telephone Corporation Speech coding and decoding methods using adaptive and random code books
JPH05232994A (ja) 1992-02-25 1993-09-10 Oki Electric Ind Co Ltd 統計コードブック
JPH05265496A (ja) * 1992-03-18 1993-10-15 Hitachi Ltd 複数のコードブックを有する音声符号化方法
JP3297749B2 (ja) 1992-03-18 2002-07-02 ソニー株式会社 符号化方法
US5495555A (en) * 1992-06-01 1996-02-27 Hughes Aircraft Company High quality low bit rate celp-based speech codec
CA2107314C (en) * 1992-09-30 2001-04-17 Katsunori Takahashi Computer system
CA2108623A1 (en) * 1992-11-02 1994-05-03 Yi-Sheng Wang Adaptive pitch pulse enhancer and method for use in a codebook excited linear prediction (celp) search loop
JP2746033B2 (ja) * 1992-12-24 1998-04-28 日本電気株式会社 音声復号化装置
EP0654909A4 (en) * 1993-06-10 1997-09-10 Oki Electric Ind Co Ltd PREDICTIVE LINEAR ENCODER-ENCODER WITH CODES EXCITATION.
JP2624130B2 (ja) 1993-07-29 1997-06-25 日本電気株式会社 音声符号化方式
JPH0749700A (ja) 1993-08-09 1995-02-21 Fujitsu Ltd Celp型音声復号器
CA2154911C (en) * 1994-08-02 2001-01-02 Kazunori Ozawa Speech coding device
JPH0869298A (ja) 1994-08-29 1996-03-12 Olympus Optical Co Ltd 再生装置
JP3557662B2 (ja) * 1994-08-30 2004-08-25 ソニー株式会社 音声符号化方法及び音声復号化方法、並びに音声符号化装置及び音声復号化装置
JPH08102687A (ja) * 1994-09-29 1996-04-16 Yamaha Corp 音声送受信方式
JPH08110800A (ja) 1994-10-12 1996-04-30 Fujitsu Ltd A−b−S法による高能率音声符号化方式
JP3328080B2 (ja) * 1994-11-22 2002-09-24 沖電気工業株式会社 コード励振線形予測復号器
JPH08179796A (ja) * 1994-12-21 1996-07-12 Sony Corp 音声符号化方法
JP3292227B2 (ja) 1994-12-28 2002-06-17 日本電信電話株式会社 符号励振線形予測音声符号化方法及びその復号化方法
EP0723258B1 (en) * 1995-01-17 2000-07-05 Nec Corporation Speech encoder with features extracted from current and previous frames
KR0181028B1 (ko) * 1995-03-20 1999-05-01 배순훈 분류 디바이스를 갖는 개선된 비디오 신호 부호화 시스템
JPH08328598A (ja) * 1995-05-26 1996-12-13 Sanyo Electric Co Ltd 音声符号化・復号化装置
US5864797A (en) 1995-05-30 1999-01-26 Sanyo Electric Co., Ltd. Pitch-synchronous speech coding by applying multiple analysis to select and align a plurality of types of code vectors
JP3515216B2 (ja) * 1995-05-30 2004-04-05 三洋電機株式会社 音声符号化装置
JPH0922299A (ja) * 1995-07-07 1997-01-21 Kokusai Electric Co Ltd 音声符号化通信方式
US5819215A (en) * 1995-10-13 1998-10-06 Dobson; Kurt Method and apparatus for wavelet based data compression having adaptive bit rate control for compression of digital audio or other sensory data
JP3680380B2 (ja) * 1995-10-26 2005-08-10 ソニー株式会社 音声符号化方法及び装置
DE69516522T2 (de) 1995-11-09 2001-03-08 Nokia Mobile Phones Ltd., Salo Verfahren zur Synthetisierung eines Sprachsignalblocks in einem CELP-Kodierer
FI100840B (fi) * 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
JP4063911B2 (ja) 1996-02-21 2008-03-19 松下電器産業株式会社 音声符号化装置
GB2312360B (en) 1996-04-12 2001-01-24 Olympus Optical Co Voice signal coding apparatus
JPH09281997A (ja) * 1996-04-12 1997-10-31 Olympus Optical Co Ltd 音声符号化装置
JP3094908B2 (ja) 1996-04-17 2000-10-03 日本電気株式会社 音声符号化装置
KR100389895B1 (ko) * 1996-05-25 2003-11-28 삼성전자주식회사 음성 부호화 및 복호화방법 및 그 장치
JP3364825B2 (ja) 1996-05-29 2003-01-08 三菱電機株式会社 音声符号化装置および音声符号化復号化装置
JPH1020891A (ja) * 1996-07-09 1998-01-23 Sony Corp 音声符号化方法及び装置
JP3707154B2 (ja) * 1996-09-24 2005-10-19 ソニー株式会社 音声符号化方法及び装置
JP3174742B2 (ja) 1997-02-19 2001-06-11 松下電器産業株式会社 Celp型音声復号化装置及びcelp型音声復号化方法
DE69712535T2 (de) 1996-11-07 2002-08-29 Matsushita Electric Industrial Co., Ltd. Vorrichtung zur Erzeugung eines Vektorquantisierungs-Codebuchs
US5867289A (en) * 1996-12-24 1999-02-02 International Business Machines Corporation Fault detection for all-optical add-drop multiplexer
SE9700772D0 (sv) * 1997-03-03 1997-03-03 Ericsson Telefon Ab L M A high resolution post processing method for a speech decoder
US6167375A (en) * 1997-03-17 2000-12-26 Kabushiki Kaisha Toshiba Method for encoding and decoding a speech signal including background noise
US5893060A (en) 1997-04-07 1999-04-06 Universite De Sherbrooke Method and device for eradicating instability due to periodic signals in analysis-by-synthesis speech codecs
US6029125A (en) 1997-09-02 2000-02-22 Telefonaktiebolaget L M Ericsson, (Publ) Reducing sparseness in coded speech signals
US6058359A (en) * 1998-03-04 2000-05-02 Telefonaktiebolaget L M Ericsson Speech coding including soft adaptability feature
JPH11119800A (ja) 1997-10-20 1999-04-30 Fujitsu Ltd 音声符号化復号化方法及び音声符号化復号化装置
EP1052620B1 (en) * 1997-12-24 2004-07-21 Mitsubishi Denki Kabushiki Kaisha Sound encoding method and sound decoding method, and sound encoding device and sound decoding device
US6415252B1 (en) * 1998-05-28 2002-07-02 Motorola, Inc. Method and apparatus for coding and decoding speech
US6453289B1 (en) * 1998-07-24 2002-09-17 Hughes Electronics Corporation Method of noise reduction for speech codecs
US6104992A (en) * 1998-08-24 2000-08-15 Conexant Systems, Inc. Adaptive gain reduction to produce fixed codebook target signal
US6385573B1 (en) * 1998-08-24 2002-05-07 Conexant Systems, Inc. Adaptive tilt compensation for synthesized speech residual
ITMI20011454A1 (it) 2001-07-09 2003-01-09 Cadif Srl Procedimento impianto e nastro a base di bitume polimero per il riscaldamento superficiale ed ambiantale delle strutture e delle infrastrutt

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101453200B1 (ko) * 2012-04-04 2014-10-22 모토로라 모빌리티 엘엘씨 정보 신호를 코딩하기 위한 후보 코드-벡터를 생성하는 방법 및 장치
US10304470B2 (en) 2013-10-18 2019-05-28 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for encoding an audio signal and decoding an audio signal using deterministic and noise like information
US10373625B2 (en) 2013-10-18 2019-08-06 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for encoding an audio signal and decoding an audio signal using speech related spectral shaping information
US10607619B2 (en) 2013-10-18 2020-03-31 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for encoding an audio signal and decoding an audio signal using deterministic and noise like information
US10909997B2 (en) 2013-10-18 2021-02-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for encoding an audio signal and decoding an audio signal using speech related spectral shaping information
US11798570B2 (en) 2013-10-18 2023-10-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for encoding an audio signal and decoding an audio signal using deterministic and noise like information
US11881228B2 (en) 2013-10-18 2024-01-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E. V. Concept for encoding an audio signal and decoding an audio signal using speech related spectral shaping information

Also Published As

Publication number Publication date
EP1596368A2 (en) 2005-11-16
CN1790485A (zh) 2006-06-21
EP1596367A2 (en) 2005-11-16
JP4916521B2 (ja) 2012-04-11
US8352255B2 (en) 2013-01-08
CN1143268C (zh) 2004-03-24
EP2154679B1 (en) 2016-09-14
JP2009134303A (ja) 2009-06-18
AU1352699A (en) 1999-07-19
DE69825180T2 (de) 2005-08-11
DE69837822T2 (de) 2008-01-31
US20050171770A1 (en) 2005-08-04
US20110172995A1 (en) 2011-07-14
US20090094025A1 (en) 2009-04-09
US20080071524A1 (en) 2008-03-20
CA2722196A1 (en) 1999-07-08
NO20035109L (no) 2000-06-23
NO20003321D0 (no) 2000-06-23
EP2154681A2 (en) 2010-02-17
US20120150535A1 (en) 2012-06-14
CA2636684A1 (en) 1999-07-08
EP1596367A3 (en) 2006-02-15
NO20035109D0 (no) 2003-11-17
EP2154681A3 (en) 2011-12-21
IL136722A0 (en) 2001-06-14
CN100583242C (zh) 2010-01-20
US20080065385A1 (en) 2008-03-13
US8190428B2 (en) 2012-05-29
CA2636552A1 (en) 1999-07-08
US20130204615A1 (en) 2013-08-08
DE69825180D1 (de) 2004-08-26
US7363220B2 (en) 2008-04-22
US20080065375A1 (en) 2008-03-13
JP3346765B2 (ja) 2002-11-18
EP2154679A2 (en) 2010-02-17
EP1426925A1 (en) 2004-06-09
EP2154680A3 (en) 2011-12-21
CA2636684C (en) 2009-08-18
NO20040046L (no) 2000-06-23
US20130024198A1 (en) 2013-01-24
US20140180696A1 (en) 2014-06-26
US7383177B2 (en) 2008-06-03
US7092885B1 (en) 2006-08-15
US9852740B2 (en) 2017-12-26
EP1052620B1 (en) 2004-07-21
EP1426925B1 (en) 2006-08-02
EP2154679A3 (en) 2011-12-21
EP1596368B1 (en) 2007-05-23
US20160163325A1 (en) 2016-06-09
CN1658282A (zh) 2005-08-24
US20070118379A1 (en) 2007-05-24
CA2636552C (en) 2011-03-01
EP1596368A3 (en) 2006-03-15
US7742917B2 (en) 2010-06-22
NO20003321L (no) 2000-06-23
EP1052620A1 (en) 2000-11-15
CN1494055A (zh) 2004-05-05
KR100373614B1 (ko) 2003-02-26
DE69736446T2 (de) 2007-03-29
DE69736446D1 (de) 2006-09-14
CA2315699A1 (en) 1999-07-08
US20050256704A1 (en) 2005-11-17
EP1686563A2 (en) 2006-08-02
DE69837822D1 (de) 2007-07-05
NO323734B1 (no) 2007-07-02
EP1052620A4 (en) 2002-08-21
CA2722196C (en) 2014-10-21
EP2154680B1 (en) 2017-06-28
EP1686563A3 (en) 2007-02-07
CA2315699C (en) 2004-11-02
WO1999034354A1 (en) 1999-07-08
US7747432B2 (en) 2010-06-29
US20080065394A1 (en) 2008-03-13
US20080071526A1 (en) 2008-03-20
US8447593B2 (en) 2013-05-21
CN1737903A (zh) 2006-02-22
US7937267B2 (en) 2011-05-03
AU732401B2 (en) 2001-04-26
US20080071525A1 (en) 2008-03-20
US9263025B2 (en) 2016-02-16
US8688439B2 (en) 2014-04-01
US7747441B2 (en) 2010-06-29
CN1283298A (zh) 2001-02-07
US20080071527A1 (en) 2008-03-20
EP2154680A2 (en) 2010-02-17
US7747433B2 (en) 2010-06-29

Similar Documents

Publication Publication Date Title
KR100373614B1 (ko) 음성 부호화 방법 및 음성 복호화 방법 및, 음성 부호화장치 및 음성 복호화 장치
JP4800285B2 (ja) 音声復号化方法及び音声復号化装置
JP4170288B2 (ja) 音声符号化方法及び音声符号化装置
JP3736801B2 (ja) 音声復号化方法及び音声復号化装置
JP3563400B2 (ja) 音声復号化装置及び音声復号化方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130117

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20140120

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20150127

Year of fee payment: 13

FPAY Annual fee payment

Payment date: 20160125

Year of fee payment: 14

FPAY Annual fee payment

Payment date: 20180130

Year of fee payment: 16