KR20090060100A - 음성코덱의 품질향상장치 및 그 방법 - Google Patents
음성코덱의 품질향상장치 및 그 방법 Download PDFInfo
- Publication number
- KR20090060100A KR20090060100A KR20080008590A KR20080008590A KR20090060100A KR 20090060100 A KR20090060100 A KR 20090060100A KR 20080008590 A KR20080008590 A KR 20080008590A KR 20080008590 A KR20080008590 A KR 20080008590A KR 20090060100 A KR20090060100 A KR 20090060100A
- Authority
- KR
- South Korea
- Prior art keywords
- energy
- signal
- codec
- scaling
- decoded signal
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 230000002708 enhancing effect Effects 0.000 title abstract 3
- 238000013139 quantization Methods 0.000 abstract description 21
- 238000001228 spectrum Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/10—Digital recording or reproducing
- G11B20/10527—Audio or video recording; Data buffering arrangements
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G3/00—Gain control in amplifiers or frequency changers
- H03G3/20—Automatic control
- H03G3/30—Automatic control in amplifiers having semiconductor devices
- H03G3/34—Muting amplifier when no signal is present or when only weak signals are present, or caused by the presence of noise signals, e.g. squelch systems
- H03G3/341—Muting when no signals or only weak signals are present
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/10—Digital recording or reproducing
- G11B20/10527—Audio or video recording; Data buffering arrangements
- G11B2020/10537—Audio or video recording
- G11B2020/10546—Audio or video recording specifically adapted for audio data
- G11B2020/10555—Audio or video recording specifically adapted for audio data wherein the frequency, the amplitude, or other characteristics of the audio signal is taken into account
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
음성코덱의 품질향상장치 및 그 방법이 개시된다. 핵심 코덱을 통해 디코딩된 신호의 제1 에너지를 구하고 저대역 음질 향상모드를 통해 디코딩된 신호의 제2 에너지를 구한 후, 제1 에너지가 미리 설정된 제1 임계값보다 작거나, 제1 에너지가 제2 에너지에 미리 설정된 제2 임계값을 곱한 값보다 작은 경우에 디코딩된 신호의 크기를 스케일링함으로써 묵음 구간의 양자화 오차를 줄인다.
음성코덱, 묵음 구간, 저대역 향상 모드, 스케일링
Description
본 발명은 음성 코덱에 관한 것으로서, 보다 상세하게는 음성 코딩시 묵음 구간의 양자화 오차로 인한 품질 저하를 줄이기 위한 장치 및 그 방법에 관한 것이다.
음성신호를 압축하는 모듈을 인코더(encoder)라 하고, 재생하는 모듈을 디코더(decoder)라고 한다. 가장 기본적인 음성 코덱은 ITU-T G.711 코덱으로서 입력신호를 8 kHz로 샘플링한 후 8비트로 양자화한다. 이때 양자화 효율을 높이기 위하여 수학식 1과 같이 A-law 또는 수학식 2와 같이 u-law 형태의 로그 양자화기를 사용한다.
위와 같은 종래의 로그 양자화기는 입력 신호의 크기에 따라 양자화 간격이 다르다. 예를 들어, 크기가 작은 신호는 상대적으로 양자화 간격을 크게 하고, 발생 가능성이 높은 크기의 신호는 양자화 간격을 좁게 하여 양자화의 효율을 높인다.
일반적으로 양자화 잡음은 전 주파수 대역에 걸쳐 고르게 분포하는 것으로 알려져 있다. 그러나 사람의 청각적 특성에 의해 신호의 크기가 큰 구간에 있는 양자화 오차는 신호에 묻혀 잘 들리지 않게 되고 신호의 크기가 작은 구간에 있는 양자화 오차는 잡음으로 들리게 된다. 따라서 음성구간뿐만 아니라 묵음구간을 효과적으로 코딩하는 것이 코덱의 전체 성능에 중요한 영향을 미친다. 즉, 묵음구간에서의 양자화 오차로 인한 잡음이 전체 음질에 영향을 줄 수 있기 때문이다.
또한 코덱은 입력신호의 크기에 따라 성능이 다를 수 있다. 음성 코덱의 성능을 평가할 때는 주로 크기가 다른 -16, -26, -36dBoV의 신호에 대하여 성능을 평가한다. 즉 코덱이 입력 신호의 크기 변화에 따라 성능이 어떻게 변하는지를 평가한다.
G.711이나 G.722와 같은 코덱은 -36 dBoV의 입력신호에 대해 양자화 오차로 인한 잡음이 발생하는데 특히 묵음구간에서 발생하는 양자화 오차가 코덱의 전체 품질을 저하시키는 하나의 원인이 된다. 주관적 청취테스트 결과를 보면 -36 dBoV 신호에 대한 MOS(Mean Opinion Score) 점수가 -36 dBOv신호에 비해 높게 나오는 것을 관찰할 수 있다.
본 발명이 해결하고자 하는 기술적 과제는, 음성 코딩시 묵음 구간의 양자화 오차로 인한 잡음을 줄임으로써 사람의 귀에 묵음구간에서 잡음이 들리지 않게 하여 전체적인 청취 품질을 높일 수 있는 음성 코덱의 품질 향상 장치 및 그 방법을 제공하는 데 있다.
상기의 기술적 과제를 해결하기 위한, 본 발명에 따른 음성코덱의 품질 향상 장치의 일 실시예는, 핵심 코덱을 통해 디코딩된 신호의 제1 에너지를 구하는 제1 에너지 계산부; 및 상기 제1 에너지가 미리 설정된 제1 임계값보다 작은 경우, 상기 디코딩된 신호의 크기를 스케일링하는 스케일링부;를 포함한다.
상기의 기술적 과제를 달성하기 위한, 본 발명에 따른 음성코덱의 품질 향상 방법의 일 실시예는, 핵심 코덱을 통해 디코딩된 신호의 제1 에너지를 구하는 단계; 및 상기 제1 에너지가 미리 설정된 제1 임계값보다 작은 경우, 상기 디코딩된 신호의 크기를 스케일링하는 단계;를 포함한다.
본 발명에 따르면, 묵음 구간의 양자화 오차로 인해 발생하는 잡음을 줄여 음성 코덱의 품질을 향상시킬 수 있다. 특히, 코덱의 입력신호 중 신호의 크기가 작은 경우에 묵음 구간에서의 양자화 오차를 줄임으로써 청취 품질을 향상시킬 수 있다.
이하에서, 첨부된 도면들을 참조하여 본 발명에 따른 음성코덱의 품질 향상 장치 및 그 방법에 대해 상세히 설명한다.
도 1은 협대역 코덱 기반의 광대역 확장 코덱의 일 실시예를 도시한 도면이다.
도 1을 참조하면, 광대역 확장 코덱은 송신측(100)과 수신측(150)으로 구분되고, 송신측(100)은 저대역 필터(low-pass filter)(105), 고대역 필터(high-pass filter)(110), 핵심코덱(core codec)(115), 저대역 향상 모드(low-band enhancement)(120), 광대역 확장모드(wideband extension)(125) 및 먹스(MUX)(130)를 포함하고, 수신측(150)은 디먹스(DEMUX)(155), 핵심코덱(160), 저대역 향상 모드(165), 광대역 확장 모드(170), 저대역 필터(175) 및 고대역 필터(180)를 포함한다.
송신측(100)에 입력되는 광대역 입력신호는 저대역 필터(105) 및 고대역 필터(110)를 통해 각각 저대역 신호와 고대역 신호로 나누어지고, 저대역 신호는 협대역 핵심 코덱(115)과 저대역 향상 모드(120)를 통해 코딩하고, 고대역 신호는 광대역 확장 모드(125)를 통해 코딩된다. 협대역 코덱(115), 저대역 향상 모드(120) 및 광대역 확장 모드(125)를 통해 각각 코딩된 신호는 먹스(130)를 통해 비트스트림으로 출력된다.
여기서, 저대역 향상 모드(120)는 협대역 핵심코덱(115)에서 표현하지 못한 저대역 신호를 코딩함으로써 협대역 신호의 품질을 향상시키는 역할을 한다. 일반 적으로, 저대역 향상 모드(120)는 협대역 핵심코덱(115)에 따라 동작하는 알고리즘을 정하지만 대부분 시간영역에서 동작하는 알고리즘을 사용하고, 광대역 확장모드는 주파수 영역에서 동작하는 알고리즘을 사용한다.
수신측(150)의 디먹스(155)는 송신측(100)으로부터 출력된 비트스트림을 수신하여, 각각 협대역 코덱(160), 저대역 향상 모드(165) 및 광대역 확장 모드(170)로 출력한다. 저대역 향상 모드(165) 및 광대역 확장 모드(170)의 동작 여부는 수신된 비트스트림에 따라 결정된다.
수신측(150)은 광대역 확장모드(170)의 동작여부에 따라 광대역 신호를 출력할 수 있다. 출력신호의 대역폭에 관계없이 협대역 핵심코덱(160)은 기본적으로 동작한다. 만일 협대역 핵심코덱(160)만 동작한다면 기본적인 협대역 신호를 재생할 수 있다. 더 좋은 품질의 협대역 신호를 재생하기 위해서는 협대역 핵심코덱(160)과 더불어 저대역 향상 모드(165)도 함께 동작하여야 한다. 또한 광대역 신호를 출력하기 위해서는 협대역 핵심코덱(160) 및 광대역 확장 모드(170)가 동작하여야 한다. 즉, 수신측에서 광대역 출력신호를 재생하기 위해서는 협대역 핵심코덱(160)과 광대역 확장모드(170)의 출력신호를 더하여 출력한다. 물론 좀 더 우수한 품질의 광대역 신호를 재생하기 위해서는 협대역 핵심코덱(160)과 저대역 향상 모드(165)의 출력신호와 광대역 확장모드(170)의 출력 신호를 더하여 출력하면 된다.
ITU-T에서는 도 1에 도시된 구성과 유사한 G.711을 핵심 코덱으로 사용하는 광대역 확장 코덱에 대한 표준화를 진행하고 있다. 즉, ITU-T 권고안 G.711 코덱 기반의 광대역 확장 코덱은, 협대역 핵심 코덱(115,160)으로 G.711을 사용하며, 도 1에 도시된 구성으로 표현될 수 있다. 그러나, G.711 코덱은 -36dBoV 신호의 경우 양자화 오차로 인한 잡음이 발생한다.
도 2a 및 도 2b는 G.711 코덱을 이용하는 인코더의 입력신호와 디코더의 출력신호에 대한 스펙트럼을 도시한 도면이다. 도 2a는 음성신호에 대한 스펙트럼이고, 도 2b는 묵음신호에 대한 스펙트럼이다.
도 2a를 참조하면, 음성신호에 대해서 인코더의 입력신호(200)와 디코더의 출력신호(210)의 스펙트럼은 거의 일치한다. 그러나 도 2b를 참조하면, 묵음신호에 대해서 인코더의 입력신호(230))와 디코더의 출력신호(220)의 스펙트럼은 불일치함을 알 수 있다. 즉 음성구간의 경우 양자화 오차가 작은 반면 묵음 구간에서는 양자화 오차가 큼을 알 수 있다. 이러한 양자화 오차는 사람의 귀에 잡음으로 들린다.
도 3은 본 발명에 따른 음성코덱의 품질 향상 장치의 일 실시예의 구성을 도시한 도면이다.
도 3을 참조하면, 본 발명에 따른 음성코덱의 품질 향상 장치는 제1 에너지 계산부(300), 제2 에너지 계산부(310) 및 스케일링부(320)로 구성된다.
제1 에너지 계산부(300)는 핵심코덱을 통해 디코딩된 신호의 에너지(이하, 핵심 코덱의 에너지)를 구한다. 제1 에너지 계산부(300)는 프레임 단위로 핵심 코덱의 에너지를 구하며, 핵심코덱으로 G.711을 사용하는 경우 프레임의 크기는 G.711 코덱이 사용되는 환경에 따라 달라질 수 있다. 즉, 제1 에너지 계산부(300)는 각 샘플에 대한 에너지를 모두 합산하여 한 프레임의 에너지를 구한다.
제2 에너지 계산부(310)는 저대역 향상 모드가 동작하는 경우, 저대역 향상 모드를 통해 디코딩된 신호의 에너지(이하, 향상모드의 에너지)를 구한다.
스케일링부(320)는 핵심 코덱의 에너지가 소정의 임계값(Thr1)보다 작은 경우 핵심코덱을 통해 디코딩된 신호의 크기를 스케일링한다. 또한, 스케일링부(320)는 핵심코덱의 에너지가 향상모드의 에너지에 소정의 임계값(Thr2)을 곱한 값보다 작은 경우 핵심 코덱을 통해 디코딩된 신호의 크기를 스케일링한다. 스케일링부(320)는 1보다 작은 상수(a)만큼 디코딩된 신호의 크기를 스케일링하는 것이 바람직하다. 또 다른 예로서, 스케일링부(320)는 현 프레임의 에너지(핵심 코덱의 에너지 또는 향상모드의 에너지)에 이전 프레임의 에너지(핵심 코덱의 에너지 또는 향상모드의 에너지)를 더한 값에 비례하는 1 보다 작은 이득(gain)을 디코딩된 신호에 곱하여 스케일링함으로써, 스케일링에 따른 갑작스런 변화를 방지할 수 있다. 이 경우에 스케일링부(320)는 이전 스케일링 크기를 고려하여 스케일링 크기를 구할 수 있다. 즉, 스케일링부(320)는 현 프레임의 에너지와 이전 프레임의 에너지에 기초하여 구한 이득의 일정 비율과 이전 스케일링 크기의 일정 비율을 더함으로써 스케일링 크기를 구할 수 있다. 스케일링은 샘플 단위로 수행할 수 있음은 물론이다.
스케일링부(320)는 디코딩된 신호의 에너지 대부분이 고대역에 존재하는 경우 스케일링 수행을 하지 않을 수 있다. 예를 들어, 광대역 확장 모드를 통해 디코딩된 신호의 에너지가 핵심 코덱의 에너지 또는 향상 모드의 에너지보다 미리 설정된 일정 크기 이상으로 더 큰 경우 스케일링부(320)는 스케일링을 수행하지 않는 다.
스케일링을 위해 사용되는 임계값들(Thr1, Thr2) 및 스케일링 크기(a) 등은 실험에 의해 구해질 수 있으며, 이러한 값들은 본 발명의 실시예에 따라 다양하게 변경되어 사용될 수 있음은 물론이다.
도 4는 본 발명에 따른 음성코덱의 품질 향상 방법의 일 실시예의 흐름을 도시한 도면이다.
도 4를 참조하면, 본 발명에 따른 음성코덱의 품질 향상 장치(이하, 장치)는 핵심코덱을 통해 디코딩된 신호의 에너지(이하, 핵심코덱의 에너지)를 프레임 단위로 계산한다(S400). 프레임 크기는 코덱의 종류 및 코덱이 적용되는 환경에 따라 다양하게 결정될 수 있다. 도 1에 도시된 바와 같이 협대역 음성 코덱을 이용한 광대역 확장 코덱에 본 발명을 적용하는 경우 저대역 향상 모드가 존재할 수 있다. 따라서 장치는 저대역 향상 모드가 동작 중인지를 확인한다(S410).
저대역 향상 모드가 동작 중인 경우(S410), 장치는 저대역 향상모드를 통해 디코딩된 신호의 에너지(이하, 향상모드의 에너지)를 계산한다(S430). 그리고 장치는 핵심코덱의 에너지가 향상모드의 에너지에 소정의 임계값(Thr1)을 곱한 값보다 작거나 핵심코덱의 에너지가 소정의 임계값(Thr2)보다 작은 경우(S440), 핵심코덱을 통해 디코딩된 신호의 크기를 a(1보다 작은 상수)만큼 스케일링한다(S450).
저대역 향상 모두가 동작 중이 아니면(S410), 장치는 핵샘코덱의 에너지가 소정의 임계값(Thr2)보다 작은 경우에(S420) 디코딩된 신호를 스케일링한다(S450). 스케일링은 현 프레임의 에너지(핵심 코덱의 에너지 또는 향상모드의 에너지)에 이 전 프레임의 에너지(핵심 코덱의 에너지 또는 향상모드의 에너지)를 더한 값에 비례하는 1 보다 작은 이득(gain)을 디코딩된 신호에 곱하여 수행함으로써, 스케일링에 따른 갑작스런 변화를 방지할 수 있다. 이 경우에 현 프레임의 에너지와 이전 프레임의 에너지에 기초하여 구한 이득의 일정 비율과 이전 스케일링 크기의 일정 비율을 더함으로써 스케일링 크기를 구할 수 있다.
임계값들(Thr1, Thr2) 및 스케일링 크기 등은 앞서 설명한 바와 같이 실험에 의해 미리 구해진 값들이다.
도 5a 및 도 5b는 본 발명에 따른 음성코덱의 품질 향상 방법의 적용 유무에 따른, G.711 코덱을 이용하는 디코더의 출력신호에 대한 스펙트럼을 도시한 도면이다. 도 5a는 음성신호에 대한 스펙트럼이고, 도 5b는 묵음신호에 대한 스펙트럼이다.
도 5a를 참조하면, 음성신호에 대하여 본 발명에 따른 음성 코덱의 품질 향상 방법이 적용되기 전의 디코더 출력신호(500)와 본 발명에 따른 방법이 적용된 경우의 디코더 출력신호(510)의 스펙트럼은 일치한다.
도 5b를 참조하면, 묵음신호에 대하여 본 발명에 따른 음성 코덱의 품질 향상 방법이 적용되기 전의 디코더 출력신호(520)보다 본 발명에 따른 방법이 적용된 경우의 디코더 출력신호(530)의 크기가 작아짐을 알 수 있다. 즉, 묵음구간에서 디코더의 출력 신호레벨이 낮아져 양자화 오차가 줄어듦을 알 수 있다.
본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스 템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)에 의한 표시의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
도 1은 협대역 코덱 기반의 광대역 확장 코덱의 일 실시예를 도시한 도면,
도 2a 및 도 2b는 G.711 코덱을 이용하는 인코더의 입력신호와 디코더의 출력신호에 대한 스펙트럼을 도시한 도면,
도 3은 본 발명에 따른 음성코덱의 품질 향상 장치의 일 실시예의 구성을 도시한 도면,
도 4는 본 발명에 따른 음성코덱의 품질 향상 방법의 일 실시예의 흐름을 도시한 도면, 그리고,
도 5a 및 도 5b는 본 발명에 따른 음성코덱의 품질 향상 방법의 적용 유무에 따른, G.711 코덱을 이용하는 디코더의 출력신호에 대한 스펙트럼을 도시한 도면이다.
Claims (12)
- 핵심 코덱을 통해 디코딩된 신호의 제1 에너지를 구하는 제1 에너지 계산부; 및상기 제1 에너지가 미리 설정된 제1 임계값보다 작은 경우, 상기 디코딩된 신호의 크기를 스케일링하는 스케일링부;를 포함하는 것을 특징으로 하는 음성코덱의 품질 향상 장치.
- 제 1항에 있어서,저대역 음질 향상모드를 통해 디코딩된 신호의 제2 에너지를 구하는 제2 에너지 계산부;를 더 포함하고,상기 스케일링부는 상기 제1 에너지가 상기 제2 에너지에 미리 설정된 제2 임계값을 곱한 값보다 작은 경우 상기 핵심코덱을 통해 디코딩된 신호의 크기를 스케일링하는 것을 특징으로 하는 음성코덱의 품질 향상 장치.
- 제 1항에 있어서,상기 제1 에너지 계산부는 프레임 단위로 상기 제1 에너지를 계산하는 것을 특징으로 하는 음성코덱의 품질 향상 장치.
- 제 1항에 있어서,상기 스케일링부는 상기 디코딩된 신호를 1보다 작은 상수로 스케일링하는 것을 특징으로 하는 음성코덱의 품질 향상 장치.
- 제 1항에 있어서,상기 스케일링부는 상기 핵심 코덱을 통해 디코딩된 신호의 이전 프레임의 에너지와 현 프레임의 에너지 합에 비례하는 1보다 작은 이득을 상기 현 프레임의 신호에 곱하는 것을 특징으로 하는 음성코덱의 품질 향상 장치.
- 핵심 코덱을 통해 디코딩된 신호의 제1 에너지를 구하는 단계; 및상기 제1 에너지가 미리 설정된 제1 임계값보다 작은 경우, 상기 디코딩된 신호의 크기를 스케일링하는 단계;를 포함하는 것을 특징으로 하는 음성코덱의 품질 향상 방법.
- 제 6항에 있어서,저대역 음질 향상모드를 통해 디코딩된 신호의 제2 에너지를 구하는 단계; 및상기 제1 에너지가 상기 제2 에너지에 미리 설정된 제2 임계값을 곱한 값보다 작은 경우 상기 핵심코덱을 통해 디코딩된 신호의 크기를 스케일링하는 단계;를 더 포함하는 것을 특징으로 하는 음성코덱의 품질 향상 방법.
- 제 6항에 있어서,상기 제1 에너지는 프레임 단위로 계산되는 것을 특징으로 하는 음성코덱의 품질 향상 방법.
- 제 6항에 있어서,상기 스케일링하는 단계는 상기 디코딩된 신호를 1보다 작은 상수로 스케일링하는 단계;를 포함하는 것을 특징으로 하는 음성코덱의 품질 향상 방법.
- 제 6항에 있어서,상기 스케일링하는 단계는 상기 핵심 코덱을 통해 디코딩된 신호의 이전 프레임의 에너지와 현 프레임의 에너지 합에 비례하는 1보다 작은 이득을 상기 현 프레임의 신호에 곱하는 단계;를 포함하는 것을 특징으로 하는 음성코덱의 품질 향상 방법.
- 핵심 코덱을 통해 디코딩된 신호의 제1 에너지를 구하는 단계; 및상기 제1 에너지가 미리 설정된 제1 임계값보다 작은 경우, 상기 디코딩된 신호의 크기를 스케일링하는 단계;를 실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
- 제 11항에 있어서,저대역 음질 향상모드를 통해 디코딩된 신호의 제2 에너지를 구하는 단계; 및상기 제1 에너지가 상기 제2 에너지에 미리 설정된 제2 임계값을 곱한 값보다 작은 경우 상기 핵심코덱을 통해 디코딩된 신호의 크기를 스케일링하는 단계;를 실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
Priority Applications (11)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/KR2008/007024 WO2009072777A1 (en) | 2007-12-06 | 2008-11-28 | Apparatus and method of enhancing quality of speech codec |
EP20120185900 EP2560163A1 (en) | 2007-12-06 | 2008-11-28 | Apparatus and method of enhancing quality of speech codec |
CN2008800089840A CN101636785B (zh) | 2007-12-06 | 2008-11-28 | 用于增强语音编解码器的质量的设备和方法 |
US12/529,239 US9135925B2 (en) | 2007-12-06 | 2008-11-28 | Apparatus and method of enhancing quality of speech codec |
JP2010536838A JP5323084B2 (ja) | 2007-12-06 | 2008-11-28 | 音声コーデックの品質向上装置およびその方法 |
EP20120185897 EP2560162A1 (en) | 2007-12-06 | 2008-11-28 | Apparatus and method of enhancing quality of speech codec |
EP08856990A EP2229675A4 (en) | 2007-12-06 | 2008-11-28 | DEVICE AND METHOD FOR INCREASING THE QUALITY OF A LANGUAGE CODE |
US13/613,792 US9142222B2 (en) | 2007-12-06 | 2012-09-13 | Apparatus and method of enhancing quality of speech codec |
US13/613,742 US9135926B2 (en) | 2007-12-06 | 2012-09-13 | Apparatus and method of enhancing quality of speech codec |
JP2012278582A JP5395250B2 (ja) | 2007-12-06 | 2012-12-20 | 音声コーデックの品質向上装置およびその方法 |
JP2012278581A JP5390690B2 (ja) | 2007-12-06 | 2012-12-20 | 音声コーデックの品質向上装置およびその方法 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020070126371 | 2007-12-06 | ||
KR20070126371 | 2007-12-06 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020110045248A Division KR101235829B1 (ko) | 2007-12-06 | 2011-05-13 | 음성코덱의 품질향상장치 및 그 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20090060100A true KR20090060100A (ko) | 2009-06-11 |
KR101235830B1 KR101235830B1 (ko) | 2013-02-21 |
Family
ID=40990094
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR20080008590A KR101235830B1 (ko) | 2007-12-06 | 2008-01-28 | 음성코덱의 품질향상장치 및 그 방법 |
KR1020110045248A KR101235829B1 (ko) | 2007-12-06 | 2011-05-13 | 음성코덱의 품질향상장치 및 그 방법 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020110045248A KR101235829B1 (ko) | 2007-12-06 | 2011-05-13 | 음성코덱의 품질향상장치 및 그 방법 |
Country Status (6)
Country | Link |
---|---|
US (3) | US9135925B2 (ko) |
EP (3) | EP2229675A4 (ko) |
JP (3) | JP5323084B2 (ko) |
KR (2) | KR101235830B1 (ko) |
CN (1) | CN101636785B (ko) |
WO (1) | WO2009072777A1 (ko) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5812998B2 (ja) * | 2009-11-19 | 2015-11-17 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | オーディオコーデックにおけるラウドネスおよびシャープネスの補償のための方法および装置 |
KR20120034863A (ko) * | 2010-10-04 | 2012-04-13 | 삼성전자주식회사 | 이동통신 단말기에서 오디오 신호 처리 방법 및 장치 |
JP6098149B2 (ja) * | 2012-12-12 | 2017-03-22 | 富士通株式会社 | 音声処理装置、音声処理方法および音声処理プログラム |
CN108364657B (zh) | 2013-07-16 | 2020-10-30 | 超清编解码有限公司 | 处理丢失帧的方法和解码器 |
CN106683681B (zh) * | 2014-06-25 | 2020-09-25 | 华为技术有限公司 | 处理丢失帧的方法和装置 |
CN107896356B (zh) * | 2017-10-27 | 2020-03-03 | 广州小鹏汽车科技有限公司 | 一种fm控制系统的音频控制方法及系统 |
US20200083501A1 (en) * | 2018-09-10 | 2020-03-12 | Apple Inc. | Plug connector having a low profile and resilient flange |
Family Cites Families (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5473366A (en) * | 1992-11-17 | 1995-12-05 | Canon Kabushiki Kaisha | Television-telephone apparatus having a message-keeping function and an automatic response transmission function |
JP2739811B2 (ja) | 1993-11-29 | 1998-04-15 | 日本電気株式会社 | 雑音抑圧方式 |
JPH07193548A (ja) | 1993-12-25 | 1995-07-28 | Sony Corp | 雑音低減処理方法 |
JP3322479B2 (ja) * | 1994-05-13 | 2002-09-09 | アルパイン株式会社 | オーディオ装置 |
JP3437264B2 (ja) * | 1994-07-07 | 2003-08-18 | パナソニック モバイルコミュニケーションズ株式会社 | 雑音抑圧装置 |
JPH0846517A (ja) | 1994-07-28 | 1996-02-16 | Sony Corp | 高能率符号化及び復号化システム |
WO1999030315A1 (fr) * | 1997-12-08 | 1999-06-17 | Mitsubishi Denki Kabushiki Kaisha | Procede et dispositif de traitement du signal sonore |
JP4230414B2 (ja) | 1997-12-08 | 2009-02-25 | 三菱電機株式会社 | 音信号加工方法及び音信号加工装置 |
JP3344962B2 (ja) * | 1998-03-11 | 2002-11-18 | 松下電器産業株式会社 | オーディオ信号符号化装置、及びオーディオ信号復号化装置 |
KR100304092B1 (ko) * | 1998-03-11 | 2001-09-26 | 마츠시타 덴끼 산교 가부시키가이샤 | 오디오 신호 부호화 장치, 오디오 신호 복호화 장치 및 오디오 신호 부호화/복호화 장치 |
WO2000007178A1 (en) | 1998-07-31 | 2000-02-10 | Conexant Systems, Inc. | Method and apparatus for noise elimination through transformation of the output of the speech decoder |
WO2001030049A1 (fr) | 1999-10-19 | 2001-04-26 | Fujitsu Limited | Unite de traitement et de reproduction de son vocaux reçus |
US6725190B1 (en) * | 1999-11-02 | 2004-04-20 | International Business Machines Corporation | Method and system for speech reconstruction from speech recognition features, pitch and voicing with resampled basis functions providing reconstruction of the spectral envelope |
JP3594854B2 (ja) * | 1999-11-08 | 2004-12-02 | 三菱電機株式会社 | 音声符号化装置及び音声復号化装置 |
US6510409B1 (en) * | 2000-01-18 | 2003-01-21 | Conexant Systems, Inc. | Intelligent discontinuous transmission and comfort noise generation scheme for pulse code modulation speech coders |
US6757654B1 (en) * | 2000-05-11 | 2004-06-29 | Telefonaktiebolaget Lm Ericsson | Forward error correction in speech coding |
US6691085B1 (en) | 2000-10-18 | 2004-02-10 | Nokia Mobile Phones Ltd. | Method and system for estimating artificial high band signal in speech codec using voice activity information |
SE0004187D0 (sv) * | 2000-11-15 | 2000-11-15 | Coding Technologies Sweden Ab | Enhancing the performance of coding systems that use high frequency reconstruction methods |
US20040002856A1 (en) * | 2002-03-08 | 2004-01-01 | Udaya Bhaskar | Multi-rate frequency domain interpolative speech CODEC system |
DE60214599T2 (de) * | 2002-03-12 | 2007-09-13 | Nokia Corp. | Skalierbare audiokodierung |
US7519530B2 (en) * | 2003-01-09 | 2009-04-14 | Nokia Corporation | Audio signal processing |
JP4365610B2 (ja) | 2003-03-31 | 2009-11-18 | パナソニック株式会社 | 音声復号化装置および音声復号化方法 |
KR100506224B1 (ko) | 2003-05-07 | 2005-08-05 | 삼성전자주식회사 | 이동 통신 단말기에서 노이즈 제어장치 및 방법 |
US20050004793A1 (en) * | 2003-07-03 | 2005-01-06 | Pasi Ojala | Signal adaptation for higher band coding in a codec utilizing band split coding |
US7613606B2 (en) * | 2003-10-02 | 2009-11-03 | Nokia Corporation | Speech codecs |
KR100773539B1 (ko) * | 2004-07-14 | 2007-11-05 | 삼성전자주식회사 | 멀티채널 오디오 데이터 부호화/복호화 방법 및 장치 |
KR100647290B1 (ko) | 2004-09-22 | 2006-11-23 | 삼성전자주식회사 | 합성된 음성의 특성을 이용하여 양자화/역양자화를선택하는 음성 부호화/복호화 장치 및 그 방법 |
US7752039B2 (en) * | 2004-11-03 | 2010-07-06 | Nokia Corporation | Method and device for low bit rate speech coding |
KR100668319B1 (ko) * | 2004-12-07 | 2007-01-12 | 삼성전자주식회사 | 오디오 신호의 변환방법 및 장치와 오디오 신호에적응적인 부호화방법 및 장치, 오디오 신호의 역변환 방법및 장치와 오디오 신호에 적응적인 복호화 방법 및 장치 |
US20060224381A1 (en) * | 2005-04-04 | 2006-10-05 | Nokia Corporation | Detecting speech frames belonging to a low energy sequence |
US7983922B2 (en) * | 2005-04-15 | 2011-07-19 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing |
US7539612B2 (en) * | 2005-07-15 | 2009-05-26 | Microsoft Corporation | Coding and decoding scale factor information |
US8055783B2 (en) * | 2005-08-22 | 2011-11-08 | Utc Fire & Security Americas Corporation, Inc. | Systems and methods for media stream processing |
KR100728289B1 (ko) * | 2005-11-02 | 2007-06-13 | 삼성전자주식회사 | 광대역 무선 접속 시스템의 대역폭 처리 방법 및 그 장치 |
US7366658B2 (en) * | 2005-12-09 | 2008-04-29 | Texas Instruments Incorporated | Noise pre-processor for enhanced variable rate speech codec |
US8255207B2 (en) * | 2005-12-28 | 2012-08-28 | Voiceage Corporation | Method and device for efficient frame erasure concealment in speech codecs |
US7835904B2 (en) * | 2006-03-03 | 2010-11-16 | Microsoft Corp. | Perceptual, scalable audio compression |
US7454335B2 (en) * | 2006-03-20 | 2008-11-18 | Mindspeed Technologies, Inc. | Method and system for reducing effects of noise producing artifacts in a voice codec |
US8725499B2 (en) * | 2006-07-31 | 2014-05-13 | Qualcomm Incorporated | Systems, methods, and apparatus for signal change detection |
US7757103B2 (en) * | 2006-12-20 | 2010-07-13 | Intel Corporation | Method and apparatus to estimate energy consumed by central processing unit core |
US8553757B2 (en) * | 2007-02-14 | 2013-10-08 | Microsoft Corporation | Forward error correction for media transmission |
US8386266B2 (en) * | 2010-07-01 | 2013-02-26 | Polycom, Inc. | Full-band scalable audio codec |
-
2008
- 2008-01-28 KR KR20080008590A patent/KR101235830B1/ko active IP Right Grant
- 2008-11-28 EP EP08856990A patent/EP2229675A4/en not_active Ceased
- 2008-11-28 US US12/529,239 patent/US9135925B2/en active Active
- 2008-11-28 WO PCT/KR2008/007024 patent/WO2009072777A1/en active Application Filing
- 2008-11-28 EP EP20120185897 patent/EP2560162A1/en not_active Ceased
- 2008-11-28 CN CN2008800089840A patent/CN101636785B/zh active Active
- 2008-11-28 JP JP2010536838A patent/JP5323084B2/ja active Active
- 2008-11-28 EP EP20120185900 patent/EP2560163A1/en not_active Ceased
-
2011
- 2011-05-13 KR KR1020110045248A patent/KR101235829B1/ko active IP Right Grant
-
2012
- 2012-09-13 US US13/613,792 patent/US9142222B2/en active Active
- 2012-09-13 US US13/613,742 patent/US9135926B2/en active Active
- 2012-12-20 JP JP2012278581A patent/JP5390690B2/ja active Active
- 2012-12-20 JP JP2012278582A patent/JP5395250B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
EP2560163A1 (en) | 2013-02-20 |
KR101235830B1 (ko) | 2013-02-21 |
US9142222B2 (en) | 2015-09-22 |
US9135925B2 (en) | 2015-09-15 |
CN101636785A (zh) | 2010-01-27 |
US9135926B2 (en) | 2015-09-15 |
US20130073282A1 (en) | 2013-03-21 |
EP2229675A4 (en) | 2012-03-07 |
JP2013084002A (ja) | 2013-05-09 |
JP5390690B2 (ja) | 2014-01-15 |
KR20110068961A (ko) | 2011-06-22 |
JP2011508897A (ja) | 2011-03-17 |
KR101235829B1 (ko) | 2013-02-21 |
US20130066627A1 (en) | 2013-03-14 |
JP2013101366A (ja) | 2013-05-23 |
JP5395250B2 (ja) | 2014-01-22 |
EP2560162A1 (en) | 2013-02-20 |
JP5323084B2 (ja) | 2013-10-23 |
WO2009072777A1 (en) | 2009-06-11 |
CN101636785B (zh) | 2012-02-08 |
EP2229675A1 (en) | 2010-09-22 |
US20100057449A1 (en) | 2010-03-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6592148B2 (ja) | 高周波数の再構成方法を使用するコーディング・システムの性能拡大方法 | |
US9870781B2 (en) | Device and method for reducing quantization noise in a time-domain decoder | |
KR101235829B1 (ko) | 음성코덱의 품질향상장치 및 그 방법 | |
JP2007534020A (ja) | 信号符号化 | |
KR20010021226A (ko) | 디지털 음향 신호 부호화 장치, 디지털 음향 신호 부호화방법 및 디지털 음향 신호 부호화 프로그램을 기록한 매체 | |
JP2016511431A (ja) | 知覚的な変換オーディオ符号化におけるノイズフィリング | |
US20090180531A1 (en) | codec with plc capabilities | |
JP2007333785A (ja) | オーディオ信号符号化装置およびオーディオ信号符号化方法 | |
KR101216098B1 (ko) | 신호 처리 방법 및 장치 | |
US7725323B2 (en) | Device and process for encoding audio data | |
Nishimura | Data hiding in pitch delay data of the adaptive multi-rate narrow-band speech codec | |
US20080255860A1 (en) | Audio decoding apparatus and decoding method | |
Malvar | Enhancing the performance of subband audio coders for speech signals | |
KR20060067016A (ko) | 음성 부호화 장치 및 방법 | |
KR20070027669A (ko) | 저비트율 부호화/복호화방법 및 장치 | |
Vaalgamaa et al. | Audio coding with auditory time-frequency noise shaping and irrelevancy reducing vector quantization | |
KR100940532B1 (ko) | 저비트율 복호화방법 및 장치 | |
Kroon | Speech and Audio Compression |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
A107 | Divisional application of patent | ||
A107 | Divisional application of patent | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20160127 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20170124 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20190125 Year of fee payment: 7 |