KR100527002B1 - 음성 신호의 에너지 분포 특성을 고려한 쉐이핑 장치 및 방법 - Google Patents

음성 신호의 에너지 분포 특성을 고려한 쉐이핑 장치 및 방법 Download PDF

Info

Publication number
KR100527002B1
KR100527002B1 KR10-2003-0011973A KR20030011973A KR100527002B1 KR 100527002 B1 KR100527002 B1 KR 100527002B1 KR 20030011973 A KR20030011973 A KR 20030011973A KR 100527002 B1 KR100527002 B1 KR 100527002B1
Authority
KR
South Korea
Prior art keywords
energy
band
shaping
ambient noise
signal
Prior art date
Application number
KR10-2003-0011973A
Other languages
English (en)
Other versions
KR20040076661A (ko
Inventor
고은경
황대환
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR10-2003-0011973A priority Critical patent/KR100527002B1/ko
Priority to US10/656,075 priority patent/US20040167776A1/en
Publication of KR20040076661A publication Critical patent/KR20040076661A/ko
Application granted granted Critical
Publication of KR100527002B1 publication Critical patent/KR100527002B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명에 따른 음성 신호의 에너지 분포를 고려한 쉐이핑 장치는, 무성음 및 주변 노이즈로 구분되는 음성 신호를 입력받아, 무성음 또는 주변 노이즈에 대하여 인코딩하고, 입력 음성신호의 특성을 고려하여 각각의 밴드별 에너지 비교를 수행하여 그 결과에 따라 현재 입력의 에너지 특성을 나타내는 밴드 플래그를 찾는 인코더 및 인코더에서 보내진 밴드 플래그를 이용하여 원래 입력 음성의 밴드 특성을 이용한 디코더를 포함한다.
이 같은 본 발명에 의하면, 원래 입력 음성 신호의 특징을 반영하는 쉐이핑 방법을 적용함으로써, 음성 코덱의 음질 향상에 도움을 주게 되며, 무성음과 주변 노이즈처럼 합성이 어려운 신호에 많은 비트를 추가하지 않고, 에너지 분포의 정보만 이용하여 쉐이핑 필터를 사용하므로 음성 코덱의 품질 및 비트율 향상의 효과가 기대된다.

Description

음성 신호의 에너지 분포 특성을 고려한 쉐이핑 장치 및 방법{Apparatus and method of that consider energy distribution characteristic of speech signal}
본 발명은 음성 신호의 스펙트럼의 특징을 형상화하기 위해 쉐이핑하는 방법에 관한 것으로, 특히 입력 신호의 특징을 최대한 복원해 내기 위해 음성 신호의 에너지 분포를 고려한 쉐이핑 장치 및 방법에 관한 것이다.
본 발명의 쉐이핑은, 음성 코덱 기술 중 입력 신호가 무성음과 주변 노이즈인 경우 복호화기 과정에서 원래의 입력 음성 신호의 스펙트럼 특징을 복원하는 방법이다.
일반적으로 음성 코덱에서 사용하는 쉐이핑 방법은 음성 부호화 및 복호화 알고리즘에 적용되는 것으로, 입력이 무성음과 주변 노이즈로 한정되며 낮은 비트율을 갖는 CELP(Code Excited Linear Prediction) 방식의 코덱을 사용하였다.
도 1은 종래의 음성 코덱의 쉐이핑 장치의 구조를 나타낸 블록도이다.
도 1을 참조하면, 종래의 쉐이핑 장치는 랜덤 넘버 벡터부 1(110), 랜덤 넘버 제너레이팅부(120), 이득부(130), 가산기 1(140), 쉐이핑부 1(150)을 포함한다.
상기한 종래의 쉐이핑 방법은 인코더에서 이득부(130)로 입력되는 음성신호에 대하여 양자화된 이득에 대한 인덱스 정보를 이용하여 구해지는 이득값과, 랜덤 넘버 벡터부(110)에서 입력되는 e(n) 신호를 랜덤 넘버 제너레이팅부(120)에서 랜덤 넘버가 가산기 1(140)을 통해 합친 후 쉐이핑하게 된다.
즉, 쉐이핑은 랜덤 넘버와 선형 예측 계수(Linear Prediction Coefficient)를 이용하여 신호의 여기성분(r(n))을 찾아낸다. 이 여기 성분 r(n)을 이용하여 매우 낮은 주파수 성분을 제거하는 고대역 필터를 통과한 후 주파수 대역에 상관없이 쉐이핑을 한다.
이때, 상기 r(n) 신호는 랜덤 넘버 벡터부 1(110)의 e(n)과 양자화된 이득값을 통해 얻어지는 여기성분 신호로 실제적으로 쉐이핑되는 신호를 말한다.
이러한 종래의 쉐이핑 기술은 입력 신호의 특징을 고려하지 않고 모두 쉐이핑하므로 연산량 증가를 가져올 뿐 아니라, 전체적인 스펙트럼은 형상화 될 수 있으나, 현재 프레임의 입력 신호의 특징을 최대화 시키지는 못하는 문제가 있다.
또한, 음성 인식 시스템에서의 음성 구간 검출을 위해서는 대한민국 특허번호 10-1997-00760307(음성 인식 시스템에서의 음성 구간 검출 방법)에서 입력 음성 신호를 각 주파수 대역별 에너지를 비교하여 좀 더 정확한 음성 구간을 검출하는 방법을 제시하였다.
상기한 특허는 고역 통화 필터를 이용하여 입력 신호의 고주파 영역을 강조하고, 고주파 영역이 강조된 입력 신호를 해밍 윈도우를 사용하여 일정 크기의 프레임으로 세분화 하며, 세분화된 프레임 단위로 FFT(Fast Fourier Transform)를 수행하여 각 주파수에 해당하는 에너지를 구하고, 이 에너지들의 상관관계를 구하여 음성 구간의 판단지수를 산출하여 임계값과 비교하고, 음성 신호와 잡음 신호를 구별하여 검출한다.
그러나, 상기한 특허는 음성 구간의 검출을 위한 것이며, 코딩시 음성 신호의 스펙트럼을 형상화하기 위한 기술이 아니다.
상기와 같은 문제를 해결하기 위하여, 본 발명은 저 전송률을 가지고 코딩하는 무성음 및 주변 노이즈에 대한 코딩 기술에서 이용하는 쉐이핑 방법으로 음성 신호의 특성에 맞게 성능을 향상시키기 위하여 원래 입력 음성 신호의 에너지 분포의 특성을 그대로 쉐이핑함으로써, 신호 성분이 많은 주파수 대역의 스펙트럼을 강조해주어 음성 코덱의 음질을 향상시킬 수 있는 음성 신호의 에너지 분포를 고려한 쉐이핑 장치 및 방법에 관한 것이다.
본 발명에 따른 음성 신호의 에너지 분포를 고려한 쉐이핑 장치는,
그 입력 음성 신호가 무성음 또는 주변 노이즈인 경우, 전처리 과정을 거친 후 FFT를 통하여 무성음과 주변 노이즈의 특성에 맞게 분리된 주파수별로 각각의 밴드별 에너지 비교를 수행하여 그 결과에 따라 에너지 분포 특성을 나타내는 밴드 플래그를 찾는 인코더 및 인코더에서 보내진 원래 입력 음성의 밴드 특성을 고려하여 쉐이핑을 수행하는 디코더를 포함한다.
바람직하게, 상기 무성음 에너지 비교부 또는 주변 노이즈 에너지 비교부에서 세팅하는 에너지 크기 플래그는, 상기 다수의 밴드 중 가장 에너지가 큰 밴드에 세팅되는 최대 에너지 플래그(Maxflag); 상기 다수의 밴드 중 가장 에너지가 작은 밴드에 세팅되는 최소 에너지 플래그(Minflag); 및 상기 다수의 밴드에 대하여 에너지가 고르게 분포하는 경우 세팅되는 에너지 플래그(Maxflag=4)를 포함한다.
바람직하게, 상기 디코더는, 상기 입력되는 음성신호의 양자화된 이득 정보를 가지는 양자화 이득정보부; 상기 양자화 이득정보부로부터의 양자화 이득정보에, 상기 입력되는 음성 신호의 쉐이핑을 위해 가산되는 랜덤 넘버 벡터부; 상기 입력되는 음성 신호의 종류를 무성음 또는 주변 노이즈로 판단하여, 각각에 대응되는 필터를 선택하는 필터 선택부; 및 상기 양자화 이득 정보부 와 랜덤 넘버 벡터부로부터의 신호를 가산한 가산 신호와, 상기 필터 선택부에 의해 입력되는 음성 신호를 상기 인코더에서 비교한 에너지 비교 결과에 따라 차별적으로 쉐이핑하는 쉐이핑부를 포함한다.
본 발명에 특징인 음성 신호의 에너지 분포를 고려한 쉐이핑 방법은,
무성음과 주변 노이즈를 포함하는 음성신호를 쉐이핑하는 방법에 있어서, (a) 상기 음성신호의 주파수 영역에서 에너지를 구할 수 있도록 푸리에 변환하는 단계; (b) 상기 변환된 음성신호가 무성음 또는 주변 노이즈인 경우 주파수 밴드별 에너지를 비교하는 단계 및 (c) 상기 비교된 에너지 크기 플래그 입력신호가 무성음 또는 주변 노이즈인가에 따라 각각 세팅하고, 각각 신호 특성에 따른 쉐이핑을 하는 단계를 포함한다.
바람직하게, 상기 (b) 단계는 그 입력 신호가 무성음이냐 주변 노이즈이냐에 따라 다르게 분리된 주파수 밴드에 대해 에너지를 비교하여, 에너지가 가장 큰 밴드, 에너지가 가장 작은 밴드, 에너지가 고르게 분포하는 경우에 대한 정보를 찾는 것을 특징으로 한다.
바람직하게, 상기 (c) 단계에서, 입력신호가 무성음인 경우, 다수 밴드에 대하여 에너지를 비교하여 에너지가 가장 큰 밴드와, 에너지가 가장 작은 밴드를 찾아, 에너지가 작은 부분을 제외하고 쉐이핑하는 단계; 및 에너지가 가장 큰 밴드에 대해 다시 한번 쉐이핑하는 단계를 더 포함한다.
바람직하게, 상기 (c) 단계에서, 입력신호가 주변 노이즈인 경우, 주변 노이즈의 특성상 가장 많은 에너지가 존재하는 제 1밴드를 제외한 다수 밴드 신호를 이용하여 에너지를 비교하는 단계; 상기 제 1 밴드를 쉐이핑하는 단계; 및 상기 에너지 비교결과, 상기 제 1밴드보다 큰 에너지를 갖는 밴드가 있는 경우 해당 밴드에 쉐이핑을 수행하는 단계를 더 포함한다.
이하 첨부된 도면을 참조하여 본 발명의 실시 예를 자세히 설명한다.
도 2는 본 발명의 실시 예에 따른 음성 신호의 에너지 분포 특성을 고려한 쉐이핑 장치의 구조를 나타낸 블록도이다.
도 2를 참조하면, 음성 신호를 쉐이핑 하는 장치는 인코더(210)와 디코더(220)를 포함한다.
이때, 인코더(210)는 FFT(211)와, 무성음 에너지 비교부(212)와, 주변 노이즈 에너지 비교부(213)를 포함한다.
상기 FFT(211)는 음성 신호를 입력받아 주파수 영역에서의 에너지를 구하고, 무성음 에너지 비교부(212)는 무성음에 대하여 서로 다른 4 개의 밴드로 분리하여 각 밴드별로 에너지를 비교하며, 주변 노이즈 에너지 비교부(213)는 주변의 노이즈에 대하여 서로 다른 4 개의 밴드로 분리하여 각 밴드별로 에너지를 비교한다.
이때, 상기 무성음 및 노이즈가 4 개의 밴드로 분리되는 예시를 보이면 다음과 같다.
도 4는 본 발명의 실시 예에 따른 도 2의 무성음과 주변 노이즈 주파수 밴드 분리를 나타낸다.
도 4를 참조하면, 무성음 또는 주변 노이즈가 입력으로 들어오면 분리된 밴드별 에너지를 비교한다.
한편, 상기 무성음 에너지 비교부(212)와, 주변 노이즈 에너지 비교부(213)에서 각 밴드별로 에너지 비교가 된 결과에 따라 에너지가 최대인 경우 Max 플래그를 최소인 경우 Min 플래그를 설정하도록 하고, 네 개의 밴드의 에너지가 고른 경우 Max 플래그 = 4 로 하여 디코더(220)로 입력한다.
상기 디코더(220)를 좀 더 자세히 설명하면 다음과 같다.
도 3은 본 발명의 실시 예에 따른 도 2의 디코더의 구조를 나타낸 블록도이다.
도 3을 참조하면, 디코더(220)는 양자화 이득 정보부(310), 랜덤 넘버 벡터 2(320), 연상 증폭기(330, 340), 연산기 2(350), 필터 선택부(360), 쉐이핑부 2(370)를 포함한다.
본 발명의 실시 예에 따른 도 3의 디코더(220)는 종래의 랜덤 넘버 벡터2(320)와, 연산기 2(350)를 포함하며, 디코더(220)에서 양자화 이득 정보부(310)는 양자화된 이득 정보를 가지는 곳이고, 필터 선택부(360)는 인코더(210)에서 보내지는 정보에서 현재 프레임이 무성음인가 노이즈 인가에 대한 정보에 따라 각 특성에 따른 다른 필터를 선택하도록 한다.
그리고, 쉐이핑부 2(370)는 인코더(210)에서 보내오는 에너지 비교에 따른 Min 플래그 와 Max 플래그를 이용하여 쉐이핑을 하도록 한다.
상기한 바와 같은 구조를 가지는 본 발명의 실시 예에 따른 음성 신호의 에너지 분포를 고려한 쉐이핑 장치에서의 쉐이핑 방법에 대하여 좀더 자세히 설명하면 다음과 같다.
입력 음성 신호 S(n) 이 들어오면, 인코더(210)의 FFT(211)는 128 포인터의 FFT 과정을 거쳐, 입력되는 신호의 주파수 영역에서의 에너지를 구한다.
그리고, 무성음 에너지 비교부(212)와, 주변 노이즈 에너지 비교부(213)에서 상기 도 4에 보여진 바와 같이 무성음 또는 주변 노이즈에 대하여 서로 다른 4 개의 밴드로 분리하고, 분리된 각 밴드별로 에너지를 비교한다.
먼저, 무성음의 경우, 무성음 에너지 비교부(212)는 성도 모델의 특성에 따라 다음과 같은 주파수 특징을 볼 수 있다.
도 5는 본 발명의 실시 예에 따른 무성음의 쉐이핑 필터 특성을 나타내고, 도 6은 일반적인 무성음 /t/의 주파수 특징을 나타내며, 도 7은 일반적인 무성음 /sh/의 주파수 특징을 나타낸다.
도 5를 참조하면, 무성음 에너지 비교부(212)는 스펙트럼 형태에서 에너지가 최대인 경우 Max 플래그를 세팅하고, 최소인 경우 Min 플래그를 세팅한다. 또한, 분리된 4 개의 밴드에 대하여 에너지가 고르게 분포하면 Max 플래그 = 4로 하여 알 수 있도록 한다.
즉, 입력 신호가 무성음인 경우는 Min 플래그를 제외한 3 개의 밴드에 대해 쉐이핑을 해 준후, 가장 에너지가 많은 Max 플래그에 대하여 다시 한번 쉐이핑을 해주게 된다.
이때, 만약 Max 플래그가 4 값을 갖게 되면 현재 프레임에서는 에너지가 골고루 분포하기 때문에 전대역에 걸쳐 순차적으로 쉐이핑을 해주게 된다.
이런 경우에 4 개 밴드의 에너지의 최대값과 최소값의 차를 구하여 그 에너지가 고른 경우를 판별하기 위한 문턱치 값을 구하게 된다.
이때, 문턱치 값은 에너지의 최대값과 최소값의 차의 분포를 조사하여 구하며, 문턱치 값 이하로 최대값과 최소값의 차이가 나타나면 에너지가 고르게 분포하는 것으로 판단된다. 이 경우, 일방적으로 한 주파수 밴드에 대해 쉐이핑을 해주게 되면 잘못된 밴드에 대해 쉐이핑을 해주게 되므로 원래 신호와 비교하여 잘못된 신호 성분을 합성해 낼 수 있다.
이는 일반적으로 밴드를 분리한 필터를 통과하게 되는 경우 필터의 문턱치 부분에서 주파수 분리 현상이 나타나게 되기 때문이며, 이런 주파수 분리현상을 제거하기 위하여 필터의 차수를 증가시켜 좀더 평탄한 필터를 설계하거나, 주파수 대역의 필터 계수를 인터폴레이션하여 사용할 수 있다.
상기 방식에서 필터의 차수를 증가시키는 방법은 필터 계수의 증가로 연산량 증가를 가져오게 되는 문제가 있으므로, 본 발명의 실시 예에서는 쉐이핑하고자 하는 주파수 대역의 필터 계수를 인터폴레이션하여 사용함으로써, 쉐이핑 효과는 그대로 갖고, 주파수 분리현상을 제거할 수 있도록 한다.
또한, 무성음 /t/는 도 6과 같은 주파수 특성으로 나타나며, 무성음 /sh/는 도 7과 같은 주파수 특징으로 나타난다.
한편, 주변 노이즈 에너지 비교부(213)의 경우는 다음과 같은 특징이 나타난다.
도 8은 본 발명의 실시 예에 따른 주변 노이즈의 쉐이핑 필터 특성을 나타낸다.
도 8을 참조하면, 입력 신호가 주변 노이즈인 경우 보통 고주파수 쪽 보다는 저주파수 쪽에 많은 에너지 분포를 갖고 있음을 확인할 수 있다. 이에 따라 여러 종류의 자동차, 사무실, 거리 등 많은 주변 노이즈 성분에 대한 에너지 분포도를 파악하여 2KHz 이하에 많은 에너지를 가지므로 주변 노이즈 신호가 입력으로 들어오는 경우에 0~2KHz 밴드에 대한 쉐이핑을 항상 해주고, 나머지 밴드에 대해서 에너지를 비교하게 된다.
이때, 만약 첫 번째 밴드보다 큰 에너지를 갖는 밴드가 있는 경우 주변 노이즈 신호에 대해서는 쉐이핑을 해 주면된다.
한편, 본 발명에서 사용하는 쉐이핑 필터는 16차 밴드 통화 필터를 사용하며, 그 형태는 무성음의 경우 UV를 노이즈의 경우 BN의 필터 이름으로 지정하였으며, 쉐이핑 방법은 다음과 같다.
이때, 무성음과, 주변 노이즈를 수학식 1 및 수학식 2와 같이 정의한다.
상기 수학식 1 및 수학식 2와 같은 무성음 또는 주변 노이즈를 쉐이핑하면 다음과 같다.
상기 수학식 3은 무성음의 경우 쉐이핑한 것이며, 이때 쉐이핑 필터의 형태는 에너지가 가장 작은 밴드를 제외하고 쉐이핑한 것이므로, 최소값을 가지는 밴드는 제외한다.
상기 수학식 4는 주변 노이즈의 경우 쉐이핑한 것으로, 첫 번째 밴드와 에너지가 가장 큰 밴드를 쉐이핑하게 된다.
이상에서 설명한 바와 같이, 본 발명에 따른 음성 신호의 에너지 분포를 고려한 쉐이핑 장치 및 방법은 일반적으로 사용하는 CELP형태의 음성 코덱 중 그 입력 신호가 무성음 또는 주변 노이즈 신호인 경우, 원래 음성 신호의 특징을 반영하는 쉐이핑 방법을 적용함으로써, 음성 코덱의 음질 향상에 도움을 주게 되며, 무성음과 주변 노이즈처럼 합성이 어려운 신호에 많은 비트를 추가하지 않고, 에너지 분포의 정보만 이용하여 쉐이핑 필터를 사용하므로 음성 코덱의 품질 및 비트율 향상의 효과가 있다.
도 1은 종래의 음성 코덱의 쉐이핑 장치의 구조를 나타낸 블록도이다.
도 2는 본 발명의 실시 예에 따른 음성 신호의 에너지 분포 특성을 고려한 쉐이핑 장치의 구조를 나타낸 블록도이다.
도 3은 본 발명의 실시 예에 따른 도 2의 디코더의 구조를 나타낸 블록도이다.
도 4는 본 발명의 실시 예에 따른 도 2의 무성음과 주변 노이즈 주파수 밴드 분리를 나타낸다.
도 5는 본 발명의 실시 예에 따른 무성음의 쉐이핑 필터 특성을 나타낸다.
도 6은 본 발명의 실시 예에 따른 주변 노이즈의 쉐이핑 필터 특성을 나타낸다.
도 7은 일반적인 무성음 /t/의 주파수 특징을 나타낸다.
도 8은 일반적인 무성음 /sh/의 주파수 특징을 나타낸다.
<도면의 주요부분의 간단한 설명>
110 : 랜덤 넘버 벡터부 1 120 : 랜덤 넘버 제너레이팅부
130 : 이득부 140 : 가산기 2
150 : 쉐이핑부 1 210 : 인코더
211 : FFT 212 : 무성음 에너지 비교부
213 : 주변 노이즈 에너지 비교부 220 : 디코더
310 : 양자화 이득정보부 320 : 랜덤 넘버 벡터부 2
330, 340 : 연산 증폭기 350 : 가산기 2
360 : 필터 선택부 370 : 쉐이핑부 2

Claims (9)

  1. 무성음 또는 주변 노이즈를 입력받아 인코딩하고, 각각의 특성에 맞게 다수 밴드로 분류하여 각 밴드별 에너지 비교를 수행한 후, 그 결과에 따른 에너지 크기 플래그를 세팅하는 인코더; 및
    상기 인코더에서 인코딩한 데이터 및 상기 에너지 크기 플래그에 의한 쉐이핑을 수행하는 디코더
    를 포함하는 음성 신호의 에너지 분포 특성을 고려한 쉐이핑 장치.
  2. 제 1항에 있어서,
    상기 인코더는,
    무성음 또는 주변 노이즈로 구분되는 음성신호를 입력받아, 주파수 영역에서의 에너지를 구할 수 있도록 푸리에 변환하는 FFT(Fast Fourier Transform);
    상기 FFT에서 변환한 음성신호가 무성음인 경우, 에너지 분포에 따라 다수의 밴드로 분리하고, 각각의 밴드별 에너지 비교를 수행하여 그 결과에 따라 에너지 크기 플래그를 세팅하는 무성음 에너지 비교부; 및
    상기 FFT에서 변환한 음성 신호가 주변 노이즈인 경우, 에너지 분포에 따라 다수의 밴드로 분리하고, 각각의 밴드별 에너지 비교를 수행하여 그 결과에 따라 에너지 크기 플래그를 세팅하는 주변 노이즈 에너지 비교부
    를 포함하는 음성 신호의 에너지 분포 특성을 고려한 쉐이핑 장치.
  3. 제 2항에 있어서,
    상기 무성음 에너지 비교부 또는 주변 노이즈 에너지 비교부에서 세팅하는 에너지 크기 플래그는,
    상기 다수의 밴드 중 가장 에너지가 큰 밴드에 세팅되는 최대 에너지 플래그(Maxflag);
    상기 다수의 밴드 중 가장 에너지가 작은 밴드에 세팅되는 최소 에너지 플래그(Minflag); 및
    상기 다수의 밴드에 대하여 에너지가 고르게 분포하는 경우 세팅되는 에너지 플래그(Maxflag=4)
    를 포함하는 것을 특징으로 하는 음성 신호의 에너지 분포 특성을 고려한 쉐이핑 장치.
  4. 제 1항에 있어서,
    상기 디코더는,
    상기 입력되는 음성신호의 양자화된 이득 정보를 가지는 양자화 이득정보부;
    상기 양자화 이득정보부로부터의 양자화 이득정보에, 상기 입력되는 음성 신호의 쉐이핑을 위해 가산되는 랜덤 넘버 벡터부;
    상기 입력되는 음성 신호의 종류를 무성음 또는 주변 노이즈로 판단하여, 각각에 대응되는 필터를 선택하는 필터 선택부; 및
    상기 양자화 이득 정보부 와 랜덤 넘버 벡터부로부터의 신호를 가산한 가산 신호와, 상기 필터 선택부에 의해 입력되는 음성 신호를 상기 인코더에서 비교한 에너지 비교 결과에 따라 차별적으로 쉐이핑하는 쉐이핑부
    를 포함하는 음성 신호의 에너지 분포 특성을 고려한 쉐이핑 장치.
  5. 무성음 또는 주변 노이즈에 대한 음성신호를 쉐이핑하는 방법에 있어서,
    (a) 상기 음성신호의 주파수 영역에서 에너지를 구할 수 있도록 푸리에 변환하는 단계;
    (b) 상기 변환된 음성신호가 무성음 또는 주변 노이즈인지를 판단하고, 각각을 주파수에 따라 서로 다른 다수의 밴드로 분리하여 각 분리된 다수의 밴드의 에너지를 비교하는 단계; 및
    (c) 상기 분리된 비교 에너지 정보를 이용하여 에너지 크기 플래그를 세팅하고, 각각 신호 특성에 따른 쉐이핑을 하는 단계
    를 포함하는 음성 신호의 에너지 분포 특성을 고려한 쉐이핑 방법.
  6. 제 5항에 있어서,
    상기 (b)단계는 그 입력 신호가 무성음인지 주변 노이즈인지에 따라 다르게 분리된 주파수 밴드에 대해 에너지를 비교하여, 에너지가 가장 큰 밴드, 에너지가 가장 작은 밴드, 에너지가 고르게 분포하는 경우에 대한 정보를 찾는 것을 특징으로 하는 음성신호의 에너지 분포 특성을 고려한 쉐이핑 방법.
  7. 제 5항에 있어서,
    상기 (c) 단계에서, 상기 입력신호가 무성음인 경우,
    다수 밴드에 대하여 에너지를 비교하여 에너지가 가장 큰 밴드와 에너지가 가장 작은 밴드를 제외하고 쉐이핑하는 단계; 및
    에너지가 가장 큰 밴드에 대해 다시 한번 쉐이핑 하는 단계
    를 더 포함하는 음성 신호의 에너지 분포 특성을 고려한 쉐이핑 방법.
  8. 제 5항에 있어서,
    상기 (c) 단계에서, 상기 입력신호가 음성신호가 주변 노이즈인 경우,
    주변 노이즈의 성분에 대한 에너지 분포를 파악하고, 주변 노이즈가 많이 분포하는 주파수를 가지는 제 1 밴드를 제외한 다수 밴드 신호를 이용하여 에너지를 비교하는 단계;
    상기 제 1 밴드를 쉐이핑 하는 단계; 및
    상기 에너지 비교결과, 상기 제 1밴드보다 큰 에너지를 갖는 밴드가 있는 경우, 해당 밴드를 쉐이핑하는 단계
    를 더 포함하는 음성 신호의 에너지 분포 특성을 고려한 쉐이핑 방법.
  9. 삭제
KR10-2003-0011973A 2003-02-26 2003-02-26 음성 신호의 에너지 분포 특성을 고려한 쉐이핑 장치 및 방법 KR100527002B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR10-2003-0011973A KR100527002B1 (ko) 2003-02-26 2003-02-26 음성 신호의 에너지 분포 특성을 고려한 쉐이핑 장치 및 방법
US10/656,075 US20040167776A1 (en) 2003-02-26 2003-09-05 Apparatus and method for shaping the speech signal in consideration of its energy distribution characteristics

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2003-0011973A KR100527002B1 (ko) 2003-02-26 2003-02-26 음성 신호의 에너지 분포 특성을 고려한 쉐이핑 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20040076661A KR20040076661A (ko) 2004-09-03
KR100527002B1 true KR100527002B1 (ko) 2005-11-08

Family

ID=32866963

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2003-0011973A KR100527002B1 (ko) 2003-02-26 2003-02-26 음성 신호의 에너지 분포 특성을 고려한 쉐이핑 장치 및 방법

Country Status (2)

Country Link
US (1) US20040167776A1 (ko)
KR (1) KR100527002B1 (ko)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050063354A (ko) * 2003-12-22 2005-06-28 삼성전자주식회사 이동통신시스템에서 청각특성을 고려하여 특정 주파수대역을 조절하는 방법 및 이동 단말 장치
JP4729927B2 (ja) * 2005-01-11 2011-07-20 ソニー株式会社 音声検出装置、自動撮像装置、および音声検出方法
US8509563B2 (en) * 2006-02-02 2013-08-13 Microsoft Corporation Generation of documents from images
US8180634B2 (en) * 2008-02-21 2012-05-15 QNX Software Systems, Limited System that detects and identifies periodic interference
CN103544961B (zh) * 2012-07-10 2017-12-19 中兴通讯股份有限公司 语音信号处理方法及装置
CN105374363B (zh) * 2014-08-25 2019-06-04 广东美的集团芜湖制冷设备有限公司 音频信号编码方法和系统
CN107786931B (zh) * 2016-08-24 2021-03-23 中国电信股份有限公司 音频检测方法及装置
US11404061B1 (en) * 2021-01-11 2022-08-02 Ford Global Technologies, Llc Speech filtering for masks

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5216747A (en) * 1990-09-20 1993-06-01 Digital Voice Systems, Inc. Voiced/unvoiced estimation of an acoustic signal
US5765127A (en) * 1992-03-18 1998-06-09 Sony Corp High efficiency encoding method
US5751903A (en) * 1994-12-19 1998-05-12 Hughes Electronics Low rate multi-mode CELP codec that encodes line SPECTRAL frequencies utilizing an offset
KR100474826B1 (ko) * 1998-05-09 2005-05-16 삼성전자주식회사 음성부호화기에서의주파수이동법을이용한다중밴드의유성화도결정방법및그장치
US6496798B1 (en) * 1999-09-30 2002-12-17 Motorola, Inc. Method and apparatus for encoding and decoding frames of voice model parameters into a low bit rate digital voice message
KR100367700B1 (ko) * 2000-11-22 2003-01-10 엘지전자 주식회사 음성부호화기의 유/무성음정보 추정방법
CN1202514C (zh) * 2000-11-27 2005-05-18 日本电信电话株式会社 编码和解码语音及其参数的方法、编码器、解码器

Also Published As

Publication number Publication date
KR20040076661A (ko) 2004-09-03
US20040167776A1 (en) 2004-08-26

Similar Documents

Publication Publication Date Title
EP2272062B1 (en) An audio signal classifier
US6510407B1 (en) Method and apparatus for variable rate coding of speech
US8725499B2 (en) Systems, methods, and apparatus for signal change detection
KR101455915B1 (ko) 일반 오디오 및 음성 프레임을 포함하는 오디오 신호용 디코더
EP1202251B1 (en) Transcoder for prevention of tandem coding of speech
US5765127A (en) High efficiency encoding method
JP4731775B2 (ja) スーパーフレーム構造のlpcハーモニックボコーダ
JP3475446B2 (ja) 符号化方法
EP1515310A1 (en) A system and method for providing high-quality stretching and compression of a digital audio signal
US20040083110A1 (en) Packet loss recovery based on music signal classification and mixing
KR20120125513A (ko) 일반 오디오 및 음성 프레임들을 포함하는 오디오 신호를 위한 인코더
JPH08179796A (ja) 音声符号化方法
JPH05346797A (ja) 有声音判別方法
JP2002516420A (ja) 音声コーダ
JPH0869299A (ja) 音声符号化方法、音声復号化方法及び音声符号化復号化方法
KR102446441B1 (ko) 부호화 모드 결정방법 및 장치, 오디오 부호화방법 및 장치와, 오디오 복호화방법 및 장치
JP3680374B2 (ja) 音声合成方法
KR100527002B1 (ko) 음성 신호의 에너지 분포 특성을 고려한 쉐이핑 장치 및 방법
EP1597721B1 (en) 600 bps mixed excitation linear prediction transcoding
JP3331297B2 (ja) 背景音/音声分類方法及び装置並びに音声符号化方法及び装置
CA2671068C (en) Multicodebook source-dependent coding and decoding
WO2020223797A1 (en) Methods and devices for detecting an attack in a sound signal to be coded and for coding the detected attack
Kaushik et al. Voice activity detection using modified Wigner-ville distribution.
JPH0744194A (ja) 高能率符号化方法
JPH07104777A (ja) ピッチ検出方法及び音声分析合成方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20091228

Year of fee payment: 7

LAPS Lapse due to unpaid annual fee