KR101116363B1 - 음성신호 분류방법 및 장치, 및 이를 이용한 음성신호부호화방법 및 장치 - Google Patents

음성신호 분류방법 및 장치, 및 이를 이용한 음성신호부호화방법 및 장치 Download PDF

Info

Publication number
KR101116363B1
KR101116363B1 KR1020050073825A KR20050073825A KR101116363B1 KR 101116363 B1 KR101116363 B1 KR 101116363B1 KR 1020050073825 A KR1020050073825 A KR 1020050073825A KR 20050073825 A KR20050073825 A KR 20050073825A KR 101116363 B1 KR101116363 B1 KR 101116363B1
Authority
KR
South Korea
Prior art keywords
classification
energy
frame
cross
parameter
Prior art date
Application number
KR1020050073825A
Other languages
English (en)
Other versions
KR20070019863A (ko
Inventor
성호상
라케쉬 타오리
이강은
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020050073825A priority Critical patent/KR101116363B1/ko
Priority to US11/480,449 priority patent/US8175869B2/en
Publication of KR20070019863A publication Critical patent/KR20070019863A/ko
Application granted granted Critical
Publication of KR101116363B1 publication Critical patent/KR101116363B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring

Abstract

본 발명은 음성신호 분류방법 및 장치, 및 이를 이용한 음성신호 부호화방법 및 장치를 제공한다. 본 발명의 일 태양에 따른 음성신호 분류방법은, 입력신호로부터 블록단위로 상기 입력신호의 에너지 파라미터, 상기 입력신호와 현재 프레임의 소정의 블록간의 상호상관 파라미터, 및 상기 상호상관 파라미터를 누적한 통합 상호상관 파라미터 중 적어도 하나를 포함하는 분류 파라미터를 계산하는 단계; 상기 분류 파라미터로부터 복수개의 분류척도를 계산하는 단계; 및 상기 복수개의 분류척도를 이용하여 입력신호의 레벨을 분류하는 단계를 포함하는 것을 특징으로 한다.

Description

음성신호 분류방법 및 장치, 및 이를 이용한 음성신호 부호화방법 및 장치{Method and apparatus for classifying speech signal, and method and apparatus using the same}
도 1은 본 발명에 따른 음성신호 분류장치의 구성을 나타내는 블록도.
도 2는 본 발명에 따른 음성신호 분류방법을 나타내는 흐름도.
도 3은 입력신호영역을 파라미터영역으로 변환하는 프레임 구조를 나타내는 도.
도 4는 본 발명에 따른 음성신호 분류방법에 의해 음성신호를 분류하는 일례를 나타내는 도.
도 5는 본 발명에 따른 음성신호 부호화장치의 구성을 나타내는 블록도.
도 6은 본 발명에 따른 음성신호 부호화방법을 나타내는 흐름도.
본 발명은 음성신호 부호화 처리에 관한 것으로서, 보다 상세하게는 음성신호의 부호화시 신속하고 신뢰성있게 입력 음성신호를 분류할 수 있는 음성신호 분류방법 및 장치, 및 이를 이용한 음성신호 부호화방법 및 장치에 관한 것이다.
음성 부호화기는 음성 신호를 디지털 비트 스트림으로 변환한다. 디지털 비트 스트림은 통신 채널을 통해 전송되거나 저장 매체에 저장된다. 음성 신호는 샘플링되고 샘플당 일반적으로 16 비트로 양자화된다. 음성 부호화기는 좋은 주관적인 음성 품질을 유지하면서 더 적은 수의 비트들을 가지고 디지털 샘플들을 나타내는 역할을 한다. 음성 복호화기 또는 합성기(synthesizer)는 전송되거나 저장된 비트 스트림에 작용하여 사운드 신호로 변환한다.
코드 분할 다중 액세스(CDMA; code division multiple access) 기술을 이용하는 무선 시스템에 있어서, 소스 제어되는 가변 비트율(VBR) 음성 부호화의 사용은 시스템 용량을 상당히 개선한다. 소스 제어되는 VBR 부호화에 있어서, 코덱은 몇몇 비트율로 동작하고, 레이트 선택 모듈은 음성 프레임의 성질(예를 들어, 유성음, 무성음, 천이음(transient), 배경 잡음)에 근거하여 각 음성 프레임을 부호화하는데 사용되는 비트율을 결정하는데 사용된다. 또한 평균 데이터율(ADR; average data rate)로도 지칭되는 주어진 평균 비트율에서 최선의 음성 품질을 획득하는 것이 목표이다. 코덱은 코덱 성능이 증가된 ADR에서 개선되는 상이한 모드에서 상이한 ADR을 획득하도록 레이트 선택 모듈을 조정하여 상이한 모드로 동작할 수 있다. 동작 모드는 채널 상태에 의존하여 시스템에 의해 정해진다. 이것은 코덱이 음성 품질 및 시스템 용량간의 트레이드 오프의 메커니즘을 갖도록 허용한다.
상기 설명으로부터 알 수 있는 바와 같이, 신호 분류는 효율적인 VBR 부호화를 위해 매우 중요하다.
현재, CDMA(Code Division Mutiple Access)방식의 표준 음성부호화기에서 음 성분류장치로서, VAD(Voice Activity Detection), SMV(Selected Mode Vocoder) 등이 사용된다. VAD는 음성인지 아니면 비음성인지 여부만을 검출한다. SMV는 대역폭을 절약하기 위해서 각 프레임마다 전송률을 결정한다. SMV 음성부호화기는 8.55, 4.0, 2.0, 및 0.8kbps의 전송률을 가지고 있으며, 프레임 단위로 전송률을 결정해서 부호화한다. 4개의 전송률을 결정하기 위해서 SMV 음성부호화기는 입력을 총 6가지의 클래스, 즉 묵음(silence), 잡음(noise-like), 무성음(unvoiced), 천이(onset), 일정하지 않은 유성음(non-stationary voiced), 일정한 유성음(stationary voiced)으로 분류한다.
그러나, 종래의 SMV 음성부호화기는 음성신호를 분류하기 위해 입력된 음성신호로부터 선형예측계수(Linear Prediction Coefficient : LPC)의 산출, 인식가중필터링, 개방루프 피치 검출 등 코덱(codec)의 파라미터를 사용하게 된다. 이로 인해, 신호 분류장치가 코덱에 종속되어 있다.
또한, 종래의 음성신호분류장치는 주파수 영역에서 스펙트럼 성분을 이용하여 음성신호를 분류하므로, 처리과정의 복잡도가 높고 음성신호를 분류하는데 소요되는 시간이 많이 걸린다.
본 발명이 이루고자 하는 기술적 과제는 음성신호의 부호화시 입력신호로부터 블록단위로 계산된 분류 파라미터를 이용하여 신속하고 신뢰성있게 음성신호를 분류할 수 있는 음성신호 분류방법 및 장치, 및 이를 이용한 음성신호 부호화방법 및 장치를 제공하는데 있다.
상기 기술적 과제를 이루기 위한 본 발명의 일 태양에 따른 음성신호 분류방법은, 입력신호로부터 블록단위로 상기 입력신호의 에너지 파라미터, 상기 입력신호와 현재 프레임의 소정의 블록간의 상호상관 파라미터, 및 상기 상호상관 파라미터를 누적한 통합 상호상관 파라미터 중 적어도 하나를 포함하는 분류 파라미터를 계산하는 단계; 상기 분류 파라미터로부터 복수개의 분류척도를 계산하는 단계; 및 상기 복수개의 분류척도를 이용하여 입력신호의 레벨을 분류하는 단계를 포함하는 것을 특징으로 한다.
상기 소정의 블록은 상기 현재 프레임 내에서 가장 높은 에너지를 가지는 블록인 것이 바람직하다. 다른 방법으로는, 상기 소정의 블록은 상기 현재 프레임 내에서 평균 에너지에 가장 가까운 블록일 수 있다. 다른 방법으로는, 상기 소정의 블록은 상기 현재 프레임 내에서 가장 높은 에너지와 가장 낮은 에너지간의 중간 에너지에 가장 가까운 블록일 수 있다. 다른 방법으로는, 상기 소정의 블록은 상기 현재 프레임 내에서 가운데 위치한 블록일 수 있다.
상기 분류척도는 상기 에너지 파라미터로부터 구한 각각의 서브 분석 프레임의 평균 에너지를 이용하여 계산된 에너지 분류척도, 상기 상호상관 파라미터가 제로를 횡단하는 횟수를 이용하여 계산된 상호상관 분류척도, 및 상기 통합 상호상관 파라미터가 소정의 임계치보다 큰 피크를 이용하여 계산된 통합 상호상관 분류척도 중 적어도 하나를 포함하는 것이 바람직하다.
상기 기술적 과제를 이루기 위한 본 발명에 다른 태양에 따른 음성신호 분류 장치는, 입력신호로부터 블록단위로 상기 입력신호의 에너지 파라미터, 상기 입력신호와 현재 프레임의 소정의 블록간의 상호상관 파라미터, 및 상기 상호상관 파라미터를 누적한 통합 상호상관 파라미터 중 적어도 하나를 포함하는 분류 파라미터를 계산하는 파라미터 계산부; 상기 분류 파라미터로부터 복수개의 분류척도를 계산하는 분류척도 계산부; 및 상기 복수개의 분류척도를 이용하여 입력신호의 레벨을 분류하는 신호레벨 분류부를 포함하는 것을 특징으로 한다.
상기 기술적 과제를 이루기 위한 본 발명에 또다른 태양에 따른 음성신호 부호화방법은, 입력신호로부터 블록단위로 상기 입력신호의 에너지 파라미터, 상기 입력신호와 현재 프레임의 소정의 블록간의 상호상관 파라미터, 및 상기 상호상관 파라미터를 누적한 통합 상호상관 파라미터 중 적어도 하나를 포함하는 분류 파라미터를 계산하고, 상기 분류 파라미터로부터 복수개의 분류척도를 계산하고, 상기 복수개의 분류척도를 이용하여 상기 입력신호를 분류하는 단계; 상기 입력신호의 분류 결과에 따라 상기 현재 프레임의 비트율을 조정하는 단계; 및 조정된 비트율에 따라 상기 입력신호를 부호화하여 비트스트림을 출력하는 단계를 포함하는 것을 특징으로 한다. 상기 비트율을 조정하는 단계는 상기 입력신호의 변화과정을 고려하여 상기 현재 프레임의 비트율을 조정할 수 있다.
상기 기술적 과제를 이루기 위한 본 발명에 또다른 태양에 따른 음성신호 부호화장치는, 입력신호로부터 블록단위로 상기 입력신호의 에너지 파라미터, 상기 입력신호와 현재 프레임의 소정의 블록간의 상호상관 파라미터, 및 상기 상호상관 파라미터를 누적한 통합 상호상관 파라미터 중 적어도 하나를 포함하는 분류 파라 미터를 계산하고, 상기 분류 파라미터로부터 복수개의 분류척도를 계산하고, 상기 복수개의 분류척도를 이용하여 상기 입력신호를 분류하는 신호 분류부; 상기 입력신호의 분류 결과에 따라 상기 현재 프레임의 비트율을 조정하는 비트율 조정부; 및 조정된 비트율에 따라 상기 입력신호를 부호화하여 비트스트림을 출력하는 부호화부를 포함하는 것을 특징으로 한다.
이하, 첨부 도면을 참조하며 본 발명에 따른 음성신호 분류방법 및 장치, 이를 이용한 음성신호 부호화방법 및 장치의 바람직한 실시예를 설명하기로 한다.
도 1은 본 발명에 따른 음성신호 분류장치의 구성을 나타내는 블록도로서, 음성신호 분류장치는 파라미터 계산부(110), 분류척도 계산부(120) 및 신호레벨 분류부(130)를 포함하여 이루어진다. 도 1에 도시된 음성신호 분류장치의 동작은 도 2에 도시된 본 발명에 따른 음성신호 분류방법을 나타내는 흐름도와 결부시켜 설명하기로 한다.
도 1 및 도 2를 참조하면, 파라미터 계산부(110)는 입력신호로부터 블록단위로 복수개의 분류 파라미터를 계산한다(210 단계). 복수개의 분류 파라미터는 에너지 파라미터 E(k), 정규화된 상호상관 파라미터 R(k) 및 통합 상호상관값 파라미터 IR(k)으로 이루어진다.
도 3에는 입력신호로부터 블록단위로 분류 파라미터를 구하기 위해 입력신호영역을 파라미터영역으로 변환하는 프레임 구조를 나타내고 있다. 도 3에 도시된 바와 같이, 입력신호는 M개의 샘플들로 이루어진 분석 신호로서, 분석신호는 LP개의 샘플들로 이루어진 이전 신호, L개의 샘플들로 이루어진 현재 신호, 및 LL개의 샘플들로 이루어진 후속 신호를 포함한다. 파라미터 계산부(110)는 복수개의 파라미터를 계산하기 위해 오버래핑 윈도우 기능(overlapping window function)을 사용하여 입력신호 영역을 파라미터 영역으로 변환한다. 즉, N개의 샘플로 이루어진 블록을 이용하여 하나의 파라미터를 구할 수 있으며, 한 샘플씩 이동하면서 파라미터로 구성된 프레임을 형성한다. 하나의 분석신호로부터 구해진 분석 프레임은 J(여기서, J=M-N)개의 파라미터로 이루어지며, 이 분석 프레임은 P개의 파라미터로 이루어진 이전 프레임, C개의 파라미터로 이루어진 현재 프레임 및 F개의 파라미터로 이루어진 후속 프레임을 포함한다. 각각의 이전프레임, 현재프레임 그리고 후속 프레임은 상기 현재신호, 이전신호, 후속신호의 크기에 따라 다른 고유의 서브 분석 프레임을 갖는다. 이 서브 분석 프레임은 K개의 파라미터로 이루어진다.
파라미터 계산부(110)는 입력신호로부터 다음과 같이 블록단위로 에너지 파라미터 E(k)를 구한다.
Figure 112005044361029-pat00001
여기서, y(m+k)는 k만큼 이동한 블록의 각각의 입력신호의 샘플을 나타낸다. 즉, k=0일 때에는 분석 프레임 중 최초의 블록을 나타내고, k=M-N-1일 때에는 분석 프레임 중 최종의 블록을 나타낸다.
또한, 파라미터 계산부(110)는 입력신호와 현재 프레임의 소정의 블록으로부터 다음과 같이 정규화된 상호상관(Normalized Cross-correlation) 파라미터 R(k) 을 구한다.
Figure 112005044361029-pat00002
여기서, x(m)는 소정의 블록의 각각의 신호 샘플을 나타낸다. y(m+k)는 k만큼 이동한 블록의 각각의 입력신호의 샘플을 나타낸다.
소정의 블록을 구하는 방법은 다음과 같이 4가지 방법이 있다. 첫째, 소정의 블록을 현재 프레임 내에서 가장 높은 에너지를 가지는 블록으로 선택할 수 있다. 둘째, 소정의 블록을 현재 프레임 내에서 평균 에너지에 가장 가까운 블록으로 선택할 수 있다. 셋째, 소정의 블록을 현재 프레임 내에서 중간 에너지에 가장 가까운 블록으로 선택할 수 있다. 넷째, 소정의 블록을 현재 프레임 내에서 가운데 위치한 블록으로 선택할 수 있다.
정규화된 상호상관 파라미터 R(k)은 최대값이 1이므로, 입력신호의 크기와 관계없이 신호의 변화를 관찰할 수 있다.
또한, 파라미터 계산부(110)는 정규화된 상호상관 파라미터 R(k)을 누적한 통합 상호상관(Integrated Cross-correlation) 파라미터 IR(k)을 다음과 같이 구한다.
Figure 112005044361029-pat00003
초기에 i=0, IR(0)=R(0)으로 설정하고, k를 증가시키면서 R(k)을 누적한IR(k)를 구한다. 그 후, (SlopeIR(k))*(SlopeIR(k-1))<0일 때, 즉 기울기의 부호가 변화할 때 i를 그 때의 k로 갱신하여 IR(k)를 구한다. 다시 말해, 기울기의 부호가 변화할 때부터 R(k)을 새로이 누적하여 IR(k)를 구한다. 여기서, SlopeIR(k)=IR(k)-IR(k-1)이다.
분류척도 계산부(120)는 파라미터 계산부(110)에서 계산된 분류 파라미터를 이용하여 분류척도를 계산한다(220 단계).
분류척도 계산부(120)는 에너지 파라미터 E(k)에 대해서는, 각각의 서브 분석 프레임에 대한 평균 에너지(Emean_of_subframe)를 구한다. 분류척도 계산부(120)는 서브 분석 프레임의 평균 에너지(Emean_of_subframe)로부터 다음과 같은 에너지 분류척도 중 적어도 하나를 구한다. 분류척도 계산부(120)는 현재 프레임의 평균 에너지(Emean_of_presentframe)를 구한다. 다른 방법으로는, 분류척도 계산부(120)는 최초 서브 분석 프레임의 평균 에너지와 최종 서브 분석 프레임의 평균 에너지 중에서 에너지 최소값(Emin)을 구할 수 있다. 다른 방법으로는, 분류척도 계산부(120)는 최초 서브 분석 프레임의 평균 에너지와 최종 서브 분석 프레임의 평균 에너지 중에서 에너지 최대값을 에너지 최소값으로 나눈 에너지 변화율(Renergy)을 구할 수 있다.
에너지 파라미터로부터 구한 에너지 분류척도, 즉 현재 프레임의 평균 에너지(Emean_of_presentframe), 최소값(Emin) 및 에너지 변화율(Renergy)은 음성과 비음성(예를 들어, 묵음, 배경잡음 등)을 구별하는데 사용된다.
또한, 분류척도 계산부(120)는 정규화된 상호상관 파라미터 R(k)에 대해서는, R(k)의 제로 횡단 횟수(Nzero_cross)를 구한다. 제로 횡단 횟수는 R(k)의 부호 변화의 개수로서 구할 수 있다. 음성은 낮은 제로 횡단 횟수를 가지지만, 잡음은 신호가 매우 랜덤하기 때문에 높은 제로 횡단 횟수를 가진다.
분류척도 계산부(120)는 R(k)의 제로 횡단 횟수(Nzero_cross)로부터 분석 프레임의 총 제로 횡단 횟수(Nall_zc)를 구한다. 다른 방법으로는, 각각의 서브 분석 프레임의 제로 횡단 횟수의 평균(Nmean_zc)을 구할 수 있다. 다른 방법으로는, 각각의 서브 분석 프레임의 제로 횡단 횟수의 분산(Vzc_subframe)을 구할 수 있다. 다른 방법으로는, 현재 프레임의 제로 횡단 횟수(Vzc_present)를 구할 수 있다. 다른 방법으로는, 각각의 서브 분석 프레임에서의 기울기 변화수의 평균(Nslope_change)을 구할 수 있다.
또한, 분류척도 계산부(120)는 통합 상호상관 파라미터 IR(k)에 대해서는, IR(k)가 소정의 임계값보다 큰 피크를 구한다. 통상, 무성음의 경우 소정의 임계값보다 큰 피크수가 적은 반면에, 유성음의 경우 소정의 임계값보다 큰 피크수가 많다.
분류척도 계산부(120)는 IR(k)가 소정의 임계값보다 큰 피크에 대해, 이전 프레임의 피크수(Npeak_past), 분석 프레임의 피크수(Npeak_analysis) 또는 현재 프레임의 피크수(Npeak_present)를 구한다. 다른 방법으로는, 상기 분석 프레임에서의 모든 피크들의 거리의 분산(Vdistance_peak)을 구할 수 있다. 다른 방법으로는, 각각의 서브 분석 프레임에서의 최대 피크값의 분산(Vmax_peak)을 구할 수 있다. 다른 방법으로는, 상기 분석 프레임 내에서의 최대 통합 상호상관 파라미터값(Pmax_integrated)을 구할 수 있다.
또한, 분류척도 계산부(120)는 상기 분류척도들 중에서 2개 이상의 분류척도를 결합한 결합 분류척도를 계산한다. 결합 분류척도는 천이음과 유성음을 분류하는데 사용된다.
분류척도 계산부(120)는 최초 서브 분석 프레임과 최종 서브 분석 프레임간의 에너지 최대값을 상기 최초 서브 분석 프레임과 최종 서브 분석 프레임간의 에너지 최소값으로 나눈 에너지 변화율(Renergy)을 상기 에너지 최소값(Emin)으로 나눈 에너지변화율/에너지최소값을 구한다. 다른 방법으로는, 각각의 서브 분석 프레임의 기울기 변화수의 평균(Nslope_change)을 상기 에너지 최소값(Emin)으로 나눈 기울기변화수/에너지최소값을 구할 수 있다. 다른 방법으로는, 이전 프레임의 피크수(Npeak_past)를 분석 프레임의 모든 피크수의 거리의 분산(Vdistance_peak)으로 나눈 피크수/거리분산값을 구할 수 있다.
신호레벨 분류부(130)는 복수개의 분류척도를 이용하여 입력신호의 레벨을 분류한다(230 단계). 에너지 분류척도를 사용하는 경우, 입력신호로부터 묵음 또는 로우(low) 에너지의 잡음의 신호레벨을 분류할 수 있다. 상호상관 파라미터를 사용하는 경우, 입력신호로부터 비음성, 즉 배경잡음의 신호레벨을 분류할 수 있다. 통합 상호상관 분류척도를 사용하는 경우, 무성음의 신호레벨을 분류할 수 있다. 결합 상호상관 분류척도를 사용하는 경우, 천이음과 유성음의 신호레벨을 분류할 수 있다.
도 4는 본 발명에 따른 음성신호 분류방법에 의해 음성신호를 분류하는 일례를 나타낸다.
도 4를 참조하면, 현재 신호 크기 L=160, 분석 신호 크기 M=320, 및 블록 크기 N=40으로 설정한다(405 단계). 입력신호로부터 DC 성분을 제거하고, 분류 파라미터 E(k), R(k) 및 IR(k)를 계산한다(410 단계). 에너지 파라미터 E(k)로부터 현재 프레임의 평균 에너지 Emean을 계산하고, 상호상관 파라미터 R(k)로부터 분석 프레임에서의 총 제로 횡단수 Nzero_cross를 계산하고, 통합 상호상관 파라미터 IR(k)> 2.8인 피크수 Npeak를 계산하고, 분석 프레임 내에서 E(k)의 최대차이를 E(k)의 최소값으로 나눈값 Vdiff/min을 계산한다(415 단계). Emean > 123,200 인지의 여부를 판정한다(420 단계). 420 단계는 음성신호가 있는지의 여부를 판정하는 단계이다. Emean > 123,200이 아니면, 입력신호가 묵음 또는 로우(low) 에너지의 배경잡음으로 판정된다(425 단계). Emean > 123,200이면, Nzero_cross > 7 이고 Nzero_cross < 89 인지의 여부를 판정한다(430 단계). 430 단계는 입력신호가 음성신호인지 아니면 비음성신호인지 를 판정하는 단계이다. Nzero_cross ≤ 7 이거나 Nzero_cross ≥ 89 이면, 입력신호가 배경잡음으로 판정된다(435 단계). Nzero_cross > 7 이고 Nzero_cross < 89 이면, Npeak < 4인지의 여부를 판정한다(440 단계). Npeak < 4이면, 입력신호가 무성음으로 판정된다(445 단계). Npeak ≥ 4이면, Vdiff/min > 19인지의 여부를 판정한다(450 단계). Vdiff/min > 19이면, 입력신호가 천이음으로 판정된다(455 단계). Vdiff/min ≤ 19이면, 입력신호가 유성음으로 판정된다(460 단계).
도 5는 본 발명에 따른 음성신호 분류장치를 포함하는 음성신호 부호화장치의 구성을 블록도로 도시한 것으로서, 신호 분류부(510), 비트율 조정부(520) 및 부호화부(530)를 포함하여 이루어진다. 도 5에 도시된 음성신호 부호화장치의 동작은 음성신호 부호화방법을 흐름도로 도시한 도 6과 결부시켜 설명하기로 한다.
도 5 및 도 6을 참조하면, 신호 분류부(510)는 입력신호로부터 블록단위로 분류 파라미터를 계산하고, 상기 분류 파라미터로부터 복수개의 분류척도를 계산하고, 상기 복수개의 분류척도를 이용하여 상기 입력신호를 분류한다(610 단계). 입력신호의 분류단계는 도 2 및 도 3을 참조하여 상세히 설명하였다.
비트율 조정부(520)는 신호 분류부(510)에서 분류된 신호에 대해 비트율을 조정한다(620 단계). 예를 들어, 일정하지 않은 유성음(non-stationary voiced)으로 분류된 경우 8 kbps의 비트율로 결정하고, 일정한 유성음(stationary voiced)으로 분류된 경우 4 kbps의 비트율로 결정하고, 무성음인 경우 2 kbps의 비트율로 결 정하고, 묵음 또는 잡음인 경우 1 kbps의 비트율로 결정한다. 이러한 비트율 조정방식은 널리 공지되어 있다.
또한, 비트율 조정부(520)는 입력신호의 변화과정을 고려하여 비트율을 조정한다. 입력신호의 변화과정의 고려는 입력신호의 추이(transition), 음성학적인 통계정보 등을 이용할 수 있다. 예를 들어, 신호 분류 결과에 따라 결정된 비트율이 8 kbps, 8 kbps, 8 kbps, 4 kbps, 8 kbps, 8 kbps, ...로 되었다면, 중간의 4 kbps는 신호 분류부(510)의 오동작 등의 원인으로 인하여 잘못 분류되었을 수 있다. 이러한 경우, 비트율 조정부(520)는 중간의 4 kbps를 8 kbps로 비트율을 조정한다.
음성 부호화부(530)는 비트율 조정부(605)에 의해 결정된 비트율에 따라 입력 음성 신호를 부호화한다(630 단계).
본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.
이상 도면과 명세서에서 최적의 실시예가 개시되었다. 여기서 특정한 용어들이 사용되었으나, 이는 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 당해 기술 분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.
본 발명에 따라, 입력신호로부터 계산된 분류 파라미터를 이용하여 시간영역에서 입력신호를 분류한 결과 약 1.6 WMOPS(Weighted Million Operation Per Second)의 계산량을 가짐으로써, 복잡도가 낮다. 또한, 블록단위의 신호를 이용하므로 급격히 변하는 순간적인 잡음에 강인하여 신뢰성있게 음성신호를 분류할 수 있다. 또한, 부호화기에 종속적이었던 종래의 음성신호 분류장치와는 달리 독립적인 구조를 가지므로, 본 발명에 따른 음성신호 분류장치를 다른 부호화기에 호환적으로 사용할 수 있다.
또한, 시간영역에서 입력신호를 분류하므로, 적은 메모리 용량을 사용하고, 광대역 및 협대역 모두에 대해 사용할 수 있다.

Claims (27)

  1. 입력된 음성신호로부터 프레임보다 작은 블록단위로 계산되며, 상기 음성신호의 에너지 파라미터, 상기 음성신호와 현재 프레임의 소정의 블록간의 상호상관 파라미터, 및 누적한 상호상관 파라미터의 기울기의 부호가 변화하기 전까지 상기 상호상관 파라미터를 누적한 통합 상호상관 파라미터를 포함하는 분류 파라미터를 계산하는 단계;
    상기 분류 파라미터로부터 복수개의 분류척도를 계산하는 단계; 및
    상기 복수개의 분류척도를 이용하여 상기 음성신호를 분류하는 단계를 포함하는 것을 특징으로 하는 음성신호 분류방법.
  2. 제1항에 있어서, 상기 소정의 블록은
    상기 현재 프레임 내에서 가장 높은 에너지를 가지는 블록인 것을 특징으로 하는 음성신호 분류방법.
  3. 제1항에 있어서, 상기 소정의 블록은
    상기 현재 프레임 내에서 평균 에너지에 가장 가까운 블록인 것을 특징으로 하는 음성신호 분류방법.
  4. 제1항에 있어서, 상기 소정의 블록은
    상기 현재 프레임 내에서 가장 높은 에너지와 가장 낮은 에너지간의 중간 에 너지에 가장 가까운 블록인 것을 특징으로 하는 음성신호 분류방법.
  5. 제1항에 있어서, 상기 소정의 블록은
    상기 현재 프레임 내에서 가운데 위치한 블록인 것을 특징으로 하는 음성신호 분류방법.
  6. 제1항에 있어서, 상기 분류척도는
    상기 에너지 파라미터로부터 구한 각각의 서브 분석 프레임의 평균 에너지를 이용하여 계산된 에너지 분류척도, 상기 상호상관 파라미터가 제로를 횡단하는 횟수를 이용하여 계산된 상호상관 분류척도, 및 상기 통합 상호상관 파라미터가 소정의 임계치보다 큰 피크를 이용하여 계산된 통합 상호상관 분류척도 중 적어도 하나를 포함하는 것을 특징으로 하는 음성신호 분류방법.
  7. 제6항에 있어서, 상기 에너지 분류척도는
    상기 현재 프레임의 평균 에너지, 최초 서브 분석 프레임과 최종 서브 분석 프레임간의 에너지 최소값, 및 상기 최초 서브 분석 프레임과 상기 최종 서브 분석 프레임간의 에너지 최대값을 상기 에너지 최소값으로 나눈 에너지 변화율 중 적어도 하나를 포함하는 것을 특징으로 하는 음성신호 분류방법.
  8. 제6항에 있어서, 상기 상호상관 분류척도는
    분석 프레임의 총 제로 횡단 횟수, 각각의 서브 분석 프레임의 제로 횡단 횟수의 평균, 각각의 서브 분석 프레임의 제로 횡단 횟수의 분산, 상기 현재 프레임의 제로 횡단 횟수, 및 각각의 서브 분석 프레임의 기울기 변화수의 평균 중 적어도 하나를 포함하는 것을 특징으로 하는 음성신호 분류방법.
  9. 제6항에 있어서, 상기 통합 상호상관 분류척도는
    이전 프레임의 피크수, 분석 프레임의 피크수, 상기 현재 프레임의 피크수, 상기 분석 프레임에서의 모든 피크들의 거리의 분산, 각각의 서브 분석 프레임에서의 최대 피크값의 분산 및 상기 분석 프레임 내에서의 최대 통합 상호상관 파라미터값 중 적어도 하나를 포함하는 것을 특징으로 하는 음성신호 분류방법.
  10. 제6항에 있어서, 상기 분류척도는
    2개 이상의 분류척도를 결합한 결합 분류척도를 더 포함하는 것을 특징으로 하는 음성신호 분류방법.
  11. 제10항에 있어서, 상기 결합 분류척도는
    최초 서브 분석 프레임과 최종 서브 분석 프레임간의 에너지 최대값을 상기 최초 서브 분석 프레임과 최종 서브 분석 프레임간의 에너지 최소값으로 나눈 에너지 변화율을 상기 에너지 최소값으로 나눈 에너지변화율/에너지최소값, 각각의 서브 분석 프레임의 기울기 변화수의 평균을 상기 에너지 최소값으로 나눈 기울기변 화수평균/에너지최소값, 및 이전 프레임의 피크수를 분석 프레임의 모든 피크수의 거리의 분산으로 나눈 피크수/거리분산값 중 적어도 하나를 포함하는 것을 특징으로 하는 음성신호 분류방법.
  12. 입력되는 음성신호로부터 프레임보다 작은 블록단위로 계산되며, 상기 음성신호의 에너지 파라미터, 상기 음성신호와 현재 프레임의 소정의 블록간의 상호상관 파라미터, 및 누적한 상호상관 파라미터의 기울기의 부호가 변화하기 전까지 상기 상호상관 파라미터를 누적한 통합 상호상관 파라미터를 포함하는 분류 파라미터를 계산하는 파라미터 계산부;
    상기 분류 파라미터로부터 복수개의 분류척도를 계산하는 분류척도 계산부; 및
    상기 복수개의 분류척도를 이용하여 상기 음성신호를 분류하는 신호레벨 분류부를 포함하는 것을 특징으로 하는 음성신호 분류장치.
  13. 제12항에 있어서, 상기 소정의 블록은
    상기 현재 프레임 내에서 가장 높은 에너지를 가지는 블록인 것을 특징으로 하는 음성신호 분류장치.
  14. 제12항에 있어서, 상기 소정의 블록은
    상기 현재 프레임 내에서 평균 에너지에 가장 가까운 블록인 것을 특징으로 하는 음성신호 분류장치.
  15. 제12항에 있어서, 상기 소정의 블록은
    상기 현재 프레임 내에서 가장 높은 에너지와 가장 낮은 에너지간의 중간 에너지에 가장 가까운 블록인 것을 특징으로 하는 음성신호 분류장치.
  16. 제12항에 있어서, 상기 소정의 블록은
    상기 현재 프레임 내에서 가운데 위치한 블록인 것을 특징으로 하는 음성신호 분류장치.
  17. 제12항에 있어서, 상기 분류척도는
    상기 에너지 파라미터를 이용하여 각각의 서브 분석 프레임의 평균 에너지로부터 계산된 에너지 분류척도, 상기 상호상관 파라미터가 제로를 횡단하는 횟수를 이용하여 계산된 상호상관 분류척도, 및 상기 통합 상호상관 파라미터가 소정의 임계치보다 큰 피크를 이용하여 계산된 통합 상호상관 분류척도 중 적어도 하나를 포함하는 것을 특징으로 하는 음성신호 분류장치.
  18. 제17항에 있어서, 상기 에너지 분류척도는
    상기 현재 프레임의 평균 에너지, 최초 서브 분석 프레임과 최종 서브 분석 프레임간의 에너지 최소값, 및 상기 최초 서브 분석 프레임과 상기 최종 서브 분석 프레임간의 에너지 최대값을 상기 에너지 최소값으로 나눈 에너지 변화율 중 적어 도 하나를 포함하는 것을 특징으로 하는 음성신호 분류장치.
  19. 제17항에 있어서, 상기 상호상관 분류척도는
    분석 프레임의 모든 제로 횡단 횟수, 각각의 서브 분석 프레임의 제로 횡단 횟수의 평균, 각각의 서브 분석 프레임의 제로 횡단 횟수의 분산, 상기 현재 프레임의 제로 횡단 횟수, 및 각각의 서브 분석 프레임의 기울기 변화수 중 적어도 하나를 포함하는 것을 특징으로 하는 음성신호 분류장치.
  20. 제17항에 있어서, 상기 통합 상호상관 분류척도는
    이전 프레임의 피크수, 분석 프레임의 피크수, 상기 현재 프레임의 피크수, 상기 분석 프레임에서의 모든 피크들의 거리의 분산, 각각의 서브 분석 프레임에서의 최대 피크값의 분산 및 상기 분석 프레임 내에서의 최대 통합 상호상관 파라미터값 중 적어도 하나를 포함하는 것을 특징으로 하는 음성신호 분류장치.
  21. 제17항에 있어서, 상기 분류척도는
    2개 이상의 분류척도를 결합한 결합 분류척도를 더 포함하는 것을 특징으로 하는 음성신호 분류장치.
  22. 제21항에 있어서, 상기 결합 분류척도는
    최초 서브 분석 프레임과 최종 서브 분석 프레임간의 에너지 최대값을 상기 최초 서브 분석 프레임과 최종 서브 분석 프레임간의 에너지 최소값으로 나눈 에너지 변화율을 상기 에너지 최소값으로 나눈 에너지변화율/에너지최소값, 각각의 서브 분석 프레임의 기울기 변화수의 평균을 상기 에너지 최소값으로 나눈 기울기변화수평균/에너지최소값, 및 이전 프레임의 피크수를 분석 프레임의 모든 피크수의 거리의 분산으로 나눈 피크수/거리분산값 중 적어도 하나를 포함하는 것을 특징으로 하는 음성신호 분류장치.
  23. 입력되는 음성신호로부터 프레임보다 작은 블록단위로 계산되며, 상기 음성신호의 에너지 파라미터, 상기 음성신호와 현재 프레임의 소정의 블록간의 상호상관 파라미터, 및 누적한 상호상관 파라미터의 기울기의 부호가 변화하기 전까지 상기 상호상관 파라미터를 누적한 통합 상호상관 파라미터를 포함하는 분류 파라미터를 계산하고, 상기 분류 파라미터로부터 복수개의 분류척도를 계산하고, 상기 복수개의 분류척도를 이용하여 상기 음성신호를 분류하는 단계;
    상기 음성신호의 분류 결과에 따라 상기 현재 프레임의 비트율을 조정하는 단계; 및
    조정된 비트율에 따라 상기 입력신호를 부호화하여 비트스트림을 출력하는 단계를 포함하는 것을 특징으로 하는 음성신호 부호화방법.
  24. 제23항에 있어서, 상기 비트율을 조정하는 단계는
    상기 음성신호의 변화과정을 고려하여 상기 현재 프레임의 비트율을 조정하는 것을 특징으로 하는 음성신호 부호화방법.
  25. 입력되는 음성신호로부터 프레임보다 작은 블록단위로 계산되며, 상기 음성신호의 에너지 파라미터, 상기 음성신호와 현재 프레임의 소정의 블록간의 상호상관 파라미터, 및 누적한 상호상관 파라미터의 기울기의 부호가 변화하기 전까지 상기 상호상관 파라미터를 누적한 통합 상호상관 파라미터를 포함하는 분류 파라미터를 계산하고, 상기 분류 파라미터로부터 복수개의 분류척도를 계산하고, 상기 복수개의 분류척도를 이용하여 상기 음성신호를 분류하는 신호 분류부;
    상기 음성신호의 분류 결과에 따라 상기 현재 프레임의 비트율을 조정하는 비트율 조정부; 및
    조정된 비트율에 따라 상기 입력신호를 부호화하여 비트스트림을 출력하는 부호화부를 포함하는 것을 특징으로 하는 음성신호 부호화장치.
  26. 제25항에 있어서, 상기 비트율 조정부는
    상기 음성신호의 변화과정을 고려하여 상기 현재 프레임의 비트율을 조정하는 것을 특징으로 하는 음성신호 부호화장치.
  27. 제1항 내지 제11항, 제23항, 제24항 중 어느 한 항에 기재된 방법을 컴퓨터에서 수행할 수 있는 프로그램을 기록한 컴퓨터 판독가능 기록매체.
KR1020050073825A 2005-08-11 2005-08-11 음성신호 분류방법 및 장치, 및 이를 이용한 음성신호부호화방법 및 장치 KR101116363B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020050073825A KR101116363B1 (ko) 2005-08-11 2005-08-11 음성신호 분류방법 및 장치, 및 이를 이용한 음성신호부호화방법 및 장치
US11/480,449 US8175869B2 (en) 2005-08-11 2006-07-05 Method, apparatus, and medium for classifying speech signal and method, apparatus, and medium for encoding speech signal using the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020050073825A KR101116363B1 (ko) 2005-08-11 2005-08-11 음성신호 분류방법 및 장치, 및 이를 이용한 음성신호부호화방법 및 장치

Publications (2)

Publication Number Publication Date
KR20070019863A KR20070019863A (ko) 2007-02-15
KR101116363B1 true KR101116363B1 (ko) 2012-03-09

Family

ID=37743628

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050073825A KR101116363B1 (ko) 2005-08-11 2005-08-11 음성신호 분류방법 및 장치, 및 이를 이용한 음성신호부호화방법 및 장치

Country Status (2)

Country Link
US (1) US8175869B2 (ko)
KR (1) KR101116363B1 (ko)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101414233B1 (ko) * 2007-01-05 2014-07-02 삼성전자 주식회사 음성 신호의 명료도를 향상시키는 장치 및 방법
RU2441286C2 (ru) * 2007-06-22 2012-01-27 Войсэйдж Корпорейшн Способ и устройство для обнаружения звуковой активности и классификации звуковых сигналов
EP2252996A4 (en) * 2008-03-05 2012-01-11 Voiceage Corp SYSTEM AND METHOD FOR ENHANCING A DECODED TONAL SIGNAL SIGNAL
KR100984094B1 (ko) * 2008-08-20 2010-09-28 인하대학교 산학협력단 가우시안 혼합 모델을 이용한 3세대 파트너십 프로젝트2의 선택 모드 보코더를 위한 실시간 유무성음 분류 방법
US20100128797A1 (en) * 2008-11-24 2010-05-27 Nvidia Corporation Encoding Of An Image Frame As Independent Regions
US8560313B2 (en) * 2010-05-13 2013-10-15 General Motors Llc Transient noise rejection for speech recognition
US9838784B2 (en) 2009-12-02 2017-12-05 Knowles Electronics, Llc Directional audio capture
US8473287B2 (en) 2010-04-19 2013-06-25 Audience, Inc. Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system
US8538035B2 (en) 2010-04-29 2013-09-17 Audience, Inc. Multi-microphone robust noise suppression
US8781137B1 (en) 2010-04-27 2014-07-15 Audience, Inc. Wind noise detection and suppression
US8447596B2 (en) 2010-07-12 2013-05-21 Audience, Inc. Monaural noise suppression based on computational auditory scene analysis
US8311817B2 (en) * 2010-11-04 2012-11-13 Audience, Inc. Systems and methods for enhancing voice quality in mobile device
US20130090926A1 (en) * 2011-09-16 2013-04-11 Qualcomm Incorporated Mobile device context information using speech detection
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
CN107112025A (zh) 2014-09-12 2017-08-29 美商楼氏电子有限公司 用于恢复语音分量的系统和方法
US9820042B1 (en) 2016-05-02 2017-11-14 Knowles Electronics, Llc Stereo separation and directional suppression with omni-directional microphones

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4972486A (en) * 1980-10-17 1990-11-20 Research Triangle Institute Method and apparatus for automatic cuing
JPH0738116B2 (ja) * 1986-07-30 1995-04-26 日本電気株式会社 マルチパルス符号化装置
CA2158849C (en) * 1993-03-25 2000-09-05 Kevin Joseph Power Speech recognition with pause detection
JP3183074B2 (ja) * 1994-06-14 2001-07-03 松下電器産業株式会社 音声符号化装置
US5696873A (en) * 1996-03-18 1997-12-09 Advanced Micro Devices, Inc. Vocoder system and method for performing pitch estimation using an adaptive correlation sample window
JPH10222194A (ja) 1997-02-03 1998-08-21 Gotai Handotai Kofun Yugenkoshi 音声符号化における有声音と無声音の識別方法
US6285979B1 (en) * 1998-03-27 2001-09-04 Avr Communications Ltd. Phoneme analyzer
US7039581B1 (en) * 1999-09-22 2006-05-02 Texas Instruments Incorporated Hybrid speed coding and system
AU2001242520A1 (en) * 2000-04-06 2001-10-23 Telefonaktiebolaget Lm Ericsson (Publ) Speech rate conversion
US6694293B2 (en) * 2001-02-13 2004-02-17 Mindspeed Technologies, Inc. Speech coding system with a music classifier
US6801306B2 (en) * 2001-04-04 2004-10-05 Corning Incorporated Streak camera system for measuring fiber bandwidth and differential mode delay
KR100711280B1 (ko) * 2002-10-11 2007-04-25 노키아 코포레이션 소스 제어되는 가변 비트율 광대역 음성 부호화 방법 및장치
EP1604354A4 (en) * 2003-03-15 2008-04-02 Mindspeed Tech Inc VOICE INDEX CONTROLS FOR CELP LANGUAGE CODING
SG119199A1 (en) * 2003-09-30 2006-02-28 Stmicroelectronics Asia Pacfic Voice activity detector
US7207983B2 (en) * 2005-04-29 2007-04-24 University Of Florida Research Foundation, Inc. System and method for real-time feedback of ablation rate during laser refractive surgery

Also Published As

Publication number Publication date
US20070038440A1 (en) 2007-02-15
US8175869B2 (en) 2012-05-08
KR20070019863A (ko) 2007-02-15

Similar Documents

Publication Publication Date Title
KR101116363B1 (ko) 음성신호 분류방법 및 장치, 및 이를 이용한 음성신호부호화방법 및 장치
KR100883656B1 (ko) 오디오 신호의 분류 방법 및 장치와 이를 이용한 오디오신호의 부호화/복호화 방법 및 장치
US7472059B2 (en) Method and apparatus for robust speech classification
US8571858B2 (en) Method and discriminator for classifying different segments of a signal
KR100964402B1 (ko) 오디오 신호의 부호화 모드 결정 방법 및 장치와 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치
RU2146394C1 (ru) Способ и устройство вокодирования переменной скорости при пониженной скорости кодирования
RU2487428C2 (ru) Устройство и способ для вычисления числа огибающих спектра
CN103548081B (zh) 噪声稳健语音译码模式分类
KR20080083719A (ko) 오디오 신호를 부호화하기 위한 부호화 모델들의 선택
KR20080093074A (ko) 오디오신호들의 분류
KR20080097178A (ko) 부호화/복호화 장치 및 방법
JP3331297B2 (ja) 背景音/音声分類方法及び装置並びに音声符号化方法及び装置
KR100546758B1 (ko) 음성의 상호부호화시 전송률 결정 장치 및 방법
JPH10247093A (ja) オーディオ情報分類装置
KR100557113B1 (ko) 다수의 대역들을 이용한 대역별 음성신호 판정장치 및 방법
KR20070017379A (ko) 오디오 신호를 부호화하기 위한 부호화 모델들의 선택
Rämö et al. Segmental speech coding model for storage applications.
Tedenvall et al. Adaptive content-based sound compression
Czyzewski Speech coding employing intelligent signal processing techniques

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee