KR100822024B1 - 상황인지 통신 단말기를 위한 음향신호 기반 환경인식 방법 - Google Patents
상황인지 통신 단말기를 위한 음향신호 기반 환경인식 방법 Download PDFInfo
- Publication number
- KR100822024B1 KR100822024B1 KR1020070076335A KR20070076335A KR100822024B1 KR 100822024 B1 KR100822024 B1 KR 100822024B1 KR 1020070076335 A KR1020070076335 A KR 1020070076335A KR 20070076335 A KR20070076335 A KR 20070076335A KR 100822024 B1 KR100822024 B1 KR 100822024B1
- Authority
- KR
- South Korea
- Prior art keywords
- environment
- feature vectors
- smv
- extracted
- gaussian mixture
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 239000013598 vector Substances 0.000 claims abstract description 35
- 239000000203 mixture Substances 0.000 claims abstract description 18
- 238000004891 communication Methods 0.000 claims abstract description 10
- 238000007476 Maximum Likelihood Methods 0.000 claims abstract description 6
- 230000007613 environmental effect Effects 0.000 claims description 17
- 238000001514 detection method Methods 0.000 claims description 11
- 230000003595 spectral effect Effects 0.000 claims description 7
- 238000005311 autocorrelation function Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 3
- 230000000630 rising effect Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012567 pattern recognition method Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Mobile Radio Communication Systems (AREA)
- Telephone Function (AREA)
Abstract
본 발명은 상황인지 통신 단말기를 위한 환경인식 방법에 있어서, 별도의 특징벡터 추출과정 없이 SMV 부호화 과정에서 자동적으로 추출되는 특징벡터만을 사용하여 구성한 가우시안 혼합 모델(Gaussian Mixture Model; GMM)을 기반으로 환경인식하기 위한 것으로, 사전에 선택된 환경인식의 대상이 되는 각각의 환경에서 단말기로 입력받은 음성신호로부터 SMV 인코딩 과정에서 추출한 하나 이상의 특징벡터를 기반으로 하여 미리 훈련된 가우시안 혼합 모델을 사용하며, 실시간 음성신호로부터 SMV 인코딩 과정에서 추출되는 하나 이상의 특징벡터를 사용하여 가우시안 혼합 모델을 구성하는 단계; 상기 미리 훈련된 가우시안 혼합 모델을 사용하여 상기 실시간 음성신호에 대한 우도(Likelihood)를 구하는 단계; 및 최대 우도 값에 해당하는 환경 플래그를 선택하는 단계를 포함하는 것을 특징으로 한다.
상황인지 휴대폰, 환경인식, 가우시안 혼합 모델, SMV
Description
본 발명은 상황인지 통신 단말기를 위한 환경인식 방법에 관한 것으로, 더욱 상세하게는, 단말기로 입력되는 음향신호를 기반으로 하는 환경인식 방법에 있어서, 별도의 특징벡터 추출과정 없이 SMV(Selectable Mode Vocoder) 부호화 과정에서 자동적으로 추출되는 특징벡터만을 사용하여 구성한 가우시안 혼합 모델(Gaussian Mixture Model; GMM)을 기반으로 하는 환경인식 방법에 관한 것이다.
최근 정보기술 기반의 산업이 발전함에 따라, 통신 단말기, 특히 휴대폰은 단순히 전화통화를 지원하는 기능뿐만 아니라, 멀티미티어 데이터의 생성, 관리, 저장 등과 같은 기능을 제공할 수 있게 되었다. 이에 따라, 휴대폰은 수동적으로 정보를 받아서 사용자에게 제공하는 수준을 넘어서 휴대폰에서 수집이 가능한 정보 및 사용자가 생성한 정보를 토대로 하여 보다 능동적인 정보를 제공하게 되었다. 이러한 휴대폰의 발전에 따라, 휴대폰을 통해 외부에서 받아들이는 상황정보 및 사용자가 생성한 정보를 토대로 사용자의 상태를 인식하고 추론하여 서비스를 제공하 는 상황인지 휴대폰의 중요성이 커지고 있다.
상황인지 통신 단말기에서 사용되는 환경인식 방법으로는, 단말기에 부착된 센서를 통해서 입력 받은 데이터를 이용하는 방법과 부가적인 센서의 사용 없이 단말기의 내부적 데이터를 가공하여 환경인식에 적합한 데이터로 변환한 후 이를 이용하는 방법이 있다. 특히, 부가적인 센서가 없는 단말기에서 음성신호가 중요한 데이터로 사용되고 있다. 그러나 기존의 방법에서는 음성신호에서 특징벡터를 추출하기 위해 이산여현변환(Discrete Cosine Transform; DCT) 등과 같은 별도의 복잡한 연산을 필요로 하였다.
본 발명은 상기와 같은 문제점을 해결하기 위하여 제안된 것으로, 별도의 특징벡터 추출과정 없이 SMV 부호화 과정에서 자동적으로 추출되는 특징벡터만을 사용하여 구성한 가우시안 혼합 모델을 기반으로 하는 환경인식 방법을 제공하는 것이 목적이다.
본 발명은 상황인지 통신 단말기를 위한 환경인식 방법에 있어서, 별도의 특징벡터 추출과정 없이 SMV 부호화 과정에서 자동적으로 추출되는 특징벡터만을 사용하여 구성한 가우시안 혼합 모델(Gaussian Mixture Model; GMM)을 기반으로 환경인식하기 위한 것으로, 사전에 선택된 환경인식의 대상이 되는 각각의 환경에서 단말기로 입력받은 음성신호로부터 SMV 인코딩 과정에서 추출한 하나 이상의 특징벡터를 기반으로 하여 미리 훈련된 가우시안 혼합 모델을 사용하며, 실시간 음성신호로부터 SMV 인코딩 과정에서 추출되는 하나 이상의 특징벡터를 사용하여 가우시안 혼합 모델을 구성하는 단계; 상기 미리 훈련된 가우시안 혼합 모델을 사용하여 상기 실시간 음성신호에 대한 우도(Likelihood)를 구하는 단계; 및 최대 우도 값에 해당하는 환경 플래그를 선택하는 단계를 포함하는 것을 특징으로 한다.
상기와 같은 구성의 본 발명에 따르면, 휴대폰에 입력되는 음성신호를 따로 처리하지 않고 휴대폰의 코덱인 3GPP2 SMV의 LPC 분석, VAD 및 뮤직 검출 등의 인코딩 과정에서 자동적으로 생성된 중요 파라미터만을 사용함으로써, 별도의 특징벡터 추출과정 없이 환경인식을 할 수 있다.
이하, 본 발명의 상황인지 통신 단말기(이하, 상황인지 휴대폰의 경우를 예로 들어 설명한다)를 위한 음향신호 기반 환경인식 방법을 첨부된 도면을 참조하여 설명한다.
본 발명은 통신 단말기로 입력되는 음향신호를 기반으로 하는 환경인식 방법에 있어서, 별도의 특징벡터 추출과정 없이 SMV(Selectable Mode Vocoder) 부호화 과정에서 자동적으로 추출되는 특징벡터만을 사용하여 구성한 가우시안 혼합 모델(Gaussian Mixture Model; GMM)을 기반으로 하는 환경인식 방법에 관한 것이다.
SMV는 ETSI(European Telecommunications Standards Institute)에 의해 3GPP2(Third Generation Partnership Project 2)의 가변전송률로 표준화된 최신 코덱으로서, 다양한 데이터 전송속도를 가지는 음성 코덱 알고리즘을 사용하여 기지국과 이동 무선국간의 효율적인 음성 통신을 제공할 수 있다.
또한, 통신망의 상황에 따라 데이터 전송속도와 음질 사이의 트레이트 오프를 고려하여 모드 0(프리미엄 모드), 모드 1(표준 모드), 모드 2(절약 모드) 및 모드 3(용량 절약 모드)의 4가지 모드로 동작한다. 그리고 비트율은 각 프레임의 특 성과 SMV의 모드를 기반으로 하여 결정하는 비트율 결정 알고리즘(Rate-Determination Algorithm, RDA)에 의해서 결정되며, 8khz를 기준으로 할 때 160 샘플(20ms) 마다 결정된다.
도 1은 휴대폰 입력신호의 SMV 인코딩 처리과정을 도시하는 흐름도이다. 우선, 입력신호에 대해서 묵음 증강(Silence Enhancement), 고대역 통과 필터(High-Pass Filter), 잡음 제거(Noise Suppression), 적응 틸트 필터(Adaptive Tilt Filter) 등의 전처리(Pre-Processing)를 한다. 그 후 전처리된 신호는 프레임 단위로 지각 가중치(Perceptually Weighting)가 적용된 후, 개회로 피치 검색(Open-Loop Pitch Detection) 및 신호 변형(Signal Modification)을 거친다. 또한, LPC(Linear predictive coding) 분석을 이용하여 뮤직 검출(Music Detection)이 포함된 음성검출(Voice Activity Detection; VAD)을 하고, 프레임의 클래스 분류(Classification) 및 비트율을 결정하고 이에 따른 다른 인코딩 처리과정을 거치게 된다.
이때, 클래스 분류에서는 묵음(Silence), 잡음(Noise-Like Unvoiced), 무성음(Unvoiced), 변화(Onset), 비정상 유성음(Non-Stationary Voiced) 및 정상 유성음(Stationary Voiced)의 여섯 가지 프레임 클래스 중 하나로 분류되고, 비트율의 결정에 따라 타입 (Type) 0과 타입 1로 나누어진다. 타입 1은 정상 유성음이 선택된 프레임을 나타내고, 타입 0은 그 외의 모든 프레임을 나타낸다.
도 2는 본 발명에 따른 환경인식 방법을 나타내는 흐름도이다. 본 발명에 따른 환경인식 방법에 의하면, 도 1에 도시된 전체의 SMV 인코딩 처리과정 중에서 도 2에 도시된 바와 같이 LPC 분석, VAD 및 뮤직 검출 등의 인코딩 과정 중 비트율과 타입을 결정하는데 사용된 중요한 파라미터를 그대로 이용하여 특징벡터를 추출한다. 그 후 상기 특징벡터를 기반으로 가우시안 혼합 모델을 구성하여 환경인식을 하게 된다.
실시간 음성신호에 대한 환경인식을 위해서는, 환경인식의 대상이 되는 각각의 환경에서 사전에 휴대폰으로 입력받은 음성신호로부터 자세히 후술하는 LPC 분석, VAD 및 뮤직 검출 등의 인코딩 과정에서 추출한 특징벡터를 기반으로 훈련된 가우시안 혼합 모델의 데이터베이스를 구축하고 있어야 한다.
그 후 상기 특징벡터를 기반으로 이미 훈련된 가우시안 혼합 모델을 사용하여 실시간으로 들어오는 음성신호에 대해서 우도(Likelihood)를 구하고, 상기 구해진 우도 중에 최대 우도를 가진 값에 대한 환경 플래그(Environment Flag)를 선택, 즉 환경인식 대상 환경 중 최대 우도 값을 가진 곳의 환경을 나타내는 플래그를 선택함으로써 환경인식을 한다.
이하, SMV 인코딩 처리과정에서 추출된 특징벡터 및 가우시안 혼합 모델을 사용한 패턴인식 방법에 대해 자세히 설명한다.
우선 mth LPC 분석 과정에서 추출되는 중요 특징벡터로는, LPC 10차와 LSF(Line Spectral Frequency) 10차가 있다.
LPC 10차는 자기상관 함수 (Autocorrelation Function) 및 수학식 1로 나타내어지는 반사계수 km를 사용한 레빈슨-더빈 알고리즘(Levinson-Durbin Algorithm) 을 사용하여 구하며, 이때 Rm은 자기상관 함수, E는 에너지, α는 j번째 LPC 계수를 나타낸다.
LSF 10차는 음성 프레임의 마지막 1/4 부분에 중심을 둔 윈도우를 이용하여 계산된 LPC 계수의 값이다. 이 값은 LPC 값을 가지고 수학식 2 및 3과 같이 변환시켜 구한다. 이때, 는 예측 오류 필터(Prediction Error Filter) 전달함수이고, 와 는 새로운 전달함수이다.
VAD 과정에서 추출되는 중요 특징벡터로는, LP 예측 오류(LP Prediction Error), LPC 이득(LPC gain), 피치 레그(Pitch Lag) 표준편차, 자기상관 함수, 프레임 에너지, 부분 잔여 에너지(Partial Residual Energy), 스펙트럼 왜곡(spectral distortion), 능동 음성 평균 에너지(Active-Speech Mean Energy) 및 SNR(Signal-to-Noise)가 있다.
LP 예측 오류는 음성 프레임의 마지막 1/4부분의 LPC 분석을 통해서 추출한 오류 값이며, 수학식 4에 의해 구한다.
LPC 이득은 반사계수를 사용하여 구한 프레임의 LPC 이득 값으로, 수학식 5에 의해 구한다.
피치 레그의 표준 편차는 개회로 피치 검색 과정에서 추출한 피치 레그의 이전 5 프레임 값을 가지고 수학식 6에 의해 구한다.
자기상관 함수는 수학식 7에 의해 구한다.
이때, 는 LPC를 위한 윈도우 사이즈 240, 는 샘플링 주파수, 는 입력 신호에 LPC를 위한 윈도우를 사용한 값이다. 도 3a, 도 3b 및 도 3c는 사용된 윈도우의 특징을 도시하는 도면으로, 도 3a는 일 때의 240 사이즈 해밍 윈도우(Hamming window)(rising 120, falling 120), 도 3b는 일 때의 240 사이즈 해밍 윈도우(rising 150, falling 90), 도 3c는 일 때의 240 사이즈 해밍 윈도우(rising 200, falling 40)를 나타낸다.
프레임 에너지는 수학식 8에 의해 구하며, 최소값 10을 가진다.
부분 잔여 에너지는 LPC 분석에서의 오류 성분에 대한 에너지를 구한 것으로, 수학식 9에 의해 구한다.
SNR는 음성과 잡음 구간의 부분 잔여 에너지의 러닝 평균을 이용하여 수학식 14에 의해 구한 것이다.
뮤직 검출 과정에서 추출되는 중요 특징벡터로는, 차(difference) LSF, LSF(1)의 러닝 평균, 에너지의 러닝 평균, 스펙트럼 차, 부분 잔여 에너지의 러닝 평균, 반사계수의 러닝 평균 및 표준화된 피치 상관관계가 있다.
차 LSF는 LPC 분석을 통해서 구한 LSF의 차이를 구한 것으로, 수학식 15와 같이 나타낸다.
LSF(1)의 러닝 평균은 LPC 분석의 첫 번째 계수의 러닝 평균을 구한 것으로, 수학식 16에 의해 구한다.
에너지의 러닝 평균은 수학식 17에 의해 구할 수 있으며,
스펙트럼 차는 반사계수의 러닝 평균을 이용하여 구한 것으로, 수학식 18에 의해 구한다.
부분 잔여 에너지의 러닝 평균은 수학식 19에 의해 구할 수 있으며,
반사계수의 러닝 평균 수학식 20에 의해 구할 수 있다.
표준화된 피치 상관관계는 개회로 피치 검색 과정에서 추출한 피치 상관관계의 이전 5 프레임 값을 가지고 수학식 21에 의해 구한다.
도 4는 복수개의 가우시안 확률밀도함수의 그래프를 도시하는 도면으로, 상기한 바와 같이 SMV 인코딩 처리과정에서 추출한 특징벡터 데이터 집합의 분포밀도를 도 4에 도시된 바와 같이 복수개의 가우시안 확률밀도함수로 모델링하고, 실제 데이터를 기반으로 최대 우도를 가지는 클래스를 선택할 수 있다.
전술한 LPC 분석, VAD 및 뮤직 검출 과정에서 추출한 중요 특징벡터들을 상태 열 개의 특징벡터 라 하면, 개의 혼합성분 (Mixture Component)을 가지는 가우시안 확률밀도함수의 우도 (Likelihood)는 수학식 22 및 23과 같이 주어진다.
또한, 가우시안 혼합 모델의 번째 성분 파라미터인 는 가우시안 혼합성분 밀도의 가중치 (Mixture Weight : ), 평균 벡터(Mean Vector : ) 및 공분산 행렬 (Covariance Matrix : )로 수학식 25와 같이 구성되며, 가우시안 혼합성분 밀도의 가중치, 평균 벡터 및 공분산 행렬은 각각 수학식 26 내지 28에 의해 구한다.
이때, i 번째 성분의 사후확률(Posteriori Probability)은 수학식 29와 같이 주어진다.
본 발명에서는 기대값 최대화(Expectation Maximization; EM)를 사용해 최적 모델 를 추정하며, 가 되는 새로운 모델 이 정해진 문턱 값 (Threshold)에 도달할 때까지 반복하여 모델을 설정한다.
그 후, 사전에 구성된 각 환경별 모델의 실제 데이터의 특징벡터를 입력받아 수학식 30에 따라 환경 플래그를 선택함으로써 환경인식을 한다. 이때, 환경 플래그는 사전에 선택된 환경인식의 대상이 되는 각각의 환경에 할당된 플래그 값을 의미한다.
상기와 같은 구성의 본 발명에 따르면, 휴대폰에 입력되는 음성신호를 따로 처리하지 않고 휴대폰의 코덱인 3GPP2 SMV의 LPC 분석, VAD 및 뮤직 검출 등의 인코딩 과정에서 자동적으로 생성된 중요 파라미터만을 사용함으로써, 별도의 특징벡터 추출과정 없이 환경인식을 할 수 있다.
도 1은 휴대폰 입력신호의 SMV 인코딩 처리과정을 나타내는 흐름도,
도 2는 본 발명에 따른 환경인식 방법을 나타내는 흐름도,
도 3a, 도 3b 및 도 3c는 LPC에 사용된 윈도우의 특징을 도시하는 도면,
도 4는 복수개의 가우시안 확률밀도함수의 그래프를 도시하는 도면이다.
Claims (5)
- 사전에 선택된 환경인식의 대상이 되는 각각의 환경에서 통신 단말기로 입력받은 음성신호로부터 SMV 인코딩 과정에서 추출한 하나 이상의 특징벡터를 기반으로 하여 미리 훈련된 가우시안 혼합 모델을 사용하는 상황인지 통신 단말기를 위한 환경인식 방법에 있어서,실시간 음성신호로부터 SMV 인코딩 과정에서 추출되는 하나 이상의 특징벡터를 사용하여 가우시안 혼합 모델을 구성하는 단계;상기 미리 훈련된 가우시안 혼합 모델을 사용하여 상기 실시간 음성신호에 대한 우도(Likelihood)를 구하는 단계; 및최대 우도 값에 해당하는 환경 플래그를 선택하는 단계를 포함하는 것을 특징으로 하는 환경인식 방법.
- 제 1항에 있어서,상기 하나 이상의 특징벡터는, LPC 분석, VAD 및 뮤직 검출의 SMV 인코딩 과정에서 비트율과 타입을 결정하는데 사용되는 파라미터를 이용하여 추출되는 것을 특징으로 하는 환경인식 방법.
- 제 2항에 있어서,상기 LPC 분석 과정에서 사용되는 파라미터를 이용하여 추출되는 특징벡터는 LPC 10차 및 LSF 10차를 포함하는 것을 특징으로 하는 환경인식 방법.
- 제 2항에 있어서,상기 VAD 과정에서 사용되는 파라미터를 이용하여 추출되는 특징벡터는 LP 예측 오류, LPC 이득, 피치 레그 표준편차, 자기상관 함수, 프레임 에너지, 부분 잔여 에너지, 스펙트럼 왜곡, 능동 음성 평균 에너지 및 SNR를 포함하는 것을 특징으로 하는 환경인식 방법.
- 제 2항에 있어서,상기 뮤직 검출 과정에서 사용되는 파라미터를 이용하여 추출되는 특징벡터는 차 LSF, LSF(1)의 러닝 평균, 에너지의 러닝 평균, 스펙트럼 차, 부분 잔여 에너지의 러닝 평균, 반사계수의 러닝 평균 및 표준화된 피치 상관관계를 포함하는 것을 특징으로 하는 환경인식 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020070076335A KR100822024B1 (ko) | 2007-07-30 | 2007-07-30 | 상황인지 통신 단말기를 위한 음향신호 기반 환경인식 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020070076335A KR100822024B1 (ko) | 2007-07-30 | 2007-07-30 | 상황인지 통신 단말기를 위한 음향신호 기반 환경인식 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR100822024B1 true KR100822024B1 (ko) | 2008-04-15 |
Family
ID=39534786
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020070076335A KR100822024B1 (ko) | 2007-07-30 | 2007-07-30 | 상황인지 통신 단말기를 위한 음향신호 기반 환경인식 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100822024B1 (ko) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050015243A1 (en) * | 2003-07-15 | 2005-01-20 | Lee Eung Don | Apparatus and method for converting pitch delay using linear prediction in speech transcoding |
US20060190246A1 (en) * | 2005-02-23 | 2006-08-24 | Via Telecom Co., Ltd. | Transcoding method for switching between selectable mode voice encoder and an enhanced variable rate CODEC |
US7117146B2 (en) * | 1998-08-24 | 2006-10-03 | Mindspeed Technologies, Inc. | System for improved use of pitch enhancement with subcodebooks |
-
2007
- 2007-07-30 KR KR1020070076335A patent/KR100822024B1/ko not_active IP Right Cessation
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7117146B2 (en) * | 1998-08-24 | 2006-10-03 | Mindspeed Technologies, Inc. | System for improved use of pitch enhancement with subcodebooks |
US20050015243A1 (en) * | 2003-07-15 | 2005-01-20 | Lee Eung Don | Apparatus and method for converting pitch delay using linear prediction in speech transcoding |
US20060190246A1 (en) * | 2005-02-23 | 2006-08-24 | Via Telecom Co., Ltd. | Transcoding method for switching between selectable mode voice encoder and an enhanced variable rate CODEC |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10540979B2 (en) | User interface for secure access to a device using speaker verification | |
US8554560B2 (en) | Voice activity detection | |
CN106463142B (zh) | 话音简档管理和语音信号产生 | |
Chang et al. | Voice activity detection based on multiple statistical models | |
US8990074B2 (en) | Noise-robust speech coding mode classification | |
US20080046241A1 (en) | Method and system for detecting speaker change in a voice transaction | |
CN103377651B (zh) | 语音自动合成装置及方法 | |
CN101131817A (zh) | 强壮语音分类方法和装置 | |
Sahidullah et al. | Comparison of speech activity detection techniques for speaker recognition | |
KR20160097232A (ko) | 블라인드 대역폭 확장의 시스템들 및 방법들 | |
Tong et al. | Evaluating VAD for automatic speech recognition | |
Vlaj et al. | A computationally efficient mel-filter bank VAD algorithm for distributed speech recognition systems | |
KR100822024B1 (ko) | 상황인지 통신 단말기를 위한 음향신호 기반 환경인식 방법 | |
Nasibov | Decision fusion of voice activity detectors | |
Kotnik et al. | Efficient noise robust feature extraction algorithms for distributed speech recognition (DSR) systems | |
Kim et al. | Performance improvement of a bitstream-based front-end for wireless speech recognition in adverse environments | |
Preti et al. | An application constrained front end for speaker verification | |
Kafley et al. | Continuous digit recognition in mobile environment | |
Amrous et al. | Robust Arabic speech recognition in noisy environments using prosodic features and formant | |
Mohanty et al. | Voice detection using statistical method | |
Beritelli et al. | Adaptive robust speech processing based on acoustic noise estimation and classification | |
KR100701253B1 (ko) | 이동통신 환경 하에서의 서버 기반 음성 인식을 위한음성부호화 방법 및 장치 | |
KR100984094B1 (ko) | 가우시안 혼합 모델을 이용한 3세대 파트너십 프로젝트2의 선택 모드 보코더를 위한 실시간 유무성음 분류 방법 | |
KR20100021780A (ko) | 선택 모드 보코더에 기초한 보이스-피싱 검출 방법 | |
Balasubramaniyam et al. | Feature based Speaker Embedding on conversational speeches |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
A302 | Request for accelerated examination | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20120330 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20130401 Year of fee payment: 6 |
|
LAPS | Lapse due to unpaid annual fee |