KR100822024B1 - 상황인지 통신 단말기를 위한 음향신호 기반 환경인식 방법 - Google Patents

상황인지 통신 단말기를 위한 음향신호 기반 환경인식 방법 Download PDF

Info

Publication number
KR100822024B1
KR100822024B1 KR1020070076335A KR20070076335A KR100822024B1 KR 100822024 B1 KR100822024 B1 KR 100822024B1 KR 1020070076335 A KR1020070076335 A KR 1020070076335A KR 20070076335 A KR20070076335 A KR 20070076335A KR 100822024 B1 KR100822024 B1 KR 100822024B1
Authority
KR
South Korea
Prior art keywords
environment
feature vectors
smv
extracted
gaussian mixture
Prior art date
Application number
KR1020070076335A
Other languages
English (en)
Inventor
김익재
김형곤
장준혁
이계환
Original Assignee
한국과학기술연구원
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술연구원, 한국전자통신연구원 filed Critical 한국과학기술연구원
Priority to KR1020070076335A priority Critical patent/KR100822024B1/ko
Application granted granted Critical
Publication of KR100822024B1 publication Critical patent/KR100822024B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Telephone Function (AREA)

Abstract

본 발명은 상황인지 통신 단말기를 위한 환경인식 방법에 있어서, 별도의 특징벡터 추출과정 없이 SMV 부호화 과정에서 자동적으로 추출되는 특징벡터만을 사용하여 구성한 가우시안 혼합 모델(Gaussian Mixture Model; GMM)을 기반으로 환경인식하기 위한 것으로, 사전에 선택된 환경인식의 대상이 되는 각각의 환경에서 단말기로 입력받은 음성신호로부터 SMV 인코딩 과정에서 추출한 하나 이상의 특징벡터를 기반으로 하여 미리 훈련된 가우시안 혼합 모델을 사용하며, 실시간 음성신호로부터 SMV 인코딩 과정에서 추출되는 하나 이상의 특징벡터를 사용하여 가우시안 혼합 모델을 구성하는 단계; 상기 미리 훈련된 가우시안 혼합 모델을 사용하여 상기 실시간 음성신호에 대한 우도(Likelihood)를 구하는 단계; 및 최대 우도 값에 해당하는 환경 플래그를 선택하는 단계를 포함하는 것을 특징으로 한다.
상황인지 휴대폰, 환경인식, 가우시안 혼합 모델, SMV

Description

상황인지 통신 단말기를 위한 음향신호 기반 환경인식 방법{Acoustic Environment Classification Method for Context-Aware Terminal}
본 발명은 상황인지 통신 단말기를 위한 환경인식 방법에 관한 것으로, 더욱 상세하게는, 단말기로 입력되는 음향신호를 기반으로 하는 환경인식 방법에 있어서, 별도의 특징벡터 추출과정 없이 SMV(Selectable Mode Vocoder) 부호화 과정에서 자동적으로 추출되는 특징벡터만을 사용하여 구성한 가우시안 혼합 모델(Gaussian Mixture Model; GMM)을 기반으로 하는 환경인식 방법에 관한 것이다.
최근 정보기술 기반의 산업이 발전함에 따라, 통신 단말기, 특히 휴대폰은 단순히 전화통화를 지원하는 기능뿐만 아니라, 멀티미티어 데이터의 생성, 관리, 저장 등과 같은 기능을 제공할 수 있게 되었다. 이에 따라, 휴대폰은 수동적으로 정보를 받아서 사용자에게 제공하는 수준을 넘어서 휴대폰에서 수집이 가능한 정보 및 사용자가 생성한 정보를 토대로 하여 보다 능동적인 정보를 제공하게 되었다. 이러한 휴대폰의 발전에 따라, 휴대폰을 통해 외부에서 받아들이는 상황정보 및 사용자가 생성한 정보를 토대로 사용자의 상태를 인식하고 추론하여 서비스를 제공하 는 상황인지 휴대폰의 중요성이 커지고 있다.
상황인지 통신 단말기에서 사용되는 환경인식 방법으로는, 단말기에 부착된 센서를 통해서 입력 받은 데이터를 이용하는 방법과 부가적인 센서의 사용 없이 단말기의 내부적 데이터를 가공하여 환경인식에 적합한 데이터로 변환한 후 이를 이용하는 방법이 있다. 특히, 부가적인 센서가 없는 단말기에서 음성신호가 중요한 데이터로 사용되고 있다. 그러나 기존의 방법에서는 음성신호에서 특징벡터를 추출하기 위해 이산여현변환(Discrete Cosine Transform; DCT) 등과 같은 별도의 복잡한 연산을 필요로 하였다.
본 발명은 상기와 같은 문제점을 해결하기 위하여 제안된 것으로, 별도의 특징벡터 추출과정 없이 SMV 부호화 과정에서 자동적으로 추출되는 특징벡터만을 사용하여 구성한 가우시안 혼합 모델을 기반으로 하는 환경인식 방법을 제공하는 것이 목적이다.
본 발명은 상황인지 통신 단말기를 위한 환경인식 방법에 있어서, 별도의 특징벡터 추출과정 없이 SMV 부호화 과정에서 자동적으로 추출되는 특징벡터만을 사용하여 구성한 가우시안 혼합 모델(Gaussian Mixture Model; GMM)을 기반으로 환경인식하기 위한 것으로, 사전에 선택된 환경인식의 대상이 되는 각각의 환경에서 단말기로 입력받은 음성신호로부터 SMV 인코딩 과정에서 추출한 하나 이상의 특징벡터를 기반으로 하여 미리 훈련된 가우시안 혼합 모델을 사용하며, 실시간 음성신호로부터 SMV 인코딩 과정에서 추출되는 하나 이상의 특징벡터를 사용하여 가우시안 혼합 모델을 구성하는 단계; 상기 미리 훈련된 가우시안 혼합 모델을 사용하여 상기 실시간 음성신호에 대한 우도(Likelihood)를 구하는 단계; 및 최대 우도 값에 해당하는 환경 플래그를 선택하는 단계를 포함하는 것을 특징으로 한다.
상기와 같은 구성의 본 발명에 따르면, 휴대폰에 입력되는 음성신호를 따로 처리하지 않고 휴대폰의 코덱인 3GPP2 SMV의 LPC 분석, VAD 및 뮤직 검출 등의 인코딩 과정에서 자동적으로 생성된 중요 파라미터만을 사용함으로써, 별도의 특징벡터 추출과정 없이 환경인식을 할 수 있다.
이하, 본 발명의 상황인지 통신 단말기(이하, 상황인지 휴대폰의 경우를 예로 들어 설명한다)를 위한 음향신호 기반 환경인식 방법을 첨부된 도면을 참조하여 설명한다.
본 발명은 통신 단말기로 입력되는 음향신호를 기반으로 하는 환경인식 방법에 있어서, 별도의 특징벡터 추출과정 없이 SMV(Selectable Mode Vocoder) 부호화 과정에서 자동적으로 추출되는 특징벡터만을 사용하여 구성한 가우시안 혼합 모델(Gaussian Mixture Model; GMM)을 기반으로 하는 환경인식 방법에 관한 것이다.
SMV는 ETSI(European Telecommunications Standards Institute)에 의해 3GPP2(Third Generation Partnership Project 2)의 가변전송률로 표준화된 최신 코덱으로서, 다양한 데이터 전송속도를 가지는 음성 코덱 알고리즘을 사용하여 기지국과 이동 무선국간의 효율적인 음성 통신을 제공할 수 있다.
또한, 통신망의 상황에 따라 데이터 전송속도와 음질 사이의 트레이트 오프를 고려하여 모드 0(프리미엄 모드), 모드 1(표준 모드), 모드 2(절약 모드) 및 모드 3(용량 절약 모드)의 4가지 모드로 동작한다. 그리고 비트율은 각 프레임의 특 성과 SMV의 모드를 기반으로 하여 결정하는 비트율 결정 알고리즘(Rate-Determination Algorithm, RDA)에 의해서 결정되며, 8khz를 기준으로 할 때 160 샘플(20ms) 마다 결정된다.
도 1은 휴대폰 입력신호의 SMV 인코딩 처리과정을 도시하는 흐름도이다. 우선, 입력신호에 대해서 묵음 증강(Silence Enhancement), 고대역 통과 필터(High-Pass Filter), 잡음 제거(Noise Suppression), 적응 틸트 필터(Adaptive Tilt Filter) 등의 전처리(Pre-Processing)를 한다. 그 후 전처리된 신호는 프레임 단위로 지각 가중치(Perceptually Weighting)가 적용된 후, 개회로 피치 검색(Open-Loop Pitch Detection) 및 신호 변형(Signal Modification)을 거친다. 또한, LPC(Linear predictive coding) 분석을 이용하여 뮤직 검출(Music Detection)이 포함된 음성검출(Voice Activity Detection; VAD)을 하고, 프레임의 클래스 분류(Classification) 및 비트율을 결정하고 이에 따른 다른 인코딩 처리과정을 거치게 된다.
이때, 클래스 분류에서는 묵음(Silence), 잡음(Noise-Like Unvoiced), 무성음(Unvoiced), 변화(Onset), 비정상 유성음(Non-Stationary Voiced) 및 정상 유성음(Stationary Voiced)의 여섯 가지 프레임 클래스 중 하나로 분류되고, 비트율의 결정에 따라 타입 (Type) 0과 타입 1로 나누어진다. 타입 1은 정상 유성음이 선택된 프레임을 나타내고, 타입 0은 그 외의 모든 프레임을 나타낸다.
도 2는 본 발명에 따른 환경인식 방법을 나타내는 흐름도이다. 본 발명에 따른 환경인식 방법에 의하면, 도 1에 도시된 전체의 SMV 인코딩 처리과정 중에서 도 2에 도시된 바와 같이 LPC 분석, VAD 및 뮤직 검출 등의 인코딩 과정 중 비트율과 타입을 결정하는데 사용된 중요한 파라미터를 그대로 이용하여 특징벡터를 추출한다. 그 후 상기 특징벡터를 기반으로 가우시안 혼합 모델을 구성하여 환경인식을 하게 된다.
실시간 음성신호에 대한 환경인식을 위해서는, 환경인식의 대상이 되는 각각의 환경에서 사전에 휴대폰으로 입력받은 음성신호로부터 자세히 후술하는 LPC 분석, VAD 및 뮤직 검출 등의 인코딩 과정에서 추출한 특징벡터를 기반으로 훈련된 가우시안 혼합 모델의 데이터베이스를 구축하고 있어야 한다.
그 후 상기 특징벡터를 기반으로 이미 훈련된 가우시안 혼합 모델을 사용하여 실시간으로 들어오는 음성신호에 대해서 우도(Likelihood)를 구하고, 상기 구해진 우도 중에 최대 우도를 가진 값에 대한 환경 플래그(Environment Flag)를 선택, 즉 환경인식 대상 환경 중 최대 우도 값을 가진 곳의 환경을 나타내는 플래그를 선택함으로써 환경인식을 한다.
이하, SMV 인코딩 처리과정에서 추출된 특징벡터 및 가우시안 혼합 모델을 사용한 패턴인식 방법에 대해 자세히 설명한다.
우선 mth LPC 분석 과정에서 추출되는 중요 특징벡터로는, LPC 10차와 LSF(Line Spectral Frequency) 10차가 있다.
LPC 10차는 자기상관 함수 (Autocorrelation Function) 및 수학식 1로 나타내어지는 반사계수 km를 사용한 레빈슨-더빈 알고리즘(Levinson-Durbin Algorithm) 을 사용하여 구하며, 이때 Rm은 자기상관 함수, E는 에너지, α는 j번째 LPC 계수를 나타낸다.
Figure 112007055426092-pat00001
LSF 10차는 음성 프레임의 마지막 1/4 부분에 중심을 둔 윈도우를 이용하여 계산된 LPC 계수의 값이다. 이 값은 LPC 값을 가지고 수학식 2 및 3과 같이 변환시켜 구한다. 이때,
Figure 112007055426092-pat00002
는 예측 오류 필터(Prediction Error Filter) 전달함수이고,
Figure 112007055426092-pat00003
Figure 112007055426092-pat00004
는 새로운 전달함수이다.
Figure 112007055426092-pat00005
Figure 112007055426092-pat00006
Figure 112007055426092-pat00007
이때,
Figure 112007055426092-pat00008
Figure 112007055426092-pat00009
일 때의
Figure 112007055426092-pat00010
그리고
Figure 112007055426092-pat00011
일 때의
Figure 112007055426092-pat00012
의 해이다.
VAD 과정에서 추출되는 중요 특징벡터로는, LP 예측 오류(LP Prediction Error), LPC 이득(LPC gain), 피치 레그(Pitch Lag) 표준편차, 자기상관 함수, 프레임 에너지, 부분 잔여 에너지(Partial Residual Energy), 스펙트럼 왜곡(spectral distortion), 능동 음성 평균 에너지(Active-Speech Mean Energy) 및 SNR(Signal-to-Noise)가 있다.
LP 예측 오류는 음성 프레임의 마지막 1/4부분의 LPC 분석을 통해서 추출한 오류 값이며, 수학식 4에 의해 구한다.
Figure 112007055426092-pat00013
LPC 이득은 반사계수를 사용하여 구한 프레임의 LPC 이득 값으로, 수학식 5에 의해 구한다.
Figure 112007055426092-pat00014
피치 레그의 표준 편차는 개회로 피치 검색 과정에서 추출한 피치 레그의 이전 5 프레임 값을 가지고 수학식 6에 의해 구한다.
Figure 112007055426092-pat00015
Figure 112007055426092-pat00016
,(: 이전 5프레임 피치 레그)
자기상관 함수는 수학식 7에 의해 구한다.
Figure 112007055426092-pat00017
이때,
Figure 112007055426092-pat00018
는 LPC를 위한 윈도우 사이즈 240,
Figure 112007055426092-pat00019
는 샘플링 주파수,
Figure 112007055426092-pat00020
는 입력 신호에 LPC를 위한 윈도우를 사용한 값이다. 도 3a, 도 3b 및 도 3c는 사용된 윈도우의 특징을 도시하는 도면으로, 도 3a는
Figure 112007055426092-pat00021
일 때의 240 사이즈 해밍 윈도우(Hamming window)(rising 120, falling 120), 도 3b는
Figure 112007055426092-pat00022
일 때의 240 사이즈 해밍 윈도우(rising 150, falling 90), 도 3c는
Figure 112007055426092-pat00023
일 때의 240 사이즈 해밍 윈도우(rising 200, falling 40)를 나타낸다.
프레임 에너지는 수학식 8에 의해 구하며, 최소값 10을 가진다.
Figure 112007055426092-pat00024
부분 잔여 에너지는 LPC 분석에서의 오류 성분에 대한 에너지를 구한 것으로, 수학식 9에 의해 구한다.
Figure 112007055426092-pat00025
스펙트럼 왜곡은 LSF를 이용하여 각각의 스펙트럼에 대한 차이를 구한 것으로, 수학식 10 내지 12에 의해 구하며, 여기서
Figure 112007055426092-pat00026
는 LPC 분석으로부터 얻어지는 LPC 계수이다.
Figure 112007055426092-pat00027
Figure 112007055426092-pat00028
, ( 는 자기상관 함수의 Symmetric Toeplitz Matrix )
Figure 112007055426092-pat00029
Figure 112007055426092-pat00030
, ( : 묵음구간 동안의 LSF의 러닝 평균(Running Mean))
Figure 112007055426092-pat00031
Figure 112007055426092-pat00032
, ( : LSF의 연속 러닝 평균(Continuous Running Mean))
능동 음성 평균 에너지는 음성신호 구간의 부분 잔여 에너지
Figure 112007055426092-pat00033
의 러닝 평균을 구한 것으로, 수학식 13에 의해 구한다.
Figure 112007055426092-pat00034
SNR는 음성과 잡음 구간의 부분 잔여 에너지의 러닝 평균을 이용하여 수학식 14에 의해 구한 것이다.
Figure 112007055426092-pat00035
뮤직 검출 과정에서 추출되는 중요 특징벡터로는, 차(difference) LSF, LSF(1)의 러닝 평균, 에너지의 러닝 평균, 스펙트럼 차, 부분 잔여 에너지의 러닝 평균, 반사계수의 러닝 평균 및 표준화된 피치 상관관계가 있다.
차 LSF는 LPC 분석을 통해서 구한 LSF의 차이를 구한 것으로, 수학식 15와 같이 나타낸다.
Figure 112007055426092-pat00036
LSF(1)의 러닝 평균은 LPC 분석의 첫 번째 계수의 러닝 평균을 구한 것으로, 수학식 16에 의해 구한다.
Figure 112007055426092-pat00037
에너지의 러닝 평균은 수학식 17에 의해 구할 수 있으며,
Figure 112007055426092-pat00038
스펙트럼 차는 반사계수의 러닝 평균을 이용하여 구한 것으로, 수학식 18에 의해 구한다.
Figure 112007055426092-pat00039
부분 잔여 에너지의 러닝 평균은 수학식 19에 의해 구할 수 있으며,
Figure 112007055426092-pat00040
반사계수의 러닝 평균 수학식 20에 의해 구할 수 있다.
Figure 112007055426092-pat00041
표준화된 피치 상관관계는 개회로 피치 검색 과정에서 추출한 피치 상관관계의 이전 5 프레임 값을 가지고 수학식 21에 의해 구한다.
Figure 112007055426092-pat00042
Figure 112007055426092-pat00043
, (은 이전 5 프레임의 피치 상관관계)
도 4는 복수개의 가우시안 확률밀도함수의 그래프를 도시하는 도면으로, 상기한 바와 같이 SMV 인코딩 처리과정에서 추출한 특징벡터 데이터 집합의 분포밀도를 도 4에 도시된 바와 같이 복수개의 가우시안 확률밀도함수로 모델링하고, 실제 데이터를 기반으로 최대 우도를 가지는 클래스를 선택할 수 있다.
전술한 LPC 분석, VAD 및 뮤직 검출 과정에서 추출한 중요 특징벡터들을 상태 열
Figure 112007055426092-pat00044
개의 특징벡터
Figure 112007055426092-pat00045
Figure 112007055426092-pat00046
라 하면,
Figure 112007055426092-pat00047
개의 혼합성분 (Mixture Component)을 가지는 가우시안 확률밀도함수의 우도 (Likelihood)는 수학식 22 및 23과 같이 주어진다.
Figure 112007055426092-pat00048
Figure 112007055426092-pat00049
이때, 혼합성분 밀도의 가중치
Figure 112007055426092-pat00050
는 수학식 24와 같은 제약 조건을 따른다.
Figure 112007055426092-pat00051
또한, 가우시안 혼합 모델의
Figure 112007055426092-pat00052
번째 성분 파라미터인
Figure 112007055426092-pat00053
는 가우시안 혼합성분 밀도의 가중치 (Mixture Weight :
Figure 112007055426092-pat00054
), 평균 벡터(Mean Vector :
Figure 112007055426092-pat00055
) 및 공분산 행렬 (Covariance Matrix :
Figure 112007055426092-pat00056
)로 수학식 25와 같이 구성되며, 가우시안 혼합성분 밀도의 가중치, 평균 벡터 및 공분산 행렬은 각각 수학식 26 내지 28에 의해 구한다.
Figure 112007055426092-pat00057
Figure 112007055426092-pat00058
Figure 112007055426092-pat00059
Figure 112007055426092-pat00060
이때, i 번째 성분의 사후확률(Posteriori Probability)은 수학식 29와 같이 주어진다.
Figure 112007055426092-pat00061
본 발명에서는 기대값 최대화(Expectation Maximization; EM)를 사용해 최적 모델
Figure 112007055426092-pat00062
를 추정하며,
Figure 112007055426092-pat00063
가 되는 새로운 모델
Figure 112007055426092-pat00064
이 정해진 문턱 값 (Threshold)에 도달할 때까지 반복하여 모델을 설정한다.
그 후, 사전에 구성된 각 환경별 모델의 실제 데이터의 특징벡터를 입력받아 수학식 30에 따라 환경 플래그를 선택함으로써 환경인식을 한다. 이때, 환경 플래그는 사전에 선택된 환경인식의 대상이 되는 각각의 환경에 할당된 플래그 값을 의미한다.
Figure 112007055426092-pat00065
Figure 112007055426092-pat00066
,
상기와 같은 구성의 본 발명에 따르면, 휴대폰에 입력되는 음성신호를 따로 처리하지 않고 휴대폰의 코덱인 3GPP2 SMV의 LPC 분석, VAD 및 뮤직 검출 등의 인코딩 과정에서 자동적으로 생성된 중요 파라미터만을 사용함으로써, 별도의 특징벡터 추출과정 없이 환경인식을 할 수 있다.
도 1은 휴대폰 입력신호의 SMV 인코딩 처리과정을 나타내는 흐름도,
도 2는 본 발명에 따른 환경인식 방법을 나타내는 흐름도,
도 3a, 도 3b 및 도 3c는 LPC에 사용된 윈도우의 특징을 도시하는 도면,
도 4는 복수개의 가우시안 확률밀도함수의 그래프를 도시하는 도면이다.

Claims (5)

  1. 사전에 선택된 환경인식의 대상이 되는 각각의 환경에서 통신 단말기로 입력받은 음성신호로부터 SMV 인코딩 과정에서 추출한 하나 이상의 특징벡터를 기반으로 하여 미리 훈련된 가우시안 혼합 모델을 사용하는 상황인지 통신 단말기를 위한 환경인식 방법에 있어서,
    실시간 음성신호로부터 SMV 인코딩 과정에서 추출되는 하나 이상의 특징벡터를 사용하여 가우시안 혼합 모델을 구성하는 단계;
    상기 미리 훈련된 가우시안 혼합 모델을 사용하여 상기 실시간 음성신호에 대한 우도(Likelihood)를 구하는 단계; 및
    최대 우도 값에 해당하는 환경 플래그를 선택하는 단계를 포함하는 것을 특징으로 하는 환경인식 방법.
  2. 제 1항에 있어서,
    상기 하나 이상의 특징벡터는, LPC 분석, VAD 및 뮤직 검출의 SMV 인코딩 과정에서 비트율과 타입을 결정하는데 사용되는 파라미터를 이용하여 추출되는 것을 특징으로 하는 환경인식 방법.
  3. 제 2항에 있어서,
    상기 LPC 분석 과정에서 사용되는 파라미터를 이용하여 추출되는 특징벡터는 LPC 10차 및 LSF 10차를 포함하는 것을 특징으로 하는 환경인식 방법.
  4. 제 2항에 있어서,
    상기 VAD 과정에서 사용되는 파라미터를 이용하여 추출되는 특징벡터는 LP 예측 오류, LPC 이득, 피치 레그 표준편차, 자기상관 함수, 프레임 에너지, 부분 잔여 에너지, 스펙트럼 왜곡, 능동 음성 평균 에너지 및 SNR를 포함하는 것을 특징으로 하는 환경인식 방법.
  5. 제 2항에 있어서,
    상기 뮤직 검출 과정에서 사용되는 파라미터를 이용하여 추출되는 특징벡터는 차 LSF, LSF(1)의 러닝 평균, 에너지의 러닝 평균, 스펙트럼 차, 부분 잔여 에너지의 러닝 평균, 반사계수의 러닝 평균 및 표준화된 피치 상관관계를 포함하는 것을 특징으로 하는 환경인식 방법.
KR1020070076335A 2007-07-30 2007-07-30 상황인지 통신 단말기를 위한 음향신호 기반 환경인식 방법 KR100822024B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020070076335A KR100822024B1 (ko) 2007-07-30 2007-07-30 상황인지 통신 단말기를 위한 음향신호 기반 환경인식 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070076335A KR100822024B1 (ko) 2007-07-30 2007-07-30 상황인지 통신 단말기를 위한 음향신호 기반 환경인식 방법

Publications (1)

Publication Number Publication Date
KR100822024B1 true KR100822024B1 (ko) 2008-04-15

Family

ID=39534786

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070076335A KR100822024B1 (ko) 2007-07-30 2007-07-30 상황인지 통신 단말기를 위한 음향신호 기반 환경인식 방법

Country Status (1)

Country Link
KR (1) KR100822024B1 (ko)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050015243A1 (en) * 2003-07-15 2005-01-20 Lee Eung Don Apparatus and method for converting pitch delay using linear prediction in speech transcoding
US20060190246A1 (en) * 2005-02-23 2006-08-24 Via Telecom Co., Ltd. Transcoding method for switching between selectable mode voice encoder and an enhanced variable rate CODEC
US7117146B2 (en) * 1998-08-24 2006-10-03 Mindspeed Technologies, Inc. System for improved use of pitch enhancement with subcodebooks

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7117146B2 (en) * 1998-08-24 2006-10-03 Mindspeed Technologies, Inc. System for improved use of pitch enhancement with subcodebooks
US20050015243A1 (en) * 2003-07-15 2005-01-20 Lee Eung Don Apparatus and method for converting pitch delay using linear prediction in speech transcoding
US20060190246A1 (en) * 2005-02-23 2006-08-24 Via Telecom Co., Ltd. Transcoding method for switching between selectable mode voice encoder and an enhanced variable rate CODEC

Similar Documents

Publication Publication Date Title
US10540979B2 (en) User interface for secure access to a device using speaker verification
US8554560B2 (en) Voice activity detection
CN106463142B (zh) 话音简档管理和语音信号产生
Chang et al. Voice activity detection based on multiple statistical models
US8990074B2 (en) Noise-robust speech coding mode classification
US20080046241A1 (en) Method and system for detecting speaker change in a voice transaction
CN103377651B (zh) 语音自动合成装置及方法
CN101131817A (zh) 强壮语音分类方法和装置
Sahidullah et al. Comparison of speech activity detection techniques for speaker recognition
KR20160097232A (ko) 블라인드 대역폭 확장의 시스템들 및 방법들
Tong et al. Evaluating VAD for automatic speech recognition
Vlaj et al. A computationally efficient mel-filter bank VAD algorithm for distributed speech recognition systems
KR100822024B1 (ko) 상황인지 통신 단말기를 위한 음향신호 기반 환경인식 방법
Nasibov Decision fusion of voice activity detectors
Kotnik et al. Efficient noise robust feature extraction algorithms for distributed speech recognition (DSR) systems
Kim et al. Performance improvement of a bitstream-based front-end for wireless speech recognition in adverse environments
Preti et al. An application constrained front end for speaker verification
Kafley et al. Continuous digit recognition in mobile environment
Amrous et al. Robust Arabic speech recognition in noisy environments using prosodic features and formant
Mohanty et al. Voice detection using statistical method
Beritelli et al. Adaptive robust speech processing based on acoustic noise estimation and classification
KR100701253B1 (ko) 이동통신 환경 하에서의 서버 기반 음성 인식을 위한음성부호화 방법 및 장치
KR100984094B1 (ko) 가우시안 혼합 모델을 이용한 3세대 파트너십 프로젝트2의 선택 모드 보코더를 위한 실시간 유무성음 분류 방법
KR20100021780A (ko) 선택 모드 보코더에 기초한 보이스-피싱 검출 방법
Balasubramaniyam et al. Feature based Speaker Embedding on conversational speeches

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120330

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20130401

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee