KR100984094B1 - 가우시안 혼합 모델을 이용한 3세대 파트너십 프로젝트2의 선택 모드 보코더를 위한 실시간 유무성음 분류 방법 - Google Patents

가우시안 혼합 모델을 이용한 3세대 파트너십 프로젝트2의 선택 모드 보코더를 위한 실시간 유무성음 분류 방법 Download PDF

Info

Publication number
KR100984094B1
KR100984094B1 KR1020080081618A KR20080081618A KR100984094B1 KR 100984094 B1 KR100984094 B1 KR 100984094B1 KR 1020080081618 A KR1020080081618 A KR 1020080081618A KR 20080081618 A KR20080081618 A KR 20080081618A KR 100984094 B1 KR100984094 B1 KR 100984094B1
Authority
KR
South Korea
Prior art keywords
feature vector
voice
classification
voiced
smv
Prior art date
Application number
KR1020080081618A
Other languages
English (en)
Other versions
KR20100022894A (ko
Inventor
장준혁
송지현
Original Assignee
인하대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인하대학교 산학협력단 filed Critical 인하대학교 산학협력단
Priority to KR1020080081618A priority Critical patent/KR100984094B1/ko
Publication of KR20100022894A publication Critical patent/KR20100022894A/ko
Application granted granted Critical
Publication of KR100984094B1 publication Critical patent/KR100984094B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

본 발명은 가우시안 혼합 모델(Gaussian Mixture Model; GMM)을 이용한 3GPP2의 선택 모드 보코더(Selectable Mode Vocoder; SMV)를 위한 실시간 유무성음 분류 방법에 관한 것으로서, 보다 구체적으로는 (1) SMV의 특징 벡터 중 유무성음 분류에 우수한 성능을 나타내는 특징 벡터를 추출하는 특징 벡터 추출 단계; 및 (2) 상기 특징 벡터 추출 단계에서 추출된 특징 벡터를 GMM의 특징 벡터로 적용하여 유무성음을 분류하는 유무성음 분류 단계를 포함하는 것을 그 구성상의 특징으로 한다.
본 발명에서 제안하고 있는 GPP를 이용한 3GPP2의 SMV를 위한 유무성음 분류 방법에 따르면, SMV의 기존의 특징 벡터 중 유무성음 분류에 우수한 성능을 나타내는 특징 벡터를 추출하여 GMM의 특징 벡터로 적용하여 유무성음을 분류함으로써, 추가되는 계산량을 최소화하면서 유무성음 분류 성능을 크게 향상시킬 수 있다.
유성음, 무성음, 유무성음 분류, 3GPP2(3rd Generation Partnership Project2), 선택 모드 보코더(Selectable Mode Vocoder; SMV), 가우시안 혼합 모델(Gaussian Mixture Model; GMM), 특징 벡터, 계산량

Description

가우시안 혼합 모델을 이용한 3세대 파트너십 프로젝트2의 선택 모드 보코더를 위한 실시간 유무성음 분류 방법{A VOICED/UNVOICED DECISION METHOD FOR THE SMV OF 3GPP2 USING GAUSSIAN MIXTURE MODEL}
본 발명은 가우시안 혼합 모델(Gaussian Mixture Model; GMM)을 이용한 3GPP2의 선택 모드 보코더(Selectable Mode Vocoder; SMV)를 위한 실시간 유무성음 분류 방법에 관한 것으로서, 보다 구체적으로는 SMV의 기존의 특징 벡터 중 유무성음 분류에 우수한 성능을 나타내는 특징 벡터를 추출하여 GMM의 특징 벡터로 적용하여 유무성음을 분류함으로써, 추가되는 계산량을 최소화하면서 유무성음 분류 성능을 향상시킬 수 있는 3GPP2의 SMV를 위한 유무성음 분류 방법에 관한 것이다.
최근 새로운 디지털 무선 통신 시스템과 양방향 음성 통신 서비스가 비약적으로 발전하면서, 한정된 주파수 자원과 같은 디지털 무선 통신 시스템 환경의 효율적인 사용에 대한 연구가 진행되고 있다. 특히, 네트워크와 전송 채널 상태에 따라서 전송 속도가 유연하게 변화함과 동시에 높은 품질을 보장하는 가변 전송률 음성 부호화 기술이 크게 각광받고 있다. 실제로 우수한 가변적인 비트 율(bit rate)을 갖는 음성 코덱의 실현을 위해서 유/무성음 구간을 분류하는 알고리즘의 성능이 중요한 요소로 작용하고 있고, 이와 관련하여 다양한 잡음 환경에서도 우수한 성능을 보이는 알고리즘의 연구가 활발히 진행되고 있다. 특히, 신호의 주기적 특성을 이용한 방법과 통계적 특성을 이용한 방법이 유/무성음 분류 알고리즘에서 매우 우수한 성능을 보여 주는 것으로 알려져 있는데, 여기서 특징 벡터로서는 영교차율, 에너지, 피치, 상관계수, 선형 예측 계수 등이 사용된다.
SMV는 유럽 통신 표준 기구(European Telecommunications Standards Institute; ETSI)의 3GPP2 표준 코덱으로서, 확장된 CELP(extended Code Excited Linear Prediction; ex-CELP) 기반의 압축 방식을 사용하는데, 사람의 청각 특성에 최적화된 모델을 사용하여 음성을 저전송률로 압축하는데 효율적이다. 또한, 한정된 주파수 대역을 효율적으로 사용하기 위하여 가변 전송률을 갖고 이동국과 기지국 사이의 통신망 채널에 따라서 동적으로 바뀌는 4가지 모드를 제공하여 다양한 평균 전송률을 갖는 특성 때문에 시스템의 효율성과 음질 간의 관계를 선택적으로 조절 할 수 있다. 다음 표 1은 SMV에서 유성음 44%, 무성음 13.1%, 무음 42.9%로 구성된 깨끗한 음성 테스트 파일의 각 모드에 대한 결정된 전송률의 백분율을 보여준다.
모드 0 모드 1 모드 2 모드 3
전송률 1
(8.55 kbps)
55.9 28.5 11.0 5.3
전송률 1/2
(4.0 kbps)
4.5 18.7 36.2 42.0
전송률 1/4
(2.0 kbps)
0 10.8 9.7 9.7
전송률 1/8
(0.8 kbps)
39.6 41.9 42.9 42.9
SMV는 8 kHz로 샘플링된 입력신호를 20 ms 길이의 프레임 단위로 처리한다. 도 1은 SMV의 인코딩 과정에 대한 블록도를 나타내는 도면이다. 입력신호는 먼저 전처리 과정으로서, 고대역 통과 필터를 통과한 후 잡음 억제기를 통과한다. 프레임 처리단계에서는 전 처리된 신호로부터 피치, 단기 예측 오차, 선형 예측 계수 등을 계산한다. 신호 분류 단계에서는 프레임 처리 단계를 통해서 구해진 특징 벡터들과 각각의 문턱 값과의 비교를 통해서 프레임을 잡음, 묵음, 무성음, 비정상적 유성음, 정상적 유성음, 변화 중 한 개로 분류하고, 통신 상태에 따라서 결정된 모드와 현재 프레임의 분류된 타입을 기반으로 전송률 결정 알고리즘에 의해 전송률을 결정한다. 전송률 1(Rate 1) 또는 전송률 1/2(Rate 1/2)로 분류된 경우, 다시 비정상적 유성음을 나타내는 타입 0(Type 0)과 정상적 유성음을 나타내는 타입 1(Type 1)로 나누어져 비트를 할당한다. Type 0은 Type 1에 비해서 적응 코드북에 더 많은 비트를 할당하고 고정 코드북에는 더 적은 비트를 할당하여 부호화한다. 전송률 1/4(Rate 1/4) 또는 전송률 1/8(Rate 1/8)은 선 스펙트럼 주파수(Line Spectral Frequencies; LSF)와 에너지를 이용하여 부호화한다.
SMV는 유/무성음 분류 알고리즘의 결과를 기반으로 입력된 신호의 프레임 분류 및 전송률을 결정하기 때문에 유/무성음 분류 알고리즘의 성능은 음성 코덱에서 매우 중요한 요소가 된다. 도 2는 SMV의 유/무성음 블록도를 나타내는 도면이다. 도 2에 도시된 바와 같이, 전 처리된 신호와 개회로 피치 검출을 통해서 구해진 특징 벡터를 이용하여 유/무성음을 분류한다. 먼저, 유/무성음 분류기는 음성 검출기(Voice Activity Detection; VAD)의 분류 결과를 통해서 입력 신호를 무음과 무성음으로 분류한다. 무성음으로 분류된 프레임은 변화 검출기를 통해서 변화와 무성음으로 분류되고, 무성음은 다시 유성음 검출기를 통해서 유성음과 무성음으로 재분류된다. 즉, SMV의 유/무성음 분류 알고리즘은 입력된 신호를 유성음과 변화로 구분하고 나머지 프레임은 무성음으로 분류한다. 이와 같이, 유성음 검출기의 성능이 유/무성음 분류 알고리즘의 성능을 결정하게 되며, 따라서 3GPP2의 SMV를 위한 향상된 유무성음 분류 방법을 개발할 필요성이 있다.
본 발명은 상기와 같은 필요성 인식에 의하여 제안된 것으로서, SMV의 기존의 특징 벡터 중 유무성음 분류에 우수한 성능을 나타내는 특징 벡터를 추출하여 GMM의 특징 벡터로 적용하여 유무성음을 분류함으로써, 추가되는 계산량을 최소화하면서 유무성음 분류 성능을 향상시킬 수 있는 3GPP2의 SMV를 위한 유무성음 분류 방법을 제공하는 것을 그 목적으로 한다.
상기한 목적을 달성하기 위한 본 발명의 특징에 따른, 가우시안 혼합 모델(Gaussian Mixture Model; GMM)을 이용한 3GPP2(3rd Generation Partnership Project 2)의 선택 모드 보코더(Selectable Mode Vocoder; SMV)를 위한 실시간 유무성음 분류 방법은,
(1) SMV의 특징 벡터 중 유무성음 분류에 우수한 성능을 나타내는 특징 벡터를 추출하는 특징 벡터 추출 단계; 및
(2) 상기 특징 벡터 추출 단계에서 추출된 특징 벡터를 GMM의 특징 벡터로 적용하여 유무성음을 분류하는 유무성음 분류 단계를 포함하는 것을 그 구성상의 특징으로 한다.
바람직하게는, 상기 특징 벡터 추출 단계 이전에, 입력된 신호에 대하여 음성 존재 유무를 결정하는 음성 검출 단계를 더 포함하며, 상기 음성 검출 단계에서 음성이 존재하는 것으로 결정되는 경우에만 상기 특징 벡터 추출 단계 및 유무성음 분류 단계를 수행한다.
바람직하게는, 상기 유무성음 분류 단계는, 추출된 특징 벡터와 GMM을 이용하여 유성음과 무성음에 대한 우도를 생성하고, 우도비 테스트(likelihood ratio test; LRT)를 통해 유무성음을 분류하는 것을 특징으로 한다.
바람직하게는, 상기 특징 벡터 추출 단계는, 에너지, 피치, 피치 상관계수, 반사 계수를 특징 벡터로서 추출한다.
바람직하게는, 상기 유무성음 검출 단계는, 유무성음에 대한 특징 벡터의 분포를 가장 잘 나타낼 수 있는 모델을 찾는 훈련 단계와, 훈련된 모델을 이용하여 유무성음을 분류하는 분류 단계로 구성되는 것을 특징으로 한다.
더욱 바람직하게는, 상기 훈련 단계는 미리 먼저 수행될 수 있는 것을 특징으로 한다.
본 발명에서 제안하고 있는 GPP를 이용한 3GPP2의 SMV를 위한 유무성음 분류 방법에 따르면, SMV의 기존의 특징 벡터 중 유무성음 분류에 우수한 성능을 나타내는 특징 벡터를 추출하여 GMM의 특징 벡터로 적용하여 유무성음을 분류함으로써, 추가되는 계산량을 최소화하면서 유무성음 분류 성능을 크게 향상시킬 수 있다.
이하에서는 첨부된 도면들을 참조하여, 본 발명에 따른 실시예에 대하여 상세하게 설명하기로 한다.
도 3은 본 발명의 일 실시예에 따른 GMM을 이용한 3GPP2의 SMV를 위한 실시간 유무성음 분류 방법의 구성을 나타내는 도면이다. 도 3에 도시된 바와 같이, 본 발명의 일 실시예에 따른 GMM을 이용한 3GPP2의 SMV를 위한 실시간 유무성음 분류 방법은, 특징 벡터 추출 단계(S10) 및 유무성음 분류 단계(S20)를 포함한다. 또한, 도 3에 도시된 바와 같이, 본 발명의 일 실시예에 따른 GMM을 이용한 3GPP2의 SMV를 위한 실시간 유무성음 분류 방법은, 특징 벡터 추출 단계(S10) 이전에, 음성 검출 단계(S30)를 더 포함할 수 있다.
특징 벡터 추출 단계(S10)는, SMV의 특징 벡터 중 유무성음 분류에 우수한 성능을 나타내는 특징 벡터를 추출하는 역할을 한다. 특징 벡터 추출 단계(S10)에서는, 에너지, 피치, 피치 상관계수, 반사 계수를 특징 벡터로서 추출할 수 있다.
유무성음 분류 단계(S20)는, 특징 벡터 추출 단계(S10)에서 추출된 특징 벡터를 GMM의 특징 벡터로 적용하여 유무성음을 분류하는 역할을 한다. 유무성음 분류 단계(S20)는, 특징 벡터 추출 단계(S10)에서 추출된 특징 벡터와 GMM을 이용하여 유성음과 무성음에 대한 우도를 생성하고, 우도비 테스트(likelihood ratio test; LRT)를 통해 유무성음을 분류한다. 또한, 유무성음 분류 단계(S20)는, 유무성음에 대한 특징 벡터의 분포를 가장 잘 나타낼 수 있는 모델을 찾는 훈련 단계와, 훈련된 모델을 이용하여 유무성음을 분류하는 분류 단계로 구성될 수 있다. 여기서, 훈련 단계는 다른 모든 단계 이전에 미리 먼저 수행될 수 있다.
음성 검출 단계(S30)는, 특징 벡터 추출 단계(S10) 이전에, 입력된 신호에 대하여 음성 존재 유무를 결정하는 역할을 한다. 음성 검출 단계(S30)에서 음성이 존재하는 것으로 결정되는 경우에만 특징 벡터 추출 단계(S10) 및 유무성음 분류 단계(S20)를 수행하게 된다.
본 발명에서는 SMV의 유/무성음 분류 성능을 향상시키기 위해서 실시간 GMM 기반의 분류 알고리즘을 제안한다. 본 발명에서 제안된 방법은, SMV의 특징 벡터 중 유/무성음 분류 알고리즘에서 우수한 성능을 보여주는 특징 벡터를 별도의 계산 과정 없이 추출하여 GMM의 특징 벡터로 사용하여 분류 성능을 향상시킨다. 본 발명에서 GMM의 특징 벡터로서 사용되고 있는 각각의 특징 벡터에 대하여 살펴보기로 한다.
1. 본 발명에서 사용되고 있는 특징 벡터
GMM의 특징 벡터는 특징 벡터의 통계적 편차가 클수록 더욱 우수한 성능을 보여준다는 점에 착안하여, GMM의 특징 벡터를 선택하기 위해서 SMV에서 사용되는 특징 벡터의 통계적 분포를 분석하였다. 본 발명에서는 도 4에 도시한 바와 같이 통계적 분포 특성이 우수한 에너지, 피치, 피치 상관계수, 반사 계수를 특징 벡터로 사용하였다.
(1) 에너지(E)
일반적으로 에너지는 유성음은 크고, 무성음은 작게 나타나는 특성 때문에 유/무성음 분류 알고리즘에서 우수한 특징 벡터로 이용된다. SMV에서는 선형 예측 부호화(Linear Prediction Coding; LPC) 분석 과정에서 추출된 신호의 파워(R1(0)) 와 LPC 윈도우의 길이 Llpc(=240)을 이용하여 다음 수학식 1과 같이 얻어질 수 있다.
Figure 112008059412317-pat00001
(2) 피치, 피치 상관계수
SMV의 개회로 피치 검출 과정은 도 5와 같은 3개의 윈도우를 이용하여 3개의 피치와 피치 상관계수가 추출되고 고정된 문턱 값과 이전 프레임의 피치를 이용하여 각 프레임 간 상관성을 고려하여 수정된다.
(3) 반사계수 (reflection coefficients)
음성 프레임의 마지막 1/4에 중심을 둔 윈도우를 이용하여 계산된 LPC 계수를 Levinson-Durbin 알고리즘에 사용하여 얻어질 수 있다.
다음으로 가우시안 혼합 모델(GMM)에 대하여 살펴보기로 한다.
2. 가우시안 혼합 모델(Gaussian Mixture Model; GMM)
먼저 유/무성음 분류 시스템에서 사용되는 GMM은 가우시안 혼합성분 밀도의 가중치 합의 함수로서 다음 수학식 2와 같이 정의된다.
Figure 112008059412317-pat00002
여기서,
Figure 112008059412317-pat00003
Figure 112008059412317-pat00004
여기서, αi는 혼합 성분의 가중치를, μi는 평균 벡터를, Σi는 공분산 행렬을 각각 나타낸다.
GMM은 크게 유/무성음에 대한 특징 벡터의 분포를 가장 잘 나타낼 수 있는 모델을 찾는 훈련부와 이 모델을 이용하여 유/무성음을 분류하는 인식부로 나눌 수 있다. 먼저 훈련부는 전술한 바와 같은 파라미터를 가지고 Expectation Maximization(EM) 알고리즘 기반의 학습을 통해서 유/무성음에 대한 혼합 가우시안 모델 λ을 추정하고 인식부는 훈련부에 만들어진 λ을 이용해서 입력된 음성 신호에 대한 사후 확률을 구하여 가장 큰 확률을 갖는 모델을 다음 수학식 3과 같이 찾는다.
Figure 112008059412317-pat00005
본 발명에서는 GMM의 특징 벡터로서 SMV의 유/무성음 분류 알고리즘에 사용되는 피치 상관계수, 피치와 이전에 추출된 특징 벡터인 에너지와 반사계수를 사용하여 다양한 혼합성분 개수로 λv(유성음 모델)와 λu(무성음 모델)를 추정하였다. 테스트 과정에서 GMM의 모델 파라미터 λv와 λu에 실제 데이터가 입력되어 각 모델에 대한 우도를 생성하고, 다음 수학식 4와 같은 우도비(Likelihood Ratio)를 이용하여 유/무성음을 분류한다.
Figure 112008059412317-pat00006
여기서, η는 유/무성음 분류의 임계값이고, t는 프레임 번호를 나타낸다.
3. 실험
본 발명에서 제안된 GMM 기반의 유/무성음 분류 성능을 평가하기 위해서 4명의 여자와 4명의 남자에 의해서 녹음된 NTT 음성데이터베이스가 사용되었다. 실험의 GMM 훈련에서 유성음 44.0%, 무성음 13.1%, 무음 42.9%로 구성된 총 230초의 깨끗한 음성이 사용되었고, 테스트에는 총 220초의 음성이 사용되었다. 실제로 신뢰 성 있는 결과 도출을 위해 훈련에 사용된 데이터는 테스트에 사용되지 않았고, 두 시스템의 실제 성능을 판단하기 위해서 20 ms마다 유성음(2), 무성음(1), 무음(0)으로 수동으로 표시한 매뉴얼을 만들었다. 잡음 환경은 car, street, office, white를 사용하였으며 SNR을 5, 10, 15, 20 dB로 부가하였다.
먼저, 기존의 SMV와 본 발명에서 제안된 방법의 유/무성음 분류 성능을 비교하기 위해서, 유/무성음 검출 확률(Pd) 실험을 하였다. 다음 표 2는 기존의 SMV와 본 발명에서 제안된 방법에서 실제 유성음을 유성음이라고 판단한 유성음 검출 확률(Pv)과 무성음을 무성음이라고 판단한 무성음 검출 확률(Pu)을 나타내고 있다.
환경 기존의 SMV 제안된 방법
잡음 SNR (dB) 유성음 무성음 유성음 무성음
깨끗한 환경 0.85 0.80 0.95 0.93
car 5 0.81 0.90 0.95 0.81
10 0.84 0.85 0.95 0.89
15 0.85 0.79 0.95 0.91
20 0.86 0.76 0.96 0.90
street 5 0.67 0.46 0.93 0.82
10 0.77 0.55 0.94 0.87
15 0.83 0.61 0.94 0.89
20 0.85 0.65 0.95 0.89
office 5 0.49 0.53 0.87 0.75
10 0.68 0.59 0.89 0.89
15 0.79 0.66 0.92 0.91
20 0.84 0.66 0.94 0.91
white 5 0.57 0.16 0.87 0.93
10 0.73 0.31 0.89 0.93
15 0.78 0.42 0.90 0.93
20 0.85 0.55 0.95 0.91
표 2에서 확인할 수 있는 바와 같이, 기존의 SMV의 유/무성음 분류 알고리즘의 경우, car 노이즈 같은 특수한 노이즈 환경에서 다소 우수한 성능을 보여주는 반면에, 본 발명에서 제안된 방법은 대부분의 잡음 환경에서 전체적으로 우수한 성능을 보여주었다. 특히, office 잡음과 white 잡음 환경에서 매우 향상된 성능을 나타내었다.
도 6은 15dB SNR을 갖는 office 잡음 환경 하에서, 기존의 SMV와 본 발명에서 제안된 방법의 유/무성음 분류 결과를 시간축 상에서 테스트 파일의 매뉴얼과 비교하여 나타내는 도면이다. 도 6에서, (a)는 테스트 파일의 파형을, (b)는 기존의 SMV의 유/무성음 분류 결과를, (c)는 본 발명에서 제안된 방법의 유/무성음 분류 결과를 각각 나타내고 있다. 도 6의 (b)와 (c)에서 점선은 테스트 파일의 매뉴얼을 나타내는데, 유성음(2.5), 무성음(1.5), 무음(0.5)을 표시하고 있다. 실험 결과로부터 본 발명에서 제안된 실시간 GMM기반의 유/무성음 분류 방법이 기존의 SMV 유/무성음 분류 방법보다 대폭 향상된 결과를 나타냄을 검증할 수 있었다.
이상 설명한 본 발명은 본 발명이 속한 기술분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.
도 1은 SMV의 인코딩 과정에 대한 블록도를 나타내는 도면.
도 2는 SMV의 유/무성음 블록도를 나타내는 도면.
도 3은 본 발명의 일 실시예에 따른 GMM을 이용한 3GPP2의 SMV를 위한 실시간 유무성음 분류 방법의 구성을 나타내는 도면.
도 4는 SMV 특징 벡터에 대한 통계적 분포를 나타내는 도면.
도 5는 LPC 윈도우를 나타내는 도면.
도 6은 15dB SNR을 갖는 office 잡음 환경 하에서, 기존의 SMV와 본 발명에서 제안된 방법의 유/무성음 분류 결과를 시간축 상에서 테스트 파일의 매뉴얼과 비교하여 나타내는 도면.
<도면 중 주요 부분에 대한 부호의 설명>
S10: 특징 벡터 추출 단계
S20: 유무성음 분류 단계
S30: 음성 검출 단계

Claims (6)

  1. 가우시안 혼합 모델(Gaussian Mixture Model; GMM)을 이용한 3GPP2(3rd Generation Partnership Project 2)의 선택 모드 보코더(Selectable Mode Vocoder; SMV)를 위한 실시간 유무성음 분류 방법으로서,
    (1) SMV의 특징 벡터 중 유무성음 분류에 우수한 성능을 나타내는 특징 벡터를 추출하는 특징 벡터 추출 단계; 및
    (2) 상기 특징 벡터 추출 단계에서 추출된 특징 벡터를 GMM의 특징 벡터로 적용하여 유무성음을 분류하는 유무성음 분류 단계를 포함하되,
    상기 유무성음 분류에 우수한 성능을 나타내는 특징 벡터는 통계적 편차가 큰 에너지, 피치, 피치 상관계수, 반사 계수를 포함하며,
    상기 특징 벡터 추출 단계는, 에너지, 피치, 피치 상관계수, 반사 계수를 특징 벡터로서 추출하는 것을 특징으로 하는 유무성음 분류 방법.
  2. 제1항에 있어서,
    상기 특징 벡터 추출 단계 이전에, 입력된 신호에 대하여 음성 존재 유무를 결정하는 음성 검출 단계를 더 포함하며, 상기 음성 검출 단계에서 음성이 존재하는 것으로 결정되는 경우에만 상기 특징 벡터 추출 단계 및 유무성음 분류 단계를 수행하는 것을 특징으로 하는 유무성음 분류 방법.
  3. 제1항에 있어서,
    상기 유무성음 분류 단계는, 추출된 특징 벡터와 GMM을 이용하여 유성음과 무성음에 대한 우도를 생성하고, 우도비 테스트(likelihood ratio test; LRT)를 통 해 유무성음을 분류하는 것을 특징으로 하는 유무성음 분류 방법.
  4. 삭제
  5. 제1항에 있어서,
    상기 유무성음 분류 단계는, 유무성음에 대한 특징 벡터의 분포를 가장 잘 나타낼 수 있는 모델을 찾는 훈련 단계와, 훈련된 모델을 이용하여 유무성음을 분류하는 분류 단계로 구성되며,
    상기 훈련 단계의 상기 유무성음에 대한 특징 벡터의 분포를 가장 잘 나타낼 수 있는 모델은 Expectation Maximization(EM) 알고리즘 기반의 학습을 통해서 추정한 유무성음에 대한 혼합 가우시안 모델인 것을 특징으로 하는 유무성음 분류 방법.
  6. 제5항에 있어서,
    상기 훈련 단계는 미리 먼저 수행될 수 있는 것을 특징으로 하는 유무성음 분류 방법.
KR1020080081618A 2008-08-20 2008-08-20 가우시안 혼합 모델을 이용한 3세대 파트너십 프로젝트2의 선택 모드 보코더를 위한 실시간 유무성음 분류 방법 KR100984094B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020080081618A KR100984094B1 (ko) 2008-08-20 2008-08-20 가우시안 혼합 모델을 이용한 3세대 파트너십 프로젝트2의 선택 모드 보코더를 위한 실시간 유무성음 분류 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080081618A KR100984094B1 (ko) 2008-08-20 2008-08-20 가우시안 혼합 모델을 이용한 3세대 파트너십 프로젝트2의 선택 모드 보코더를 위한 실시간 유무성음 분류 방법

Publications (2)

Publication Number Publication Date
KR20100022894A KR20100022894A (ko) 2010-03-03
KR100984094B1 true KR100984094B1 (ko) 2010-09-28

Family

ID=42175315

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080081618A KR100984094B1 (ko) 2008-08-20 2008-08-20 가우시안 혼합 모델을 이용한 3세대 파트너십 프로젝트2의 선택 모드 보코더를 위한 실시간 유무성음 분류 방법

Country Status (1)

Country Link
KR (1) KR100984094B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108831509B (zh) * 2018-06-13 2020-12-04 西安蜂语信息科技有限公司 基音周期的确定方法、装置、计算机设备和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070019863A (ko) * 2005-08-11 2007-02-15 삼성전자주식회사 음성신호 분류방법 및 장치, 및 이를 이용한 음성신호부호화방법 및 장치

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070019863A (ko) * 2005-08-11 2007-02-15 삼성전자주식회사 음성신호 분류방법 및 장치, 및 이를 이용한 음성신호부호화방법 및 장치

Also Published As

Publication number Publication date
KR20100022894A (ko) 2010-03-03

Similar Documents

Publication Publication Date Title
Ramırez et al. Efficient voice activity detection algorithms using long-term speech information
Ramirez et al. Voice activity detection. fundamentals and speech recognition system robustness
JP4870313B2 (ja) 可変レート音声符号器におけるフレーム消去補償方法
KR100962681B1 (ko) 오디오신호들의 분류
RU2331933C2 (ru) Способы и устройства управляемого источником широкополосного кодирования речи с переменной скоростью в битах
US6694293B2 (en) Speech coding system with a music classifier
US7269561B2 (en) Bandwidth efficient digital voice communication system and method
CN104318927A (zh) 一种抗噪声的低速率语音编码方法及解码方法
US20040117176A1 (en) Sub-sampled excitation waveform codebooks
De Lamare et al. Strategies to improve the performance of very low bit rate speech coders and application to a variable rate 1.2 kb/s codec
EP1617416B1 (en) Method and apparatus for subsampling phase spectrum information
KR100925256B1 (ko) 음성 및 음악을 실시간으로 분류하는 방법
Chow et al. Robust speaker identification based on perceptual log area ratio and Gaussian mixture models.
JP4696418B2 (ja) 情報検出装置及び方法
KR100984094B1 (ko) 가우시안 혼합 모델을 이용한 3세대 파트너십 프로젝트2의 선택 모드 보코더를 위한 실시간 유무성음 분류 방법
Zhang et al. A CELP variable rate speech codec with low average rate
Beritelli A modified CS-ACELP algorithm for variable-rate speech coding robust in noisy environments
Gibson et al. New rate distortion bounds for speech coding based on composite source models
Preti et al. An application constrained front end for speaker verification
Oshikiri et al. A 2.4‐kbps variable‐bit‐rate ADP‐CELP speech coder
Ali et al. Low bit-rate speech codec based on a long-term harmonic plus noise model
Al-Othmani et al. Correlation Between Speaker Gender and Perceptual Quality of Mobile Speech Signal
Anselam et al. QUALITY EVALUATION OF LPC BASED LOW BIT RATE SPEECH CODERS
Fedila et al. Influence of G722. 2 speech coding on text-independent speaker verification
Song et al. Efficient Implementation of Voiced/Unvoiced Sounds Classification Based on GMM for SMV Codec

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130527

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20140612

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20150626

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20160602

Year of fee payment: 7

LAPS Lapse due to unpaid annual fee