KR101343768B1 - 스펙트럼 변화 패턴을 이용한 음성 및 오디오 신호 분류방법 - Google Patents

스펙트럼 변화 패턴을 이용한 음성 및 오디오 신호 분류방법 Download PDF

Info

Publication number
KR101343768B1
KR101343768B1 KR1020120041045A KR20120041045A KR101343768B1 KR 101343768 B1 KR101343768 B1 KR 101343768B1 KR 1020120041045 A KR1020120041045 A KR 1020120041045A KR 20120041045 A KR20120041045 A KR 20120041045A KR 101343768 B1 KR101343768 B1 KR 101343768B1
Authority
KR
South Korea
Prior art keywords
speech
audio
spectral change
gmm
audio signal
Prior art date
Application number
KR1020120041045A
Other languages
English (en)
Other versions
KR20130118112A (ko
Inventor
이인성
이상길
Original Assignee
충북대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 충북대학교 산학협력단 filed Critical 충북대학교 산학협력단
Priority to KR1020120041045A priority Critical patent/KR101343768B1/ko
Publication of KR20130118112A publication Critical patent/KR20130118112A/ko
Application granted granted Critical
Publication of KR101343768B1 publication Critical patent/KR101343768B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Abstract

본 발명은 음성과 오디오 훈련 신호의 스펙트럼 변화 특징값으로부터 GMM을 도출하는 훈련 단계와, 음성과 오디오 입력 신호의 스펙트럼 변화 특징값과 상기 도출된 GMM을 비교하여 음성과 오디오 신호를 분류하는 단계를 포함하며, 상기 GMM은 음성과 오디오 신호의 스펙트럼 변화 특징 벡터를 이용하여 기대치 최대화 반복 과정에 의하여 도출되는 것을 특징으로 하는 스펙트럼 변화 패턴을 이용한 음성 및 오디오 신호 분류 방법을 제공한다.

Description

스펙트럼 변화 패턴을 이용한 음성 및 오디오 신호 분류방법{Method for speech and audio signal classification using Spectral flux pattern}
본 발명은 음성 및 오디오 신호 분류방법에 관한 것으로서, 상세하게는 스펙트럼 변화 패턴을 이용하여 음성 및 오디오 신호를 분류하는 새로운 방법을 제안한다.
음성 부호화 기술과 오디오 부호화 기술은 각 신호의 특성 및 응용 분야가 다르기 때문에 오랜 기간 동안 각기 다른 부호화 방법을 기반으로 개발되고 발전 되어 왔다. 그러나 최근 방송과 통신 시스템이 융합하는 방향으로 기술이 발전 하면서, 하나의 부호화기로 음성과 오디오 신호를 처리할 수 있는 통합 부호화기의 대한 연구가 활발히 진행되고 있다.
특히, 최근에 표준화를 마친 USAC(Unified speech and audio coding)기술은 AMR-WB+와 HE-AAC를 결합하여 만든 음성과 오디오 통합 부호화기이다. 음성 신호의 경우 AMR-WB+ 기반의 LPD(Linear Prediction Domain)부호화기로 부호화 되고, 오디오 신호의 경우 HE-AAC 기반의 FD(Frequency Domain)부호화기로 부호화 된다. 입력 신호를 받아 음성 및 오디오 신호를 판단하여 LPD 부호화기와 FD 부호화기가 선택적으로 동작한다.
USAC의 음성과 오디오신호를 분류하는 방법은 음조특성(Tonal feature)과 스펙트럼 기울기 특성(Spectrum tilt feature), 전체 에너지(Full band energy)을 이용하여 임계값과의 비교를 통해 신호를 분류하게 된다. 그러나 음성과 오디오신호 분류 성능은 그다지 좋지 않은 문제점이 있다. 특히 캐스터네츠(Castagnettes)나 심벌(Cymbal)과 같은 타악기 오디오 신호는 많은 부분에서 음성 신호로 잘못 판단하는 문제점이 있다.
본 발명은 전술한 기술적 배경하에서 창안된 것으로, 본 발명의 목적은 스펙트럼의 변화 패턴을 특징 벡터로 한 가우시안 혼합 모델을 이용하여 우수한 성능으로 음성 신호와 오디오 신호를 분류하는 것을 그 목적으로 한다.
기타, 본 발명의 또 다른 목적 및 기술적 특징은 이하의 상세한 설명에서 보다 구체적으로 제시될 것이다.
상기 목적을 달성하기 위하여, 본 발명은 음성/오디오 통합 부호화기에서 음성과 오디오 신호를 분류하는 방법으로서, 음성과 오디오 훈련 신호의 스펙트럼 변화(Spectrum Flux) 특징값으로부터 GMM(Gaussian Mixture Model)을 도출하는 훈련 단계와, 음성과 오디오 입력 신호의 스펙트럼 변화 특징값과 상기 도출된 GMM을 비교하여 음성과 오디오 신호를 분류하는 단계를 포함하며, 상기 GMM은 음성과 오디오 신호의 스펙트럼 변화 특징 벡터를 이용하여 기대치 최대화(Expextation maximization) 반복 과정에 의하여 도출되는 것을 특징으로 하는 스펙트럼 변화 패턴을 이용한 음성 및 오디오 신호 분류 방법을 제공한다.
K-means 군집화 과정을 수행하여 기대치 최대화 반복 과정의 초기값을 구하며, 기대치 최대화 과정을 반복하여 음성과 오디오 신호의 스펙트럼 변화 특징을 잘 나타낼 수 있는 GMM을 얻게 된다.
음성 오디오 신호 분류는 입력 신호의 스펙트럼 변화 특징값을 버퍼에 저장하고, 상기 도출된 GMM과 버퍼에 저장된 스펙트럼 변화 특징값의 패턴을 비교하여 수행되며, 상기 버퍼에는 과거 프레임에 대한 스펙트럼 변화 특징값이 함께 저장될 수 있다.
본 발명에 따르면, 스펙트럼 변화 패턴을 이용하여 음성/오디오 신호를 분류함으로써 캐스터네츠(Castagnettes)나 심벌(Cymbal)과 같은 타악기 오디오 신호뿐만 아니라 다른 신호에서도 음성과 오디오 신호를 분류하는 성능을 크게 향상시킬 수 있다.
도 1은 본 발명에 따른 스펙트럼 변화 패턴을 이용한 음성/오디오 신호 분류 과정을 나타내는 블럭도.
도 2는 K-means 군집화 과정을 나타내는 순서도.
도 3은 음성 신호에 대한 최대 기대값 반복 과정을 거친 GMM을 나타내는 도면.
도 4는 오디오 신호에 대한 최대 기대값 반복 과정을 거친 GMM을 나타내는 그래프.
도 5는 오디오, 음성 신호에 대한 스펙트럼 변화를 나타낸 그래프.
도 6은 저장 버퍼의 동작 원리를 나타내는 모식도.
도 7는 오디오 신호에 대한 USAC 과 본 발명에 따른 신호 분류 결과를 비교한 그래프.
도 8은 타악기 오디오 신호에 대한 USAC 과 본 발명에 따른 신호 분류 결과를 비교한 그래프.
도 9은 음성 신호에 대한 USAC 과 본 발명에 따른 신호 분류 결과를 비교한 그래프.
본 발명은 음성/오디오 통합 부호화기에서 음성과 오디오 신호를 분류하는 방법으로서, 음성과 오디오 신호를 스펙트럼 변화 특징의 패턴을 GMM에 적용하여 신호를 분류하는 방법을 제안한다.
구체적으로, 음성과 오디오 신호의 스펙트럼 변화 특징을 잘 나타낼 수 있는 GMM을 찾는 훈련 단계를 포함하며, 훈련 단계에서 찾은 음성과 오디오 신호의 GMM을 이용하여 음성과 오디오 신호를 분류한다. 상기 훈련 단계는 음성과 오디오 신호를 분류하기 전 미리 수행된다. 상기 GMM은 음성과 오디오 신호의 스펙트럼 변화 특징 벡터를 이용하여 기대치 최대화 반복 과정에 의하여 도출된다.
입력 신호의 현재 프레임의 스펙트럼 변화 특징을 버퍼에 저장하고, 앞서 도출된 음성과 오디오 신호의 GMM과 버퍼에 저장된 스펙트럼 변화 특징의 패턴의 로그 우도를 비교하여 음성과 오디오 신호를 분류한다.
이하, 첨부된 도면을 참조하여 본 발명의 동작 원리를 상세히 설명한다.
도 1은 본 발명의 일 실시예에 따른 스펙트럼 변화 패턴을 이용한 음성/오디오 신호 분류방법의 구성을 도시한 블록도이다.
본 발명의 스펙트럼 변화 패턴을 이용한 음성/오디오 신호 분류방법은 음성 및 오디오 신호의 GMM(140)을 도출하는 단계와 도출된 GMM을 이용하여 음성과 오디오 신호를 분류하는 단계로 크게 구성되며, 먼저 GMM 도출 과정에 대해 설명한다.
음성 및 오디오 신호의 GMM 도출
먼저, 음성 및 오디오 신호의 GMM(140)을 도출하는 단계에 대해 살펴 보기로 한다.
음성 및 오디오신호의 GMM을 추출하기 위해 음성과 오디오 훈련(training) 신호(100)를 입력받는다. 입력된 음성 및 오디오 훈련 신호에 대해 스펙트럼 변화 특징 추출 단계(120)에서 스펙트럼 변화값을 추출한다. 스펙트럼 변화(Spectrum Flux; SF) 특징 벡터는 아래의 수학식 1에서와 같이 산출된다.
Figure 112012031250727-pat00001
여기서
Figure 112012031250727-pat00002
은 디지털화된 입력신호를 나타내고,
Figure 112012031250727-pat00003
Figure 112012031250727-pat00004
의 고속 퓨리에 변환(fast fourier transform) 값이다.
Figure 112012031250727-pat00005
은 프레임의 샘플 수로 USAC에서는 1024개의 샘플을 한 프레임으로 사용하기 때문에 본 발명에서도 1024개의 샘플을 사용하여 스펙트럼 변화(Spectrum Flux; SF) 특징 벡터를 추출하였다.
Figure 112012031250727-pat00006
는 현재 프레임을 나타내고
Figure 112012031250727-pat00007
는 이전 프레임을 나타낸다.
다음으로, 최대 기대값 반복 과정의 초기값을 구하기 위해 K-means 군집화 과정을 수행한다.
도 2는 K- means 군집화 과정을 나타낸 것으로, 앞서 추출한 스펙트럼 변화값으로부터 데이터 그룹핑을 통해 임의로 K개의 벡터를 선택하여 K개의 초기 대표 벡터 집합을 생성한다(단계 220). 각 데이터에 대해 K개의 대표 벡터들과의 거리 d를 계산하고 대표 벡터 수정(단계 230)을 실행한다. 반복 여부 결정(단계 240)에서는 수정 전의 대표 벡터와 수정 후의 대표 벡터의 차이를 계산하고 차이가 0 에 가까우면 반복을 멈추게 된다. 최종적으로 기대치 최대화 반복 과정에 사용될 초기 GMM 파라미터를 산출하게 된다(단계 250).
다음으로 음성과 오디오 신호의 특징을 잘 나타내는 GMM을 구하기 위해, 앞서 산출한 초기 GMM 파라미터를 이용하여 최대 기대값 반복 과정(130)(기대치 최대화 과정)을 거치게 된다. 음성과 오디오 신호의 GMM의 모델 파라미터(θ)는 수학식 2와 같이 3개의 가우시안 확률 밀도 함수의 평균(
Figure 112012031250727-pat00008
), 분산(
Figure 112012031250727-pat00009
), 가중치(
Figure 112012031250727-pat00010
)의 혼합 형태로 나타낸다.
Figure 112012031250727-pat00011
기대치 최대화 반복 과정(130)의 초기 평균(
Figure 112012031250727-pat00012
), 분산(
Figure 112012031250727-pat00013
), 가중치(
Figure 112012031250727-pat00014
) 구하기 위해 K-means 군집화 방법(120)을 사용하며, 음성과 오디오 신호의 스펙트럼 변화값을 이용하여 3개의 군집으로 나누어 평균(
Figure 112012031250727-pat00015
), 분산(
Figure 112012031250727-pat00016
), 가중치(
Figure 112012031250727-pat00017
)를 구한다.
기대치 최대화 과정은 수학식 3에서 좌변의 평균(
Figure 112012031250727-pat00018
), 분산(
Figure 112012031250727-pat00019
), 가중치(
Figure 112012031250727-pat00020
)와 우변의 평균(
Figure 112012031250727-pat00021
),분산(
Figure 112012031250727-pat00022
),가중치(
Figure 112012031250727-pat00023
)의 차이가 0에 가까울 때까지 반복하며, 수학식 3에서
Figure 112012031250727-pat00024
은 훈련 신호의 스펙트럼 변화값의 집합을 나타낸다.
Figure 112012031250727-pat00025
기대치 최대화 과정을 통해 얻어지는 최대 기대값은 수학식 4를 만족한다.
Figure 112012031250727-pat00026
기대치 최대화 반복 과정(130)을 통해 최종적으로 산출한 음성과 오디오 신호에 대한 GMM(140)의 일실시예를 도 3와 도 4에 나타내었다.
도 5는 음성과 오디오 신호의 스펙트럼 변화(Spectrum Flux; SF)특징을 보여준다. 음성신호는 에너지가 큰 유성음과 에너지가 작은 무성음과 묵음으로 구성되어 있기 때문에 오디오 신호에 비해 스펙트럼 변화값이 크게 나오는 것을 볼 수 있다. 하지만 오디오 신호에서도 스펙트럼 변화값이 크게 나 올 수도 있기 때문에 하나의 스펙트럼 변화값으로 신호를 분류하게 되면 성능이 떨어지게 된다.
따라서 본 발명에서는 과거 프레임들의 스펙트럼 변화값들을 후술하는 바와 같이 저장 버퍼에 저장하여 GMM을 이용하여 패턴인식을 하게 된다.
GMM 을 이용한 음성과 오디오 신호 분류
다음은, 음성과 오디오에 대한 GMM을 이용하여 음성과 오디오 신호를 분류하는 단계에 대해 설명한다.
먼저, 입력신호(150)가 들어오면 입력신호의 스펙트럼 변화 특징을 추출(160)한다. 이 때에는 수학식 1을 사용한다. 추출한 스펙트럼 변화값 은 저장 버퍼(170)에 저장된다.
도 6은 저장 버퍼의 동작 원리에 대해 나타내고 있다. 저장 버퍼에는 N 개의 과거 프레임, 예를 들어 도 3에 도시한 실시예에서는 과거 20개 프레임에 대한 스펙트럼 변화값(d1 ~ d20)이 저장된다. 따라서 현재 프레임의 신호 분류를 위해 과거 20개 프레임의 스펙트럼 변화 패턴을 이용하여 기존의 음성/오디오 신호 분류 보다 우수한 성능으로 신호를 분류하게 된다.
저장 버퍼에 저장된 데이터를 이용하여 수학식 5과 같이 로그 우도 비교(180)를 통해 최종적으로 신호를 분류하게 된다.
Figure 112012031250727-pat00027
수학식 5에서 N은 버퍼에 저장된 데이터의 개수를 나타내며,
Figure 112012031250727-pat00028
는 오디오 신호에 대한 GMM 파라미터,
Figure 112012031250727-pat00029
는 음성 신호에 대한 GMM 파라미터를 나타낸다.
음성/오디오 신호의 분류 결과
음성 및 오디오 신호에 대하여 최신 음성/오디오 통합 부호화기인 USAC의 음성과 오디오 신호의 분류 결과와 본 발명에 따른 분류 결과를 비교하였다. 실험에 쓰인 음성과 오디오 신호의 GMM을 구하기 위한 훈련(Training) 신호로는 음성신호 5개 오디오 신호 5개의 파일을 사용하였으며, 각 신호에 대한 GMM 결과는 도 3과 도 4에 나타낸 바와 같다.
도 7은 오디오 신호에 대한 USAC 과 본 발명에 따른 신호 분류 결과를 비교한 도면으로, 0 은 음성을, 2는 오디오를 나타낸다. USAC의 신호 분류 결과, 많은 프레임을 오디오 신호로 판단하기는 했지만 음성 신호로 잘못 분류하는 부분이 발생하였다. 반면에 본 발명의 신호 분류 결과는 모든 프레임에 있어서 오디오 신호로 분류된 것을 볼 수 있다.
도 8은 USAC 신호 분류에서 가장 문제가 되는 캐스터네츠 (Castagnettes)와 같은 타악기 신호에 대한 USAC 과 본 발명에 따른 신호 분류 결과를 비교한 도면으로, 0 은 음성을 2는 오디오를 나타낸다. USAC의 신호 분류 결과 모든 프레임을 음성 신호로 잘못 분류하였지만, 본 발명의 신호 분류 결과는 많은 프레임을 오디오 신호로 판단하였다.
도 9는 음성 신호에 대한 USAC 과 본 발명에 따른 신호 분류 결과를 비교한 도면으로, 0 은 음성을 2는 오디오를 나타낸다. USAC의 신호 분류 결과, 많은 프레임을 음성 신호로 판단 하기는 했지만 오디오 신호로 잘못 분류하는 부분이 발생한 반면, 본 발명의 신호 분류 결과는 모든 프레임을 음성 신호로 판단하였다. 이처럼 기존의 USAC의 신호 분류의 성능보다 우수한 성능을 보이는 것을 확인할 수 있었다.
이상에서 바람직한 실시예를 통하여 본 발명을 예시적으로 설명하였으나, 본 발명은 이와 같은 특정 실시예에만 한정되는 것은 아니며 본 발명에서 제시한 기술적 사상, 구체적으로는 특허청구범위에 기재된 범주 내에서 다양한 형태로 수정, 변경, 또는 개선될 수 있을 것이다.
100:훈련 신호 110:스펙트럼 변화 추출
120:K-means 군집화 과정 130:기대치 최대화 반복
140:음성/오디오 GMM 도출 150:입력 신호
160:스펙트럼 변화 추출 170:버퍼 저장
180:로그 우드 비교

Claims (10)

  1. 음성/오디오 통합 부호화기에서 음성과 오디오 신호를 분류하는 방법으로서,
    음성과 오디오 훈련 신호의 스펙트럼 변화(Spectrum Flux) 특징값으로부터 GMM(Gaussian Mixture Model)을 도출하는 훈련 단계와,
    음성과 오디오 입력 신호의 스펙트럼 변화 특징값과 상기 도출된 GMM을 비교하여 음성과 오디오 신호를 분류하는 단계를 포함하며,
    상기 GMM은 음성과 오디오 신호의 스펙트럼 변화 특징 벡터를 이용하여 기대치 최대화(Expextation maximization) 반복 과정에 의하여 도출되는 것을 특징으로 하는
    스펙트럼 변화 패턴을 이용한 음성 및 오디오 신호 분류 방법.
  2. 제1항에 있어서, 훈련 신호의 스펙트럼 변화 특징값은 입력된 음성 및 오디오 훈련 신호에 대해 아래의 1에 따라 산출되며,
    Figure 112012031250727-pat00030

    여기서
    Figure 112012031250727-pat00031
    은 디지털화된 입력 신호,
    Figure 112012031250727-pat00032
    Figure 112012031250727-pat00033
    의 고속 퓨리에 변환값,
    Figure 112012031250727-pat00034
    은 프레임의 샘플 수
    Figure 112012031250727-pat00035
    는 현재 프레임을 나타내고
    Figure 112012031250727-pat00036
    는 이전 프레임을 나타내는
    스펙트럼 변화 패턴을 이용한 음성 및 오디오 신호 분류 방법.
  3. 제1항에 있어서, K-means 군집화 과정을 수행하여 기대치 최대화 반복 과정의 초기값을 구하는 것을 특징으로 하는 스펙트럼 변화 패턴을 이용한 음성 및 오디오 신호 분류 방법.
  4. 제3항에 있어서, 상기 K-means 군집화 과정은
    훈련 신호의 스펙트럼 변화값으로부터 데이터 그룹핑을 통해 임의로 K개의 벡터를 선택하여 K개의 초기 대표 벡터 집합을 생성하고,
    각 데이터에 대해 K개의 대표 벡터들과의 거리 d를 계산하여 대표 벡터를 수정하고,
    수정 전의 대표 벡터와 수정 후의 대표벡터의 차이가 기준값에 도달하면 대표 벡터의 수정을 중단하고, 기대치 최대화 반복 과정에 사용될 초기 GMM 파라미터를 산출하는 단계를 포함하는
    스펙트럼 변화 패턴을 이용한 음성 및 오디오 신호 분류 방법.
  5. 제1항에 있어서, 상기 기대치 최대화 반복 과정에서 음성과 오디오 신호의 GMM의 모델 파라미터(θ)는 아래 식과 같이 3개의 가우시안 확률 밀도 함수의 평균(
    Figure 112012031250727-pat00037
    ), 분산(
    Figure 112012031250727-pat00038
    ), 가중치(
    Figure 112012031250727-pat00039
    )의 혼합 형태로 나타내는
    Figure 112012031250727-pat00040

    스펙트럼 변화 패턴을 이용한 음성 및 오디오 신호 분류 방법.
  6. 제5항에 있어서, 상기 기대치 최대화 과정은 아래 식에서 좌변의 평균(
    Figure 112012031250727-pat00041
    ), 분산(
    Figure 112012031250727-pat00042
    ), 가중치(
    Figure 112012031250727-pat00043
    )와 우변의 평균(
    Figure 112012031250727-pat00044
    ),분산(
    Figure 112012031250727-pat00045
    ),가중치(
    Figure 112012031250727-pat00046
    )의 차이가 0에 가까울 때까지 반복하며,
    Figure 112012031250727-pat00047
    은 훈련 신호의 스펙트럼 변화값의 집합을 나타내는
    Figure 112012031250727-pat00048

    스펙트럼 변화 패턴을 이용한 음성 및 오디오 신호 분류 방법.
  7. 제6항에 있어서, 기대치 최대화 과정을 통해 얻어지는 최대 기대값은 아래 식을 만족하는
    Figure 112012031250727-pat00049

    스펙트럼 변화 패턴을 이용한 음성 및 오디오 신호 분류 방법.
  8. 제1항에 있어서, 입력 신호의 현재 프레임의 스펙트럼 변화 특징값을 버퍼에 저장하고, 상기 도출된 음성과 오디오 신호의 GMM과 버퍼에 저장된 스펙트럼 변화 특징값의 패턴의 로그 우도(log-likelihood)를 비교하여 음성과 오디오 신호를 분류하는 스펙트럼 변화 패턴을 이용한 음성 및 오디오 신호 분류 방법.
  9. 제8항에 있어서, 아래 조건일 때 음성 신호로 분류하고,
    Figure 112012031250727-pat00050

    아래 조건일 때 오디오 신호로 분류하며
    Figure 112012031250727-pat00051

    여기서, N은 버퍼에 저장된 데이터의 수,
    Figure 112012031250727-pat00052
    는 오디오 신호에 대한 GMM 파라미터,
    Figure 112012031250727-pat00053
    는 음성 신호에 대한 GMM 파라미터를 나타내는 스펙트럼 변화 패턴을 이용한 음성 및 오디오 신호 분류 방법.
  10. 제8항에 있어서, 상기 버퍼에는 과거 프레임에 대한 스펙트럼 변화 특징값이 저장되어 있는 스펙트럼 변화 패턴을 이용한 음성 및 오디오 신호 분류 방법.
KR1020120041045A 2012-04-19 2012-04-19 스펙트럼 변화 패턴을 이용한 음성 및 오디오 신호 분류방법 KR101343768B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020120041045A KR101343768B1 (ko) 2012-04-19 2012-04-19 스펙트럼 변화 패턴을 이용한 음성 및 오디오 신호 분류방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120041045A KR101343768B1 (ko) 2012-04-19 2012-04-19 스펙트럼 변화 패턴을 이용한 음성 및 오디오 신호 분류방법

Publications (2)

Publication Number Publication Date
KR20130118112A KR20130118112A (ko) 2013-10-29
KR101343768B1 true KR101343768B1 (ko) 2014-01-16

Family

ID=49636592

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120041045A KR101343768B1 (ko) 2012-04-19 2012-04-19 스펙트럼 변화 패턴을 이용한 음성 및 오디오 신호 분류방법

Country Status (1)

Country Link
KR (1) KR101343768B1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105374359B (zh) * 2014-08-29 2019-05-17 中国电信股份有限公司 语音数据的编码方法和系统
CN104599663B (zh) * 2014-12-31 2018-05-04 华为技术有限公司 歌曲伴奏音频数据处理方法和装置
US10902043B2 (en) 2016-01-03 2021-01-26 Gracenote, Inc. Responding to remote media classification queries using classifier models and context parameters

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070118173A (ko) * 2005-04-01 2007-12-13 퀄컴 인코포레이티드 광대역 스피치 코딩을 위한 시스템, 방법, 및 장치

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070118173A (ko) * 2005-04-01 2007-12-13 퀄컴 인코포레이티드 광대역 스피치 코딩을 위한 시스템, 방법, 및 장치

Also Published As

Publication number Publication date
KR20130118112A (ko) 2013-10-29

Similar Documents

Publication Publication Date Title
KR101704926B1 (ko) 음향 환경 분류를 이용한 심화신경망의 앙상블이 구성된 통계모델 기반의 음성 검출 장치 및 음성 검출 방법
Kristjansson et al. Super-human multi-talker speech recognition: the IBM 2006 speech separation challenge system.
US20130035933A1 (en) Audio signal processing apparatus and audio signal processing method
RU2656681C1 (ru) Способ и устройство для определения режима кодирования, способ и устройство для кодирования аудиосигналов и способ, и устройство для декодирования аудиосигналов
CN103824557A (zh) 一种具有自定义功能的音频检测分类方法
CN109346084A (zh) 基于深度堆栈自编码网络的说话人识别方法
Todkar et al. Speaker recognition techniques: A review
KR101343768B1 (ko) 스펙트럼 변화 패턴을 이용한 음성 및 오디오 신호 분류방법
Malegaonkar et al. Efficient speaker change detection using adapted gaussian mixture models
CN107369451B (zh) 一种辅助鸟类繁殖期的物候研究的鸟类声音识别方法
Ramgire et al. A survey on speaker recognition with various feature extraction and classification techniques
Shahnawazuddin et al. Enhancing the recognition of children's speech on acoustically mismatched ASR system
Lee et al. Speech/audio signal classification using spectral flux pattern recognition
Kenai et al. A new architecture based VAD for speaker diarization/detection systems
KR100869385B1 (ko) 사후 신호대 잡음비, 선행 신호대 잡음비 및 예측 신호대잡음비를 특징 벡터로 이용하는 서포트 벡터머신에 기초한음성 검출 방법
Shekofteh et al. Confidence measure improvement using useful predictor features and support vector machines
KR100527002B1 (ko) 음성 신호의 에너지 분포 특성을 고려한 쉐이핑 장치 및 방법
Sharma et al. Non intrusive codec identification algorithm
Vijayasenan et al. Multistream speaker diarization beyond two acoustic feature streams
Ferrer et al. Class-dependent score combination for speaker recognition.
Al-Sarayreh et al. Using the sound recognition techniques to reduce the electricity consumption in highways
Joshi et al. Speaker diarization: A review
Valanchery Analysis of different classifier for the detection of double compressed AMR audio
Xie et al. Domain Generalization Via Aggregation and Separation for Audio Deepfake Detection
Luque et al. On the modeling of natural vocal emotion expressions through binary key

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20161201

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee